股息率

python股票数据定向爬取

可紊 提交于 2020-01-29 17:22:50
说明:所有内容均作为学习用途 一.功能描述 1.获取上交所所有股票的名称和交易信息; 2.保存到文件中 3.技术路线 requests-bs4-re 二.候选网站数据选择 1.股票信息静态存在于HTML页面中,非js代码生成;无robots协议限制; 2.选取方法:源代码查看,例如 本案例选取的 同花顺,右键网页查看源代码,复制关键词,如 中国平安,可在源代码中找到,此为代码写在HTML中; 候选网站: 同花顺 ,作为获取沪交所股票代码编号; 集思录 获取具体的股票信息。 目标获取的信息如下: 三.程序结构的设计 1. 从东方财富网获取股票列表 2. 根据股票列表逐个到百度股票获取个股信息 3. 将结果存储到文件 源代码分析:只要获取到 a 标签,然后获取到其中链接的股票代码即可(使用正则表达式 \d{6} ) 这一部代码: def getStockList ( lst , stockURL ) : # 在同花顺网站获取股票编码 html = getHTMLText ( stockURL ) soup = BeautifulSoup ( html , 'lxml' ) a = soup . find_all ( 'a' ) for i in a : try : href = i . attrs [ 'href' ] if re . findall ( r '\d{6}' ,