python爬虫

末鹿安然 提交于 2020-02-12 16:18:00

爬取河北省卫生健康委员会疫情通报标题目录,由于标题中有其他通报,所以需要筛选出所有关于疫情情况的标题,并爬取地址链接,代码如下:


from lxml import etreeimport reimport requests
def get_url(url):    strhtml = requests.get(url)  # Get方式获取网页数据    tree = etree.HTML(strhtml.text)    return tree
if __name__ == '__main__':
    url = 'http://www.hebwst.gov.cn/index.do?cid=326&templet=list'
    list_url = get_url(url)
    tltle_ = list_url.xpath('//tr/td/a//text()')
    url_ = list_url.xpath('//tr/td/a/@href')
    l = []
    url_tltles = [] #疫情标提列表
    url_list = [] #疫情详情页列表
    for i in tltle_:
        if i == '\r\n\t\t\t\t\t\t':
            pass
        else:
            l.append(i)

    for index,i in enumerate(l):
        if '河北省新型冠状病毒' not in i :
            pass
        else:
            url_list.append(url_[index])
            url_tltles.append(i)
    for index,i in enumerate(url_list):
        url = 'http://www.hebwst.gov.cn/'+i

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!