简历模板批量下载

浪子不回头ぞ 提交于 2019-11-28 14:51:05

简历模板批量下载

思路

1.首先研究分页,发现除了第一页请求特例,后面页数有规律

2.研究html,找到简历的下载界面

3.进入下载界面,找到下载链接

4.通过下载链接下载数据,保存本地

import requests
from lxml import etree
import os

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}

def work(page):
    if not os.path.exists("dic"):
        os.mkdir("dic")

    count=1

    while count <= page:
        #第一页请求特殊,独立处理
        if count == 1 :
            url="http://sc.chinaz.com/jianli/free.html"
        else:
            url=f"http://sc.chinaz.com/jianli/free_{count}.html"
        res=requests.get(url=url,headers=headers)
        res.encoding=res.apparent_encoding
        tree=etree.HTML(res.text)
        #获取下载界面的a标签
        a_s=tree.xpath("//div[@class='box col3 ws_block']/a/@href")
        for i in a_s:
            res2=requests.get(url=i,headers=headers)
            tree2=etree.HTML(res2.text)
            #找到下载链接
            do_url=tree2.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')[-1]

            file_name=do_url[-11:]
            #写入本地
            res3=requests.get(url=do_url,headers=headers).content
            with open(f"dic/{file_name}","wb")as fw:
                fw.write(res3)
                print(file_name+"写入成功!")
        count+=1

if __name__ == '__main__':
    work(5)



'''
由于第一页的分页请求比较特殊,需要进行单独处理
http://sc.chinaz.com/jianli/free.html
http://sc.chinaz.com/jianli/free_2.html
http://sc.chinaz.com/jianli/free_3.html
'''
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!