广西招聘数据

Scrapy 通用爬虫爬取广西人才网数据记录(上,企业信息)

五迷三道 提交于 2019-12-07 12:24:22
背景 这一次的通用爬虫跟以往默认的spider不一样,它的爬取可以通过正则将范围扩大,而且它也不注重那么细的内容,能爬尽量爬、不能爬就略过的思维,比较有意思。 独特之处 它的独特性主要表现在这几个地方: 模板与默认爬虫模板不一样,在创建默认工程时用的命令是 scrapi genspider gxrc www.gxrc.com,而通用爬虫在创建工程时用的命令则是 scrapi genspider -t crawl gxrc www.gxrc.com,意思是指定crawl模板。 配置要求不同,因为大规模爬取数据一般都是无需登录的网站,而且根据略过思维,对于重定向和超时还有爬取日志以及并发数、cookie禁用都是提供了配置,这些在 官方文档都有记录 。 Follow的坑 我在开始爬取的过程中,因为不太熟悉crawlspider的follow规则,所以绕了几次弯路,后来才熟悉: follow只跟进当前页面的url,(符合Rule正则的都跟进) follow不会自动跟进全站url,因为第一条的存在,所以它是不会自动跟进全站的 Rule是个坑,strat_urls更加是个坑。 广西人才网 它也是很独特的,为什么这么描述呢: 它在首页呈现的企业信息没多少,所以如果将首页url设置为start_urls,那么根据follow的坑,肯定是不能够全部抓取的。 如果是进入子分类,比如能源行业、汽车行业