scrapy发送翻页请求
1.翻页请求的思路 对于要提取如下图中所有页面上的数据该怎么办? 回顾requests模块是如何实现翻页请求的: 找到下一页的URL地址 调用requests.get(url) scrapy实现翻页的思路: 找到下一页的url地址 构造url地址的请求,传递给引擎 2.scrapy实现翻页请求 2.1 实现方法 确定url地址 构造请求,scrapy.Request(url,callback) callback:指定解析函数名称,表示该请求返回的响应使用哪一个函数进行解析 把请求交给引擎:yield scrapy.Request(url,callback) 2.2 腾讯招聘爬虫 通过爬取腾讯招聘的页面的招聘信息,学习如何实现翻页请求 地址: http://hr.tencent.com/position.php 思路分析: 获取首页的数据 寻找下一页的地址,进行翻页,获取数据 注意 : 1.可以在settings中设置ROBOTS协议 # False表示忽略网站的robots.txt协议,默认为True ROBOTSTXT_OBEY = False 2.可以在settings中设置User-Agent: # scrapy发送的每一个请求的默认UA都是设置的这个User-Agent USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X