爬虫之scrapy框架(二)
目录 一、使用scrapy整站爬取网站信息 scrapy的真正起始爬取方法 使用scrapy整站爬取cnblogs网站信息大致思路 二、scrapy的请求传参 三、提升scrapy爬取数据的效率 四、scrapy的下载中间件 下载中间件使用代理池 scrapy settings详细介绍 五、selenium在scrapy中的使用流程 六、scrapy框架去重规则 七、scrapy-redis分布式爬虫 八、常见反扒措施 一、使用scrapy整站爬取网站信息 scrapy的真正起始爬取方法 当我们启动spider.py文件时,会执行我们设置好的 start_urls ,但是源码真正是如何处理的呢?我们进入scrapy.Spider查看源码,Spider类下有如下代码: def start_requests(self): cls = self.__class__#当前实例对象的类 if method_is_overridden(cls, Spider, 'make_requests_from_url'): warnings.warn( "Spider.make_requests_from_url method is deprecated; it " "won't be called in future Scrapy releases. Please " "override Spider