Python笔记:爬虫框架Scrapy之Downloader Middleware的使用
Downloader Middleware的功能 在Downloader Middleware的功能十分强大: 可以修改User-Agent 处理重定向 设置代理 失败重试 设置Cookies等 Downloader Middleware在整个架构中起作用的位置是以下两个: 在Scheduler调度出队列的Request发送给Doanloader下载之前,也就是我们可以在Request执行下载前对其进行修改。 在下载后生成的Response发送给Spider之前,也就是我们可以生成Resposne被Spider解析之前对其进行修改。 Scrapy中的内建Downloader Middleware 在Scrapy中已经提供了许多Downloader Middleware,如:负责失败重试、自动重定向等中间件: 它们都被定义到DOWNLOADER_MIDDLEWARES_BASE变量中。 注:下面的配置,是全局配置,不要修改,如果要修改,去修改项目中的配置! # 在python3.6/site-packages/scrapy/settings/default_settings.py默认配置中 DOWNLOADER_MIDDLEWARES_BASE = { # Engine side 'scrapy.downloadermiddlewares.robotstxt