day99 爬虫 scrapy介绍 结构介绍
scrapy介绍,架构介绍(框架)ghref scrapy就是爬虫界的django 爬虫框架,别人写好的代码,以后只需要在指定位置写指定代码即可 基于twisted:性能很高 五大组件 引擎:大总管,总的控制数据流动 调度器:去重,加入队列 下载器 :负责下载,加载数据 爬虫:主要写这,解析response和重新发起请求 项目管道:持久化相关 两大中间件 爬虫中间件:爬虫和引擎之间(用的少) 下载中间件:引擎和下载器之间(加代理,加cookie,修改user-agent,继承selenium) scrapy安装(windows) mac/linux:pip3 install scrapy windows: pip3 install scrapy(大部分都可以) -如果上面不行 -pip3 install wheel (xxx.whl文件安装模块) -下载pywin32:两种方式:1 pip3 install pywin32 2 下一个exe安装https://sourceforge.net/projects/pywin32/files/pywin32/ -下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载完是一个xxx.whl文件 -执行pip3 install 下载目录\Twisted