Scrapy框架
scrapy简介 Scrapy是一个用于抓取web站点和提取结构化数据的应用框架,它可用于广泛的有用应用,如数据挖掘、信息处理或历史存档。 可以参考scrapy的 英文文档 或者 中文文档 整体的架构大致如下: scrapy框架由scrapy引擎(scrapy engine)、调度器(scheduler)、下载器(downloader)、蜘蛛(spider)以及项目管道(item pipeline)组成。 工作流程大致如下: 首先scrapy引擎向调度器发送请求,调度器从url队列中取出一个url交给下载器,其次下载器向对应的服务器发送请求,得到响应后将下载网页内容,然后下载器把下载的网页内容交给蜘蛛进行解析,接着如果爬取到数据,则将数据交给项目管道进行加工处理,如果爬取到新的url,则保存在url队列中,进行新一轮的爬取。 五大组件及其中间件的功能如下: Scrapy引擎:Scrapy引擎相当于指令控制中心,控制整个系统的数据处理流程,触发事务处理流程,负责与各个模块进行通信; Scheduler(调度器):维护待爬取的URL队列,当接受引擎发送的请求时,会从待爬取的URL队列中取出下一个URL返回给调度器。 Downloader(下载器):向对应的服务器发送下载页面的请求,用于下载网页内容,并把下载的网页内容交给蜘蛛处理。 Spiders(蜘蛛):制定要爬取的网站地址