Scrapy 入门- Scrapy简介 Scrapy框架介绍 Scrapy 是 由 Python 语言开发的一个快速、高层次的屏幕抓取和 web 抓取框架,用于抓取 web 站点并从页面中提取结构化的数据。 Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy 吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如 BaseSpider 、 sitemap 爬虫等,最新版本又提供了 web2.0 爬虫的支持 Scrapy 框架的运行原理: Scrapy Engine : 负责组件之间数据的流转,当某个动作发生时触发事件。 Scheduler : 接收 requests ,并把他们入队,以便后续的调度。 Spiders : 用户编写的可定制化的部分,负责解析 response ,产生 items 和 URL 。 Item Pipeline : 负责处理 item ,典型的用途:清洗、验证、持久化。 Downloadermiddlewares : 位于引擎和下载器之间的一个钩子,处理传送到下载器的 requests 和传送到引擎的 response( 若需要在 Requests 到达 Downloader 之前或者是 responses 到达 spiders 之前做一些预处理,可以使用该中间件来完成 ) 。