Scrapy 框架

介绍

Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发。

框架架构

整体架构大致如下

框架流程解析

1、spiders产生request请求，将请求交给引擎
2、引擎(EGINE)吧刚刚处理好的请求交给了调度器，以一个队列或者堆栈的形式吧这些请求保存起来，调度一个出来再传给引擎
3、调度器(SCHEDULER)返回给引擎一个要爬取的url
6、引擎从下载器中收到response对象，从下载器中间件传给了spiders（spiders里面做两件事，1、产生request请求，2、为request请求绑定一个回调函数），spiders只负责解析爬取的任务。不做存储，
7、解析完成之后返回一个解析之后的结果items对象及(跟进的)新的Request给引擎，就被ITEM PIPELUMES处理了
8、引擎将(Spider返回的)爬取到的Item给Item Pipeline，存入数据库，持久化,如果数据不对，可重新封装成一个request请求，传给调度器
9、(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站

核心组件

引擎

引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。

调度器

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回.

可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器

用于下载网页内容, 并将网页内容返回给引擎

下载器是建立在 twisted 这个高效的异步模型上的

爬虫

SPIDERS是开发人员自定义的类，用来解析responses，并且提取items，或者发送新的请求

项目管道(ITEM PIPLINES)

在items被提取后负责处理它们

主要包括清理、验证、持久化（比如存到数据库）等操作

下载器中间件

其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

下载器中间件(Downloader Middleware)

爬虫中间件

其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Spider中间件(Middleware)

下载安装

#Windows平台     1、pip3 install wheel #安装后，便支持通过wheel文件安装软件，wheel文件官网：https://www.lfd.uci.edu/~gohlke/pythonlibs     3、pip3 install lxml     4、pip3 install pyopenssl     5、下载并安装pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/     6、下载twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted     7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl     8、pip3 install scrapy    #Linux平台     1、pip3 install scrapy

#1 查看帮助     scrapy -h     scrapy <command> -h  #2 有两种命令：其中Project-only必须切到项目文件夹下才能执行，而Global的命令则不需要     Global commands:         startproject #创建项目         genspider    #创建爬虫程序         settings     #如果是在项目目录下，则得到的是该项目的配置         runspider    #运行一个独立的python文件，不必创建项目         shell        #scrapy shell url地址  在交互式调试，如选择器规则正确与否         fetch        #独立于程单纯地爬取一个页面，可以拿到请求头         view         #下载完毕后直接弹出浏览器，以此可以分辨出哪些数据是ajax请求         version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依赖库的版本     Project-only commands:         crawl        #运行爬虫，必须创建项目才行，确保配置文件中ROBOTSTXT_OBEY = False         check        #检测项目中有无语法错误         list         #列出项目中所包含的爬虫名         edit         #编辑器，一般不用         parse        #scrapy parse url地址 --callback 回调函数  #以此可以验证我们的回调函数是否正确         bench        #scrapy bentch压力测试  #3 官网链接     https://docs.scrapy.org/en/latest/topics/commands.html

全局命令：所有文件夹都使用的命令,可以不依赖与项目文件也可以执行 项目的文件夹下执行的命令 1、scrapy startproject Myproject #创建项目    cd Myproject 2、scrapy genspider baidu www.baidu.com  #创建爬虫程序，baidu是爬虫名,定位爬虫的名字 #写完域名以后默认会有一个url, 3、scrapy settings --get BOT_NAME  #获取配置文件 #全局：4、scrapy runspider budui.py 5、scrapy runspider AMAZON\spiders\amazon.py  #执行爬虫程序    在项目下：scrapy crawl amazon  #指定爬虫名，定位爬虫程序来运行程序     #robots.txt 反爬协议：在目标站点建一个文件，里面规定了哪些能爬，哪些不能爬     # 有的国家觉得是合法的，有的是不合法的，这就产生了反爬协议     # 默认是ROBOTSTXT_OBEY = True     # 修改为ROBOTSTXT_OBEY = False  #默认不遵循反扒协议 6、scrapy shell https://www.baidu.com  #直接超目标站点发请求      response      response.status      response.body      view(response) 7、scrapy view https://www.taobao.com #如果页面显示内容不全，不全的内容则是ajax请求实现的，以此快速定位问题 8、scrapy version  #查看版本 9、scrapy version -v #查看scrapy依赖库锁依赖的版本 10、scrapy fetch --nolog http://www.logou.com    #获取响应的内容 11、scrapy fetch --nolog --headers http://www.logou.com  #获取响应的请求头     (venv3_spider) E:\twisted\scrapy框架\AMAZON>scrapy fetch --nolog --headers http://www.logou.com     > Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8     > Accept-Language: en     > User-Agent: Scrapy/1.5.0 (+https://scrapy.org)     > Accept-Encoding: gzip,deflate     >     < Content-Type: text/html; charset=UTF-8     < Date: Tue, 23 Jan 2018 15:51:32 GMT     < Server: Apache     >代表请求     <代表返回 10、scrapy shell http://www.logou.com #直接朝目标站点发请求 11、scrapy check  #检测爬虫有没有错误 12、scrapy list  #所有的爬虫名 13、scrapy parse http://quotes.toscrape.com/ --callback parse #验证回调函函数是否成功执行 14、scrapy bench #压力测试

示例创建项目以及启动爬虫

scrapy startproject xx  cd xx  scrapy genspider chouti chouti.com   scrapy crawl chouti --nolog

默认只能在cmd中执行爬虫，如果想在pycharm中执行需要如下操作

#在项目目录下新建：entrypoint.py from scrapy.cmdline import execute # execute(['scrapy', 'crawl', 'amazon','--nolog'])  #不要日志打印 # execute(['scrapy', 'crawl', 'amazon'])  #我们可能需要在命令行为爬虫程序传递参数，就用下面这样的命令 #acrapy crawl amzaon -a keyword=iphone8 execute(['scrapy', 'crawl', 'amazon1','-a','keyword=iphone8','--nolog'])  #不要日志打印  # execute(['scrapy', 'crawl', 'amazon1'])

记得设置编码格式在 windows 环境下

import sys,os  sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

项目结构

project_name/    scrapy.cfg    project_name/        __init__.py        items.py        pipelines.py        settings.py        spiders/            __init__.py            爬虫1.py            爬虫2.py            爬虫3.py

爬虫应用简介

介绍

由一系列定义了一个网址或一组网址类如何被爬取的类组成

具体包括如何执行爬取任务并且如何从页面中提取结构化的数据。

简单来说就是帮助你爬取数据的地方

内部行为

#1、生成初始的Requests来爬取第一个URLS，并且标识一个回调函数 第一个请求定义在start_requests()方法内默认从start_urls列表中获得url地址来生成Request请求默认的回调函数是parse方法。回调函数在下载完成返回response时自动触发  #2、在回调函数中，解析response并且返回值 返回值可以4种：         包含解析数据的字典         Item对象         新的Request对象（新的Requests也需要指定一个回调函数）         或者是可迭代对象（包含Items或Request）  #3、在回调函数中解析页面内容 通常使用Scrapy自带的Selectors，也可以使用Beutifulsoup，lxml或其他  #4、最后，针对返回的Items对象将会被持久化到数据库 通过Item Pipeline组件存到数据库：https://docs.scrapy.org/en/latest/topics/item-pipeline.html#topics-item-pipeline） 或者导出到不同的文件（通过Feed exports：https://docs.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports）

#1、scrapy.spiders.Spider 　　#scrapy.Spider等同于scrapy.spiders.Spider #2、scrapy.spiders.CrawlSpider #3、scrapy.spiders.XMLFeedSpider #4、scrapy.spiders.CSVFeedSpider #5、scrapy.spiders.SitemapSpider

class scrapy.spiders.Spider

这是最简单的spider类，任何其他的spider类都需要继承它（包含你自己定义的）。

该类不提供任何特殊的功能，它仅提供了一个默认的start_requests方法默认从start_urls中读取url地址发送requests请求，并且默认parse作为回调函数

import scrapy class AmazonSpider(scrapy.Spider):      name = 'amazon'  # 必须唯一     allowed_domains = ['www.amazon.cn']  # 允许域     start_urls = ['http://www.amazon.cn/']  # 如果你没有指定发送的请求地址，会默认使用第一个      def parse(self,response):           pass

import scrapy class AmazonSpider(scrapy.Spider):     def __init__(self,keyword=None,*args,**kwargs):  #在entrypoint文件里面传进来的keyword，在这里接收了         super(AmazonSpider,self).__init__(*args,**kwargs)         self.keyword = keyword      name = 'amazon'  # 必须唯一     allowed_domains = ['www.amazon.cn']  # 允许域     start_urls = ['http://www.amazon.cn/']  # 如果你没有指定发送的请求地址，会默认使用第一个      custom_settings = {  # 自定制配置文件，自己设置了用自己的，没有就找父类的         "BOT_NAME": 'HAIYAN_AMAZON',         'REQUSET_HEADERS': {},     }      def start_requests(self):         url = 'https://www.amazon.cn/s/ref=nb_sb_noss_1/461-4093573-7508641?'         url+=urlencode({"field-keywords":self.keyword})         print(url)         yield  scrapy.Request(             url,             callback = self.parse_index,  #指定回调函数             dont_filter = True,  #不去重，这个也可以自己定制             # dont_filter = False,  #去重，这个也可以自己定制             # meta={'a':1}  #meta代理的时候会用         )         #如果要想测试自定义的dont_filter，可多返回结果重复的即可

#1、name = 'amazon'  定义爬虫名，scrapy会根据该值定位爬虫程序 所以它必须要有且必须唯一（In Python 2 this must be ASCII only.）  #2、allowed_domains = ['www.amazon.cn']  定义允许爬取的域名，如果OffsiteMiddleware启动（默认就启动）， 那么不属于该列表的域名及其子域名都不允许爬取 如果爬取的网址为：https://www.example.com/1.html，那就添加'example.com'到列表.  #3、start_urls = ['http://www.amazon.cn/'] 如果没有指定url，就从该列表中读取url来生成第一个请求  #4、custom_settings 值为一个字典，定义一些配置信息，在运行爬虫程序时，这些配置会覆盖项目级别的配置 所以custom_settings必须被定义成一个类属性，由于settings会在类实例化前被加载  #5、settings 通过self.settings['配置项的名字']可以访问settings.py中的配置，如果自己定义了custom_settings还是以自己的为准  #6、logger 日志名默认为spider的名字 self.logger.debug('=============>%s' %self.settings['BOT_NAME'])  #5、crawler：了解 该属性必须被定义到类方法from_crawler中  #6、from_crawler(crawler, *args, **kwargs)：了解 You probably won’t need to override this directly  because the default implementation acts as a proxy to the __init__() method, calling it with the given arguments args and named arguments kwargs.  #7、start_requests() 该方法用来发起第一个Requests请求，且必须返回一个可迭代的对象。它在爬虫程序打开时就被Scrapy调用，Scrapy只调用它一次。 默认从start_urls里取出每个url来生成Request(url, dont_filter=True)  #针对参数dont_filter,请看自定义去重规则，默认为 False ，自带去重规则，设置为 True 表示不去重，去重规则的选择在 配置文件中进行选择，可以选择自定义的去重规则。否则使用默认的  如果你想要改变起始爬取的Requests，你就需要覆盖这个方法，例如你想要起始发送一个POST请求，如下 class MySpider(scrapy.Spider):     name = 'myspider'      def start_requests(self):         return [scrapy.FormRequest("http://www.example.com/login",                                    formdata={'user': 'john', 'pass': 'secret'},                                    callback=self.logged_in)]      def logged_in(self, response):         # here you would extract links to follow and return Requests for         # each of them, with another callback         pass          #8、parse(response) 这是默认的回调函数，所有的回调函数必须返回an iterable of Request and/or dicts or Item objects.  #9、log(message[, level, component])：了解 Wrapper that sends a log message through the Spider’s logger, kept for backwards compatibility. For more information see Logging from Spiders.  #10、closed(reason) 爬虫程序结束时自动触发

属性，方法

去重

去重规则应该多个爬虫共享的，但凡一个爬虫爬取了，其他都不要爬了，实现方式如下

#方法一：基于集合的去重 # 1、新增类属性 visited=set() #类属性  # 2、回调函数parse方法内： def parse(self, response):     if response.url in self.visited:         return None     .......      self.visited.add(response.url)   #方法一改进：针对url可能过长，所以我们存放url的hash值 def parse(self, response):         url=md5(response.request.url)     if url in self.visited:         return None     .......      self.visited.add(url)    #方法二：Scrapy自带去重功能 # 配置文件： DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' #默认的去重规则帮我们去重，去重规则在内存中 DUPEFILTER_DEBUG = False JOBDIR = "保存范文记录的日志路径，如：/root/"  # 最终路径为 /root/requests.seen，去重规则放文件中  """ scrapy自带去重规则默认为RFPDupeFilter，只需要我们指定 Request(...,dont_filter=False) ，如果dont_filter=True则告诉Scrapy这个URL不参与去重。 """   #方法三： # 我们也可以仿照RFPDupeFilter自定义去重规则，  from scrapy.dupefilter import RFPDupeFilter，# 看源码，仿照BaseDupeFilter  #步骤一：在项目目录下自定义去重文件cumstomdupefilter.py ''' if hasattr("MyDupeFilter",from_settings):      func = getattr("MyDupeFilter",from_settings)         obj = func()      else:         return MyDupeFilter() ''' class MyDupeFilter(object):     def __init__(self):         self.visited = set()      @classmethod     def from_settings(cls, settings):         '''读取配置文件'''         return cls()      def request_seen(self, request):         '''请求看过没有，这个才是去重规则该调用的方法'''         if request.url in  self.visited:             return True         self.visited.add(request.url)      def open(self):  # can return deferred         '''打开的时候执行'''         pass      def close(self, reason):  # can return a deferred         pass      def log(self, request, spider):  # log that a request has been filtered         '''日志记录'''         pass  #步骤二：配置文件settings.py # DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter'  #默认会去找这个类实现去重 #自定义去重规则 DUPEFILTER_CLASS = 'AMAZON.cumstomdupefilter.MyDupeFilter'  # 源码分析： from scrapy.core.scheduler import Scheduler # 见Scheduler下的enqueue_request方法：self.df.request_seen(request)

自定义去重

# 我们可能需要在命令行为爬虫程序传递参数，比如传递初始的url，像这样  #命令行执行 scrapy crawl myspider -a category=electronics  #在__init__方法中可以接收外部传进来的参数 import scrapy  class MySpider(scrapy.Spider):     name = 'myspider'      def __init__(self, category=None, *args, **kwargs):         super(MySpider, self).__init__(*args, **kwargs)         self.start_urls = ['http://www.example.com/categories/%s' % category]         #...           #注意接收的参数全都是字符串，如果想要结构化的数据，你需要用类似json.loads的方法

例子合集

#例一： import scrapy  class MySpider(scrapy.Spider):     name = 'example.com'     allowed_domains = ['example.com']     start_urls = [         'http://www.example.com/1.html',         'http://www.example.com/2.html',         'http://www.example.com/3.html',     ]      def parse(self, response):         self.logger.info('A response from %s just arrived!', response.url)               #例二：一个回调函数返回多个Requests和Items import scrapy  class MySpider(scrapy.Spider):     name = 'example.com'     allowed_domains = ['example.com']     start_urls = [         'http://www.example.com/1.html',         'http://www.example.com/2.html',         'http://www.example.com/3.html',     ]      def parse(self, response):         for h3 in response.xpath('//h3').extract():             yield {"title": h3}          for url in response.xpath('//a/@href').extract():             yield scrapy.Request(url, callback=self.parse)                           #例三：在start_requests()内直接指定起始爬取的urls，start_urls就没有用了，  import scrapy from myproject.items import MyItem  class MySpider(scrapy.Spider):     name = 'example.com'     allowed_domains = ['example.com']      def start_requests(self):         yield scrapy.Request('http://www.example.com/1.html', self.parse)         yield scrapy.Request('http://www.example.com/2.html', self.parse)         yield scrapy.Request('http://www.example.com/3.html', self.parse)      def parse(self, response):         for h3 in response.xpath('//h3').extract():             yield MyItem(title=h3)          for url in response.xpath('//a/@href').extract():             yield scrapy.Request(url, callback=self.parse)   #例四： # -*- coding: utf-8 -*- from urllib.parse import urlencode # from scrapy.dupefilter import RFPDupeFilter # from AMAZON.items import AmazonItem from AMAZON.items import AmazonItem '''  spiders会循环做下面几件事 1、生成初始请求来爬取第一个urls,并且绑定一个回调函数 2、在回调函数中，解析response并且返回值 3、在回调函数中，解析页面内容（可通过Scrapy自带的Seletors或者BeautifuSoup等） 4、最后、针对返回的Items对象（就是你从返回结果中筛选出来自己想要的数据）将会被持久化到数据库 Spiders总共提供了五种类：     #1、scrapy.spiders.Spider #scrapy.Spider等同于scrapy.spiders.Spider     #2、scrapy.spiders.CrawlSpider     #3、scrapy.spiders.XMLFeedSpider     #4、scrapy.spiders.CSVFeedSpider     #5、scrapy.spiders.SitemapSpider ''' import scrapy class AmazonSpider(scrapy.Spider):     def __init__(self,keyword=None,*args,**kwargs):  #在entrypoint文件里面传进来的keyword，在这里接收了         super(AmazonSpider,self).__init__(*args,**kwargs)         self.keyword = keyword      name = 'amazon'  # 必须唯一     allowed_domains = ['www.amazon.cn']  # 允许域     start_urls = ['http://www.amazon.cn/']  # 如果你没有指定发送的请求地址，会默认使用只一个      custom_settings = {  # 自定制配置文件，自己设置了用自己的，没有就找父类的         "BOT_NAME": 'HAIYAN_AMAZON',         'REQUSET_HEADERS': {},     }      def start_requests(self):         url = 'https://www.amazon.cn/s/ref=nb_sb_noss_1/461-4093573-7508641?'         url+=urlencode({"field-keywords":self.keyword})         print(url)         yield  scrapy.Request(             url,             callback = self.parse_index,  #指定回调函数             dont_filter = True,  #不去重，这个也可以自己定制             # dont_filter = False,  #去重，这个也可以自己定制             # meta={'a':1}  #meta代理的时候会用         )         #如果要想测试自定义的dont_filter，可多返回结果重复的即可        def parse_index(self, response):         '''获取详情页和下一页的链接'''         detail_urls = response.xpath('//*[contains(@id,"result_")]/div/div[3]/div[1]/a/@href').extract()         print(detail_urls)         # print("%s 解析 %s",(response.url,(len(response.body))))         for detail_url in detail_urls:             yield scrapy.Request(                 url=detail_url,                 callback=self.parse_detail  #记得每次返回response的时候记得绑定一个回调函数             )         next_url = response.urljoin(response.xpath(response.xpath('//*[@id="pagnNextLink"]/@href').extract_first()))         # 因为下一页的url是不完整的，用urljoin就可以吧路径前缀拿到并且拼接         # print(next_url)         yield scrapy.Request(             url=next_url,             callback=self.parse_index   #因为下一页也属于是索引页，让去解析索引页         )     def parse_detail(self,response):         '''详情页解析'''         name = response.xpath('//*[@id="productTitle"]/text()').extract_first().strip()#获取name         price = response.xpath('//*[@id="price"]//*[@class="a-size-medium a-color-price"]/text()').extract_first()#获取价格         delivery_method=''.join(response.xpath('//*[@id="ddmMerchantMessage"]//text()').extract()) #获取配送方式         print(name)         print(price)         print(delivery_method)         #上面是筛选出自己想要的项         #必须返回一个Item对象,那么这个item对象，是从item.py中来，和django中的model类似，         # 但是这里的item对象也可当做是一个字典，和字典的操作一样         item = AmazonItem()# 实例化         item["name"] = name         item["price"] = price         item["delivery_method"] = delivery_method         return item      def close(spider, reason):         print("结束啦")

sprider例子

scray 自带的用于在回调函数中解析页面内容的组件

Scrapy 框架详解