scrapy(网络爬虫)———CrawlSpider(规则爬虫)
CrawlSpider(规则爬虫) 一 .简介: 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。 二.创建爬虫命令: 1.前提是已经创建好爬虫项目了,若没有创建好项目,请使用 scrapy startproject 项目名 进入项目目录 2.在项目目录下执行创建规则爬虫:scrapy genspider -t crawl 爬虫名称 爬取域名 三.在pycharm中编写规则爬虫文件 1. 爬虫文件中导入的 Link Extractors: class scrapy.linkextractors.LinkExtractor 作用是: 每个LinkExtractor有唯一的公共方法是 extract_links(),它接收一个 Response 对象, 类中定义了 Response中的链接的提取规则, 并返回一个 scrapy.link.Link 对象, 返回的是符合链接匹配对象的列表 。 Link Extractors要实例化一次,并且extract_links 方法会根据不同的 response 调用多次提取链接。 2. Link Extractors 中的主要参数: allow:满足括号中“正则表达式