Python爬虫scrapy框架的源代码分析
scrapy框架流程图 推荐三个网址:官方1.5版本:https://doc.scrapy.org/en/latest/topics/architecture.html 点击打开链接 官方0.24版本(中文):https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html 点击打开链接 scrapy中文网1.5版本:http://www.scrapyd.cn/doc/137.html 点击打开链接 图十分的重要 创建项目与配置环境后各部分组件: 上图主要是关于各个组件的作用! 下面是部分组件的详情: 首先主要是项目写代码部分: 项目名.py(eg:baidu.py) 项目一百度——eg:baidu.py # -*- coding: utf-8 -*- import scrapy # scrapy: 是一个基于异步+多线程的方式运行爬虫的框架,内部的函数都是以回调的形式执行的,不能手动调用。 class BaiduSpider(scrapy.Spider): # name: 自定义的爬虫名称,运行爬虫的时候就通过这个name的值运行的。name的值是唯一的。 name = 'baidu' # allowed_domains:允许访问的网站的域名。没有设置的无法访问。 allowed_domains = [