「Python:Scrapy爬虫框架」
当我们开始学习python爬虫的时候,都是先学习不同的爬虫库,然后开始通过单脚本来进行爬虫代码的编写,从数据提取到解析到存储都需要自己编写代码。但是Scrapy爬虫框架是可以将数据字段定义、网络请求和解析,数据处理和存储分不同的部分形成一个整体,极大的方便了代码的理解和编写。 针对Scrapy的安装网上有很多,这里就不一一介绍了,我们以简书网专题数据爬取为例来同步介绍相关定义和代码实践。 1、项目创建 创建一个Scrapy项目非常简单,一般快速创建可以通过终端直接输入如下代码: scrapy startproject zhuanti_new 如果要在不同的文件中创建此项目,就需要先找到对应的文件路径,当然你也可以通过pycharm,直接在对应的文件中,点击左下角终端进行创建,项目就直接在对应的项目文件中创建了一个Scrapy项目 2、Scrapy项目文件介绍 通过下面截图可以看到一个Scrapy项目有哪些文件,同时还需要创建和生成哪些文件,接下来逐一介绍。 (1)最顶层的zhuanti_new文件夹是Scrapy的项目名称 (2)第2层有4个文件: 第1个:和项目名称相同的文件,就是我们通常叫的爬虫包,所有的爬虫代码都在这个包里面 第2个:mian文件,是用来运行这个项目的主函数代码文件,代码写完后通过这个文件总体运行 第3个:配置文件,说明一下默认设置文件的位置为zhuanti