Python3 爬虫之 Scrapy 核心功能实现(二)
博客地址: http://www.moonxy.com 基于 Python 3.6.2 的 Scrapy 爬虫框架使用,Scrapy 的搭建过程请参照本人的另一篇博客: Python3 爬虫之 Scrapy 框架安装配置(一) 1. 爬虫项目创建 在抓取之前,需要新建一个 Scrapy 工程。进入一个你想用来保存代码的目录,比如 G:\projects 然后执行: scrapy startproject SinanewsSpider 这个命令会在当前目录下创建一个新目录 SinanewsSpider,这就是此爬虫的项目名称,后面会使用到。 成功创建爬虫项目文件结构后,使用:tree /f 查看文件层级的结构关系 这些文件主要是: scrapy.cfg: 项目配置文件 SinanewsSpider/: 项目python模块, 代码将从这里导入 SinanewsSpider/items.py: 项目items文件 SinanewsSpider/pipelines.py: 项目管道文件 SinanewsSpider/settings.py: 项目配置文件 SinanewsSpider/spiders: 放置spider的目录 2. 定义item 编辑 items.py 文件,items 是将要装载抓取的数据的容器,它工作方式像 python 里面的字典,但它提供更多的保护