scrapy基础
一、创建一个scrapy 项目 在开始爬取之前,我们首先要创建一个scrapy项目,在命令行输入一下命令即可创建。 scrapy startproject xxx 二、编写第一个scrapy蜘蛛 创建第一个scrapy蜘蛛文件 上面我们已经成功创建了一个scrapy 项目,在spiders目录下面,有一个scrapy 文档,下面来创造一只scrapy蜘蛛 文件名这里我就取名为:cjj_spider.py (保存在pachong/spiders目录下),已经成功创建了一个scrapy蜘蛛文件,我们要爬取哪个网站、爬取这个网站的神马数据,统统在这个文件里面编写。 编写第一个蜘蛛 首先介绍下scrapy遵守的规则: 1、首先我们需要创建一个类,并继承scrapy的一个子类:scrapy.Spider 或者是其他蜘蛛类型,除了Spider还有很多牛X的蜘蛛类型; 2、然后定义一个蜘蛛名,name=“” 后面我们运行的话需要用到; 3、定义我们需要爬取的网址,没有网址蜘蛛肿么爬,所以这是必须的 4、继承scrapy的一个方法:start_requests(self),这个方法的作用就是通过上面定义的链接去爬取页面,简单理解就是下载页面。 import scrapy class test(scrapy.Spider): #需要继承scrapy.Spider类 name = "pachong"