scrapy爬取的数据异步存储至MySQL
以scrapy爬虫爬取简书中全部的页面详情数据为例: 1.cmd执行scrapy 创建完爬虫项目后最好为其创建一个脚本启动文件start.py 文件在项目根目录即可 from scrapy import cmdline #启动爬虫命令 cmdline.execute('scrapy crawl js'.split()) 去配置文件更改默认的配置信息: 1.robot协议必须改为false ROBOTSTXT_OBEY = False 2.添加准备好的请求头信息,防止被网站识别: DEFAULT_REQUEST_HEADERS = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'en', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Trident/7.0; rv 11.0) like Gecko', } 至此,新项目的配置完成,开始编写爬虫脚本。 先明确要获取的字段数据,在items完成: import scrapy class JbookItem(scrapy.Item): title = scrapy.Field() #标题 content = scrapy.Field() #内容