Python爬虫连载17-ItemPipeLine、中间件
一、ItemPipeLine 1.爬虫提取出的数据存入item之后,item中保存的数据需要进一步处理,比如:清洗,去重,存储等 2.pipeline需要process_item函数 (1)process_item:spider提出来的item作为参数出入,同时传入的还有spider;此方法是必须要实现的;必须返回一个item对象,被丢弃的item不会被之后的pipeline处理 (2)__init__:构造函数 进行一些必要的参数初始化 (3)open_spider(spider) spider对象被开启的时候调用 (4)close_spider(spider) spider对象被关闭的时候调用 3.Spider (1)对应的是文件夹spiders下的文件 (2)__init__:初始化爬虫的名称,start_urls列表 (3)start_requests:生成Requests对象嫁给Scrapy下载并返回response (4)parse:根据返回的response解析出相应的item,item自动进入到pipeline;如果需要,解析出url,url自动交给requests模块,一直循环下去 (5)start_request:此方法仅能被调用一次,读取start_urls内容并启动循环过程 (6)name:设置爬虫的名字 (7)start_urls