基于nightmare的美团美食商家爬虫实践
前言 美团商家页分析 需要爬取的数据有(这里没有按人数爬) 爬虫工具选取 pysipder scrapy nightmare 同步任务 js动态加载 中断继续 爬坑总结 示例代码 前言 上学的时候自己写过一些爬虫代码,比较简陋,基于HttpRequest请求获取地址返回的信息,再根据正则表达式抓取想要的内容。那时候爬的网站大多都是静态的,直接获取直接爬即可,而且也没有什么限制。但是现在网站的安全越来越完善,各种机器识别,打码,爬虫也要越来越只能才行了。 前段时间有需求要简单爬取美团商家的数据,做了一些分析,实践,在这里总结分享。 美团商家页分析 1、城市大全可以很容易的在这个页面爬出来 http://www.meituan.com/index/changecity/initiative 2、每个城市一个地址,例如深圳: http://sz.meituan.com/category/meishi 3、可以按照分类、区域、人数来分类 4、商家列表是动态JS加载的,并且会有很多页数 5、根据商家列表再进入商家详情获取数据 这样爬取流程即为 1、进去城市美食页 2、抓取分类,循环选择分类 3、抓取区域,循环选择区域 4、抓取人数,循环选择人数 5、判断是否有下一页按钮,循环进入下一页 6、进入详情页抓取,提交之后continue 需要爬取的数据有(这里没有按人数爬) CREATE