Python笔记:爬虫框架Scrapy抓取数据案例实战解析包含项目代码
概述 本项目通过Scrapy框架的爬虫实战案例来巩固该项技术栈,并用于日后回忆和反思 任务: 爬取 careers.tencent.com 中关于指定条件的所有社会招聘信息 搜索条件为 中国 AI 关键字的就业岗位 并将信息存储到MySql数据库中 地址:https://careers.tencent.com 步骤: 首先爬取每页的招聘信息列表 再爬取对应的招聘详情信息 分析: 方案1 经过页面分析详情页所需id可在列表页分享下结构的div中获取(如果页面上没有具体链接地址,那么跳转程序就很可能在js脚本中或者跳转地址在接口数据中) 打开源代码查看,发现代码非常少,经过构建程序处理过,并且所有数据都是后加载出来的 此方案不可取 (方案1 图例) 方案2 解析ajax请求数据并进行处理 列表接口 举例: https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1578972041752&countryId=1&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn 简化 列表接口 请求参数: https://careers