Python爬虫学习==>第十一章:分析Ajax请求-抓取今日头条信息
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用 正式步骤 Step1:流程分析 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果; 抓取页面详情内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息; 下载图片并保存数据库:将图片下载到本地,把页面信息及图片url保存至MongoDB; 开启循环及多线程:对多页面内容遍历,开启多线程并提高抓取效率。 Step2:实例分析 1. 打开今日头条搜索页,搜索“中超”,查看页面的请求方法为:GET 2. 创建一个Python文件:spider_ajax.py 3.网站url信息获取 4. 打印抓取的文章超链接和抓取的html内容 # -*- coding:utf-8 -*- import json from urllib.parse import urlencode from requests.exceptions import RequestException import requests def get_page_html(offset,keyword): data = { 'offset':offset, 'format':'json', 'keyword':keyword, 'autoload':'true', 'count':'20', 'cur