分析Ajax爬取今日头条街拍
分析Ajax爬取今日头条街拍 站点分析 源码及遇到的问题 代码结构 方法定义 需要的常量 关于在代码中遇到的问题 01. 数据库连接 02.今日头条的反爬虫机制 03. json解码遇到的问题 04. 关于response.text和response.content的区别 源代码 站点分析 首先,打开头条,在搜索框输入关键字之后,在返回的页面中,勾选Perserve log,这玩意儿在页面发生变化的时候,不会清除之前的交互信息. 在返回的response中,我们看不到常见的HTML代码,所以初步判定,这个网站是通过ajax动态加载的. pic-1581682361199.png 切换到XHR过滤器,进一步查看. pic-1581682361200.png 发现随着网页的滚动,会产生类似这样的的Ajax请求出来. 仔细查看内容,可以看到与网页中条目对应的title和article_url. 所以初步思路,通过article_url字段先抓取文章条目 分析json数据,可以看到,这里有 article_url ,另外,这次要抓取的是图集形式的页面,所以要注意下这个 has_gallery 然后我们再来看具体的页面 在具体页面的html中,我们发现,图片的所有链接直接在网页源代码中包含了,所以,我们直接拿到源码,正则匹配一下就好了. pic-1581682361200.png 至此