以Webdriver实例了解Webdriver
Webdriver是一个自动化测试软件,也是处理Ajax渲染之一的爬虫工具。 本文以一个实际案例(今日头条的阳光宽频(365yg.com))来了解它有什么作用,它能做什么。相关的爬取思路也可应用在其他相类似的网站。 分析思路 第1步: 首先进入https://365yg.com确定爬取的目标,本例爬取 视频的下载链接 、 视频标题 和 作者 第2步: 单击鼠标右键选择 检查 或按 键盘F12 调出谷歌浏览器抓包工具进行分析 多次查看不同的视频内容发现它们的 视频超链接 、 视频标题 和 作者 的网页结构完全一样,没有反爬点,无需其他的处理 第3步: 单击鼠标右键选择查看网页源代码查看 是否被Ajax渲染 3.1 从搜索结果上看该网页很有可能已被Ajax渲染 ,但是仔细看发现下面这个区域有些关键字与我们需要的内容很相似,而且相关内容带有\u****等字样,有可能是将返回的中文转化为Unicode!! 3.2复制部分内容进行验证后发现尽管标题的内容与我们查找的标题不一样,但可确定的是 首页没有被Ajax渲染,请求返回的视频标题、作者等信息会动态改变 。 第4步: 截止目前已解决爬取视频标题和作者、接下来着手视频的下载链接,接下来主要重复上面第1、第2、第3步 在浏览器中复制第2步获取到的a标签的链接并进入,使用与第2步相同的方式调取谷歌浏览器抓包工具进行分析