这种反爬虫手段有点意思,看我破了它!
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站、小说类网站等文字密度较大的站点。在开始学习之前,我们先来看看具体的现象。 打开网址: https://implicit-style-css_0.crawler-lab.com 呈现在我们眼前的是这样一个界面: 这次的任务,就是拿到页面上所呈现的内容的文本。在编写爬虫代码之前,我们要做几件事: 确定目标内容的来源,也就是找到响应目标内容的那次请求 确定目标内容在网页中的位置 其实就是最基本的观察和分析。 网络请求方面,打开浏览器调试工具并切换到 Network 面板后,看到页面只加载了 2 个资源: 一个 html 文档和一个 js 文件,想必我们要的内容就在 html 文档中。点击该请求,浏览器开发者工具就会分成两栏,左侧依然是请求记录列表,右侧显示的是指定请求的详情。右侧面板切换到 Response,就可以看到服务器响应的内容: 看样子,我们要的东西就在这次响应正文中。咋一看,我们直接取 class 为 rdtext 的 div 标签下的 p 标签中的文本内容即可。然而事情并没有那么简单,细心的读者可能发现了,响应正文中显示的内容和页面中呈现的文字并不完全相同——响应正文中少了一些标点符号和文字,多了一些 span 标签。 例如页面中显示的是: 夜幕团队 NightTeam 于 2019 年 9 月 9