爬虫初学——爬取京东商品的评论(一)
最近,初学了一些爬虫的知识,然后刚好被老师要求去爬取一些评论数据(淘宝、京东等),来进行深度学习识别虚假评论。然后咋办咧,东搜搜西搜搜,看有没有什么好的办法。毕竟之前可是被反爬机制很强的网站弄得毫无头绪。 在此,主要感谢简书的两位博主的博客,让我能够入门。 1、第一位博主,给了一套非常浅显易懂的爬虫入门教程,原来爬虫基础可以这么简单,而且还更新了哦。 传送门 2、第二位博主,则是,让我找到了爬取京东评论的思绪。 传送门 一、获取评论所在的网页url 1、进入京东的某一个商品,找到评论处 : 2、右键——检查——Network: 3、点击左边网页评论中的“全部”评论 ,也就是刷新一下此处网页,这样network总就会显示请求的url了(最好点击一下js,这样不必看那么多繁琐的内容),下面得到了一个url: "4、open in new tab",可以打开浏览器查看此url内容: 你会发现想要的评论就在这里面,但是这是json实现的。只不过我不会解析json怎么办???我们想要的是数据,虽然对结构看不懂,只不过这文字可是连在一起的,看的见的文字,我们可以用正则表达式啊。 5、分析一下url ,我们想要的可不是这单页的10条评论,所以点击下一页这评论是怎么变得咧,通过对别多条url,我们可以得到结论: 例子: https://club.jd.com/comment