用两种非传统的爬虫,我把CSDN博主的底裤都给爬出来了!
Python实战社群 Java实战社群 长按识别下方二维码, 按需求添加 扫码关注添加客服 进Python社群▲ 扫码关注添加客服 进Java社群 ▲ 作者丨皖渝 来源丨凹凸数据(ID:alltodata) 大家好,我是小五 写博客也快一年了,突然想了解下同层次的博主的平均水平应该是什么样的(自己写的博客咋样没点B数么 ),今天就来分享下CSDN的博主信息数据的爬取方法~ 我们将采用两种非传统爬虫: Selenium爬取 、 Webscraper爬取 一、项目介绍 爬取网址 :CSDN首页的Python、Java、前端、架构以及数据库栏目,各栏目网址如下: 栏目 网址 Python https://www.csdn.net/nav/python Java https://www.csdn.net/nav/Java 前端 https://www.csdn.net/nav/web 架构 https://www.csdn.net/nav/arch 数据库 https://www.csdn.net/nav/db 简单分析其各自的URL不难发现,都是 https://www.csdn.net/nav/ + 栏目名 样式,这样我们就可以爬取不同栏目了。 以Python目录页为例,如下图所示: 爬取内容 :每篇文章的博主信息,如 博主姓名、码龄、原创数、访问量、粉丝数、获赞数、评论数、收藏数