爬虫(十六):scrapy爬取知乎用户信息
一:爬取思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信息和被关注信息的关注列表,爬取这些用户的信息,通过这种递归的方式从而爬取整个知乎的所有的账户信息。整个过程通过下面两个图表示: 二:爬虫过程分析 这里我们找的账号地址是: https://www.zhihu.com/people/excited-vczh/answers 下图是大V的主要信息: 然后我们获取他关注的人和关注他的人的信息: 这里我们需要通过抓包分析如果获取这些列表的信息以及用户的个人信息内容 当我们查看他关注人的列表的时候我们可以看到他请求了如下图中的地址,并且我们可以看到返回去的结果是一个json数据,而这里就存着一页关乎的用户信息。 上面虽然可以获取单个用户的个人信息,但是不是特别完整,这个时候我们获取一个人的完整信息地址是当我们将鼠标放到用户名字上面的时候,可以看到发送了一个请求: 我们可以看这个地址的返回结果可以知道,这个地址请求获取的是用户的详细信息: 通过上面的分析我们知道了以下两个地址: 1关注列表:https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*