python爬虫案例——知乎数据采集

橙三吉。 提交于 2020-04-10 08:14:26

全栈工程师开发手册 (作者:栾鹏)
python教程全解

首先你需要了解python数据挖掘库urllib、urllib2、cookie的知识。参考http://blog.csdn.net/luanpeng825485697/article/details/78383884

cookie模拟登陆

知乎需要设置cookie模拟登陆状态,需要设置http头,满足知乎服务器的检测。

知乎地址https://www.zhihu.com

在没有登陆时访问这个网址,只能出现登陆界面
这里写图片描述

如果登陆以后,在访问这个网址,就会出现文章列表。

这里写图片描述

这是因为访问此地址,知乎服务器会查询请求cookie,如果请求cookie没有用户信息,就证明没有登陆,就会返回登陆界面,如果有cookie信息就会返回文章列表界面,同时包含用户的其他信息。所以首先需要让自己的请求中能带有包含自己信息的cookie。这一步通过登陆来实现。

在登陆界面,通过post将用户账号密码发送给服务器,服务器会将用户信息以cookie的形式返回给用户,用户在下次请求时,就会自动将这个cookie添加

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!