Python爬虫笔记【一】模拟用户访问之表单处理(3)
学习的课本为《python网络数据采集》,大部分代码来此此书。 大多数网页表单都是由一些HTML 字段、一个提交按钮、一个在表单处理完之后跳转的“执行结果”(表单属性action 的值)页面构成。虽然这些HTML 字段通常由文字内容构成,但是也可以实现文件上传或其他非文字内容。这些都为抓取数据的阻碍所以放在了前面。废话不多说开搞。 1.HTTP基本接入认证 在发明cookie 之前,处理网站登录最常用的方法就是用HTTP 基本接入认证(HTTP basicaccess authentication) import requests from requests.auth import AuthBase from requests.auth import HTTPBasicAuth auth = HTTPBasicAuth('ryan', 'password') r = requests.post(url="http://pythonscraping.com/pages/auth/login.php", auth= auth) print(r.text) 虽然这看着像是一个普通的POST 请求,但是有一个HTTPBasicAuth 对象作为auth 参数传递到请求中。显示的结果将是用户名和密码验证成功的页面(如果验证失败,就是一个拒绝接入页面)。 2.一般表单处理 表单源码