Go实现 爬虫v0.2
原址 在之前上一版本中,我们通过最简单的 Get 请求获取了网页地址,并解析出图片地址,然后再通过 Get 请求获取了图片内容。接下来的问题是,对于有登陆限制的网页,登陆之前是看不到相关信息的,那么对于这一类网页该如何处理呢? 1. HTTP 请求与响应的格式 参见 这篇文章 ,我们知道,在浏览器发出 Get 或 Post 请求时,请求的格式大致如下: < request-line > < headers > < blank line > [ < request-body > ] 浏览器在我们访问网页时会自动构造相关请求内容,在 chrome 中 F12 过后看到的视图下,选择 Network 标签并选择下方的 Headers 标签,然后刷新网页,随意选择 Headers 标签左边 Name 栏下的任一元素(一般选第一个)便可看到浏览器发送与接收消息时,消息的 Header 中的内容,如下图: 微博截图 我们需要用到的就是最下面红色标注的 Request Headers 部分的内容 —— 即 cookie 字段 Request Headers 图中的 cookie 即网站存储在浏览器中的 cookie 值,我们将该 cookie 值复制出来,粘贴在我们下一步将要在代码中构造的 Request Header 头中,网站就会认为我们已经登录过了。 2. Go net/http 包