爬虫
http: 超文本传输协议 默认端口:80 https: http+ssl(安全套接字层) 默认端口:443 https比http更安全,但是性能更低(耗时更长) GET 和 POST 方法有什么区别呢? 哪些地方会用到post请求: 登录注册(post 比 get 更安全) 需要传输大文本内容的时候(post 请求对数据长度没有要求) 所以同样的,我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求 cookie 和 session的区别: cookie数据存放在客户的浏览器上,session数据存放在服务器上 cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗 session会在一定时间内保存在服务器上,当访问增多,会比较占用你的服务器的性能 单个cookie保存的数据不能超过4k,很多浏览器都限制一个站点最多保存20个cookie 爬虫处理cookie和session 带上cookie,session的好处: 能够请求到登录之后的页面 带上cookie,session的弊端: 一套cookie和session往往和一个用户对应 请求太快,请求次数太多,容易被服务器识别为爬虫 不需要cookie的时候尽量不去使用cookie 但是为了获取登录之后的页面,我们必须发送带有cookies的请求