Spider 爬虫
今天把爬虫整理出来: 现在已从移动互联网时代过渡到大数据时代,大数据的核心就是数 据,数据的获取途径主要有以下几种: (1)企业生产的用户数据:大型互联网公司有海量的用户,他们 积累数据有天然的优势,比如百度指数、阿里指数、新浪微博指数等。 (2)数据管理咨询公司:通常只有大的公司才有数据采集团队, 根据市场调研、问卷调查、样板检测和各行各业的公司进行合作等方 式,进行数据的采集和基类。 (3)政府/机构的公开数据:政府开放的数据都是根据各地上报的 数据进行合并的,比如中华人民共和国国家统计局数据等。 (4)第三方数据平台购买数据:现在人工智能需要用到很多人脸 数据,行为动作都需要大量的数据,也有专门的平台购买,比如贵阳大 数据交易所等 HTTP & HTTPS 在百度的首页 https://www.baidu.com/ 中,URL的开头都会有http或者https,这就是访问资源需要的协议类型,当然还有其他开头的URL,在爬虫中经常抓取的页面通常都是httphuozhehttps协议 HTTP 中文叫做<超文本传输协议>,HTTP协议是用于从网络传输超文本数据到客户端本地浏览器的传送协议, HTTPS 是以安全为目标的HTTP管道,就是HTTP下的SSl层 简称HTTPS HTTP请求过程 当我们在浏览器上输入一个URL 回车之后就会得到相应的内容