day01、爬虫和数据
1.1、数据由来 一些数据平台和政府企业公开的数据,这些数据基本上在企业级应用中没啥大的作用。 真正有用的数据还是需要爬虫工程师来爬去。 1.2、什么是爬虫 1、爬虫的定义 脚本,程序---> 自动抓取 万维网上信息的 程序 。 2、爬虫的分类 通用爬虫 聚焦爬虫 3、爬虫的作用 解决冷启动的问题。 搜索引擎的根基。做搜索引擎,必须使用爬虫。 帮助机器学习建立知识图谱。 机器学习最终的是训练集。训练集可以靠爬虫爬去 可以制作比较软件。 1.3、爬虫工程师的发展历程 1、初级工程师 web 前端的知识: HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、json 等; 正则表达式, 能提取正常一般网页中想要的信息,比如某些特殊的文字, 链接信息, 知道什么是懒惰, 什么是贪婪型的正则; 会使用 XPath 等获取一些DOM 结构中的节点信息; 知道什么是深度优先, 广度优先的抓取算法, 及实践中的使用规则; 能分析简单网站的结构, 会使用urllib或requests 库进行简单的数据抓取。 在解决web项目问题时,流程如下: 前端---> javascript---> python---> sql查询--->数据库 2、中级工程师 了解什么是Hash,会简单地使用MD5,SHA1等算法对数据进行Hash一遍存储 熟悉HTTP