爬虫初识与入门
目录 一 爬虫 1、什么是互联网? 2、互联网建立的目的? 3、什么是上网?爬虫要做的是什么? 4、爬虫 1.爬虫的定义: 2.爬虫的价值 爬虫的分类 二 爬虫的基本流程 三 请求与响应 四 requests 五 response 六 案例 1.爬取搜狗首页的源码数据 2.基于搜狗编写简单的网页采集 3.爬取豆瓣电影的电影详情数据 肯德基的案例 药监总局数据爬取 4.获取斗图网的一张图片 总结 一 爬虫 1、什么是互联网? 互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样 2、互联网建立的目的? 互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了。 3、什么是上网?爬虫要做的是什么? 我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。 只不过,用户获取网络数据的方式是: 1.浏览器提交请求->下载网页代码->解析/渲染成页面。 而爬虫程序要做的就是: 2.模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 1与2的区别在于: 我们的爬虫程序只提取网页代码中对我们有用的数据 4、爬虫 1.爬虫的定义: 向网站发起请求