Python爬虫mac版本项目
爬虫概念、工具和HTTP 1.什么爬虫 爬虫就是 模拟客户端(浏览器)发送网络请求 ,获取响应,按照规则提取数据的程序 模拟客户端(浏览器)发送网络请求 : 照着浏览器发送一模一样的请求,获取和浏览器一模一样的数据 2.爬虫的数据去哪了 呈现出来:展示在网页上,或者是展示在app上 进行分析:从数据中寻找一些规律 3.需要的软件和环境 python3 黑马python基础班15天视屏:http://yun.itheima.com/course/214.html 基础语法(字符串,列表,字典,判断和循环) 函数(函数的创建和调用) 面向对象(如何创建一个类,如何使用这个类) pycharm python编辑器 chrome浏览器 分析网络请求用的 4.浏览器的请求 url 在chrome中点击检查,点到network, url = 请求的协议+网站的域名+资源的路径+参数 浏览器请求url地址 当前url对应的响应+js+css+图片 —》elements中的内容 爬虫请求url地址 当前url对应的响应 elements的内容和爬虫获取到的url地址的响应不同,爬虫中需要以当前url地址对应的响应为准提取数据 当前url地址对应的响应在哪里 从network中找到当前的url地址,点击response 在页面上右键显示网页源码 5.认识HTTP、HTTPS HTTP:超文本传输协议