第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进度,证明学习的过程。 5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。 学习笔记: 这门 课程介绍 Python 计算生态中最优秀的网络数据爬取和解析技术,具体讲授构建网络爬虫功能的两条重要技术路线: requests-bs4-re 和 Scrapy ,课程内容是进入 大数据处理 、 数据挖掘 、以数据为中心 人工智能 领域的必备实践基础。教学内容 包括 : Python第三方库Requests ,讲解通过 HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;Python 第三方库 Beautiful Soup ,讲解从所爬取 HTML 页面中解析完整 Web 信息的方法; Python 标准库 Re ,讲解从所爬取 HTML 页面中提取关键信息的方法; python 第三方库 Scrapy ,介绍通过网络爬虫框架构造专业网络爬虫的基本方法 。 request库的7个主要方法,分别是:1.requests.request(): 构造一个请求,支撑以下各方法的基础方法 ; 2.requests.get(): 获取 HTML 网页的主要方法,对应 HTTP 的 GET ; 3