1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。
5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
第一次接触中国慕课是老师介绍的,登入进去就是开始关于爬虫的学习。通过这四周的课程学习,我有了很多的收获,上了嵩天老师的《Python网络爬虫与信息提取》,我学到了许多东西。从开始只是老师说Python,爬虫,但是并没有太多的了解,在之前的学习中,也只是在表层上对它的了解。刚开始接触时内心有点抵触,慢慢的会发现有些有趣。网络爬虫又被称为网页蜘蛛,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。这门课主要介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授了构建网络爬虫功能的两条重要技术路线:requests-bs4-re和Scrapy。
在第一周时候我学习到关于requests库的7种主要方法:1、requests.requests( ) 2、requests.get() 3、requests.head( ) 4、requests.post() 5、requests.put() 6、requests.patch() 7、requests.delete( )。在第二周时候学习到关于Beautiful Soup库。其中包括Tag,Name,Attributes,NavigableString,Comment。在后面的学习中也学习了scrapy框架。它是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取所设计的, 也可以应用在获取API所返回的数据或者通用的网络爬虫。用途广泛,可以用于数据挖掘、监测和自动化测试。
这几周的课程学习让我对网络数据爬取和网页解析的基本能力有了一个详细的梳理,从Requests自动爬取HTML页面自动网络请求提交→Robots.txt网络爬虫排除标准→Beautiful Soup解析HTML页面→Re正则表达式详解提取页面关键信息→scrapy框架。从requests库到scrapy框架的学习,让我意识到了Python的学习是一个漫长的过程,包含了许许多多的知识点,需要掌握的东西也很多,也让我感受到了爬虫在我们的日常生活中的重要性,现如今是互联网的时代,而网络爬虫已经成为自动获取互联网数据的一种主要方式,Python对于我们学习和工作都起到了很重要的作用,大大的降低了我们的时间,更快更好的对信息进行提取。接下来我会继续对Python网络爬虫与信息提取这门课程的学习,跟随老师的步伐,加深对知识点的学习与巩固,相信未来的某一天会对我们产生很大的帮助。所以学习是要靠日积月累,从实践中出真理。爬虫的地位也越来越高,我会学好爬虫的。