简单让你会写一个简单爬虫
爬虫-》 (又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 那么重点来了,就是自动抓取信息 有些人,想试试爬虫,但是看着太复杂,代码太多,就觉得不想弄了。然而其实爬虫代码前篇一律,我这里就非常简单的讲一下爬虫。 总结来说,步骤就是 请求服务器-》获得响应信息-》信息解析-》信息存储 我这里讲的是 python爬虫 哈 1.发送请求 请求 首先我还是扯出来一段代码:(当然你copy运行后还是乱码,因为还没解析) import requests r = requests . get ( 'http://www.baidu.com/' ) print ( "文本编码:" , r . encoding ) print ( "响应状态码:" , r . status_code ) print ( "字符串方式的响应体:" , r . text ) 我们把互联网比作一栋楼,而我们要爬的网站,就是那些住户,每个住户呢都有自己的门牌号(URL)。 发送请求 呢就是输入 门牌号 还有自己的 身份标识 (这段代码没有加上自己的身份标识,有些网站会判断你的身份就需要了)然后 请求住户同意 。 那么我们这里用的是requests这个python的包(提前安装) 这里讲下得到的 r 的内容: r . text