大数据获取案例:Python网络爬虫实例
网络爬虫: 网络爬虫(又称为网页 蜘蛛 ,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取 万维网 信息的程序或者脚本。另外一些不常使用的名字还有 蚂蚁 、自动索引、模拟程序或者 蠕虫 。 以上是网络爬虫的百度,下面开始介绍使用Python进行网络爬虫来获取数据。 用来获取新冠肺炎的实时数据。 使用的工具 PyCharm 新建 Python 文件,命名为 get_data 使用爬虫最常用的 request 模块 第一部分: 获取网页信息: import requests url = "https://voice.baidu.com/act/newpneumonia/newpneumonia" response = requests.get(url) 第二部分: 可以观察数据的特点: 数据包含在 script 标签里,使用 xpath 来获取数据。 导入一个模块 from lxml import etree 生成一个 html 对象并且进行解析 可以得到一个类型为 list 的内容,使用第一项就可以得到全部内容 接下来首先获取 component 的内容,这时使用 json 模块,将字符串类型转变为字典( Python 的数据结构) 为了获取国内的数据,需要在 component 中找到 caseList 接下来上代码: from