congo

Python抓取国家医疗费用数据:国家名、人均开销

自古美人都是妖i 提交于 2020-08-17 04:54:28
前言 整个世界正被大流行困扰着,不同国家拿出了不同的应对策略,也取得了不同效果。这也是本文的脑洞来源,打算研究一下各国在医疗基础设置上的开支,对几个国家的医疗费用进行数据可视化。 由于没有找到最近一年的可靠数据来源,所以这里使用的是2016年的数据。数据清楚哪个国家花得最多、哪个国家花得最少。我一直想试试在Python中网络抓取和数据可视化,这算是个不错的项目。虽然手动将数据输入Excel肯定快得多,但是这样就不会有宝贵的机会来练习一些技能了。 数据科学就是利用各种工具包来解决问题,网络抓取和正则表达式是我需要研究的两个领域。结果简短但复杂,这一项目展示了如何将三种技术结合起来解决数据科学问题。 要求 网络抓取主要分为两部分: 通过发出HTTP请求来获取数据 通过解析HTMLDOM来提取重要数据 库和工具 Requests能够非常简单地发送HTTP请求。 Pandas是一个Python包,提供快速、灵活和有表现力的数据结构。 Web Scraper可以帮助在不设置任何自动化浏览器的情况下抓取动态网站。 Beautiful Soup是一个Python库,用于从HTML和XML文件中提取数据。 matplotlib是一个综合的库,用于在Python中创建静态、动画和交互式可视化效果。 设置 设置非常简单,只需创建一个文件夹,并安装BeautifulSoup和Requests

pyecharts(echarts) 世界地图——国家名称表中英文的映射

那年仲夏 提交于 2020-07-27 22:12:37
今天在爬一个网站的时候,各个国家的名称是中文的,但要使用pyecharts.map绘图时要输入的国家名称却是英文的。 这时就需要一个字典来实现中英文名称的映射关系: nameMap = { ' Singapore Rep. ' : ' 新加坡 ' , ' Dominican Rep. ' : ' 多米尼加 ' , ' Palestine ' : ' 巴勒斯坦 ' , ' Bahamas ' : ' 巴哈马 ' , ' Timor-Leste ' : ' 东帝汶 ' , ' Afghanistan ' : ' 阿富汗 ' , ' Guinea-Bissau ' : ' 几内亚比绍 ' , " Côte d'Ivoire " : ' 科特迪瓦 ' , ' Siachen Glacier ' : ' 锡亚琴冰川 ' , " Br. Indian Ocean Ter. " : ' 英属印度洋领土 ' , ' Angola ' : ' 安哥拉 ' , ' Albania ' : ' 阿尔巴尼亚 ' , ' United Arab Emirates ' : ' 阿联酋 ' , ' Argentina ' : ' 阿根廷 ' , ' Armenia ' : ' 亚美尼亚 ' , ' French Southern and Antarctic Lands ' : ' 法属南半球和南极领地 ' ,