seaborn

Python数据分析实战,小费数据集应用

ⅰ亾dé卋堺 提交于 2020-08-18 13:05:29
一、数据来源 本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。 import numpy as np from pandas import Series,DataFrame import pandas as pd import seaborn as sns #导入seaborn库 tips=sns.load_dataset('tips') #seaborn库自带的数据集 tips.head() 二、问题探索 小费金额与消费总金额是否存在相关性? 性别、是否吸烟、星期几、聚餐人数和小费金额是否有一定的关联? 小费金额占小费总金额的百分比是否服从正态分布? 三、数据清洗 tips.shape #数据集的维度 (244,7) 共有244条数据,7列。 tips.describe() #描述统计 描述统计结果如上所示。 tips.info() #查看缺失值信息 此例无缺失值。 四、数据探索 tips.plot(kind='scatter',x='total_bill',y='tip') #绘制散点图 由图可看出,小费金额与消费总金额存在正相关性。 import numpy as

Python数据分析实战,小费数据集应用

与世无争的帅哥 提交于 2020-08-18 08:16:53
一、数据来源 本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。 import numpy as np from pandas import Series,DataFrame import pandas as pd import seaborn as sns #导入seaborn库 tips=sns.load_dataset('tips') #seaborn库自带的数据集 tips.head() 二、问题探索 小费金额与消费总金额是否存在相关性? 性别、是否吸烟、星期几、聚餐人数和小费金额是否有一定的关联? 小费金额占小费总金额的百分比是否服从正态分布? 三、数据清洗 tips.shape #数据集的维度 (244,7) 共有244条数据,7列。 tips.describe() #描述统计 描述统计结果如上所示。 tips.info() #查看缺失值信息 此例无缺失值。 四、数据探索 tips.plot(kind='scatter',x='total_bill',y='tip') #绘制散点图 由图可看出,小费金额与消费总金额存在正相关性。 import numpy as

Python数据分析之全球人口数据

心已入冬 提交于 2020-08-18 05:37:18
这篇文章用 pandas 对全球的人口数据做个简单分析。我收集全球各国1960-2019年人口数据,包含男女和不同年龄段,共6个文件。 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案例的人,却不知道如何去学习更加高深的知识。 那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码! QQ群:1097524789 pop_total .csv: 各国每年总人口 pop_female .csv:各国每年女性人口 pop_male .csv: 各国每年男性人口 pop_0_14 .csv: 各国每年0 -14岁人口 pop_15_64 .csv: 各国每年15 -64岁人口 pop_65up .csv:各国每年65岁以上人口 先用 pandas 读取文件数据 import pandas as pd pop_total = pd.read_csv('./ data/pop_total.csv', skiprows=4) pop_total.info() pop_total.csv 文件存放各国每年总人口数据,格式如下 pop_total .head( 2) 同样的方式,我们读取剩下的5个文件,对应的 DataFrame 分别是 pop_female 、 pop_male 、

python学习方法总结(内附python全套学习资料)

匆匆过客 提交于 2020-08-17 19:10:00
导语: 不要再问我python好不好学了 我之前做过半年少儿编程老师,一个小学四年级的小孩子都能在我的教学下独立完成python游戏,植物大战僵尸简单版,如果要肯花时间,接下来的网络开发也不是问题,人工智能也可以学个调包也没啥问题。。。。。所以python真的是想学就一定能学会的!!!! ----------关注公众号【taskctl】----------关键词回复----“领取资料”----------- 先聊聊互联网转行那些事儿 很多人是小白,想从事或转行互联网,想以python为切入口,那么恭喜你,这可能是你离互联网工作最捷径的一条道路了,毕竟python相对于java,C等语言代码量小,更加简单易学,只要肯用心,最多只需要两个月,就能找到一份对应的工作,当然任何一份技能要精进都需要一万小时,得做好心理准备 同时也许你有学历,数学,学习方法等种种问题,我将在文末一一解答 下面将从基础语法,高阶语法,前端开发,web开发,爬虫开发,自动化运维,数据分析,人工智能介绍学习攻略,并附上全套学习资料 1.Python基础语法-主线任务1 使用python就像一个自由度超高的游戏,你得学会以下几点python基础语法,拿到进入这个游戏世界的钥匙: 计算机组成原理 Python开发环境 Python变量 流程控制语句 高级变量类型 函数应用 文件操作 面向对象编程 异常处理 模块和包 2

深度讲解Python四大常用绘图库的“绘图原理”

故事扮演 提交于 2020-08-17 10:37:28
为什么要写这篇文章? 最近有不少读者来问我,Python绘图库太多,我知不知道学哪一个?即使我选择了某一个绘图库后,我也 不知道怎么学 ,我不知道第一步做什么,也不知道接下来该怎么做,四个字 一学就忘 。 其实这也是我当时很 困扰 的一个问题,我当时在学习完numpy和pandas后,就开始了matplotlib的学习。我反正是非常崩溃的,每次就感觉绘图代码怎么这么多,绘图逻辑完全一团糟,不知道如何动手。 后面随着自己反复的学习,我找到了学习Python绘图库的方法,那就是学习它的 绘图原理 。正所谓: “知己知彼,百战不殆” ,学会了原理,剩下的就是熟练的问题了。 今天我们就用一篇文章,带大家梳理 matplotlib 、 seaborn 、 plotly 、 pyecharts 的绘图原理,让大家学起来不再那么费劲! 1. matplotlib绘图原理 1)绘图原理说明 通过我自己的学习和理解,我将matplotlib绘图原理高度总结为如下几步: ① 导库; ② 创建 figure 画布对象; ③ 获取对应位置的 axes 坐标系对象; ④ 调用axes对象,进行对应位置的图形绘制; ⑤ 显示图形; 2)案例说明 # 1.导入相关库 import matplotlib as mpl import matplotlib.pyplot as plt # 2.创建figure画布对象

Python数据预处理:彻底理解标准化和归一化

旧城冷巷雨未停 提交于 2020-08-17 05:01:01
数据预处理 数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域,便于进行综合分析。 常用的方法有两种: 最大 - 最小规范化:对原始数据进行线性变换,将数据映射到[0,1]区间 Z-Score标准化:将原始数据映射到均值为0、标准差为1的分布上 为什么要标准化/归一化? 提升模型精度:标准化/归一化后,不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。 加速模型收敛:标准化/归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。 如下图所示: 哪些机器学习算法需要标准化和归一化 1)需要使用梯度下降和计算距离的模型要做归一化,因为不做归一化会使收敛的路径程z字型下降,导致收敛路径太慢,而且不容易找到最优解,归一化之后加快了梯度下降求最优解的速度,并有可能提高精度。比如说线性回归、逻辑回归、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要计算距离的模型需要做归一化,比如说KNN、KMeans等。 2)概率模型、树形结构模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、随机森林。 彻底理解标准化和归一化 示例数据集包含一个自变量(已购买)和三个因变量(国家,年龄和薪水)

5个可以帮助Pandas进行数据预处理的可视化图表

荒凉一梦 提交于 2020-08-16 10:52:25
"一目了然胜过千言万语。"分析数据点的探索性数据分析(EDA)是在算法的数据建模之前制定假设的正确步骤。 数据科学行业中一个最常见的陷阱是花费数小时为他们的项目寻找最佳算法,而没有花足够的时间首先理解数据。 数据科学和机器学习项目的结构化方法从项目目标开始。同一组数据点可以推断出一些有意义的信息。基于我们所寻找的,我们需要关注数据的另一个方面。一旦我们明确了目标,我们就应该开始考虑我们需要的数据点。这将使我们能够专注于最相关的信息集,而忽略可能不重要的数据集。 在现实生活中,从多个来源收集到的大多数时间数据都有空白值、打字错误和其他异常。在进行任何数据分析之前,清除数据是至关重要的。 在本文中,我将讨论五个强大的数据可视化选项,它们可以立即提供数据特征的感觉。即使在正式建模或假设测试任务之前,执行EDA就可以传达大量关于数据和特征之间关系的信息。 第1步-我们将导入pandas、matplotlib、seaborn和NumPy包,我们将使用这些包进行分析。我们需要散点图、自相关图、滞后图和平行图。 import pandas as pd import numpy as np import matplotlib.pyplot as plt from pandas.plotting import autocorrelation_plot import seaborn as sns

Matplotlib 3.0 秘籍·翻译完成

这一生的挚爱 提交于 2020-08-14 03:36:36
原文: Matplotlib 3.0 Cookbook 协议: CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。 在线阅读 ApacheCN 面试求职交流群 724187166 ApacheCN 学习资源 目录 Matplotlib 3.0 秘籍 零、前言 一、Matplotlib 的剖析 二、基本绘图入门 三、绘制多个图表和子图 四、开发可视化来提高发布质量 五、使用高级功能的绘图 六、嵌入文本和表达式 七、以不同格式保存图形 八、开发交互式绘图 九、在图形用户界面中嵌入绘图 十、使用 mplot3d 工具包绘制 3D 图形 十一、使用 axisartist 工具包 十二、使用 axes_grid1 工具包 十三、使用 Cartopy Toolkit 绘制地理地图 十四、使用 Seaborn 工具包的探索性数据分析 贡献指南 本项目需要校对,欢迎大家提交 Pull Request。 请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科) 联系方式 负责人 飞龙 : 562826179 其他 在我们的 apachecn/apachecn-ds-zh github

How to adjust height of individual sublots in seaborn heatmap

故事扮演 提交于 2020-08-10 19:09:34
问题 I have a heatmap using seaborn and am trying to adjust the height of the 4th plot below. You will see that it only has 2 rows of data vs the others that have more: I have used the following code to create the plot: f, ax = plt.subplots(nrows=4,figsize=(20,10)) cmap = plt.cm.GnBu_r sns.heatmap(df,cbar=False,cmap=cmap,ax=ax[0]) sns.heatmap(df2,cbar=False,cmap=cmap,ax=ax[1]) sns.heatmap(df3,cbar=False,cmap=cmap,ax=ax[2]) sns.heatmap(df4,cbar=False,cmap=cmap,ax=ax[3]) Does anyone know the next

Seaborn showing values not found in Pandas columns

穿精又带淫゛_ 提交于 2020-08-09 09:17:51
问题 Original dataframe: dp.head(10) Creating new dataframe using recommended selection method: dtest = pd.DataFrame(dp[dp['numdept'].isin([3,6,8,10])]).dropna() dtest.reset_index(drop =True, inplace = True) dtest.head(10) Testing to make sure that only the values in [3,6,8,10] are in dtest['numdept']: print "numdept is 5:", dtest[dtest["numdept"].isin ([5])] print "set of distinct values in the numdept column:", sorted(set(dtest['numdept'].tolist())) >> numdept is 5: Empty DataFrame >> Columns: