Python数据分析实战,小费数据集应用
一、数据来源 本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。 import numpy as np from pandas import Series,DataFrame import pandas as pd import seaborn as sns #导入seaborn库 tips=sns.load_dataset('tips') #seaborn库自带的数据集 tips.head() 二、问题探索 小费金额与消费总金额是否存在相关性? 性别、是否吸烟、星期几、聚餐人数和小费金额是否有一定的关联? 小费金额占小费总金额的百分比是否服从正态分布? 三、数据清洗 tips.shape #数据集的维度 (244,7) 共有244条数据,7列。 tips.describe() #描述统计 描述统计结果如上所示。 tips.info() #查看缺失值信息 此例无缺失值。 四、数据探索 tips.plot(kind='scatter',x='total_bill',y='tip') #绘制散点图 由图可看出,小费金额与消费总金额存在正相关性。 import numpy as