Python数据分析与挖掘实战总结
第三章 数据探索 3.1 数据质量分析 3.1.1 缺失值分析 缺失值的处理分为三种情况: 删除存在缺失值的记录; 对可能的数据进行插值:拉格朗日插值,牛顿插值法: 3.1.2 异常值分析 首先可以先使用describe()函数查看数据的基本情况: import pandas as pd # 餐饮数据 catering_sale = './data/catering_sale.xls' # 读取数据,指定日期列为索引列 data = pd.read_excel(catering_sale,index_col=u'日期') data.describe() 检测异常值的方法可以使用箱型图: import pandas as pd catering_sale = './data/catering_sale.xls' data = pd.read_excel(catering_sale,index_col=u'日期') import matplotlib.pyplot as plt # 用来正常显示中文标签 # plt.rcParams['dont.sans-serif'] = ['SimHei'] plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签 # # 用来正常显示负号 plt.rcParams['axes