Python之ML--数据预处理
Python之ML–数据预处理 机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量.因此,在将数据集应用于学习算法之前,对其进行检验及预处理是至关重要的 主要知识点如下: 数据集中缺少数据的删除和填充 数据格式化 模型格式化 模型构建中的特征选择 一.缺少数据的处理 from IPython . display import Image 我们见到的缺失值是数据表中的空值,或者是类似于NaN(Not A Number,非数字)的占位符 我们通过一个CSV(comma-separed values)以逗号为分隔符的数值)文件构造一个简单的例子 import numpy as np import pandas as pd from io import StringIO csv_data = ''' A,B,C,D 1.0,2.0,3.0,4.0 5.0,6.0,,8.0 0.0,11.0,12.0, ''' df = pd . read_csv ( StringIO ( csv_data ) ) print ( df ) A B C D 0 1.0 2.0 3.0 4.0 1 5.0 6.0 NaN 8.0 2 0.0 11.0 12.0 NaN 有两个缺失值由NaN替代,StringIO函数在此仅起到演示作用