Scikit-learn数据变换
转载自: https://blog.csdn.net/Dream_angel_Z/article/details/49406573 本文主要是对照 scikit-learn的preprocessing 章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单,仅供参考! 首先来回顾一下下面要用到的基本知识。 均值公式: 方差公式: 0-范数,向量中非零元素的个数。 1-范数: 2-范数: p-范数的计算公式: 数据标准化:当单个特征的样本取值相差甚大或明显不遵从高斯正态分布时,标准化表现的效果较差。实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散特征的标准差,从而等级化,进而实现数据中心化。 公式为:(X-X_mean)/X_std 计算时对每个属性/每列分别进行. 将数据按其属性(按列进行)减去其均值,然后除以其方差。最后得到的结果是,对每个属性/每列来说所有数据都聚集在0附近,方差值为1。 首先说明下sklearn中preprocessing库里面的scale函数使用方法: sklearn.preprocessing.scale(X, axis= 0 , with_mean= True ,with_std= True , copy = True ) 1 根据参数的不同