sklearn库学习笔记1――preprocessing库
本次主要学习sklearn的 preprocessing库 :用来对数据预处理,包括无量纲化,特征二值化,定性数据量化等。 先看下这个库所包含的类及方法: 主要包括14大类,为训练集数据的预处理提供接口,每个类都提供了fit(填充数据,获取数据上的特征信息并保存),transform(将fit保存的信息应用到其它数据集上,对其它数据集进行转换),fit_transform(填充数据并对数据进行转换)。如果计算是一次性的,不需创建类,可直接调用与类相对应的方法。本次主要利用iris数据测试 from sklearn.datasets import load_iris iris=load_iris() 无量纲化: 1.标准化:(x-列均值)/ 列标准差 from sklearn.preprocessing import StandardScaler StandardScaler().fit_transform(iris.data) 或使用scaler方法,既可按列,又可按行标准化 from sklearn.preprocessing import scale a=np.array([[ 1, 2, 3],[ 3, 2, 1]]) res=scale(a,axis= 0) #按列标准化 res.mean(axis= 0) #查看列均值 res.std(axis= 0) #查看列标准差