1. 啥是降维? 摘自维基百科 在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。 降维可进一步细分为变量选择和特征提取两大方法。 简单来说,如果你的数据集是由下面几个成分组成: 1.降雨量 2.湿度 3.房屋价格 4.健康指数 我们显然可以判断,前两个数据具有明显的 相关性 ,意思就是, 我们的原始数据就有比较大的 冗余 , 这对我们进行模型训练是无作用的,因此我们可以通过降维达到: 1. 平均湿度 2. 房屋价格 3. 健康指数 这就是一个改进版的训练集,一般都会在数据预处理阶段对数据先降个维。 2. 降维的方法是啥? 特征选择 : 这里不是特征提取,而是特征提取之后, 再从提取的特征之中筛选几个 1.过滤式选择 1.1 方差选择(低方差特征过滤, 删除低方差的特征项) from sklearn. feature_selection import VarianceThreshold def featur_Select(): data = pd.read_csv("feature.csv") #data =data.iloc[:,1:-2] print("\n") transfer = VarianceThreshold(threshold = 阈值) result = transfer.fit_transform(data)