Feature Selection
两方面(发散,相关)~三方法(FWE) F:方皮卡互 W:RFE E:惩罚树 一、简介 我们的数据处理后,喂给算法之前,考虑到特征的实际情况,通常会从两个方面考虑来选择特征: 1)特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用 2)特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优先选择 根据特征选择的形式又可以将特征选择方法分为3种: Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值选择特征 Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征 Embedded:集成法,先使用某些模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣 二、实践 1)Filter a)方差法 使用方差法,要先计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。 使用 feature_selection 库的 VarianceThreshold 类来选择特征的代码如下: from sklearn.datasets import load_iris from sklearn.feature_selection import