特征选择之经典三刀
本文由作者授权发布,未经许可,请勿转载。 作者:侯江畔,网易杭州研究院算法工程师 数据决定了模型的上限,而算法只是去逼近这个上限。如何从海量特征中科学提取关键特征呢? 特征选择(Feature Selection)和特征提取(Feature Extraction)是特征工程(Feature Engineering)的两个重要子内容。其中特征提取是指从数据中找到可以表征目的的属性,而特征选择是从候选特征中选出“优秀”的特征。通过特征选择可以达到降维、提升模型效果、提升模型性能等效果,深度学习目前这么火热,其中一个重要原因是其减少了特征选择的工作,但对于机器学习,特征选择仍然是其应用中很重要的一步。 一、为什么要特征选择? 1.1特征数量与分类器性能的关系 一般来说,进入模型的特征数量与模型的效果之间满足以下曲线,在某个位置达到最优。过多或过少都会使分类器的效果发生严重的下降。 1.2特征不足的影响 当特征不足时,极易发生数据重叠,这种情况下任何分类器都会失效。如下图所示,仅依赖x1或x2都是无法区分这两类数据的。 1.3特征冗余的影响 增加特征可以理解为向高维空间映射,当这个“维度”过高时,容易造成同类数据在空间中的距离边远,变稀疏,这也易使得很多分类算法失效。如下图所示,仅依赖x轴本可划分特征,但y轴的引入使得同一类别不再聚集。 1.4特征选择的难点问题 首先我们已经明确