3、特征清洗
1、清洗 去除脏的数据,比如某些商品的刷单数据,缺省值多的数据,异常数据,一般情况下直接舍弃。 结合业务情况 比如去除crawler抓取,spam,作弊等数据 采用异常点检测算法 偏差检测:聚类、最近邻等 基于统计的异常点检测:例如极差,四分位数间距,均差,标准差等。 基于距离的异常点检测:与大多数点之间距离大于某个阈值的点视为异常点,主要使用的距离度量方法有绝对距离 ( 曼哈顿距离 ) 、欧氏距离和马氏距离等方法。 基于密度的异常点检测:考察当前点周围密度,可以发现局部异常点,例如LOF算法。 2、采样 采集清洗后,样本分布 不均衡 ,要进行采样。 问题根据难度从小到大排个序: 大数据+分布均衡<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡 。说明小数据集是机器学习比较头疼的问题。 有两种方法: (1)从数据的角度出发,主要方法为抽样,既然我们的样本是不平衡的,那么可以通过某种策略进行抽样,从而让我们的数据相对均衡一些; (2)从算法的角度出发,考虑不同误分类情况代价的差异性对算法进行优化,使得我们的算法在不平衡数据下也能有较好的效果。 数据角度 有两种类型:又放回和无放回。 (随机欠采样)下采样:从多数类中的样本中选择少数样本与少数类中的样本组合成均衡的数据集。 (随机过采样)上采样:多次有放回的从少数类样本中抽取数据集,与多数类样本集组成均衡的数据集。 存在的问题