1. SMOTE
JAIR’2002的文章《SMOTE: Synthetic Minority Over-sampling Technique》提出了一种过采样算法SMOTE。概括来说,本算法基于“插值”来为少数类合成新的样本。
设训练集的一个少数类的样本数为T,那么SMOTE 算法将为这少数类合成NT个新样本。
考虑少数类一个样本 i,特征向量 :
- 首先从该少数类的所有样本中找到 的
k个近邻,如利用欧式距离,记为 ; - 从这
k个近邻中随机选择一个样本 , 再生成一个 0~ 1之间的随机数,
从而生成一个新样本 .
3. 将步骤2重复 N 次,可以合成N个新样本;
4. 对全部的T 个少数类样本进行上述操作,可生成 NT 个新样本。
总的来说,SMOTE就是利用插值来合成样本,而且,添加了随机性,一方面是从 k 个近邻随机选择一个样本,另一方面是,产生 随机数。
参考:
来源:https://blog.csdn.net/rosefun96/article/details/100888886