SMOTE合成少数过采样技术

与世无争的帅哥 提交于 2019-11-29 19:09:58

1. SMOTE

JAIR’2002的文章《SMOTE: Synthetic Minority Over-sampling Technique》提出了一种过采样算法SMOTE。概括来说,本算法基于“插值”来为少数类合成新的样本。

设训练集的一个少数类的样本数为T,那么SMOTE 算法将为这少数类合成NT个新样本。
考虑少数类一个样本 i,特征向量 xi,i1,...,Tx_i, i\in {1, ..., T}:

  1. 首先从该少数类的所有样本中找到 xix_ik 个近邻,如利用欧式距离,记为 xi(near),near{1,...,k}x_{i (near)}, near \in\{1,...,k\};
  2. 从这k 个近邻中随机选择一个样本 xi(nn)x_{i(nn)}, 再生成一个 0~ 1之间的随机数ζ1\zeta_1
    从而生成一个新样本 xi1x_{i1}.

xi1=xi+ζ1(xi(nn)xi)\boldsymbol{x}_{i 1}=\boldsymbol{x}_{i}+\zeta_{1} \cdot\left(\boldsymbol{x}_{i(n n)}-\boldsymbol{x}_{i}\right)
3. 将步骤2重复 N 次,可以合成N个新样本;
4. 对全部的T 个少数类样本进行上述操作,可生成 NT 个新样本。
在这里插入图片描述
总的来说,SMOTE就是利用插值来合成样本,而且,添加了随机性,一方面是从 k 个近邻随机选择一个样本,另一方面是,产生 ζ\zeta随机数。


参考:

  1. cnblog 博客园机器学习 —— 类不平衡问题与SMOTE过采样算法
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!