集成学习--随机森林
集成学习—Bagging和随机森林 Bagging Bagging就是 B ootstrap agg regat ing ,自举汇聚法,亦称为装袋法。 与Boosting的不同: Boosting在训练时会使用所有的数据集,而Bagging有其独特的采样方法,也就是Bootstrap 假设有m个样本 D D D ,则每次从样本总体中 随机 选取一个放入 D i D_i D i 中,注意的是该样本并没有在原样本总体中剔除,这样重复m次,得到新的样本 D i D_i D i , D i D_i D i 中可以有重复的样本,并没有包含 D D D 中所有样本 一个样本在取样的过程中都没有被选到的概率为 ( 1 − 1 m ) m (1-\frac{1}{m})^m ( 1 − m 1 ) m ,当 m → + ∞ m \rightarrow + \infty m → + ∞ 时,概率趋于 1 e \frac{1}{e} e 1 ,则说明在m很大时,新选取的样本是原样本总体的约 64% Boosting的每个基分类器有自身的系数,每次训练时数据集的权重也不同,而Bagging的每个基分类器,每个数据集都是平等同阶的 Boosting的每个基学习器需基于上一个学习器的结果进行学习,所以是串行计算,而Bagging能够实现并行计算 Boosting只能处理二分类任务