集成学习——Boosting

集成学习

什么是集成学习？

集成学习通过构建并结合多个学习器来完成学习任务，这多个学习器通常叫“基学习器”或“弱学习器”，这些学习器是简单的学习器如决策树学习器或神经网络学习期，性能只是比随机好一点。

多个学习器的学习结果通过一定方法结合起来得到最终的学习结果

Boosting

Boosting是一种常见的集成学习算法，各个个体学习器具有串行的关系，何为串行的关系，下文可以看到。

其中最常见的是AdaBoost算法（adapt boosting）

符号说明：

符号	含义
$h_i$	第i个个体学习器函数
$H_t$	t个个体学习器集成的最终学习器函数
$D_i$	第i个数据集取值分布
$D$	数据集{ ( $x_1,y_1$ ),( $x_2,y_2$ ),( $x_3,y_3$ ),( $x_4,y_4$ ) $\cdots$ $(x_N,y_N)$ }，即N个数据
$\epsilon_t$	第t个学习器的学习误差
$\alpha_t$	第t个学习器对应的权重
$E_{x-D}[f]$	函数f对于x在分布D下的期望

算法说明：

对于N个数据，一开始是等可能性的看待，即每个数据的权重相等，此时对应分布 $D_1=\frac{1}{N}$ ，即每个数据对应权重 $w_i=1$ ，此时将这些数据作为弱学习器 $h_1$ 的输入，得到预测结果 $h_1(x)$ ，与真实结果 $y$ 比较，得到学习误差 $P(h_1(x)\neq y)=\epsilon_1$ ，然后得到该学习器的权重 $\alpha_1=\frac{1}{2}ln(\frac{1-\epsilon_1}{\epsilon_1})$ ，然后根据结果对分布进行调整，分类正确的权重变大，变为 $W_{t+1}=\frac{W_t*e^{-\alpha}}{sum(W_t)}$ ，分类错误权重变小，变为 $W_{t+1}=\frac{W_t*e^{\alpha}}{sum(W_t)}$ ，然后根据此分布继续学习 $h_2$ ，同样得到学习误差，学习器权重和下一个学习的数据集的分布，以此类推，直至某次学习器学习成果不理想或者学习次数满了为止，由于学习器学习的数据集是根据上一个学习器的学习成果来调整的，这样就是串行。
详细推导：基于“加性模型”的AdaBoost算法，即线性组合，简化模型为二分类任务

$H(x)=\sum_{t=0}^T\alpha_th_t(x)$ ，此处我们假设有T个个体学习器，即训练T次

我们的目的是得到 $\alpha_t$ 和 $D_t$ 来最小化指数损失函数
$L(H)=E_{x-D}[e^{-y*H(x)}]，$
1. 怎么求 $\alpha_t$ ：

对于每个学习器有 $L(\alpha_th_t(x))=E_{x-D_t}[e^{-y*\alpha_th_t(x)}]$ ~~这个形式很难看懂~~，然后来看看更易于理解的形式：
$L(\alpha_th_t(x))=e^{-\alpha_t}P(y=h_t(x))+e^{\alpha_t}p(y\neq h_t(x))$
因为对于每个x，对于的y和h(x)都只是1或-1

$L$ 对 $\alpha_t$ 求导并等于0，即
$e^{-\alpha_t}(1-\epsilon_t)+e^{\alpha_t}\epsilon_t=0，得到\alpha_1=\frac{1}{2}ln(\frac{1-\epsilon_1}{\epsilon_1})$
2. 怎么求 $D_t$ :

AdaBoost算法在获得 $H_{t-1}$ 之后样本分布将进行调整，是下一轮的基学习器 $h_t$ 能纠正 $H_{t-1}$ 的一些错误，即最小化损失函数（此处有些疑惑，为什么是这样的损失函数，分布D是什么）
$L(H_{t-1}+h_t)=E_{x-D}[e^{-y(H_{t-1}(x+h_t(x))}] =E_{X-D}[e^{-yH_{t-1}(x)}e^{-yh_t(x)}]$
指数函数的泰勒展开
$L(H_{t-1}+h_t)=E_{x-D}[e^{-yH_{t-1}(x)}(1-yh_t(x)+\frac{y^2h^2_t(x)}{2})]\\ =E_{x-D}[e^{-yH_{t-1}(x)}(1-yh_t(x)+\frac{1}{2})]\\ =E_{x-D}[-e^{-yH_{t-1}(x)}yh_t(x)](舍去常数)\space\space\space\space\space\space *$
上式的一些备注：首先 $H_{t-1}$ 是确定的，要想最小化损失函数，即最小化在D分布下的期望，即最大化在某一个 $D_t$ 分布下的 $yh_t(x)$ 期望，又 $yh_t(x)=1-2I(y\neq h_t(x))$ ，其中 $I$ 函数是为真时是1，假时是0，

上面的式子说明理想的 $h_t$ 将在分布 $D_t$ 下最小化分类误差，个人的理解是只要分布符合 $D_t$ ，即数据集的权重符合一定的分布，任何有效学习器分类都能使分类损失降到最小

那么 $D_t$ 是什么呢？看回*式，将常数 $e^{-yH_{t-1}(x)}$ 加入到分布D中，则可得到 $D_t$ 分布
$L(H_{t-1}+h_t)=E_{x-D}[-e^{-yH_{t-1}(x)}yh_t(x)]\\ =E_{x-D_t}[yh_t(x)]$
根据分布相关知识，
$D_t=\frac{D*e^{-yH_{t-1}}(x)}{Z_t}，此处Z_t是一个规范化因子，使得D_t符合分布的特征$

$D_t =\frac{D_{t-1}Z_{t-1}}{e^{-yH_{t-2}(x)}}*\frac{e^{-yH_{t-1}}(x)}{Z_t}=D_{t-1}*e^{-yh_{t-1}\alpha_{t-1}}*\frac{Z_{t-1}}{Z_t}$

(这里 $Z_{t-1}/Z_t$ 是规范化因子，~~此处具体是什么不是很理解~~)

上式的具体含义就是：

如果该样本在上一个学习器中分类正确，则该样本的权重变为
$W_{t+1}=\frac{W_t*e^{-\alpha}}{sum(W_t)}$
如果该样本在上一个学习器中分类错误，则该样本的权重变为
$W_{t+1}=\frac{W_t*e^{\alpha}}{sum(W_t)}$
其中 $sum(W_t)=\sum_t^TW_t*e^{-\alpha*y*h_t(x)}$ ，大概就是上文的 $Z_{t-1}/Z_t$

到此基于加性模型的AdaBoost算法二分类任务详细推导结束，该结论同样适用于多分类任务
😉

来源：CSDN

作者：Ylimevoli

链接：https://blog.csdn.net/weixin_45606655/article/details/104106382

标签

集成学习

集成学习--Boosting

集成学习——Boosting

集成学习

Boosting