快速理解bagging与boosting及其分支
首先,集成学习是指综合多个模型的结果,以提升机器学习的性能。相比单个模型,往往能取得更好的结果。而Bagging和Boosting是集成学习中的两个方法(还有一个stacking,暂不做阐释),刚开始接触时稍有混乱,在此稍浅地记录下学习历程,以便快速理解 1. Bagging Bagging是Bootstrap Aggregating的简称,这是一种 并行 的方法,其首先生成多种基分类器,在最后预测时通过 投票 法,从多个基分类器中得到预测结果,有效降低样本 方差 ,每个基分类器之间具有 弱关联性 , 相对独立 其中最常用的Bagging法为随机森林(Random Forest): Random Forest的分类器一般是 决策树 ,且通常为CART决策树,步骤如下: 假设原样本集有M个样本,每个样本包含N个属性,则首先 有放回 地抽取M个样本(每次抽1个,抽完后放回,重新在M个样本中抽1个,因此子集中将包含重复样本) 如此,这个子集包含MxN个元素,再随机从N个属性中,选择n<<N个属性作为决策树每个节点的分裂属性(一般n=logN),若为CART树,则根据GINI指数来确定每个节点选择哪种属性来分裂(原始Bagging使用了所有属性,而不是随机选择n个) 重复上述步骤,生成大量决策树 对于每个测试数据,根据每棵决策树的预测结果, 投票表决 得到最后结果