集成学习---综述
一、简介 集成学习,顾名思义,通过将多个单个学习器集成/组合在一起,使它们共同完成学习任务,有时也被称为“多分类器系统(multi-classifier system)”、基于委员会的学习(Committee-based learning)。 这里的【学习器】就是指机器学习算法训练得到的假设。而我们之所以有直觉要把多个学习器组合在一起,是因为单个学习器往往可能效果不那么好 这要么是因为它们具有较高的偏置(例如,低自由度模型),要么是因为他们的方差太大导致鲁棒性不强(例如,高自由度模型) ,而多个学习器可以互相帮助,各取所长,就可能一起合作把一个学习任务完成得比较漂亮。(后面我们将从数学上证明这一点) 二、分类 按个体学习器类别是否一样 1、 同质个体学习器(应用最广泛)(个体学习器类别一样,比如都是决策树) 2、异质个体学习器(支 持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器来结合 ) 按串行还是并行 1、串行集成方法,这种方法串行地生成基础模型(如AdaBoost、GBDT)。串行集成的基本动机是利用基础模型之间的依赖。通过给错分样本一个较大的权重来提升性能。 2、并行集成方法,这种方法并行地生成基础模型( bagging、 Random Forest)。并行集成的基本动机是利用基础模型的独立性,因为通过平均能够较大地降低误差。 一般分为三类 1