ML(9) - EnsembleLearing集成学习
集成学习 集成学习基本概念 Bagging 基本概念 Scikit-learn中的Bagging 随机森林 Boosting 基本概念 Scikit-learn中的Boosting 集成学习结合策略 集成学习回归问题 集成学习基本概念 训练多个学习器,对同一样本预测,再用某种结合策略将各学习器结合起来,得出最终预测结果。 集成学习的一般结构: 同质集成(homogeneous):学习器使用的算法都是相同类型,例如全使用决策树算法。单个学习器称为 ‘基学习器’ 或 ‘基学习算法’。 异质集成(heterogenous):学习器使用的算法类型不同,例如同时使用决策数、SVM等算法。单个学习器称为 ’ 组件学习器’。 集成学习的方法: Bagging:学习器之间不存在强依赖关系,各学习器可独立并行。 Boosting:学习器之间存在强依赖关系,通常后一个学习器是对前一个学习器的补充。 集成学习效果强大尤其是针对弱学习器(即精度略高于50%算法模型),虽然单个弱学习器效果很差,但是成百上千的弱学习器集成在一起,错误率以指数级下降,理论上可以趋于0。 Bagging 基本概念 当想要集成成百上千的学习器时,学习器之间的差异就尤为重要(如果都一样就体现不出集成学习的效果)。虽然有很多机器学习算法,但是远远不够的,必须为每一种算法创建更多的子模型且子模型之间要有差异性。 如何创建有差异的子模型