教程丨 一文详尽CatBoost
转载自:Datawhale(ID:Datawhale) 作者:潘华引 本文 13867 字 ,建议阅读 35 分钟 。 本文详尽介绍CatBoost 。 CatBoost CatBoost是俄罗斯的搜索巨头Y andex在2017年开源的机器学习库,也是Boosting族算法的一种,同前面介绍过的XGBoost和LightGBM类似,依然是在GBDT算法框架下的一种改进实现,是一种基于对称决策树(oblivious trees)算法的参数少、支持类别型变量和高准确性的GBDT框架,主要说解决的痛点是高效合理地处理类别型特征,这个从它的名字就可以看得出来,CatBoost是由catgorical和boost组成,另外是处理梯度偏差(Gradient bias)以及预测偏移(Prediction shift)问题,提高算法的准确性和泛化能力。 集成学习 CatBoost主要有以下五个特性: 无需调参即可获得较高的模型质量,采用默认参数就可以获得非常好的结果,减少在调参上面花的时间; 支持类别型变量,无需对非数值型特征进行预处理; 快速、可扩展的GPU版本,可以用基于GPU的梯度提升算法实现来训练你的模型,支持多卡并行; 提高准确性,提出一种全新的梯度提升机制来构建模型以减少过拟合; 快速预测,即便应对延时非常苛刻的任务也能够快速高效部署模型。