论文创新点:
- 提出了一种能处理稀疏数据的提升生树算法
- 描述了一种加权分位数方法的大概流程,能够用于处理近似树学习中的实例权重。
- 并行和分布式设计让这个算法有非常快的训练速度。
- XGBoost能够在外存上进行计算,使其能处理更大的数据量。
目标函数
损失函数
上面的这个损失函数在欧几里得空间中用传统的优化方法是没有办法求解,为了解决这个问题,本文中采用了贪婪算法,把上面的加和函数分成一步步迭代的来求解,即第 t 步只优化第 t 个分类器,固定前 t-1 步所有分类器:
对上式进行二阶泰勒展开可以更快速的求解: