XGBoost原理

article/2025/9/13 5:45:46

前言
之前接触并实现过Adaboost和Random Forest。作为去年开始很火爆的，对结构化数据效果极佳的XGBoost，当然也需要了解一下了。下面将分段叙述XGBoost原理，以及与GBDT的关系等等内容。

①、XGBoost vs GBDT

说到XGBoost，不得不说GBDT，两者都是boosting方法。GBDT可以看成是Adaboost的前向逐步递增推导形式(——因为直接找到最优的模型 $f$ 是有难度的，所以采取每次递增的方式。)

GBDT对分类问题基学习器是二叉分类树，对回归问题基学习器是二叉决策树。

N为样本个数。下面为训练第m个基学习器的过程。

损失函数： $L (f (x), y)$
目标函数： $min\frac {1}{N}\sum_{i=1}^{N}L(f(\mathbb x_i),y_i)$
前向算法：
指数损失对outliers比较敏感，而且，这种损失函数也不是二分类问题中的类别（label）取log后的表示。
因此另一种选择是负log似然损失，即得到logitBoost。此外，还可以取损失函数为L2损失，得到L2Boost。

为了便于推导，当采用平方误差损失函数时:
这里写图片描述

对于平方损失函数，拟合的就是残差；对于一般损失函数（梯度下降），拟合的就是残差的近似值。见下图（此图转自雪伦的博客）：
这里写图片描述

②、XGBoost推导

好了，说了半天GBDT，那什么是XGBoost呢？让我直接上图吧！哈哈

由于GBDT除了L2损失函数之外，对其它的损失函数推导比较复杂。而XGBoost采用对损失函数进行二阶Taylor展开来近似。简化了求解与推导。

这里写图片描述

由于函数在点x的泰勒展开形式为( $n > = 3$ )：
$f(x+\Delta x) \simeq f(x) + f^{'}(x) \Delta x + \frac {1}{2!}f^{''}(x)\Delta x^2 + o(x^{(n)})$
这里写图片描述
ps: $\beta$ 为1，所以 $g_{m,i}$ 后面的$\beta $可加可不加

树

树的定义：把树拆分成结构部分 $q$ 和叶子分数部分 $w$
$\phi(x) = w_{q(\mathbf x)}, w \in \mathbf R^T, q \in \mathbf R^D \to {1,2,3,...,T}$
结构函数 $q$ ：把输入映射到叶子的索引号
叶子分数函数 $w$ ：给出每个索引号对应的叶子的分数
T为树中叶子结点的数目，D为特征维数

这里写图片描述

树的复杂度

树的复杂度定义为（不是唯一方式，不过下面的定义方式学习出的树效果一般都比较不错。）
这里写图片描述
其中， $\gamma$ 为 $L 1$ 正则的惩罚项， $\lambda$ 为 $L 2$ 正则的惩罚项。

目标函数

设目标函数为 $J(\theta)$
这里写图片描述

这一个目标函数中，包含了T个相互独立的单变量二次函数。我们可以定义：
$G_t = \sum_{i \in I_t} g_{m,i}$
$H_t = \sum_{i \in I_t} h_{m,i}$

将其代入上式中，得到简化的代价函数 $J(\theta) = \sum_{t=1}^{T}[G_tw_t+\frac{1}{2}(H_t+\lambda)w_t^2]+\gamma T$

这里写图片描述

树的分数示例

$O b j$ 代表了当我们指定一个树的结构的时候，我们在目标函数上面最多减少多少。我们可以把它叫做结构分数(structure score)
这里写图片描述

③、建树（分裂节点）

枚举可能的树结构
计算结构分数
$J(\theta) = -\frac {1} {2}\sum_{t=1}^{T}[\frac {G_t^2}{H_t + \lambda}]+\gamma T$
选择分数最小树结构，并且运用最优的权重
但是，树结构有很多可能，所以对精确搜索的情况，可采用贪心算法。