梯度提升树(GBDT)

article/2025/9/12 0:37:47

提升树模型

提升树是以分类数或回归树为基本分类器的提升方法。提升方法实际采用加法模型（即基函数的线性组合）与前向分布算法，以决策树为基函数的提升方法为提升树（boosting tree）。基本分类器 $x < v$ 或 $x > v$ ，可以看作是一个根结点直接连接两个叶结点的简单决策树，也就是单层决策树，称为决策树桩（decision stump）。提升树模型可以表达为决策树的加法模型： $F_{m}(\mathbf{x})=\sum_{t=1}^{m}f(\mathbf x;\theta_{t})$
其中 $f(\mathbf x;\theta_{j})$ 为第 $j$ 棵决策树， $\theta_{j}$ 为参数。
提升树采用前向分布算法，确定初始提升树 $f_{0}(\mathbf{x})=0$ ,第 $m$ 次提升的模型为： $F_{m}(\mathbf{x})=F_{m-1}(\mathbf{x})+f(\mathbf{x};\theta_{m})$
其中， $F_{m-1}(\mathbf x)$ 为前 $m - 1$ 个决策树组成的集成分类器,通过最小化经验风险来确定第 $m$ 棵树的参数：
$\theta_{m}=\arg\min_{\theta}\sum_{i=1}^{N}L(y_{i},F_{m-1}(\mathbf{x}_{i})+f(\mathbf{x}_{i};\theta))$
不同问题的提升树算法，主要区别是使用的损失函数不同。对于二分类问题，提升树算法是AdaBoost算法的特殊情况。这里叙述回归问题的提升树。
已知训练集 $\{(\mathbf{x}_{i},y_{i})\}_{1}^{N}$ ，如果将输入空间划分为 $J$ 个不相交的区域 $R_{1},R_{2},...,R_{J}$ ，并且每个区域确定输出的常量 $c_{j}$ ，树可表示为： $f(\mathbf{x};\theta)=\sum_{j=1}^{J}c_{j}I(\mathbf{x}\in R_{j})$
其中，参数 $\theta=\{(R_{j},c_{j})\}_{1}^{N}$ 表示树的区域划分和区域的常数值。 $J$ 是回归树的复杂度，即叶节点的个数。
当误差函数为平方损失误差为： $L(y,f(x))=(y-f(x))^{2}$
$L(y,F_{m-1}(\mathbf{x})+f(\mathbf{x};\theta))=L[y-F_{m-1}(\mathbf{x})-f(\mathbf{x};\theta)]^{2}=[r-f(\mathbf{x};\theta)]^{2}$
$r=y-F_{m-1}(\mathbf{x})$ 是当前模型拟合数据的残差(residual)。所以，回归问题的提升树算法只需要拟合当前模型的残差。
回归问题的提升树算法：
输入：训练数据集 $\{(\mathbf{x}_{i},y_{i})\}_{1}^{N}$
输出：提升树 $F_{M}(\mathbf{x})$
初始化 $f_{0}(\mathbf{x})=0$
对 $m = 1, 2, . . ., M$ :
---------计算残差 $r_{mi}=y_{i}-F_{m-1}(\mathbf x_{i}),i=1,2,...,N$
---------拟合残差学习一个回归树，得到回归树 $f(\mathbf{x;\theta_{m}})$
---------更新 $F_{m}(\mathbf{x})=F_{m-1}(\mathbf{x})+f(\mathbf{x;\theta_{m}})$
最终得到的回归提升树： $F_{M}(\mathbf{x})=\sum_{m=1}^{M}f(\mathbf{x};\theta_{m})$
例子: 学习这个回归问题的提升树模型，考虑只用树桩做为基函数。

x	1	2	3	4	5	6	7	8	9	10
y	5.56	5.70	5.91	6.40	6.80	7.05	8.90	8.70	9.00	9.05

第一步求回归树 $f_{1}(x)$ ，通过以下优化问题：
$m(s)=\min_{c_{1}}\sum_{x_{i}\in R_{1}}(y_{i}-c_{1})^{2}+\min_{c_{2}}\sum_{x_{i}\in R_{2}}(y_{i}-c_{2})^{2}$
求解训练数据的切分点 $s$ ： $R_{1}=\{x|x\leq s\}, R_{2}=\{x|x>s\}$ 。容易求得在 $R_{1},R_{2}$ 内部使平方误差达到最小值的 $c_{1},c_{2}$ 为：
$c_{1}=\frac{1}{N_{1}}\sum_{x_{i}\in R_{1}}y_{i},c_{2}=\frac{1}{N_{2}}\sum_{x_{i}\in R_{2}}y_{i}$

根据所给的数据，考虑如下的切分点： $1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5$
例如：当 $s=1.5时,R_{1}=\{1\}，R_{2}=\{2,3,...,10\},c_{1}=5.56,c_{2}=7.50,m(s)=15.72$
现将 $s$ 及 $m (s)$ 的计算结果列表如下：

s	1.5	2.5	3.5	4.5	5.5	6.5	7.5	8.5	9.5
m(s)	15.72	12.07	8.36	5.78	3.91	1.93	8.01	11.73	15.74

由上表可知，当 $s = 6.5$ 时， $m (s)$ 达到最小值，此时 $R_{1}=\{1,2,...,6\},R_{2}=\{7,8,9,10\},c_{1}=6.24,c_{2}=8.91$ ,所以回归树 $f_{1}(x)=\left\{\begin{matrix} 6.24,x<6.5\\ 8.91,x\geq 6.5 \end{matrix}\right.$
用 $f_{1}(x)$ 拟合训练数据的残差如下表所示： $r_{2i}=y_{i}-f_{1}(x_{i})$

$x$	1	2	3	4	5	6	7	8	9	10
$r_{2i}$	-0.68	-0.54	-0.33	0.16	0.56	0.81	-0.01	-0.21	0.09	0.14

用 $F_{1}(x)$ 拟合训练数据的平方损失误差： $L(y,F_{1}(x))=\sum_{i=1}^{10}(y_{i}-F_{1}(x_{i}))^{2}=1.93$
采用与上面相同的方法拟合残差数据： $f_{2}(x)=\left\{\begin{matrix} -0.52, x<3.5\\ 0.22, x \geq 3.5 \end{matrix}\right.$

依次类推可得：
$f_{3}(x)=\left\{\begin{matrix} 0.15, x<6.5\\ -0.22, x \geq 6.5 \end{matrix}\right.,f_{4}(x)=\left\{\begin{matrix} -0.16, x<4.5\\ 0.11, x \geq 4.5 \end{matrix}\right.$
$f_{5}(x)=\left\{\begin{matrix} 0.07, x<6.5\\ -0.11, x \geq 6.5 \end{matrix}\right.,f_{6}(x)=\left\{\begin{matrix} -0.15, x<2.5\\ 0.04, x \geq 2.5 \end{matrix}\right.$
$F_{6}(x)=F_{5}(x)+f_{6}(x)=f_{1}(x)+f_{2}(x)+...+f_{6}(x)=\left\{\begin{matrix} 5.63,x<2.5\\ 5.82,2.5\leq x <3.5\\ 6.56,3.5\leq x <4.5\\ 6.83,4.5\leq x <6.5\\ 8.95,x \geq 6.5 \end{matrix}\right.$
用 $F_{6}(x)$ 拟合训练数据的平方损失函数误差是： $L(y,F_{6}(x))=\sum_{i=1}^{10}L(y_{i},F_{6}(x_{i}))=0.17$
假设此时已满足误差要求，那么 $F_{6}(x)$ 就是所求的提升树。

梯度提升

提升树利用加法模型和前向分步算法实现学习的优化过程。当损失函数为平方损失函数和指数损失函数时，每一步的优化很容易实现，但对一般的损失函数而言，优化困难。Freidman提出了梯度提升方法（gradient boosting），利用损失函数的负梯度在当前模型的值：
$-[\frac{\partial{L(y_{i},F(\mathbf{x}_{i}))}}{\partial{F({\mathbf{x}_{i}})}}]_{F({\mathbf{x}})=F_{m-1}(\mathbf x)}$
作为回归问题提升树中残差的近似值来优化。
梯度提升的一般框架
对于第 $m$ 步， $(\beta_{m},a_{m})=\arg \min_{\beta,a}\sum_{i=1}^{N}L(y_{i},F_{m-1}(\mathbf{x}_{i})+\beta h(\mathbf{x}_{i};a))$
上述的误差可能很难去直接优化，不妨先通用的求解梯度：
$-g_{m}(\mathbf{x}_{i})=-[\frac{\partial{L(y_{i},F(\mathbf{x}_{i}))}}{\partial{F({\mathbf{x}_{i}})}}]_{F({\mathbf{x}})=F_{m-1}(\mathbf x)}$
我们先把 $F_{m-1}({\mathbf{x}_{i}})$ 看做一个整体，也就是一个参数。求解梯度后，我们通常会这样更新： $F_{m}({\mathbf{x}_{i}})=F_{m-1}({\mathbf{x}_{i}})-g_{m}(\mathbf{x}_{i})$
此时， $F_{m}({\mathbf{x}_{i}})$ 就要比 $F_{m-1}({\mathbf{x}_{i}})$ 更优。但是我们的目的是要得到如下而不是更新 $F({\mathbf{x}_{i}})$ ： $F_{m}({\mathbf{x}_{i}})=F_{m-1}({\mathbf{x}_{i}})+\beta h(\mathbf{x}_{i};a)$
所以新组合得到的分类器就要去拟合负梯度：
$a_{m}=\arg \min_{a,\beta}\sum_{i=1}^{N}[-g_{m}(\mathbf{x}_{i})-\beta h(\mathbf{x}_{i};a)]^{2}$
$\beta_{m}$ 无需求解的原因是下面求解的 $\rho_{m}$ 可能会比其更优：
$\rho_{m}=\arg\min_{\rho}\sum_{i=1}^{N}L(y_{i},F_{m-1}(\mathbf{x}_{i})+\rho h(\mathbf{x}_{i};a_{m}))$
更新组合分类器：
$F_{m}(\mathbf{x}_{i})=F_{m-1}(\mathbf{x}_{i})+\rho_{m} h(\mathbf{x}_{i};a_{m}))$
框架伪代码：
在这里插入图片描述