该文已经收录到专题机器学习进阶之路当中，欢迎大家关注。

1.过拟合

当样本特征很多，样本数相对较少时，模型容易陷入过拟合。为了缓解过拟合问题，有两种方法：

方法一：减少特征数量（人工选择重要特征来保留，会丢弃部分信息）。

方法二：正则化（减少特征参数 $w ^$ 的数量级）。

2.正则化（Regularization）

正则化是结构风险（损失函数+正则化项）最小化策略的体现，是在经验风险（平均损失函数）上加一个正则化项。正则化的作用就是选择经验风险和模型复杂度同时较小的模型。

防止过拟合的原理：正则化项一般是模型复杂度的单调递增函数，而经验风险负责最小化误差，使模型偏差尽可能小经验风险越小，模型越复杂，正则化项的值越大。要使正则化项也很小，那么模型复杂程度受到限制，因此就能有效地防止过拟合。

3.线性回归正则化

正则化一般具有如下形式的优化目标：

$\ mathop {\ min} \ limits_ {f \ in F} \ left [{\ frac {1} {m} \ sum \ limits_ {i = 1} ^ m {L \ left（{{y_i}，f \ left （{{x_i}} \ right）} \ right）} + \ lambda J \ left（f \ right）} \ right]$ （1）

其中， $\ lambda \ geq 0$ 是用来平衡正则化项和经验风险的系数。

正则化项可以是模型参数向量的范数，经常用的有 $L_1$ 范数， $L_2$ 范数（ $L_1$ 范数： ${\左\ | x \ right \ | _1} = \ sum \ limits_ {i = 1} ^ m {\ left | {{x_i}} \ right |}$ ， $L_2$ 范数: ${\左\ | x \ right \ | _2} = \ sqrt {\ sum \ limits_ {i = 1} ^ m {x_i ^ 2}}$ ) 。

我们考虑最简单的线性回归模型。

给定数据集 $D = \left\{ \left( x _ { i } , y _ { i } \right) \right\} _ { i = 1 } ^ { m }$ ，其中， $x _ { i } = \left( x _ { i 1 } , x _ { i 2 } , \dots , x _ { i d } \right)$ ， $y _ { i } \in R$ 。

代价函数为： $J \ left（w \ right）= \ frac {1} {m} {\ left \ | {y - {w ^ T} X} \ right \ | ^ 2} = \ frac {1} {m} \ sum \ limits_ {i = 1} ^ m {{{left（{{y_i} - {w ^ T} {x_i}} \ right）} ^ 2}}$ （2）

（1） $L_2$ 范数正则化（Ridge Regression，岭回归）

代价函数为：

$J \ left（w \ right）= \ frac {1} {m} \ sum \ limits_ {i = 1} ^ m {{{\ left（{{y_i} - {w ^ T} {x_i}} \ right ）} ^ 2}} + \ lambda \ left \ | w \ right \ | _2 ^ 2 \ left（{\ lambda> 0} \ right）$ （3）

（2） $L_1$ 范数正则化（LASSO，Least Absoulute Shrinkage and Selection Operator，最小绝对收缩选择算子）

代价函数为：

$J \ left（w \ right）= \ frac {1} {m} \ sum \ limits_ {i = 1} ^ m {{{\ left（{{y_i} - {w ^ T} {x_i}} \ right ）} ^ 2}} + \ lambda {\ left \ | w \ right \ | _1} \ left（{\ lambda> 0} \ right）$ （4）

（3） $L_1$ 正则项 $L_2$ 正则项结合（Elastic Net）

代价函数为：

$J \ left（w \ right）= \ frac {1} {m} \ sum \ limits_ {i = 1} ^ m {{{\ left（{{y_i} - {w ^ T} {x_i}} \ right }} ^ 2}} + \ lambda \ left（{\ rho {{\ left \ | w \ right \ |} _1} + \ left（{1 - \ rho} \ right）\ left \ | w \ right \ | _2 ^ 2} \ right）$ （5）

其中， $L_1$ 范数正则化、 $L_2$ 范数正则化都有助于降低过拟合风险， $L_2$ 范数通过对参数向量各元素平方和求平方根，使得 $L_2$ 范数最小，从而使得参数 $w ^$ 的各个元素接近0 ，但不等于0。 而 $L_1$ 范数正则化比 $L_2$ 范数更易获得“稀疏”解，即 $L_1$ 范数正则化求得的 $w ^$ 会有更少的非零分量，所以 $L_1$ 范数可用于特征选择，而 $L_2$ 范数在参数规则化时经常用到（事实上， $L_0$ 范数得到的“稀疏”解最多，但 $L_0$ 范数 $\左\ | x \ right \ | = \＃\ left（{i \ left | {{x_i} \ ne 0} \ right。} \ right）$ 是 $x$ 中非零元素的个数，不连续，难以优化求解。因此常用 $L_1$ 范数来近似代替）。

为什么 $L_1$ 正则化更易获得“稀疏”解呢？

假设 $X$ 仅有两个属性， $w ^$ 只有两个参数 ${W_1}，{W_2}$ ，绘制不带正则项的目标函数-平方误差项等值线，再绘制 $L_1$ ， $L_2$ 范数等值线，如图1正则化后优化目标的解要在平方误差项和正则化项之间折中，即出现在图中等值线相交处采用。 $L_1$ 范数时，交点常出现在坐标轴上，即 ${}的例句$ 或 ${}的例句$ 为0;而采用 $L_2$ 范数时，交点常出现在某个象限中，即 ${}的例句$ ， ${}的例句$ 均非0。也就是说， $L_1$ 范数比 $L_2$ 范数更易获得“稀疏”解。

4.岭回归求解

岭回归不抛弃任何一个特征，缩小了回归系数。

岭回归求解与一般线性回归一致。

（1）如果采用梯度下降法：

$\ frac {{\ partial J \ left（w \ right）}} {{\ partial {w_j}}} = \ frac {1} {m} \ sum \ limits_ {i = 1} ^ m {\ left（{ {w ^ T} {x_i} - {y_i}} \ right）{x_ {ij}} + 2 \ lambda {w_j}}$ （6）

迭代公式如下：

$\ begin {array} {l} {w_ {j + 1}} = {w_j} - \ frac {\ alpha} {m} \ sum \ limits_ {i = 1} ^ m {\ left（{{w ^ T } {x_i} - {y_i}} \ right）{x_ {ij}} - 2 \ lambda {w_j}} \\ = \ left（{1 - 2 \ lambda} \ right）{w_j} - \ frac {\ alpha} {m} \ sum \ limits_ {i = 1} ^ m {\ left（{{w ^ T} {x_i} - {y_i}} \ right）{x_ {ij}}} \ end {array}$ （7）

（2）如果采用正规方程：

最优解为：

${w ^ *} = {\ left（{{X ^ T} X + \ lambda I} \ right）^ { - 1}} {X ^ T} y$ （8）

最后，将学得的线性回归模型为：

$\ widehat y = {w ^ T} X = {X ^ T} w = {\ left（{{X ^ T} X + \ lambda I} \ right）^ { - 1}} {X ^ T} y$ （9）

5. LASSO回归求解

由于 $L_1$ 范数用的是绝对值，导致LASSO的优化目标不是连续可导的，也就是说，最小二乘法，梯度下降法，牛顿法，拟牛顿法都不能用。

$L_1$ 正则化问题求解可采用近端梯度下降法（Proximal Gradient Descent，PGD）。

（1）优化目标

优化目标为： $\ mathop {\ min} \ limits_x \ left [{f \ left（x \ right）+ \ lambda {{\ left \ | x \ right \ |} _1}} \ right$ （10）

若 ${f \ left（x \ right）}$ 可导，梯度 $\ nabla f \ left（x \ right）$ 满足L-Lipschitz条件（利普希茨连续条件），即存在常数 $L> 0$ ，使得：

$\压裂{{\左\ | {\ nabla f \ left（{x'} \ right） - \ nabla f \ left（x \ right）} \ right \ | _2 ^ 2}} {{\ left \ | {x' - x} \ right \ | _2 ^ 2}} \ le L，\ forall \ left（{x，x'} \ right）$ （11）

L-Lipschitz（利普希茨连续条件）定义：

对于函数 $f \ left（x \ right）$ ，若其任意定义域中的 $X_1$ , $X_2$ 都存在 $L> 0$ ，使得 $\左| {f \ left（{{x_1}} \ right） - f \ left（{{x_2}} \ right）} \ right | \ le L \ left | {{x_1} - {x_2}} \ right |$ ，即对于 $f \ left（x \ right）$ 上每对点，连接它们的线的斜率的绝对值总是不大于这个实数 $大号$ 。

（2）泰勒展开

在 $X_K$ 处将 $f \ left（x \ right）$ 进行二阶泰勒展开：

$f \ left（x \ right）= f \ left（{{x_k}} \ right）+ \ nabla f \ left（{{x_k}} \ right）\ left（{x - {x_k}} \ right）+ \ frac {{f''\ left（{{x_k} + \ xi} \ right）}} {2} {\ left（{x - {x_k}} \ right）^ 2}$ （12）

由（11）式，泰勒将展开式的二阶导用 $大号$ 代替，得到：

$f \ left（x \ right）\ approx f \ left（{{x_k}} \ right）+ \ nabla f \ left（{{x_k}} \ right）\ left（{x - {x_k}} \ right） + \ frac {L} {2} {\ left（{x - {x_k}} \ right）^ 2}$ （13）

（3）简化泰勒展开式

将（13）式化简：

$\ begin {array} {l} f \ left（{{x_k}} \ right）+ \ nabla f \ left（{{x_k}} \ right）\ left（{x - {x_k}} \ right）+ \ frac {L} {2} {\ left（{x - {x_k}} \ right）^ 2} \\ = \ frac {L} {2} \ left [{{{{left（{x - {x_k} } \ right）} ^ 2} + \ frac {2} {L} \ nabla f \ left（{{x_k}} \ right）\ left（{x - {x_k}} \ right）+ \ frac {1} {{{L ^ 2}}} {{\ left（{\ nabla f \ left（{{x_k}} \ right）} \ right）} ^ 2}} \ right] - \ frac {L} {2} \ frac {1} {{{L ^ 2}}} {\ left（{\ nabla f \ left（{{x_k}} \ right）} \ right）^ 2} + f \ left（{{x_k}} \ right）\\ = \ frac {L} {2} {\ left [{x - \ left（{{x_k} - \ frac {1} {L} \ nabla f \ left（{{x_k}} \ right }} \ right）} \ right] ^ 2} + \ varphi \ left（{{x_k}} \ right）\\ = \ frac {L} {2} \ left \ | {x - \ left（{{x_k} - \ frac {1} {L} \ nabla f \ left（{{x_k}} \ right）} \ right）} \ right \ | _2 ^ 2 + \ varphi \ left （{{x_k}} \ right）\ end {array}$ （14）

其中， $\ varphi \ left（{{x_k}} \ right）{\ rm {=}} f \ left（{{x_k}} \ right） - \ frac {1} {{2L}} {\ left（{\ nabla f \ left（{{x_k}} \ right）} \ right）^ 2}$ 是 $X$ 无关的常数。

（4）简化优化问题

这里若通过梯度下降法对 $f \ left（x \ right）$ （ $f \ left（x \ right）$ 连续可导）进行最小化，则每一步下降迭代实际上等价于最小化二次函数 $\ widehat f \ left（x \ right）$ ，推广到优化目标（10），可得到每一步迭代公式：

${x_ {k + 1}} = \ mathop {\ arg \ min} \ limits_x \ left [{\ frac {L} {2} \ left \ | {x - \ left（{{x_k} - \ frac {1} {L} \ nabla f \ left（{{x_k}} \ right）} \ right）} \ right \ | _2 ^ 2 + \ lambda {{ \左\ | x \ right \ |} _1}} \ right]$ （15）

令 $z = {x_k} - \ frac {1} {L} \ nabla f \ left（{{x_k}} \ right）$ ，

则可以先求 $ž$ ，再求解优化问题：

${x_ {k + 1}} = \ mathop {\ arg \ min} \ limits_x \ left [{\ frac {L} {2} \ left \ | {x - z} \ right \ | _2 ^ 2 + \ lambda {{\ left \ | x \ right \ |} _1}} \ right]$ （16）

（5）求解

令 $X ^ I$ 为 $X$ 的第 $一世$ 个分量，将（16）式按分量展开，其中不存在 $x ^ ix ^ j（i \ neq j）$ 这样的项，即 $X$ 的各分量之间互不影响，所以（12）式有闭式解。

为什么（16）式不存在 $x ^ ix ^ j（i \ neq j）$ 这样的项？

因为展开（16）式得到， $\ begin {array} {l} \ mathop {\ arg \ min} \ limits_x \ left [{\ frac {L} {2} \ left \ | {x - z} \ right \ | _2 ^ 2 + \ lambda {{\ left \ | x \ right \ |} _1}} \ right] \\ = \ mathop {\ arg \ min} \ limits_x \ left（{\ frac {L} {2} \ left \ | {{x ^ 1} - {z ^ 1}} \ right \ | _2 ^ 2 + \ lambda {{\ left \ | {{x ^ 1}} \ right \ |} _1}} \ right）+ \ mathop {\ arg \ min} \ limits_x \ left（{\ frac {L} {2} \ left \ | {{x ^ 2} - {z ^ 2}} \ right \ | _2 ^ 2 + \ lambda {{\ left \ | {{x ^ 2} } \ right \ |} _1}} \ right）+ \ cdots \\ + \ mathop {\ arg \ min} \ limits_x \ left（{\ frac {L} {2} \ left \ | {{x ^ d} - {z ^ d}} \ right \ | _2 ^ 2 + \ lambda {{\ left \ | {{x ^ d}} \ right \ |} _1}} \ right）\ end {array}$

从而优化问题变为求解 $d$ 个独立的函数： $f \ left（x \ right）= {\ left（{x - z} \ right）^ 2} + \ lambda {\ left \ | x \ right \ | _1}$ 。

对于上述优化问题需要用到soft thresholding软阈值函数（证明见参考文献2），即对于优化问题：

$\ mathop {\ arg \ min} \ limits_x \ left [{\ left \ | {x - z} \ right \ | _2 ^ 2 + \ lambda {{\ left \ | x \ right \ |} _1}} \ right]$ （17）

其解为： $pro {x_u} \ left（z \ right）= sign \ left（z \ right）\ max \ left \ {{\ left | z \ right | - 你，0} \ right \}$ （18）

而我们的优化问题为（16）式，则得到闭式解为：

$x_ {k + 1} ^ i = \ left \ {{{begin {array} {* {20} {c}} {{z ^ i} - \ frac {{2 \ lambda}} {L}}＆，＆{{z ^ i}> \ frac {{2 \ lambda}} {L}} \\ 0＆，＆{ - \ frac {{2 \ lambda}} {L} <{z ^ i} <\ frac { {2 \ lambda}} {L}} \\ {{z ^ i} + \ frac {{2 \ lambda}} {L}}＆，＆{{z ^ i} < - \ frac {{2 \ lambda }} {L}} \ end {array}} \ right \}$ （19）