机器学习笔记6：SVM基本原理

article/2025/10/1 3:28:14

SVM的基本原理：
1、最大间隔原则
2、对偶表示
3、KKT条件

SVM(Support Vector Machine)，又称支持向量机，在分类问题上，除了logistic分类回归外，还有另一种实现方式，那就是使用SVM原则。那么什么是SVM 呢。
1、最大间隔原则
首先，我们定义最大间隔原则：最大化两个类最近点之间的距离。如何理解呢。我们先从简单的二维平面着手，看下图（在此之前，我们假设分类器是线性可分的）：
　　　　　在这里插入图片描述
图中有两组平行线，每组都是黑、红、蓝组成的，分别是a组合b组。根据最大间隔原则，只有a组才符合最大化两个类最近点的距离；那么这距离称为间隔(margin)，黑色或者红线上面的点被称为支持向量(Support Vector)。这个符合我们的直觉，如果两个物体之间分得越开就越容易能够分别出来，而非“密不可分”
那么这个间隔如何得出呢，为了能够非常直观的得出结论，我们要在三维坐标上来演示，如下图：
　　　　　　　　　在这里插入图片描述
在此图中，假设我们的线性分类面 $f(\textbf{x})=\textbf{w}^{T}\textbf{x}+x_{0}$ ，则 $\textbf{x}=\textbf{x}_{p}+r\frac{\textbf{w}}{||\textbf{w}||}$ ，其中 $\textbf{x}$ 到分类面的距离为 $r$ 。
因为： $f(\textbf{x}_{p})=\textbf{w}^{T}\textbf{x}_{p}+w_{0}=0$ ； $\textbf{w}^{T}\textbf{w}=||\textbf{w}||^{2}$
所以：
　　　在这里插入图片描述
当x=0时，原点到分类面的距离为： $r_{0}=\frac{f(0)}{||\textbf{w}||}=\frac{w_{0}}{||\textbf{w}||}$
线性判别函数：线性判别函数利用超平面把特征空间分隔成两个区域，超平面的法向量方向是由 $\textbf{w}$ 决定的，而它的位置由 $w_{0}$ 确定。判别函数 $f(\textbf{x})$ 正比于 $\textbf{x}$ 到超平面的代数距离(带正负号)。当 $\textbf{x}$ 在超平面的正侧时， $f(\textbf{x})>0$ ;当 $\textbf{x}$ 在超平面的负侧时， $f(\textbf{x})<0$ ; $\textbf{x}$ 到超平面的距离 $ry_{i}=\frac{y_{i}f(\textbf{x})}{||\textbf{w}||}$ , $y_{i}\in \{1,-1\}$ ;可视为对 $\textbf{x}$ 判别的置信度。
间隔（margin）计算：
　　　　　　　　　　　　　在这里插入图片描述
根据上图，间隔是两个向量相减得出的，即间隔= $|\textbf{x}_{+}-\textbf{x}_{-}|$ ,因为 $\textbf{x}_{+}=\textbf{x}_{-}+\lambda\textbf{w}$ ,且 $\left.\begin{matrix} w_{0}+\textbf{w}^{T}\textbf{x}_{+}=1\\ w_{0}+\textbf{w}^{T}\textbf{x}_{-}=-1 \end{matrix}\right\}\Rightarrow \textbf{w}^{T}(\textbf{x}_{+}-\textbf{x}_{-})=2\Rightarrow \lambda =\frac{2}{||\textbf{w}||^{2}}$
所以最终，间隔= $|\textbf{x}_{+}-\textbf{x}_{-}|=\frac{2}{||\textbf{w}||}$
所以SVM最大化间隔的超平面为：
　　　　　　　在这里插入图片描述
等价于：
　　　　　　　
由此我们求解的就是二次规划问题（目标函数为二次函数，约束项为线性约束），当变量个数为 $D + 1$ ，则约束项的数目为 $N$

2、对偶表示
凸优化理论告诉我们该优化问题可以等价的写成其对偶形式(dual formulation)，根据拉格朗日函数：
　　　　　　 $L(\mathbf{\alpha},w_{0},\textbf{w})=\frac{1}{2}\textbf{w}^{T}\textbf{w}-\sum_{i=1}^{N}\alpha_{i}(y_{i}(w_{0}+\textbf{w}^{T}\textbf{x})-1),\alpha_{i} >0$
那么是的目标函数最小的 $w_{0},\textbf{w}$ 为：
　　　　　　 $\frac{\partial L}{\partial \textbf{w}}=0\Rightarrow \textbf{w}=\sum_{i=1}^{N}\alpha_{i}y_{i}\textbf{x}_{i}$
　　　　　　 $\frac{\partial L}{\partial w_{0}}=0\Rightarrow \sum_{i=1}^{N}\alpha_{i}y_{i}=0$
在这里插入图片描述
那么解对偶问题就在于寻找 $\{\alpha_{i}\}_{i=1}^{N}$ ，最大化目标函数：
　　　　　　
需要满足条件： $\left\{\begin{matrix} \sum_{i=1}^{N}\alpha _{i}y_{i}\\ \alpha _{i}\geq 0 \end{matrix}\right.$
但是任然有一个问题，那就是当变量数为 $N$ ，约束项的数目为 $N + 1$ 时，如果 $N$ 比较大时，对偶问题的复杂度可能比原问题更高；这是我们可以利用对偶问题的kernel trick和核方法结合方法来解决，对此，该问题的高效优化算法为：SMO(Sequential Minimal Optimization)，它的主要两个思想是：一是坐标轴下降法，二是在SVM中， $\triangle L_{w_{0}}=0\Rightarrow \mathbf{\alpha}^{*} y\textbf{1}=0$ ，所以不能够单独改变一个 $\alpha$ ，而是每次每次选取一对 $\alpha_{i},\alpha_{j}$ 做优化
求解出 $\alpha_{i}$ 后，在求出 $\textbf{w}=\sum_{i=1}^{N}\alpha_{i}y_{i}\textbf{x}_{i}$ 和 $w_{0}$ ，可以得到判别函数： $f(x)=w_{0}+\textbf{w}^{T}\textbf{x}=w_{0}+\sum_{i}\alpha_{i}y_{i}\textbf{x}_{i}^{T}\textbf{x}=w_{0}+\sum_{i}\alpha_{i}y_{i}\left \langle \textbf{x},\textbf{x}_{i} \right \rangle$
这就可以得到SVM模型了，当一个新 $\textbf{x}$ 进行预测是，分类器 $\hat{y}=sgn(f(\textbf{x}))$

3、KKT条件
在二次规划问题上的求解时，根据优化理论，一个点 $\textbf{x}$ 称为全局最小值的必要条件是满足Karush-Kuhn-Tucker条件（KKT)，当 $f(\textbf{x})$ 是凸函数时，KKT条件也是充分条件。
对于二次规划问题的求解。我们知道其对偶性质
原问题： $P=\underset{\textbf{x}}{min}f_0(\textbf{x})$
　　　　s.t. $f_{i}(\textbf{x})\leq 0,1\leq i\leq N$
　　　　　　 $h_{j}(\textbf{x})= 0,1\leq j\leq M$
　　　　　　
拉格朗日函数： $L(\textbf{x},\mathbf{\lambda},\mathbf{\mu})=f_{0}(\textbf{x})+\sum_{i}\lambda_{i}f_{i}(\textbf{x})+\sum_{j}\mu_{j}h_{j}(\textbf{x})$

对偶问题： $D=\underset{\mathbf{\lambda},\mathbf{\mu}}{max}L(\textbf{x},\mathbf{\lambda},\mathbf{\mu})$
　　　　　s.t. $\lambda_i \geq 0$
当 $P\geq D$ 时，为弱对偶性；当 $P = D$ 时，为强对偶性