SVM的基本推导

article/2025/9/13 5:25:33

1、SVM的作用

对于给定的训练样本集D={(x1,y1), (x2,y2),… (xn,yn)}，yi属于{-1，+1}，希望能找出一个超平面，把不同类别的数据集分开，对于线性可分的数据集来说，这样的超平面有无穷多个，而最优的超平面即是分隔间距最大的中间那个超平面

2、硬间隔最大化

对于以上的KKT条件可以看出，对于任意的训练样本总有ai=0或者yif(xi) - 1=0即yif(xi) = 1
1）当ai=0时，代入最终的模型可得：f(x)=b，即所有的样本对模型没有贡献
2）当ai>=0，则必有yif(xi) = 1，注意这个表达式，代表的是所对应的样本刚好位于最大间隔边界上，是一个支持向量，这就引出一个SVM的重要性质：训练完成后，大部分的训练样本都不需要保留，最终的模型仅与支持向量有关。
3、软间隔最大化

前面我们是假定所有的训练样本在样本空间或特征空间中是严格线性可分的，即存在一个超平面能把不同类的样本完全分开，然鹅现实任务中很难确定这样的超平面（不管是线性超平面还是经过核变换到高维空间的超平面），所以引入松弛变量，允许一些样本出错，但我们希望出错的样本越少越好，所以松弛变量也有限制（注：公式中的松弛变量不是单单一个数，每个样本都有对应的松弛变量）。引入松弛变量的间隔问题成为软间隔