机器学习之常见的损失函数(loss function)

解决一个机器学习问题主要有两部分：数据和算法。而算法又有三个部分组成：假设函数、损失函数、算法优化。我们一般在看算法书或者视频教学时，更多的是去推算或者说参数估计出其假设函数，而往往不太注重损失函数，但是损失函数在面试时却是一个很重要的知识点。所以仅在此以自己理解的方式总结一些常见的损失函数，作为笔记方便日后复习。

参考文章：

一、总览

在机器学习中，通常把模型关于单个样本预测值与真实值的差称为损失，损失越小，模型越好，而用于计算损失的函数称为损失函数。本文介绍的主要有以下的一些损失函数。

logLoss (对数损失函数，LR)
hinge loss (合页损失函数，SVM)
exp-loss (指数损失函数，AdaBoost)
cross-entropy loss (交叉熵损失函数，Softmax)
quadratic loss (平方误差损失函数，线性回归)
absolution loss (绝对值损失函数， )
0-1 loss (0-1损失函数)

二、 logLoss (对数损失函数，也叫binary cross entropy，二元交叉熵损失，LR)

逻辑回归模型中，通过把线性拟合分类边界的结果送入sigmoid函数，从而得到预测为正的概率。那么很多人可能认为logistics regression模型的损失函数为平方损失函数？其实不是，而是logLoss。为什么是logloss呢？在逻辑回归推导过程中，我们假设样本不是0就是1，即假设样本服从伯努利分布(0-1, 伯努利分布亦称“零一分布”、“两点分布”)，然后求满足分布的似然函数，转成对数似然，在对对数似然求极值等。而逻辑回归并没有求似然函数的极值，而是把极大化当成一种思想，对极大取负号变成取极小值。从损失函数的角度去看，其就变成了log损失函数。

logLoss (log 损失函数)的函数标准形式：

$L(Y,\ P(Y|X)) = - log\ P(Y|X)$

逻辑回归的P(Y=y|x)的表达式如下：

$P(Y=y|x) = \left\{\begin{matrix} \ \ \ \ \ \ \ h_\Theta (x) = g(f(x)) = \frac{1}{1+e^{-f(x)}}, \ \ \ \ y=1\ \ \ \ \\\\ 1 - h_\Theta (x) = 1 - g(f(x)) = \frac{1}{1+e^{f(x)}}, \ \ y = 0 \end{matrix}\right.$

把P(Y=y|x)带入log loss得：

$L(y, P(Y=y|x)) = \left\{\begin{matrix} -log\ h_\Theta (x)\ \ \ \ \ \ \ \ \ ,\ y=1\\ \\ -log\ (1- h_\Theta (x))\ , \ y=0 \end{matrix}\right.$

分段函数不太好求解，我们对其进行合并，则最后逻辑回归的目标式子为：

$J(\Theta ) = -\frac{1}{m}\sum_{i=1}^{m}[y_i logh_\Theta (x_i) + (1-y_i)log(1-h_\Theta (x_i))]$

当然，一般我们在实际使用中会对目标函数加入正则化：

$J(\Theta ) = -\frac{1}{m}\sum_{i=1}^{m}[y_i logh_\Theta (x_i) + (1-y_i)log(1-h_\Theta (x_i))]\ +\ \frac{\lambda }{2m}\sum_{j=1}^{n}\Theta_j^2$

m为样本数，n为特征数。

上面就是逻辑回归使用log loss的推导过程了，得到该目标函数后就可通过梯度下降等优化方法进行求参咯，如果你还不了解逻辑回归，请点这里。

三、hinge loss (合页损失函数，SVM)

在机器学习中，SVM是你不可能绕过去的模型，SVM有两种解释方式:

第一种是我们非常熟悉的是通过间隔最大化方式，通过拉格朗日乘子法转化成对偶问题进行建模求解的，其(此处是说线性支持向量机)原始优化问题为：

$\underset{w,b}{min}\ \ \frac{1}{2}||w||^2+C\sum_{i}^{m}\xi_i$

$st. \ \ \ y_i(w^Tx_i+b)\geq 1-\xi_i,\ \ \ i=1,2,...,m$

$\xi_i\geq 0,\ \ \ \ \ i=1,2,...,m$

通过拉格朗日乘子法转化并求解之后，得到的式子为：

$\underset{\alpha }{min}\ \ \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _i\alpha _jy_iy_jx_i^Tx_j\ -\ \sum_{i=1}^{m}\alpha _i$

$st. \ \ \ \ \sum_{i=1}^{m}\alpha _iy_i=0$

$0\leq \alpha _i\leq C,\ \ i=1,2,...,m$

第二种就是包含有hinge loss的解释方式，其通过最小化下面的目标函数：

$\sum_{i=1}^{m}[1 - y_i(w^Tx_i+b)]_+\ + \ \lambda ||w||^2$

而上面的式子中，第1项是经验损失或者经验风险第二项为系数为 $\lambda$ 的w的L2范数，为正则化项，对于第1项经验损失，函数

$L(y(w^Tx+b)) = [1-y(w^Tx+b)]_+$

称为合页损失函数(hinge loss function)。下标“+”表示下面取正值的函数：

$[z]_+=\left\{\begin{matrix} z,\ \ \ z> 0\\ \\ 0,\ \ \ z\leq 0 \end{matrix}\right.$

也可以这样理解：

$[z]_+ = max(0, 1-z)$

$\sum_{i=1}^{m}max(0, 1-y_i(w^Tx_i+b)) + \lambda ||w||^2$

hinge loss function 表示，当样本点(x_i, y_i)被正确分类且函数间隔 $y_i(w^Tx_i+b)$ 大于1时，其损失为0，否则损失为1- $y_i(w^Tx_i+b)$ 。所以在使用hinge loss function时，我们的最优化问题为最小化损失函数：

$\underset{w,b}{min} \ \ \ \sum_{i=1}^{m}[1-y_i(w^Tx_i+b)]_+\ +\ \lambda||w||^2$

转化证明详见《统计学习方法》-- 李航。

对于多分类的linear SVM，我们的损失函数为多分类的hinge loss：

现在我们来讲一下下面公式的意思：

$L_i = \sum_{j\neq y_i}max(0, w^T_jx_i-w^T_{y_i}x_i+\Delta )$

$= \sum_{j\neq y_i}max(0, w^T_jx_i+\Delta -w^T_{y_i}x_i)$

也就说对于样本x_i，对于判定为其他类别的得分 $w_j^Tx_i$ 与其正确的类型 $w_{y_i}^Tx_i$ 的距离不能小于 $\Delta$ ，如果超过范围，则其损失为超过的值，如下图：

其中2的黄色框的红方点为正确类型的得分 $w_{y_i}^Tx_i$ ，delta为最小的安全距离，则预测为其他类型的得分 $w_j^Tx_i$ 不能超过1的黄色框中的红方点，或在1的左边损失为0，在1的右边则其损失为得分减去1的分值。

四、exp-loss (指数损失函数，AdaBoost)

在集成学习中，主要有三种集成方法Boosting、Bagging、Stacking，而Boosting中著名的代表为AdaBoost算法。

Boosting是一簇可将弱学习器提升为强学习器的算法。其工作机制为：先从初始训练集训练出一个基学习器，再根据基学习器的表现对样本分布进行调整，使得先前的基学习器做错的训练样本在后续收到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到实现指定的值T，或整个集成结果达到退出条件，然后将这些学习器进行加权结合。

Adaboost 算法采用调整样本权重的方式来对样本分布进行调整，即提高前一轮个体学习器错误分类的样本的权重，而降低那些正确分类的样本的权重，这样就能使得错误分类的样本可以受到更多的关注，从而在下一轮中可以正确分类，使得分类问题被一系列的弱分类器“分而治之”。对于组合方式，AdaBoost采用加权多数表决的方法，具体地，加大分类误差率小的若分类器的权值，减小分类误差率大的若分类器的权值，从而调整他们在表决中的作用。

Adaboost的损失函数为指数损失函数。在Adaboost算法学习的过程中，经过m轮迭代之后，可以得到 $f_m(x)$ :