机器学习之逻辑斯蒂回归

article/2025/10/14 0:24:07

一、分类与回归

二、逻辑回归不是回归

三、生成式逻辑回归

四、判别式逻辑回归

五、逻辑回归为什么不用均方误差做损失函数

六、判别模型与生成模型的比较

七、写在最后

一、分类与回归

回归与分类是机器学习的基本问题。回归是预测连续值，分类是预测离散值；回归的输出可以是任意值，而分类的输出只能是预设的分类输出的一个，比如（0，1）中的0或1.；理论上讲，如果回归的输入值相近，那么它的预测值也是相近的，而分类的输入相近（在同一个分类决策边界内），那么它们的预测值是一样的，代表属于同一类别。

举个例子：

预测明天的气温是回归问题，因为预测值可以是正常温度中的任意一个值，是连续的。

预测明天的天气是分类问题，它的预测值是阴、晴、雨等等，是离散的。

二、逻辑回归不是回归

逻辑回归，Logistic Regression，名为回归，实为分类算法。

逻辑回归的激活函数为：

$\LARGE f(x)=\frac{1}{1+e^{-\omega ^{T}x}}$

通过计算，它的输出为(0,1)之间的某个数值，代表概率，输出值越接近1，表示判断为正的概率越大。和回归的区别在于，输出不能为连续的任意值，只能介于零一之间，而通过设置阈值θ,如果f(x)>θ,则最终输出为1，代表分类为正样本。如果输出f(x)<θ,输出为0，代表分类为负样本。所以逻辑回归不是回归而是分类。

三、生成式逻辑回归

假设我们有一个数据集，共有1000个样本，其中C1类有350个，C2类有650个。那么我们就已知了P(C1)和P(C2)。

贝叶斯公式为：

由贝叶斯公式上下同时除以分子可得：

$\LARGE P(C1|x)=\frac{1}{1+\frac{P(x|C2)P(C2)}{P(x|C1)P(C1)}}$

令 $\LARGE Z=ln\frac{P(x|C2)P(C2)}{P(x|C1)P(C1)}$ 则 $\LARGE P(C1|x)=\frac{1}{1+e^{-z}}$ （sigmoid函数）

sigmoid函数的性质如下图：

它可以完美的实现逻辑回归输出的要求，输出结果在（0，1）。所以逻辑回归以此为激活函数。

考虑到公式Z：

$\LARGE Z=ln\frac{P(x|C2)P(C2)}{P(x|C1)P(C1)}=ln\frac{P(x|C1)}{P(x|C2)}+ln\frac{P(C1)}{P(C2)}$

而对于一个样本，比如我们之前提到的，P(C1)H和P(C2)是已知的，只需要求前面一项即可。

现在假设每个特征的维度相互独立，则：

$\LARGE P(x|C1)=P(x_{1}|C1)P(x_{2}|C1)...P(x_{m}|C1)$

假设样本C1C2的分类均为高斯分布，且相互独立，则C1样本的均值为 $\mu ^{^{1}}$ ，样本方差为Σ1；C2的样本均值为 $\mu ^{2}$ ，样本方差为Σ2。则：

$\LARGE P(x|C1)=\frac{1}{2\pi ^{\frac{D}{2}}}\frac{1}{\left | \sum1 \right |^{\frac{1}{2}}}exp\left \{ \left. -\frac{1}{2}(x-\mu ^{1})^{T} (\sum1 )^{-1}(x-\mu^{1})\right \} \right.$

$\LARGE P(x|C2)=\frac{1}{2\pi ^{\frac{D}{2}}}\frac{1}{\left | \sum2 \right |^{\frac{1}{2}}}exp\left \{ \left. -\frac{1}{2}(x-\mu ^{2})^{T} (\sum 2)^{-1}(x-\mu^{2})\right \} \right.$

通过计算最终可得：

其中最后一项为先验概率比值的ln值。

当我们不采用单独的方差，而是使用协方差矩阵代替，即Σ=Σ1=Σ2，那么问题将得到简化，

即：

$\LARGE Z=\omega ^{T}x+b$ $\LARGE P(C1|x)=\frac{1}{1+e^{-(\omega ^{T}+b)}}$

这样通过先验概率和假设特征概率分布而求得参数的方法，成为生成式逻辑回归模型。

四、判别式逻辑回归

我们在线性回归时直接规定了损失函数为MSE，通过优化损失函数来求得最终的参数，那么我们可不可以直接也用MSE作为逻辑回归的损失函数而直接求参数呢？答案是否定的。当然，并不是因为不能优化损失函数来求参数，而是MSE不适合作为线性回归的损失函数。既然MSE的求距离方式不适用，那么我们可不可以找到另外一种求距离的方式来优化呢？答案是肯定的。那就是KL散度。