解读Logistic回归模型

article/2025/8/24 8:40:59

一、logistic回归的由来

logistic回归在百度百科是这样定义的：

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。

由此可见 logistic回归是从线性回归模型推广而来的，线性回归模型如下：

$h(x)=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+ ... +\theta _{n}x_{n}$ -----------线性方程形式

$h(x)=\Theta ^{T}X$ ----------------向量形式

h(x)输出为连续的值，但是实际中会有"输出为离散型变量"这样的需求，例如：给定特征预测一次金融交易是否是欺诈(1表示是, 0表示不是)，显然不能直接使用线性回归模型（上面的线性回归方程自变量的取值范围是-∞到+∞，右侧表达式的的值的范围也是-∞到+∞），而这时逻辑回归就派上用场了。

二、Logistic回归模型建立

离散型变量涉及的问题通常称之为分类问题，在分类问题中，尝试预测的是结果是否属于某一个类，下面我们从0-1二元分类问题开始理解。

现假设因变量y取值为0和1，在自变量x的条件下因变量y=1的概率为p，记作p=P(y=1|x)，那么y=0的概率就为1-p（因变量取1和取0的概率比值p/(1-p) 称为优势比），由 P(y=1|x) 推导 Sigmoid函数，推导过程如下：

Sigmoid函数公式： $h(z)=\frac{1}{1+e^{-z}}$ ----------------------- (1)

Sigmoid函数图形：（上下阈值无限逼近 1 和 0）

Logistic回归可理解为是在线性回归的基础上加一个Sigmoid函数对线性回归的结果进行压缩，令其最终预测值y在一个范围内（0到1之间），或者说是在用线性回归模型的预测结果去逼近真实标记的对数几率。

上述由 P(y=1|x) 推导 Sigmoid函数的过程中，设置了：

$\large z=ln \frac{P(x|y=1)P(y=1)}{P(x|y=0)P(y=0)}$

这里，需要一个引经据典，才能进行下一步推导：

1730 年，法国数学家棣莫弗（1677年-1754年）出版的著作《分析杂论》中包含了著名的棣莫弗─拉普拉斯定理。他使用正态分布取估计n（很大）时抛掷硬币出现正面次数的分布，即二项分布B(n，0.5)。这就是概率论中第二个基本极限定理的雏形。将近80年后，拉普拉斯（1749年-1827年）在 1812 年出版的《概率的分析理论》中，首先明确地对概率作了古典的定义。他指出当n很大时，二项分布B(n，p)(0<p<1)都可以用正态分布逼近。所以后人称之为棣莫弗-拉普拉斯中心极限定理。

所以，我们假设类条件概率密度服从正态分布。

高中的时候我们便学过一维正态分布的公式为：

$N(x|\upsilon ,\sigma ^{2}) = \frac{1}{\sqrt{2\pi\sigma ^{2} }}e^{-\frac{1}{2\sigma ^{2}}(x-\upsilon )^{2}}$

拓展到多维时，就变成：

$N(\bar{x}|\bar{\upsilon},\Sigma ) = \frac{1}{(2\pi) ^{\frac{D}{2}}} \frac{1}{\left |\sum \right |^{\frac{1}{2}}} e^{[ -\frac{1}{2} (\bar{x} - \bar{\upsilon })^{T} \sum ^{-1} (\bar{x} - \bar{\upsilon}) ]}$ -------------------------- (2)

其中， $\bar{X}$ 表示维度为 D 的向量， $\bar{u}$ 则是这些向量的平均值，Σ 表示所有向量 $\bar{X}$ 的协方差矩阵。

(2)式写成概率的形式：

$P(x|c_{k}) = \frac{1}{(2\pi) ^{\frac{D}{2}}} \frac{1}{\left |\sum \right |^{\frac{1}{2}}} e^{[ -\frac{1}{2} (x - \upsilon _{k})^{T} \sum ^{-1} (x - \upsilon _{k}) ]}$