Logistic逻辑回归模型与参数估计

article/2025/8/24 8:19:58

一、引言

线性回归的因变量是连续变量,而逻辑回归解决的是因变量是分类变量的问题。当然,自变量既可以是连续的也可以是分类的,但是分类变量做自变量前需要做哑变量处理。

逻辑回归将分类因变量的0、1等 值转换为取其值的概率,将二分类模型转换为线性函数模型,转换后模型课表示为
l n p ( y = 1 ) 1 − p ( y = 1 ) = β 0 + β 1 x 1 + . . . + β p x p + ε ln\frac{p(y=1)}{1-p(y=1)}=\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p}+\varepsilon ln1p(y=1)p(y=1)=β0+β1x1+...+βpxp+ε
l n E ( y ) 1 − E ( y ) ln\frac{E(y)}{1-E(y)} ln1E(y)E(y) x 1 , x 2 , . . . , x p x_{1},x_{2},...,x_{p} x1,x2,...,xp的线性函数, l o g i t [ p ( y = 1 ) ] = l n [ p ( y = 1 ) 1 − p ( y = 1 ) ] logit[p(y=1)]=ln[\frac{p(y=1)}{1-p(y=1)}] logit[p(y=1)]=ln[1p(y=1)p(y=1)]就是Logit转换。也可以转换为
p ( y = 1 ) = e x p ( β 0 + β 1 x 1 + . . . + β p x p ) 1 + e x p ( β 0 + β 1 x 1 + . . . + β p x p ) p(y=1)= \frac{exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})}{1+exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})} p(y=1)=1+exp(β0+β1x1+...+βpxp)exp(β0+β1x1+...+βpxp)

二、回归模型估算方法

Logistic回归模型有两种估算方法,一种是加权最小二乘法估计,用于分组数据的Logistic回归模型;另一种是最大似然估计,用于未分组数据的Logistic回归模型。

2.1 分组数据的Logistic回归模型

分组数据的Logistic回归模型也可以称为分层逻辑回归,分类因变量的每一个可能取值 都能得到一个属于此取值的样本,且样本由此取值对应的原始数据统计得到,然后得到回归模型。这种方式的回归样本数 等于 分类因变量可能取值的个数。

下表9-5为例,分类因变量一共有9个可能取值,即 i = 1 , 2 , . . . , 9 i=1,2,...,9 i=1,2,...,9。用家庭收入 x x x作为自变量(由每一类可能取值对应的原始数据的平均值得到),回归模型为 p i ′ = β 0 + β 1 x , p i ′ = l n p i 1 − p i {p_{i}}'=\beta_{0}+\beta_{1}x,{p_{i}}'=ln\frac{p_{i}}{1-p_{i}} pi=β0+β1xpi=ln1pipi,回归样本数为9。
在这里插入图片描述
对于每一个因变量的取值(对于每一个样本 i = 1 , 2 , . . . , 9 i=1,2,...,9 i=1,2,...,9):
p i = e x p ( β 0 + β 1 x i 1 + . . . + β p x i p ) 1 + e x p ( β 0 + β 1 x i 1 + . . . + β p x i p ) , i = 1 , 2 , . . . , 9 p_{i}= \frac{exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}{1+exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}, i=1,2,...,9 pi=1+exp(β0+β1xi1+...+βpxip)exp(β0+β1xi1+...+βpxip),i=1,2,...,9

l n p i 1 − p i = β 0 + β 1 x i 1 + . . . + β p x i p , i = 1 , 2 , . . . , n ln\frac{p_{i}}{1-p_{i}}=\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip}, i=1,2,...,n ln1pipi=β0+β1xi1+...+βpxip,i=1,2,...,n
用9个样本回归后,得到
p ^ = e x p ( β 0 ^ + β 1 ^ x 1 + . . . + β p ^ x p ) 1 + e x p ( β 0 ^ + β 1 ^ x 1 + . . . + β p ^ x p \widehat{p}= \frac{exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p})}{1+exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p}} p =1+exp(β0 +β1 x1+...+βp xpexp(β0 +β1 x1+...+βp xp)
为了避免异方差,采用加权最小二程的方式获得回归参数的估计值 β 0 ^ , β 1 ^ , . . . , β p ^ \widehat{\beta_{0}},\widehat{\beta_{1}},...,\widehat{\beta_{p}} β0 ,β1 ,...,βp ,加权权重的计算方式为
w i = n i p i ( 1 − p i ) w_{i}=n_{i}p_{i}(1-p_{i}) wi=nipi(1pi)
注:分组数据的Logistic回归只适用于大样本的分组数据,对小样本的未分组数据不适用,并且组数即为回归拟合的样本数,容易造成拟合精度不够。一般情况下,多采用极大似然估计直接拟合未分组数据的Logistic回归模型。

2.2 未分组数据的Logistic回归模型

假设 n n n组样本 ( x i 1 , x i 2 , . . . , x i p ; y i ) , i = 1 , 2 , . . . , n (x_{i1},x_{i2},...,x_{ip};y_{i}),i=1,2,...,n (xi1,xi2,...,xip;yi),i=1,2,...,n,其中 y 1 , y 2 , . . . , y n y_{1},y_{2},...,y_{n} y1,y2,...,yn是取值为0或1的随机变量, x 1 , x 2 , . . . , x p x_{1},x_{2},...,x_{p} x1,x2,...,xp是与 y y y 相关的确定性变量。对于每一个样本有
p i = e x p ( β 0 + β 1 x i 1 + . . . + β p x i p ) 1 + e x p ( β 0 + β 1 x i 1 + . . . + β p x i p ) , i = 1 , 2 , . . . , n p_{i}= \frac{exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}{1+exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})}, i=1,2,...,n pi=1+exp(β0+β1xi1+...+βpxip)exp(β0+β1xi1+...+βpxip),i=1,2,...,n

l n p i 1 − p i = β 0 + β 1 x i 1 + . . . + β p x i p , i = 1 , 2 , . . . , n ln\frac{p_{i}}{1-p_{i}}=\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip}, i=1,2,...,n ln1pipi=β0+β1xi1+...+βpxip,i=1,2,...,n
n n n个样本回归后,得到
p ^ = e x p ( β 0 ^ + β 1 ^ x 1 + . . . + β p ^ x p ) 1 + e x p ( β 0 ^ + β 1 ^ x 1 + . . . + β p ^ x p \widehat{p}= \frac{exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p})}{1+exp(\widehat{\beta_{0}}+\widehat{\beta_{1}}x_{1}+...+\widehat{\beta_{p}}x_{p}} p =1+exp(β0 +β1 x1+...+βp xpexp(β0 +β1 x1+...+βp xp)
与分组数据回归不同的是,样本存在相同的 y y y值, y y y值相同的样本 p i p_{i} pi 值和 l n p i 1 − p i ln\frac{p_{i}}{1-p_{i}} ln1pipi 值相等。

利用 n n n组样本回归得到Logistic回归模型,样本以表9-6为例 n = 28 n=28 n=28
在这里插入图片描述
这种模型采用最大似然估计获得回归参数,假设为二分类逻辑回归模型,其思路定义因变量 y y y的联合概率密度为
P ( y i ) = π i y i ( i − π i ) 1 − y i , y i = 0 , 1 ; i = 1 , 2 , . . . , n P(y_{i})=\pi_{i}^{y_{i}}(i-\pi_{i})^{1-y_{i}},y_{i}=0,1;i=1,2,...,n P(yi)=πiyi(iπi)1yi,yi=0,1;i=1,2,...,n
其中 π i = e x p ( β 0 + β 1 x 1 + . . . + β p x p ) 1 + e x p ( β 0 + β 1 x 1 + . . . + β p x p ) \pi_{i}= \frac{exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})}{1+exp(\beta_{0}+\beta_{1}x_{1}+...+\beta_{p}x_{p})} πi=1+exp(β0+β1x1+...+βpxp)exp(β0+β1x1+...+βpxp),于是 y 1 , y 2 , . . . , y n y_{1},y_{2},...,y_{n} y1,y2,...,yn的似然函数为:
L = ∏ i = 1 n P ( y i ) = ∏ i = 1 n π i y i ( i − π i ) 1 − y i L=\prod _{i=1}^nP(y_{i})=\prod _{i=1}^n\pi_{i}^{y_{i}}(i-\pi_{i})^{1-y_{i}} L=i=1nP(yi)=i=1nπiyi(iπi)1yi
取对数后
l n L = ∑ i = 1 n y i ( β 0 + β 1 x i 1 + . . . + β p x i p ) − ∑ i = 1 n l n [ 1 + e x p ( β 0 + β 1 x i 1 + . . . + β p x i p ) ] lnL=\sum_{i=1}^ny_{i}(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})-\sum_{i=1}^nln[1+exp(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{p}x_{ip})] lnL=i=1nyi(β0+β1xi1+...+βpxip)i=1nln[1+exp(β0+β1xi1+...+βpxip)]
用数值计算得到参数估计值 β 0 ^ , β 1 ^ , . . . , β p ^ \widehat{\beta_{0}},\widehat{\beta_{1}},...,\widehat{\beta_{p}} β0 ,β1 ,...,βp

参考书:《多元统计分析》何晓群


http://chatgpt.dhexx.cn/article/wBUU4EMx.shtml

相关文章

逻辑回归模型(一)——数学模型

学习李航的《统计学习算法》,今天周三,这周任务之一完成逻辑回归模型的博文记录。 逻辑回归(Logistic Regression)属于分类方法(classification)。逻辑回归与最大熵模型(maximum entropy)都属于…

【机器学习】1.逻辑回归模型(1)

目录 一、广义线性模型(Generalized Linear Model) 1、一个引例 2、定义 二、逻辑回归 1、对数几率模型(logit model) 2、逻辑回归与Sigmoid函数 三、逻辑回归模型的输出结果 四、逻辑回归的多分类拓展 1、OvO 2、OvR …

逻辑回归模型(Logistic Regression)及Python实现

https://www.cnblogs.com/sumai/p/5221067.html 1.模型 在分类问题中,比如判断邮件是否为垃圾邮件,判断肿瘤是否为阳性,目标变量是离散的,只有两种取值,通常会编码为0和1。假设我们有一个特征X,画出散点图&…

逻辑回归详解

逻辑回归通常用于解决分类问题,比如:客户是否该买某个商品,借款人是否会违约等。实际上,“分类”是逻辑回归的目的和结果,中间过程依旧是“回归”,因为通过逻辑回归模型,我们得到的是0-1之间的连…

什么是逻辑回归?

深度学习(Deep Learning)是机器学习(Machine Learning)的一大分支,它试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 逻辑回归(Logistic Regression,也译作…

逻辑回归模型调参

文章目录 一、逻辑回归(Logistic Regression)二、样本不均衡问题处理1 、过采样方法(一)、随机过采样法(二)、SMOTE算法 2 、欠采样方法(一)、随机欠采样 三、网格搜索快速调优损失函数(对数似然损失) 四、模型评价ROC曲线 一、逻…

逻辑回归(模型的建立与求解)

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎文末扫码关注! 0 前言 在上一讲中,笔者通过五篇文章来详细的介绍了线性回归模型,那么本讲开始继续介绍下一个经典的机器学习算法逻辑回归(Logistic…

逻辑回归模型

本文代码及数据集来自《Python大数据分析与机器学习商业案例实战》 逻辑回归模型本质就是将线性回归模型通过Sigmoid函数进行了一个非线性转换,得到一个介于0~1之间的概率值。因此,逻辑回归模型的本质是预测概率,而不是直接预测具…

解读Logistic回归模型

一、logistic回归的由来 logistic回归在百度百科是这样定义的: logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。 由此可见 logistic回归是从线性回归模…

logistic回归模型

logistic回归模型 前言logistic回归模型logit变换几率logistic模型二项逻辑回归模型损失函数 logistic回归模型的应用logistic回归模型的评价 前言 从这一期开始,我们准备介绍一系列机器学习算法模型,主要包括logistic回归,决策树&#xff0…

逻辑回归模型logistic原理详解

Hello! 小A又来咯! 之前我们详细的介绍了使用线性回归模型来进行回归学习,那如果要做分类任务该怎么办呢? 考虑二分类任务,其输出值y属于集合[0,1]。而线性回归模型zw^T*xb是实值。为了进行分类任务,我们需要将实值z转…

Python实现逻辑回归模型教程

理解多个预测变量与连续响应变量之间关系通常适用线性回归,但当响应变量为类别变量时需要适用逻辑回归。 逻辑回归是尝试从数据集中把W观测记录分为不同类别的分类算法。 常见的分类回归场景有: 通过信用分和账户余额预测客户贷款是否违约通过篮球比赛中…

【机器学习笔记4】逻辑回归模型

目录 什么是逻辑回归? Sigmoid函数 决策边界 逻辑回归的损失函数 为什么平方误差模型不可行? 对数损失函数 单个样例损失: 整体损失函数 梯度下降算法 补充:F1-score评价指标 F1-Score简介 相关概念 F-Score 示例及…

逻辑回归模型详解(Logistic Regression)

目录 广义线性模型 极大似然法 逻辑回归的假设函数 逻辑回归的损失函数 交叉熵损失函数 为什么LR模型损失函数使用交叉熵不用均方差 交叉熵损失函数的数学原理 交叉熵损失函数的直观理解 交叉熵简介 对数损失函数和交叉熵损失函数 逻辑回归优缺点 其他 逻辑回归与…

机器学习算法(一):逻辑回归模型(Logistic Regression, LR)

目录 1 LR 1.1 直观表述 1.2 决策边界(Decision Boundary) 2. 权值求解 2.1 代价函数(似然函数) 2.1.1 为什么损失函数不用最小二乘?即逻辑斯蒂回归损失函数为什么使用交叉熵而不是MSE? 2.1.2 代价函…

详解逻辑回归

目录 1. 逻辑回归模型介绍1.1 Logistic分布1.2 Logistic回归1.3 代价函数1.4 求解1.5 正则化1.5.1 L1正则化1.5.2 L2正则化1.5.3 L1正则化和L2正则化区别 2 与其他模型的对比2.1 与线性回归2.2 与 SVM2.3 与朴素贝叶斯 3. 模型细节3.1 为什么适合离散特征3.2 为什么不用平方误差…

逻辑回归模型(Logistic Regression)

逻辑回归符合伯努利分布。伯努利分布就是我们常见的0-1分布,即它的随机变量只取0或者1,各自的频率分别取1−p和p,当x0或者x1时,我们数学定义为: 所以在常规的逻辑回归模型中,只有两个类别,0或者…

逻辑回归(Logistic Regression)详解

逻辑回归也称作logistic回归分析,是一种广义的线性回归分析模型,属于机器学习中的监督学习。其推导过程与计算方式类似于回归的过程,但实际上主要是用来解决二分类问题(也可以解决多分类问题)。通过给定的n组数据&…

逻辑回归模型及案例(Python)

1 简介 逻辑回归也被称为广义线性回归模型,它与线性回归模型的形式基本上相同,最大的区别就在于它们的因变量不同,如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归。 Logistic回归虽然名…

PyCharm如何修改配置大内存

现在的电脑标配都8G以上内存了,不过很多IDE仍然是以低配电脑为标准,去配置软件占用硬件的程度 因为内存会直接影响到软件的性能,可以通过手动去设置大内存 一、首先启动虚拟机 进入pychram的bin目录,可以看到2个以vmoptions为后…