第13章Stata Logistic回归分析

article/2025/9/12 5:04:58

目录

13.1二元Logistic回归分析

案例延伸 

延伸1:设定模型预测概率得具体值

延伸2:使用Probit模型对二分类因变量进行拟合

13.2多元Logistic回归分析

案例延伸

延伸:根据模型预测每个样本视力低下程度的可能性

13.3有序Logistic回归

案例延伸

延伸:试用Probit模型对有序分类因变量进行拟合        


        前面我们讲述得回归分析方法都要求因变量是连续变量,但很多情况下因变量是离散得而非连续得。例如,公司招聘人才时根据对应聘人员得特征做出录用或者不录用得评价、毕业学生对职业得选择等。这时就需要用到Logistic回归分析。根据因变量得离散特征:常用得Logistic回归分析方法有3终,包括二元Logistic回归分析、多元Logistic回归分析以及有序Logistic回归分析等。

13.1二元Logistic回归分析

        我们经常会遇到因变量只有两种取值的情况,例如是否患病、是否下雨等,这时一般的线性回归分析将无法准确刻画变量之间的因果关系,需要用其他的回归分析方法来进行拟合模型。Stata的二项分类Logistic回归便是一种简便的处理二分类因变量问题的分析方法。

        数据(案例13.1)给出了20名肾癌患者的相关数据。试用二分类Logistic回归分析方法分析患者肾细胞转移情况(有转移y=1、无转移y=0)与患者年龄、肾细胞癌血管内皮生长因子(其阳性表示由低到高3个等级)、肾细胞核组织学分级(由低到高共4级)、肾细胞癌组织内微血管数、肾细胞癌分期(由低到高共4期)之间的关系。

logit V1 V2 V3 V4 V5 V6 #本命令的含义时以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析,研究变量之间的因果影响关系。其中自变量的影响是以回归系数的形式输出的。

            从上述分析结果可以看出由20个样本参与了分析,模型的F值(5,14)=1.64,P值(Prob > F)= 0.2135,说明模型整体是不显著的。模型的可决系数(R-squared)为0.3695,模型的修正的可决系数(Adj R-squared)为0.1444,说明模型的解释能力也是比较差的。下面的不过多赘述哈。我们可以看出最小二乘线性模型的整体显著性、系数显著性以及模型的整体解释能力都是由较大提升看空间的。

        可以得到最小二乘回归方程模型是:

        V1 = -0.0061692*V2+。。。+0.7871698

logistic V1 V2 V3 V4 V5 V6 #本命令的含义是进行二元Logistic回归分析,研究变量之间的因果关系。其中自变量的影响是以(Odds Ratio)的形式输出的。

         上图是以V1为因变量,以V2 V3 V4 V5 V6 为自变量,进行二元Logistic回归分析。其中,自变量的影响是以优势比(Odds Ratio)的形式输出的。从上图可以看出Logistic相对于最小二乘回归模型得到了很大程度的改进。。模型的整体显著性P值达到了9%左右(Prob > chi2 = 0.0934)伪R方达到了35%(Pseudo R2 = 0.3500),解释能力得到了进一步提高。各个变量系数的显著程度也有不同程度的提高。

        与一般的回归形式不同,此处自变量的影响是以优势比的形式输出的。它的含义是:在自变量保持不变的条件下,被观测自变量每增加1个单位时y=1的发成比的变化倍数。可以看出,各个变量中只有V6变量的增加回引起因变量取1值得大于1倍得增加,这说明只有V6是与因变量呈现正向变化,只有V6使得因变量取1得概率更大。

logit V1 V2 V3 V4 V5 V6   #本命令得含义是进行二元Logistic回归分析,研究变量之间得因果影响关系。其中变量得影响是以回归系数得形式输出得。

         上图可以看出该模型与使用Logistic命令回归得到得结果是一致得,只是自变量影像输出得形式由优势比换成了回归系数。

        最终模型表达式为:

        LNV1 = -0.0644172*V2+...+3.224457

        其中LNV1  V2 V3 V4 V5 V6 分别表示肾细胞发生癌转移概率得对数值、年龄、肾细胞癌血管内皮生长因子、肾癌细胞核组织学分级、肾细胞癌组织内微血管数和肾细胞癌分期。

        综上所述,我们得到得结论是:年龄、肾细胞癌血管内皮生长因子、肾癌细胞分级、肾细胞癌组织内微血管数与肾细胞癌转移呈反向变化,肾细胞癌分期与肾细胞癌转移呈正向变化,但这些变化并不是特别显著。

estat clas  #本命令得含义是计算预测准确得百分比,并提供分类统计和分类表lstat #本命令是上条命令“estat clas”得另一种表达形式

         从上图我们可以看出很多信息。按照系统默认设置,系统使用0.5作为分割点。分类中得D、-D、“+”、“-”分别表示以下含义:

        D:表示一个观测样本所关注得事件确实发生了,也就是说Y得值去到了1,在本例中,也就是说肾细胞确实发生了癌转移。

        -D:表示一个观测样本所关注得事件的确没有发生,也就是说Y得值渠道了0,在本例中,也就是说肾细胞的确没有发生癌转移

        +:表示模型预测得概率值大于分割点,本例中,也就是说模型预测得肾细胞发生癌转移得概率为0.5或者更多。

        -:表示模型预测得概率值小于分割点,本例中,也就是说模型预测的肾细胞发生癌转移得概率低于0.5。

        所以按照模型预测肾细胞发生癌转移得概率至少在0.5以上得标准,有6次是肾细胞确实发生了癌转移而且模型预测得概率值大于分割点,有10次是肾细胞确实没有发生癌转移而且模型预测得概率值小于分割点,所以,一共有16个样本得预测是正确得,预测正确率占全部样本得80%。有2次肾细胞确实发生了癌转移但模型预测得概率值小于分割点,有2次肾细胞确实没有发生癌转移但模型预测得概率值大于分割点,一共有4个样本得预测是错误得,预测错误了占全部样本的20%。

predict yhat #本命令旨在估计因变量得拟合值。它创建一个命名为yhat得新变量,等于最近一次Logistic模型基础上y=1得预测概率

 

         二元Logistic得因变量拟合值预测结果表示得含义是y=1得概率,本例所表示得含义是肾细胞发生癌转移得概率。

estat gof  #本米兰旨在判断模型得拟合效果或者说模型得解释能力

        可以看到Prob > chi2 = 0.3503,说明模型得解释能力还是差强人意得,但比最小二乘线性回归模型要好处很多。

案例延伸 

延伸1:设定模型预测概率得具体值

estat clas,cutoff(0.8)r

 延伸2:使用Probit模型对二分类因变量进行拟合

probit V1 V2 V3 V4 V5 V6  #使用Probit回归分析,研究变量之间得因果影响关系

         Probit模型与Logistic模型所得得结果相差不大,模型整体得显著程度和解释能力都相比最小二乘回归分析有所提高。 

mfx #本命令旨在计算在样本均值处得边际效应

        Probit模型在样本均值处得标记效应与最小二乘回归分析相差不大。 

estat clas #计算预测百分比,并提供分类统计和分类表
predict yhat  #估计因变量得拟合值。它创建一个yhat变量,等于最近一次Probit模型基础上y=1得预测概率

        上述结果不过多赘述。

13.2多元Logistic回归分析

        我们经常回遇到因变量有多个取值而且无大小顺序得情况,例如职业、婚姻情况等,这时一般得线性回归分析无法准确得刻画变量之间得因果关系,需要用其他得回归分析方法来进行拟合模型。多项分类Logistic回归便是一种简便处理该类因变量问题的分析方法。

        数据(案例13.2)给出了山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性2代表女性)之间的关系。

reg V1-V3  #对数据进行最小二乘回归分析

mlogit V1 V2 V3,base(1) #本命令的含义是以V1为因变量,以V2 V3 为自变量,并设定第一组为参照组(视力低下程度为1),进行多元Logistic回归分析,研究变量之间的因果影响关系。其中自变量是以回归系数的形式输出的

        从上图可以看出Logistic模型与最小二乘回归估计效果相差不大。模型的整体显著性达到了0.0079(prob > chi2 = 0.0079)。伪R方达到了33.58%(Pseudo R2 = 0.3358)解释能力进一步提高。

        从上图分析结果可以看到V2和V3系数在第2组和第3组都是大于0的,这意味着V2和V3两个变量的值越大就越容易被分到2,3组,这表示性别为女年龄越大,越容易被分到中度视力低下,重度视力低下组。

        最终模型方程为:

        G1=0 因为轻度时因变量重的参考组,其所有系数均为0

        G2=LOG[P(低下中度)/P(低下轻度)]=-14.82979+0.8356566*年龄+0.732262*性别1

        G3=LOG[P(低下重度)/P(低下轻度)]=-71.13788+2.112522*年龄+18.39871*性别1

mlogit V1 V2 V3,base(1)rrr  #本命令的含义是以V1为因变量,以V2 V3 为自变量,并设定第一组为参照组(视力低下程度为1),进行多元Logistic回归分析,研究变量之间的因果影响关系。其中自变量是以相对风险比率的形式输出的

         与二元Logistic的优势比(Odds Ratio)的概念类似,相对风险比率的含义是:在其他自变量保持不变的条件下,被观测自变量每增加1个单位y=1的发生比的变化倍数。可以看出,当B2增加或者性别为女生时,他会有相当大的概率会被分到第三组,即重度视力低下,当年龄偏大时,它也有较大概率被分到第三组,即重度视力低下。

案例延伸

延伸:根据模型预测每个样本视力低下程度的可能性

predict eye1 eye2 eye3  

        如图所示,第一个观测样本为男性,15岁,他有80%的概率进入第一组,即轻度视力低下,有极小的甚至可以忽略不记得概率被分到第三组,即重度视力低下。其他得观测样本,可以按照类似得方法逐一进行分析,可以看出,我们得模型构建得不错,模型得预测能力也是比较优秀得。

13.3有序Logistic回归

         在有些分析研究中,因变量虽然离散但存在这一定得排序,例如消费者对服务行业满意度得评价(很满意、基本满意、不满意、很不满意),又例如消费者对某种品牌产品得忠诚度得衡量(很喜欢、比较喜欢、不喜欢、很不喜欢)。在上述情况下,使用最小二乘回归分析以及二元或多元Logistic回归分析都不能获得比较好得效果,这时就需要用到我们得有序Logistic。

        数据(案例13.3)为了获得消费者得满意情况,某公司对120为随机抽取得消费者进行了调查,其中回收有效样本114个,相关信息如图所示,试用有序Logistic回归方法分析消费者满意程度(1表示很满意、2表示基本满意、3表示不满意)与性别(1代表男生,2代表女生)、学历(1表示大学专科及以下,2表示大学本科,3表示研究生及以上)之间得关系。

         

reg V1-V3  #对数据进行最小二乘回归分析

ologit V1 V2 V3  #本命令得含义时以V1为因变量,以V2 V3 为自变量,进行有序Logistic回归分析,研究变量之间得因果影响关系。

        可以看出有序Logistic模型与最小二乘回归估计效果相差不大。模型得整体显著性P值远远低于5%伪R方达到了45.54%。       

        从图中可以看出V2和V3得系数在第二组和第三组都是大于0得,这意味着V2和V3两个变量的值越大越容易分到后面的组,表示性别为女,学里越高,越容易被分到消费者满意程度较低得组。

        cut1 / cut2 表示得含义是割点的估计值,两个割点把样本分成了3个区间,也就是消费者3个不同的满意程度。当样本的因变量拟合值在cut1 之下时,他被分到第1组,消费者满意度为最高;当样本介于 cut1 和 cut2 之间时,它被分到第2组,满意度为中等;当样本的因变量拟合值在cut2之上时,它被分到第3组。消费满意程度为最低。

predict sat1 sat2 sat3

        如图所示,第一个观测样本为男性,学历为学学专科以下,他又88%的概率进入第1组,即消费者满意程度为最高,又极小可能甚至忽略的概率进入第3组,即消费者满意程度最低。

案例延伸

延伸:试用Probit模型对有序分类因变量进行拟合        

oprobit V1 V2 V3  #进行probit回归分析predict sat11 sat22 sat33 #估计因变量的拟合值。它创建一个命名为yhat的新变量,等于最近一次probit模型基础上y=1的预测概率

        结果不再过多赘述。 


http://chatgpt.dhexx.cn/article/EdCnkxXB.shtml

相关文章

机器学习笔记-Logistic回归

0 - 回顾 l i n e a r r e g r e s s i o n linear\ regression linear regression如果使用平方错误的话,我们可以很方便的解析出最好的 w w w是什么。即 w b e s t X † y w_{ best}X^{\dagger} y wbest​X†y 1 - 逻辑斯蒂回归问题 1.1 - 问题的提出 从一个人…

logistic回归详解

逻辑斯谛回归(logistic regression)是统计学习中的经典分类方法,虽然带有回归的字眼,但是该模型是一种分类算法,逻辑斯谛回归是一种线性分类器,针对的是线性可分问题。利用logistic回归进行分类的主要思想是…

机器学习笔记(六)Logistic回归

目录 一、什么是Logistics回归 二、sigmoid函数 三、梯度上升法 四、代码实现 数据导入 决策边界 梯度上升 五、总结 一、什么是Logistics回归 logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相…

【机器学习】Logistic回归(重新整理)

Logistic回归学习笔记 Logistic回归学习线路预备知识:建议先去B站学习一下信息量,熵,BL散度,交叉熵的概念。Logistic回归的函数模型损失函数、损失最小化架构对数损失作为损失函数损失最小化架构 分类函数最大概率分类函数阈值分类…

C语言 fprintf 函数 - C语言零基础入门教程

目录 一.fprintf 函数简介二.fprintf 函数使用三.猜你喜欢 零基础 C/C 学习路线推荐 : C/C 学习目录 >> C 语言基础入门 一.fprintf 函数简介 fprintf 是 C / C 中的一个格式化库函数,位于头文件 中,其作用是格式化输出到一个流文件中&#xff1…

【printf函数的具体用法】

一、printf()函数 1、基本输出语句 printf()函数是C语言的输出函数,功能是按指定的输出格式把相应的参数值在标准的输出设备中显示出来。 printf 的格式 printf(格式控制串,参数1,参数2,…),…

C语言printf函数详解

文章目录 1、类型符(type)2、宽度(width)3、对齐标志(flags)4、精度(prec)5、格式化输出到字符串6、版权声明 C语言格式化输出的函数有printf、sprintf和snprintf等,功能…

printf函数讲解

printf函数讲解 #include <stdio.h>/*辗转相除法求最大公约数*/ int gcd(int m, int n); int factrial(int a); int main(void){int m, n, t;scanf_s("%d %d", &m, &n);if (m < n){t m;m n;n t;}//n gcd(m, n);//printf("%d", n);pr…

C语言中fscanf和fprintf函数的使用

目录 一、前言 二、对比 1、scanf和fscanf&#xff1a; 2、printf和fprintf&#xff1a; 三、结论&#xff1a; 四、代码实现 1、fprintf相关代码 2、fscanf代码实现 3、 用fscanf和fprintf实现scanf和printf功能&#xff1a; 一、前言 在了解fscanf和fprintf之前我…

printf()函数详解

感谢博主的分享&#xff1a;https://me.csdn.net/blog/K346K346 1.printf()简介 printf()是C语言标准库函数&#xff0c;用于将格式化后的字符串输出到标准输出。标准输出&#xff0c;即标准输出文件&#xff0c;对应终端的屏幕。printf()申明于头文件stdio.h。 函数原型&am…

有关于fprintf()函数的用法

fprintf&#xff08;简介&#xff09; fprintf是C/C中的一个格式化库函数&#xff0c;位于头文件中&#xff0c;其作用是格式化输出到一个流文件中&#xff1b;函数原型为int fprintf( FILE *stream, const char *format, [ argument ]…)&#xff0c;fprintf()函数根据指定的格…

雷达理论的模糊函数

在雷达理论中&#xff0c;模糊与分辨是两个既有联系又有区别的概念。对多个目标来说&#xff0c;模糊就是不能分辨。雷达的分辨力取决于模糊图中心主瓣的宽度。雷达模糊度不仅考虑主瓣宽度&#xff0c;还考虑模糊图旁瓣的影响。因此&#xff0c;在研究雷达分辨理论之前&#xf…

驱动板LVDS输出接口(发送器),液晶面板LVDS输入接口(接收器)

1&#xff0e;LVDS输出接口概述 液晶显示器驱动板输出的数字信号中&#xff0c;除了包括RGB数据信号外&#xff0c;还包括行同步、场同步、像素时钟等信号&#xff0c;其中像素时钟信号的最高频率可超过28MHz。采用TTL接口&#xff0c;数据传输速率不高&#xff0c;传输距离较短…

两种LVDS数传接口--车载视频传输

本文介绍两种LVDS数传接口&#xff1a;GMSL和FPD Link&#xff0c;这两种接口在汽车视频传输方面的应用是比较广泛的&#xff0c;尤其是Camera和处理器之间的链路&#xff0c;通过STP或者同轴电缆能使整个链路达到15m。 1、FPD Link Flat Panel Display Link(FPD Link)最早是…

LVDS接口分类与数据格式

转发路径&#xff1a;https://blog.csdn.net/a617996505/article/details/82386952 1.LVDS接口分类与数据格式 单路6it LVDS 这种接口电路中&#xff0c;采用单路方式传输&#xff0c;每个基色信号采用6位数据&#xff0c;共18位RGB数据&#xff0c;因此&#xff0c;也称18位…

Xilinx fpga实现LVDS高速ADC接口

LVDS 即Low-Voltage Differential Signaling。FPGA的selecteIO非常强大&#xff0c;支持各种IO接口标准&#xff0c;电压电流都可以配置。其接口速率可以达到几百M甚至上千M。使用lvds来接收高速ADC产生的数据会很方便。像ISERDES&#xff0c;IDDR&#xff0c;IDELAY&#xff0…

LVDS接口和接口电路概述

1、LVDS接口概述 LVDS&#xff0c;即Low Voltage Differential Signaling&#xff0c;是一种低压差分信号技术接口。克服以TTL电平方式传输宽带高码率数据时功耗大、EMI电磁干扰大等缺点而研制的一种数字视频信号传输方式。LVDS输出接口利用非常低的电压摆幅&#xff08;约350m…

常见视频高速接口分析MIPI,LVDS,RGB,HDMI

文章目录 一、RGB接口二、LVDS接口三、MIPI接口四、HDMI接口 一、RGB接口 &#xff08;1&#xff09;接口定义 RGB颜色是工业界的一种颜色标准&#xff0c;是通过对红、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的&#xff0c;RGB即是代表红…

接口mipi和lvds的区别

原文&#xff1a;http://m.elecfans.com/article/578395.html MIPI &#xff08;Mobile Industry Processor Interface&#xff09; 是2003年由ARM&#xff0c; Nokia&#xff0c; ST &#xff0c;TI等公司成立的一个联盟&#xff0c;目的是把手机内部的接口如摄像头、显示屏接…

液晶屏接口LVDS接口与MIPI DSI接口区别

LVDS与MIPI DSI区别_那个苏轼回不来了丶的博客-CSDN博客_“mipi dsi接口与LVDS与MIPI DSI区别_那个苏轼回不来了丶的博客-CSDN博客_“mipi dsi接口与lvds接口区别LVDS与MIPI DSI区别_那个苏轼回不来了丶的博客-CSDN博客_“mipi dsi接口与 1、LVDS接口只用于传输视频数据&#x…