【SPSS】回归分析详细操作教程(附案例实战)

article/2025/8/17 17:15:26

3f6a7ab0347a4af1a75e6ebadee63fc1.gif

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


 

目录

回归分析概述

线性回归

曲线估计

二元logistic回归分析

多元logistic回归分析


 

回归分析概述

ab1ca22843b84bdf97733365262a0187.png

 相关分析与回归分析

  • 相关分析只表明变量间相关关系的性质和程度,回归分析是要确定变量间相关的具体数学形式
  • 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量之间的关系

 回归分析的一般步骤

  • 1 确定回归分析中的解释变量和被解释变量
  • 2 确定回归模型
  • 3 建立回归方程
  • 4 对回归方程进行各种检验
  • 5 利用回归方程进行预测

线性回归

2bb9f74fb07b40aca9f364007b047602.png

 线性回归介绍

        线性回归(linear regression)是分析变量间数量依存关系的统计分析方法。如果某一个变量随着另一个变量的变化而变化,并且它们的变化关系呈直线趋势,就可以用直线回归方程来定量地描述它们之间的数量依存关系,这就是线性回归分析。

一元线性回归的数学模型为:

49ea2d36f5264b19a2eddc26a5a52f56.png

 上式表明,被解释变量y的变化可由两个部分解释:

第一,由解释变量x的变化引起的y的线性变化部分,即y=β0+β1x;

第二,由其他随机因素引起的y的变化部分,即ε。

【案例】:碘含量与患病率的分析

操作步骤:

①导入数据

②【分析】-->【回归】-->【线性】

4c4a4672585142a9b892a544e58c5766.png

③选择自变量和应变量,点击统计

44ae014db7b145bc906141c64703da95.png

④ 勾选如下图选项,点击继续,点击图

2ab7aa28b13c40759226a2a836253ca4.png

⑤ 勾选直方图和概率图

948956f8ee8a413d986a01303a2f752b.png

⑥选项按钮中直接使用默认参数即可。

⑦点击“确定”按钮,查看统计结果:

c82d6cc8a988443ba3b8b9cdb0fbdb7f.png

 从描述统计中可以看到患病率和碘含量的平均值、标准偏差和个案数。

350654b0e6774873b189487baf34e7a2.png

从相关性中可以看到,患病率和碘含量相关系数0.971,显著性为0。说明碘含量和患病率显著相关。

0accf3b61c8242c09beeb552e578cf75.png

 由表可见,只有一个自变量,变量选择的方法为强行输入法,也就是将所有的自变量都放入模型中。

819a75ab66144596b723c45db063c05c.png

 上表可看到,是对回归方程拟合情况的描述,可知相关系数的取值(R),相关系数的平方即决定系数,决定系数值为0.943, 初步判断模型拟合效果良好。

836bb3b63cfd426a95c81c1203c50ba5.png

 对回归方程的显著性检验,一元线性回归方程的显著性检验 的原假设H0是β1=0,即回归系数与零无显著性差异。F=115.136,P=0.000,概率P值小于α,应该拒绝原假设,认为 回归系数与零存在显著差异,被解释变量(患病率)与解释变量(碘含量)的线性关系显著,可以用线性模型描述和反映它们之间的关系。

0c96f7d1436b4992bc42a8569b737621.png

 在一元线性回归分析中,回归方程的显著性检验和回归系数的显著性检验的作用是相同的,同时,回归方程的显著性检验中的F统计量等于回归系数的显著性检验中的t统计量的平方,即F=t2。

        上面已经得出回归公式,接下来我们需要检验数据是否可以做回归分析,它对数据的要求是苛刻的,有必要就残差进行分析,下面是残差的正态性图形结果。

389208bd13604443ae2cc3b9285ef008.png

 3d6f249a1851495283ea7471943b924e.png

         从标准化残差直方图来看,左右两侧不完全对称;从标准化残差的P-P图来看,散点并没有全部靠近斜线,并不完美。 综合而言,残差正态性结果不是最好的,当然在现实分析当中, 理想状态的正态并不多见,接近或近似即可考虑接受。

曲线估计

1292fa7b7afa4a06bb8334926f93f7de.png

 曲线估计介绍

        变量间相关关系的分析中,变量之间的关系并不总表现为线性关系,非线性关系也是极为常见的,可通过绘制散点图的方式粗略考察这种非线性关系。

        变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。

  • 本质线性关系:变量关系形式上虽然呈非线性关系(如二次曲线),但可通过变量变换转化为线性关系,最终可进行线性回归分析,建立线性模型
  • 本质非线性关系:变量关系不仅形式上呈非线性关系,而且无法通过变量变换转化为线性关系,最终无法进行线性回归分析和建立线性模型

 注意: 曲线估计是解决本质线性关系问题的!

f032eec525c54e7dae2fc6b5f821d8c7.png

 【案例】——年人均可支配收入与教育支出的关系分析

操作步骤:

①导入数据

②【分析】-->【回归】-->【曲线估计】

83266aa82ef34490927302ae07757ef4.png

 ③选择因变量、个案标签等

a6078db6f09b4ad4967e2bae891be750.png

 ④点击“确定”按钮,结果如下:

a99d861b35664c209a09cd96635eedc6.png

        在模型描述中可以看到,因变量:教育支出,自变量为:年人均可支配收入。方程有4个,一个线性方程,一个二次方程,一个 三次方程,一个复合方程。包括常量。 

55f88aaa73834bcc90864bbd83eba557.png

 从“个案处理摘要”可以看出,排除的个案为12,说明变量中所有 的个案带有“缺失值”,个案总数为28个。

8eea2ce3a49945b1b47f7df79c941e2c.png

 从变量处理摘要中可以看到,教育支出16个,有12个缺失值。 年人均可支配收入28个,没有缺失值。

2bd6e07a5deb4ace803fe67457623a88.png

 一元线性回归方程,拟合优度判定系数为0.901,显著性小于0.05。

d7f5dffff00e437d8a4304dacecbebf6.png

 二次曲线回归方程,拟合优度判定系数为0.983。回归方程和各回归系数显著性大于0.05,表明模型不显著,二次曲线模型不合理。

23827e26c900485f8401e1769c5f4c83.png

 三次曲线回归方程,拟合优度判定系数为0.987(高于一元线性回归方程拟合度)。回归方程和各回归系数显著性小于0.05,表明三次曲线模型更为合理。

a7830c74eebc4a4695783b12d60abeb2.png

         复合回归方程,拟合优度决定系数0.971(小于三次曲线回归方 程),各回归系数显著性小于0.05,表明模型显著。但拟合优度小于三次曲线回归方程。因此三次曲线更好反映随年人均可支配 收入增加,教育支出的变量情况。

f3d4cf73ec884a8ba23b5a1034e5702d.png

 二元logistic回归分析

284f208d40094fe9a68c9482ef5e1754.png

         在实际资料分析中,有一些因变量是分类变量,那么这样的资料就不能使用前面介绍的线性回归模型进行分析。遇到这种情况,我 们一般采取logistic回归模型对数据进行分析。

        二元logistic回归是指因变量为二分类变量时的回归分析。如在采用了某种治疗方案后,病人的治疗结局是有效或无效、生存或死亡;人们对自己的生存质量是否满意;想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌, 即“是”或“否”,为两分类变量。

【案例】: 为了评价某新疗法的疗效,某研究者随机抽查了40名某病患 者,治疗后一定时间内观察其康复状况。其中变量Y为康复状况 (Y=0表示未康复,Y=1表示康复),X1表示病情严重程度(1表示 严重,0表示不严重),X2表示疗法(0表示新疗法,1表示传统疗 法)。目的研究评价不同疗法对康复状况的作用有无差别?

操作步骤:

①导入数据

②【分析】-->【回归】-->【二元Logistic】

ef6491f1fca54bfd9a7498a1456adb2c.png

③选择因变量和协变量

455d059a57d84c12b2fd0508d92c4955.png

 ④点击“分类”按钮

e2f128f712e04c5c8c0ebd870f32b564.png

 当选择了分类协变量后,就可以选择参考类别,以及对比方式。

⑤点击“保存”按钮

9ed0e0a118314c10bdd2e234260fae33.png

 如果勾选了“概率”和“组成员”后就会将这两个值保存到原始数据中。

⑥点击“选项”按钮

5ad2785473b74fe391d0c86e12783a94.png

⑦点击“确定”,查看输出结果

 5a53e61a35c7402681c18937710ecb39.png

 从个案处理摘要中可以看到,个案数选定40,总计也是40,未选定个案数0。

4b08115e51fb4551ba586282d8849c19.png

 从因变量编码中可以看到,0表示未康复,1表示康复。

69b79b7ca4054894904e5a3e301a27e1.png

 从分类变量编码中可以看到疗法有两类,新疗法和传统疗法。病情严重程度也是两类不严重和严重。

查看最终迭代分析结果:

05094eab6f394c47ab40d87a52609173.png

 从模型系数检验中可以看到,显著性都小于0.05,表示模型总体有意义。

22e27c15ccc94a74bcce6f7a90038233.png

 在模型系数检验中得到模型是有意义的,接下来看模型摘要,有两种R方决定因数,分别是0.156和0.210,R方值比较小,总体来说模型拟合优度比较小。

最终预测结果:

6fa10c85a9a24f339321adb1e1bdf4e6.png

 对未康复预测正确率达到65.2%,康复预测正确率达到70.6%。 总体预测正确率67.5%。

efa871c2e3364ea38b74caf184178635.png

         从最终模型中的变量可以看到:从常量显著性0.021小于0.05说 明常量对模型是有意义的,从病情严重程度显著性0.209大于 0.05。说明病情严重程度对模型是没有意义的,即病情严重程度 对康复和未康复没有影响。

         治疗方法显著性0.022小于0.05,说明治疗方法对模型是有意义的。而且是和治疗方法值为1进行比较。治疗方法值为1表示传统疗法。得出结论,相对于传统疗法,新疗法更有易于病人康复, 换句话说,就是新疗法比传统疗法的疗效更好。

多元logistic回归分析

bc1d7d39a1de4cedaaab15dae8a85ec3.png

         前面讲解的二元logistic回归分析仅适合因变量Y只有两种取值(二元logistic)的情况,如:有或无,是或否的情况。 当因变量Y具有两种以上的取值时,就要用多元logistic回归分析。

【案例】关于早餐喜好的民意调查,该调查记录了参与者的年龄、性别、婚姻状况以及生活方式是否积极,每个个案代表一个单独的响应者。调查机构想搞清楚是什么影响着受访人每天吃什么早餐。因变量“早餐选择”包括(1=早餐吧、2=燕麦类、3=谷物类),自变量暂定年龄、婚姻状况以及生活方式。      

操作步骤:

①导入数据

②【分析】-->【回归】-->【多元Logistic】

31be7605266f44e0a26441f9cd13a2a1.png

 ③在打开的多元Logistic回归窗口,选择首选的早餐到“因变量” 中。点击“参考类别”,默认勾选的是最后一个类别,指以最后一 个类别为参照类别,用其他分类依次与之对比,考察不同水平间 的倾向。

f2b6d77d3f0c4357b3fc4644dcd2a14d.png

 ④选择年龄、婚姻状况以及生活方式选入“因子”

cbdf20bba81148ccaf10739be3266cd5.png

 ⑤主面板中,点击【模型】按钮,打开【多元logistic回归:模 型】对话框,勾选【主效应】,本例主要考察自变量年龄、生活方式、婚姻状况的主效应,暂不考察它们之间的交互作用,然后点击【继续】。

4af9a75d370549deaeb105f04b8f6ddd.png

⑥ 主面板中,点击【统计】按钮,设置模型的统计量。主要【伪R方】【模型拟合信息】【分类表】【拟合优度】这几项必选,其他可以默认不勾选。这些参数主要用于说明建模的质量。

 b061e424e8a245c6879da78f8cc6623b.png

 ⑦主面板中,点击【统计】按钮

8b5d8428c8b349bcad411fa6ef1d1db3.png

⑧ 点击“确定”查看输出结果:

13a3679f3a904a66b058d034743fdaea.png

         个案处理摘要表,列出因变量和自变量的分类水平及对应的个案百分比。建议在此表主要读取变量分类水平的顺序,比如自变量“年龄段”,第一个分类是“低于31岁”,第二个分类是“31- 45”,第三个分类是“45-60”,第四个分类是“60岁以上”,尤其是看清楚最后一个分类,因为我们前面参数设置时要求是以最后一 个分类为对比参照组的。

71c2be75a1d54b1da26d67e383fa884f.png

 模型拟合信息表,读取最后一列,显著性值小于0.05,说明模型有统计意义,模型通过检验。

9403036ed8e94b808ea21df6f8700b0c.png

 拟合优度表,原假设模型能很好地拟合原始数据,最后一列皮尔逊卡方显著性值0.952,概率较大,原假设成立,说明模型对原始数据的拟合通过检验。

009ec579c535477f9ba7d443fb4a1448.png

 伪R方表,依次列出的3个伪R方值(类似于决定系数)均偏低, 最高0.4,说明模型对原始变量变异的解释程度一般,还有一部分信息无法解释,拟合程度并不是很优秀。

20ed164e1f13406b85f4312f07372281.png

 模型似然比检验表,我们能看到最终进入模型的效应包括截距、 年龄、婚姻状况、生活方式,而且最后一列显著性值表明,三个自变量(影响因素)对模型构成均有显著贡献,研究它们是有意 义的。

5344eaa9199d407aac194a32e9d3f4d1.png

 参数估计表,列出自变量不同分类水平对早餐选择的影响检验, 是多元logistic回归非常重要的结果。 第二列B值,即各自变量不同分类水平在模型中的系数,正负符号表明它们与早餐选择是正比还是反比关系。第六列是检验显著性值,此值小于0.05说明对应自变量的系数具有统计意义,对因 变量不同分类水平的变化有显著影响。

05efeeeaed484c12a5c06b57105a86cf.png

 模型在预测燕麦类早餐选择倾向上准确率最高,达到77.1%,其他两个早餐选择的预测略低,模型总体预测准确率为57.4%,表现一般。前面伪R方数据显示,模型对总体变异的解释能力不足,这和总体预测准确率结论也一致。

3b178a7367e8480287114db7ef5666eb.png

5cd38b09367e40af989b043959d1cc69.png

 

 


http://chatgpt.dhexx.cn/article/oKDvfwP2.shtml

相关文章

案例:回归分析-R实现

作者 | 结实 来源 | DATA江湖 1)业务需求: 某牙膏制造企业为了更好的拓展产品市场,有效管理库存,董事会要求销售部门根据市场调查,找出公司生产牙膏销售量与销售价格以及广告投入等之间的关系,从而预测出在…

SPSS回归分析案例

SPSS回归分析案例 1.应用最小二乘法求经验回归方程 1.1数据导入 首先将数据导入SPSS如下: 1.2线性回归条件的验证 我们需要验证线性回归的前提条件: 线性(散点图,散点图矩阵)独立性正态性(回归分析的过…

回归分析——简单线性回归实例讲解(SPSS)

什么是回归分析? 回归分析是研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过因变量Y与影响它的自变量Xi(i1,2,3…)之间的回归模型,衡量自变量Xi对因变量Y的影响能力的,进而可以用来预测因…

多分类logit回归案例分析

在研究X对Y的影响时,因变量Y有时是分类变量,这时如果还想分析影响关系可以使用logit回归,常见的logit回归包括,二元logit回归(二项logit回归)、多分类logit回归以及有序logit回归。三者的区别如下&#xff…

超详细机器学习-线性回归案例(正规方程、梯度下降、岭回归)

一、线性回归 定义 线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。 分类 一元线性回归:涉及到的变量只有一个。 多元线性回归:涉及到的变量两个或两个以上。 公式 图例…

回归分析方法应用实例1

在制定运动员选材标准时,理论上要求先对不同年龄的运动员,各测试一个较大的样本,然后,计算出各年龄的平均数、标准差,再来制定标准。 有时尽管各年龄组的样本含量n都较大,但是,计算出的各年龄…

回归分析案例分析全流程

一、案例说明 1.案例数据 在“工资影响因素”的调查问卷中,调查了每个人的起始工资、工作经验、受教育年限、受雇月数、职位等级以及当前工资六个方面。 2.分析目的 目的是建立以当前工资为因变量的回归模型,并得出结论。[案例来源于:SPS…

1.1 一元线性回归分析案例

#将pyplot字体转化成中文 matplotlib.rcParams[font.family] Microsoft YaHei plt.rcParams[font.size] 12 # 设置字体大小 plt.rcParams[axes.unicode_minus] False # 设置正常显示负号案例背景:寻找房屋面积与价格的关系并进行预测图 #需要的包 import matp…

Spring WebFlux (6): RSocket 服务实现

RSocket官网:https://rsocket.io/ RSocket是一种二进制协议,可用于字节流传输,例如TCP,WebSockets和Aeron。 提供了四中交互模式: request/response (stream of 1) 请求/响应(单响应)大多数请…

HTTP协议的挑战者:RSocket

点击蓝色“程序猿DD”关注我 回复“资源”获取独家整理的学习资料! 1. 简介 RSocket是一种二进制的点对点通信协议,是一种新的网络通信第七层协议。旨在用于分布式应用程序中。从这个意义上讲,RSocket是HTTP等其他协议的替代方案。它是一种基…

使用 RSocket——服务端主动调用客户端方法

1. 编写客户端接收请求的逻辑 我们可以在初始化 Rsocket 实例的时候指定客户端可以被调用的方法,使用 acceptor() 指定可被调用的方法和方法使用的通信模型类型: 通信类型为 RequestResponse 时: .acceptor(SocketAcceptor.forRequestRespo…

RSocket 与 gRPC性能对比

几乎每次我向观众介绍RSocket时,都会有人问这个问题:“ RSocket与gRPC相比如何?” 今天我们要找出答案。 搭建平台 插座 RSocket在应用程序网络上实现反应式语义。它是一种网络协议,可端对端实施反压力和其他反应流概念。 gR…

浅谈RSocket与响应式编程

简介: RSocket是高效一个二进制的网络通讯协议,能够满足很多场景下使用。另外,RSocket也是一个激进的响应式捍卫者,激进到连API都跟响应式无缝集成。本文我们将和大家分享RSocket与响应式编程。 作者 | 素渡 来源 | 阿里技术公众号…

阿里雷卷:RSocket从入门到落地,RSocket让AJP换发青春

考虑很久,决定还是写一下这篇文章,主要是 AJP 技术太老,我只能说 Long long ago ,估计我在用这个技术的时候,很多同学小学还没有毕业。但是没有问题,这篇文章只是一个架构启发,不会浪费你时间让…

云原生实践之 RSocket 从入门到落地:Servlet vs RSocket

技术实践的作用在于:除了用于构建业务,也是为了验证某项技术或框架是否值得大规模推广。 本期开始,我们推出《RSocket 从入门到落地》系列文章,通过实例和对比来介绍RSocket。主要围绕RSocket如何实现Polyglot RPC、Service Regi…

RSocket 基于消息传递的反应式应用层网络协议

下面基于RSocket的一些主要特性分别做一下介绍,并和HTTP之类的常见协议进行比较: Multiplexed, Binary Protocol 多路复用的二进制协议Bidirectional Streaming 双向流Flow Control 流控制Socket Resumption 连接恢复Message passing 消息传递模型Trans…

RSocket 从入门到落地:两种微服务对比

✏️ Pic by Alibaba Tech on Facebook 技术实践的作用在于:除了用于构建业务,也是为了验证某项技术或框架是否值得大规模推广。 这是《RSocket 从入门到落地》系列文章的第三篇,来一起对比下开发微服务应用和微服务之间的网络通讯。该系列文…

开源的技术底座技术中台spring cloud Rsocket 微服务

一、项目背景 企业对新技术、用户体验、需求响应、交互协作提出了新的要求 1、应用新技术: 物联网、人工智能、大数据挖掘和分析、机器人、自动化等 2、重用核心能力: 使组织能够在其ERP核心解决方案的基础上进行构建,并为“下一步做什么”铺…

spring响应式编程13 RSocket:一种新的高性能网络通信协议

前面几讲我们讨论了如何使用 WebFlux 构建响应式 Web 服务的实现方案。WebFlux 和 WebMVC 一样,都是基于 HTTP 协议实现请求-响应式的交互方式。这种交互方案很简单,但不够灵活,也无法应对所有的响应式应用场景。那么,有没有在网络…

RSocket 学习(二):HTTP VS WebSocket VS RSocket

在比对 HTTP、WebSocket、RSocket 之前,我们先通过下面这张 OSI 七层模型的图快速梳理一下网络通信的面貌, 以便后续更好地理解它们。 osi model.png 一. HTTP 的特性 超文本传输协议(英语:HyperText Transfer Protocol&#xff0…