主成分分析——SPSS实例分析

article/2025/5/16 22:17:21

主成分分析是用原始变量的线性组合来表示主成分,且主成分彼此之间互不相关,且能反映出原始数据的绝大部分信息。 一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。

SPSS 软件中主成分分析与因子分析均在“因子分析”模块中完成。因此,在 SPSS 数据表中录人以上数据后,依次点击“分析-降维-因子”进入“因子分析”对话框,然后将12个变量全部选入“变量”框中。

 点击右侧的“描述”按钮,在弹出的对话框中,在“相关矩阵”中选择“系数”。点击右侧的“降维”按钮打开相应对话框,其中“方法”是“主成分”,“分析”部分可以选择是从相关阵还是从协方整阵出发求解主成分,默认是从相关阵出发。本例中各变量的量纲差别较大,选择从相关阵出发求解主成分。“显示”部分可以选择输出“未旋转的因子解”和“碎石图”。“降维”部分可以选择提取大于1的特征根与其所对应的主成分或者设定固定的因子(此处为主成分)个数,但是如果选择从协方差阵出发,则会提取大于特征根均值的指定倍数(默认为1)的特征根。点击“确定”运行,即可得到输出结果。

表1 相关性矩阵a

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

X11

X12

X1

1

0.244

0.18

0.807

-0.023

-0.009

0.023

0.107

-0.118

-0.359

0.097

-0.155

X2

0.244

1

0.861

-0.195

-0.138

0.145

-0.548

-0.39

0.686

-0.294

-0.35

0.461

X3

0.18

0.861

1

-0.185

-0.402

0.408

-0.367

-0.557

0.751

-0.195

-0.167

0.281

X4

0.807

-0.195

-0.185

1

0.027

-0.067

0.318

0.179

-0.351

-0.403

0.176

-0.277

X5

-0.023

-0.138

-0.402

0.027

1

-0.999

-0.546

0.726

-0.416

-0.331

-0.566

0.523

X6

-0.009

0.145

0.408

-0.067

-0.999

1

0.532

-0.731

0.429

0.346

0.558

-0.511

X7

0.023

-0.548

-0.367

0.318

-0.546

0.532

1

-0.253

-0.299

0.357

0.523

-0.728

X8

0.107

-0.39

-0.557

0.179

0.726

-0.731

-0.253

1

-0.847

-0.292

0.137

-0.15

X9

-0.118

0.686

0.751

-0.351

-0.416

0.429

-0.299

-0.847

1

0.092

-0.422

0.548

X10

-0.359

-0.294

-0.195

-0.403

-0.331

0.346

0.357

-0.292

0.092

1

0.131

-0.217

X11

0.097

-0.35

-0.167

0.176

-0.566

0.558

0.523

0.137

-0.422

0.131

1

-0.908

X12

-0.155

0.461

0.281

-0.277

0.523

-0.511

-0.728

-0.15

0.548

-0.217

-0.908

1

a. 此矩阵不是正定矩阵。

输出结果中,表1是样本相关阵,可以看到12个变量之间部分变量存在较强的相关关系,适合进行主成分分析。

表2 总方差解释

成分

初始特征值

提取载荷平方和

总计

方差百分比

累积 %

总计

方差百分比

累积 %

1

4.031

33.591

33.591

4.031

33.591

33.591

2

3.930

32.746

66.337

3.930

32.746

66.337

3

2.175

18.122

84.459

2.175

18.122

84.459

4

.973

8.108

92.567

5

.513

4.278

96.845

6

.210

1.749

98.594

7

.104

.864

99.458

8

.041

.338

99.795

9

.024

.202

99.998

10

.000

.002

100.000

11

5.402E-7

4.501E-6

100.000

12

-1.167E-16

-9.728E-16

100.000

提取方法:主成分分析法。

表2给出了相关阵的特征根及对应主成分的方差贡献率和累积贡献率。本例保留了大于1的特征根,可看到提取了3个主成分,其方差贡献率为84.459%,说明该三个主成分基本上提取了原始变量的大部分信息。这样由分析原来的12个变量转化为仅需分析3个综合变量,极大地起到了降维的作用。【注:lamda10、11、12接近于0,意味着中心化以后的原始变量之间存在着多重共线性,即原始变量存在不可忽视的重叠信息】

 从碎石图中也可以看出,前三个特征根较大,因此选取三个特征根是合适的。

表3 成分矩阵a

成分

1

2

3

VAR1

-.102

-.030

.908

VAR2

.836

.084

.368

VAR3

.782

.353

.345

VAR4

-.423

-.070

.790

VAR5

-.032

-.991

-.086

VAR6

.048

.992

.055

VAR7

-.632

.604

-.036

VAR8

-.550

-.732

.060

VAR9

.889

.390

-.040

VAR10

-.132

.433

-.646

VAR11

-.648

.547

.141

VAR12

.773

-.536

-.135

提取方法:主成分分析法。a

a. 提取了 3 个成分。

表3是因子载荷阵,需要将其每个元素除以响应主成分的特征根的平方根,才可以得到第一主成分关于标准化的原始变量的变换系数,如表4所示。

表4 成分得分系数矩阵

成分

1

2

3

VAR1

-.025

-.008

.418

VAR2

.208

.021

.169

VAR3

.208

.090

.159

VAR4

-.105

-.018

.363

VAR5

-.008

-.252

-.040

VAR6

.012

.252

.025

VAR7

-.157

.154

-.016

VAR8

-.136

-.186

.028

VAR9

.221

.099

-.018

VAR10

-.033

.110

-.297

VAR11

-.161

.139

.065

VAR12

.192

-.136

-.062

由此可得,主成分Y关于各标准化变量的线性组合为:

式中各变量的系数的大小可以表示其重要性。

本例中有12个指标,通过主成分计算后,选择了3个主成分。其中,第一主成分的线性组合表达式中X2、X3、X7、X9、X11、X12的系数相对较大,因此第一主成分可看成X2、X3、X7、X9、X11、X12的综合变量,可以理解为第一主成分主要体现了第二、三产业从业人员数、第一、三产业产出结构、第二、三产业劳动生产率,大致反映了产业结构合理化情况;同理,第二主成分可看成X5、X6、X8的综合变量,可以理解为第二主成分主要体现了第二、三产业就业结构及第二产业产出结构,大致反映了产业结构升级化情况;第三主成分可看成X1、X4、X10的综合变量,可以理解为第三主成分主要体现了第一产业从业人员数、产业就业结构及产业劳动生产率,大致反映了产业结构合理化情况。

 通常为了分析各样品在主成分上所反映的经济意义方面的情况,还需将原始数据代入主成分表达式计算出各样品的主成分得分,根据各样品的主成分得分就可以对样品进行大致分类或者排序。

表5 主成分1的样品排序

排序

地区

Y1

排序

地区

Y1

1

北京市

180.5150607

13

临汾市

10.46116696

2

天津市

64.58425815

14

阳泉市

9.58268787

3

太原市

28.6908458

15

运城市

9.576200993

4

石家庄市

27.51126238

16

朔州市

9.403504998

5

保定市

20.44835652

17

晋中市

9.333657238

6

唐山市

16.13782061

18

晋城市

8.618180294

7

邯郸市

14.34404851

19

邢台市

8.55713213

8

大同市

14.18527824

20

秦皇岛市

8.001142876

9

张家口市

12.49250853

21

承德市

7.456756398

10

沧州市

12.13317336

22

忻州市

7.275499933

11

长治市

10.97995128

23

吕梁市

5.205538483

12

廊坊市

10.5379542

24

衡水市

4.263760211

表6 主成分2的样品排序

排序

地区

Y2

排序

地区

Y2

1

北京市

68.95036761

13

承德市

5.738359679

2

廊坊市

21.7017499

14

晋中市

5.250730169

3

衡水市

21.32785977

15

邯郸市

5.050358973

4

天津市

18.6740728

16

临汾市

4.428244365

5

石家庄市

17.85848122

17

大同市

3.900698174

6

秦皇岛市

14.01048574

18

忻州市

2.923556626

7

保定市

11.93600734

19

朔州市

0.677891108

8

邢台市

11.26217305

20

唐山市

0.675547677

9

沧州市

10.72374997

21

长治市

-1.095271353

10

运城市

9.121019677

22

阳泉市

-1.189746842

11

太原市

7.647849868

23

吕梁市

-1.534529357

12

张家口市

7.563284738

24

晋城市

-1.951322435

表7 主成分3的样品排序

排序

地区

Y3

排序

地区

Y3

1

北京市

124.0088998

13

吕梁市

-1.403670484

2

天津市

39.57507582

14

保定市

-1.740401389

3

唐山市

12.41857457

15

临汾市

-3.664946889

4

太原市

9.96648314

16

忻州市

-3.96973901

5

长治市

4.219456963

17

石家庄市

-6.378107088

6

晋城市

2.40563238

18

晋中市

-7.704121015

7

阳泉市

2.125268721

19

运城市

-9.152635185

8

邯郸市

2.007346431

20

沧州市

-14.18356557

9

朔州市

1.315259427

21

邢台市

-17.43441436

10

大同市

0.76826382

22

秦皇岛市

-24.86005785

11

张家口市

-0.194855256

23

廊坊市

-43.0706488

12

承德市

-1.191899812

24

衡水市

-45.14251758

注意表中各地区得分中,有许多地区的得分是负数,但并不表明这些地区的指标为负,这里的正负仅表示该地区与平均水平的位置关系。


http://chatgpt.dhexx.cn/article/6k0xZNL9.shtml

相关文章

用通俗易懂的方式讲解:主成分分析(PCA)算法及案例(Python 代码)

文章目录 知识汇总加入方式一、引入问题二、数据降维三、PCA基本数学原理3.1 内积与投影3.2 基3.3 基变换的矩阵表示3.4 协方差矩阵及优化目标3.5 方差3.6 协方差3.7 协方差矩阵3.8 协方差矩阵对角化3.9 对上面例子整合 四、主成分分析(PCA)算法步骤五、…

主成分分析及案例

主成分分析思想 核心思路 总体主成分推导 基于标准化变量的总体主成分分析 主成分分析(PCA)就是在所有可能的Y1,...,Yn的线性组合模式中,寻找一个或几个(通常小于n个)可以最大程度区分变量的线性组合/加权平均。即…

主成分分析实例

目录 实例描述步骤确定主成分计算得分解读结果 实例描述 某面馆有各种种类的汤面,为了得知受欢迎程度,进行了在【面】、【汤】、【配料】3个维度的打分。现利用主成分分析法对数据挖掘。 步骤 确定主成分 加载包 import numpy as np import pandas …

因子分析模型(主成分解)、及与主成分分析模型的联系与区别(附详细案例)

* * * * * * * * 因子分析是主成分分析的推广和发展,它也是多元统计分析中将为的一种方法. 因子分析是研究相关阵和或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系. 因子分析的思想一般…

PCA主成分分析实战案例

遇到的问题: X df.loc[:,0:4].values#提取第0-3列 y df.loc[:,4].values #提取第4列报错: TypeError: cannot do slice indexing on Index with these indexers [0] of type int修改代码为: X df.iloc[:,0:4].values#提取第0-3列 y df…

主成分分析法概述、案例实例分析

http://hi.baidu.com/weizican/blog/item/9e816926f2977521d5074257.html 主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑…

清风数学建模学习笔记——主成分分析(PCA)原理详解及案例分析

主成分分析 本文将介绍主成分分析(PCA),主成分分析是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。 一般来说,当…

多元统计及R语言案例分析 (主成分和因子分析对学生成绩神秘联系分析)

嗨喽! 大家好,我是“流水不争先,争得滔滔不绝”的翀,18双非本科生一枚,正在努力!欢迎大家来交流学习,一起学习数据分析,希望我们一起好好学习,天天向上,目前是小社畜一枚…

超详细SPSS主成分分析计算指标权重(一)

一、指标权重计算确定的困惑 相信很多写过或者正在写指标处理类论文的朋友都曾对如何计算指标权重充满困惑,到底是用熵值法,还是主成分分析法?或者其他各种看起来奥妙无穷却难以上手操作的神奇方法?好不容易确定要选用主成分分析…

一文读懂 主成分分析 与 因子分析

2023-2-20更新:  修改了一些文字错误,优化了排版,增加了一些拓展内容,祝大家学业有成!(期待三连😁😁) 目录 一、 主成分分析二、因子分析三、多元共线性问题简介3.1 多…

主成分之综合竞争力案例分析

一、案例背景 1.案例说明 研究调查100家公司2010-2013年关于财务方面的具体数据,这些财务指标维度分别为盈利能力、偿债能力、运营能力、发展能力以及公司治理。其中每个维度分别有几个分析项,但是有些指标是越大越好,有些指标是越小越好。…

数据分析,主成分分析例题

已知协方差矩阵求X的各主成分以及主成分的贡献率 主成分分析 原理:找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,且彼此之间互不相关 统计方法:主成分分析(主分量分析&…

主成分分析PCA案例及原理

1. 主成分分析PCA案例 https://blog.csdn.net/goodshot/article/details/78080220 http://www.cnblogs.com/zhangchaoyang/articles/2222048.html 附: 使用上方链接的解释: 2. 主成分分析(PCA)原理总结http://www.cnblogs.com/pinard/p/623…

主成分分析简单例子

一、数据降维 对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系,例如函数,即由原来的二维转换成了一维。处…

spss分析方法-主成分分析

spss分析方法-主成分分析(转载) 主成分分析利用的是“降维”的思想,利用原始变量的线性组合组成主成分。在信息损失较小的前提下,把多个指标转化为几个互补相关的综合指标。下面我们主要从下面四个方面来解说: 实际…

主成分分析案例

去百度文库上一搜,是很老的题目了。这里所做的只是准备工作,为后面更多的数据处理做准备。 例题 1.对原始资料矩阵进行标准化处理 zef_data xlsread(chengshi.xls); z zscore(zef_data) z 1.1977 0.7149 0.6674 1.1390 0.9189 3.111…

快速搞定PCA(主成分分析)(原理 代码 案例)

目录 一、基本介绍 1.1原理 1.2主成分分析的几何解释 1.3主要步骤 1.4主成分个数的选取原则 二、主成分分析代码 2.1MATLAB代码 2.2Python代码 三、实用案例 一、基本介绍 1.1原理 主成分分析是最常用的线性降维方法,通过某种线性投影,将高维的数…

【机器学习】主成分分析实现案例 (PCA)

一、说明 这篇文章的目的是提供主成分分析(PCA)的完整和简化的解释。我们将逐步介绍它是如何工作的,这样每个人都可以理解并使用它,即使是那些没有强大数学背景的人。 PCA是网络上广泛覆盖的机器学习方法,并且有一些关…

什么是主成分分析?经典案例解析变量降维

1、作用 主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差中的比重也小&…

比较两篇文章的相似性方法

对于这个题目,开始毫无头绪,后来经过查阅资料现在讲方法总结如下: 1、利用余弦定理 我们知道向量 a,b之间的夹角可用余弦定理求得: 如果夹角的余弦值越小,那么夹角也越大。如果2个向量相等,那么其值为1。利…