什么是主成分分析?经典案例解析变量降维

article/2025/5/17 3:03:37

1、作用

主成分分析将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关,最终确定的新变量是原始变量的线性组合,且越往后主成分在方差中的比重也小,综合原信息的能力越弱,与因子分析不同的是,因子分析是利用少数几个公共因子去解释较多个要观测变量中存在的关系,它不是对原始变量的重新组合。

2、输入输出描述

输入:2个或两个以上的定量变量(假设为N个变量)
输出:最低可降维成1维(一个变量,一般用于综合评价),最多可降维成N个变量(一般用于数据脱敏),同时可以获取降维后各个变量的组成权重,用于代表原先变量的数据保留情况。

3、案例示例

示例:某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的5C(能力,品格 ,担保 ,资本,环境)方法, 说明客户违约的可能性。某金融服务公司为了了解贷款客户的信用程度,评价客户的信用等级,采用信用评级常用的5C(能力,品格 ,担保 ,资本,环境)方法, 说明客户违约的可能性。

  • 品格:指客户的名誉;
  • 能力:指客户的偿还能力;
  • 资本:指客户的财务实力和财务状况;
  • 担保:指对申请贷款项担保的覆盖程度;
  • 环境:指外部经济政策环境对客户的影响

4、案例数据

主成分分析案例数据

5、案例操作

Step1:新建项目;
Step2:上传数据;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;

step4:选择【主成分分析】;
step5:查看对应的数据数据格式,【主成分分析】要求输入数据为放入 [定量] 自变量X(变量数≥2)。
step6:选择主成分个数(注意:主成分个数的选择,依赖于个人能接受的最大主成分个数,而特征根选择则是根据设定的阈值为界限,以大于该界限对应的主成分个数作为选取的主成分个数,默认为1。)
step7:点击【开始分析】,完成全部操作。

6、输出结果分析

输出结果1:KMO检验和Bartlett的检验


图表说明: KMO检验的结果显示,KMO的值为0.796,同时,Bartlett球形检验的结果显示,显著性P值为0.000***,水平上呈现显著性,拒绝原假设,即表明各变量间具有相关性,主成分分析的结果是有效的,结果可靠程度为一般。

输出结果2:方差解释表格

图表说明: 上表为总方差解释表格,主要是看主成分对于变量解释的贡献率(可以理解为究竟需要多少主成分才能把变量表达为100%),一般都要表达到90%以上才可以,否则就要调整主成分数量。由表可知,前三个主成分累积解释的贡献率达到93.192%(一般情况下大于90%即可),说明使用前三个主成分就能够很好地评价客户的信用等级。

输出结果3:碎石图

图表说明: 当折线由陡峭突然变得平稳时,陡峭到平稳对应的因子个数即为参考提取因子个数。由图可知,从第三个主成分开始,主成分的特征根值开始缓慢的下降,且在满足主成分累积解释的贡献率达到90%的情况下,我们可以选择三个主成分。

输出结果4:因子载荷系数表


图表说明: 上表为因子载荷系数表,可以分析到每个主成分中隐变量的重要性。 第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大,可以概括为“个人信用品质”;第二个主成分主与环境这一个变量的相关程度较大,可以概括为“外部政策影响”。(注意:因子载荷矩系数表在主成分分析的意义不大)

输出结果5:因子载荷矩阵热力图

图表说明:上图为载荷矩阵热力图,可以分析到每个主成分中隐变量的重要性,热力图颜色越深说明相关性越大。第一个主成分与能力、品格、资本、担保这四个变量的相关程度较大,第二个主成分主与环境这一个变量的相关程度较大。(注意:因子载荷矩阵热力图在主成分分析的意义不大)

输出结果6:因子载荷象限分析

图表说明:因子载荷图通过将多因子降维成双主成分或者三主成分,通过象限图的方式呈现主成分的空间分布。
如果提取3个主成分时,则呈现三维载荷因子散点图。(注意:因子载荷象限分析在主成分分析的意义不大)。

输出结果7:成分矩阵表


图表说明:由上表可得到主成分分析降维后的计算公式:
模型的公式:
F1=0.249×资本+0.257×能力+0.259×品格+0.253×担保+0.152×环境
F2=-0.22×资本-0.28×能力-0.224×品格+0.121×担保+1.014×环境
F3=1.164×资本+0.438×能力-0.693×品格-1.096×担保+0.351×环境
由上可以得到: F=(0.708/0.932)×F1+(0.164/0.932)×F2+(0.06/0.932)×F3

输出结果8:因子权重分析
主成分权重结果

名称方差解释率累计方差解释率权重
主成分10.7080.70876.007%
主成分20.1640.87217.589%
主成分30.060.9326.405%

图表说明: 主成分分析的权重计算结果显示,主成分1的权重为76.007%、主成分2的权重为17.589%、主成分3的权重为6.405%,其中指标权重最大值为主成分1(76.007%),最小值为主成分3(6.405%)。

输出结果9:综合得分表

排名行索引综合得分主成分1主成分2主成分3
1151.85382959958598352.32482163007308530.9779487873062188-1.3303185831711435
2751.47239572327590531.5444835842723851.29458573595680321.1051978488533383
3381.42989212429387141.58876973722603921.4345302365976729-0.46833778766180745
4731.40082178272232861.64641771311424150.70845669881690660.3875996122435289
5791.37327579444159631.38770972955775250.65502708484989133.1744695634450593
6851.29531011167149131.69902471603436280.1316428119766888-0.3000846705856502
7781.10590352313964321.8868381363056903-1.258557370289778-1.668501316949743
8421.02200922579116021.6020659364712124-0.7066790149104903-1.1144512450972166
9771.00836865666928550.91192727191610941.6267773809588880.45459014754220217
10200.98953793573483440.97420501380338781.7206025988609701-0.8361828333192036

图表说明:由综合得分可知,其中第15位客户的综合得分最高,也就是他的信用等级最高,其次是第75位客户。(注意:综合得分在主成分分析的意义不大)

7、注意事项

  • 主成分要求变量之间的共线性或相关关系比较强,否则不能通过KMO检验和Bartlett球形检验;
  • 主成分分析倾向于降维,从而达到简化系统结构,抓住问题实质的目的。(可侧重于输出结果2、输出结果3、输出结果8);
  • 主成分分析时通常需要综合自己的专业知识,以及软件结果进行综合判断,即使是特征根值小于1,也一样可以提取主成分;
  • KMO值为null不存在可能导致的原因为:

(1)样本量过少容易导致相关系数过高,一般希望分析样本量大于5倍分析项个数;
(2)各个分析项之间的相关关系过高或过低。

8、模型理论

主成分分析法是运用“降维”思想,把多个指标 变换成少数综合指标的多元统计方法,这里的综合 指标就是主成分。每个主成分都是原始变量的线性组合,彼此相互独立,并保留了原始变量绝大部分信息。其本质是通过原始变量的相关性,寻求相关变 量的综合替代对象,并且保证了转化过程中的信息损失最小 。
根据标准化后的数据集计算协方差矩阵:


计算矩阵  的特征值 λ1≥λ2≥…≥λn≥0及 对应的特征向量 1 ,2 ,…,n ,其中 j= (u1j,u2j, …,unj) ,unj表示第j个特征向量的第n个分量; 由特征向量组成n个新的指标变量:


式中,y1 是第1主成分,y2是第2主成分,…,yn 是第n主成分。 计算各主成分yj贡献率 bj(j=1,2,...,n) 及 y1,y2 ,…,yn (p≤n)的累计贡献率 αp 。


 

9、参考文献

[1]何晓群.多元统计分析.北京:中国人民大学出版社,2012.
[2] 王 伟,赵 明.主成分分析法在航材分类指标体系构建中的应用[J].舰船电子工程,2019,39 (1): 118-120.
[3]丁敬国,郭锦华. 基于主成分分析协同随机森林算法的热连轧带钢宽度预测[J]. 东北大学学报(自然科学版)2021,42(9):1268-1274,1289.

10、学习网站

SPSSPRO-免费专业的在线数据分析平台


http://chatgpt.dhexx.cn/article/Qdq8XJO0.shtml

相关文章

比较两篇文章的相似性方法

对于这个题目,开始毫无头绪,后来经过查阅资料现在讲方法总结如下: 1、利用余弦定理 我们知道向量 a,b之间的夹角可用余弦定理求得: 如果夹角的余弦值越小,那么夹角也越大。如果2个向量相等,那么其值为1。利…

Python案例分析|文本相似度比较分析

本案例通过设计和实现有关文本相似度比较的类Vector和Sketch,帮助大家进一步掌握设计Python类来解决实际问题的能力。 01、文本相似度比较概述 通过计算并比较文档的摘要可实现文本的相似度比较。 文档摘要的最简单形式可以使用文档中的k-grams(k个连…

计算机如何判断两篇文章相似性

这个仍然是极客时间上,关于《索引技术核心20讲》的一篇笔记同时结合自己的理解加了点料,这个专栏虽然只有20讲,但是真不错,老师解答问题还是很积极,回答字数经常比问题字数多。有兴趣的朋友可以到我星球(在…

ai写文章检测原理(文章相似度检测)

小编来了!今天要和大家聊一聊关于ai写文章检测原理的评测对比。究竟哪种方法更加高效准确呢?让我们一起来看看吧! 概括:本文将从多个角度对ai写文章检测原理进行评测对比,包括算法准确性、速度、自动化程度、用户体验…

【跨语言剽窃检测】文本相似度分析之一

对比文件1: 2010年的跨语言剽窃检测新方法 作者RaFael Corezola Pereira instituion : UFRGS 摘要: 作者提出一个跨语言剽窃检测新方法,分为5个主要阶段: languange normalization、retrieval of candidate documents、classfier …

文本相似度综述

本文目录 文本相似度的定义文本相似度计算方法基于字符串的方法基于语料库的方法基于词袋VSMLSA、PLSALDA(需要进一步了解) 基于神经网络基于搜索引擎 基于世界知识基于本体基于网络知识 其他方法句法分析混合方法 文本相似度的定义 其中, common&#x…

JAVA-计算两篇文章的相似度

1.场景: 在很多公司的文件管理系统中,都有类似于对比多篇文章的相似度,例如在写公众号推文时,如果标记了原创,就会对比当前文章和库里已存在文章的相似程度,如果相似度过于高,则标记为原创的文章…

免费好用的文章相似度检测软件推荐

相信很多人在写作的时候都会遇到这样的问题,就是怕自己写出的文章被抄袭。为了保证自己的原创性,我们需要使用一些文章相似度检测软件来帮助我们检测文章是否被抄袭。那么,有哪些免费好用的文章相似度检测软件呢?下面就为大家介绍…

判断两篇文章的相似度

判断相似度 基于jieba 关键字提取的方法textrank关键字的提取代码:tf-idf关键字的提取代码:统计数据统计数据的代码:完整代码: 基于jieba 关键字提取的方法 textrank 1,将待抽取关键词的文本进行分词 2,以…

检测文章相似度的方法?文章原创度检测工具免费

免费检测文章相似度的软件,什么是检测文章相似度的软件,简单来说就是原创检测工具,相信不少的朋友都在利用这个功能来检测自己文章的原创度是多少?要做好一篇文章真的只需要检测文章的相似度吗?答案:肯定是…

[将小白进行到底] 如何比较两篇文章的相似度

其实这个题目已经有很多人写过了,数学之美里就有,最近阮一峰的博客里也写了,本文基本上遵循的就是他的思路,只是让其看起来再小白一点点。其实说白了就是用自己的话,再把同样一件事描述一下,顺便扩扩句&…

文本相似度的检测

项目原理 基于词频:统计文章中词频,构建词频特征向量,利用特征向量夹角的余弦值表示文本的相似度。两篇文章最大相似度为1,特征向量夹角为0。 基于词频的文本相似度检测步骤: 文本1和文本2分词—去停用词统计两篇文章的词频词频向量1和词频向量2相似度的计算分词:例:“…

网页抓取:PHP实现网页爬虫方式小结

抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐。LZ总结了几种常用的、易于实现的网页抓取方式,如果熟悉JQuery选择器,这几种框架会相当简单。 一、Ganon …

php中取页面的值_php如何抓取网页上的数据

php中抓取网页内容的实例详解 方法一:使用file_get_contents方法实现$url "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $html file_get_contents($url); //如果出现中文乱码使用下面代码 //$getcontent iconv("gb2312…

关于如何使用PHP抓取网页数据并进行处理的经验

在网络时代,数据是无处不在的。很多时候,我们需要从网页上获取特定的数据,以便进行进一步的处理和分析。而PHP作为一种强大的编程语言,提供了丰富的函数和库来帮助我们实现这个目标。本文将分享一些关于如何使用PHP抓取网页数据并…

php根据URL获得网页内容

php 中根据url来获得网页内容非常的方便&#xff0c;可以通过系统内置函数file_get_contents(),传入url,即可返回网页的内容&#xff0c;比如获得百度首页的内容代码为&#xff1a; <?php $html file_get_contents(http://www.baidu.com/);echo $html; 就可以显示出百度首…

php抓取网页内容,获取网页数据

php通过simple_html_dom实现抓取网页内容&#xff0c;获取核心网页数据&#xff0c;将网页数据写入本地 xxx.json 文件 其代码实现逻辑&#xff1a; 1. 引入simple_html_dom.php文件 require_once simple_html_dom-master/simple_html_dom.php; 2. 获取远程或者本地html文件…

PS Adobe软件使用 快捷键

两年前学的&#xff0c;为了考一个高新 怕自己忘了 仅为防止以后自己忘记而做的备忘笔记&#xff0c;请勿吐槽 图片类型 JPEG 有损压缩格式(能够将图像压缩在很小的储存空间&#xff0c;图像中重复或不重要的资料会被丢失&#xff0c;因此容易造成图像数据的损伤。尤其是…

html选区控制怎么用,ps载入选区的快捷键是什么?

ps载入选区的快捷键是&#xff1a;ALTSO。在ps中&#xff0c;使用“ALTSO”快捷键&#xff0c;会弹出“载入选区”对话框&#xff0c;然后选择相应的通道&#xff0c;点击“确定”&#xff0c;即可载入选区。 ps载入选区有三种方法&#xff1a;右键菜单、ps载入选区快捷键、以及…

计算机中的PS颜色填充快捷键,ps颜色填充快捷键【设置办法】

喜欢使用电脑的小伙伴们一般都会遇到win7系统ps颜色填充快捷键的问题&#xff0c;突然遇到win7系统ps颜色填充快捷键的问题就不知道该怎么办了&#xff0c;其实win7系统ps颜色填充快捷键的解决方法非常简单&#xff0c;按照 1&#xff1a;首先我们先打开打开ps软件&#xff0c;…