主成分分析及案例

article/2025/5/16 20:37:40

主成分分析思想     核心思路

 总体主成分推导

 基于标准化变量的总体主成分分析

主成分分析(PCA)就是在所有可能的Y1,...,Yn的线性组合模式中,寻找一个或几个(通常小于n个)可以最大程度区分变量的线性组合/加权平均。即期望能将手中许多相关性很高的变量转化成相互独立的变量,并能解释大部分资料之变异的几个新变量,也就是所谓的主成分。

总体主成分分析推导

记原始变量  y=(Y1,......,Yp)’ ,其协方差矩阵为\sum

主成分分析试图定义一组互不相关的变量,称为Y1,........Yp的主成分(PC),记为Z1,......Zp,每一主成分都是Y1,。。。。Yp的线性组合:

                                         

则Z1,......,Zp的方差与协方差为

 求解主成分Z1,.......,Zp即求解a1,。。。。,ap

主成分(PC)Z1,........,Zp按照”方差贡献度“依次导出:

    第一主成分Z1=a1‘y:在满足限制a1’a1=1时,最大化方差var(a‘y)

    第二主成分Z2=a2’y:在满足限制a2'a2=1,且cov(a1‘y,a2’y)=0时,最大化方差var(a2‘y)

    第j主成分Zj=aj'y:在满足限制aj’aj=1,且cov(ak‘y,aj’y)=0,k<j时,最大化方差var(aj‘y)

主成分(PC)Z1,.....,Zp按照“方差贡献度”依次导出:

    第p主成分Zj=a‘y:在满足限制ap’ap=1时,最小化方差var(ap‘y)

定理:

记(\lambda1,e1),。。。。(\lambdap,ep)为协方差矩阵\sum的特征值-特征向量,\lambda1>\lambda2≥。。。。≥\lambdap≥0并且特征向量e1,  。。。。ep是正交化特征向量。
则变量Y1,.....,Yp的第j个主成分由下式给出:

            Zj=ej’y=ej1Y1+ej2Y2+      +ejpYp,j=1,.....,p,    

            这里有var(Zj)=ej‘\sumej=\lambdaj

            并且有cov(Zj,Zk)=ej‘\sumek=0

进一步地,我们有:

 基于标准化变量的总体主成分分析:

当变量y=(Y1,....,Yp)‘的数值(由于度量单位不同等原因)差距过大,直接由协方差矩阵生成的主成分会由方差大的变量主导。

在这种情况下,我们对每一个变量Yj做标准化,等价于基于原变量Y1,....Yp的相关系数矩阵进行主成分分析。

主成分分析案例:

地区经营单位所在地进出口总额/103美元全社会固定资产投资利用外资/亿元城镇单位在岗职工平均工资/元社会消费品零售总额/亿元医疗卫生机构数/个普通高等学校在校学生数/万人城镇居民人均可支配收入/元农村居民人均可支配收入/元地方财政一般预算收入/亿元城镇单位就业人员/万人地区生产总值/亿元第三产业增加值/亿元全社会固定资产投资/亿元人均地区生产总值/(元/人)外商及港澳台商投资工业企业利润总额/亿元
北京市32401742321.5313499411575.4997659.2962406.324240.55430.79812.8628014.9422567.768370.44128994776.84
天津市11291916532.02969655729.7553951.4740277.521753.72310.36269.4818549.1910786.6411288.92118944461.66
河北省4985554374.716525515907.680912126.8930547.812880.93233.83535.3234016.3215040.1333406.845387401.76
山西省171868759.17615476918.14249076.329131.810787.51867428.6815528.428030.376040.5442060134.43
内蒙古138735233.5676887160.22421844.813567012584.31703.21280.6316096.218046.7614013.1663764135.58
辽宁省99595084191.936254513807.23576798.134993.413746.82392.77519.4823409.2412307.166676.7453527583.66

代码:


> library(psych)      利用psych包做主成分分析
> library(tidyverse)   用于数据加载及预处理

> library(xlsx)              用xlsx包读取数据
> d<-read.xlsx("E:/R/shuju/shuju4.xlsx",1)       用read.xlsx()函数读取数据

> nms<-d[['地区']]      保存地区名称
> d<-d[,-1]                去掉第一列(地区名称)

> d<-data.frame(d)    将数据转化为数据框
> d<-scale(x=d)          数据标准化

> fa.parallel(d,fa='pc')     绘制碎石图

> p<-principal(d,nfactors=2,rotate="none")     提取主成分

> p$values 特征根

> p$loadings        主成分载荷矩阵

> p$scores            主成分得分
 

-

                       

                               


http://chatgpt.dhexx.cn/article/ilktr29k.shtml

相关文章

主成分分析实例

目录 实例描述步骤确定主成分计算得分解读结果 实例描述 某面馆有各种种类的汤面&#xff0c;为了得知受欢迎程度&#xff0c;进行了在【面】、【汤】、【配料】3个维度的打分。现利用主成分分析法对数据挖掘。 步骤 确定主成分 加载包 import numpy as np import pandas …

因子分析模型(主成分解)、及与主成分分析模型的联系与区别(附详细案例)

* * * * * * * * 因子分析是主成分分析的推广和发展&#xff0c;它也是多元统计分析中将为的一种方法. 因子分析是研究相关阵和或协方差阵的内部依赖关系&#xff0c;它将多个变量综合为少数几个因子&#xff0c;以再现原始变量与因子之间的相关关系. 因子分析的思想一般…

PCA主成分分析实战案例

遇到的问题&#xff1a; X df.loc[:,0:4].values#提取第0-3列 y df.loc[:,4].values #提取第4列报错&#xff1a; TypeError: cannot do slice indexing on Index with these indexers [0] of type int修改代码为&#xff1a; X df.iloc[:,0:4].values#提取第0-3列 y df…

主成分分析法概述、案例实例分析

http://hi.baidu.com/weizican/blog/item/9e816926f2977521d5074257.html 主成分分析法 主成分分析也称主分量分析&#xff0c;旨在利用降维的思想&#xff0c;把多指标转化为少数几个综合指标。在实证问题研究中&#xff0c;为了全面、系统地分析问题&#xff0c;我们必须考虑…

清风数学建模学习笔记——主成分分析(PCA)原理详解及案例分析

主成分分析 本文将介绍主成分分析(PCA)&#xff0c;主成分分析是一种降维算法&#xff0c;它能将多个指标转换为少数几个主成分&#xff0c;这些主成分是原始变量的线性组合&#xff0c;且彼此之间互不相关&#xff0c;其能反映出原始数据的大部分信息。 一般来说&#xff0c;当…

多元统计及R语言案例分析 (主成分和因子分析对学生成绩神秘联系分析)

嗨喽! 大家好&#xff0c;我是“流水不争先&#xff0c;争得滔滔不绝”的翀&#xff0c;18双非本科生一枚&#xff0c;正在努力&#xff01;欢迎大家来交流学习&#xff0c;一起学习数据分析&#xff0c;希望我们一起好好学习&#xff0c;天天向上&#xff0c;目前是小社畜一枚…

超详细SPSS主成分分析计算指标权重(一)

一、指标权重计算确定的困惑 相信很多写过或者正在写指标处理类论文的朋友都曾对如何计算指标权重充满困惑&#xff0c;到底是用熵值法&#xff0c;还是主成分分析法&#xff1f;或者其他各种看起来奥妙无穷却难以上手操作的神奇方法&#xff1f;好不容易确定要选用主成分分析…

一文读懂 主成分分析 与 因子分析

2023-2-20更新&#xff1a;  修改了一些文字错误&#xff0c;优化了排版&#xff0c;增加了一些拓展内容&#xff0c;祝大家学业有成&#xff01;&#xff08;期待三连&#x1f601;&#x1f601;&#xff09; 目录 一、 主成分分析二、因子分析三、多元共线性问题简介3.1 多…

主成分之综合竞争力案例分析

一、案例背景 1.案例说明 研究调查100家公司2010-2013年关于财务方面的具体数据&#xff0c;这些财务指标维度分别为盈利能力、偿债能力、运营能力、发展能力以及公司治理。其中每个维度分别有几个分析项&#xff0c;但是有些指标是越大越好&#xff0c;有些指标是越小越好。…

数据分析,主成分分析例题

已知协方差矩阵求X的各主成分以及主成分的贡献率 主成分分析 原理&#xff1a;找出几个综合变量来代替原来众多的变量&#xff0c;使这些综合变量能尽可能地代表原来变量的信息量&#xff0c;且彼此之间互不相关 统计方法&#xff1a;主成分分析&#xff08;主分量分析&…

主成分分析PCA案例及原理

1. 主成分分析PCA案例 https://blog.csdn.net/goodshot/article/details/78080220 http://www.cnblogs.com/zhangchaoyang/articles/2222048.html 附: 使用上方链接的解释&#xff1a; 2. 主成分分析&#xff08;PCA&#xff09;原理总结http://www.cnblogs.com/pinard/p/623…

主成分分析简单例子

一、数据降维 对于现在维数比较多的数据&#xff0c;我们首先需要做的就是对其进行降维操作。降维&#xff0c;简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系&#xff0c;例如函数&#xff0c;即由原来的二维转换成了一维。处…

spss分析方法-主成分分析

spss分析方法-主成分分析&#xff08;转载&#xff09; 主成分分析利用的是“降维”的思想&#xff0c;利用原始变量的线性组合组成主成分。在信息损失较小的前提下&#xff0c;把多个指标转化为几个互补相关的综合指标。下面我们主要从下面四个方面来解说&#xff1a; 实际…

主成分分析案例

去百度文库上一搜&#xff0c;是很老的题目了。这里所做的只是准备工作&#xff0c;为后面更多的数据处理做准备。 例题 1.对原始资料矩阵进行标准化处理 zef_data xlsread(chengshi.xls); z zscore(zef_data) z 1.1977 0.7149 0.6674 1.1390 0.9189 3.111…

快速搞定PCA(主成分分析)(原理 代码 案例)

目录 一、基本介绍 1.1原理 1.2主成分分析的几何解释 1.3主要步骤 1.4主成分个数的选取原则 二、主成分分析代码 2.1MATLAB代码 2.2Python代码 三、实用案例 一、基本介绍 1.1原理 主成分分析是最常用的线性降维方法&#xff0c;通过某种线性投影&#xff0c;将高维的数…

【机器学习】主成分分析实现案例 (PCA)

一、说明 这篇文章的目的是提供主成分分析&#xff08;PCA&#xff09;的完整和简化的解释。我们将逐步介绍它是如何工作的&#xff0c;这样每个人都可以理解并使用它&#xff0c;即使是那些没有强大数学背景的人。 PCA是网络上广泛覆盖的机器学习方法&#xff0c;并且有一些关…

什么是主成分分析?经典案例解析变量降维

1、作用 主成分分析将多个有一定相关性的指标进行线性组合&#xff0c;以最少的维度解释原数据中尽可能多的信息为目标进行降维&#xff0c;降维后的各变量间彼此线性无关&#xff0c;最终确定的新变量是原始变量的线性组合&#xff0c;且越往后主成分在方差中的比重也小&…

比较两篇文章的相似性方法

对于这个题目&#xff0c;开始毫无头绪&#xff0c;后来经过查阅资料现在讲方法总结如下&#xff1a; 1、利用余弦定理 我们知道向量 a,b之间的夹角可用余弦定理求得&#xff1a; 如果夹角的余弦值越小&#xff0c;那么夹角也越大。如果2个向量相等&#xff0c;那么其值为1。利…

Python案例分析|文本相似度比较分析

本案例通过设计和实现有关文本相似度比较的类Vector和Sketch&#xff0c;帮助大家进一步掌握设计Python类来解决实际问题的能力。 01、文本相似度比较概述 通过计算并比较文档的摘要可实现文本的相似度比较。 文档摘要的最简单形式可以使用文档中的k-grams&#xff08;k个连…

计算机如何判断两篇文章相似性

这个仍然是极客时间上&#xff0c;关于《索引技术核心20讲》的一篇笔记同时结合自己的理解加了点料&#xff0c;这个专栏虽然只有20讲&#xff0c;但是真不错&#xff0c;老师解答问题还是很积极&#xff0c;回答字数经常比问题字数多。有兴趣的朋友可以到我星球&#xff08;在…