主成分分析法
主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。
目录
- 基本思想
- 基本理论
- 引入一般方法
- 主成分分析步骤
- 关于学习方法的一些个人见解
- 从协方差矩阵出发求解主成分
- 从相关矩阵出发求解主成分
- 关于由协方差矩阵或相关矩阵出发求解主成分的选取问题
- 关于模型中的一些问题
基本思想
在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量,这样就产生了如下问题:
- 一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标;
- 另一方面考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。
基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。
既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素。根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
一般来说,利用主成分分析得到的主成分与原始变量之间有如下基本关系:
- 每一个主成分都是各原始变量的线性组合;
- 主成分的数目大大少于原始变量的数目;
- 主成分保留了原始变量的绝大多数信息;
- 各主成分之间互不相关。
通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发。
基本理论
设对某一事物的研究涉及p个指标,分别用X1, X2, .... , Xp表示,这p个指标构成的p维随机变量为X = (X1, X2, .... , Xp)T。设随机变量X的均值为μ,协方差矩阵为∑。
对X进行线性变换,可以形成新的综合变量,用Y表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式:
由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y的统计特性也不尽相同。因此为了取得较好的效果,我们总是希望Yi=ui.T*X的方差尽可能大且各Yi之间相互独立,由于
而对任意的常数c,有