机器学习——PCA降维(我至今为止遇见的最好的博文)

article/2025/10/13 19:58:55

参考文章:https://zhuanlan.zhihu.com/p/77151308

PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。

PCA 的数学推导可以从最大可分型最大重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小。由于基于最大重构性的 PCA 其与 LDA(线性判别法)的数学推导有异曲同工之处,所以我只从最大可分性进行证明,而最大重构性将留在介绍 LDA 算法时进行介绍。相应的,也会在介绍 LDA 算法时介绍 PCA 与 LDA 的区别与联系。

如何提取数据的主要特征分量的?接下来开启学习之旅

1. 向量表示与基变换

我们先来介绍些线性代数的基本知识。

1.1 内积

两个向量的 A 和 B 内积我们知道形式是这样的:

                                                \left ( a_{1},a_{2} ,...,a_{n}\right )\cdot \left ( b_{1},b_{2} ,...,b_{n}\right )^{T}=a_{1}\cdota b_{1}+a_{2}\cdota b_{2}+,...,+a_{n}\cdota b_{n}

内积运算将两个向量映射为实数,其计算方式非常容易理解,但我们无法看出其物理含义。接下来我们从几何角度来分析,为了简单起见,我们假设 A 和 B 均为二维向量,则:

                                                  A=\left ( x_{1} \right , y_{1}) ,B=\left ( x_{2} \right , y_{2}) ,A\cdot B=\left | A \right |\left | B \right |cos<A,B>             

其几何表示见下图:

                                 

我们看出 A 与 B 的内积等于 A 到 B 的投影长度乘以 B 的模。如果假设 B 的模为 1,即让\left | B \right |=1,那么就变成了:A\cdot B=\left | A \right |\left | B \right |cos<A,B>=\left | A \right |cos<A,B>

也就是说,A 与 B 的内积值等于 A 向 B 所在直线投影的矢量长度。

这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。

1.2 基

在我们常说的坐标系种,向量 (3,2) 其实隐式引入了一个定义:以 x 轴和 y 轴上正方向长度为 1 的向量为标准。向量 (3,2) 实际是说在 x 轴投影为 3 而 y 轴的投影为 2。注意投影是一个矢量,所以可以为负。

所以,对于向量 (3, 2) 来说,如果我们想求它在\left ( 1,0 \right )\left ( 0,1\right )这组基下的坐标话,分别内积即可。当然,内积完了还是 (3, 2)。

所以,我们大致可以得到一个结论,我们要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。为了方便求坐标,我们希望这组基向量模长为 1。因为向量的内积运算,当模长为 1 时,内积可以直接表示矢量投影。然后还需要这组基是线性无关的,我们一般用正交基,非正交的基也是可以的,不过正交基有较好的性质。

1.3 基变换的矩阵表示

这里我们先做一个练习:对于向量 (3,2) 这个点来说,在 \left ( \frac{1}{\sqrt{2}} \frac{1}{\sqrt{2}}\right ) 和 \left ( \frac{-1}{\sqrt{2}} \frac{1}{\sqrt{2}}\right ) 这组基下的坐标是多少?

我们拿 (3,2) 分别与之内积,得到 \left ( \frac{5}{\sqrt{2}} \frac{-1}{\sqrt{2}}\right ) 这个新坐标。我们可以用矩阵相乘的形式简洁的表示这个变换:

$$ \begin{bmatrix} \left ( \sqrt{2}\right ) ^{-1}& \left ( \sqrt{2}\right ) ^{-1} \\ \left ( -\sqrt{2}\right ) ^{-1}& \left ( \sqrt{2}\right ) ^{-1} \end{bmatrix} \tag{4} $$$$ \begin{bmatrix} \left 1& 2&3 \\1}&2&3\end{bmatrix} \tag{2} $$=$$ \begin{bmatrix} \left 2/\sqrt{2}& 4/\sqrt{2}&6/\sqrt{2} \\0}&0&0\end{bmatrix} \tag{2} $$

我们可以把它写成通用的表示形式:
                  

其中p_{i}是一个行向量,表示第 i 个基,a_{i}是一个列向量,表示第 j 个原始数据记录。实际上也就是做了一个向量矩阵化的操作。

上述分析给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列向量 a_{i}变换到左边矩阵中以每一行行向量为基所表示的空间中去。也就是说一个矩阵可以表示一种线性变换。

2. 最大可分性(个人觉得这部分解释最清楚,为什么在PCA中要用概率论中的方差、协方差)

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,如果基的数量少于向量本身的维数,则可以达到降维的效果。

但是我们还没回答一个最关键的问题:如何选择基才是最优的。或者说,如果我们有一组 N 维向量,现在要将其降到 K 维(K 小于 N),那么我们应该如何选择 K 个基才能最大程度保留原有的信息?

一种直观的看法是:希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。当然这个也可以从熵的角度进行理解,熵越大所含信息越多。

2.1 方差

我们知道数值的分散程度,可以用数学上的方差来表述。一个变量的方差可以看做是每个元素与变量均值的差的平方和的均值,即: 

                                                          

为了方便处理,我们将每个变量的均值都化为 0 ,因此方差可以直接用每个元素的平方和除以元素个数表示:

                                                             

于是上面的问题被形式化表述为:寻找一个一维基,使得所有数据变换为这个基上的坐标表示后,方差值最大。

2.2 协方差

在一维空间中我们可以用方差来表示数据的分散程度。而对于高维数据,我们用协方差进行约束,协方差可以表示两个变量的相关性。为了让两个变量尽可能表示更多的原始信息,我们希望它们之间不存在线性相关性,因为相关性意味着两个变量不是完全独立,必然存在重复表示的信息。

协方差公式为:

                                                        

当样本数较大时,不必在意其是 m 还是 m-1,为了方便计算,我们分母取 m。

当协方差为 0 时,表示两个变量完全独立。为了让协方差为 0,我们选择第二个基时只能在与第一个基正交的方向上进行选择,因此最终选择的两个方向一定是正交的。

至此,我们得到了降维问题的优化目标:将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。

2.3 协方差矩阵

针对我们给出的优化目标,接下来我们将从数学的角度来给出优化目标。

我们看到,最终要达到的目的与变量内方差及变量间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。于是我们有:

假设我们只有 a 和 b 两个变量,那么我们将它们按行组成矩阵 X:

                                                               

然后:

                               

我们可以看到这个矩阵对角线上的分别是两个变量的方差,而其它元素是 a 和 b 的协方差。两者被统一到了一个矩阵里。

我们很容易被推广到一般情况:

设我们有 n 个 m 维数据记录,将其排列成矩阵 X_{n,m},设,则 C 是一个对称矩阵,其对角线分别对应各个变量的方差,而第 i 行 j 列和 j 行 i 列元素相同,表示 i 和 j 两个变量的协方差

2.4 矩阵对角化

根据我们的优化条件,我们需要将除对角线外的其它元素化为 0,并且在对角线上将元素按大小从上到下排列(变量方差尽可能大),这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系。

设原始数据矩阵 X 对应的协方差矩阵为 C,而 P 是一组基按行组成的矩阵,设 Y=PX,则 Y 为 X 对 P 做基变换后的数据。设 Y 的协方差矩阵为 D,我们推导一下 D 与 C 的关系:

                                                                

这样我们就看清楚了,我们要找的 P 是能让原始协方差矩阵对角化的 P。换句话说,优化目标变成了寻找一个矩阵 P,满足 PCP^{T}是一个对角矩阵,并且对角元素按从大到小依次排列,那么 P 的前 K 行就是要寻找的基,用 P 的前 K 行组成的矩阵乘以 X 就使得 X 从 N 维降到了 K 维并满足上述优化条件

至此,我们离 PCA 还有仅一步之遥,我们还需要完成对角化。

由上文知道,协方差矩阵 C 是一个是对称矩阵,在线性代数中实对称矩阵有一系列非常好的性质:

  1. 实对称矩阵不同特征值对应的特征向量必然正交。
  2. 设特征向量\lambda重数为 r,则必然存在 r 个线性无关的特征向量对应于\lambda,因此可以将这 r 个特征向量单位正交化。

由上面两条可知,一个 n 行 n 列的实对称矩阵一定可以找到 n 个单位正交特征向量,设这 n 个特征向量为 ,我们将其按列组成矩阵: 

则对协方差矩阵 C 有如下结论:

其中\Lambda为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。

到这里,我们发现我们已经找到了需要的矩阵 P:P=E^{T} 

P 是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是 C 的一个特征向量。如果设 P 按照 \Lambda中特征值的从大到小,将特征向量从上到下排列,则用 P 的前 K 行组成的矩阵乘以原始数据矩阵 X,就得到了我们需要的降维后的数据矩阵 Y。

于是我们发现,x 投影后的方差就是协方差矩阵的特征值。我们要找到最大方差也就是协方差矩阵最大的特征值,最佳投影方向就是最大特征值所对应的特征向量,次佳就是第二大特征值对应的特征向量,以此类推。

至此我们完成了基于最大可分性的 PCA 数学证明

(2) 最大重构性

以上的证明思路主要是基于最大可分性的思想,通过一条直线使得样本点投影到该直线上的方差最大。除此之外,我们还可以将其转换为线型回归问题,其目标是求解一个线性函数使得对应直线能够更好地拟合样本点集合。这就使得我们的优化目标从方差最大转化为平方误差最小,因为映射距离越短,丢失的信息也会越小。区别于最大可分性,这是从最大重构性的角度进行论证,LDA 也是利用最大重构性进行证明,具体过程不再叙述。

4. 性质

  1. 缓解维度灾难:PCA 算法通过舍去一部分信息之后能使得样本的采样密度增大(因为维数降低了),这是缓解维度灾难的重要手段;
  2. 降噪:当数据受到噪声影响时,最小特征值对应的特征向量往往与噪声有关,将它们舍弃能在一定程度上起到降噪的效果;
  3. 过拟合:PCA 保留了主要信息,但这个主要信息只是针对训练集的,而且这个主要信息未必是重要信息。有可能舍弃了一些看似无用的信息,但是这些看似无用的信息恰好是重要信息,只是在训练集上没有很大的表现,所以 PCA 也可能加剧了过拟合;
  4. 特征独立:PCA 不仅将数据压缩到低维,它也使得降维之后的数据各特征相互独立;

5. 细节

5.1 零均值化

当对训练集进行 PCA 降维时,也需要对验证集、测试集执行同样的降维。而对验证集、测试集执行零均值化操作时,均值必须从训练集计算而来,不能使用验证集或者测试集的中心向量。

其原因也很简单,因为我们的训练集时可观测到的数据,测试集不可观测所以不会知道其均值,而验证集再大部分情况下是在处理完数据后再从训练集中分离出来,一般不会单独处理。如果真的是单独处理了,不能独自求均值的原因是和测试集一样。

另外我们也需要保证一致性,我们拿训练集训练出来的模型用来预测测试集的前提假设就是两者是独立同分布的,如果不能保证一致性的话,会出现 Variance Shift 的问题。

6. 参考

  1. 《机器学习》周志华
  2. PCA 的数学原理
  3. Singular Value Decomposition (SVD) tutorial
  4. 机器学习中的数学(4)——线性判别分析(LDA), 主成分分析(PCA)
  5. 从SVD到PCA——奇妙的数学游戏

 

 


http://chatgpt.dhexx.cn/article/R0RtN9Kq.shtml

相关文章

通达OA工作流数据报表二次开发版

此模块除具备工作流——数据报表所有功能外&#xff0c;新加入的功能包括&#xff1a; 1&#xff1a;查询条件自带可查询未完成的流程&#xff1b; 2&#xff1a;查询条件可设置查询所有子流程的字段&#xff1b; 3&#xff1a;报表可显示流程当前处理人&#xff0c;并且点击每…

开发通达OA工作流接口从ERP自动生成OA请款单(图文)

ERP系统很多不带审批系统&#xff0c;即使有审批系统的话应用起来也不那么容易&#xff0c;因为领导一般都是不使用ERP系统的&#xff0c;那么我就用通达OA来完成ERP的单据审批吧&#xff0c;是不是很酷呢&#xff0c;而且还支持移动端app和微信审批。 ERP端的数据发起由ERP方…

OA工作流引擎:作为组织血脉支撑的重要性解析

前面提到协同OA管理平台是以“人和事”为管理对象&#xff0c;但如何把“人和事”通过一定的方法能全部贯通起来呢。就如同一个人&#xff0c;有手、脚、嘴、头脑等各种器官&#xff0c;但如何能把这些器官充分的调动起来&#xff0c;里面最核心的还是人的血液&#xff0c;OA系…

通达OA 工作流运行异常情况的紧急处理(图文)

本文整理自通达OA技术交流群&#xff08;QQ群号&#xff1a;378591362&#xff09;群友交流内容。 一位朋友的工作流设计和运行突然出现故障&#xff0c;显示的数据部分都不正常&#xff0c;如下图&#xff1a; 经过重启所有服务&#xff08;包括缓存服务&#xff09;现象依旧。…

通达OA二次开发 小飞鱼应用OA工作流二次开发智能公文系统(三)(图文)

流程流转完毕后&#xff0c;会自动进行归档&#xff0c;默认存成10年存档目录&#xff0c;并且可以在多个存档年限中进行调整切换。点击流程文号可以直接查看具体的流程表单及执行记录。 如果不需要对部门进行管理时&#xff0c;可以直接使用ajax方式快速将存档年限进行修改切换…

通达OA 工作流流转过程中使用系统自带的提醒功能设置(图文)

在流程流转过程中&#xff0c;可以通过增加步骤的方式来提醒相关人员。其实可以使用系统自带的提醒功能&#xff0c;比如需要在某一步骤提醒流程发起人&#xff0c;就可以在提醒设置下设置提醒发起人&#xff0c;有3个选项可选&#xff0c;其中使用手机短信需要短信猫的支持&am…

通达OA工作流不可编辑

找到表&#xff1a;flow_run 搜索自增长ID流水号&#xff0c;查看该条记录的用户是否ok 找到表&#xff1a;flow_run_prcs 搜索流水号&#xff1a;run_id*** 查看结果的PRCS_ID数字最大的那一条记录的OP_FLAG是否为1&#xff0c;如果不为1则改为1即可。

java oa工作流设计_简易OA漫谈之工作流设计(DB)

1、流程图。 工作流可以做得很复杂&#xff0c;也可以设计的很简单。看下图 看这个图&#xff0c;一个流程图最基础的三部分&#xff1a;流程&#xff0c;步骤&#xff0c;操作。 2、流程模板。 流程图的程序描述就叫流程模板。一个流程模板大概需要的一些属性如下图&#xff1…

OA审批工作流设计器实现

OA审批工作流设计器实现 wflow-web&#x1f440;界面一览工作区面板表单管理表单基本设置表单设计器流程设计器 wflow-web 由 Vue ElementUI 驱动&#xff0c;已开源不断更新中 &#xff0c;主要更新 Gitee &#x1f60b; 码云gitee | github地址 &#x1f449; 在线体验地…

OA工作流引擎设计(纯java开发,不需要额外任何插件引擎)

目录 1 系统概览 2 表单管理 2.1 添加表单 2.2 表单智能设置 2.2.1 单行文本 2.2.2 多行文本 2.2.3 下拉菜单&#xff0c;单选按钮和复选框 2.2.4 日期时间控件 2.2.5 计算控件 2.2.6 会签字段 2.2.7 员工选择框和部门选择框 2.3 表单测试 2.3.1 可选日期、时间、日…

OA 系统工作流引擎 Camunda 实践(1)

【审核人员看清楚再审核&#xff0c;我是把自己公司的案例分析一下&#xff0c; 这哪是广告&#xff1f;&#xff1f;&#xff1f;】 Camunda是Activiti最大的贡献者之一(除Alfresco以外)&#xff0c;同时也是它一个主 要的执行咨询合作伙伴。camunda表示Activiti可能太拘束于…

小飞鱼通达二开 OA工作流打印次数统计控制程序(图文)

每个工作流工作打印了多少次了&#xff0c;在OA里不知道&#xff0c;如何能够控制呢&#xff0c;今天小飞鱼带给大家的就是这个工作量打印次数统计控制程序&#xff0c;使用起来是不是会方便很多。 可以查询打印日志明细。 打印页面上多了一个打印按钮和流水号、打印次数的信息…

通达OA工作流-表单设计

第1章 什么是工作流 1.1 工作流的用途 随着企业管理信息化进程的不断深入&#xff0c;协同应用软件的概念已深入人心&#xff0c;而工作流系统正是协同应用软件的核心。通过应用 IT 技术来规范工作流程、提高工作的执行效率和准确度、使企业运营更加高效、规范、稳健&…

通达OA 工作流执行出现的异常现象处理(图文)

一个朋友用的工作流&#xff0c;突然说这里面多了很多人不应该看到这个流程的&#xff0c;就是在查询工作时&#xff0c;最上面多了一个“查阅信息”项&#xff0c;然后最下面多了很多人查询的记录。这个项目是从哪里来的呢&#xff1f;普通的流程倒也无所谓了&#xff0c;而有…

小飞鱼通达二开 通达OA工作流表单标题下拉列表字体样式设置(图文)

今天的一个流程表单里使用了下拉列表框&#xff0c;如下图&#xff1a; 在设计视图和预览时都没有问题&#xff0c;只是在流程查询时显示的不正常。表单上的样式对于变成文字后的数据不再起作用。 小飞鱼经过研究&#xff0c;发现原来是系统在数据浏览页面时加载了其他的样式文…

OA工作流概述

本文转自&#xff1a;http://www.cnblogs.com/cuihongyu3503319/archive/2007/10/15/924378.html 一、工作流是什么&#xff1f; 工作流是从英文单词work flow中直译过来的。用在OA系统中最直白的意思就是日常工作中相对固定的流程计算机化。 例如&#xff1a;空管站发文的流程…

通达oa工作流升级 操作说明

通达oa工作流升级 操作说明 升级程序下载链接: https://pan.baidu.com/s/1SL_7qePn7c6pWnCR16VG2A 提取码: s6dx 1.停止其他用户访问oa 2.备份oa数据 3.对工作流数据进行归档 注意&#xff1a;如果有父子流程&#xff0c;其中子流程办结&#xff0c;父流程没有办结的情…

OA工作流-Activiti(一)

OA工作流-Activiti(一) 一、工作流定义 工作流&#xff1a;一系列相互衔接、自动进行的业务活动或任务。 OA工作流&#xff1a;建立于网络办公自动化基础上的事务行政审批&#xff0c;业务申请审批、公文、信息等的网上流转。它主要解决的是“使在多个参与者之间按照某种预定义…

4、telnet

0x01、题目&#xff1a;telnet 0x02、WP 1、右键链接&#xff0c;点击新建标签页打开&#xff0c;保存附件1.zip 2、解压后得到一个名为networking.pcap的流量包&#xff0c;很明显题目是telnet&#xff0c;众所周知&#xff0c;telnet是明文的传输数据&#xff0c;我们用wir…

嵌入式linux开发,启用busybox的telnetd服务

Telnet协议是TCP/IP协议族中的一员&#xff0c;是Internet远程登录服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。在终端使用者的电脑上使用telnet程序&#xff0c;用它连接到服务器。终端使用者可以在telnet程序中输入命令&#xff0c;这些…