论文阅读:在Stiefel流形上的黎曼优化

article/2025/10/11 7:04:21

原文:EFFICIENT RIEMANNIAN OPTIMIZATION ON THE STIEFEL MANIFOLD VIA THE CAYLEY TRANSFORM

 

Citing: https://arxiv.org/pdf/2002.01113.pdf

目录

摘要 

1 简介

2 相关工作

3 基础知识

3.1 黎曼流形

定义1:黎曼流形

定义2:测地、幂映射和收缩映射

定义3:平行运输和媒介运输

3.2 Stiefel 流形

3.2.1 利用Cayley变换交替更新参数

4 算法

4.1  Cayley SGD

4.2 Cayley Adam


摘要 

在参数矩阵上严格执行正交约束在深度学习中显示出了优势。这相当于Stiefel流形上的黎曼优化,但是计算成本很高。我们提出了两个主要贡献:(1)基于迭代Cayley变换的新的高效收缩映射,用于优化更新;(2)基于Stiefel流形上的动量投影和Cayley变换的组合的隐式向量传输机制。

这得到了两个新的优化算法:带momentum的Cayley-SGD和Cayley-ADAM(在Stiefel流形上的),且理论上收敛。CNN训练实验表明,这两种优化算法:(a)相对于现有的强制CNN参数正交性的方法,每次迭代使用较少的运行时间;(b)在不影响CNN性能的情况下,比标准SGD和ADAM算法更快的收敛速度。这两种优化算法也被证明可以减少RNN中优化酉转移矩阵的训练时间。

1 简介

正交性最近引起了人们的兴趣,因为在深度神经网络的参数矩阵上强制正交具有显著的优势。对于CNN,Bansal等人表明,正交性约束提高了准确性,并给出了更快的经验收敛速度;Huang等人表明,正交性稳定了训练中神经激活的分布;Cogswell等人表明,正交性减少了过拟合,并提高了泛化。对于RNNs,正交隐矩阵缓解了消失和爆炸梯度问题。Stiefel流形上的黎曼优化是正交约束下优化的一个优雅框架,该流形代表了相同大小的所有正交矩阵的集合。但其高昂的计算成本限制了其应用。

通过正则化间接将正交性纳入深度学习并不能保证参数矩阵的精确正交性。为了解决上述局限性,我们的第一个主要贡献是基于Cayley变换的收缩映射的有效估计,用于更新Stiefel流形上的大型非平方参数矩阵。我们指定了一种有效的迭代算法来估算Cayley变换,该算法只包含少量矩阵乘法,而闭式的Cayley变换需要昂贵的矩阵逆运算。本文从理论和实证两方面验证了收缩映射的有效性。

我们的第二个主要贡献是通过考虑我们在Stiefel流形上优化的动量来提高训练的收敛速度。我们推导了一种在流形的切空间之间移动切向量的新方法,而不是使用标准的并行传输。具体地说,我们将斯蒂费尔流形视为欧氏空间的子流形。这允许将矢量传输(Absil等人,2009)表示为切线空间上的投影。正如我们所展示的,由于Cayley变换隐式地将梯度投影到切线空间,动量更新导致隐式矢量传输。因此,我们首先计算欧氏空间中动量和梯度的线性组合,然后使用Cayley变换更新网络参数,而不显式执行向量传输。

我们将上述两个贡献应用于将标准SGD和ADAM推广到Stiefel流形,得到了两个新优化算法,即Cayley-SGD与Cayley-ADAM。

在CIFAR-10和CIFAR-100数据集上的实验表明,虽然传统SGD和Adam在每个epoch上花费的时间较少,但它们在收敛花费的epoch比Cayley-SGD和Cayley-ADAM多。与其它考虑正交性的现有优化方法(如极分解、QR分解或闭式Cayley变换)相比,我们的方法运行速度更快,在图像分类中产生同样好甚至更好的性能。最后,我们将上述两个贡献应用于RNN的培训。Wisset等人提出了全容量酉RNN,该RNN使用闭式Cayley变换更新隐藏到隐藏的转移矩阵。相比之下,我们的训练在不影响性能的情况下,每次迭代花费的运行时间更少。

2 相关工作

本节回顾了密切相关的工作,可大致分为两组:正交正则化和黎曼优化。

正则化方法可以分为严格执行正交性的硬正则化方法和软正则化方法。硬正则化在计算上很昂贵,因为需要昂贵的特征值分解。Huang等人(2018a)推导了硬正则化的一个闭式解,该解也需要特征值分解。软正则化介绍了互相干正则化和谱限制等距正则化;然而,这些正则化不能完全保证正交性。

黎曼优化保证了解的正交性约束。例如,Cho&Lee用Grassmann流形上的黎曼优化替换了CNN中的批量归一化层,其中参数是归一化的,但不是正交归一化的。此外,Helfrich等人(2017年)对酉矩阵组进行黎曼优化,以稳定RNN训练,但他们的技术无法应用于非平方参数矩阵。

黎曼优化的关键挑战是,幂映射(估计下一个更新点的标准步骤)在Stiefel流形上的计算代价很高。有些方法用伪测地收缩(pseudo-geodesic retraction)代替幂映射。例如,使用基于投影的方法将梯度映射回Stiefel流形,该流形依赖于计算昂贵的SVD分解。其他方法基于闭式Cayley变换,但需要昂贵的矩阵求逆。

3 基础知识

3.1 黎曼流形

定义1:黎曼流形

黎曼流形(\mathcal M ,\rho)是一个带有黎曼度量\rho的光滑流形\mathcal M,度量\rho定义为切线空间T_x\mathcal M上每个点x的内积,即 \rho_x(\cdot,\cdot):T_x\mathcal M\times T_x\mathcal M \rightarrow \mathbb R

定义2:测地、幂映射和收缩映射

测地线是流形上局部最短的曲线。幂映射Exp_x(\cdot)将切向量v\in T_x映射到流形\mathcal M上。Exp_x(tv)表示流形上的一条测地线\gamma (t):t\in[0,1]。收缩映射定义为流形上的平滑映射R_x:T_x\mathcal M\rightarrow \mathcal M,如果R_x(0)=xDR_x(0)=id_{T_x\mathcal M},其中DR_x表示R_x的导数,id_{T_x\mathcal M}表示在T_x\mathcal M上定义的单位映射。很容易证明任何幂映射都是收缩映射。由于计算一个幂映射通常是昂贵的,收缩映射通常被用作一种有效的替代方法。

定义3:平行运输和媒介运输

平行传输是一种在保持范数不变的情况下沿流形上的测地线平移向量的方法,向量传输是定义在流形\mathcal M的收缩映射R上的平滑映射:\tau:T_x\mathcal M \times T_x\mathcal M \rightarrow T_{R{(\eta_x)}}。通常,矢量传输在计算上是平行传输的有效替代方案。

3.2 Stiefel 流形

Stiefel流形St(n,p),n\geq p是一种黎曼流形,由所有正交矩阵\{X\in \mathbb R^{n\times p}:X^\top X=I\}组成,之后记为\mathcal M =St(n,p)。我们认为\mathcal M是欧氏空间中的嵌入子流形。因此,黎曼度量\rho是欧几里德度量:\rho_X(Z_1,Z_2)=tr(Z_1^\top Z_2),其中Z_1,Z_2是映射T_X\mathcal M的切向量,定义为:

T_X\mathcal M=\{Z:Z^\top X+X^\top Z=0\}

注:Stiefel 流形\mathcal MX上的切空间的要求Z^\top X+X^\top Z=0即 \partial tr(X^\top ZX)=0,即 minimize\quad tr(X^\top ZX),即minimize \sum_{i,j}^n z_{ij}\|\textbf x_i-\textbf x_j\|

矩阵Z\in \mathbb R^{n\times p}T_X\mathcal M上的投影可以计算为:

 给定目标函数\nabla f(x)在欧几里德空间中X处的导数,我们可以使用等式(2)给出的\pi_{T_X}(\nabla f(X))计算Stiefel流形上的黎曼梯度\nabla_\mathcal M f(X)作为对T_X\mathcal M的投影。因此,黎曼流形上f的优化可以计算如下。首先,在T_X\mathcal M中计算\nabla_\mathcal M f(X);其次,将动量M_t传输到当前切线空间T_X\mathcal M,并将其与当前的伊曼梯度\nabla_\mathcal M f(X)线性组合,以更新动量M_{t+1}。最后,沿流形上的曲线更新新参数X_{t+1},初始方向为M_{t+1}

虽然幂映射和并行传输可以用来更新黎曼流形优化中的参数和动量,但在Stiefel流形上,它们在计算上是不可行的。在下一节中,我们将详细说明计算效率较高的备选方案。

3.2.1 利用Cayley变换交替更新参数

Cayley变换使用负对称矩阵计算Stiefel流形上的参数曲线。Cayley变换的闭式如下:

其中,W是负对称矩阵,即W^\top =-W、 X位于Stiefel流形上,\alpha \geq 0是表示曲线长度的参数。很容易验证:

根据定义2和等式1给出的Stiefel流形切线空间的定义,Cayley变换是斯蒂费尔流形上的一种有效收缩映射。如等式2所示,通过选择W=\hat W -\hat W^\top,其中\hat W =\nabla f(X)X^\top =\frac{1}{2}X(X^\top\nabla f(X)X^\top)

我们可以看到Cayley变换隐式地在切线空间上投影梯度作为其初始方向。因此,Cayley变换可以表示Stiefel流形上参数矩阵的更新。 

然而,闭式Cayley变换需要计算昂贵的矩阵求逆,这在大型深层神经网络中无法有效执行。我们的第一个贡献是Cayley变换的迭代估计,它只有效地使用矩阵乘法。我们用以下定点迭代表示Cayley变换:

4 算法

本节详细说明了我们的Cayley SGD和Cayley ADAM算法。这两种方法都代表了Stiefel流形上的有效黎曼优化,该流形由两个主要步骤组成。由于Cayley变换隐式地将梯度和动量向量投影到切线空间上,我们首先将上一次迭代的动量与目标函数f在当前点X处的随机梯度(记为\mathcal G(X))的线性组合。然后,我们使用迭代Cayley变换根据更新的动量估计下一个优化点。这是用来将传统的带动量和ADAM算法的SGD推广到我们在Stiefel流形上的两个新的黎曼优化,如第4.1节和第4.2节所述。 

4.1  Cayley SGD

我们将heavy ball(HB)动量更新推广到Stiefel流形。理论上,它可以表示为:

4.2 Cayley Adam

ADAM是一种新的随机目标函数一阶优化方法。它估计自适应低阶矩,并使用自适应学习率。该算法结合了AdaGrad(在稀疏梯度情况下表现良好)和RMSProp(在非平稳情况下表现良好)的优点。

我们通过对vanilla ADAM进行三次修改,将ADAM推广到Stiefel流形。首先,我们用Stiefel流形上相应的梯度和动量替换标准梯度和动量,如第4.1节所述。其次,我们使用流形自适应学习率,为参数矩阵中的所有条目分配相同的学习率,如(Absil等人,2009年)。第三,我们使用Cayley变换来更新参数。


http://chatgpt.dhexx.cn/article/LnN3EOxf.shtml

相关文章

黎曼几何与黎曼流形

目录 0.黎曼几何 1. 欧几里得几何与黎曼几何的区别 2.黎曼流形 3.黎曼距离 4.切空间 5.黎曼均值 6. SPD矩阵如何形成黎曼流型 7.切线空间映射 8.同余变换和同余不变 9.黎曼对齐 科普性笔记,做了解,不深入。 0.黎曼几何 黎曼几何是一种基于欧几…

机器学习知识点(二十三)黎曼流形认知

对于流形,我在机器学习中的认识就是局部欧式距离的应用,当然其背后强大的数学逻辑也不是一时可以窥全貌,只好先看看一些基础概念。 1、基本概念 流形,是局部具有欧几里得空间性质的空间,是欧几里得空间中的曲线、曲面…

数学建模-神经网络模型

神经网络简介 人工神经网络是在现代神经科学的基础上提出和发展起来的,旨在反映人脑结构及功能的一种抽象数学模型。自1943 年美国心理学家W. McCulloch 和数学家W. Pitts 提出形式神经元的抽象数学模型—MP 模型以来,人工神经网络理论技术经过了50 多年…

数学建模--预测类模型

目录 一、中短期预测 1、灰色预测法 ①适用范围 ②模型实现 2、回归分析 ①适用范围 ②模型实现 3、时间序列分析 ①自适应滤波法 ②指数平滑法 ③移动平均法 4、微分方程 二、长期预测 1、神经网络预测 2、logistic模型 ①模型介绍 ②模型分析及代码 一、中短…

数学建模 -- 预测模型

参考清风老师的数学建模,用于复习!!! NO1.灰色预测 一.灰色系统 灰色预测是对既含有已知信息又含有不确定信息的系统进行预测,就是对在一定范围内变化的、与时间有关的灰色过程进行预测。 灰色预测对原始数据进行生成…

数学建模——评价模型

文章目录 一.模糊综合评价模型1.基础知识2.一级模糊综合评价3.二级模糊综合评价 二.灰色关联分析模型1.灰色关联分析原理2.灰色关联分析步骤 三. Topsis(理想解法)1.理想解法原理2.Topsis法步骤 四.线性加权综合评价模型(不是很推荐用&#x…

数学建模(一)

个人不仅仅是一个ctfer,数学也是很强的呀。hhhh下面记录一些简单的 数学建模用到的python基础 知识点一:复合数据类型相关 append:每次往列表尾部增加一个元素。 extend:列表尾部添加多个数据 insert(索引位置,插入值) #这里是…

数学建模-数学规划模型

数学规划模型 一、概述 1.什么是数学规划? 运筹学的一个分支,用来研究在给定条件下(即约束条件),如何按照某一衡量指标(目标函数)来寻求计划、管理工作中的最优方案。 即求目标函数在一定约束条件下的极值问题 2.数学…

【数学建模】模型的评价、模型的推广与改进

6.1模型的评价 6.1.1模型的稳定性分析(灵敏度分析) https://mp.weixin.qq.com/s/EZr2HeqzDLHQygk4nO0iiA 讲的比较好,分为决策模型、动态模型、概率模型、线性回归、时间预测 建模过程会对问题做一些假设,需要考虑所得结果对每一条…

数学建模 —— 评价模型

文章目录 前言一、层次分析法(AHP)1.介绍2.算法流程3.局限性 二、优劣解距离法(Topsis法)1.介绍2.算法流程3.模型拓展 —— 带权重的Topsis1.使用层次分析法来确定权重取值2.基于熵权法对Topsis模型的修正熵权法的计算步骤 三、灰…

数学建模之优化模型详解

全文共8090个字,码字总结不易,老铁们来个三连:点赞、关注、评论作者:[左手の明天] 原创不易,转载请联系作者并注明出处 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转…

数学建模--评价类模型

目录 一、主观评价 1、层次分析法(AHP) ①应用场景 ②步骤 ③模型实现 ④代码实现 ⑤优缺点评价 2、模糊综合评价法(FCE) ①应用场景 ②步骤 ③模型实现 3、灰色关联分析法(GRA) ①应用场景 …

数学建模常用模型

第一讲:层次分析法 建模比赛中最基础的模型,主要用于解决评价类问题(例如:选择哪种方案最好,哪位运用动员或者员工的表现更优秀)。 评价类问题主要依据权重(重要性权重)来解决&…

数学建模常用模型简介其他模型大全汇总

一、预测与预报 1、灰色预测模型(必掌握) 解决预测类型题目。由于属于灰箱模型,一般比赛期间 不优先 使用。 满足两个条件可用: ①数据样本点个数少, 6-15 个 ②数据呈现指数或曲线的形式 2、微分方程预测&#xff08…

数学建模竞赛常考三大模型及十大算法【预测模型、优化模型、评价模型】

学习网址:数学建模竞赛常考三大模型及十大算法 目 录 三大模型 1、预测模型 2、优化模型 3、评价模型 数学建模的十大常用算法 三大模型 1、预测模型 预测模型:神经网络预测、灰色预测、拟合插值预测(线性回归)、时间序列…

数学建模常见模型

数学建模中比较常见的几种模型: (一)、预测与预报 1、灰色预测模型(必须掌握) 满足两个条件可用: ①数据样本点个数少,6-15个 ②数据呈现指数或曲线的形式 例如:可以通过极值点和稳定点来预测…

【数学建模】常用基本模型总结

1. 线性规划(Linear Programming) 运筹学的一个重要分支——数学规划。线性规划是在一组线性约束条件的限制下,求一线性目标函数最大或最小的问题。概念:可行解、最优解、可行域。Matlab中求解线性规划的命令为如下,x返回决策向量…

数学建模常用的四大模型

目录 1. 评价模型 2. 优化模型 3. 分类模型 4. 预测模型 本文主要介绍数学建模的四大模型分类,分别是评价模型、优化模型、分类模型、预测模型。 关注公众号:数模乐园,回复“买”,获得更多数模教程 1. 评价模型 评价模型可以…

数学建模--30+种常用算法模型

全国大学生数学建模竞赛中,常见的算法模型有以下30种: 1.线性规划模型:用于寻找最优解的数学模型。 线性规划(Linear Programming,简称 LP)是一种运筹学方法,用于在一定的约束条件下&#xff…

数学建模竞赛常考四大模型总结【预测模型、分类模型、优化模型、评价模型】

目录 1. 预测模型1.1 神经网络预测1.2 灰色预测1.3 拟合、插值预测(线性回归)1.4 时间序列预测1.5 马尔科夫链预测1.6 微分方程预测1.7 Logistic 回归(逻辑回归)1.8 线性回归总结应用场景: 2. 分类模型2.1 贝叶斯分类2…