黎曼流形学习的学习笔记(2):Neural Ordinary Differential Equations(来源:NIPS 2018 oral) (未完待续)

article/2025/10/11 6:59:58

作者想解决的问题:这是一篇提出新模型的论文,把输入和输出当作微分方程在不同时刻的解,这样做可以节省很多空间,因为不需要计算每一步的具体结果,只需要保存得到的函数。

思路:由于残差网络 (空间上) 和RNN单元 (时间上) 往往都是可以复用的,这里使用ODE方程解出关于时间的方程,可以得到一连串的数据,与原有标签进行对比,更新网络后使得ODE方程的可以得到原有标签的解。但是这篇文章主要是用Neural ODE网络代替ResNet网络,并不是全面替代MLP,CNN,RNN,这些基础网络依旧可以是Neural ODE的组成部分。

        有一个很大的误区 (对我而言) 在于这里神经网络不再是去拟合数据本身,而是拟合数据的变化趋势。但是这两种方法属于不分伯仲的地位,现在没有很充分的证据说明拟合变化趋势一定好,但是在序列类分布下的数据应该是有天然的优势的。

给出残差网络和ODE的区别:

(来自这篇论文的海报)

        残差网络的最终输出就是神经网络的输出加上神经网络的输入,而ODE-Net的最终输出则是神经网络作为原函数在时间上 (深度上)的积分。注意这里的ODE-Net不是简单的相加,或者说不是有限的相加了。

        那么下一个问题来了,怎么去训练他呢?直接更新参数就能得到符合变化趋势的解了吗?

        在一般的深度学习中,依赖的是随机梯度下降算法来更新参数,但是对于这里的NODE方程往往是没有解析解的,因此作者引入了伴随法进行求导,这个方法非常类似于拉普拉斯算法,利用了某个导数的特殊性质,因而跳过了一些求导过程。

从而引出本文中对我而言最重要的内容:Continuous Normalizing Flow, CNF。

还有一些写的非常好的Neural ODE的笔记资料:

Understanding Adjoint Method of Neural ODE - 知乎

David Duvenaud · Bullshit that I and others have said about Neural ODEs · SlidesLive

对于Neural ODE的小研究_冲冲冲!-CSDN博客

https://towardsdatascience.com/the-story-of-adjoint-sensitivity-method-from-meteorology-906ab2796c73

https://vaipatel.com/deriving-the-adjoint-equation-for-neural-odes-using-lagrange-multipliers/


http://chatgpt.dhexx.cn/article/KfAfPxjg.shtml

相关文章

流形学习(Mainfold Learning)

最近在看生成对抗网络(Generative Adversarial Networks,GAN)的时候,几乎在每一篇文章中都会看到mainfold这个词,哪么它在GAN中想要表达什么呢?或者说GAN和流形学习(Mainfold Learning&#xff…

什么是流形?

什么是流形? 写的很好。 感觉就是一个多维空间的抽象,在这个空间中,距离的定义稍微有些特殊; 1、流形就是弯曲的 N实数描述的 点集合; 2、两点间的距离有定义:邻近的两点,其距离是 座标差的平方…

黎曼流形学习的学习笔记(1):Moser Flow: Divergence-based Generative Modeling on Manifolds(来源:NIPS 2021 oral)

亮点: 1. 使用Moser Flow (MF) 相比于其他连续标准化流 (CNF)不需要在训练过程解常微分方程 (ODE),因此训练速度相对较快; 2. 在1的基础上,证明了在一定的前提下,MF可以泛化任意的流形,并且这是流模型 (…

论文阅读:在Stiefel流形上的黎曼优化

原文:EFFICIENT RIEMANNIAN OPTIMIZATION ON THE STIEFEL MANIFOLD VIA THE CAYLEY TRANSFORM Citing: https://arxiv.org/pdf/2002.01113.pdf 目录 摘要 1 简介 2 相关工作 3 基础知识 3.1 黎曼流形 定义1:黎曼流形 定义2:测地、幂映…

黎曼几何与黎曼流形

目录 0.黎曼几何 1. 欧几里得几何与黎曼几何的区别 2.黎曼流形 3.黎曼距离 4.切空间 5.黎曼均值 6. SPD矩阵如何形成黎曼流型 7.切线空间映射 8.同余变换和同余不变 9.黎曼对齐 科普性笔记,做了解,不深入。 0.黎曼几何 黎曼几何是一种基于欧几…

机器学习知识点(二十三)黎曼流形认知

对于流形,我在机器学习中的认识就是局部欧式距离的应用,当然其背后强大的数学逻辑也不是一时可以窥全貌,只好先看看一些基础概念。 1、基本概念 流形,是局部具有欧几里得空间性质的空间,是欧几里得空间中的曲线、曲面…

数学建模-神经网络模型

神经网络简介 人工神经网络是在现代神经科学的基础上提出和发展起来的,旨在反映人脑结构及功能的一种抽象数学模型。自1943 年美国心理学家W. McCulloch 和数学家W. Pitts 提出形式神经元的抽象数学模型—MP 模型以来,人工神经网络理论技术经过了50 多年…

数学建模--预测类模型

目录 一、中短期预测 1、灰色预测法 ①适用范围 ②模型实现 2、回归分析 ①适用范围 ②模型实现 3、时间序列分析 ①自适应滤波法 ②指数平滑法 ③移动平均法 4、微分方程 二、长期预测 1、神经网络预测 2、logistic模型 ①模型介绍 ②模型分析及代码 一、中短…

数学建模 -- 预测模型

参考清风老师的数学建模,用于复习!!! NO1.灰色预测 一.灰色系统 灰色预测是对既含有已知信息又含有不确定信息的系统进行预测,就是对在一定范围内变化的、与时间有关的灰色过程进行预测。 灰色预测对原始数据进行生成…

数学建模——评价模型

文章目录 一.模糊综合评价模型1.基础知识2.一级模糊综合评价3.二级模糊综合评价 二.灰色关联分析模型1.灰色关联分析原理2.灰色关联分析步骤 三. Topsis(理想解法)1.理想解法原理2.Topsis法步骤 四.线性加权综合评价模型(不是很推荐用&#x…

数学建模(一)

个人不仅仅是一个ctfer,数学也是很强的呀。hhhh下面记录一些简单的 数学建模用到的python基础 知识点一:复合数据类型相关 append:每次往列表尾部增加一个元素。 extend:列表尾部添加多个数据 insert(索引位置,插入值) #这里是…

数学建模-数学规划模型

数学规划模型 一、概述 1.什么是数学规划? 运筹学的一个分支,用来研究在给定条件下(即约束条件),如何按照某一衡量指标(目标函数)来寻求计划、管理工作中的最优方案。 即求目标函数在一定约束条件下的极值问题 2.数学…

【数学建模】模型的评价、模型的推广与改进

6.1模型的评价 6.1.1模型的稳定性分析(灵敏度分析) https://mp.weixin.qq.com/s/EZr2HeqzDLHQygk4nO0iiA 讲的比较好,分为决策模型、动态模型、概率模型、线性回归、时间预测 建模过程会对问题做一些假设,需要考虑所得结果对每一条…

数学建模 —— 评价模型

文章目录 前言一、层次分析法(AHP)1.介绍2.算法流程3.局限性 二、优劣解距离法(Topsis法)1.介绍2.算法流程3.模型拓展 —— 带权重的Topsis1.使用层次分析法来确定权重取值2.基于熵权法对Topsis模型的修正熵权法的计算步骤 三、灰…

数学建模之优化模型详解

全文共8090个字,码字总结不易,老铁们来个三连:点赞、关注、评论作者:[左手の明天] 原创不易,转载请联系作者并注明出处 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转…

数学建模--评价类模型

目录 一、主观评价 1、层次分析法(AHP) ①应用场景 ②步骤 ③模型实现 ④代码实现 ⑤优缺点评价 2、模糊综合评价法(FCE) ①应用场景 ②步骤 ③模型实现 3、灰色关联分析法(GRA) ①应用场景 …

数学建模常用模型

第一讲:层次分析法 建模比赛中最基础的模型,主要用于解决评价类问题(例如:选择哪种方案最好,哪位运用动员或者员工的表现更优秀)。 评价类问题主要依据权重(重要性权重)来解决&…

数学建模常用模型简介其他模型大全汇总

一、预测与预报 1、灰色预测模型(必掌握) 解决预测类型题目。由于属于灰箱模型,一般比赛期间 不优先 使用。 满足两个条件可用: ①数据样本点个数少, 6-15 个 ②数据呈现指数或曲线的形式 2、微分方程预测&#xff08…

数学建模竞赛常考三大模型及十大算法【预测模型、优化模型、评价模型】

学习网址:数学建模竞赛常考三大模型及十大算法 目 录 三大模型 1、预测模型 2、优化模型 3、评价模型 数学建模的十大常用算法 三大模型 1、预测模型 预测模型:神经网络预测、灰色预测、拟合插值预测(线性回归)、时间序列…

数学建模常见模型

数学建模中比较常见的几种模型: (一)、预测与预报 1、灰色预测模型(必须掌握) 满足两个条件可用: ①数据样本点个数少,6-15个 ②数据呈现指数或曲线的形式 例如:可以通过极值点和稳定点来预测…