Hessian 矩阵(黑塞矩阵)以及hessian矩阵奇异的用法

article/2025/8/27 13:47:12

Hessian Matrix(黑塞矩阵、海森矩阵、海瑟矩阵、海塞矩阵 etc.),它是一个多元函数的二阶偏导数构成的方阵,用以描述函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出,并以其名字命名。黑塞矩阵常用于牛顿法解决优化问题。


对于一个实值多元函数  ,如果函数的二阶偏导数都存在,则定义的黑塞矩阵为:


其中表示对第 i 个变量的微分算子。那么,f 的黑塞矩阵即:


性质:

1. 对称性:

如果函数 f 在D区域内二阶连续可导,那么 f 黑塞函数H(f)在D内为对称方阵。

2. 多元函数极值的判定:

如果实值多元函数 f(x1,x2,...)二阶连续可导,并且在临界点M(xi)(i=1,2,...,n, 且xi已知)处梯度(一阶导数)等于零,即,,M为驻点。仅仅通过一阶导数无法判断在临界点M处是极大值还是极小值。


点处的黑塞矩阵为
。由于
点处连续,所以
是一个
的对称矩阵。对于
,有如下结论:

  • 如果H(M)是 正定矩阵,则临界点M处是一个局部的极小值。
  • 如果H(M)是 负定矩阵,则临界点M处是一个局部的极大值。
  • 如果H(M)是 不定矩阵,则临界点M处不是极值。

提到hessian矩阵奇异,就需要首先介绍一下牛顿法,拟牛顿法,最速下降法。

牛顿法

1、求解方程。

并不是所有的方程都有求根公式,或者求根公式很复杂,导致求解困难。利用牛顿法,可以迭代求解。

原理是利用泰勒公式,在x0处展开,且展开到一阶,即f(x) = f(x0)+(x-x0)f'(x0)

求解方程f(x)=0,即f(x0)+(x-x0)*f'(x0)=0,求解x = x1=x0-f(x0)/f'(x0),因为这是利用泰勒公式的一阶展开,f(x) = f(x0)+(x-x0)f'(x0)处并不是完全相等,而是近似相等,这里求得的x1并不能让f(x)=0,只能说f(x1)的值比f(x0)更接近f(x)=0,于是乎,迭代求解的想法就很自然了,可以进而推出x(n+1)=x(n)-f(x(n))/f'(x(n)),通过迭代,这个式子必然在f(x*)=0的时候收敛。整个过程如下图:


2. 牛顿法用于最优化

在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题就和第一部分提到的牛顿法求解很相似了。

这次为了求解f'=0的根,把f(x)的泰勒展开,展开到2阶形式:

上面的表达式成立的条件是 当且仅当  Δ无线趋近于0。此时上式等价与:

求解:

得出迭代公式:



一般认为牛顿法可以利用到曲线本身的信息,比梯度下降法更容易收敛(迭代更少次数),如下图是一个最小化一个目标方程的例子,红色曲线是利用牛顿法迭代求解,绿色曲线是利用梯度下降法求解。


在上面讨论的是2维情况,高维情况的牛顿迭代公式是:

其中H是hessian矩阵,定义为如上文描述。

高维情况依然可以用牛顿迭代求解,但是问题是Hessian矩阵引入的复杂性,使得牛顿迭代求解的难度大大增加,但是已经有了解决这个问题的办法就是Quasi-Newton methond,不再直接计算hessian矩阵,而是每一步的时候使用梯度向量更新hessian矩阵的近似。


拟牛顿法

拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一,于20世纪50年代由美国Argonne国家实验室的物理学家W. C. Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠,使得非线性优化这门学科在一夜之间突飞猛进。在之后的20年里,拟牛顿方法得到了蓬勃发展,出现了大量的变形公式以及数以百计的相关论文。


拟牛顿法和最速下降法(Steepest Descent Methods)一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化,构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法,尤其对于困难的问题。另外,因为拟牛顿法不需要二阶导数的信息,所以有时比牛顿法(Newton's Method)更为有效。如今,优化软件中包含了大量的拟牛顿算法用来解决无约束,约束,和大规模的优化问题。




Hessian Matrix(黑塞矩阵、海森矩阵、海瑟矩阵、海塞矩阵 etc.),它是一个多元函数的二阶偏导数构成的方阵,用以描述函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出,并以其名字命名。黑塞矩阵常用于牛顿法解决优化问题。


对于一个实值多元函数  ,如果函数的二阶偏导数都存在,则定义的黑塞矩阵为:


其中表示对第 i 个变量的微分算子。那么,f 的黑塞矩阵即:


性质:

1. 对称性:

如果函数 f 在D区域内二阶连续可导,那么 f 黑塞函数H(f)在D内为对称方阵。

2. 多元函数极值的判定:

如果实值多元函数 f(x1,x2,...)二阶连续可导,并且在临界点M(xi)(i=1,2,...,n, 且xi已知)处梯度(一阶导数)等于零,即,,M为驻点。仅仅通过一阶导数无法判断在临界点M处是极大值还是极小值。


点处的黑塞矩阵为
。由于
点处连续,所以
是一个
的对称矩阵。对于
,有如下结论:

  • 如果H(M)是正定矩阵,则临界点M处是一个局部的极小值。
  • 如果H(M)是负定矩阵,则临界点M处是一个局部的极大值。
  • 如果H(M)是不定矩阵,则临界点M处不是极值。

提到hessian矩阵奇异,就需要首先介绍一下牛顿法,拟牛顿法,最速下降法。

牛顿法

1、求解方程。

并不是所有的方程都有求根公式,或者求根公式很复杂,导致求解困难。利用牛顿法,可以迭代求解。

原理是利用泰勒公式,在x0处展开,且展开到一阶,即f(x) = f(x0)+(x-x0)f'(x0)

求解方程f(x)=0,即f(x0)+(x-x0)*f'(x0)=0,求解x = x1=x0-f(x0)/f'(x0),因为这是利用泰勒公式的一阶展开,f(x) = f(x0)+(x-x0)f'(x0)处并不是完全相等,而是近似相等,这里求得的x1并不能让f(x)=0,只能说f(x1)的值比f(x0)更接近f(x)=0,于是乎,迭代求解的想法就很自然了,可以进而推出x(n+1)=x(n)-f(x(n))/f'(x(n)),通过迭代,这个式子必然在f(x*)=0的时候收敛。整个过程如下图:


2. 牛顿法用于最优化

在最优化的问题中,线性最优化至少可以使用单纯行法求解,但对于非线性优化问题,牛顿法提供了一种求解的办法。假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f'=0的问题,这样求可以把优化问题看成方程求解问题(f'=0)。剩下的问题就和第一部分提到的牛顿法求解很相似了。

这次为了求解f'=0的根,把f(x)的泰勒展开,展开到2阶形式:

上面的表达式成立的条件是 当且仅当  Δ无线趋近于0。此时上式等价与:

求解:

得出迭代公式:



一般认为牛顿法可以利用到曲线本身的信息,比梯度下降法更容易收敛(迭代更少次数),如下图是一个最小化一个目标方程的例子,红色曲线是利用牛顿法迭代求解,绿色曲线是利用梯度下降法求解。


在上面讨论的是2维情况,高维情况的牛顿迭代公式是:

其中H是hessian矩阵,定义为如上文描述。

高维情况依然可以用牛顿迭代求解,但是问题是Hessian矩阵引入的复杂性,使得牛顿迭代求解的难度大大增加,但是已经有了解决这个问题的办法就是Quasi-Newton methond,不再直接计算hessian矩阵,而是每一步的时候使用梯度向量更新hessian矩阵的近似。


拟牛顿法

拟牛顿法(Quasi-Newton Methods)是求解非线性优化问题最有效的方法之一,于20世纪50年代由美国Argonne国家实验室的物理学家W. C. Davidon所提出来。Davidon设计的这种算法在当时看来是非线性优化领域最具创造性的发明之一。不久R. Fletcher和M. J. D. Powell证实了这种新的算法远比其他方法快速和可靠,使得非线性优化这门学科在一夜之间突飞猛进。在之后的20年里,拟牛顿方法得到了蓬勃发展,出现了大量的变形公式以及数以百计的相关论文。


拟牛顿法和最速下降法(Steepest Descent Methods)一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化,构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法,尤其对于困难的问题。另外,因为拟牛顿法不需要二阶导数的信息,所以有时比牛顿法(Newton's Method)更为有效。如今,优化软件中包含了大量的拟牛顿算法用来解决无约束,约束,和大规模的优化问题。


在讲解拟牛顿法之前,先介绍几个概念:

无约束优化问题:

线搜索方法:

这里的dk代表搜索方向,ak代表搜索步长。(精确搜索:f(x+ad)达到最小;Wolfe搜索)


精确搜索:



Wolfe非精确搜索:






搜索方向:

最速下降法:

共轭梯度法:

牛顿法:

牛顿法是下列问题的解:

拟牛顿法:对称,正定。


牛顿法的条件:

       拟牛顿法的条件:


拟牛顿法的基本思想如下。首先构造目标函数在当前迭代

的二次模型:


这里
是一个对称正定矩阵,于是我们取这个二次模型的 最优解 作为搜索方向,并且得到新的迭代点
,其中我们要求步长
满足Wolfe条件。这样的迭代与牛顿法类似,区别就在于用近似的Hesse矩阵
代替真实的Hesse矩阵。所以拟牛顿法最关键的地方就是每一步迭代中矩阵
的更新。现在假设得到一个新的迭代
,并得到一个新的二次模型:

                                                                                              


我们尽可能地利用上一步的信息来选取 。具体地,我们要求
,从而得到割线方程




拟牛顿法的基本思想如下。首先构造目标函数在当前迭代

的二次模型:


这里
是一个对称正定矩阵,于是我们取这个二次模型的 最优解 作为搜索方向,并且得到新的迭代点
,其中我们要求步长
满足Wolfe条件。这样的迭代与牛顿法类似,区别就在于用近似的Hesse矩阵
代替真实的Hesse矩阵。所以拟牛顿法最关键的地方就是每一步迭代中矩阵
的更新。现在假设得到一个新的迭代
,并得到一个新的二次模型:

                                                                                              


我们尽可能地利用上一步的信息来选取 。具体地,我们要求
,从而得到割线方程


常见的几种方法用来求解B,DFP方法,BFGS方法,SR1方法,Broyden族方法。

DFP方法编辑

,DFP公式为
该公式最初由Davidon于1959年提出,随后被Fletcher和Powell研究和推广。DFP方法是秩-2更新的一种,由它产生的矩阵
是正定的,而且满足这样的极小性:

3BFGS方法编辑

DFP更新 公式非常有效,但很快就被BFGS公式取代。BFGS与DFP十分类似,是另一种秩-2更新,以其发明者Broyden, Fletcher, Goldfarb和Shanno的姓氏首字母命名。BFGS 公式为
由他产生的矩阵
同样保持正定性,而且也满足一个极小性:
BFGS和DFP 公式在形式上是对称的:
对称,
对称。但是BFGS比DFP更加有效。

4SR1方法编辑

有别于DFP和BFG方法,SR1是一种秩-1更新。它的 公式是:B_{k+1}=(y_k-B_ks_k)(y_k-B_ks_k)^T/((y_k-B_ks_k)^Ts_k)。SR1 公式不要求矩阵B_k保持正定性,从而更逼近真实的Hesse矩阵,所以适用于信赖域方法(Trust Region Methods)。

5Broyden族编辑

Boyden族是更广泛的一类更新 公式,其形式为:B_{k+1}=(1-c_k)B_{k+1}^{BFGS}+c_k B_{k+1}^{DFP}。当c_k=0时,Broyden族 公式就变成了BFGS公式;当c_k=1时,Broyden族公式就变成了DFP公式。因此BFGS和DFP均可看成Broyden族的特殊形式或者其中一员。




http://chatgpt.dhexx.cn/article/vxo0E32b.shtml

相关文章

1、黑塞矩阵Hessian matrix

1、定义 2、性质 3、应用 https://zh.wikipedia.org/wiki/%E9%BB%91%E5%A1%9E%E7%9F%A9%E9%99%A3

黑塞矩阵和雅克比矩阵

一、黑塞矩阵 黑塞矩阵(Hessian Matrix)是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。黑塞矩阵常用于牛顿法解决优化问题,利用黑塞矩阵可判定多元函数的极值问题。 1、定义 2、举例 二、雅克比矩阵 在向量微积分…

黑塞矩阵(Hessian Matrix)

在机器学习课程里提到了这个矩阵,那么这个矩阵是从哪里来,又是用来作什么用呢?先来看一下定义: 黑塞矩阵(Hessian Matrix),又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数…

hessian矩阵

黑塞矩阵(Hessian Matrix), 又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出,并以其名字命名…

黑塞矩阵

黑塞矩阵 编辑 黑塞矩阵(Hessian Matrix),又译作海森矩阵、海瑟矩阵、海塞矩阵等,是一个 多元函数的二阶 偏导数构成的方阵,描述了函数的局部 曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出&#xff0…

Hessian矩阵(黑塞矩阵)

文章目录 黑塞矩阵与多元函数的极值泰勒展开及海塞矩阵海塞矩阵的意义海塞矩阵在图像处理中的应用基于尺度空间的Hessian简化算法 黑塞矩阵与多元函数的极值 一元函数求极值,例如函数: 通常先求其一阶导数,根据费马定理极值点处的一阶导数一…

H3C链路聚合

实验拓扑 图 1-1 注:如无特别说明,描述中的 R1 或 SW1 对应拓扑中设备名称末尾数字为 1 的设备,R2 或 SW2 对应拓扑中设备名称末尾数字为 2 的设备,以此类推;另外,同一网段中,IP 地址的主机位为…

H3C S6520交换机在现网环境下如何配置链路聚合(现网实操经验)

设备 Device A:H3C S6520-26Q-SI(已堆叠IRF) software, Version 7.1.070,Release 6326H3C Device B:锐捷RG-NBS3100 POE交换机 业务需求 增加公司网络网络冗余高可用性,核心交换机(Device A)至各楼层POE交换机设备Device B配置链路聚合,链路聚合实现两设备间流量在聚…

华三企业交换机链路聚合实例

本期为大家带来华三交换机的链路聚合的实例,请看拓补图 前言:华三的交换机链路聚合和华为的有异曲同工之妙,下面是关键字 华三Bridge-Aggregation1 华为Eth-trunk 华三加入聚合组,在端口下敲 port link-aggregation group 1 华…

华三-以太网链路聚合

1.8.1 二层静态聚合配置举例 1. 组网需求 Device A与Device B通过各自的二层以太网接口GigabitEthernet4/0/1~GigabitEthernet4/0/3相互连接。 在Device A和Device B上分别配置二层静态链路聚合组,并实现设备间VLAN 10和…

H3C交换机链路聚合配置方法

H3C交换机链路聚合配置方法 拓扑图配置步骤交换机A的配置交换机B的配置结果说明 拓扑图 配置步骤 交换机A的配置 采用动态聚合模式:创建二层聚合接口,并配置动态聚合模式 [设备A]interface bridge-aggregation 1 [设备A-Bridge-Aggregation1] link-agg…

华三 h3c 交换机链路聚合

链路聚合 一:二层静态聚合 这里配置链路聚合,根据以往我的习惯和经验,聚合端口和要加入聚合组的端口属性应该一致,要么都是access,要么都是trunk,如果不对的话,请大佬留言告知! […

华三H3C链路聚合配置实例

华三链路聚合配置 上拓扑 命令配置 interface Bridge-Aggregation1 #创建聚合口1 port link-type trunk #聚合口设置为trunk模式 port trunk permit vlan all #放行所有vlan 进入接口,绑定聚合口 interface GigabitEthernet1/0/47 port link-type trunk port trunk…

华三路由器链路聚合配置(华三交换机配置)

华三路由器链路聚合配置拓扑如下: 1.华三路由器链路聚合配置:配置链路聚合 SW1设备配置 <H3C>system-view #进入系统视图 [H3C]sysname sw1 #将设备命名为sw1 [sw1]int…

华三设备链路聚合技术原理与配置

基本原理 背景&#xff1a;设备之间存在多条链路时&#xff0c;由于STP的存在&#xff0c;实际上只有一条链路会转发数据&#xff0c;带宽很大的浪费。 原理&#xff1a;将多个物理接口捆绑成为一个逻辑接口&#xff0c;可以实现增加带宽的目的。 链路聚合的优势&#xff1a;…

华三链路聚合实验配置

文章目录 链路聚合实验实验拓扑实验需求实验解法 总结成员端口的状态聚合模式聚合边缘接口聚合负载分担类型 链路聚合实验 实验拓扑 实验需求 1.按照图示配置PC3和PC4的 2.P地址 3.在SW1和SW2的两条直连链路上配置静态链路聚合&#xff0c;实现链路冗余&#xff0c;并可以增加…

华三交换机配置链路聚合

华三和华为交换机叫 链路聚合 思科交换机叫 端口聚合 二层聚合配置 1、聚合方式&#xff1a; &#xff08;1&#xff09;、lacp 静态链路聚合 动态链路聚合&#xff08;开启lacp模式&#xff0c;常用&#xff09; &#xff08;2&#xff09;、手工负载分担 2、配置步骤 静态端…

华三交换机配置静态链路聚合

拓扑如下&#xff1a; 1.配置链路聚合 SW1设备配置 <H3C>system-view #进入系统视图 [H3C]sysname sw1 #将设备命名为sw1 [sw1]interface bridge-aggregation 1 …

【H3C模拟器】配置交换机的链路聚合

目录 链路聚合的介绍 链路聚合的作用 链路负载均衡原理 链路聚合的分类 链路聚合的实例 本章我们主要讲华三交换机的链路聚合的介绍和相关实例的操作。 链路聚合的介绍 链路聚合&#xff08;英文&#xff1a;Link Aggregation&#xff09;是一个计算机网络术语&#xff…