梯度方向,梯度下降法,牛顿法

article/2025/9/10 3:45:30

梯度、等高线切线、方向导数

  • 一、直观理解
    • 梯度方向与等高线的切线方向垂直
  • 二、方向导数
    • 梯度是函数上升的方向,且在该方向上的方向导数最大
  • 三、从泰勒级数展开来看
  • 四、牛顿法
  • 五、梯度下降与牛顿法的区别

一、直观理解

梯度方向与等高线的切线方向垂直

等高线
假设一函数为: f ( x , y ) = x 2 + y 2 f(x,y)=x^2+y^2 f(x,y)=x2+y2,该函数的梯度为 [ 2 x , 2 y ] [2x,2y] [2x,2y];
选择其中一条等高线: c = x 2 + y 2 c=x^2+y^2 c=x2+y2 ( c c c为常数), 该等高线在任意一点的斜率为 − x c − x 2 \frac{-x}{\sqrt{c-x^2}} cx2 x,则切线方向为 [ x , − c − y 2 y ] [x,-\frac{c-y^2}{y}] [x,ycy2];
可以验证 [ 2 x , 2 y ] ⋅ [ x , − c − y 2 y ] T = 0 [2x,2y]\cdot[x,-\frac{c-y^2}{y}]^T=0 [2x,2y][x,ycy2]T=0,故得等高线的切线方向与梯度方向垂直。
在这里插入图片描述

二、方向导数

梯度是函数上升的方向,且在该方向上的方向导数最大

多元函数 f ( x , y ) f(x,y) f(x,y)的方向导数代表了函数在 ( x , y ) (x,y) (x,y)点上, l ⃗ \vec{l} l 方向的瞬时变化率。
设函数 f ( x , y ) f(x,y) f(x,y) 在点 ( x , y ) (x,y) (x,y)的某一邻域 U 0 U_0 U0内有定义,自点 ( x , y ) (x,y) (x,y)引射线 l l l,自 x x x轴的正向到射线 l l l的转角为 α \alpha α,则 f ( x , y ) f(x,y) f(x,y)在点 ( x , y ) (x,y) (x,y)沿方向 l l l的方向导数为: ∂ f ∂ l = ∂ f ∂ x ⋅ cos ⁡ α + ∂ f ∂ y ⋅ sin ⁡ α \frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}\cdot\cos\alpha+\frac{\partial f}{\partial y}\cdot\sin\alpha lf=xfcosα+yfsinα
我们知道梯度为: g r a d = [ ∂ f ∂ x , ∂ f ∂ y ] grad=[\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}] grad=[xf,yf],所以方向导数可写为: ∂ f ∂ l = g r a d ⋅ l ⃗ = ∣ g r a d ∣ ∣ l ⃗ ∣ cos ⁡ θ \frac{\partial f}{\partial l}=grad\cdot\vec l=|grad||\vec l|\cos\theta lf=gradl =gradl cosθ
θ \theta θ为梯度方向和 l l l方向的夹角,由上式可知,当夹角为 0 0 0时,即梯度方向,方向导数最大,函数上升最快;当夹角为 180 180 180时,梯度的反方向,方向导数为负,最小,函数下降地最快,这就是梯度下降法的本质。

三、从泰勒级数展开来看

对函数 f ( x , y ) f(x,y) f(x,y)进行一阶泰勒展开:
f ( x + δ 1 , y + δ 2 ) ≈ f ( x 0 , y 0 ) + ∇ f ( x 0 , y 0 ) ⋅ ( δ 1 , δ 2 ) T f(x+\delta_1,y+\delta_2)\approx f(x_0,y_0)+\nabla f(x_0,y_0)\cdot(\delta_1,\delta_2)^T f(x+δ1,y+δ2)f(x0,y0)+f(x0,y0)(δ1,δ2)T
f ( x + δ 1 , y + δ 2 ) − f ( x 0 , y 0 ) ≈ ∇ f ( x 0 , y 0 ) ⋅ ( δ 1 , δ 2 ) T f(x+\delta_1,y+\delta_2)-f(x_0,y_0)\approx\nabla f(x_0,y_0)\cdot(\delta_1,\delta_2)^T f(x+δ1,y+δ2)f(x0,y0)f(x0,y0)(δ1,δ2)T
由上可知,当 ( δ 1 , δ 2 ) (\delta_1,\delta_2) (δ1,δ2)与梯度方向一致时,函数增长速度最快。

四、牛顿法

在函数的某一点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处用二次函数进行逼近,即二阶泰勒展开,如:
f ( x 0 + δ 1 , y + δ 2 ) ≈ f ( x 0 , y 0 ) + f ′ ( x 0 , y 0 ) ⋅ ( δ 1 , δ 2 ) T + f ′ ′ ( x 0 , y 0 ) 2 ⋅ ( δ 1 , δ 2 ) T f(x_0+\delta_1,y+\delta_2) \approx f(x_0,y_0)+f'(x_0,y_0)\cdot(\delta_1,\delta_2)^T+\frac{f''(x_0,y_0)}{2}\cdot(\delta_1,\delta_2)^T f(x0+δ1,y+δ2)f(x0,y0)+f(x0,y0)(δ1,δ2)T+2f(x0,y0)(δ1,δ2)T
找到二次函数最小值点: ( x 1 , y 1 ) = ( x 0 , y 0 ) − f ′ ( x 0 , y 0 ) f ′ ′ ( x 0 , y 0 ) (x_1,y_1)=(x_0,y_0)-\frac{f'(x_0,y_0)}{f''(x_0,y_0)} (x1,y1)=(x0,y0)f(x0,y0)f(x0,y0)
然后,在 ( x 1 , y 1 ) (x_1,y_1) (x1,y1)处二阶泰勒展开,找到 ( x 2 , y 2 ) (x_2,y_2) (x2,y2),…,直到收敛。

五、梯度下降与牛顿法的区别

梯度下降:梯度下降是用一次函数来对目标函数进行逼近,需要设置学习率,学习率过小收敛速度慢,过大容易造成震荡不收敛;
牛顿法:牛顿法是用二次函数对目标函数的逼近,但是需要计算目标函数的二次偏导数,当参数较多时,计算和存储的开销都比较大。当目标函数非凸时,容易收敛到鞍点等其他极值为0的点。

参考:
[1]: https://baike.baidu.com/item/方向导数/8923917?fr=aladdin
[2]: https://www.jianshu.com/p/af3492b5e49c


http://chatgpt.dhexx.cn/article/MHr5Aa48.shtml

相关文章

函数的梯度方向和切线方向_导数、方向导数与梯度

导数,方向导数,切线、梯度是从高中就开始接触的概念,然而对这几个概念的认识不清,困惑了我很长时间,下面我将以图文并茂的形式,对这几个概念做详细的解释。 1, 导数 定义:设函数y=f(x)在点x0的某个邻域内有定义,当自变量x在x0处有增量Δx,(x0+Δx)也在该邻域内时,相…

梯度方向与等高线方向垂直的理解

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步 1.前言 在讲解梯度下降算法时,经常可以看到下面这张图(图片来自Wiki百科): 这张图后面一般都会再接一句,梯度…

为什么梯度方向一定是函数增大的方向?

前言 今年是很幸运的一年,准备了大半年的研究生终于考上了!但问题随着就来了,我选择的导师方向是深度学习有关的,我从前觉得这个东西十分的高大上,一直敬而远之,没想到今天自己也要参与进来成为它的从业者&…

为什么梯度是上升方向,梯度下降要取负?

讨论 这个问题是很容易忽略,也就一个负号的问题,大多是记下来,但是确实也一个搞不懂的问题。 方向导数 简单说明方向导数,毕竟梯度与方向导数是有关系的。   上图 l l l 对 x x x, y y y的偏导,分别在 x x x和 y y…

深入浅出理解HOG特征---梯度方向直方图

梯度方向直方图 原文路径:https://www.learnopencv.com/histogram-of-oriented-gradients/ 最近在搞车牌识别的时候,训练样本去识别车牌的时候用到HOG特征。国外一篇文章让我受益良多 什么是特征描述符? 特征描述符是指通过提取有用的信息并…

函数的梯度方向和切线方向_方向导数和梯度是什么?

原标题:方向导数和梯度是什么? 为什么梯度的方向是函数在该点的方向导数最大的方向,梯度的模是最大方向导数的值?大家在看复习全书时,有认真想过这个问题吗?小编在本文以二元函数为例详细讲解方向导数和梯度,并试图以尽可能通俗地语言回答上述问题。 1.梯度 首先看看二…

机器学习--什么是梯度?为什么梯度方向就是函数上升最快的方向?本文将给你解惑

本打算把梯度放在神经网络来讲,学习机器学习实战时发现用到梯度下降最优算法,所以就把这个知识点深入讲一下,等后面实战到神经网络时,直接复制这里的,这次讲解会深入讲解,简明易懂是目的,虽然网…

如何理解梯度方向是增长最快的方向

前言: 最近在看关于机器学习的书,里面提到了梯度下降算法,里面提到了梯度方向是增长最快的方向,虽然说很早之前就知道了这个概念,但是一直也没有仔细想过为什么,今天突然想弄懂这个问题,所以有…

什么是梯度?为什么梯度的方向总是指向函数值增大的方向?

闲谈 对于梯度这个概念,我是这样的, 学习时,正序:导数–>偏导数–>方向导数–>梯度,从导数开始一步一步学到梯度这个概念,脑子里想 着:“梯度这个玩意儿有什么用,得记下…

【梯度,方向导数,以及梯度方向为什么是函数增长最快的方向】

梯度,方向导数,以及梯度方向为什么是函数增长最快的方向 结论!!!多元函数的偏导数梯度的直观展示梯度与方向导数参考链接 结论!!! 对一元函数而言,梯度是标量&#xff0…

各种梯度下降法的简单理解

微分 如何看待微分的直观含义,有以下两种最普遍的理解: 1.函数图像中,某点的斜率 2.函数的变化率 单变量微分: 多变量微分(分别对多个变量求偏导数): 梯度 梯度其实就是变量偏导数的一般化…

AcWing 16. 替换空格

文章目录 AcWing 16. 替换空格AC代码 AcWing 16. 替换空格 本题链接:AcWing 16. 替换空格 本博客给出本题截图: AC代码 代码: class Solution { public:string replaceSpaces(string &str) {string res;for (auto x : str)if (x …

c++替换空格

请实现—个函数&#xff0c;把字符串s中的每个空格替换成”%20""。 示例1: 输入:s "we are happy ."输出:""Me%20are%20happy ." #define _CRT_SECURE_NO_WARNINGS //vs2017下使用strcpy #include <iostream> #include <string…

替换空格符

任务描述 本关任务&#xff1a;替换文本流中的空格符。 相关知识 参照第一关&#xff0c;第三关相关知识。 编程要求 在右侧编辑器中的 Begin-End 之间补充代码 &#xff0c;读入一行文本&#xff0c;将输入复制到输出&#xff0c;要求将其中连续的多个空格用一个空格代替…

~替换空格~

问题描述&#xff1a;请实现一个函数&#xff0c;将一个字符串中的空格替换成“%20”。 例如&#xff0c;当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。 问题分析&#xff1a; 1.解决这道题应该关注的点&#xff1a; 1&#xff09;字符串的长度 2&…

替换空格

一、需求 请实现一个函数&#xff0c;把字符串 s 中的每个空格替换成"%20"。 二、遍历法 2,1 思路分析 新建字符串临时变量str和temp&#xff0c;str初始化为空串&#xff1b;截取给定字符串s的每单个字串&#xff0c;若字串为空格&#xff0c;temp赋值为"%…

[字符串]替换空格

一、题目描述 原文链接&#xff1a;Offer 05. 替换空格 具体描述&#xff1a; 请实现一个函数&#xff0c;把字符串 s 中的每个空格替换成"%20"。 示例 1&#xff1a; 输入&#xff1a;s “We are happy.” 输出&#xff1a;“We%20are%20happy.” 限制&#xff…

js 用replace替换空格 替换空格包含换行符 替换空格不包含换行符

第一种&#xff1a;替换所有的空格&#xff08;包含换行符&#xff09; let str 123AD asadf asadfasf\n adf\n let a str.replace(/\s/g," ") console.log(a) // 123AD asadf asadfasf adf 由上可看出是把所有空格替换为&nbsp&#xff1b;了&#xff0c;其中…

5. 替换空格

文章目录 剑指 Offer 05. 替换空格解法一&#xff1a;暴力解解法二&#xff1a;从后往前填充思想 第五题的扩展题&#xff1a;合并两个有序数组 LeetCode 8888. 合并两个有序数组解法一&#xff1a;暴力解解法二&#xff1a;从后往前填充思想 举一反三 剑指 Offer 05. 替换空格…

字符串中的空格替换

输入一个字符串&#xff0c;需要我们使用其他的字符替换空格字符。 例如&#xff1a;一个字符串&#xff1a;“We are happy.”&#xff0c;将其中的空格字符用%20替换。怎么做呢&#xff1f; **第一种思路&#xff1a;**暴力法则&#xff0c;就是直接遍历字符串&#xff0c;遇…