各种梯度下降法的简单理解

article/2025/9/10 3:43:52

微分

如何看待微分的直观含义,有以下两种最普遍的理解:
1.函数图像中,某点的斜率
2.函数的变化率
单变量微分:
在这里插入图片描述
多变量微分(分别对多个变量求偏导数):
在这里插入图片描述

梯度

梯度其实就是变量偏导数的一般化,如下
在这里插入图片描述

  • 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率
  • 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向。
  • 梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,这正是我们所需要的。所以我们只要沿着梯度的方向一直走,就能走到局部的最低点!

梯度下降法思想

目标函数

目标函数,一般都是凸函数。凸函数求解问题,可以把目标损失函数想象成一口锅,来找到这个锅的锅底。

三要素

  • 出发点
  • 下降方向
  • 下降步长(学习率λ)

思想

梯度下降法一个最贴切的现实场景假设就是下山的过程。如果我们想尽快下山,我们往往会朝着下降最快即最陡峭的地方行走。对于求函数极值也是如此,我们只要不断沿着梯度的方向进行迭代,一般就可以找到极值点。
具体来说,如果我们有一个可微分的函数。这个函数假设代表着一座山。我们的目标就是找到这个函数的最小值,也就是山底。根据之前的场景假设,我们设定现在的出发点,找到当前位置最陡峭的方向,然后沿着此方向向下走(下降方向),对应到函数中,就是找到给定点的梯度 ,然后朝着梯度相反的方向走一定步长(下降步长),就能让函数值下降的最快!因为我们知道,梯度的方向就是函数之变化最快的方向。

迭代过程

在梯度下降法中,进行下面的迭代:
Theta(n) = Theta(n-1) - alpha*▼(theta)
theta是我们迭代求解的参数向量,其中alpha在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离,以保证不要步子跨的太大扯着蛋,哈哈,其实就是不要走太快,错过了最低点。同时也要保证不要走的太慢,所以α的选择在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点!

迭代过程由来

梯度方向:
在这里插入图片描述
不难理解,沿着梯度方向的反方向就是下降最快的地方。如果我们把步长设为常数Δ,我们会发现:
如果用在梯度较大的时候,离最优解比较远,W的更新比较快;然而到了梯度较小的时候,也就是较靠近最优解的时候,W的更新竟然也保持着跟原来一样的速率,这样会导致W很容易更新过度反而远离了最优解,进而出现在最优解附近来回震荡。所以,既然在远离最优解的时候梯度大,在靠近最优解的时候梯度小,我们让步长随着这个律动,于是我我们就用λ|W|来代替Δ,得到:
在这里插入图片描述
这就是我们想要的迭代过程的普遍表达,各种改进的梯度下降法,都是在该基础上进行的变形。

全量梯度下降法(Batch gradient descent)

BGD每次学习都使用整个训练集,因此每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点,凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点,缺陷就是学习时间太长,消耗大量内存。

随机梯度下降法(Stochastic Gradient Descent)

SGDSGD一轮迭代只用一条随机选取的数据,尽管SGD的迭代次数比BGD大很多,但一次学习时间非常快。
SGD的缺点在于每次更新可能并不会按照正确的方向进行,参数更新具有高方差,从而导致损失函数剧烈波动。不过,如果目标函数有盆地区域,SGD会使优化的方向从当前的局部极小值点跳到另一个更好的局部极小值点,这样对于非凸函数,可能最终收敛于一个较好的局部极值点,甚至全局极值点。
缺点是,出现损失函数波动,如下图所示,并且无法判断是否收敛。

小批量梯度下降法(Mini-Batch Gradient Descent)

SGD相比BGD收敛速度快,然而,它也的缺点,那就是收敛时浮动,不稳定,在最优解附近波动,难以判断是否已经收敛。这时折中的算法小批量梯度下降法,MBGD就产生了,道理很简单,SGD太极端,一次一条,为何不多几条?MBGD就是用一次迭代多条数据的方法。

并且如果Batch Size选择合理,不仅收敛速度比SGD更快、更稳定,而且在最优解附近的跳动也不会很大,甚至得到比Batch Gradient Descent 更好的解。这样就综合了SGD和Batch Gradient Descent 的优点,同时弱化了缺点。总之,Mini-Batch比SGD和Batch Gradient Descent都好。

Momentum梯度下降法

SGD、BSGD两种改进方法都存在不同程度的震荡,如何避免震荡?或者说震荡是怎么产生的?震荡,从可视图表现来看,就是频繁更改方向,所以,如果能够把之前下降的方向考量进来,那么将会减少振荡。
在普通的梯度下降法W -= V中,每次W的更新量V为V = dW * λ;

当使用冲量时,V考虑为本次的梯度下降量与部分上次更新量的矢量和,即-dW*λ与上次x的更新量V乘以一个介于[0, 1]的系数momemtum的和,即:

V = dW * λ+ V*momemtum。

这样做的目的是:

  • 当本次梯度下降方向与上次更新量的方向相同时,上次的更新量能够对本次的搜索起到一个正向加速的作用。
  • 当本次梯度下降方向与上次更新量的方向相反时,上次的更新量能够对本次的搜索起到一个减速的作用。
    这样,就可以有效地减小震荡。

NAG梯度下降法

暂时不做详细展开

在下面的文章中,将运用梯度下降法进行实例的演示。


http://chatgpt.dhexx.cn/article/WCZLZRwf.shtml

相关文章

AcWing 16. 替换空格

文章目录 AcWing 16. 替换空格AC代码 AcWing 16. 替换空格 本题链接:AcWing 16. 替换空格 本博客给出本题截图: AC代码 代码: class Solution { public:string replaceSpaces(string &str) {string res;for (auto x : str)if (x …

c++替换空格

请实现—个函数&#xff0c;把字符串s中的每个空格替换成”%20""。 示例1: 输入:s "we are happy ."输出:""Me%20are%20happy ." #define _CRT_SECURE_NO_WARNINGS //vs2017下使用strcpy #include <iostream> #include <string…

替换空格符

任务描述 本关任务&#xff1a;替换文本流中的空格符。 相关知识 参照第一关&#xff0c;第三关相关知识。 编程要求 在右侧编辑器中的 Begin-End 之间补充代码 &#xff0c;读入一行文本&#xff0c;将输入复制到输出&#xff0c;要求将其中连续的多个空格用一个空格代替…

~替换空格~

问题描述&#xff1a;请实现一个函数&#xff0c;将一个字符串中的空格替换成“%20”。 例如&#xff0c;当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。 问题分析&#xff1a; 1.解决这道题应该关注的点&#xff1a; 1&#xff09;字符串的长度 2&…

替换空格

一、需求 请实现一个函数&#xff0c;把字符串 s 中的每个空格替换成"%20"。 二、遍历法 2,1 思路分析 新建字符串临时变量str和temp&#xff0c;str初始化为空串&#xff1b;截取给定字符串s的每单个字串&#xff0c;若字串为空格&#xff0c;temp赋值为"%…

[字符串]替换空格

一、题目描述 原文链接&#xff1a;Offer 05. 替换空格 具体描述&#xff1a; 请实现一个函数&#xff0c;把字符串 s 中的每个空格替换成"%20"。 示例 1&#xff1a; 输入&#xff1a;s “We are happy.” 输出&#xff1a;“We%20are%20happy.” 限制&#xff…

js 用replace替换空格 替换空格包含换行符 替换空格不包含换行符

第一种&#xff1a;替换所有的空格&#xff08;包含换行符&#xff09; let str 123AD asadf asadfasf\n adf\n let a str.replace(/\s/g," ") console.log(a) // 123AD asadf asadfasf adf 由上可看出是把所有空格替换为&nbsp&#xff1b;了&#xff0c;其中…

5. 替换空格

文章目录 剑指 Offer 05. 替换空格解法一&#xff1a;暴力解解法二&#xff1a;从后往前填充思想 第五题的扩展题&#xff1a;合并两个有序数组 LeetCode 8888. 合并两个有序数组解法一&#xff1a;暴力解解法二&#xff1a;从后往前填充思想 举一反三 剑指 Offer 05. 替换空格…

字符串中的空格替换

输入一个字符串&#xff0c;需要我们使用其他的字符替换空格字符。 例如&#xff1a;一个字符串&#xff1a;“We are happy.”&#xff0c;将其中的空格字符用%20替换。怎么做呢&#xff1f; **第一种思路&#xff1a;**暴力法则&#xff0c;就是直接遍历字符串&#xff0c;遇…

1.【刷爆LeetCode】替换空格(多方法、多思路解决)

大家好我是Liyuyue&#xff01; 接下来我会讲我刷的LeetCode好题用到的好思路、好方法分享给大家一起学习&#xff0c;如果大家在看的过程中还有好的方法&#xff0c;可以评论区或者直接找我继续讨论&#xff0c;感谢大家的支持~&#xff01; 我们先来看要求&#xff1a; 简要分…

学习笔记 - excel筛选分组

整理excel的时候&#xff0c;遇到一个分组功能筛选功能&#xff0c;原始excel内容如下&#xff1a; excel右上角有个筛选功能框 点击下拉列中的“筛选”&#xff0c;excel界面如下显示&#xff0c;标识可以进行筛选功能了&#xff0c;所有列都加入了筛选项目。 点击City Name下…

excel 分组计数

采用数据透视表的方法对数据进行分组技数 1.现在需要对 下表中各类型出现的次数进行统计。 2.选中区域点击数据透视表 3.首先&#xff0c;把类型拖到“值”和“行”中&#xff0c;需要注意的是在值中要选择“计数项&#xff01;&#xff01;&#xff01;&#xff01;&#xff…

excel自动分组

1.将年龄分组&#xff08;设置步长&#xff09; 2.日期按照季度分组

excel 手动分组和自动分组

1某个类别下有多个条目&#xff0c;我们想打开折叠显示 方法一&#xff1a;一个个的设置分组 2方法二&#xff1a; 自动分级显示 上面的实现方式&#xff0c;还是直接使用excel的分组功能&#xff0c;只不过在处理过程中&#xff0c;会遇到组成员一个时&#xff0c;处理就会麻…

Excel分组行转列

表格一 表格二 Excel表格一分组行转列变为表格二所示的格式怎么弄&#xff1f; 方案一&#xff1a; 转置粘贴&#xff0c; 每组数据单独处理&#xff0c;一组一组的选择&#xff0c;然后右键“粘贴选项”->“转置”&#xff0c;这样这一组数据就列传行了。 重复所有分组&…

excel将数据按某一列值分组并绘制分组折线图

目录 一、实现按id分组 二、绘制分组折线图 今天在处理数据的时候发现了一个很巧妙的EXCEL绘制分组折现图的方法&#xff0c;简单记录分享一下。我的数据大概长这样,我希望实现的目标是根据产品id分组绘制不同产品的销量图。 一、实现按id分组 复制产品id那一列&#xff0c;点击…

如何用excel对数据按月分组

建立数据透视表 选中一个单元格-插入-数据透视表 选择要分析的数据及结果显示位置 我主要是分析收益波动&#xff0c;需要的数据是日期和收益率&#xff0c;因此勾选date和return 数据会自动按年和季度分类 结果如图&#xff1a; 进一步将数据按月分类&#xff0c;可以在结果…

【excel】分组连续排名和不连续排名公式

需求场景&#xff1a;对上面的数据进行排名计算&#xff0c;4种情况&#xff1a; ①不考虑commDate&#xff0c;单独对FoldPageNum进行排名&#xff0c;不连续排名&#xff1b; ②不考虑commDate&#xff0c;单独对FoldPageNum进行排名&#xff0c;连续排名&#xff1b; ③按co…

Excel分组数据、并创建多个新Excel文件

需求描述 原文件test.xlsx"为.xlsx格式&#xff0c;需要对不同行业的数据 进行切分&#xff0c;并存储在不同Excel表中。 步骤 1. 读取Excel转化为DataFrame import pandas as pd df pd.read_excel("test"".xlsx") df.head(10) #查看前十条数据…

Python 绘画excel分组柱状图(懒人学习)

1.excel案例如截图&#xff1a; 很简单大家自己照着做一个就可以了。 2.完整代码如下&#xff1a; import pandas as pd import matplotlib.pyplot as plt students pd.read_excel(‘H:/Python自动化办公–Pandas玩转Excel源代码&#xff08;7-30&#xff09;/010/Studen…