DL基本知识(七)FTRL优化器

article/2025/9/27 9:58:24

契机

最近工作方向为缩减模型规模,切入点为L1正则化,选择该切入点的理由如下,

众所周知,L1正则化能令权重矩阵更稀疏。在推荐系统中特征多为embedding,权重矩阵稀疏意味着一些embedding_weight为0,模型部署时这些embedding不会导出,从而达到缩减模型规模的目的,这样做有3个好处:

  1. 性能更好:小模型部署快,这点对于实时训练很重要,因为较多时间会花在模型部署上,部署快意味着更快的模型迭代,
  2. 内存更小:这点毋庸置疑,
  3. 效果更好:在适当参数配置下,L1正则化干掉的特征一般不重要,这样模型被这些特征干扰的概率降低,效果会更好。

但是,随着随机梯度下降(SGD)的应用,L1正则化后的模型稀疏程度下降,理由正如冯扬大神所述。FTRL正是在这个环境下诞生的,其核心目的在于解决模型稀疏化问题

备注:下文所有的稀疏性都为权重稀疏性。

发展历程

L1正则化

直接上权重更新公式:
W ( t + 1 ) = W ( t ) − η ( t ) G ( t ) − η ( t ) λ s g n ( W ( t ) ) W^{(t+1)}=W^{(t)}-\eta^{(t)}G^{(t)}-\eta^{(t)}\lambda sgn(W^{(t)}) W(t+1)=W(t)η(t)G(t)η(t)λsgn(W(t))
其中 W ( t ) W^{(t)} W(t)代表训练第 t t t步时的权重, η ( t ) \eta ^{(t)} η(t)代表学习率, G ( t ) G^{(t)} G(t)代表梯度, λ \lambda λ代表L1正则化参数, s g n ( ⋅ ) sgn(\cdot) sgn()为符号函数,这里 s g n ( W ( t ) ) sgn(W_{(t)}) sgn(W(t)) ∣ W ( t ) ∣ |W_{(t)}| W(t)的导数。

简单截断法

既然L1正则化后的权重依然不为0,则直接在让权重在比较小时截断为0,这样在一定程度上直接解决稀疏化问题,具体公式如下,
W ( t + 1 ) = T 0 ( W ( t ) − η ( t ) G ( t ) , θ ) W^{(t+1)}=T_0(W^{(t)}-\eta ^{(t)}G^{(t)},\theta) W(t+1)=T0(W(t)η(t)G(t),θ)
其中 T 0 ( v i , θ ) T_0(v_i,\theta) T0(vi,θ)为截断函数,具体形式如下,
T 0 ( v i , θ ) = { 0 i f ∣ v i ∣ ≤ θ v i o t h e r w i s e T_0(v_i,\theta)=\left\{\begin{matrix} 0 \ \ \ \ if \ \left | v_i \right | \leq \theta\\ v_i \ \ \ \ otherwise \end{matrix}\right. T0(vi,θ)={0    if viθvi    otherwise
实际操作时,如果 t / k t/k t/k不为整数时按正常SGD进行迭代,否则则采用上述公式进行权重更新。具体示意图如下所示,

TG

简单截断法太过暴力,参数控制不好效果会有损,之后便诞生了Truncated Gradient算法(简称为TG),具体公式如下,
W ( t + 1 ) = T 1 ( W ( t ) − η ( t ) G ( t ) , η ( t ) λ ( t ) , θ ) W^{(t+1)}=T_1(W^{(t)}-\eta^{(t)}G^{(t)},\eta^{(t)}\lambda^{(t)},\theta) W(t+1)=T1(W(t)η(t)G(t),η(t)λ(t),θ)
其中 λ ( t ) \lambda^{(t)} λ(t)为另一个限制阈值, T 1 ( v i , α , θ ) T_1(v_i,\alpha,\theta) T1(vi,α,θ)为TG算法的截断函数,具体形式如下,
T 1 ( v i , α , θ ) = { m a x ( 0 , v i − α ) i f v i ∈ [ 0 , θ ] m i n ( 0 , v i + α ) i f v i ∈ [ − θ , 0 ] v i o t h e r w i s e T_1(v_i,\alpha,\theta)=\left\{\begin{matrix} max(0,v_i -\alpha) \ \ \ \ \ \ \ \ \ if \ v_i \in \left [ 0,\theta \right ]\\ min(0,v_i +\alpha) \ \ \ \ \ \ if \ v_i \in \left [ -\theta,0 \right ]\\ v_i \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ otherwise \end{matrix}\right. T1(vi,α,θ)=max(0,viα)         if vi[0,θ]min(0,vi+α)      if vi[θ,0]vi                                 otherwise
实际操作时,类似简单截断法,每 k k k步截断一次,当 t / k t/k t/k不为整数时 λ ( t ) = 0 \lambda^{(t)}=0 λ(t)=0,否则 λ ( t ) = k λ \lambda^{(t)}=k\lambda λ(t)=kλ,可以看出 λ \lambda λ θ \theta θ同时控制权重稀疏性,越大稀疏性越好。具体示意图如下所示,

根据上述讲解,可以看出TG可以变换为简单截断法,也可以转换为L1正则化,
  1. TG -> 简单截断法
  1. TG -> L1正则化

L1-FOBOS

更进一步,FOBOS核心思想是既考虑上一次迭代结果,也寻求本阶段最优,具体公式如下,
W ( t + 1 2 ) = W ( t ) − η ( t ) G ( t ) ( 1 ) W ( t ) = a r g m i n W { 1 2 ∥ W − W ( t + 1 2 ) ∥ 2 + η ( t + 1 2 ) Ψ ( W ) } ( 2 ) \begin{matrix} W^{(t+\frac{1}{2})}=W^{(t)}-\eta^{(t)}G^{(t)} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)\\ W^{(t)}=argmin_W\left \{ \frac{1}{2}\left \| W-W^{(t+\frac{1}{2})} \right \|^2+\eta^{(t+\frac{1}{2})}\Psi (W) \right \}\ \ \ \ \ (2) \end{matrix} W(t+21)=W(t)η(t)G(t)                                                       (1)W(t)=argminW{21WW(t+21)2+η(t+21)Ψ(W)}     (2)

上述公式中第(1)步为标准的随机梯度下降,第(2)步是在当前基础上对结果进行微调。经过一套复杂推导公式(此处省略一万个公式),得到如下结果,
w i ( t + 1 ) = s g n ( w i ( t ) − η ( t ) g i ( t ) ) m a x { 0 , ∣ w i ( t ) − η ( t ) g i ( t ) ∣ − η ( t + 1 2 ) λ } w_i^{(t+1)}=sgn(w_i^{(t)}-\eta^{(t)}g_i^{(t)})max\left \{ 0,\left | w_i^{(t)}-\eta^{(t)}g_i^{(t)} \right | -\eta^{(t+\frac{1}{2})}\lambda\right \} wi(t+1)=sgn(wi(t)η(t)gi(t))max{0,wi(t)η(t)gi(t)η(t+21)λ}
公式的另一种展现形式为:
w i ( t + 1 ) = { 0 i f ∣ w i ( t ) − η ( t ) g i ( t ) ∣ ≤ η ( t + 1 2 ) λ ( w i ( t ) − η ( t ) g i ( t ) ) − η ( t + 1 2 ) λ s g n ( w i ( t ) − η ( t ) g i ( t ) ) o t h e r w i s e w_i^{(t+1)}=\left\{\begin{matrix} 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ if \ \left | w_i^{(t)}-\eta^{(t)}g_i^{(t)} \right | \leq \eta^{(t+\frac{1}{2})}\lambda \\ \left ( w_i^{(t)}-\eta^{(t)}g_i^{(t)} \right )-\eta^{(t+\frac{1}{2})}\lambda sgn\left ( w_i^{(t)}-\eta^{(t)}g_i^{(t)} \right ) \ \ \ \ otherwise \end{matrix}\right. wi(t+1)=0                                                 if wi(t)η(t)gi(t)η(t+21)λ(wi(t)η(t)gi(t))η(t+21)λsgn(wi(t)η(t)gi(t))    otherwise
可以看出当一条样本产生的梯度,不足以令对应维度上权重产生足够大的变化,本维度不重要,权重被置为0,从而解决稀疏化问题。

L1-RDA

上述方法都是在随机梯度下降基础上进行改进的,而RDA另辟蹊径,具体公式如下,
W ( t + 1 ) = a r g m i n W { 1 t ∑ r = 1 t ⟨ G ( r ) , W ⟩ + λ ∣ ∣ W ∣ ∣ 1 + γ 2 t ∣ ∣ W ∣ ∣ 2 2 } W^{(t+1)}=argmin_W\left \{ \frac{1}{t}\sum_{r=1}^t\left \langle G^{(r)},W \right \rangle +\lambda ||W||_1+ \frac{\gamma}{2\sqrt{t}}||W||^2_2\right \} W(t+1)=argminW{t1r=1tG(r),W+λW1+2t γW22}
其中 ⟨ G ( r ) , W ⟩ \left \langle G^{(r)},W \right \rangle G(r),W为梯度 G ( r ) G^{(r)} G(r) W W W的积分平均值, λ ∣ ∣ W ∣ ∣ 1 \lambda ||W||_1 λW1为L1正则化项, { γ 2 t ∣ t ≥ 1 } \left \{ \frac{\gamma}{2\sqrt{t}}|t \geq 1\right \} {2t γt1}为一个非负非递减序列。经过一套复杂推导公式(此处省略一万个公式),得到如下结果,
w i ( t + 1 ) = { 0 i f ∣ g i ˉ ( t ) ∣ < λ − t γ ( g i ˉ ( t ) − λ s g n ( g i ˉ ( t ) ) ) o t h e r w i s e w_i^{(t+1)}=\left\{\begin{matrix} 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ if \ \left | \bar{g_i}^{(t)} \right |< \lambda \\ -\frac{\sqrt{t}}{\gamma}\left ( \bar{g_i}^{(t)}-\lambda sgn(\bar{g_i}^{(t)}) \right ) \ \ \ \ \ \ \ \ \ \ otherwise \end{matrix}\right. wi(t+1)={0                                             if giˉ(t)<λγt (giˉ(t)λsgn(giˉ(t)))          otherwise
其中 g i ˉ ( t ) = 1 t ∑ r = 1 t g i ( t ) \bar{g_i}^{(t)}=\frac{1}{t}\sum_{r=1}^t g_i^{(t)} giˉ(t)=t1r=1tgi(t),可以看出当某个维度产生的累加梯度平均值的绝对值小于 λ \lambda λ,本维度不重要,权重被置为0,从而解决稀疏化问题。

L1-RDA vs L1-FOBOS

这里对两种方法的公式做进一步的变形,从而很好地比较这两种方法的不同:

L1-FOBOS: W ( t + 1 ) = a r g m i n W { G ( t ) ⋅ W + λ ∥ W ∥ 1 + 1 2 η ( t ) ∥ W − W ( t ) ∥ 2 2 } W^{(t+1)}=argmin_W\left \{ G^{(t)}\cdot W + \lambda \left \| W \right \|_1+\frac{1}{2\eta^{(t)}} \left \| W-W^{(t)} \right \|^2_2 \right \} W(t+1)=argminW{G(t)W+λW1+2η(t)1WW(t)22}
L1-RDA: W ( t + 1 ) = a r g m i n W { G ( 1 : t ) ⋅ W + t λ ∥ W ∥ 1 + 1 2 η ( t ) ∥ W − 0 ∥ 2 2 } W^{(t+1)}=argmin_W\left \{ G^{(1:t)}\cdot W + t\lambda \left \| W \right \|_1+\frac{1}{2\eta^{(t)}} \left \| W-0 \right \|_2^2 \right \} W(t+1)=argminW{G(1:t)W+tλW1+2η(t)1W022}
其中 G ( 1 : t ) = ∑ r = 1 t G ( r ) G^{(1:t)}=\sum^t_{r=1}G^{(r)} G(1:t)=r=1tG(r),可以看出L1-FOBOS和L1-RDA的区别为:

  1. 对于上述两个公式前两项,前者计算当前梯度和L1正则化项,后者采用累加梯度和L1正则化项,
  2. 对于上述两个公式第三项,前者限制 W W W不能离当前迭代的 W ( t ) W^{(t)} W(t)太远,后者则只要求不能离0太远。

FTRL

FTRL是综合L1-RDA和L1-FOBOS后提出的算法,公式如下,这里引入L2正则化是为了令结果变得更平滑。
W ( t + 1 ) = a r g m i n W { G ( 1 : t ) ⋅ W + λ 1 ∥ W ∥ 1 + λ 2 1 2 ∥ W ∥ 2 2 + 1 2 ∑ r = 1 t σ ( r ) ∥ W − W ( r ) ∥ 2 2 } W^{(t+1)}=argmin_W\left \{ G^{(1:t)}\cdot W + \lambda_1 \left \| W \right \|_1 + \lambda_2 \frac{1}{2} \left \| W \right \|^2_2+\frac{1}{2}\sum_{r=1}^t\sigma^{(r)}\left \| W-W^{(r)} \right \|^2_2\right \} W(t+1)=argminW{G(1:t)W+λ1W1+λ221W22+21r=1tσ(r)WW(r)22}
经过一套复杂推导公式(此处省略一万个公式),得到如下结果,
w i ( t + 1 ) = { 0 i f ∣ z i ( t ) ∣ < λ 1 − ( λ 2 + ∑ r = 1 t σ ( r ) ) − 1 ( z i ( t ) − λ 1 s g n ( z i ( t ) ) ) o t h e r w i s e w_i^{(t+1)}=\left\{\begin{matrix} 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ if \ \left | z_i^{(t)}\right |<\lambda_1 \\ -\left ( \lambda_2+\sum_{r=1}^t\sigma^{(r)} \right )^{-1}\left ( z_i^{(t)}-\lambda_1 sgn(z_i^{(t)}) \right ) \ \ \ \ \ otherwise \end{matrix}\right. wi(t+1)=0                                                                      if zi(t)<λ1(λ2+r=1tσ(r))1(zi(t)λ1sgn(zi(t)))     otherwise
其中 z i ( t ) = g i ( 1 : t ) − ∑ r = 1 t σ ( r ) w i ( r ) z_i^{(t)}=g_i^{(1:t)}-\sum_{r=1}^t\sigma^{(r)}w_i^{(r)} zi(t)=gi(1:t)r=1tσ(r)wi(r),且FTRL中学习率为如下公式,
η i ( t ) = α β + ∑ r = 1 t ( g i ( r ) ) 2 \eta_i^{(t)}= \frac{\alpha}{\beta+\sqrt{\sum_{r=1}^t}\left ( g_i^{(r)} \right )^2} ηi(t)=β+r=1t (gi(r))2α
可以看出,FTRL确实综合了L1-RDA和L1-FOBOS的优点,在实时训练中使用该算法会模型的稀疏性很好,因为它考虑累积权重和累积梯度。

group lasso

在NLP和搜推广领域,输入特征多为embedding,模型对这类特征进行稀疏性处理时,需要在vector-wise层面考虑一组(group)权重参数的置0处理,传统FTRL算法只能在bit-wise层面对权重参数进行处理,因而不能满足需求,因而group lasso优化器应运而生,具体公式如下所示,
W ( t + 1 ) = a r g m i n W { G ( 1 : t ) ⋅ W + 1 2 ∑ r = 1 t σ ( r ) ∥ W − W ( r ) ∥ 2 2 + Ψ ( W ) } W^{(t+1)}=argmin_W\left \{ G^{(1:t)}\cdot W +\frac{1}{2}\sum_{r=1}^t\sigma^{(r)}\left \| W-W^{(r)} \right \|^2_2 + \Psi(W) \right \} W(t+1)=argminW{G(1:t)W+21r=1tσ(r)WW(r)22+Ψ(W)}
其中 Ψ ( W ) \Psi(W) Ψ(W)如下所示,
Ψ ( W ) = ∑ g = 1 G ( λ 1 ∥ W g ∥ 1 + λ 21 d W g ∥ A t 1 2 W g ∥ 2 ) + λ 2 ∥ W ∥ 2 2 \Psi(W)=\sum_{g=1}^G\left ( \lambda_1\left \| W^g \right \|_1+\lambda_{21}\sqrt{d_{W^g}}\left \| A_t^{\frac{1}{2}}W^g \right \|_2 \right )+\lambda_2\left \| W \right \|_2^2 Ψ(W)=g=1G(λ1Wg1+λ21dWg At21Wg2)+λ2W22
其中 G G G为embedding的个数, W g W^g Wg为某个embedding对应的一组权重参数, d W g d_{W^g} dWg W g W^g Wg的维度, λ 1 \lambda_1 λ1为L1正则化系数, λ 21 \lambda_{21} λ21为L21正则化系数, λ 2 \lambda_{2} λ2为L2正则化系数, A t A_t At与当前学习率的非线性表示,具体内容可以参见这里,从上面公式看出,group lasso算法对embedding对应权重参数组的稀疏性处理地较好。

在真正的工程实践中,发现group lasso与FTRL有两点不同:

  1. group lasso保存的模型要比FTRL大很多,因为group lasso规定 W g W^g Wg全为0时embedding才不会被导出,条件比FTRL更严苛,
  2. 同样L1和L2正则化参数和学习率下,group lasso效果要比FTRL好很多,因为group lasso更适合针对embedding做正则化。

参考文献

  1. 冯扬_在线最优化求解
  2. group lasso论文
  3. 次梯度

http://chatgpt.dhexx.cn/article/rUyToQrY.shtml

相关文章

FTRL算法详解

一、算法原理 二、算法逻辑 三、个人理解 从loss function的形式来看&#xff1a;FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上&#xff0c;并施加一个L2正则项。【PS&#xff1a;paper上是没有加L2正则项的】这样达到的效果是&#xff1a; 累积加和限定了新的迭代结果…

FTRL算法理解

本文主要是对FTRL算法来源、原理、应用的总结和自己的思考。 解决的问题 1、训练数据层面&#xff1a;数据量大、特征规模大 2、常用的LR和FM这类模型的参数学习&#xff0c;传统的学习算法是batch learning算法&#xff0c;无法有效地处理大规模的数据集&#xff0c;也无法…

ftrl 流式更新 java_深入理解FTRL

FTRL算法是吸取了FOBOS算法和RDA算法的两者优点形成的Online Learning算法。读懂这篇文章&#xff0c;你需要理解LR、SGD、L1正则。 FOBOS算法 前向后向切分(FOBOS&#xff0c;Forward Backward Splitting)是 John Duchi 和 Yoran Singer 提出的。在该算法中&#xff0c;权重的…

排序模型-FTRL

排序模型进阶-FTRL 1 问题 在实际项目的时候&#xff0c;经常会遇到训练数据非常大导致一些算法实际上不能操作的问题。比如在推荐行业中&#xff0c;因为DSP的请求数据量特别大&#xff0c;一个星期的数据往往有上百G&#xff0c;这种级别的数据在训练的时候&#xff0c;直接…

FTRL代码实现

FTRL&#xff08;Follow The Regularized Leader&#xff09;是一种优化方法&#xff0c;就如同SGD&#xff08;Stochastic Gradient Descent&#xff09;一样。这里直接给出用FTRL优化LR&#xff08;Logistic Regression&#xff09;的步骤&#xff1a; 其中ptσ(Xt⋅w)ptσ(X…

FTRL算法

概述 GBDT算法是业界比较好用筛选特征的算法&#xff0c;在线学习考虑效率和数据量&#xff0c;经常用GBDT离线筛选特征&#xff0c;输入到在线模型进行实时训练&#xff0c;如今比较好用的方法是GBDTLR&#xff0c;而FTRL是另外一种很高效的算法&#xff0c;与其类似的有OGD&…

FTRL-Proximal

Ad Click Prediction: a View from the Trenches ABSTRACT 广告点击率预测是一个大规模的学习问题&#xff0c;对数十亿美元的在线广告行业至关重要。我们从部署的CTR预测系统的设置中提供了一些案例研究和从最近的实验中提取的话题&#xff0c;包括基于FTRL-Proximal在线学习…

FTRL

一、算法原理 二、算法逻辑 三、个人理解 从loss function的形式来看:FTRL就是将RDA-L1的“梯度累加”思想应用在FOBOS-L1上,并施加一个L2正则项。【PS:paper上是没有加L2正则项的】 这样达到的效果是: 累积加和限定了新的迭代结果W**不要离“已迭代过的解”太远**; 因为…

在线学习算法FTRL基本原理

文章目录 相关介绍SGD: Stochastic Gradient DescentTG简单加入L1范数简单截断法梯度截断法 FOBOS: Forward Backward Splitting[^4]RDA: Regularized dual averaging[^5] FTRL: Follow-the-Regularized-Leader总结 相关介绍 SGD: Stochastic Gradient Descent 由于批量梯度下…

Lr

二、 逻辑回归 言归正传&#xff0c;因为广告大部分是按照CPC计费的&#xff0c;而我们手里的流量是固定的&#xff0c;因此对每条广告请求我们就需要保证这条广告的展示收益更大。而广告收益是可以根据点击率、广告计费价格、广告质量度均衡决定的&#xff0c;所以我们就需要评…

在线学习FTRL介绍及基于Flink实现在线学习流程

背景 目前互联网已经进入了AI驱动业务发展的阶段&#xff0c;传统的机器学习开发流程基本是以下步骤&#xff1a; 数据收集->特征工程->训练模型->评估模型效果->保存模型&#xff0c;并在线上使用训练的有效模型进行预测。 这种方式主要存在两个瓶颈&#xff1…

FTRL的理解

个人理解&#xff1a;FTRL是针对LR学习器&#xff0c;设计了一种独特的梯度下降更新方法 从Logistic Regression到FTRL Logistic Regression在Linear Regression的基础上&#xff0c;使用sigmoid函数将yθxb的输出值映射到0到1之间&#xff0c;且log(P(y1)/P(y0)) θxb。并且…

2021-09-08FTRL 跟随正确的领导者

2.2.3 FTRL FTRL&#xff08;Follow the Regularized Leader&#xff09;是一种优化算法&#xff0c;在处理诸如逻辑回归 之类的带非光滑正则化项的凸优化问题上性能出色&#xff0c;自 2013 年谷歌发表 FTRL 算 法的工程性实现论文后[17]&#xff0c;业界纷纷上线该算法&…

python编程之np.argmin()用法解析

疑惑 np.argmin()究竟是干嘛用的&#xff1f; 解惑 给出水平方向最小值的下标&#xff1b; list最小的值是3&#xff0c;对应的下标是2&#xff1b; list1展平是9,8,7,66,23,55,4,23,33;最小的值是4&#xff0c;对应的下标是6

关于argmin和argmax的一点说明

一、定义 首先我们应该知道&#xff0c;arg是元素&#xff08;变元&#xff09;argument的英文缩写。 在数学中&#xff0c;arg max的参数是指使函数值最大化的某个函数域的点。与全局最大值相反&#xff0c;其指的是函数的最大输出 &#xff0c;同理&#xff0c;arg min指的是…

clickhouse的argMin()和argMax()函数

1.语法规则 函数语法argMin(arg&#xff0c;val)计算最小值的arg值。如果val的最小值有几个不同的arg值&#xff0c;则遇到的第一个值是输出。argMax(arg&#xff0c;val&#xff09;计算最大值的参数值。如果存在多个不同的arg值来表示val的最大值&#xff0c;则遇到的第一个…

LaTeX 书写 argmax and argmin 公式

LaTeX 书写 argmax and argmin 公式 1. arg max or argmax For a real-valued function f f f with domain S S S, arg ⁡ max ⁡ f ( x ) x ∈ S \underset{x\in S}{{\arg\max} \, f(x)} x∈Sargmaxf(x)​ is the set of elements in S S S that achieve the global maxi…

torch.argmin()的使用举例

参考链接: argmin(dimNone, keepdimFalse) → LongTensor 参考链接: torch.argmin() 代码实验举例: Microsoft Windows [版本 10.0.18363.1256] (c) 2019 Microsoft Corporation。保留所有权利。C:\Users\chenxuqi>conda activate ssd4pytorch1_2_0(ssd4pytorch1_2_0) C:\U…

numpy.argmin()||argmax()结构及用法||详解axis

numpy.argmin(a, axisNone, outNone)官方文档 参数详解 a : array_like 输入数组 axis : int, optional 默认输入数组展平&#xff0c;否则&#xff0c;按照指定的axis方向 按照指定轴&#xff0c;可以理解为将数据投影到这个轴上。 out : array, optional如果设置了某个数…

ARG MIN的含义是什么?

ARG MIN的含义是什么&#xff1f; 最通俗的理解&#xff1a;表示使目标函数取最小值时的变量值 From Wikipedia In mathematics, arg max (or argmax) stands for the argument of the maximum, that is to say, the set of points of the given argument for which the value…