(2019.01, iclr) Decoupled Weight Decay Regularization

article/2025/10/10 19:27:56

code: https://github.com/loshchil/AdamW-and-SGDW

除了纯SGD, L2 != weight_decay

背景知识：

sgd with momentum和adam，详见《深度学习》:

L2 regulization and weight decay:

https://benihime91.github.io/blog/machinelearning/deeplearning/python3.x/tensorflow2.x/2020/10/08/adamW.html#:~:text=Tip%3A%20The%20major%20difference%20between%20L2%20regularization%20%26,update%20is%20going%20to%20look%20like%20this%20%3A

伪代码

计算步骤上来说，sgdW, adamW就是对于使用了adaptive gradient的优化器，不要在loss function里面写L2 regulization 啦，而是在weight更新的时候decay，回归到"weight dacay"的本意；

一、创新点和贡献

提出adamW: 使用adam时，通过使用将weight decay 从基于梯度更新中解耦，从而提高了正则效果,泛化性更好

adamW使得学习率和weight_dacay系数更加独立，从而调参也更加容易

二、精度

2.1 在不同学习率变化方式上的实验

adamW好于adam, 配合cosine annealing食用更佳

2.2 对于weight_dacay系数和初始学习率的解耦实验

sgdW, adamW上weight_decay系数和初始学习率解耦，adamW也能够达到和sgdW相似的test set error

2.3 更好的泛化性能

右下图：在同样的训练损失下，adamW比adam有更低的test error (更好的泛化能力)

2.4 配合warm restarts使用

warm restarts能够大幅提高训练收敛速度，test error上也会好一点

三、原理

对于adaptive gradient的方法， L2 带来的“正则”幅度，会被 adaptive的时候归一化，对于绝对值比较大的weights, 等效于减小了regulize的幅度，所以更容易过拟合。

因此，对于adam等有adaptive gradient机制的优化器， loss函数中不要放L2 regulization，而是在更新的时刻做真正的weight decay:

四、重要参考文献

SGDR: stochastic gradient descent with warm restarts

Comparing biases for minimal network construction with back-propagation

A unified theory of adaptive stochastic gradient descent as Bayesian filtering

http://chatgpt.dhexx.cn/article/tHMg8svW.shtml

相关文章

Decoupled Novel Object Captioner

Decoupled Novel Object Captioner

Decoupled Novel Object Captioner AbstractIntroductionMethodsPreliminariesZero-Shot Novel Object Captioning.Sequence Model with the PlaceholderKey-Value Object MemoryFramework OverviewTraining Reference Reference[原文]: Joselynzhao.top & 夏木青 | Decoup…

阅读更多...

Video Anomaly Detection by Solving Decoupled Spatio-Temp

Video Anomaly Detection by Solving Decoupled Spatio-Temp

Video Anomaly Detection by Solving Decoupled Spatio-Temp 什么是SSL? Self-Supervised Learning，又称为自监督学习什么是多标签分类问题: 一个数据有多个标签pretext 任务： 简单的来说，通过另一个任务简介完成主任务比如，要训…

阅读更多...

魔改YOLOv5/YOLOv7高阶版——改进之结合解耦头Decoupled_Detect

魔改YOLOv5/YOLOv7高阶版——改进之结合解耦头Decoupled_Detect

💖💖>>>加勒比海带，QQ2479200884<<<💖💖 🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨

阅读更多...

Distilling Object Detectors via Decoupled Features

Distilling Object Detectors via Decoupled Features

Abstract 相比于图像分类而言，目标检测器更加复杂，具有多个损失函数。而目前的的检测中，其主要将注意力集中在对象的区域中，但本文指出，从背景中提取的特征信息对于学生模型的学习也是必不可少的。且由于目标区域和背…

阅读更多...

Decoupled Attention Network for Text Recognition

Decoupled Attention Network for Text Recognition

摘要： 最流行的文字检测的方法是注意力机制，但是大多数的注意力机制方法由于循环的对齐操作会导致严重的对齐问题。因为对齐操作依赖于历史解码信息。本文提出的DAN将对齐操作与历史解码信息解耦。原理： Connectionist temporal classifi…

阅读更多...

涨点技巧：Detect系列---Yolov5/Yolov7加入解耦头Decoupled_Detect，涨点明显

涨点技巧：Detect系列---Yolov5/Yolov7加入解耦头Decoupled_Detect，涨点明显

目录 1. Decoupled Head介绍 2.Yolov5加入Decoupled_Detect 2.1 DecoupledHead加入common.py中： 2.2 Decoupled_Detect加入yolo.py中： 2.3修改yolov5s_decoupled.yaml 3.数据集下验证性能 🏆 🏆🏆🏆&…

阅读更多...

Decoupled Contrastive Learning 论文解读和感想

Decoupled Contrastive Learning 论文解读和感想

本文首先提出了当前对比学习的三大痛点： 1、当前的sota方法结构都过于复杂 2、对比学习要想取得效果，必须要用大batch 3、超参敏感(个人认为这里说的超参是指数据增强方式) 然后本文以SimCLR为例，通过对对比损失的梯度进行分析，发…

阅读更多...

DECOUPLED WEIGHT DECAY REGULARIZATION

DECOUPLED WEIGHT DECAY REGULARIZATION

引言 Adam作为一个常用的深度学习优化方法，提出来的时候论文里的数据表现都非常好，但实际在使用中发现了不少问题，在许多数据集上表现都不如SGDM这类方法。后续有许多工作针对Adam做了研究，之前整理过关于优化算法的发展历程&am…

阅读更多...

Decoupled Dynamic Filter Networks

Decoupled Dynamic Filter Networks

转载自:https://www.cnblogs.com/liuyangcode/p/14755924.html 对depth-wise的改进，将卷积核的参数改为根据输入变化的方式 Introduction 卷积缺点在于：内容不变，计算量高动态filter可以根据内容自适应，但是会提高计算量。depth…

阅读更多...

Analyzing and Leveraging Decoupled L1 Caches in GPUs

Analyzing and Leveraging Decoupled L1 Caches in GPUs

introduction 我们都知道L1/L2/L3cache解决了内存墙的问题，但是作者分析出现有的缓存架构有着天然缺陷， 作者列出的many to few communication，也就是L1ache中大量的数据传输到L2cache中，可能对于L1cache的带宽使用率不是很高&a…

阅读更多...

Decoupled network

Decoupled network

Decoupled network https://zhuanlan.zhihu.com/p/37598903 神经网络机制存在的缺陷？ 过拟合，梯度消失或者是膨胀，训练依靠大量样本，对网络初始化及其敏感记忆协迁移等等。 Decupled network是对operator的改进现在的卷积操作…

阅读更多...

Decoupled Knowledge Distillation论文阅读+代码解析

Decoupled Knowledge Distillation论文阅读+代码解析

本文来自2022年CVPR的文章，论文地址点这里一. 介绍知识蒸馏（KD）的通过最小化师生预测对数之间的KL-Divergence来传递知识(下图a)。目前大部分的研究注意力都被吸引到从中间层的深层特征中提取知识。与基于logit的精馏方法相比&#xff0c…

阅读更多...

令牌桶算法

令牌桶算法

一算法令牌桶算法和漏桶算法不同的是，有时后端能够处理一定的突发情况，只是为了系统稳定，一般不会让请求超过正常情况的60%，给容灾留有余地。但漏桶算法中后端处理速度是固定的，对于短时的突发情况，后端…

阅读更多...

动态分区分配算法（1、首次适应算法 2、最佳适应算法 3、最坏适应算法 4、邻近适应算法）

动态分区分配算法（1、首次适应算法 2、最佳适应算法 3、最坏适应算法 4、邻近适应算法）

文章目录前言知识总览1、首次适应算法2、最佳适应算法3、最坏适应算法4、邻近适应算法知识回顾与重要考点前言此篇文章是我在B站学习时所做的笔记，大部分图片都是课件老师的PPT，方便复习用。此篇文章仅供学习参考。提示：以下是本篇文章…

阅读更多...

《算法4》读书笔记（一）

《算法4》读书笔记（一）

写在前面：配套网站algs4.cs.princeton.edu，可以把这个网站作为编程的时候的参考资料。这本书比较实用（某瓣评分9.3），但没有动态规划部分，作为两三年没怎么碰过算法和数据结构的菜狗，看了《图解算…

阅读更多...

《算法4》深入理解红黑树

《算法4》深入理解红黑树

红黑树是一种性能非常优秀的数据结构，关键在于它能保证最坏的性能也是对数的，主要是因为它是一种平衡的树，所以也叫平衡查找树。要理解红黑树，最好先看看我的上一篇博客《算法4》符号表以及二叉查找树，了解二叉查找树以…

阅读更多...

【算法4总结】第四章：图

【算法4总结】第四章：图

目录备份第四章：图概述图可以根据是否有向和带权分成以下四种： 无向图 （无向不带权）有向图 （有向不带权）加权无向图（无向带权）加权有向图（有向带权） …

阅读更多...

算法4（一、递归学习）

算法4（一、递归学习）

每次用递归都感觉有点难，这个趁着恶补基础知识的时候，专门看了一遍递归，算法4的。 1.1 递归介绍方法可以调用自己，例如：下面给出了bin_search的二分查找的一种实现。（算法4中使用的是Java，但…

阅读更多...

【算法4总结】第一章：基础

【算法4总结】第一章：基础

目录备份第一章：基础我认为这一章主要介绍的是如何使用工具。一共五节，前两节主要是对 Java 语法的回顾，第三节则是三个数据结构，背包，队列和栈的API讲解。而第四节是讲解的是如何分析算法。第五节则是针对具体…

阅读更多...

SQL修改语句

SQL修改语句

如果我们要修改数据库中表的数据，这个时候我们就要使用到UPDATE语句。 UPDATE语句的基本语法是： UPDATE <表名> SET 字段1值1, 字段2值2, ... WHERE ...; 例如，我们想更新employees表id100的记录的last_name和salary这两个字段&…

阅读更多...

推荐文章