网络迁移学习率调整思路

网络迁移学习率调整思路

article/2025/9/22 6:48:18

在将HRNet从PyTorch框架向MindSpore迁移的过程中，由于初始学习率的选择不好，导致了最终精度没有达到预期要求。

文末有总结。

具体实验过程如下：

实验过程

优化器：SGD
初始学习率：0.01
学习率调整策略：poly
miou精度变化：

整体上呈上升趋势，但是没有达到预期的0.81。
经过检查，在400–484周期，miou一直是呈上升趋势。因此我有了第一个猜想：收敛速度不够。
因此，我尝试了其他的优化器和初始学习率。
优化器：Momentum
初始学习率：0.01
学习率调整策略：poly
miou精度变化：
优化器：SGD
初始学习率：0.015
学习率调整策略：poly
miou精度变化：

从上面的两个实验（以及其他更多类似实验）中可以得出一下结论：
- 更换收敛更快的优化器并没有对实际的收敛速度有明显的帮助；
- 增大学习率后，精度先是正常上升，但在200–300周期出现了断崖式下跌，此后一蹶不振。
更改不同的初始学习率（均大于0.01），并更换其他收敛更快的优化器，结果都和上面如出一辙。都很烂！！！情况变得有些焦灼。
然后我采用了固定学习率，进行了如下实验。
优化器：SGD
初始学习率：0.01
学习率调整策略：固定学习率
miou精度变化：

不出所料，中途拉跨，和之前的情况很相似，因此我有了第二个猜想：造成精度中途暴跌的原因是学习率过大。 即使是用poly策略动态调整，中间过程中的学习率对于训练还是太大了。
那么就减小学习率嘛。
优化器：SGD
初始学习率：0.00001
学习率调整策略：固定学习率
miou精度变化：

固定学习率0.00001，训练1000周期，精度变化稳步上升，证明调小学习率的猜想是可行的。
优化器：SGD
初始学习率：0.005
学习率调整策略：poly
miou精度变化：
优化器：Momentum
初始学习率：0.005
学习率调整策略：poly
miou精度变化：

虽然，和目标的精度还有一段距离，但至少前进的方向有了！

总结

网络收敛速度慢的原因可能有两个：学习率略大和学习率太小。

学习率略大
学习率略大会导致网络在收敛的过程中是以一种徘徊向前的形式收敛。学习率大倒不至于致使网络不收敛，但会导致每次收敛都要先在更优值附近震荡，直到等到合适的学习率才会收敛一点。这点可以通过之前加大学习率的实验证明，当学习率足够大，便会放大这个问题，使得精度在中途暴跌！
学习率太小
这个原因就很好理解了，学习率太小导致网络在最后一个周期结束还没达到最优值。可以采用收敛更快的优化器或是适当增大学习率调整。

精度中途暴跌的原因：学习率太大。

精度涨停：暂时没有经验。

这是我第一次迁移网络，第一次调整网络，因此缺乏足够的理论支撑，大多是个人的感性认知。欢迎大家挑错、指正、补充！

http://chatgpt.dhexx.cn/article/SXmhh2c5.shtml

相关文章

【迁移攻击笔记】数据集の变化→提高迁移率！Improving Transferability of Adversarial Examples with Input Diversity

【迁移攻击笔记】数据集の变化→提高迁移率！Improving Transferability of Adversarial Examples with Input Diversity

1.作案动机已知： 迭代攻击（eg.I-FGSM）过拟合且易陷入局部最优，不适合迁移。单步攻击（eg.FGSM）欠拟合，不适合迁移。对输入进行图像处理可以有效抵抗对抗攻击。推测： 图像处理之后…

阅读更多...

为什么NMOS管比PMOS管用得多--电子迁移率-宽禁带-半导体材料参数介绍

为什么NMOS管比PMOS管用得多--电子迁移率-宽禁带-半导体材料参数介绍

上期文章我们最后提到了半导体参数，之所以专门挑一篇文章来说，因为它确实比较重要，可以让我们明白当前各种半导体材料的优势与劣势的原因。不仅如此，还可以让我们明白一些东西，特别是二极管和三极管的一些特性。其实…

阅读更多...

silvaco 第三章迁移率模型

silvaco 第三章迁移率模型

记录模型都是什么都用了什么低场迁移率： 1 MUN and MUP parameters to set constant values for electron and hole mobilities and optionally specify temperature dependence. 2 using a look-up table model (CONMOB) to relate the low-field mobility at…

阅读更多...

基于形变势理论计算载流子迁移率

基于形变势理论计算载流子迁移率

载流子迁移率通常指半导体内部电子和空穴整体的运动快慢情况，是衡量半导体器件性能的重要物理量，例如对石墨烯、黑磷等二维材料展现出的高载流子迁移率的研究。由于电子在运动过程中不仅受到外电场力的作用，还会不断的与晶格、杂质、缺陷等发…

阅读更多...

Silvaco 学习笔记 3——物理模型：迁移率模型

Silvaco 学习笔记 3——物理模型：迁移率模型

迁移率模型一般可以分为一下四种： 1.低场行为：此时载流子与晶格几乎处于平衡，其迁移率具有典型的低场值，一般用来表示。低场载流子的迁移率可以采用5种不同的方式进行定义； 第一种方法使用MUN和MUP参数设置电子和空穴…

阅读更多...

手把手地实操迁移率计算|附代码

手把手地实操迁移率计算|附代码

迁移率可以用来分析资产变化情况，能够形象的展示客户贷款账户在整个生命周期的变化轨迹，也是预测未来坏账损失的常用指标。迁移率计算步骤：（以M0-M1为例） 1、在月末或者（账单结算完成日）&#…

阅读更多...

迁移率计算方法及用途风控建模系列 02

迁移率计算方法及用途风控建模系列 02

迁移率计算方法及用途风控建模系列 02 在上一篇博客中，我们讲解了vintage分析的原理及方法（https://blog.csdn.net/weixin_44239904/article/details/99745084）。而迁移率经常与vintage分析一同被人提到，不少人对这两者傻傻分不…

阅读更多...

go 类型断言

go 类型断言

switch 语句 switch k {case 0:println("fallthrough")fallthrough/*Go的switch非常灵活，表达式不必是常量或整数，执行的过程从上至下，直到找到匹配项；而如果switch没有表达式，它会匹配true。Go里面switch默…

阅读更多...

java断言是什么_Java断言

java断言是什么_Java断言

断言的概念断言用于证明和测试程序的假设，比如“这里的值大于 5”。断言可以在运行时从代码中完全删除，所以对代码的运行速度没有影响。断言的使用断言有两种方法：一种是 assert<> ； 另一种是 assert<> &#xff…

阅读更多...

C++ 断言

C++ 断言

文章目录前言assertstatic_assert 前言断言(Assertion)是一种常用的编程手段，用于排除程序中不应该出现的逻辑错误。它是一种很好的Debug工具。其作用是判断表达式是否为真。C提供了assert和static_assert来进行断言。在C库中也有断言，其中断言与C的相…

阅读更多...

SVA断言

SVA断言

目录 Assertion介绍什么是assertion？断言覆盖率断言语言的发展与进步类型划分立即断言并行断言并行断言的执行阶段assertion，property，sequencesequences sequence定义基本操作符号and操作符号intersect操作符号or操作符号first_match操作符号…

阅读更多...

常见结构化存储系统架构

常见结构化存储系统架构

什么是结构化存储系统结构化数据一般指存储在数据库中，具有一定逻辑结构和物理结构的数据，最为常见的是存储在关系数据库中的数据；非结构化数据：一般指结构化数据以外的数据，这些数据不存储在数据库中，而…

阅读更多...

DRAM存储系统结构

DRAM存储系统结构

这几天在学习DRAM存储结构的基本知识，为了更好地理解DRAM结构的基本知识，仔细阅读了Memory Systems Cache, DRAM, Disk这本书中第十章节的内容，并翻译了所述内容。为了方便以后查阅，把所做笔记记录一下。 DRAM存储系统结构前几章…

阅读更多...

第3章 Linux存储系统

第3章 Linux存储系统

三大基本存储架构(DAS,SAN,NAS) 直接附加的存储DAS:Linux 支持种类繁多的 DAS 界面，包括像并行高级技术附件的旧标准 — 电子集成驱动器 IDE/ATA — 并行 SCSI 和光纤通道以及新的存储界面，例如串行连接的 SCSI、串行 ATA 和外部 SATA 。您还将发现高级…

阅读更多...

单机存储系统

单机存储系统

单机存储引擎就是哈希表、B树等数据结构在机械磁盘和SSD等持久化介质上的实现。单机存储系统是单机存储引擎的一种封装，对外提供文件、键值、表格或者关系模型，单机存储系统的理论来源于关系数据库。哈希存储引擎是哈希表的持久化实现。 B树存储引…

阅读更多...

存储系统和结构

存储系统和结构

很久没有在CSDN上面发文章了，最近复习机组的存储器，感慨自己这两年把知识都还给老师了，便做个笔记好好整理一下，也有了一些新收获。转载请注明来源：https://leerw.github.io 存储系统和结构存储系统将两个或来两…

阅读更多...

存储系统 —— Cache（高速缓冲存储器）

存储系统 —— Cache（高速缓冲存储器）

本文主要介绍以下几方面的知识： Cache 的基本工作原理Cach和主存之间的映射方式Cache中主存块的替换算法Cache写策略 1.Cache的基本工作原理存储系统存在的问题局部性原理 (3)Cache 工作原理性能分析块地址形式 2.Cach和主存之间的映射方式 (1)全相联…

阅读更多...

3-1存储系统-存储器概述主存储器

3-1存储系统-存储器概述主存储器

文章目录一.存储器概述（一）存储器分类1.按在计算机中的作用（层次）分类2.按存储介质分类3.按存取方式分类4.按信息的可保存性分类 （二）存储器的性能指标二.主存储器（一）基本组成1.译…

阅读更多...

存储系统的层次结构

存储系统的层次结构

目录一.背景二.层次结构（1）结构（2）原理（3）性能一.背景现在我们使用的计算机系统结构是冯诺依曼体系结构，它的一个特点就是中央处理器CPU（控制器算数运算器）与存储器相…

阅读更多...

分布式存储Ceph存储系统RADOS

分布式存储Ceph存储系统RADOS

RADOS是Ceph最为关键的技术，它是一个完整的对象存储系统，所有存储在Ceph系统中的数据最终由这一层来存储。本文主要介绍RADOS的系统架构和IO处理流程，以了解Ceph存储的设计原理。 1、Ceph功能模块与RADOS Ceph存储系统的逻辑结构在“分布式系…

阅读更多...

推荐文章