多任务学习优化总结 Multi-task learning(附代码)

article/2025/11/8 16:31:08

目录

一、多重梯度下降multiple gradient descent algorithm (MGDA)

二、Gradient Normalization (GradNorm)

三、Uncertainty


多任务学习的优势不用说了,主要是可以合并模型,减小模型体积,只用一次推理也可以加快速度。对于任务表现的提升,可能不是那么明显,理论上来说相似的任务确实可以提高彼此的表现,但是在实际应用中,在减小模型的同时仅仅想要保持每一个任务的表现都不是那么容易。

总结来说,多任务学习的发展主要有两个方向:

  1. 调整网络的结构以适应于多任务的学习。这种方法需要根据具体问题去更改网络结构,繁琐又难以再现。一般来说调整网络结构只能根据经验,调优起来也很不方便。
  2. 调整网络的loss来进行不同的任务融合。在这种思路中,更好的加权方式应该是动态的,根据不同任务学习的阶段,学习的难易程度,甚至是学习的效果来进行调整。

如果想要仔细了解多任务学习的发展历程,可以看看这篇Survey:Multi-Task Learning for Dense Prediction Tasks: A Survey。

以下主要介绍几种常用的多任务学习方法:MGDA,GradNorm,Uncertainty。

一、多重梯度下降multiple gradient descent algorithm (MGDA)

这个方法来自Intel Labs 2019年的一篇文章Multi-Task Learning as Multi-Objective Optimization,这篇文章的优化部分有点难,需要很多时间去理解。 如果要节省时间,建议直接拉GitHub上的代码下来对照着学习:https://github.com/intel-isl/MultiObjectiveOptimization。

作者的motivation是,由于任务之间不是完全竞争或者不竞争的关系,而是一种相互博弈的关系,这时候单纯的线性解就没那么有用了,所以需要去找到一个帕累托最优解来优化多个任务的表现,也就是,把多任务学习变成多目标优化问题。而在多目标优化算法中,就有一种叫MGDA的方法,它可以在共享参数的过程中优化多个任务的梯度。

为了利用MGDA方法,定义一个优化问题:

 这个问题的解要么是满足KKT条件的点(鞍点),要么是梯度下降的方向。对不同的参数有不同的梯度下降:

  • 在task-specific参数\theta^t上做一般的梯度下降(下图第2行)
  • 在shared参数\theta^{sh}上做\sum ^T_{t=1}\alpha^t\nabla_{\theta^{sh}}的梯度下降(下图第5行)

 怎么去解这个问题呢?作者用的是2013年提出的Frank-Wolfe算法去解:

我们可以对比代码来看(以下MGDA及MGDA-UB的代码中,shared参数在低层,task- specific参数在高层,一般情况都是如此):

# This is MGDA 只有这一段与MGDA-UB有区别
for t in tasks:# Comptue gradients of each loss function wrt parametersoptimizer.zero_grad()rep, mask = model['rep'](images, mask)  # 先基于shared参数进行推理out_t, masks[t] = model[t](rep, None)  # 再基于task-specific参数进行推理loss = loss_fn[t](out_t, labels[t])loss_data[t] = loss.data[0]loss.backward()  grads[t] = []# 一般的梯度下降(loss不缩放)for param in model['rep'].parameters():if param.grad is not None:grads[t].append(Variable(param.grad.data.clone(), requires_grad=False))  # 屏蔽预训练模型的权重# Frank-Wolfe iteration to compute scales. 利用FW算法计算loss的scale
sol, min_norm = MinNormSolver.find_min_norm_element([grads[t] for t in tasks]) 
for i, t in enumerate(tasks):scale[t] = float(sol[i])# Scaled back-propagation  按计算的scale缩放loss并反向传播
optimizer.zero_grad()
rep, _ = model['rep'](images, mask)
for i, t in enumerate(tasks):out_t, _ = model[t](rep, masks[t])loss_t = loss_fn[t](out_t, labels[t])loss_data[t] = loss_t.data[0]if i > 0:loss = loss + scale[t]*loss_telse:loss = scale[t]*loss_t
loss.backward()
optimizer.step()

其中MinNormSolver.find_min_norm_element是调用FW算法来求比例值,作者提供了numpy和pytorch两个版本,对FW算法感兴趣的可以自行查看。

可以看出,MGDA将会对每一个任务进行反向传播,这个计算消耗是很大的,所以作者提出了MGDA-UB(upper bound)算法,该方法可以优化目标的上限,并且只需要单次向后传递。 

从代码上来看,MGDA-UB只有第一段有区别:

  • 不更新shared参数,只更新task-specific参数
  • 使用记录的shared梯度值寻找帕累托最优
optimizer.zero_grad()
# First compute representations (z)
images_volatile = Variable(images.data, volatile=True)  
rep, mask = model['rep'](images_volatile, mask)  # MGDA-UB的shared节点不求导,不反向传播
# As an approximate solution we only need gradients for input  加载原有的参数作为输入来作为MGDA的近似
if isinstance(rep, list):# This is a hack to handle psp-net 对分割网络pspnet的特殊处理rep = rep[0]rep_variable = [Variable(rep.data.clone(), requires_grad=True)]list_rep = True
else:rep_variable = Variable(rep.data.clone(), requires_grad=True)list_rep = False# Compute gradients of each loss function wrt z
for t in tasks:optimizer.zero_grad()out_t, masks[t] = model[t](rep_variable, None) loss = loss_fn[t](out_t, labels[t])loss_data[t] = loss.data[0]loss.backward()  grads[t] = []# 使用记录的shared梯度值if list_rep:grads[t].append(Variable(rep_variable[0].grad.data.clone(), requires_grad=False))rep_variable[0].grad.data.zero_()else:grads[t].append(Variable(rep_variable.grad.data.clone(), requires_grad=False))rep_variable.grad.data.zero_()

仿真中显示,不论是在MultiMNIST(多目标检测),还是Multi-Label Classification(多标签分类),还是Scene Understanding(场景理解)的任务上,MGDA都表现得比接下来要介绍的GradNorm和Uncertainty这两种算法要好。

二、Gradient Normalization (GradNorm)

这个算法来自2018的一篇文章:GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

GradNorm中的‘Grad’来自于,除了每个任务的真实的数据标签与网络预测标签计算的Label loss,这篇文章定义的一种 Gradient Loss。这个Loss用来衡量每个任务的Label loss权重的好坏。

但是,如何去衡量呢?我们可以从Gradient Loss的组成来看:

其中,

  • G_W^{(i)}(t)是任务i梯度标准化的值,也就是参数(模型share部分最后一层的参数值)与loss 乘积的L2范数:

  • \bar G_W(t)是全局梯度标准化的值(即所有任务梯度标准化值的期望值):

  • r_i(t)是任务的相对反向训练速度,为任务i的当前loss与参考loss的比值在所有任务中的相对大小,它越大,表示任务i在所有任务中训练越慢:

r_i(t)=\tilde{L_i(t)}/E_{task}[\tilde{L_i(t)}]=\frac{L_i(t)}{L_i(0)}/E_{task}[\frac{L_i(t)}{L_i(0)}]

GradNorm的训练流程如下图所示:

 可以看出,训练思路是:

  1. 在基础的计算label loss之后,计算gradient loss。
  2. 然后根据gradient loss来更新wi,再根据label loss更新整个网络的参数。
  3. 最后将wi重新标准化(renormalize)。

 Gradient Loss里的两个norm量和这最后一步的renormalize应该就是GradNorm中‘Norm’的由来。

我们可以看一下主要代码(https://github.com/brianlan/pytorch-grad-norm)是怎么实现的,其实就是按照上面的流程一步步来,很容易理解:

# get layer of shared weights
W = model.get_last_shared_layer()# get the gradient norms for each of the tasks
# G^{(i)}_w(t) 
norms = []
for i in range(len(task_loss)):# get the gradient of this task loss with respect to the shared parametersgygw = torch.autograd.grad(task_loss[i], W.parameters(), retain_graph=True)# compute the normnorms.append(torch.norm(torch.mul(model.weights[i], gygw[0])))
norms = torch.stack(norms)# compute the inverse training rate r_i(t) 
# \curl{L}_i 
if torch.cuda.is_available():loss_ratio = task_loss.data.cpu().numpy() / initial_task_loss
else:loss_ratio = task_loss.data.numpy() / initial_task_loss
# r_i(t)
inverse_train_rate = loss_ratio / np.mean(loss_ratio)# compute the mean norm \tilde{G}_w(t) 
if torch.cuda.is_available():mean_norm = np.mean(norms.data.cpu().numpy())
else:mean_norm = np.mean(norms.data.numpy())# compute the GradNorm loss 
# this term has to remain constant
constant_term = torch.tensor(mean_norm * (inverse_train_rate ** args.alpha), requires_grad=False)
if torch.cuda.is_available():constant_term = constant_term.cuda()# this is the GradNorm loss itself
grad_norm_loss = torch.tensor(torch.sum(torch.abs(norms - constant_term)))
#print('GradNorm loss {}'.format(grad_norm_loss))# compute the gradient for the weights
model.weights.grad = torch.autograd.grad(grad_norm_loss, model.weights)[0]# renormalize
normalize_coeff = n_tasks / torch.sum(model.weights.data, dim=0)
model.weights.data = model.weights.data * normalize_coeff

三、Uncertainty

这个方法是来自CVPR 2018年的一篇文章:Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

uncertainty指的是同质不确定性(Homoscedastic uncertainty),也就是task-dependent uncertainty,它与输入的数据无关,只表示任务之间的相对置信度,反映回归或分类任务中固有的不确定性。

它是用一个噪声参数来表示的,在Loss式中的\sigma_1\sigma_2

\mathcal{L}(W)=\frac{1}{2\sigma_1^2}\mathcal{L}_1(W)+\frac{1}{2\sigma_2^2}\mathcal{L}_2(W)+\log\sigma_1\sigma_2

可以看出,“简单”(不确定性小)的任务的loss将会有更高的权重值。

代码(https://github.com/oscarkey/multitask-learning)实现特别简单,只是把单个任务的loss变成uncertainty weight loss:

def weight_loss(self, loss: Tensor) -> Tensor:return 0.5 * torch.exp(-self._s) * loss + 0.5 * self._s

对比单个任务loss的公式写法:

\frac{1}{2\sigma_1^2}\mathcal{L}_1(W)+\log\sigma_1

为什么这里的loss与上面的公式有所出入呢?

是因为在实际应用中,对数方差\log\sigma^2(the log variance)会比直接回归方差\sigma^2(regressing the variance)在数值上更加稳定,因为它可以避免被零除的情况。又因为预测值s:=\log\sigma^2,所以\exp(s)=\sigma^2

至于为什么最后用的是\exp(-s),作者的原话是:The exponential mapping also allows us to regress unconstrained scalar values, where exp(−s) is resolved to the positive domain giving valid values for variance. 也就是说,为了把标量限制在[0, 1]来表示方差,需要将exp函数作一个左右翻转,也就是\exp(-s)=\sigma^2。这是weight loss的第一项。

因为s=\log\sigma^2=2\log\sigma,所以第二项\log\sigma=\frac{1}{2}s

注:虽然这个方法比较简单,但是在我的试验中,训练过程模型特别难收敛。

相关链接:

Multi-task Learning(Review)多任务学习概述

多任务学习优化(Optimization in Multi-task learning)

Multi-Task Learning as Multi-Objective Optimization 阅读笔记

精读论文:Multi-Task Learning as Multi-Objective Optimization(附翻译)

Multi-Task Learning Using Uncertainty to Weigh Losses

GradNorm:Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks,梯度归一化

Gradient Surgery for Multi-Task Learning


http://chatgpt.dhexx.cn/article/CSCR2xkP.shtml

相关文章

经验 | 训练多任务学习(Multi-task Learning)方法总结

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达 转载于:知乎Anticoder https://zhuanlan.zhihu.com/p/59413549 背景:只专注于单个模型可能会忽略一些相关任务中可能提升目标任务的潜在信息&…

多任务学习(Multi-Task Learning)

转自:https://www.cnblogs.com/zeze/p/8244357.html 1. 前言 多任务学习(Multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法。在机器学习领域,标准的算法理论是一次学习一…

多任务学习 | YOLOP,一个网络同时完成三大任务

关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 paper: https://arxiv.org/abs/2108.11250 code: https://github.com/hustvl/YOLOP 计算机视觉研究院专栏 作者:Edison_G YOLOP: You Onl…

多任务学习概述

文章目录 前言1 文章信息2 背景、目的、结论2.1 背景2.1.1 多任务的类型分类2.1.1.1 相关任务的分类2.1.1.2 将输入变输出的逆多任务学习2.1.1.3 对抗性多任务学习2.1.1.4 辅助任务提供注意力特征的多任务学习2.1.1.5 附加预测性辅助任务的多任务学习 3 内容与讨论3.1 多任务学…

多任务学习(Multi-task Learning)方法总结

多任务学习(multi task learning)简称为MTL。简单来说有多个目标函数loss同时学习的就算多任务学习。多任务既可以每个任务都搞一个模型来学,也可以一个模型多任务学习来一次全搞定的。 作者丨Anticoder知乎 链接丨https://zhuanlan.zhihu.co…

浅谈多任务学习

目录 一、前言及定义 二、多任务学习(MTL)的两种方法 2.1 参数的硬共享机制(hard parameter sharing) 2.2 参数的软共享机制(soft parameter sharing) 三、多任务学习模型 3.1 MT-DNN 3.2 ERNIE 2.0…

多任务学习

一、单任务学习和多任务学习 多任务学习是和单任务学习对应的一种机器学习方法。 单任务学习 在单任务学习中,认为不同任务之间是不具有关联性的。因此,每个模型的参数都是独立训练的。这样的学习方法有两个缺陷: 由于每个任务中的训练数据有…

多任务学习 (Multitask Learning) 汇总

1 前言 多任务学习(Multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法。在机器学习领域,标准的算法理论是一次学习一个任务,也就是系统的输出为实数的情况。复杂的学习问题…

【GANs学习笔记】(十八)LAPGAN、ProGAN、SRGAN

完整笔记:http://www.gwylab.com/note-gans.html ——————————————————————— 4. LapGAN 4.1 LapGAN基本思路 如果我们希望生成高分辨率图像,还有一种GANs可以考虑,那就是LapGAN。LapGAN与StackGAN有着非常类似的思路&…

GAN网络

目录 GAN生成网络G(Generative)对抗网络D(Discriminative)两分布之间差异性评价KL散度JS散度 损失函数一次代码实验 WGANWGAN-GPConditional GAN GAN 生成式对抗网络(GAN, Generative Adversarial Networks&#xff0…

基于pytorch的SRGAN实现(全网最细!!!)

基于pytorch的SRGAN实现 前言SRGAN论文概要(贡献)网络结构和损失函数pytorch代码实现1. 准备工作1.1 数据下载并放到合适位置 2. 开始训练和测试 源码详解1. 数据集的加载: data_utils.py2. 网络模型: model.py2.1 生成器: Generator2.2 判别器:Discrimi…

超分辨率——基于SRGAN的图像超分辨率重建(Pytorch实现)

基于SRGAN的图像超分辨率重建 本文偏新手项,因此只是作为定性学习使用,因此不涉及最后的定量评估环节 目录 基于SRGAN的图像超分辨率重建1 简要介绍2 代码实现2.1 开发环境2.2 主要流程2.3 构建数据集2.4 构建生成模型(Generator&#xff09…

SRCNN神经网络

0 前言 超分辨率技术(Super Resolution,SR)是指从观测到的低分辨率图像重建出相应的高分辨率图像,在监控设备、卫星图像和医学影像等领域都拥有着重要的应用价值。 1 SRCNN SRCNN是深度学习用在超分辨率重建上的开山之作。 其结构十分简单&#xff0c…

SRGAN的理解

全文翻译见:https://blog.csdn.net/weixin_42113955/article/details/89001989 和https://blog.csdn.net/c2a2o2/article/details/78930865 1. ptrain是真正的HR图像,也就是data要预测的。 pG是生成的超分辨图像 好处在于:固定 G&#xff0c…

GANs综述

生成式对抗网络GANs及其变体 基础GAN 生成式对抗网络,是lan Goodfellow 等人在2014年开发的,GANs 属于生成式模型,GANs是基于最小值和最大值的零和博弈理论。 为此,GANs是由两个神经网络组成一个Generator。另一个是Discriminat…

图像的超分辨率重建SRGAN与ESRGAN

SRGAN 传统的图像超分辨率重建方法一般都是放大较小的倍数,当放大倍数在4倍以上时就会出现过度平滑的现象,使得图像出现一些非真实感。SRGAN借助于GAN的网络架构生成图像中的细节。 训练网络使用均方误差(MSE)能够获得较高的峰值…

SRGAN With WGAN

SRGAN With WGAN RGAN 是基于 GAN 方法进行训练的,有一个生成器和一个判别器,判别器的主体使用 VGG19,生成器是一连串的 Residual block 连接,同时在模型后部也加入了 subpixel 模块,借鉴了 Shi et al 的 Subpixel Ne…

SRGAN论文与ESRGAN论文总结

博客结构 SRGANContribution:Network Architecture:Generator NetworkDiscriminator Network Perceptual loss function:Experiments:Mean opinion score (MOS) testing: ESRGANContribution:Network Architecture:ESR…

SR-GNN

Session-based Recommendation with Graph Neural Networks 一、论文 1、理论 ​ SR-GNN是一种基于会话序列建模的推荐系统。会话序列专门表示一个用户过往一段时间的交互序列。 ​ 常用的会话推荐包括循环神经网络和马尔科夫链,但有两个缺点: 当一…

SRGAN(SRResNet)介绍

生成对抗网络GAN是由蒙特利尔大学Ian Goodfellow在2014年提出的机器学习架构。 生成式对抗网络(GAN, Generative Adversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至…