【CVPR2021】Decoupled dynamic filter networks

article/2025/8/6 6:38:59

论文:https://thefoxofsky.github.io/files/ddf.pdf
代码:https://github.com/thefoxofsky/ddfnet
主页:https://thefoxofsky.github.io/project_pages/ddf

先从论文首页的图说起。第一行为普通静态卷积,对于道路、车辆、建筑使用相同的卷积核,这样会导致一个问题:sub-optimal feature learning。第二行为动态卷积,每一个像素都使用不同的卷积核,道路、车辆、建筑使用的卷积核就不一样了,有助于特征学习。但是会引入一个新的问题:参数量大大增加。

可以看出,动态卷积的参数量从普通静态卷积的 ( c × c × k × k c \times c \times k \times k c×c×k×k) 提升为 ( c × c × k × k × h × w c \times c \times k \times k \times h \times w c×c×k×k×h×w ),参数量显著增加,计算复杂。为了降低计算量,作者提出了解耦的思路,把 ( c × h × w c \times h \times w c×h×w) 分解成 ( h × w + c h \times w + c h×w+c),即先计算空间位置的动态卷积,再计算通道上的动态卷积。
在这里插入图片描述
如图所示,包含两个步骤:

  • 在 spatial 维度上,首先用 1x1 的卷积将 channel 数变成 k 2 k^2 k2,reshape后,就是每个空间位置上的卷积核,参数量是 k × k × h × w k\times k \times h \times w k×k×h×w
  • 在 channel 维度上,通过 GAP + SE 操作,每个 channel 得到一个 k 2 k^2 k2 向量,即每个 channel 分配一个卷积核,参数量是 k × k × c k\times k \times c k×k×c

好的,终极问题来了? 每个空间位置上有一个卷积核,每个 channel 上有一个卷积核,如何把卷积核作用到 ( c , h , w ) (c, h , w) (c,h,w) 的三维矩阵中的每个像素上?

具体方法是: 每个像素点,找到与它 对应位置的卷积核对应通道的卷积核 ,这两个卷积核进行 逐像素相乘 ,得到新的卷积核再对这个点进行卷积

论文中还有一个点值得注意,为了提升性能,卷积核归一化时,作者设计了一个 Filter-Norm,性能会优于使用 Batch-Norm 和 Sigmoid,具体可以参考作者实验,不再多说。


http://chatgpt.dhexx.cn/article/wWATUggc.shtml

相关文章

阅读Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action Recognition

基于骨骼动作识别的解耦时空注意网络 paper:https://arxiv.org/abs/2007.03263 文章目录 AbstractIntroductionMethod3.1 Spatial-temporal attention module 3.2 Decoupled Position encoding3.3 Spatial global regularization3.4 Complete attention module3.5 O…

[论文评析]Decoupled Knowledge Distillation, CVPR2022

[论文评析]Decoupled Knowledge Distillation, CVPR2022 文章信息动机方法Basic notionsKL Loss重要发现伪码 思考References 文章信息 题目:Decoupled Knowledge Distillation 发表: CVPR ,2022 作者:Borui Zhao 11,…

Decoupled head(解耦合头)和Coupled head(耦合头)

👻解耦合头和耦合头是目标检测中常见的两种头部设计,用于从检测网络的特征图中提取目标位置和类别信息。 (先看概念,概念看不懂可以直接看图一定能懂😁) 文章目录 耦合头(Coupled head&#xf…

#Reading Paper# 【序列推荐】SIGIR 2022 Decoupled Side Information Fusion for Sequential Recommendation

#论文题目:【序列推荐】Decoupled Side Information Fusion for Sequential Recommendation(DIF-SR:用于序列推荐的辅助信息解耦) #论文地址:https://arxiv.org/pdf/2204.11046.pdf #论文源码开源地址:http…

yolox Head-Decoupled head源码解读

目录 前言 yolox网络结构 yolox head网络结构 head组件及对应源码 解码 前言 yolox backbone部分介绍 yolox neck部分介绍 yolox:https://github.com/Megvii-BaseDetection/YOLOX yolox详细解读可参考:https://jishuin.proginn.com/p/763bfbd628ce yolox网络…

Decoupled Knowledge Distillation——目标分布与非目标分布相解耦

通过传统知识蒸馏的解耦分析,DKD(Decoupled Knowledge Distillation)重新审视了暗知识的本质,并通过蒸馏损失函数的改进、获得DKD loss,显著改善了任务相关知识迁移的效果: Paper地址:https://a…

【GCN-CTR】DC-GNN: Decoupled GNN for Improving and Accelerating Large-Scale E-commerce Retrieval WWW22

《DC-GNN: Decoupled Graph Neural Networks for Improving and Accelerating Large-Scale E-commerce Retrieval》(WWW’22) 在工业场景中,数百亿节点和数千亿的边直接端到端的GNN-based CTR模型开销太大,文章把整个GNN框架解耦成三阶段:预…

(2019.01, iclr) Decoupled Weight Decay Regularization

code: https://github.com/loshchil/AdamW-and-SGDW 除了纯SGD, L2 ! weight_decay 背景知识: sgd with momentum和adam,详见《深度学习》: L2 regulization and weight decay: https://benihime91.github.io/blog/machinelearning/deeplearning/python3…

Decoupled Novel Object Captioner

Decoupled Novel Object Captioner AbstractIntroductionMethodsPreliminariesZero-Shot Novel Object Captioning.Sequence Model with the PlaceholderKey-Value Object MemoryFramework OverviewTraining Reference Reference[原文]: Joselynzhao.top & 夏木青 | Decoup…

Video Anomaly Detection by Solving Decoupled Spatio-Temp

Video Anomaly Detection by Solving Decoupled Spatio-Temp 什么是SSL? Self-Supervised Learning,又称为自监督学习什么是多标签分类问题: 一个数据有多个标签pretext 任务: 简单的来说,通过另一个任务简介完成主任务 比如,要训…

魔改YOLOv5/YOLOv7高阶版——改进之结合解耦头Decoupled_Detect

💖💖>>>加勒比海带,QQ2479200884<<<💖💖 🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨

Distilling Object Detectors via Decoupled Features

Abstract 相比于图像分类而言&#xff0c;目标检测器更加复杂&#xff0c;具有多个损失函数。而目前的的检测中&#xff0c;其主要将注意力集中在对象的区域中&#xff0c;但本文指出&#xff0c;从背景中提取的特征信息对于学生模型的学习也是必不可少的。且由于目标区域和背…

Decoupled Attention Network for Text Recognition

摘要&#xff1a; 最流行的文字检测的方法是注意力机制&#xff0c;但是大多数的注意力机制方法由于循环的对齐操作会导致严重的对齐问题。因为对齐操作依赖于历史解码信息。 本文提出的DAN将对齐操作与历史解码信息解耦。 原理&#xff1a; Connectionist temporal classifi…

涨点技巧:Detect系列---Yolov5/Yolov7加入解耦头Decoupled_Detect,涨点明显

目录 1. Decoupled Head介绍 2.Yolov5加入Decoupled_Detect 2.1 DecoupledHead加入common.py中&#xff1a; 2.2 Decoupled_Detect加入yolo.py中&#xff1a; 2.3修改yolov5s_decoupled.yaml 3.数据集下验证性能 &#x1f3c6; &#x1f3c6;&#x1f3c6;&#x1f3c6;&…

Decoupled Contrastive Learning 论文解读和感想

本文首先提出了当前对比学习的三大痛点&#xff1a; 1、当前的sota方法结构都过于复杂 2、对比学习要想取得效果&#xff0c;必须要用大batch 3、超参敏感(个人认为这里说的超参是指数据增强方式) 然后本文以SimCLR为例&#xff0c;通过对对比损失的梯度进行分析&#xff0c;发…

DECOUPLED WEIGHT DECAY REGULARIZATION

引言 Adam作为一个常用的深度学习优化方法&#xff0c;提出来的时候论文里的数据表现都非常好&#xff0c;但实际在使用中发现了不少问题&#xff0c;在许多数据集上表现都不如SGDM这类方法。 后续有许多工作针对Adam做了研究&#xff0c;之前整理过关于优化算法的发展历程&am…

Decoupled Dynamic Filter Networks

转载自:https://www.cnblogs.com/liuyangcode/p/14755924.html 对depth-wise的改进&#xff0c;将卷积核的参数改为根据输入变化的方式 Introduction 卷积缺点在于&#xff1a;内容不变&#xff0c;计算量高动态filter可以根据内容自适应&#xff0c;但是会提高计算量。depth…

Analyzing and Leveraging Decoupled L1 Caches in GPUs

introduction 我们都知道L1/L2/L3cache解决了内存墙的问题&#xff0c;但是作者分析出现有的缓存架构有着天然缺陷&#xff0c; 作者列出的many to few communication&#xff0c;也就是L1ache中大量的数据传输到L2cache中&#xff0c;可能对于L1cache的带宽使用率不是很高&a…

Decoupled network

Decoupled network https://zhuanlan.zhihu.com/p/37598903 神经网络机制存在的缺陷&#xff1f; 过拟合&#xff0c;梯度消失或者是膨胀&#xff0c;训练依靠大量样本&#xff0c;对网络初始化及其敏感记忆协迁移等等。 Decupled network是对operator的改进 现在的卷积操作…

Decoupled Knowledge Distillation论文阅读+代码解析

本文来自2022年CVPR的文章&#xff0c;论文地址点这里 一. 介绍 知识蒸馏&#xff08;KD&#xff09;的通过最小化师生预测对数之间的KL-Divergence来传递知识(下图a)。目前大部分的研究注意力都被吸引到从中间层的深层特征中提取知识。与基于logit的精馏方法相比&#xff0c…