【Decouple】《Improving Semantic Segmentation via Decoupled Body and Edge Supervision》

article/2025/8/6 6:35:26

在这里插入图片描述

ECCV-2020

作者分享:https://www.techbeat.net/talk-info?id=462
Code:https://github.com/lxtGH/DecoupleSegNets


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
    • 4.1 Decoupled segmentation framework
    • 4.2 Body generation module
    • 4.3 Edge preservation module
    • 4.4 Decoupled body and edge supervision
    • 4.5 Network architecture
  • 5 Experiments
    • 5.1 Datasets
    • 5.2 Ablation studies
    • 5.3 Visual analysis
    • 5.4 Results on other datasets
  • 6 Conclusion(own)


1 Background and Motivation

现有语义分割方法的缺点:

  1. RF grows slowly,不能 model longer-range relationships between pixels,分割时,物体内部会产生歧义和噪声
  2. 下采样操作,会带来 blurred predictions

针对缺点 1 的提升方法有(提升 object inner consistency)

  • dilated convolution
  • pyramid pooling module
  • non-local operators
  • graph convolution network
  • dynamic graph

针对缺点 2 的提升方法有(提升 object boundaries)

  • embed low-level features into high-level features
  • refine the outputs

上述的方法要么增加了 object inner consistency(属于同一物体的特征靠近一些,分割在一起),要么增加了 object boundaries,没有考虑 body 和 boundary 之间的交互,作者从图片低频高频分别代表 body 和 boundary 角度出发,把特征解耦成 body feature 和 boundary(edge) feature 部分, and then jointly optimizing them in a unified framework

在这里插入图片描述

2 Related Work

  • Semantic segmentation
    • structured prediction operators:eg CRF
    • Deep Learning:eg PSPNet,DeepLab series
  • Boundary processing
  • Multi task learning

3 Advantages / Contributions

  • Improving Semantic Segmentation via 解耦 body 和 edge 特征(然后用 loss 进行监督)
  • 设计了 Body Generation Module 用来专门提取 body feature 的模块
  • 提出的方法较为轻便,很容易加入到现有的 semantic segmentation 方法中
  • 在 4 个 driving scene semantic segmentation 数据集上取得了 SOTA

4 Method

1)object inner consistency

improve the object’s inner consistency by modeling the global context

2)object boundaries

refine objects detail along their boundaries by multi-scale feature fusion

4.1 Decoupled segmentation framework

F ^ = F b o d y + φ ( F e d g e ) = F b o d y + φ ( F − F b o d y ) = ϕ ( F ) + φ ( F − ϕ ( F ) ) \begin{aligned} \hat{F} &= F_{body} + \varphi(F_{edge}) \\ &= F_{body} + \varphi(F - F_{body}) \\ &= \phi(F) + \varphi(F- \phi(F)) \end{aligned} F^=Fbody+φ(Fedge)=Fbody+φ(FFbody)=ϕ(F)+φ(Fϕ(F))

  • ϕ \phi ϕ 是 body generation module
  • φ \varphi φ 是 edge perservation module
  • F F F 是原始特征图, F = F b o d y + F e d g e F = F_{body} + F_{edge} F=Fbody+Fedge
  • F ^ \hat{F} F^ 是加强后的特征图

4.2 Body generation module

目的是 generating more consistent feature representations for pixels inside the same object

learn a flow field δ ∈ R H × W × 2 \delta \in \mathbb{R}^{H \times W \times 2} δRH×W×2 generated by the network itself to warp features towards object inner parts

1)Flow field generation

核心的思想如下

Low spatial frequency parts capture the summation of images, and a lower resolution feature map represents the most salient part where we view it as pseudo-center location or the set of seed points.

特征图分辨率很小的时候,其代表的都是每个区域最 salient 的部分

整体结构如下,借鉴的是《Flownet: Learning optical flow with convolutional networks》

在这里插入图片描述
采用的是 encoder-decoder 的结构

Down-sampling 的作用是产生伪中心点,或者说 coarse 的中心点,之后上采样成原始特征图分辨率,然后与原始特征图 concatenation 在一起来 learn flow filed

在这里插入图片描述

2)Feature warping

让同一目标的特征尽量往其中心靠近

在这里插入图片描述

w w w 是 flow map 对应的值

F F F 是原始特征

Flow field 的作用方式是对四领域内的点进行加权求和

4.3 Edge preservation module

在这里插入图片描述
思路:原始特征减去 body 特征,之后再和 low-level 特征进行融合来 supply the missing fine details information

在这里插入图片描述

上图紫色的部分为 F − F b o d y F-F_{body} FFbody

∣ ∣ || 表示 concatenation, γ \gamma γ 是 1×1 conv

F f i n e F_{fine} Ffine 表示的是 low-level feature,来自 backbone 的浅层

4.4 Decoupled body and edge supervision

在这里插入图片描述
在这里插入图片描述

监督了 F b o d y F_{body} Fbody F e d g e F_{edge} Fedge F ^ \hat{F} F^(也即 F f i n a l F_{final} Ffinal

在这里插入图片描述

  • b b b 表示 F e d g e F_{edge} Fedge,a boundary map
  • s b o d y s_{body} sbody 表示 F b o d y F_{body} Fbody 预测的结果
  • s f i n a l y s_{finaly} sfinaly 表示 F f i n a l F_{final} Ffinal 预测的结果
  • s ^ \hat{s} s^ 表示 GT semantic label
  • b ^ \hat{b} b^ 表示 GT binary masks which is generated by s ^ \hat{s} s^
  • L f i n a l L_{final} Lfinal 是 cross entropy loss for segmentation task
  • L b o d y L_{body} Lbody 采用的是 boundaries relaxation loss(借鉴的是 《Improving semantic segmentation via propagation and label relaxation》——CVPR 2019),在训练时,仅 sample part of pixels within the objects for training
  • L e d g e L_{edge} Ledge 如公式 4 所示

在这里插入图片描述

Most of the hardest pixels to classify lie on the boundary between object classes.(边界点是难样本)

It is not easy to classify the center pixel of a receptive field when poentially half or more of the input context could be a new class!

作者解决的方法是,引入 edge prior,配合 OHEM

公式 4 分为 L b c e L_{bce} Lbce L c e L_{ce} Lce 两部分

  • L b c e L_{bce} Lbce 是边界 label 和预测边界之间的 binary cross entropy loss

  • L c e L_{ce} Lce 是 cross entropy loss,如公式 5 所示

在这里插入图片描述

  • N N N 是 total pixels in the image
  • K = 0.10 ⋅ N K = 0.10 \cdot N K=0.10N
  • s ^ i \hat{s}_i s^i 是 pixel i i i 的 GT 类别
  • s i , j s_{i,j} si,j 是 predicted posterior probability for pixel i i i and class j j j,可以简单理解为 i i i 预测为 s ^ i \hat{s}_i s^i 的概率
  • I [ x ] = 1 \mathbb{I[x] = 1} I[x]=1 如果 x x x 是 True,否则为 0
  • σ \sigma σ 是 sigmoid 函数,来来判断是否为边界
  • t K t_K tK 是 OHEM 中的阈值, 选取 K highest losses
  • t b t_b tb 是判断是否为边界的阈值

仔细分析下公式 5,交叉熵 loss,-plogq 的形式,目的让 q 接近 p,也即预测出为边界的点 (q) 尽可能的是边界(p)

在实际发挥功效过程中, L b o d y L_{body} Lbody L e d g e L_{edge} Ledge 相互补偿,他们 sample 的 pixels separately from different regions

4.5 Network architecture

在这里插入图片描述
用的是 DeepLab V3+ 框架,dilated ResNet 作为 backbone

作者提出的模块插入在

DeepLab V3+ 框架中 ASPP module 之后

FCN 框架中 final output layer of the backbone

PSPNet 框架中的 PPM module

5 Experiments

5.1 Datasets

  • Cityscapes
    在这里插入图片描述

  • CamVid
    在这里插入图片描述

  • KIITI

  • BDD
    在这里插入图片描述

5.2 Ablation studies

在这里插入图片描述

1)Improvements over baseline model

+US 是加入了 uniform sampling trick(《Improving semantic segmentation via propagation and label relaxation》——CVPR 2019))

在这里插入图片描述

作者的方法真的好猛,3 个多点的提升

2)Ablation studies on decoupled supervisions

在这里插入图片描述

BG 和 EP 是 body generation module 和 edge preservation module

L b c e L_{bce} Lbce L e d g e − o h e m L_{edge-ohem} Ledgeohem 就是 L e d g e L_{edge} Ledge 的两个损失

默认都有正常分割的 loss,也即 L f i n a l L_{final} Lfinal 的 loss

注意到仅引入 L b c e L_{bce} Lbce,模型精度没有提升,作者的解释为

since there is no direct supervision to segmentation prediction(仅看论文,表示解释的不太清晰)

3)Ablation study on the effect of each component

在这里插入图片描述

没有 BG warp 不晓得可不可以理解为, flow filed 作用的时候仅针对一个点,而不是邻域加权

4)Comparison with related methods

在这里插入图片描述

用 SPN 和 DCN 替换 BG

5)Improvements upon different base models

在这里插入图片描述Table2 (a)

都有不小的提升,强强强

6)Comparison to state-of-the-arts

Table2 (b)

MS 是 multi-scale inference

在这里插入图片描述

5.3 Visual analysis

1)Improvement analysis

在这里插入图片描述

FCN 中引入作者的模块,大目标提升比较明显(内部一致性)

DeepLab v3+ 和 PSPNet 中引入作者的模块,小目标(边界信息)提升比较明显(since most large patterns are handled by context aggregation modules like PPM and ASPP)

在这里插入图片描述在这里插入图片描述

一三行是 prediction,二四行是 error

2)Visualization on decoupled feature representation and prediction

在这里插入图片描述
在这里插入图片描述

3)Visualization on flow field in BG

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

FCN 中 flow field 指向 inner part

DeepLab V3+ 中 flow field 指向 boundary(inner part 被 ASPP 模块基本搞定),

和 Table 4 中的现象一致

5.4 Results on other datasets

在这里插入图片描述

6 Conclusion(own)

  • 上下文信息

在这里插入图片描述
语义分割上下文信息的定义是什么? - 托比昂的回答 - 知乎

  • 采用了 poly learning rate policy
    ( 1 − i t e r t o t a l _ i t e r ) 0.9 (1- \frac{iter}{total\_iter})^{0.9} (1total_iteriter)0.9

  • uniform sampling trick


http://chatgpt.dhexx.cn/article/oEify3vC.shtml

相关文章

【CVPR2021】Decoupled dynamic filter networks

论文:https://thefoxofsky.github.io/files/ddf.pdf 代码:https://github.com/thefoxofsky/ddfnet 主页:https://thefoxofsky.github.io/project_pages/ddf 先从论文首页的图说起。第一行为普通静态卷积,对于道路、车辆、建筑使用…

阅读Decoupled Spatial-Temporal Attention Network for Skeleton-Based Action Recognition

基于骨骼动作识别的解耦时空注意网络 paper:https://arxiv.org/abs/2007.03263 文章目录 AbstractIntroductionMethod3.1 Spatial-temporal attention module 3.2 Decoupled Position encoding3.3 Spatial global regularization3.4 Complete attention module3.5 O…

[论文评析]Decoupled Knowledge Distillation, CVPR2022

[论文评析]Decoupled Knowledge Distillation, CVPR2022 文章信息动机方法Basic notionsKL Loss重要发现伪码 思考References 文章信息 题目:Decoupled Knowledge Distillation 发表: CVPR ,2022 作者:Borui Zhao 11,…

Decoupled head(解耦合头)和Coupled head(耦合头)

👻解耦合头和耦合头是目标检测中常见的两种头部设计,用于从检测网络的特征图中提取目标位置和类别信息。 (先看概念,概念看不懂可以直接看图一定能懂😁) 文章目录 耦合头(Coupled head&#xf…

#Reading Paper# 【序列推荐】SIGIR 2022 Decoupled Side Information Fusion for Sequential Recommendation

#论文题目:【序列推荐】Decoupled Side Information Fusion for Sequential Recommendation(DIF-SR:用于序列推荐的辅助信息解耦) #论文地址:https://arxiv.org/pdf/2204.11046.pdf #论文源码开源地址:http…

yolox Head-Decoupled head源码解读

目录 前言 yolox网络结构 yolox head网络结构 head组件及对应源码 解码 前言 yolox backbone部分介绍 yolox neck部分介绍 yolox:https://github.com/Megvii-BaseDetection/YOLOX yolox详细解读可参考:https://jishuin.proginn.com/p/763bfbd628ce yolox网络…

Decoupled Knowledge Distillation——目标分布与非目标分布相解耦

通过传统知识蒸馏的解耦分析,DKD(Decoupled Knowledge Distillation)重新审视了暗知识的本质,并通过蒸馏损失函数的改进、获得DKD loss,显著改善了任务相关知识迁移的效果: Paper地址:https://a…

【GCN-CTR】DC-GNN: Decoupled GNN for Improving and Accelerating Large-Scale E-commerce Retrieval WWW22

《DC-GNN: Decoupled Graph Neural Networks for Improving and Accelerating Large-Scale E-commerce Retrieval》(WWW’22) 在工业场景中,数百亿节点和数千亿的边直接端到端的GNN-based CTR模型开销太大,文章把整个GNN框架解耦成三阶段:预…

(2019.01, iclr) Decoupled Weight Decay Regularization

code: https://github.com/loshchil/AdamW-and-SGDW 除了纯SGD, L2 ! weight_decay 背景知识: sgd with momentum和adam,详见《深度学习》: L2 regulization and weight decay: https://benihime91.github.io/blog/machinelearning/deeplearning/python3…

Decoupled Novel Object Captioner

Decoupled Novel Object Captioner AbstractIntroductionMethodsPreliminariesZero-Shot Novel Object Captioning.Sequence Model with the PlaceholderKey-Value Object MemoryFramework OverviewTraining Reference Reference[原文]: Joselynzhao.top & 夏木青 | Decoup…

Video Anomaly Detection by Solving Decoupled Spatio-Temp

Video Anomaly Detection by Solving Decoupled Spatio-Temp 什么是SSL? Self-Supervised Learning,又称为自监督学习什么是多标签分类问题: 一个数据有多个标签pretext 任务: 简单的来说,通过另一个任务简介完成主任务 比如,要训…

魔改YOLOv5/YOLOv7高阶版——改进之结合解耦头Decoupled_Detect

💖💖>>>加勒比海带,QQ2479200884<<<💖💖 🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨

Distilling Object Detectors via Decoupled Features

Abstract 相比于图像分类而言&#xff0c;目标检测器更加复杂&#xff0c;具有多个损失函数。而目前的的检测中&#xff0c;其主要将注意力集中在对象的区域中&#xff0c;但本文指出&#xff0c;从背景中提取的特征信息对于学生模型的学习也是必不可少的。且由于目标区域和背…

Decoupled Attention Network for Text Recognition

摘要&#xff1a; 最流行的文字检测的方法是注意力机制&#xff0c;但是大多数的注意力机制方法由于循环的对齐操作会导致严重的对齐问题。因为对齐操作依赖于历史解码信息。 本文提出的DAN将对齐操作与历史解码信息解耦。 原理&#xff1a; Connectionist temporal classifi…

涨点技巧:Detect系列---Yolov5/Yolov7加入解耦头Decoupled_Detect,涨点明显

目录 1. Decoupled Head介绍 2.Yolov5加入Decoupled_Detect 2.1 DecoupledHead加入common.py中&#xff1a; 2.2 Decoupled_Detect加入yolo.py中&#xff1a; 2.3修改yolov5s_decoupled.yaml 3.数据集下验证性能 &#x1f3c6; &#x1f3c6;&#x1f3c6;&#x1f3c6;&…

Decoupled Contrastive Learning 论文解读和感想

本文首先提出了当前对比学习的三大痛点&#xff1a; 1、当前的sota方法结构都过于复杂 2、对比学习要想取得效果&#xff0c;必须要用大batch 3、超参敏感(个人认为这里说的超参是指数据增强方式) 然后本文以SimCLR为例&#xff0c;通过对对比损失的梯度进行分析&#xff0c;发…

DECOUPLED WEIGHT DECAY REGULARIZATION

引言 Adam作为一个常用的深度学习优化方法&#xff0c;提出来的时候论文里的数据表现都非常好&#xff0c;但实际在使用中发现了不少问题&#xff0c;在许多数据集上表现都不如SGDM这类方法。 后续有许多工作针对Adam做了研究&#xff0c;之前整理过关于优化算法的发展历程&am…

Decoupled Dynamic Filter Networks

转载自:https://www.cnblogs.com/liuyangcode/p/14755924.html 对depth-wise的改进&#xff0c;将卷积核的参数改为根据输入变化的方式 Introduction 卷积缺点在于&#xff1a;内容不变&#xff0c;计算量高动态filter可以根据内容自适应&#xff0c;但是会提高计算量。depth…

Analyzing and Leveraging Decoupled L1 Caches in GPUs

introduction 我们都知道L1/L2/L3cache解决了内存墙的问题&#xff0c;但是作者分析出现有的缓存架构有着天然缺陷&#xff0c; 作者列出的many to few communication&#xff0c;也就是L1ache中大量的数据传输到L2cache中&#xff0c;可能对于L1cache的带宽使用率不是很高&a…

Decoupled network

Decoupled network https://zhuanlan.zhihu.com/p/37598903 神经网络机制存在的缺陷&#xff1f; 过拟合&#xff0c;梯度消失或者是膨胀&#xff0c;训练依靠大量样本&#xff0c;对网络初始化及其敏感记忆协迁移等等。 Decupled network是对operator的改进 现在的卷积操作…