Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation

article/2025/8/27 9:51:56

Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation

  • 摘要
  • 1. Introduction
  • 2. Related Works
  • 3. Method
    • 3.1. Difference detection network
    • 3.2. Self-supervised difference detection module

论文地址
这篇论文原文的定义实在是太混乱了,也可能是我自己理解能力不够,我自己写完连自己都搞晕了,所以更到一半后面的就没有继续记录,这篇文章讲的比较清楚。

摘要

本文通过移除噪音来提升mapping function的准确性。本文提出self-supervised difference detection模块,通过预测mapping前后的分割掩码来减少noise。

1. Introduction

语义分割要求复杂精细的标注,而弱监督的标注很容易获得。WSSS任务通常使用可视化的方法,比如CAM去解决。这样一来,从可视化结果到语义分割结果的映射就显得很重要,映射的其中一种方法就是CRF,CRF应用在映射函数,优化概率的分布,是一种利用颜色和位置信息作为特征来优化拟合到区域边缘的概率分布的方法。许多映射方法虽然有效,但是映射结果包含噪音。本文的映射函数将结果视为可以接受其包含噪音的结果,然后提出了一种暴力的解决噪音的方法。

在本文中,用作映射函数的输入的信息称为knowledge,包含噪音的监督信息称为advice,允许一对一映射的完全监督学习的监督称为teacherknowledgeadvice不同的部分称为difference

推理knowledge和来自于knowledgeadvice导致要提前预测advisor的advice,有些advice很好预测,因为在训练过程中有大量相似的例子,这些advice我们认为是有用的信息。基于此,我们提出一种方法,可以通过 difference detection中预测advice中有用的信息。见Fig. 1。
在这里插入图片描述

本文提出的Self-Supervised Difference Detection (SSDD)模块既可以应用在伪掩码生成的阶段,也可以应用在全监督训练阶段(这里说的全监督应该就是用伪掩码监督分割模型的阶段)。在生成seed(伪掩码)的阶段,我们用SSDD模块提炼了pixel-level semantic affinity (PSA)的CRF结果。在训练阶段,我们介绍了两个SSDD在全监督分割网络中循环的应用,并在实验中展现了良好的结果。

本文的contributions如下:

  • 提出SSDD模块,减少了映射函数的噪音并选择有用的信息。
  • 展示了SSDD模块在生成伪掩码和训练的阶段都有有效性。
  • 实验。

2. Related Works

3. Method

在这里插入图片描述
原文详细讲了advice,knowledge和difference的关系,以及本文的任务。

3.1. Difference detection network

我们定义knowledge的mask为 m K m^K mKadvice的mask为 m A m^A mA,他们的difference记为 M K , A ∈ R H × W M^{K,A}\in\mathbb R^{H×W} MK,ARH×W
M u K , A = { 1 i f ( m u K = m u A ) 0 i f ( m u K ≠ m u A ) M_u^{K,A}= \left\{\begin{array}{rcl} 1 & if & (m_u^K=m_u^A) \\ 0 & if & (m_u^K\neq m_u^A) \end{array}\right. MuK,A={10ifif(muK=muA)(muK=muA)
其中 u ∈ { 1 , 2 , ⋯ , n } u\in\{1,2,\cdots,n\} u{1,2,,n}表示像素点的位置,n是像素点的数量。然后,我们定义一个difference detection网络来推断difference。我们用从训练过的CNN中提取的特征图来协助推断。具体来讲,我们用了高级特征 e h ( x ; θ e ) e^h(x;\theta_e) eh(x;θe)和低级特征 e l ( x ; θ e ) e^l(x;\theta_e) el(x;θe),其中x是输入图像,e是由 θ e \theta_e θe参数化的embedding function。在Fig. 3中,输入掩码的confidence map d d d由difference detection network (DDNet)生成。
在这里插入图片描述
图中左边输入的两个mask即knowledge和advice分别是mapping function的输入和输出。

我们接着谈DDNet, D D n e t ( e h ( x ; θ e ) , e l ( x ; θ e ) , m ^ ; θ d ) , d ∈ R H × W DDnet(e^h(x;\theta_e),e^l(x;\theta_e),\hat{m};\theta_d),d\in\mathbb R^{H×W} DDnet(eh(x;θe),el(x;θe),m^;θd),dRH×W m ^ \hat m m^是one-hot vector mask,数量和类别数相同, θ d \theta_d θd是DD-Net的参数, e ( x ) = ( e l ( x ) , e h ( x ) ) e(x)=(e^l(x),e^h(x)) e(x)=(el(x),eh(x))。DD-Net的结构如Fig. 2所示。其由3个卷积层和有3个输入1个输出的Residual block组成。
在这里插入图片描述
DD-Net的输入是原始mask或经过处理的mask,输出是difference mask。这个网络的loss可以由下面式子来求:
L d i f f = 1 ∣ S ∣ ∑ u ∈ S ( J ( M K , A , d K , u ; θ d ) + J ( M K , A , d A , u ; θ d ) ) \mathcal L_{diff}=\frac{1}{|S|}\sum_{u\in S}(J(M^{K,A},d^K,u;\theta_d)+J(M^{K,A},d^A,u;\theta_d)) Ldiff=S1uS(J(MK,A,dK,u;θd)+J(MK,A,dA,u;θd))
其中S是输入空间像素的集合,J()函数输出交叉熵损失。注意这里的d是DD-Net预测输出的confidence map。
J ( M , d , u ) = M u l o g d u + ( 1 − M u ) l o g ( 1 − d u ) J(M,d,u)=M_ulogd_u+(1-M_u)log(1-d_u) J(M,d,u)=Mulogdu+(1Mu)log(1du)
需要注意,embedding function θ e \theta_e θe的参数和 θ d \theta_d θd的优化无关。

3.2. Self-supervised difference detection module

本节详述Fig. 3的SSDD模块。advice中在difference里为TRUE的部分记为 S A , T S^{A,T} SA,T,FALSE的部分记为 S A , F S^{A,F} SA,F。这个方法的目标就是尽可能多地从 S A S^A SA中提取 S A , T S^{A,T} SA,T d K d^K dK是根据knowledge得到的advice的推断结果。

。。。。这篇论文原文的定义实在是太混乱了,我自己写完连自己都搞晕了,这篇文章讲的比较清楚。


http://chatgpt.dhexx.cn/article/aCJAi4bh.shtml

相关文章

Unified Deep Supervised Domain Adaptation and Generalization

论文概述 问题研究背景:supervised domain adaptation(SDA),源域有大量带标签的数据,目标域仅有少量可使用的数据 问题的难点:目标域数据不足导致概率分布在语义上很难对齐和区分。对齐指的是源域图片类别之间的关系与目标域图片…

Self-supervised Video Transformer 阅读

目录 1.介绍2.SVT2.1 SVT结构2.2 自监督训练Motion CorrespondencesCross-View Correspondences 2.3 SVT loss 1.介绍 本文是针对video transformer进行自监督训练,从一个给定的视频中,创建具有不同空间大小和帧率的局部和全局时空视图,自监…

最简单的self-supervised方法

从Kaiming的MoCo和Hinton组Chen Ting的SimCLR开始,自监督学习(SSL)成了计算机视觉的热潮显学。凡是大佬大组(Kaiming, VGG,MMLAB等),近两年都是搞了几个自监督方法的。从一开始的新奇兴奋地看着…

弱监督学习 weakly supervised learning 笔记

周志华 A Brief Introduction to Weakly Supervised Learning 2018 引言 在机器学习领域,学习任务可以划分为监督学习、非监督学习。通常,两者都需要从包含大量训练样本的训练数据集中学习预测模型。 监督学习的训练数据包括,数据对象向量…

Supervised Contrastive Learning浅读

目录 前言 1.方法介绍以及结构 2.思路的实现 2.1自监督对比学习 2.2有监督对比学习 3.结果 前言 本文是根据观看了知名油管up主,对Supervised Contrastive Learning这篇文论文的解读写了一点自己的理解,初次接触,理解甚浅。 在文章中…

supervised——>self-supervised

在CV中,以数据与神经网络为基础,我们通常以supervised的方式与unsupervised的方式来进行网络的训练,这些行为的目的都是为了想要使学到的网络能够具有较好的特征表示能力,以进行如分类、目标检测、语义分割等。这两种方式的主要异…

自监督模型 Self-supervised learning(李宏毅2022

这个红色的怪物叫做ELMo 、最早的self-supervised learning model 作业四的模型也是个transformer,只有0.1个million 最早的是ELMo Cookie Monster等你来凑😼 T5是Google做的,跟车子也没什么关系, 在没有label情况下&#xff…

《论文笔记》—— Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segment

摘要:基于图像级标签的弱监督语义分割(WSSS)由于标注成本低而备受关注。现有的方法通常依赖于类激活映射(CAM)来度量图像像素和分类器权重之间的相关性。然而,分类器只关注识别区域,而忽略每张图像中的其他有用信息,导致定位图不完…

Semi-supervised Learning(半监督学习)

目录 Introduction Why semi-supervised learning help? Semi-supervised Learning for Generative Model Supervised Generative Model Semi-supervised Generative Model Low-density Separation Assumption Self Training Entropy-based Regularization(基…

supervised contrastive learning 解读

SupCon 定义: Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. novelties: 属于同一类的归一化后的特征表示靠得越近越好…

第十章 Supervised PCA

supervised pca很简单粗暴,计算 X X X的每一个纬度和 Y Y Y的相关性,取一个阈值,丢掉一些纬度,然后用普通的pca降维。 如何计算两个随机变量的相关性/相似性? 两个随机变量 X , Y X,Y X,Y,有一个函数 ϕ \p…

学习笔记|BERT——自监督学习的典范

1. 自监督学习的概念 在机器学习中,最常见的是监督学习(Supervised learning)。假设模型的输入是 x x x,输出是 y y y,我们如何使模型输出我们期望的 y y y呢?我们得拥有已标注的(label&#x…

supervised使用教程

安装 平台要求 引自官网(supervised.org/introductio…):Supervisor已经过测试,可以在Linux(Ubuntu 9.10),Mac OS X(10.4 / 10.5 / 10.6)和Solaris(对于Int…

如何使用镜像网站?

1. 使用清华大学镜像网站下载镜像 官网:清华大学镜像站 例如centOS: 1)查找centOS 2)找到对应的版本号 3)找到镜像地址 4)找到自己要下载的版本 DVD:标准版 mini:迷你版 everyt…

如何快速镜像一个网站

仅需下述几个步骤即可快速镜像一个网站,镜像的内容包括html,js,css,image等静态页面资源,暂时无法镜像有用户交互的动态页面。 1、安装wget工具,以ubuntu系统为例 sudo apt-get install wget 2、下载网站…

【数学与算法】泰勒公式_线性化_雅各比矩阵_黑塞矩阵

本文的所涉及的知识点,如果有相关知识盲区,请参考: 微分方程通杀篇 如何区分线性系统与非线性系统 本文是观看B站视频【工程数学基础】2_线性化_泰勒级数_泰勒公式所作的笔记。 其中, k k k 是第k个点, n n n是指每个点…

机器学习中的数学基础 Day1

O(n) o(n) order&#xff1a;阶&#xff0c;多次式阶&#xff0c;x^2x1 阶2 f(x)O(g(x))&#xff1a;存在x0、M&#xff0c;使得x>x0时&#xff0c;f(x)<Mg(x) 2x^2 O(x^2),M2,x0任意 x^2x1 O(x^2),M2,x010 f(x)o(g(x)):对于任意的ε&#xff0c;存在x0&#xff0…

Hessian矩阵正定与函数凹凸性的关系

1. 从矩阵变换的角度 首先半正定矩阵定义为: 其中X 是向量&#xff0c;M 是变换矩阵 我们换一个思路看这个问题&#xff0c;矩阵变换中&#xff0c;代表对向量 X进行变换&#xff0c;我们假设变换后的向量为Y&#xff0c;记做 于是半正定矩阵可以写成&#xff1a; 这个是不是很…

Jacobian and Hessian(雅克比矩阵和海塞矩阵)

雅克比矩阵&#xff08;Jacobian &#xff09; 雅可比矩阵 是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式。 假设 F : R n → R m F: R_n \to R_m F:Rn​→Rm​ 是一个从欧式 n 维空间转换到欧式 m 维空间的函数. 这个函数由 m 个实函数组成:&#xff0c;记…

雅可比(jacobian)、黑塞矩阵(Hessian)

一、雅克比矩阵 雅可比矩阵和行列式&#xff08;Jacobian&#xff09;_雅可比行列式_JasonKQLin的博客-CSDN博客 在牛顿迭代法、L-M中求解非线性方程组&#xff0c;都会用到雅可比(一阶偏导数) 和黑塞矩阵&#xff08;2阶偏导数&#xff09;矩阵。 雅可比矩阵 是一阶偏导数以一…