Token Contrast for Weakly-Supervised Semantic Segmentation

article/2025/8/27 9:55:20

文章来源:[CVPR2023]

Keywords:Weakly-Supervised Semantic Segmentation(WSSS);over-smoothing; ViT


一、本文提出的问题以及解决方案:

在这里插入图片描述
本文解决了over-smoothing问题,该问题其实是在之前的GCN网络中提出。
提出了Patch Token Contrast (PTC),通过中间知识来监督最后的tokens,PTC可以对抗patch uniformity和提高弱监督语义分割(WSSS)伪标签的质量。
提出了Class Token Contrast (CTC),对比了全局前景和局部不确定区域(背景)的表示,并促进了CAM中对象活动的完整性。


二、方法

本文提出的ToCo在ViT encoder中使用一个辅助的分类层来产生辅助的CAM,辅助CAM生成生成伪标签并指导PTC模块。同时,它还为CTC模块生成proposals来裁剪正负局部图像。最终的CAM来自于一个分类层并用于生成最后的伪标签。
在这里插入图片描述

1、Patch Token Contrast

生成token label Y m Y^m Ym用于导出可靠的成对关系,用于设计可靠的pairwise关系来监督最后的patch tokens。
如果两个tokens共享相同的语义标签,它们被标记为positive pairs,否则被标记为negative pairs。同时,为了保证可靠性,只考虑两个tokens属于前景或背景区域而忽略不确定区域。
为了解决over-smoothing问题,两个最后的patch tokens属于positive pairs则最大化相似性,否则最小化。
在这里插入图片描述

2、Class Token Contrast

用PTC解决过over-smoothing问题可以驱动ViT以生成显著的CAM和伪标签。然而,仍然有一些判别力较弱的对象区域在CAM中很难区分。受ViT中提出的class tokens能聚合高层语义的启发,设计了CTC模块促进局部非显著区域和全局对象之间的表示一致性,这可以进一步强制CAM中激活更多的对象区域。
在这里插入图片描述
通过辅助CAM从不确定区域随机crop local images(固定数量)。通过最小化global和local class tokens之间的差异,整个object regions的表示可以更加一致。
为了抵消裁剪的局部图像可能包含很少/不包含前景对象,最大化全局图像和局部背景区域的class tokens之间的差异,也可以促进前景-背景的差异。
然后,将global and local class tokens 通过projection head P g 和 P l P^g和P^l PgPl
在这里插入图片描述

3、Training Objective

在这里插入图片描述


三、实验

1、实验设置

(1)数据集:
PASCAL VOC2012(augmented with SBD dataset) 和 MS COCO2014。
在训练阶段,只使用image-level标签。评估指标使用mIoU。
(2)网络结构:
backbone使用ViT-base(ViT- B),初始化为ImageNet数据集上的预训练权重。这里的pos_embedding通过双线性插值的方法进行resize。
(3)实验细则:
crop size的大小:global view为 44 8 2 448^2 4482,local view为 9 6 2 96^2 962。除此之外,使用multi-crop和data augmentation策略。

2、实验结果

(1)Pseudo Labels的质量
可视化CAM:
在这里插入图片描述
评估Pseudo labels:
在这里插入图片描述
(3)消融实验分析:
在这里插入图片描述


http://chatgpt.dhexx.cn/article/y4ylET9r.shtml

相关文章

Self-supervised Learning整理

Self-supervised Learning Pre-train Fine-tune Pre-train Fine-tune算是一种Transfer Learning。 首先,假设按照SimCLR中的设定,将一般的模型分为两部分,分别为Encoder和Projection Head。Encoder结构类似于AutoEncoder中的Encoder部分&a…

Supervised Discrete Hashing

Supervised Discrete Hashing 2015 CVPR 问题: 处理施加在追踪的哈希码上的离散约束,使哈希优化具有挑战性(通常是NP- hard)。 解决: 提出了一个新的监督哈希框架,其中的学习目标是生成最优的二进制哈希码用于线性分类。 通过引…

NetVLAD: CNN architecture for weakly supervised place recognition

背景知识: Vector of Locally Aggregated Descriptors(VLAD)image retrieval. 【CC】是广泛使用的图像提取方式,本文是在在这个提取器上做改进;具体是啥下面有介绍 weakly supervised ranking loss 【CC】本文的另外…

Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation

Self-Supervised Difference Detection for Weakly-Supervised Semantic Segmentation 摘要1. Introduction2. Related Works3. Method3.1. Difference detection network3.2. Self-supervised difference detection module 论文地址 这篇论文原文的定义实在是太混乱了&#xf…

Unified Deep Supervised Domain Adaptation and Generalization

论文概述 问题研究背景:supervised domain adaptation(SDA),源域有大量带标签的数据,目标域仅有少量可使用的数据 问题的难点:目标域数据不足导致概率分布在语义上很难对齐和区分。对齐指的是源域图片类别之间的关系与目标域图片…

Self-supervised Video Transformer 阅读

目录 1.介绍2.SVT2.1 SVT结构2.2 自监督训练Motion CorrespondencesCross-View Correspondences 2.3 SVT loss 1.介绍 本文是针对video transformer进行自监督训练,从一个给定的视频中,创建具有不同空间大小和帧率的局部和全局时空视图,自监…

最简单的self-supervised方法

从Kaiming的MoCo和Hinton组Chen Ting的SimCLR开始,自监督学习(SSL)成了计算机视觉的热潮显学。凡是大佬大组(Kaiming, VGG,MMLAB等),近两年都是搞了几个自监督方法的。从一开始的新奇兴奋地看着…

弱监督学习 weakly supervised learning 笔记

周志华 A Brief Introduction to Weakly Supervised Learning 2018 引言 在机器学习领域,学习任务可以划分为监督学习、非监督学习。通常,两者都需要从包含大量训练样本的训练数据集中学习预测模型。 监督学习的训练数据包括,数据对象向量…

Supervised Contrastive Learning浅读

目录 前言 1.方法介绍以及结构 2.思路的实现 2.1自监督对比学习 2.2有监督对比学习 3.结果 前言 本文是根据观看了知名油管up主,对Supervised Contrastive Learning这篇文论文的解读写了一点自己的理解,初次接触,理解甚浅。 在文章中…

supervised——>self-supervised

在CV中,以数据与神经网络为基础,我们通常以supervised的方式与unsupervised的方式来进行网络的训练,这些行为的目的都是为了想要使学到的网络能够具有较好的特征表示能力,以进行如分类、目标检测、语义分割等。这两种方式的主要异…

自监督模型 Self-supervised learning(李宏毅2022

这个红色的怪物叫做ELMo 、最早的self-supervised learning model 作业四的模型也是个transformer,只有0.1个million 最早的是ELMo Cookie Monster等你来凑😼 T5是Google做的,跟车子也没什么关系, 在没有label情况下&#xff…

《论文笔记》—— Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segment

摘要:基于图像级标签的弱监督语义分割(WSSS)由于标注成本低而备受关注。现有的方法通常依赖于类激活映射(CAM)来度量图像像素和分类器权重之间的相关性。然而,分类器只关注识别区域,而忽略每张图像中的其他有用信息,导致定位图不完…

Semi-supervised Learning(半监督学习)

目录 Introduction Why semi-supervised learning help? Semi-supervised Learning for Generative Model Supervised Generative Model Semi-supervised Generative Model Low-density Separation Assumption Self Training Entropy-based Regularization(基…

supervised contrastive learning 解读

SupCon 定义: Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. novelties: 属于同一类的归一化后的特征表示靠得越近越好…

第十章 Supervised PCA

supervised pca很简单粗暴,计算 X X X的每一个纬度和 Y Y Y的相关性,取一个阈值,丢掉一些纬度,然后用普通的pca降维。 如何计算两个随机变量的相关性/相似性? 两个随机变量 X , Y X,Y X,Y,有一个函数 ϕ \p…

学习笔记|BERT——自监督学习的典范

1. 自监督学习的概念 在机器学习中,最常见的是监督学习(Supervised learning)。假设模型的输入是 x x x,输出是 y y y,我们如何使模型输出我们期望的 y y y呢?我们得拥有已标注的(label&#x…

supervised使用教程

安装 平台要求 引自官网(supervised.org/introductio…):Supervisor已经过测试,可以在Linux(Ubuntu 9.10),Mac OS X(10.4 / 10.5 / 10.6)和Solaris(对于Int…

如何使用镜像网站?

1. 使用清华大学镜像网站下载镜像 官网:清华大学镜像站 例如centOS: 1)查找centOS 2)找到对应的版本号 3)找到镜像地址 4)找到自己要下载的版本 DVD:标准版 mini:迷你版 everyt…

如何快速镜像一个网站

仅需下述几个步骤即可快速镜像一个网站,镜像的内容包括html,js,css,image等静态页面资源,暂时无法镜像有用户交互的动态页面。 1、安装wget工具,以ubuntu系统为例 sudo apt-get install wget 2、下载网站…

【数学与算法】泰勒公式_线性化_雅各比矩阵_黑塞矩阵

本文的所涉及的知识点,如果有相关知识盲区,请参考: 微分方程通杀篇 如何区分线性系统与非线性系统 本文是观看B站视频【工程数学基础】2_线性化_泰勒级数_泰勒公式所作的笔记。 其中, k k k 是第k个点, n n n是指每个点…