《论文笔记》—— Self-supervised Image-specific Prototype Exploration for Weakly Supervised Semantic Segment

article/2025/8/27 9:48:36

摘要:基于图像级标签的弱监督语义分割(WSSS)由于标注成本低而备受关注。现有的方法通常依赖于类激活映射(CAM)来度量图像像素和分类器权重之间的相关性。然而,分类器只关注识别区域,而忽略每张图像中的其他有用信息,导致定位图不完整。为了解决这个问题,我们提出了一种自监督图像特定原型探索(SIPE)它由图像特定原型探索(IPE)和通用特定一致性(GSC)损失组成。具体来说,IPE为每一张图像量身定制原型,以捕获完整的区域,形成我们的图像特定的CAM (is -CAM),它由两个连续步骤实现。此外,我们还提出了GSC来构建通用CAM和我们的特定is -CAM的一致性,进一步优化了特征表示,增强了原型探索的自校正能力。在PASCAL VOC 2012和MS COCO 2014分割基准上进行了大量的实验,结果表明我们的SIPE仅使用图像级标签就实现了最新的性能。

引言:现有方法大多利用类激活映射(CAM)[53]技术提供目标对象的定位线索。具体来说,这些方法训练一个分类器,并将其学习到的权重作为每个类的一般表示,即类中心。然后,利用这个类中心与图像像素进行关联,得到如图1所示的定位图。

然而,CAM倾向于专注于几个主要区域(猫的头),而忽略了其他有用的线索(猫的身体)。为了解释这一问题,我们将从训练过的分类网络中提取的前景像素级特征可视化。这些特征用四种不同的颜色表示,其透明度表示CAM的激活。我们发现,类中心总是给予较近的像素(对应于某些主区域)较高的激活,而忽略了较远的像素。激活不平衡导致定位图不完整,如图1所示。此外,通过特征的质心(粉色星形)激活每个图像上的特征,有助于探索更完整的区域(见图1所示的image-specific CAM (IS-CAM))。因此,本文旨在定制图像特定原型,自适应地描述图像本身。

为此,我们提出了一种新的弱监督语义分割框架,称为自监督图像特定原型探索(SIPE)。所提出的SIPE由图像特定的原型探索(IPE)和一般特定一致性(GSC)损失组成,如图2所示。具体来说,IPE被实现为两个顺序的步骤来描述原型,允许捕获更完整的本地化映射。在第一步中,我们利用像素间语义探索空间结构线索,定位每个类的鲁棒种子区域。给定种子区域,我们提取图像特定的原型,然后通过原型相关生成我们的IS-CAM。在此基础上,提出了一种GSC方法,以构建通用凸轮与特定is -CAM的一致性。这种自监督信号进一步优化了特征表示,增强了原型探索的自我修正能力。

贡献:1.我们提出了自监督图像特定原型探索(SIPE)来学习图像特定知识,用于弱监督语义分割。

2.我们提出了图像原型探索(IPE),该方法通过结构感知的种子定位和背景感知的原型建模来为每个图像定制特定的原型。它使模型能够捕获更完整的本地化地图。

3.我们提出了一种通用-特定一致性(GSC)损失来有效地正则化原始CAM和ISCAM,增强特征表示能力。

相关工作:

Erasure and accumulation.

擦除方法通过有意地从图像]或特征图中去除鉴别区域来探索更多的目标区域。然而,擦除大部分鉴别区域可能会使分类器混淆,导致假阳性。为了避免这一问题,一些作品通过对扩展卷积率、图像尺度、空间位置和训练过程应用精心设计的采样来累积多个激活。

Cross-image mining.

考虑到图像之间的共享语义,一些作品设计了跨图像关系挖掘模块,如跨图像亲和力、最大二部匹配和共注意分类器,挖掘弱标签的语义上下文。在此基础上,利用图卷积网络和自注意机制,探索多图像协同信息捕获潜在知识

Background Modeling.

许多方法通过使用辅助显著图来获得精确的背景,这是一种费力的方法。在没有辅助地图的情况下,Fan等人提出了一个intra-class discriminator来区分每个类的前景和背景。然而,由于图像的对象和场景的多样性,学习每个类的通用类内鉴别器是相当棘手的。

Self-supervised Learning.

最近,自监督方法挖掘潜在信息并构建监督信号,被证明是缩小完全监督和弱监督语义分割之间监督差距的有前途的解决方案。Wang等将各种变换图像的一致性正则化应用到CAM上,实现自我监督学习。Chang等人引入了一个发现子类别的自我监督任务,它提供了额外的监督以增强特征表示

与现有的方法相比,我们充分考虑了图像的特殊性,引入图像特定的原型来发现完整的区域,并构建了一种自监督的方式来赋能特征表示。

Approach

Class Activation Mapping

给定一个输入图像和一个预先训练的分类网络,类激活映射Mf  K前景类可以表示为:

其中Fs是来自网络最后一层的语义特征,θk表示第k个分类器权重,因此Mk是第k个类特异性激活映射。在前作的基础上,CAM在空间轴上取最大值,进一步归一化为[0,1],可视为每一类的概率。

考虑到背景在分割任务中的重要性,我们根据Mf估计背景激活映射Mb。由于CAM倾向于部分覆盖目标区域,因此估计的背景在前景区域往往含有较高的响应,这将带来相当大的噪声。为了减少这种混淆,我们通过引入衰减系数α = 0.5来减弱背景概率:

 

我们将处理后的背景激活映射与前景激活映射结合为一个整体,即M = Mf∪Mb,以帮助建模背景知识。

Image-specific Prototype Exploration

提出了图像特定的原型来表示每个类的特征分布,允许捕获更完整的区域。与少镜头分割中的原型表示不同,WSSS中没有地面真值像素级掩码。为了探索用于描述特征分布的图像特定原型,我们设计了一个高效的两步管道。第一步提供健壮的类明智的种子区域,第二步将这些种子聚合在一个综合特征空间上,以实现精确的图像特定表示。

Structure-aware Seed Locating.一种直接获取种子的方法是经验地为CAM选择阈值,但由于对象和场景的多样性,很难对不同的图像使用固定的阈值。虽然CAM更关注识别区域,但对其余区域也产生较弱的激活。这意味着CAM具有提供语义对象的空间结构的潜力。此外,像素的空间结构可以由聚类高相关性像素构成。对于一幅图像,我们可以通过与cam的空间结构比较来确定每个像素的类别。基于上述分析,我们提出了一种结构感知种子定位方法,通过探索像素间语义获取空间结构,并使用cam作为模板匹配最优类别。

图3显示了所选的前景和背景示例所提出的方法。首先,对任意像素i,取其语义特征向量f i作为查询,计算与该特征图中所有像素的语义相关性;由于相关性分数高的像素更可能属于同一类,这些高相关性像素可以突出空间结构。因此,我们通过像素间的语义关联来定义像素的空间结构:

其中·为点积,j为特征图和结构图上的空间索引。Si(j)表示像素i和j之间的语义相关性,Si为像素i的结构图。我们通过ReLU函数抑制负相关性,消除不相关像素的影响。 

其次,我们将像素 i 的结构图和 CAM 之间的分类 IoU 评估为结构相似度:

 

这里Cik表示像素i相对于第k类的结构相似度。J是激活映射和结构映射的空间索引。从图3可以看出,前景像素(绿色星号)与猫的身体相关,与猫类CAM的IoU最高。另外,背景像素(红星)与前景像素没有关联,所以它更有可能属于背景类。

  最后,将像素i分配给相似度最大的类别:

 

通过对图像的所有像素并行重复此过程,前景和背景类别的种子区域 R 的位置如图 2 所示。

Background-aware Prototype Modeling. 在本节中,我们同时对前景和背景原型进行建模。 考虑到背景没有特定的语义,很难在语义特征空间上探索具有代表性的背景原型。 相反,来自浅层的特征包含丰富的低级视觉信息(例如颜色、纹理),更适合建模与背景相关的信息。 因此,我们修改了骨干网的架构以捕获分层特征以进行有效的原型表示

 如图4所示为修改后的主干体系结构。具体来说,我们增加了四个卷积层来提取多尺度输出。然后将多尺度输出调整到相同的大小,并将其串联起来,形成层次化的特征跳频。因此,前景和背景的图像特定原型Pk可以表述为层次特征空间中种子区域的质心:

 

其中i索引空间位置,如果参数为真,1(·)输出1,否则输出0。这个过程在种子像素上执行类的压缩,实现K个前景原型和一个背景原型。

有了这些特定于图像的原型,特定于图像的CAM (is -CAM)的计算如下:

 

其中, ̄Mk(j)为j像素处的第k个is - cam。相关在[−1,1]中有界,然后是ReLU以去除负相关。

与以分类器权重为类中心计算每个像素相关性的原始CAM相比,提出的IS-CAM利用针对每幅图像量身定制的原型,实现更完整的目标区域。此外,背景原型建模提供了高质量的背景定位线索,进而帮助确定准确的前景区域。

Self-supervised Learning with GSC

为了进一步利用图像特定知识,我们引入了一种自我监督学习范式。 总体训练损失包括多标签分类损失和一般特定一致性(GSC)损失,

分类损失由图像级类别标签y和预测-y之间的多标签软边距损失计算,该软边距损失由CAM生成的前景图平均得到。 

其中σ为sigmoid激活函数。

使用GSC最小化由分类器权重激活的原始CAM与由图像特定原型激活的ISCAM之间的差异。这种一致性正则化的数学定义被表述为两种CAM的L1归一化:

 

其中M,~M分别表示原始CAM和IS-CAM。 损失是在 K 个前景类和一个背景类上平均的。            

在这种一致性下,将图像特定的知识注入到特征表示中,协同优化在训练周期中完成。

IS-CAM迫使原始CAM关注缺失的对象区域,隐式地缩小了鉴别像素和缺失像素之间的特征距离。此外,增强的语义和层次特征有利于捕获更全面、更准确的图像特定原型,提高定位地图的质量。


http://chatgpt.dhexx.cn/article/cWT5fmcb.shtml

相关文章

Semi-supervised Learning(半监督学习)

目录 Introduction Why semi-supervised learning help? Semi-supervised Learning for Generative Model Supervised Generative Model Semi-supervised Generative Model Low-density Separation Assumption Self Training Entropy-based Regularization(基…

supervised contrastive learning 解读

SupCon 定义: Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. novelties: 属于同一类的归一化后的特征表示靠得越近越好…

第十章 Supervised PCA

supervised pca很简单粗暴,计算 X X X的每一个纬度和 Y Y Y的相关性,取一个阈值,丢掉一些纬度,然后用普通的pca降维。 如何计算两个随机变量的相关性/相似性? 两个随机变量 X , Y X,Y X,Y,有一个函数 ϕ \p…

学习笔记|BERT——自监督学习的典范

1. 自监督学习的概念 在机器学习中,最常见的是监督学习(Supervised learning)。假设模型的输入是 x x x,输出是 y y y,我们如何使模型输出我们期望的 y y y呢?我们得拥有已标注的(label&#x…

supervised使用教程

安装 平台要求 引自官网(supervised.org/introductio…):Supervisor已经过测试,可以在Linux(Ubuntu 9.10),Mac OS X(10.4 / 10.5 / 10.6)和Solaris(对于Int…

如何使用镜像网站?

1. 使用清华大学镜像网站下载镜像 官网:清华大学镜像站 例如centOS: 1)查找centOS 2)找到对应的版本号 3)找到镜像地址 4)找到自己要下载的版本 DVD:标准版 mini:迷你版 everyt…

如何快速镜像一个网站

仅需下述几个步骤即可快速镜像一个网站,镜像的内容包括html,js,css,image等静态页面资源,暂时无法镜像有用户交互的动态页面。 1、安装wget工具,以ubuntu系统为例 sudo apt-get install wget 2、下载网站…

【数学与算法】泰勒公式_线性化_雅各比矩阵_黑塞矩阵

本文的所涉及的知识点,如果有相关知识盲区,请参考: 微分方程通杀篇 如何区分线性系统与非线性系统 本文是观看B站视频【工程数学基础】2_线性化_泰勒级数_泰勒公式所作的笔记。 其中, k k k 是第k个点, n n n是指每个点…

机器学习中的数学基础 Day1

O(n) o(n) order&#xff1a;阶&#xff0c;多次式阶&#xff0c;x^2x1 阶2 f(x)O(g(x))&#xff1a;存在x0、M&#xff0c;使得x>x0时&#xff0c;f(x)<Mg(x) 2x^2 O(x^2),M2,x0任意 x^2x1 O(x^2),M2,x010 f(x)o(g(x)):对于任意的ε&#xff0c;存在x0&#xff0…

Hessian矩阵正定与函数凹凸性的关系

1. 从矩阵变换的角度 首先半正定矩阵定义为: 其中X 是向量&#xff0c;M 是变换矩阵 我们换一个思路看这个问题&#xff0c;矩阵变换中&#xff0c;代表对向量 X进行变换&#xff0c;我们假设变换后的向量为Y&#xff0c;记做 于是半正定矩阵可以写成&#xff1a; 这个是不是很…

Jacobian and Hessian(雅克比矩阵和海塞矩阵)

雅克比矩阵&#xff08;Jacobian &#xff09; 雅可比矩阵 是一阶偏导数以一定方式排列成的矩阵, 其行列式称为雅可比行列式。 假设 F : R n → R m F: R_n \to R_m F:Rn​→Rm​ 是一个从欧式 n 维空间转换到欧式 m 维空间的函数. 这个函数由 m 个实函数组成:&#xff0c;记…

雅可比(jacobian)、黑塞矩阵(Hessian)

一、雅克比矩阵 雅可比矩阵和行列式&#xff08;Jacobian&#xff09;_雅可比行列式_JasonKQLin的博客-CSDN博客 在牛顿迭代法、L-M中求解非线性方程组&#xff0c;都会用到雅可比(一阶偏导数) 和黑塞矩阵&#xff08;2阶偏导数&#xff09;矩阵。 雅可比矩阵 是一阶偏导数以一…

math: 雅可比矩阵 黑塞矩阵

雅可比矩阵&#xff1a;一个多元函数的一阶偏导数以一定方式排列成的矩阵 黑塞矩阵&#xff1a;一个多元函数的二阶偏导数以一定方式排列成的矩阵 雅可比矩阵 在向量微积分中&#xff0c;雅可比 矩阵是一阶 偏导数以一定方式排列成的矩阵&#xff0c;其行列式称为 雅可比行列式…

黑塞矩阵 Hessian Matrix

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴! 在机器学习课程里提到了这个矩阵,那么这个矩阵是从哪里来,又是用来作什么用呢?先来看一…

黑塞矩阵(海森矩阵,Hessian Matrix)与牛顿法最优化

黑塞矩阵 黑塞矩阵&#xff08;Hessian Matrix&#xff09;&#xff0c;又译作海森矩阵、海瑟矩阵、海塞矩阵等&#xff0c;是一个多元函数的二阶偏导数构成的方阵&#xff0c;描述了函数的局部曲率。黑塞矩阵最早于19世纪由德国数学家Ludwig Otto Hesse提出&#xff0c;并以其…

鞍点的判断(黑森矩阵/黑塞矩阵)

判断鞍点的一个充分条件是&#xff1a;函数在一阶导数为零处&#xff08;驻点&#xff09;的黑塞矩阵为不定矩阵。 半正定矩阵&#xff1a; 所有特征值为非负。 半负定矩阵&#xff1a;所有特征值为非正。 不定矩阵&#xff1a;特征值有正有负。 容易解出特征值一个为2,一个为…

Hessian 矩阵(海塞矩阵)

1. 海塞矩阵定义&#xff1a; 它是一个由多变量实值函数的所有二阶偏导数组成的方块矩阵 2. 数学描述&#xff1a; 假设有一实值函数 f(x1,x2,…,xn) &#xff0c;如果 f的所有二阶偏导数都存在并在定义域内连续&#xff0c;那么函数 f的海塞矩阵为&#xff1a; 或者使用下…

函数凹凸性与黑塞矩阵

1 同济大学高等数学定义 2 国际上的定义 3 黑塞矩阵 1 同济大学高等数学定义 我们从几何上看到&#xff0c;在有的曲线弧上&#xff0c;如果任取两点&#xff0c;则联结这两点间的弦总位于这两点间的弧段的上方&#xff0c;如图3-8&#xff08;a&#xff09;&#xff1b;而有…

由黑塞(Hessian)矩阵引发的关于正定矩阵的思考

最近看论文&#xff0c;发现论文中有通过黑塞(Hessian)矩阵提高电驱系统稳定性的应用。所以本篇主要从Hessian矩阵的性质出发&#xff0c;对其中正定矩阵的判定所引发的想法进行记录。 (其实看论文出现黑塞很惊奇&#xff0c;因为前不久刚读了作家黑塞的《德米安&#xff1a;彷…

Hessian matrix黑塞矩阵(海森矩阵)和雅克比矩阵Jacobian matrix

对梯度再求导生成的矩阵为黑塞矩阵 雅克比矩阵是一个m*n的矩阵 目标函数的梯度的雅克比矩阵就是目标函数的Hessian矩阵。 对于黑塞矩阵的特征值&#xff1a;就是形容在该点附近特征向量的凹凸性。特征值越大&#xff0c;凸性越强。 如果是正定矩阵&#xff0c;则临界点处是一个…