SAZS~

article/2025/9/14 23:42:15

本文提出了一种新颖的形状感知零样本语义分割(SAZS)框架,利用大规模预训练视觉语言模型特征空间中丰富的先验知识,并通过在边界检测约束任务上进行联合训练来融合形状感知

论文链接:https://arxiv.org/abs/2304.08491v1

代码链接:https://arxiv.org/abs/2304.08491v1

Semantic segmentation是一个已经具有广泛影响力的研究领域,旨在以像素级的方式预测输入图像的类别。在包括自动驾驶、医疗诊断和机器人视觉和导航在内的实际应用中,准确的语义分割模块为后续任务(如决策制定或治疗选择)提供了像素级的理解,对于这些任务至关重要。尽管在语义分割领域取得了显著进展,但大多数现有方法都专注于同一训练和测试时间内在封闭集合上进行密集预测的情况。因此,在应用于开放世界时,那些在封闭集合中训练并表现良好的方法可能会失败,因为开放世界中未见过对象的像素很可能被分配给在训练过程中看到的类别,从而在自动驾驶等安全关键应用中造成灾难性后果。直接的解决方案包括微调或重新训练现有神经网络,但是在重新训练过程中枚举无限的未见过类别是不切实际的,更不用说这一过程还是需要大量的时间和精力的。

受经典谱方法(spectral methods)及其增强shape awareness的内在能力启发,本文提出了一种新颖的Shape-Aware Zero-Shot语义分割框架(SAZS)来解决零样本语义分割的任务。首先,该框架利用已知类别在训练集上强制进行视觉-语言对齐,利用大规模预训练的视觉-语言模型CLIP中的丰富语言先验知识。同时,该框架还共同强制预测的语义区域边界与ground truth的边界对齐。最后,利用以自监督方式学习的特征构建的affinity matrices的 Laplacian matrix的特征向量,将输入分解为特征分段。然后,将它们与训练模型的基于学习的预测进行融合。融合输出被视为框架的最终预测。如图所示,与之前的方法相比,我们的方法的预测更好地与物体的形状对齐。本文还通过对PASCAL-5i和COCO-20i进行详细的实验,证明了该方法明显优于先前的最新技术。通过检查目标物体形状紧凑性与IoU之间的相关性以及语textual embedding局部性与IoU之间的相关性,本文发现语言anchor和物体形状分布带来的性能影响很大。通过广泛的分析,本文证明了SAZS框架对于在开放世界中分割语义类别的形状感知的有效性和泛化性。

zero-shot semantic segmentation的目标是将semantic segmentation任务扩展到训练数据集中没有涵盖的未知类别。其中一种引入额外先验的潜在方法是利用预训练的vision-language模型,但大多数这些模型都着眼于图像级别的预测,无法转换到密集的pixel级别的预测任务中。因此,作者提出了一种名为Shape-Aware Zero-Shot Semantic Segmentation(SAZS)的新方法。该方法利用预训练CLIP模型中包含的丰富语言先验知识,同时利用局部区域之间的接近性来执行带约束的边界检测任务,并利用自监督视觉特征的谱分解来提高方法对形状的敏感性,并将其与像素级预测相结合。本文的方法的整体流程如上图所示。输入图像首先由图像编码器转换为像素级嵌入,然后与预训练CLIP模型的文本编码器获得的预计算文本嵌入对齐(上图中的A部分)。同时,图像编码器中的额外头部用于预测补丁中的边界,这些边界被优化以接近由分割实况获得的真值过程(上图中的B部分)。此外,作者还通过spectral decomposition分解图像并将输出的特征分段与无类别的分割结果融合,进一步利用局部区域之间的接近性进行推理(上图中的C部分)。

Pixel-wise Vision-Language Alignment

Pixel-wise Vision-Language Alignment是SAZS中使用的一种技术,用于将图像的像素级特征与共享特征空间中的文本anchors对齐。这是通过优化与CLIP分开的密集视觉编码器并在训练期间将像素级输出特征朝向CLIP特征空间中的文本anchors来实现的。其目标是促进语义分割任务中的形状感知。该技术受到了图像分割文献中的经典谱方法的启发,并利用以自监督像素级特征构建的拉普拉斯矩阵的特征向量来促进形状感知。其实核心内容就是借助

Shape Constraint

由于CLIP是在图像级任务上进行训练的,仅仅利用CLIP特征空间中的先验知识可能不足以应对密集预测任务。为了解决这个问题,SAZS引入边界检测作为一个约束任务,使得视觉编码器能够聚合图像中包含的更细的信息。受InverseForm的启发,作者通过优化地面实况边缘与特征映射中的边缘之间的仿射变换来解决这个约束任务,以此来实现特征的对齐。具体来说,如框架图所示,提取视觉编码器的中间层特征并将其分成不同的tokens。一方面,我们通过在ground truth的语义mask上应用Sobel算子来获取补丁内的地面实时的edge。另一方面,使用一个边界头来处理特征补丁。然后使用预训练的MLP计算第i个补丁内的仿射变换矩阵θi,该矩阵用于在真值的边缘和处理后的特征补丁之间进行变换。需要注意的是,该MLP是使用edge的mask预先训练的,在本文提出的框架训练期间不进行优化。通过将仿射变换矩阵优化为单位矩阵来实现对其的优化:

 

 Self-supervised Spectral Decomposition

提出的方法利用自监督视觉特征的谱分解来构建拉普拉斯矩阵,然后使用这些矩阵来获取特征向量。这些特征向量用于生成特征分割,作为零样本语义分割任务的预测结果。通过使用这些特征分割,该方法促进了语义分割任务中的形状感知。该技术受到了图像分割文献中的经典谱方法的启发,并且在训练期间通过对齐ground truth和预测边缘来实现。

实验 

所提出的方法SAZS在Pascal和COCO数据集上均取得了零样本语义分割方面的最优性能,与先前方法相比有显著的优势。本文表明,所提出的方法优于在训练期间对齐ground truth和预测边缘的最先进的形状感知公式。本文还进行了详细的消融研究,以评估所提出的方法在训练期间的有效性。结果表明,促进形状感知的好处与遮罩紧凑性和语言嵌入局部性密切相关。本文得出结论,所提出的方法在促进形状感知和提高零样本语义分割性能方面是有效的。

SAZS通过利用基于自监督像素级特征构建的拉普拉斯矩阵的特征向量来促进形状感知,在训练过程中优于通过gt和预测边缘的最先进的形状感知公式。这种简单而有效的技术根本不使用已知类别的遮罩。本文表明,这种技术比在训练期间gt和预测边缘的最先进公式更为有效,这表明通过自监督视觉特征的谱分解促进形状感知是提高零样本语义分割对形状敏感性的更有效的方法。

作者观察到,促进形状感知与遮罩紧凑性和语言嵌入局部性密切相关。具体而言,他们发现,在遮罩更紧凑的数据集(如PASCAL-5i)中,促进形状感知的好处更为明显,而在遮罩更复杂的数据集(如COCO-20i)中,则不那么明显。他们还发现,在语言嵌入更为局部化的情况下(例如ViLBERT骨干网络),促进形状感知的好处更为显著,而在语言embedding更为全局化的情况下(例如UNITER骨干网络),则不那么显著。这些观察结果表明,促进形状感知的有效性取决于数据集和所使用的backbone的特定特征。 whaosoft aiot http://143ai.com

在PASCAL-5i数据集上的定性比较结果如下。第一列和最后一列是不同类别的输入图像和相应的gt语义的mask。第二列和第三列分别是没有形状感知和有形状感知的SAZS的预测结果。*表示未在训练阶段见过的类别,黄色框表示分割不良的区域。可以发现提出的方法具有显著的效果.

讨论

该提议方法的一个潜在限制是依赖于大规模预训练的视觉-语言模型的可用性,而在某些情况下可能不可行。此外,对于具有高度复杂mask的数据集,该方法可能不太适用,因为推动形状感知的好处更适用于具有更紧凑mask的数据集。最后,该提议方法可能不适用于实时应用程序,因为它需要对自监督视觉特征进行谱分解,这可能计算成本较高。

结论

本文提出了一种新颖的形状感知零样本语义分割(SAZS)框架,利用大规模预训练视觉语言模型特征空间中丰富的先验知识,并通过在边界检测约束任务上进行联合训练来融合形状感知。该方法利用自监督谱分解获取图像的特征向量,将其与网络预测融合作为先验知识,增强了模型感知形状的能力。广泛的实验表明,SAZS具有显著的优越性能,超过了先前方法的很大幅度。因此,本文得出结论,所提出的方法在促进形状感知和提高零样本语义分割性能方面是有效的。


http://chatgpt.dhexx.cn/article/iu1WSjrb.shtml

相关文章

SASSD

Structure Aware Single-stage 3D Object Detection from Point Cloud 文章:SA-SSD 代码:SA-SSD 这是来自香港理工大学和达摩院的一篇文章,一作是为在读的博士生,何晨航。通讯作者是张磊,香港理工大学的博导&#x…

Sarsa

基本概念 Sarsa Sarsa算法与Q-Learning算法极为相似,‘sarsa’五个字母的含义即s(当前状态),a(当前行为),r(奖励),s(下一步状态),a(下一步行为),也就是说我们在进行这一步操作时已经想到当前s对应的a&…

反激电源

扶苗平衡:是针对电感的,不是针对变压器的;是电感稳态期间的情况,不是暂态期间的情况; 一个周期内,电感开通期间两端的电压乘以开通时间电感关断期间两端电压乘以关断时间。 对于反激变压器,其实…

Part-Ⅰ2. 稳态变换器分析原则(二)

2.4 Cuk电路分析 作为第二个示例,变换器可以实现类似buck-boost电路功能:升高或降低电压幅值,并且转换极性。其电路如如下。 该转换器通过电容进行能量传输。当开关打到位置2时,电容 C 1 C_1 C1​通过 L 1 L_1 L1​连到输入电源…

buck-boost基本模型

1.电容模型 2.电感模型 3.伏秒平衡 4.电容电感 5.BUCK 6.boost 7.参考资料 《开关电源的基本概念和分析方法》

2、Principles of Steady-State Converter Analysis

2、Principles of Steady-State Converter Analysis 伏秒平衡与安秒平衡 在电路平衡时,作为存储元件的电感与电容,其储存的能量不可能无穷大,必然会稳在一个稳定值。 稳定后必然有在一个开关周期内有 所以 在求解时,只要根据…

1dB压缩点和三阶交调点、相位差与延时

1dB压缩点与三阶交调点 要知道放大器是一个非线性系统,传输函数基本用泰勒级数表示 如果输入信号幅度很小,那么上式中2次及以上的项就可以忽略而成为小信号的情况。在许多情况下我们可以忽略3次以上的项。 如果输入一个正弦信号 1、可以看到一个单频率…

半桥电路注意事项

应注意的几点问题 偏磁问题 原因:由于两个电容连接点A的电位是随Q1、Q2导通情况而浮动的,所以能够自动的平衡每个晶体管开关的伏秒值,当浮动不满足要求时,假设 Q1、Q2具有不同的开关特性,即在相同的基极脉冲宽度tt1下&…

有关DC/DC和LDO 的详细介绍以及两者的对比----之DC/DC篇

目录 DC/DC工作原理 电感电压伏秒平衡定律 开关电源的三种基本拓扑 同步整流技术 DC/DC电源调制方式 DC/DC芯片的内部构造 DC/DC电路的硬件设计 总结一下DC/DC和LDO的原理,区别和应用,以下内容部分为自己原创,部分在网上找的资料并加上…

BUCK中的电感值---开关电源篇(4)

前一篇,BUCK电路,了解到功率电感中的电流是呈现为以开关频率为周期的伏秒平衡态。 即dI * L dV * dt 1) 相同伏秒变化的情况下,电感的值如果越大,则电感上电流的变化量会越小。这个电流的变化量有个专用名称叫纹波电…

SVPWM所需要掌握的一些定理

1,正弦定理。 2.伏秒平衡(不懂) 伏秒平衡: 又称伏秒平衡,是指开关电源稳定工作状态下,加在电感两端的电压乘以导通时间等于关断时刻电感两端电压乘以关断时间,或指在稳态工作的开关电源中电感…

开关电源环路稳定性分析(2)-从开环到闭环

大家好,这里是大话硬件。 在上一节中,基于欧姆定律,基尔霍夫定律,伏秒平衡这些已知的知识点,可以推导出Buck变换器的输入输出关系。 今天这一节,我们还是从全局的概念来解析开关电源。 1. 运放和开关电源…

GaN图腾柱无桥 Boost PFC(单相)七-PFC占空比前馈

PFC占空比前馈概述 单纯依靠控制环路的PI调节器进行控制调节,控制环路的带宽会比较窄。另外,由于调节速度不够快,也将影响整个系统的动态性能。采用占空比前馈控制和反馈控制同时调节的数字控制技术,降低了对控制环路参数的要求。…

升压BOOST电路和降压BUCK电路最容易的理解

升压电路框图 首先在了解BOOST电路时,要学会如何分析最简单的升压电路框图。如图: 首先识别每个元件基本功能:电感:储能i电感;MOS管:开关作用;二极管:续流;电容&#x…

DC-DC变换器(DCDC Converter / Switched-mode Power Supply)简介

文章目录 针对B站视频,截取ppt做的完整笔记,视频地址附在下方0、DC-DC变换器概述1、DC-DC变换器的基本结构BuckBoostBuck-BoostBoost-Buck小结 2、换流与特性分析分析Buck电路分析Boost电路分析Buck-Boost电路(前级Buck后级Boost)…

电力电子技术---直流直流交换变换电路

直流-直流交换技术 文章目录 直流-直流交换技术DC-DC变换电路的工作原理脉冲调制方式Buck电路基本输入输出关系电感伏秒平衡和电容充电平衡电感的伏秒平衡电容安秒平衡 DC-DC变换电路的工作原理 DC-DC变换电路(直流斩波电路): 作用&#xf…

升降压斩波电路(电力电子技术)

1.电路原理图,开关器件为MOSFET 2.工作原理 电感L的电流和电压波形 3.输出电压的推导 推导方式一 推导方式二,根据电感伏秒平衡 4.练习题 练习题1 解题过程 练习题二 解题过程

反激开关电源变压器设计实例讲解(定明芳)

内容来自《反激变压器的设计》(定明芳主讲)。 定名芳老师主要讲了10步,最后应该还有一步,线径的选择以及绕制方式。这里进行了记录整理,把一些公式来源进行了推导。所有的设计都是基于理论计算。 1.确定电源规格 2.确定工作频率和最大占空比…

反激变换器DCM模式增益推导

针对反激变换器的DCM(电感电流断续模式)的增益进行推导。 主要原理为电感的伏秒平衡和电容的安秒平衡原理。 反激变换器的原理图如下 根据电容的安秒平衡原理可知,输出电容C在一个周期内的平均电流为0,故输出侧电流i2的平均值等…

Boost电压增益分析(输入电流低频脉动时)

1. Boost电压增益 如图所示,Boost电路的应用极为广泛,不光在DC-DC中有应用,而且在AC-DC中Boost型PWM整流器和Boost型PFC是主流拓扑。Boost的增益都很清楚,即VoVin/(1-D)。但是在输入电流有低频脉动时,比如整流器和PFC的…