【边缘注意:深度多尺度特征】

article/2025/9/29 21:59:42

Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion

(学习深度多尺度特征集成和图像融合的边缘注意指南)

在本文中,我们提出了一种用于红外和可见光图像融合的深度网络,该网络将具有融合学习机制的特征学习模块级联。首先,我们应用从粗略到精细的深度体系结构来学习多模态图像的多尺度特征,这使得能够为以后的融合操作发现突出的常见结构。建议的特征学习模块不需要对齐良好的图像对进行训练。与现有的基于学习的方法相比,所提出的特征学习模块可以集合来自各个模态的大量示例进行训练,从而提高了特征表示的能力。其次,我们在多尺度特征上设计了一种边缘引导的注意机制,以引导融合聚焦在常见结构上,从而在衰减噪声的同时恢复细节。

介绍

红外和可见光融合的关键点是如何从两个来源中提取典型特征,以及如何设计适当的融合规则以生成互补输出。为此,近几十年来开发了许多方法来设计有效的特征提取策略和适当的融合规则。这些方法可以大致分为基于传统框架的方法和基于深度学习的方法。
传统方法利用多尺度变换 (MST),稀疏表示,子空间分解,混合工具,数学优化和其他提取有效特征。其中,基于MST的方法由于其灵活性和在视觉效果方面的优势而引起了极大的关注。这些方法通过特定的变换工具 (例如非次采样curvelet,小波和边缘保留滤波器) 在不同尺度上提取代表性特征。因此,随后的融合过程可以完全包含各种尺度上的特征信息,并使用简单的max或平均运算符将其融合。但是,这种类型的方法通常会因在多个尺度上重叠不对称特征信息而导致光晕和边缘模糊
最近,研究人员使用深度学习 (DL) 进行红外和可见光图像的健壮和高效融合。这些基于DL的方法实现了最先进的性能,但仍然存在局限性。首先,DL技术通常用于从源图像中提取显着特征,然后生成用于融合的加权图。这些深度显著特征是在一个单一尺度下给出的,忽略了跨尺度的局部/全局信息,从而在一定程度上降低了融合质量。其次,这些方法采用简单的融合规则,例如加法和级联,因此最终结果中可能出现不良的伪影或模糊的边缘。最后但并非最不重要的一点是,深度网络的培训需要大量对齐的可见光/红外对,这些在实践中很难收集。

贡献

• 我们提出了一种新颖的红外和可见光图像融合深度体系结构,以学习多尺度的显着特征以及融合规则。我们的方法不会在训练阶段获取已注册的图像对,从而消除了对特定训练数据集的依赖。

• 为了从输入图像中获得更全面的特征,我们精心建立了一个特征提取器,该特征提取器以密集的上下文扩展网络为主干,以从多个尺度分层地集成从粗到细的特征。重新设计的特征提取器有效地利用了中间特征,而无需对源图像进行向上或向下采样。

• 我们制定了一种跨域边缘引导的注意机制,以实现具有可用的细节特征的融合图像的数据一致性,从而保留详细信息,同时衰减噪声或不良伪影。这种基于学习的机制突破了手工制作的融合规则的限制,显著提高了融合性能。

• 我们构建了一个新的对准红外和可见光图像融合数据集,名为RealStreet,具有广泛的挑战性条件,包括不良的照明和室外性能评估。

相关工作

关于传统融合方法和基于深度学习的融合方法:略

Attention Mechanism in DL

捕获感兴趣区域的注意力机制起源于机器翻译任务,并且一直是人工智能的热门话题。具体来说,该机制使用整个输入序列来计算权重,然后将权重引入到输入序列中,以选择性地更多地关注重要区域。人类生物系统也可以解释,人类可以很容易地观察到重要的信息,而忽略其他不重要的信息。注意机制在图像处理社区中发挥了关键作用 (例如,显着性检测,图像恢复和语义分割)。Wang等人通过堆叠能够捕捉显著特征的注意力模块,引入了网络,实现了突出的识别性能。研究人员还设计了边缘引导的注意机制,以产生视觉上吸引人的图像。Zhang等人提出了一种提高医学图像分割精度的新方法。他们使用边缘指导模块来学习早期编码层中的边缘注意表示,然后通过使用加权聚合模块来融合转移的表示特征。Zhao等人提出了一种边缘制导网络 (EGNet),通过显著边缘与对象信息的互补来解决对象检测中的粗边界问题。

方法

Coarse-to-Fine Feature Extractor

红外和可见光图像融合任务的一个重要问题是提取丰富的特征来表示输入图像。通常,特征提取对融合结果产生巨大影响。以前的深度方法设计了一个完全连接的层作为特征提取器,而没有考虑上下文化的信息,这可能会导致融合结果中出现伪像。
因此,我们提出了一种上下文扩展特征提取模块,以通过以下两种方式获得粗到细的特征:

  1. 我们通过多尺度上下文聚合结构在具有不同感受域的多尺度上聚合了三个卷积路径的表示。
  2. 我们在每个卷积路径中集成了一个密集块,以提供更丰富的功能供后续使用。

在这里插入图片描述
如图2所示,网络通过第一卷积将红外和可见图像转换到特征空间中。然后,汇总具有不同扩张因子的三个卷积路径的中间结果,以获取多个尺度的总体信息。膨胀卷积 使用放大因子的步长对像素进行加权,从而在不改变分辨率的情况下增加其感受野。通过使用相同的内核大小3 × 3,每个扩张路径都由三个卷积组成。这三种路径分别使用其典型的接受域5 × 5、9 × 9和13 × 13,以提供更精确的互补信息。

让fin表示提取模块的输入特征图,我们计算出提取模型的输出特征图 f e f^e feout如下:
在这里插入图片描述
其中 ∗ 表示卷积算子,tp表示扩张卷积路径的序号。W和b分别表示卷积层的滤波器参数和基。

除了在多个尺度上聚集显着特征之外,我们还在每个膨胀路径中进一步添加了密集连接,以尽可能保留深层特征。每一层的输出级联作为下一层的输入。我们将特征提取模块给出的红外和可见光图像的输出特征分别表示为 f e f^e feir f e f^e fevis
密集膨胀特征提取模块充分整合了来自不同感受野的信息,保证了深层特征的结构一致性。

Edge-Guided Attention Feature Fusion

多种注意机制已成功应用于许多计算机视觉任务中,因为它们可以捕获视觉场景中的感兴趣区域。融合的主要目的是找到每种模态的适当特征。为此,并受先前工作的启发,我们利用粗略的中间特征来获得增强边缘图像的注意力图。通过这种设计的基于边缘的注意机制,我们的融合结果可以同时保留更多的纹理细节并衰减不良的伪影。
具体地,通过两个步骤获得边缘图。我们将大小为m × n的输入灰度图像表示为u,并将其梯度图 ▽u定义为:
在这里插入图片描述
标签ua(i) 和ub(i) 分别表示位于源像素i的右侧和下方的最近邻居像素。我们还设计了一个边缘增强算子,以使梯度信息更加引人注目:
在这里插入图片描述
其中I ={1,…,m − 1} 和J ={1,…,n − 1}。索引i和j分别表示梯度图像的水平方向和垂直方向。
随后,我们将红外图像和可见光图像的增强边缘图输入注意机制,生成特征权重图Wir和Wvis,并计算边缘引导注意加权的融合特征 f a f^a faout:
请添加图片描述
来自由注意图Wir和Wvis加权的提取模块的双模态特征 f e f^e feir f e f^e fevis的总和生成融合特征,如图3所示。最终融合图像由如下给出的训练解码器从融合特征 f a f^a faout中重建。
请添加图片描述

Feature Compensation Reconstruction

图像重建旨在通过卷积层将特征图从特征空间转换为图像空间。简单地利用卷积操作可能会导致恢复图像过程中的重要信息丢失。我们引入了两个跳过连接,以减轻多次卷积后特征图的信息丢失。具体来说,我们将特征提取器模块中的三个不同的扩张特征相加,以补偿红外和可见特征,然后使用select-max策略以元素方式选择红外或可见特征。最后,我们在特征重建模块中沿着通道将这些补偿的特征连接到基于注意的融合特征。结果,从特征重建模块中恢复融合图像。我们的方法的流程图如图2所示。
请添加图片描述

Loss Function and Training Details

对于多模式图像融合,网络执行有监督/无监督学习没有基本道理。此外,在现实世界中很难获得足够的配准图像对。为此,我们通过馈送红外或可见光来训练网络,除了边缘注意机制外,我们还可以通过编码器解码器部分重建输入图像。我们在训练阶段的方法的详细框架显示在图2的左侧。
为了更精确地重建输入图像,我们最小化总损失函数Ltotal (LSSIM和LMSE与超参数 γ 的组合) 来训练我们的网络。SSIM是两个不同图像之间结构相似性的有效度量,它结合了三个分量,即亮度,结构和对比度。同时,MSE目标是测量输入和输出图像之间的像素强度。这两个损失函数共同约束了重建的结构和像素误差。总损失函数表示为:
请添加图片描述
LMSE计算输入和输出图像之间的欧几里得距离:
在这里插入图片描述
其中out和in分别表示重构数据和输入训练数据。M和N给出图像的大小,(x,y) 是像素位置。LSSIM的计算公式为:
在这里插入图片描述
符号SSIM(·) 表示结构相似性操作。
此外,受生成对抗网络 (GANs) 的启发,我们假设上述网络作为生成器,并在网络末端添加一个判别器,以引导生成器产生更自然的图像。添加的LAdv可以写成:
在这里插入图片描述
生成器和鉴别器是替代迭代,可提供更强大,更可靠的网络。
培训结束时,我们会在网络中提供两个注册的图像。训练过的coarse-to-fine模型用于从输入的两模态图像中提取深度显着特征。随后,利用联合边缘引导的权重图来乘以相应的特征,从而生成融合的特征。最后,融合的特征通过两个添加的跳过连接反馈到解码器模块中,以重建最终融合的图像。


http://chatgpt.dhexx.cn/article/HiUKYxZC.shtml

相关文章

多尺度特征的提取

1、图像金字塔 将图片进行不同尺度的缩放,得到图像金字塔,然后对每层图片提取不同尺度的特征,得到特征图。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得&…

MSRN(多尺度超分辨率重建)

目前的研究倾向于使用更深层次的卷积神经网络来提高性能。然而,盲目增加网络深度不能有效改善网络。更糟糕的是,随着网络深度的增加,训练过程中出现了更多的问题,需要更多的训练技巧。在本文中,我们提出了一种新颖的多尺度残差网络 (MSRN) 来充分利用图像特征,该网络优于…

【multi_scale】多尺度训练——目标检测训练trick

文章目录 1 多尺度训练的介绍2 代码解析3 感谢链接 1 多尺度训练的介绍 多尺度训练对全卷积网络有效,在训练时,每隔一定的 iterations,在一定尺寸范围内,随机选取一种 img_size 进行训练。通过对不同尺度的图像进行训练&#xff…

“多尺度”目标检测问题

一、“多尺度”目标检测问题简介 在目标检测任务中,被测目标的大小经常是不固定的,自动驾驶相关检测任务可能要同时检测大卡车与小狗;工业质检相关检测任务可能要同时检测布料的大面积撕裂与小穿孔;医疗病灶检测任务可能要同时检测大小不一的病灶。在被测物体尺度相差极大…

图像多尺度技术

1197 多尺度图像技术也叫做多分辨率技术(MRA),指对图像采用多尺度的表达,并且在不同尺度下分别进行处理。这样做的理由是很多情况下在一种尺度中不容易看清的或者获取的特性在另外的某种尺度下就很容易发现或者是提取。所以多尺度…

目标检测中多尺度:特征金字塔FPN_Feature Pyramid Networks for Object Detection

原始内容来源于: https://blog.csdn.net/cdknight_happy/article/details/100528127 https://blog.csdn.net/WZZ18191171661/article/details/79494534 包含理解! 参考文献:https://arxiv.org/abs/1612.03144 代码实现:http://ww…

MViTv2 多尺度视觉Transformer

虽然VIT(vision transformer)模型提出后,Transformer在CV领域一路攻城拔寨,不断刷新由自己创下的记录,但VIT文章中所说明的视觉领域transformer很大程度上受transformer模型平方复杂度的限制而在大尺度图像上表现不佳的…

综述:目标检测中的多尺度检测方法

传统卷积网络通常采用从上到下的单行结构。对于大物体而言,其语义信息将出现在较深的特征图中;而对于小物体,其语义信息出现在较浅的特征图中,随着网络的加深,其细节信息可能会完全消失。 多尺度检测也是当今物体检测领…

【笔记】多尺度方法

1.定义 2.常用架构 2.1多尺度输入网络 2.2 多尺度特征融合网络 (1) 并行多分支结构 (2) 串行多分支结构 2.3 多尺度特征预测融合 2.4 多尺度特征和预测融合 3.具体方法 3.1 SNIP 3.2 SNIPER(SNIP的改进) 3.3 SSD 3.4 TridentNet(…

多尺度多目标检测之金字塔

在日常学习工作中,经常会碰到一个概念,那就是金字塔(pyramid),本文就该概念进行一定的阐述,具体如下: (1)图像金字塔 图像金字塔结构,即对图像进行一定比例…

多尺度结构元素形态学边缘检测算法的研究-含Matlab代码

目录 一、引言二、数学形态学理论概述三、实验验证四、参考文献五、Matlab代码获取 一、引言 使用数字图像处理技术来解决计算机视觉、人工智能、生物遥感器视觉等领域所涉及到的图像问题时,最重要、最关键的一步是提取出图像中最有效、最有用的特征信息。而图像边…

多尺度熵---Understanding Multiscale Entropy

目录 导言计算多尺度熵多尺度熵在脑电分析中的应用参考文献 导言 多尺度熵(Multiscale entropy, MSE)将样本熵扩展到多个时间尺度,以便在时间尺度不确定时提供额外的观察视角。样本熵的问题在于它没有很好地考虑到时间序列中可能存在的不同时…

多尺度排列熵

文章目录 前言一、什么是多尺度排列熵?二、实验平台照片三、MATLAB代码3.1 多尺度排列熵3.2 排列熵 参考文献 前言 齿轮及齿轮箱作为机械设备常用的调节转速和传递转矩的旋转机械设备,不仅能够传递较大的功率和载荷,而且具有较好的可靠性。但…

多尺度是什么计算机视觉中 multi_SCALE

先给出定义吓死你们哈哈 多尺度,实际上就是对信号的 不同粒度 的采样 别急哈哈 粒度小,说明是一个很密集的采样,能看到更多更多的细节 而粒度粗 大 说明是一个很稀疏的采样,但是点与点之间隔得远了,就容易看到趋势了…

多尺度(multi-scale)目标检测方法

文章目录 1、多尺度图像预测2、金字塔特征预测2.1 FPN2.2 SSD 3、bounding box设计 1、多尺度图像预测 将图片进行不同尺度的缩放,得到图像金字塔,然后对每层图片提取不同尺度的特征,得到特征图。最后对每个尺度的特征都进行单独的预测。 特…

多尺度与多分辨率的理解

我一开始以为 多尺度与多分辨率 是一样的意思。后来看到了xiaowei_cqu博客的一篇文章“【OpenCV】SIFT原理与源码分析:DoG尺度空间构造”(以下简称,xiaowei一文),才发现我的理解有误。 尺度空间(scale space)理论 …

多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏)...

计算机视觉研究院专栏 作者:Edison_G 深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考虑它们之间的关系。 公众号ID|ComputerVisionG…

计算机视觉CV领域中多尺度特征的概念

知乎:深度学习中的多尺度模型设计 知乎:计算机视觉中的多尺度模型都有哪些设计? CSDN:多尺度理解 什么是多尺度? 所谓多尺度,实际就是对信号的不同粒度的采样。 通常在不同的尺度下我们可以观察到不同…

收藏吧 少年

程序员珍藏的东西会是什么?呵呵,除了平时写的代码,就是那些百看不厌的电子书了。 昨天很郁闷,我用了5年的移动硬盘,莫名奇妙的坏掉了。里面40G的资料全部报销了。 为了不再重蹈覆辙,我决定把重要的电子书…

一个程序员的多年珍藏--收藏

2010 - 01 - 15 [置顶] 一个程序员的多年珍藏(1月23日最新更新) 文章分类:Java编程 程序员珍藏的东西会是什么?呵呵,除了平时写的代码,就是那些百看不厌的电子书了。 昨天很郁闷,我用了5年的移动硬盘,莫名奇妙的坏掉了…