ECCV2022细粒度图像检索SEMICON学习记录

article/2025/9/23 22:33:13

论文题目:SEMICON: A Learning-to-hash Solution for Large-scale Fine-grained Image Retrieval

论文链接:http://www.weixiushen.com/publication/eccv22_SEMICON.pdf

代码链接:https://github.com/aassxun/SEMICON

动机

大多数现有的深度哈希方法仅支持通用目标检索,如汽车、飞机,这无法满足我们的实际需求。因此,最近关于深度哈希的工作已经开始关注细粒度图像检索,这需要准确检索图像的类别,例如不同种类的动植物等,而不仅是通用类别。

创新点

作者提出了 Suppression-Enhancing Mask based attention and Interactive Channel transformatiON (SEMICON)。SEMICON 有两个分支:一个是全局特征学习分支,具有单个全局哈希单元,用于表示目标 (全局) 级别的含义;另一个是局部模式学习分支,具有多个局部哈希单元,用于表示多个局部级别的含义。此外,SEMICON 还有两个关键模块,Suppression-Enhancing Mask based attention (SEM) Interactive Channel transformatiON (ICON)。SEM 应用于局部模式学习分支的每个学习阶段,动态地定位关键图像区域。对于 ICON,则在每个特征张量上使用该模块,将特征的通道作为 token embeddings (token 常用于 NLP中,每个单词为一个 token,在 CV 中,通常将图像中的一个 patch 作为一个 token),实现不同通道之间的交互。这篇文章的创新点可以总结为以下两点:

(1) 提出了 SEMICON,用于处理细粒度的哈希学习任务;

(2) 设计了 SEM 和 ICON 来分别维持不同激活区域之间的关系以及建立不同通道之间的相关性。

方法论

整体框架

通常,全局局部特征在细粒度的视觉任务中都至关重要。因此,SEMICON 的整体框架维持了一个全局特征学习分支和一个局部模式学习分支,如下图所示。相应地,哈希码的学习也由两个单元组成,即全局级哈希映射单元和局部级哈希映射单元。具体来说,全局级哈希映射单元被用于捕获目标级二进制哈希码,而局部级哈希映射单元被划分为 m 个子线性编码器,有利于显式地获得部分级二进制哈希码。因此,SEMICON 最终学习的哈希码包含目标级和部分级含义。此外,作者提出的基于抑制增强掩模的注意力 (SEM) 模块和交互式通道转换 (ICON) 模块被用于生成有区别度的全局级特征和相关的局部级特征。

对于每张输入图片 I,经过主干网络提取深度激活张量,公式如下:

随后,T 会经过一个全局转换网络 \phi,该网络由卷积层堆叠而成,被用于提取全局特征,公式如下:

其中,\theta _{global} 为全局转换网络中的参数。

此外,T 也会经过局部模式学习分支,该分支由注意力引导 P_{1}\epsilon R^{c\times H\times W} 组成,该引导被用于在第一阶段中生成注意力掩码 M_{1},生成的掩码与 T 逐元素相乘,公式如下:

随后,SEM 模块被用于在接下来的 m-1 个阶段中生成注意力掩码 M_{i}。此外,为了获得一个特定于语义信息的表示,T_{i}^{'} 还会经过一个局部转换网络 \phi ^{'} (该网络与全局转换网络具有相同的结构),公式如下:

随后,ICON 分别作用在 \hat{T} 和 \hat{T}_{i}^{'},在各张量中产生跨通道的交互。

最后, \hat{T} 和 \hat{T}_{i}^{'} 还会经过全局平均池化层 (GAP),产生全局特征 x^{global} 和 m 个局部特征 x_{i}^{local}。为了生成二进制码,二进制码映射模块由 m + 1 个线性编码器组成,

这些编码器将  映射为  。 最终,哈希码学习模块将作用在 ,以生成最终二进制哈希码,

SEM

SEM 模块可以维持不同激活区域之间的关系。具体来说,对于张量 T,通过以下公式可获得注意力引导 P,

获得 P_{1} 后,再经过一个 1*1 卷积就可得到 M_{1}。至于剩下的 m-1 个注意力图,则由 SEM 生成,这不仅有助于抑制(而不是简单地擦除)先前最具辨别力的区域,还有助于增强其他激活的区域。作者首先通过 softmax 函数来计算前一阶段的注意力图 M_{i-1} 中每个单元的权重:

随后,对该注意力图中的所有权重 (共 H×W 个),求出均值和标准差。随后对每个单元的权重进行如下操作 (f_{SEM}),

其中,α 用于正则化判别区域的抑制率和其他激活区域的增强率。

此外,前一阶段的注意力引导 P_{i-1} 通过执行 element-wise Hadamard product 变为 P_{i} (不太理解,需看代码辅助理解)。 第 i 个注意力图 M_{i} 随后由第 i 个 1×1 卷积层 \varphi _{i} 生成,

通过执行这种基于抑制-增强掩码的注意力操作,前一阶段的注意力引导中最具辨别力的区域将被部分抑制 (不是简单的 erasing)。同时,那些未激活的区域将被进一步抑制,而其他激活的区域将受到关注。因此,可以保持前一阶段的激活区域与之后生成的激活区域之间的关系。

ICON

ICON 的框架图如上图所示。在所有通道上直接执行交互式通道变换的计算复杂度是相当大的。 因此,对于给定的张量 ,作者将其分成几个部分,并设计了一个两阶段的交互式通道转换模块 (如下图所示),可以直接在传统的深度哈希框架中使用,以减少计算开销。

具体来说,第一阶段是由堆叠的 N 个 identical parts 组成。给定 G,将深度张量划分为 N 个长度 (图中为 d) 相等的子张量 。对每个 G_{i} 进行交互通道转换操作,生成 G_{i}^{'},以便在子张量内部通过不同通道进行交互。第一阶段中的交互式通道转换操作可以描述为将唯一的 query Q_{i} 以及 key-value 对 K_{i}V_{i} 映射到输出 \hat{G}_{i}Q_{i}K_{i} 以及 V_{i} 由 G_{i} 经过 1*1 卷积层产生。上述操作可用以下公式描述,

其中,\delta 为一个固定的正数偏置项。

为了让不同的子张量进行交互,将 G_{i}^{'} 中每个特征图视为一个 token (每个 G_{i}^{'} 均有 d 个特征图),并将各 G_{i}^{'} 中相同位置的特征图重组为 G_{i}^{''} (可参考上图)。具体来说,每个 G_{i}^{''} 由 N 个通道组成,

随后,ICON 的第二阶段会作用在 G_{i}^{''} 上,处理过程与 ICON 的第一阶段相同。在这两个阶段之间,作者采用了 BN 和 ReLU,并在每一阶段之后都采用了残差连接。

哈希码学习

作者基于全局和局部特征,进行了哈希码学习。假设有 q 个数据查询点  以及 p 个数据库点 ,对于每个 q_{i} 和 p_{j},它们均由一个全局特征及 m 个局部特征组成,

其中,k 为最终二进制哈希码的长度。哈希学习的目标是学习查询点和数据库点的二进制哈希码,并同时保持它们的相似性。哈希码的学习过程可表示为:

其中,Γ 表示所有数据库点的索引,Ω ⊆ Γ 表示查询集点的索引,表示成对监督信息,β 和 γ 为权衡两部分的超参数。

实验

作者在 CUB200-2011、Aircraft、Food101、NABirds以及 VegFru 共五个数据集上进行实验,实验结果如下,

与 SOTA 方法 A^{2}-Net 相比,SEMICON 在 Aircraft 和 VegFru 数据集上分别提升了 11.42% 和 17.17% 的 mAP。此外,SEMICON 在中等规模细粒度数据集 (例如 CUB200-2011 和 Aircraft) 以及大规模细粒度数据集 (例如 NABirds 和 VegFru) 上都获得了优异的结果。这些结果验证了 SEMICON 的有效性,以及它在细粒度检索中的实用性。

消融实验的结果如下,

结论

这篇文章提出了 SEMICON 来处理大规模细粒度图像检索任务。SEMICON 中包含了 SEM 和 ICON,分别用于保持不同激活区域之间的关系以及捕获细粒度部分的相关性。此外,通过包含全局级和局部级两个单元的哈希映射模块,可分别从具有不同级别的特征中生成最终学习的二进制哈希码


http://chatgpt.dhexx.cn/article/dm5Ns1cF.shtml

相关文章

ECCV 2020 论文大盘点-人脸技术篇

本文盘点ECCV 2020 所有与人脸相关的研究,涵盖人脸各子领域,总计46篇文章,涉及21个方向。 除了常见的人脸检测、对齐、识别、活体检测,人脸合成、编辑、重建、动画等技术都非常吸引人。 下载包含这些论文的 ECCV 2020 所有论文: ECCV 2020 论文合集下载,分类盘点进行中 …

ECCV2020最佳论文 | 全面解析光流计算模型RAFT

作者‖ flow 编辑‖ 3D视觉开发者社区 导语: RAFT这篇文章荣获了ECCV 2020的best paper,可以说实至名归,也将在光流领域的研究历史中留下浓重彩墨的一笔,本文将从RAFT算法的实现、迭代更新及实验结果对该篇文章进行解析&#xff…

NeRF神经辐射场ECCV2020

目录 NeRF前置内容:渲染和观察方向摘要1.Introduction2.Related Work2.1.Neural 3D shape representations2.2.View synthesis and image-based rendering 3.Neural Radiance Field Scene Representation4.Volume Rendering with Radiance Fields5.Optimizing a Neu…

ESDNet-2022ECCV

论文题目 Towards Efficient and Scale-Robust Ultra-High-Definition Image Demoireing 1. Introduction 随着移动设备的快速发展,针对Ultra-High-Definition图像的去摩尔纹研究更具有实际意义,但此前没有高清数据集,因此本文建立了一个新…

ECCV2020-DETR笔记

ECCV2020-DETR-End to End Object Detection with Transformers arxiv [打开本地pdf](eccv2020-DETR-End to End Object Detection with Transformers.pdf) github仓库 DETR的卖点是End-to-End, 它没有复杂的后处理,把目标检测问题当作集合预测问题,…

ECCV2022 论文最全汇总!附下载

大家好,我整理了 CVPR2022 和 ECCV2022 的代码和论文 https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo https://github.com/DWCTOD/ECCV2022-Papers-with-Code-Demo 我将 CVPR2022 所有论文汇总并上传到网盘上,受到挺多小伙伴的喜欢&#xff…

ECCV22 最新论文汇总(目标检测、图像分割、监督学习、GAN等)

强烈感谢极市平台提供的论文资源 ECCV 2022 已经放榜,共有1629篇论文中选,录用率还不到20%。为了让大家更快地获取和学习到计算机视觉前沿技术,作者对ECCV2022最新论文进行追踪,包括分研究方向的论文及代码汇总。 本次更新的 ECCV…

ECCV2020超分辨率方向论文整理笔记

ECCV2020超分辨率篇 ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,是计算机视觉三大顶级会议(另外两个是ICCV]和CVPR)之一,两年一次在欧洲召开。 ECCV2020超分方向有24篇,涉及图像超…

ECCV 2020 图像增强论文汇总

本文盘点 ECCV 2020 中底层图像处理方向相关的论文,包含:图像增强、图像恢复、去摩尔纹、去噪和质量评价论文,总计 29 篇,去摩尔纹 2 篇,去噪 10 篇,图像增强 7 篇,图像恢复 9 篇,质…

ECCV 2018 论文下载及分析(774篇全)

ECCV2018 收录论文整理,共774篇。 百度云链接:https://pan.baidu.com/s/1Mg0Kw9bepUK6_vqqVSOjNQ ,密码:mh97。 以下是下载后的文件: 以下是文件名对应的论文名称: 序号 文件名论文题目1Aaron_Gokaslan_I…

WDNet—2020ECCV

论文题目: Wavelet-Based Dual-Branch Network for Image Demoireing 基于小波变换的双分支图像去摩尔纹网络 1. Introduction 提出了一种基于小波和双分支神经网络的去摩尔纹方法,同时提出了一种空间注意机制direction perception module(DPM )方向感…

新鲜出炉!ECCV2022 107个开源数据集合辑,全球 AI 研究热点一网打尽

两年一度的ECCV2022终于在万众瞩目下召开啦,相信有不少小伙伴们对今年ECCV发布的新方向、新算法和新数据集十分感兴趣。今天小编从数据集的角度入手,给大家精选了ECCV2022发布的8个数据集,囊括了庞大的标注数据和新奇又有趣的任务&#xff0c…

ECCV2022 Workshop | 复杂环境中的多目标跟踪和分割

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 来源丨CVer 本文主要介绍我们将在ECCV2022举办的workshop:复杂环境中的多目标跟踪和分割 多目标跟踪和分割任务是在视频中定位和关联感兴趣的目标,是城市监控、公共安全、视频内容理解…

ECCV 2020 best paper: RAFT算法解析

ECCV 2020 best paper: RAFT 作者‖ flow 编辑‖ 3D视觉开发者社区 3D开发者社区该文链接‖ https://mp.weixin.qq.com/s/IknaCBVllJZI0pGZA6iANw 导语: RAFT这篇文章荣获了ECCV 2020的best paper,可以说实至名归,也将在光流领域…

ICCV、ECCV、CVPR三大国际会议

目录 前言 一、ICCV、ECCV、CVPR是什么? 1.ICCV 2.ECCV 3.CVPR 二、三大会链接及论文下载链接 前言 作为刚入门CV的新人,有必要记住计算机视觉方面的三大顶级会议:ICCV,CVPR,ECCV,统称为ICE。 与其它学术领域不同&#xff0…

计算机视觉会议(CVPR,ECCV,ICCV,NIPS,AAAI,ICLR等)

文章目录 前言CVPRICCVECCVNIPSAAAIICLRICJAI链接汇总表格直达 前言 大家都知道,计算机视觉和人工智能领域发展非常迅速,大部分最新的工作都首先发表在顶级会议上,这些顶级会议反映了当前的最新研究方向和最新方法。本文主要介绍一下CVPR&am…

计算机视觉三大会议--ICCV、CVPR、ECCV简要介绍

计算机视觉三大会议–ICCV、CVPR、ECCV简要介绍 ICCV 英文名:IEEE International Conference on Computer Vision 中文名: IEEE国际计算机视觉大会 时 间: 两年一次(奇数年),通常在四到五天。第一届ICCV会…

ICCV, ECCV, CVPR,IEEE的关系

计算机视觉领域世界三大顶级会议分别为CVPR、ICCV和ECCV。 CVPR CVPR,英文全称IEEE Conference on Computer Vision and Pattern Recognition,中文全称是国际计算机视觉与模式识别会议。这个会议是由IEEE主办的一年一度的全球学术性顶级会议&#xff…

计算机视觉方面的三大顶级会议:ICCV,CVPR,ECCV(统称ICE)

ICCV/CVPR/ECCV发论文的难度,相当于顶级SCI期刊 和目前国内评价学术水平是以在学术期刊发表SCI论文的情况不一样,大家要注意:在计算机视觉方向,会议论文 > 期刊论文(在重要程度上来说) 原因是&#xff…

OPA 4 - createButtonTest

Created by Wang, Jerry on Nov 08, 2015