目标检测、谓词组合网络检测和显著性检测——day62 读论文: Multi-task Compositional Network for Visual Relationship Detection

article/2025/10/12 7:33:57

视觉关系检测的多任务组合网络

  • Multi-task Compositional Network for Visual Relationship Detection
  • 1 Introduction
  • 2 Related Work
  • 3 The MCN(多任务组合网络)
    • 3.1 The Probabilistic Model of MCN
    • 3.2 The Architecture of MCN
      • 3.2.1 Object Detector
      • 3.2.2 Relationship Generator
      • 3.2.3 Relationship Predictor
      • 3.2.4 Correlated Loss Function
  • 4 Experiments
    • 4.1 Datasets, Evaluation Tasks, and Performance Metrics
    • 4.4 Ablation Experiments and Parameter Analysis
      • 4.4.1 Discussion of Significance Detection
  • 5 Conclusion

Multi-task Compositional Network for Visual Relationship Detection

视觉关系检测的多任务组合网络

摘要

  • 我们提出了一种新的视觉关系检测子任务,即显著性检测,作为目标检测和谓词检测的补充

  • 同时,我们提出了一种新的多任务组合网络(MCN),它可以同时执行目标检测、谓词组合网络检测和显著性检测

1 Introduction

image-20230112170904772

这张图显示了视觉关系检测对其他视觉识别任务的好处。在不丧失一般性的前提下,我们以低级任务目标检测和高级任务图像字幕为例。对于目标检测,视觉关系检测依赖于目标检测,但反过来,目标之间的连接有助于检测的精度。对于图像字幕,视觉关系检测提供了图像中目标之间的详细交互,从而改进了对仅由目标检测生成的图像的描述

2 Related Work

3 The MCN(多任务组合网络)

多任务组合网络(MCN)是一种同时执行目标检测、谓词检测和显著性检测的视觉关系检测方法。

3.1 The Probabilistic Model of MCN

假设s、p和o分别表示一个关系r中的主语、谓词和对象。视觉关系检测中常用的概率模型的数学公式可以写为:

P® = P(p|s, o)P(s|Bs)P(o|Bo). (1)

Bs and Bo主体和对象的两个单独的检测盒;**P(s|Bs) and P(o|Bo)**表示对象框和对象框属于一个对象类别的概率;P(p|s, o) 是object pair(s,o)属于一个谓词类别的概率

一些对象对不包含任何关系,例如建筑和树。有些物体对不是被人类标记的,比如建筑和人。我们将这些对象对称为不太重要的关系( less-significant relationships)。

  • 如果有k个检测到的对象,用于谓词检测的对象对的数量将是k(k−1),在等式中(1),隐式解决方案是期望较不显著的关系的P(s|Bs)或P(o|Bo)得分较低。
  • 在视觉关系检测中,应该直接考虑识别对象对是否包含重要的关系。我们将这个任务称为显著性检测

因此,对MCN的概率模型进行了改进如下:

P® = P(c|s, o)P(p|s, o)P(s|Bs)P(o|Bo) (2)

P(c|s, o)表示手动选择一个对象对的显著性概率。通过引入P(c|s, o),MCN通过允许不显著的关系,减轻了不显著关系的负面影响

3.2 The Architecture of MCN

MCN网络由三个相关模块组成:对象检测器、关系发生器和关系预测器。

image-20230112175446073

3.2.1 Object Detector

MCN uses Faster R-CNN with the VGG-16 network as the object detector;MCN可以与任何包含目标分类器的目标检测网络相结合,如Fast R-CNN(Girshick等人2014年)、YOLO(Redmon等人2016年)和SSD(Liu等人2016年)。

3.2.2 Relationship Generator

我们将关系分为两类:确定关系和不确定关系。MCN使用了由Zhan等人(2019年)修订的快速关系生成器,以自动产生有用的确定关系和不确定关系。

请注意,用于训练的对象对是由检测到的对象和人工标记的对象混合生成的。在测试中,对象对仅从检测到的前50个对象中生成。此外,具有错误检测对象的对象对也将被归类为未确定关系。因此,使用确定关系和不确定关系在一定程度上缓解了对象检测器错误检测对象的问题。

3.2.3 Relationship Predictor

  • 在关系预测器中,首先从对象对中提取三种特征:视觉特征、空间特征和标签特征。
  • 在此基础上,提出了一种新的多模态特征融合策略来融合这些互补特征。
  • 最后,建立了两个独立的子网来进行谓词检测和显著性检测。

该网络中的多模态特征融合策略。我们首先从主题和对象中融合相同模式的特征。然后,我们使用MFB对 对象对的视觉、空间和标签特征进行双峰特征融合。最后的多模态特征是三种双模态特征融合特征的组合

image-20230112182007686

3.2.4 Correlated Loss Function

具体标识表示的意思请移步原文查看(原文3.2.4节)

谓词检测损失计算如下:

image-20230112181817001

所选权重的定义如下:

wsel = (P(c|s, o)P(s|Bs)P(o|Bo))1/γ1 (10)

最终的相关损失函数的计算方法为:

Lrela = Lobj + λ(L pre + Lsig) (13)

4 Experiments

4.1 Datasets, Evaluation Tasks, and Performance Metrics

采用了两个常用的视觉关系检测数据集,即视觉关系检测(VRD)数据集(Lu et al. 2016)和视觉基因组(VG)数据集(Krishna et al. 2017)——Visual Relationship Detection (VRD) dataset (Lu et al. 2016) and the Visual Genome (VG) dataset (Krishna et al. 2017).。

4.4 Ablation Experiments and Parameter Analysis

具有不同参数值的MCN在VRD数据集上的性能

image-20230112172052847

4.4.1 Discussion of Significance Detection

图为不同显著性检测方法之间的比较

image-20230112172224100

上面对应的条形图与基于目标检测概率的显著性检测得分相比,提供了基于关系检测概率的显著性检测的增量。

“MCN-OP”是指仅基于对象检测和谓词检测的视觉关系检测。因此,它被用作基线方法。

image-20230112172433077

显著性检测的定性比较。我们比较了“MCN-op”和MCN在显著性检测上的前6名和后6名的结果。以三张图像为例。主题和对象被表示为主题→对象

在MCN中,由于显著性检测,错误检测到的“灯”被其他更显著的关系所忽略。这一结果表明,显著性检测可以解决目标检测对象的问题。

image-20230112172533354

“MCN-op”与MCN之间关系检测的定性比较。我们比较了“MCN-op”和MCN在关系检测上的前50个结果。提供了四幅图像及其基本真实关系。黄色表示由“MCN-OP”检测到的关系。蓝色表示由MCN检测到的关系。绿色表示未被检测到的关系。这些关系被表示为主题→谓词→对象

image-20230112172551572

MFURLN与MCN之间关系检测的定性比较。我们比较了MF-URLN和MCN在关系检测方面的前50个结果。提供了三幅图像及其基本真实关系。黄色表示MF-URLN检测到的关系。蓝色表示由MCN检测到的关系。绿色表示未被检测到的关系。这些关系被表示为主题→谓词→对象(在线颜色图)

MCN的两次故障。这两种例在前50名关系检测结果“MCN-op”中检测到,但在MCN前50名中未检测到

5 Conclusion

在本文中,我们将视觉关系检测视为目标检测、显著性检测和谓词检测这三个相关子任务的组成部分。我们提出了一种新的视觉关系检测网络,即mcn,它深度结合了目标检测、谓词检测和显著性检测。MCN由连接的三个模块组成,一个用来检测对象的对象检测器,一个关系产生器来产生确定关系和不确定关系的关系,以及一个关系预测器来决定显著性得分和预测谓词。

此外,我们还提出了一种新的MCN相关损失函数,以进一步探索生成的关系和高度相关的目标检测、显著性检测和谓词检测。

我们在两个视觉关系检测数据集上验证了MCN:VRD和VG数据集。比较MCN与最先进的方法的实验验证了MCN的竞争力。此外,我们将显著性检测应用到另一种视觉关系检测方法中,得到了很大的改进。MCN的高性能和其他方法的巨大改进说明了显著性检测对视觉关系检测的必要性和实用性。

最后,虽然我们的方法取得了令人满意的性能,但仍有改进的空间。例如,相关性,如一个人和衣服的共存,可以提高检测相关物体的效率。如何将这些对象之间的交互应用于更好地进行视觉关系检测仍然是一项困难但有用的未来工作。


http://chatgpt.dhexx.cn/article/YGicXldM.shtml

相关文章

【图像检测】基于Matlab实现图像显著性检测

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

图像显著性检测

今天看论文接触到一个新词—显著性检测,刚开始没想到是一个专业词汇,查了博客发现是一种极好的目标检测算法,可用于目标检测和定位,目标ROI区域粗分割,继而进行目标图像处理。 贴出原博客链接:OpenCV-pytho…

全局对比度的图像显著性检测算法

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达本文转自:opencv学堂 显著性检测概念 显著性就是可以快速引起你注意的对象或者物体,在图像或者视频中显著性检测的结果往往是图像或者视频中对象&…

显著性检测- HC模型

1. 模型论文: Global Contrast based Salient Region detection. Ming-Ming Cheng, Niloy J. Mitra, Xiaolei Huang, Philip H. S. Torr, Shi-Min Hu. IEEE TPAMI, 2015 2. 实现代码 (1) 显著性检测公共头文件 #ifndef SALIENTCOMMON_H #define SALIENTCOMMON_…

基于深度学习的显著性检测用于遥感影像地物提取(U-2-NET)

GitHub地址链接:https://github.com/NathanUA/U-2-Net 这个显著性检测很好用,强烈推荐,建议二分类的任务都来试试,尤其对边缘细节要求比较高的任务。 下面的效果要不是第一张图预测有瑕疵,我都以为预测代码是把标签复制…

图像显著性目标检测

一、概述 1、定义 图像显著性检测(Saliency Detection,SD), 指通过智能算法模拟人的视觉系统特点,预测人类的视觉凝视点和眼动,提取图像中的显著区域(即人类感兴趣的区域),可以广泛用于目标识别、图像编辑以及图像检索等领域&am…

显著性检测——LC模型

1. 参考文献&#xff1a; Visual Attention Detection in Video Sequences Using Spatiotemporal Cues。 Yun Zhai and Mubarak Shah. Page 4-5 2. 模型实现 2.1 显著性检测公共头文件 #ifndef SALIENTCOMMON_H #define SALIENTCOMMON_H // std lib #include <iostream…

GrabCut算法、物体显著性检测

图割GraphCus算法。利用颜色、纹理等信息对GraphCut进行改进&#xff0c;形成效果更好的GrabCut算法。 对图像的目标物体和背景建立一个K维的全协方差高斯混合模型。 其中&#xff0c;单高斯模型的概率密度函数用公式表示为&#xff1a; 高斯混合模型可表示为n个单高斯模型的概…

显著性检测的评价指标代码

包括MAE、Pre、Rec、F-measure、Auc、CC、Nss MAE&#xff1a; 平均绝对误差MAE&#xff08;mean absolute error&#xff09;&#xff0c;范围[0,∞)&#xff0c;当预测值与真实值完全吻合时等于0&#xff0c;即完美模型&#xff1b;误差越大&#xff0c;该值越大。 Pre、Re…

2023年显著性检测论文及代码汇总

AAAI LeNo: Adversarial Robust Salient Object Detection Networks with Learnable Noise Abstacrt&#xff1a;目前很少有SOD模型对人类视觉注意力难以察觉的对抗性攻击具有鲁棒性。先前的鲁棒显著性ROSA对预分割的超像素进行重组&#xff0c;通过密集连接的条件随机场CRF对…

【显著性检测】Matlab实现Itti显著性检测

目录 理论知识代码步骤读取图像得到金字塔图像提取底层特征计算显著图显著图综合 运行结果展示 理论知识 显著性检测 是指按照人类的视觉注意机制&#xff0c;判断出图像中的显著区域&#xff0c;并为该区域分配较高的显著值&#xff0c;通常认为显著区域更有可能包含目标&…

Opencv之谱残差显著性检测

学习资料参考&#xff1a; 张平.《OpenCV算法精解&#xff1a;基于Python与C》.[Z].北京.电子工业出版社.2017. 前言 在使用谱残差进行显著性检测之前&#xff0c;我们需要理解两个概念&#xff0c;分别是幅度谱和相位谱。 幅度谱和相位谱是将图片进行傅里叶正向变换之后得到的…

显著性检测——GR模型

显著性检测——GR模型 1. Introduction2. Saliency Model2.1 Initial Saliency Map2.2 Saliency Map Refining With Graph Regularization 3. Experiments4. Conclusion参考文献 本人最近在做视觉显著性检测相关的工作&#xff0c;决定把自己的学习经历形成文字&#xff0c;希望…

视频显著性检测----《Flow Guided Recurrent Neural Encoder for Video Salient Object Detection》

本文将重点与大家探讨和分享发表于CVPR2018上的视频显著性检测文章–《Flow Guided Recurrent Neural Encoder for Video Salient Object Detection》&#xff0c;在讨论之前&#xff0c;先带领大家简单回顾一下什么是显著性检测&#xff0c;目前图片显著性检测的常用方法&…

计算机视觉——图像视觉显著性检测

目录 系列文章目录 零、问题描述 一、图像显著性检测 1.定义 2.难点 二、常用评价标准和计算方法 1.综述 2.ROS曲线详述 2.1 混淆矩阵 2.2 ROC曲线简介 2.3 ROC曲线绘制及其判别标准 2.4 ROC曲线补充 三、Fast and Efficient Saliency (FES) 1.算法简介 2.项目导…

显著性检测后处理

将显著性检测图像后处理&#xff0c;绘出一个矩形框&#xff0c;方便使用 先通过边缘检测&#xff0c;然后通过opencv接口实现 结果如下&#xff1a; # --coding:utf # -8-*- import osimport cv2 as cv import numpy as np# canny边缘检测 def canny_demo(image):t 50cann…

基于深度学习的视频显著性检测学习(入门)

一、传统的视频显著性检测 什么是视频显著性检测呢&#xff1f; 我的理解是检测某一段视频的每一帧图片的显著性区域&#xff0c;那这样理解的话就相当于多个图片的显著性检测&#xff0c;所以他是依赖于输入视频帧的对比度、梯度以及纹理来进行相关计算。但既然是视频显著性检…

显著性检测—学习笔记

视觉显著性旨在模仿人类视觉系统选择视觉场景的某个子集的能力。而显著性物体检测&#xff08;SOD&#xff09;则侧重于检测场景中吸引最多注意力的物体&#xff0c;然后逐像素的提取物体的轮廓。SOD的优点在于它在许多计算机视觉任务中均有广泛的应用&#xff0c;包括&#xf…

显著性检测

版权声明&#xff1a;本文为博主原创文章&#xff0c;遵循 CC 4.0 BY-SA 版权协议&#xff0c;转载请附上原文出处链接和本声明。 本文链接&#xff1a; https://blog.csdn.net/qq_32493539/article/details/79530118 转载请附链接&#xff0c;注明出处。 显著性对象检测综述…

在线HTTP接口测试 - HTTP GET/POST模拟请求测试工具

最近发现一个超好用的“在线HTTP接口测试 - HTTP GET/POST模拟请求测试工具”。 链接在此奉上&#xff1a;在线HTTP接口测试 - HTTP GET/POST模拟请求测试工具 很好的一点就是我们只要QQ登录后&#xff0c;就可以记住请求地址&#xff0c;包括请求参数&#xff0c;包括请求co…