近期论文阅读

article/2025/4/20 22:54:33

[AAAI’21]ACSNet:Action-Context Separation Network for Weakly Supervised Temporal Action Localization

在这里插入图片描述
从图中可以看出,左侧绿色框表示是动作类、红色框表示是动作上下文、蓝色框表示为背景类。通过右图的特征空间可见,蓝色的背景类特征与GT相差较远,但是红色的上下文类与GT高度相似,特别是在边界区域,这就导致上下文的误检。

问题的引入:通过视频级别分类定位的前景不仅涉及实际操作实例,还涉及其周围的上下文。以前的方法利用前景注意来实现前景背景分离,而忽略了上下文和动作实例的剥离

Answer:由于上下文为动作分类提供了有力的证据,所以很容易和动作实例混淆,如果将上下文信息和动作实例进行有效的剥离,那么动作时间定位在细粒度上将更加准确。

Contribution:ACSNet不仅可以将前景与背景区分开来,还可以将前景中的动作和背景分离开来,以实现更精确的动作定位使用两个潜在组件的不同组合,分别描述前景、动作和上下文;带有上下文类别的辅助标签

以前的方法可不可以将上下文信息和动作实例剥离?

  1. 缺乏明确的动作语境约束:前景和背景注意力得分的一对一约束不适用于动作语境分离
  2. 缺乏明确的监督:动作和上下文都有助于动作分类,因此唯一可用的视频级别分类标签无法为它们提供直接监督。

为什么要引入上下文类别的辅助标签?
通过显式地解耦实际动作及其上下文,这种新的表示有助于有效地学习动作上下文分离。
在这里插入图片描述
前景由两个潜在的分量表示,将与实际动作对应为正分量,另一部分为负分量
在这里插入图片描述
之后分别将前景注意力、动作实例注意力以及上下文注意力通过两个分量进行拆分,如下图所示:
在这里插入图片描述
成功地将动作实例和上下文信息进行显示地解耦。之后引入最小化loss函数来监督动作实例注意力以及上下文注意力。
在这里插入图片描述

[CVPR’21] Action Unit Memory Network for Weakly Supervised Temporal Action Localization

在这里插入图片描述
TAL的重要观察结果:
(1)共享单元。要检测的操作通常包含一些主要操作单元,可以与其他操作类共享这些操作单元。例如,如图1(a)所示,跳高包含奔跑和向上跳跃,而跳远包含奔跑和向前跳跃,所以跑步是一个共享的动作单元。

(2)稀疏。一般来说,只有一些稀疏的视频片段包含有意义的目标动作。从图1(b)可以看出,一个动作只占视频的一小部分。

(3)平滑。本地化需要平滑的CAS,因为操作是连续的,如图1©所示。

记忆模板库的构建:
根据上述观察结果,作者提出了一个动作单元记忆网络来模拟弱监督时间定位的动作单元,设计了一个存储库来存储动作单元的RGB信息和FLOW信息以及相应的分类器。

多样性机制:由于栋座单元彼此不同,模板库中的每个模板应该是唯一的,所以需要鼓励模板之间的差异性
多样性损失:
在这里插入图片描述

同质性机制:某些模板可能与所有视频片段的相似度都很低,为了避免这种情况发生,设计了同质性机制来鼓励模板发生概率的均匀分布
同质性损失:首先通过求和运算将相似度矩阵随时间合并,然后使用softmax函数获得每个模板的发生概率
在这里插入图片描述
稀疏性机制:由于在未剪辑的视频中,动作片段只占整个视频的一小部分,并且大部分视频片段是背景。因此需要鼓励只有一组稀疏的视频片段才能与记忆单元中的模板具有高度的相似性
稀疏性损失:鼓励背景片段与所有模板都具有较低的相似度。
在这里插入图片描述
交叉注意力:
从记忆模板库中读取分类器和自注意力模板,通过聚合时间上下文信息来凝练特征,然后利用多样性、同质性和稀疏性三种辅助机制,得到段级预测并进行自适应更新
在这里插入图片描述
Self-Attention模块:首先通过查询Q计算视频之间的相似度评分,然后利用这些评分通过聚合上下文信息来细化视频片段特征。
在这里插入图片描述Cross-Attention模块:消息在段间进行传递,来提取全局上下文信息,获得更多的分类和定位特征
在这里插入图片描述

[CVPR’21]Learning Salient Boundary Feature for Anchor-free Temporal Action Localization

将I3D网络与anchor-free方法进行了结合,并经过了大量调试得出了第一个初始模型,但是这个模型只是简单地把anchor-free的思想借鉴过来,并没有对时序动作检测TAL这个任务作出什么相对应的改善。

在anchor-free方法中,已经有多数方法开始对模型进行一个refine的过程,而这个过程需要一些feature支撑来优化。

在TAL中,以往多数论文都在关注boundary边界信息,例如BSN、BMN、DBG。

因此在anchor-free的框架中,也可以针对初始的coarse boundary去挖掘这些boudnary的特征信息,并找到最显著的特征用来优化boundary以及action class的结果,根据这个思路我们提出了基于显著性优化的模块,对每个proposal的边界利用了max操作来找到最显著的边界特征。

设计到这里的时候,可以max操作来找显著特征的话,也就是让网络自己来学习这个特征,那是否能通过loss来进一步帮助网络去学习显著特征?借助分类的思想以及对比学习的思想提出了边界学习一致性损失函数。

Contributions:

  1. 提出了第一个有效的purely anchor-free的temporal action localization (TAL)的框架;
  2. 充分利用了boundary的特性,首先使用Boundary Pooling提取出显著的boundary特征,再使用Boundary Consistency Learning保证提取到的boundary特征的有效性。

两个问题:

  • 为什么要使用anchor-free的技术?
  • 答:之前TAL任务中使用的方案都是actionness或者anchor的方案。actionness方案例如DBG、BMN,就是在最后枚举了所有起点与终点组合的proposal再去筛选,虽然能保证high recall,但是也会产生很多冗余的结果;anchor方案例如RC3D、PBRNet,实际上是需要根据数据集去配置anchor,并且在实验中也发现这个配置稍微修改对结果有影响。因此anchor-free不仅相对来说产生更少的候选结果,也减少了一些超参的调试。另外我们的模型也是类似于RC3D或者PBRNet的框架,输入直接是一段视频序列,不需要类似DBG那样先抽特征保存后再测试,更符合落地场景。考虑到目前开源代码中缺少类似的框架,因此我们也公开代码来丰富一些TAL这个代码社区。
  • 为什么后续需要refine呢?
  • 答:在TAL任务里,boundary信息一直是重要的信息,因此我们根据这个任务特性提出了Boundary Pooling和Boundary Consistency Learning,这两个具体的实现我们后面展开。

网络结构图:
在这里插入图片描述

  1. 特征提取部分(Feature Extraction):这里我们直接输入一段T x 96 x 96的视频端,通过I3D网络提取特征,最后转1D的特征金字塔;
  2. 粗糙预测(Coarse Prediction):这边就是anchor-free的第一阶段,对于每个金字塔层,预测每个时间点上的左右边界距离,以及该proposal的分类;
  3. 精细预测(Refined Prediction):对于粗糙预测的结果,通过Saliency-based Refinement,根据粗糙预测中的每个proposal,寻找到最显著的边界特征,用这个feature来优化每个proposal的边界位置,并且得到精细预测的分类,最后还会输出该proposal的quality来表示该预测的质量。

激活指导学习:

激活指导学习就是利用像DBG、BMN那样制作出start与end标签,利用该标签作为GT并指导特征的学习。首先我们将FPN特征或者frame-level特征使用tanh和mean操作进行转换,转换为channel=1,值范围为[0-1]的中间特征:
在这里插入图片描述

再对这个中间特征使用start与end标签使用BCE进行约束。

边界对比学习
这部分则是借鉴了对比学习的思想。在训练过程中,随机将一段输入根据前景进行切割,例如将前景A切割成A1与A2,再切割一部分背景部分Bg放在A1和A2的中间,形成A1-Bg-A2。对于这样的片段,应该有这样的特征距离分布,A1的end boundary特征应该与A2的start boundary特征接近,而A1的end boudnary特征应该与Bg的start与end boundart特征距离较远,因此这里使用triplet loss来约束这个现象:
在这里插入图片描述


http://chatgpt.dhexx.cn/article/9hnal140.shtml

相关文章

学会阅读论文

参考知乎 《如何在计算机应用领域寻找研究想法》 提示1:学会阅读论文,培养品味 《how to read a paper》 THE THREE-PASS APPROACH 关键的想法是,你应该把论文读三遍,而不是从头读到尾。每一关都完成了特定的目标并建立在前一…

【论文阅读】

文章目录 Enhancing Recommender Systems With a Stimulus-Evoked Curiosity Mechanism1、引言2、理论基础(原文中使用preliminary)3、问题定义4、本文提出的刺激诱发的好奇心机制(STIMULUS-EVOKED CURIOSITY MECHANISM ,SECM&…

怎样阅读论文

2014-07-27彭明辉南京叠锶 生命是一种长期而持续的累积过程,绝不会因为单一的事件而毁了一个人的一生,也不会因为单一的事件而救了一个人的一生。属于我们该得的,迟早会得到;属于我们不该得的,即使侥幸巧取也不可能长久…

学术论文阅读方法

文章目录 学术论文阅读过程大量阅读学术论文方法:目的: 复现优秀论文提出创新点整理成文 看不懂怎么办幻灯博客视频课程代码 More研究生生活工作业务要求英语老师建议 近期基本完成机器学习和深度学习的学习,开始六分看论文三分学基础一分撸代…

如何阅读研究论文

遥想当年,曾有一段时间经常下载国内论文来阅读,主要是关于漏洞挖掘相关方向的,但最后发现,天下文章一大抄,从本科到博士的研究论文有很多如此,另外有些只是做完作业,对研究结果完全无视&#xf…

论文阅读

Neural Multi-scale Image Compression 2018年5月 图像压缩技术 东京大学针对先前工作仅使用最深层特征表示来编码的问题,提出多尺度有损自编码器实现更好的率失真平衡;针对顺序无损编码造成时间消耗大的问题,提出并行多尺度无损编码器实现快…

如何阅读论文

如何阅读论文 李沐1. 第一遍:文章主要讲什么1.1 看整体1.2 看图表 2. 第二遍:文章每一部分讲什么3. 第三遍:真正读懂 吴恩达1.1 系统阅读论文集1.2 论文至少要看三遍1.2.1 第一遍,仔细阅读论文中的标题、摘要和关键词。1.2.2 第二…

学习GAN必须阅读的10篇论文

生成对抗网络是深度学习中最有趣和最受欢迎的应用之一。本文将列出 10 篇关于 GAN 的论文,这些论文详细介绍了 GAN,以及了解最新技术的基础。 目录: DCGANImproved Techniques for Training GANsConditional GANsProgressively Growing GANsBigGANStyleGANCycleGANPix2PixS…

html5表格两列合并_详解html中表格table的行列合并问题解决

这篇文章主要介绍了详解html中表格table的行列合并问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 因为要做个网站,里面的内容除了大段文字之外…

HTML表格标签

1.表格的主要作用 表格主要是用于显示、展示数据&#xff0c;可以让数据展示的规整&#xff0c;可读性好。 表格不是用来布局页面的&#xff0c;二十用来展示数据的。 2.表格的基本语法 1.<table></table>是用于定义表格的标签。 2.<tr></tr>标签…

手机表格html5,手机上怎么做表格?

手机上怎么做表格?以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 手机上怎么做表格? 我的手机都是通过下载安装wps这个app程序,制作的表格。 就个人使用经验,手机制作表格,最好只做简单明了的,方便制作的…

html在线表格样式模板,HTML5+CSS3 表格设计(Table)

HTML5+CSS3 表格设计(Table) 2018-09-16 CSS样式: [css] view plain copy body {width: 600px; margin: 40px auto; font-family: "trebuchet MS", "Lucida sans", Arial; font-size: 14px; color: #444; } table {*border-collapse: collapse; /* IE7 an…

怎么修改html表格间距,html怎么设置表格间距

在html中&#xff0c;可以使用border-spacing属性来设置表格间距&#xff0c;该属性设置相邻单元格的边框间的距离(仅用于“边框分离”模式)&#xff0c;语法格式“border-spacing:水平间距 垂直间距;”。 本教程操作环境&#xff1a;windows7系统、CSS3&&HTML5版、Del…

HTML5表格合并之行合并出现问题

写了这样一段代码 <!DOCTYPE html> <html><head><meta charset"UTF-8"><title>表格标签</title></head><body><table border"1" width"500" height"400" cellpadding"50&qu…

用html5创建表格

&#xfeff;&#xfeff; 1.表格的基本结构 <table>:一个表格只允许出现一对<table>&#xff0c;html5不再支持它的任何属性 <tr>:表示表格的行数&#xff0c;html5不再支持它的任何属性 <td>:写在<tr></tr>内&#xf…

html5表格制作教程,html怎么做表格

html做表格的方法&#xff1a;首先新建一个html&#xff0c;并在“”中间填入表格内容&#xff1b;然后在“”中间输入样式表的样式&#xff1b;最后设置单元格的宽度高度等等样式即可。 本文操作环境&#xff1a;Windows7系统、HTML5&&CSS3版&#xff0c;DELL G3电脑 …

html5中如何消除表格间的间隔,HTML5表格间距问题

我试图让所有这些图片排成一列。由于某些原因&#xff0c;它在单元格的底部添加了额外的空间。我尝试了所有解决这个间距问题的不同解决方案。HTML5表格间距问题 下面就来看看我的HTML5代码以及&#xff1a; table{ border-collapse : collapse; border-spacing : 0; border:0;…

html5表格源码,HTML5表格制作源代码.doc

HTML5表格制作源代码.doc (4页) 本资源提供全文预览&#xff0c;点击全文预览即可全文预览,如果喜欢文档就下载吧&#xff0c;查找使用更方便哦&#xff01; 3.9 积分 &#xfeff;HTML5表格制作源代码 (姬岚洋)代码&#xff1a;th{font-size:18px;text-align:center;padding-…

HTML5——表格及表格属性(持续更新中....)

1、表格概述 在HTML中可以使用表格table标记将一组相关数据直观、明了地展现给网络访问者。 表格以简洁明了和高效快捷的方式将图片、文本、数据和表单的元素有序地显示在页面上&#xff0c;从而设计出漂亮的页面。 在这里先弄清一个概念且熟记&#xff1a;什么是行&#xff…

HTML5中表格与表单概述以及基本属性

HTML5中表格与表单概述以及基本属性 一、表格1.表格概述2.表格的基本结构3.表格的属性4.单元格的合并 二、表单1.表单概述&#xff08;1&#xff09; 表单组成&#xff08;2&#xff09; 表单标记 2.表单标记与详解(1) input标记&#xff08;2&#xff09; select标记&#xff…