视频摘要算法概述

article/2025/9/27 17:10:27

DSNet: A Flexible Detect-to-Summarize Network for Video Summarization

论文
代码

不同于以往将视频摘要视为回归问题(没有考虑时间相关性和完整性约束),2021年,最早的考虑这两者。
视频摘要通常分为三步:
1、镜头边界的检测
2、每帧的重要程度分数预测
3、关键帧选取
现有的视频摘要算法分成三类,无监督、弱监督和有监督

无监督的方法,用启发式搜索,代表性、多样性、稀疏性,来发现关键镜头
代表性的方法是基于聚类的、基于字典学习的、子集选择的、强化学习的、对抗学习的

弱监督的方法利用了一些辅助信息,包括视频标题、视频种类等。
代表性方法:video summarization using web-image priors and category-specific
video summarization.

但以上两种方法无法学习人工创造的summaries

有监督的方法包括:diverse sequential subset selection for supervised video
summarization, video summarization with long short-term
memory, retrospective encoders for video summarization, video summarization with attention-based encoder-decoder networks, and user-ranking video summarization.

包括anchor-based和anchor-free的两种方法,暂时没看懂

主要贡献:
1、提出了一个Detect-to-Summarize的网络框架,提供了一个新视角,从时序相关的检测问题,同时也给出重要性分数和分割位置。
2、用anchor-based方法,生成多尺度的时序候选区域;用anchor-free的方法,直接学习重要性分数和时序位置,以及center-ness score.
3、在SumMe和TVSum数据集上进行广泛的实验(extensive),并验证了方法的有效性。

无监督的方法
1、Early unsupervised methods are the clustering-based
approaches like k-medoid clustering,These methods
mainly leveraged low-level appearance cues and motion information. While good performance has been obtained, they cannot effectively cope with videos with variations in camera motion, illumination conditions and scene clutters
早期的像k-medoid这样的方法,利用低级的外观线索和动作信息。有较好的表现,但无法处理相机移动多变、光照条件改变和场景混乱的视频。

2、最近提出了四种无监督的方法,大致分成四类:需要再看看
dictionary learning based(基于字典学习):把视频摘要任务定义为(formulate)稀疏优化问题sparse optimization problem. 比如把整个视频用字典里的一些代表性元素表示。
subset selection based(基于子集选择):子集选择的方法选择信息丰富的视频帧子集。
reinforcement learning based(基于强化学习):基于强化学习的方法,比如提出了一个具有多样性-代表性奖励的深度总结网络。
adversarial learning based(基于对抗学习):学习了从ground truth中难以区分的视频摘要。

弱监督的方法:
弱监督的方法使用了辅助信息,包括web先验?视频标题,和视频种类。

有监督的方法:
因为能够人为创造视频摘要,有监督的方法取得了突破性的进展。
1、利用时空显著性和地标的信息构建线性的模型。
2、把视频摘要视作一个Determinantal Point Process。
3、非参数的方法,将训练集的summary结构转移到测试集上。
4、基于深度学习的方法:大多数是基于RNN(循环神经网络):
通过LSTM评估视频帧的重要性分数。
分别使用固定长度的分层RNN和分层结构自适应LSTM揭示了视频的底层分层结构。
…(仔细再看)

anchor-based和anchor-free模型:
候选框网络被引入来动作定位和视觉语言基础任务。

论文提出的方法:
Detect-to-Summarize network
anchor-based:
在这里插入图片描述

特征提取:given a video sequence V of T frames,用goolenet来提取特征,extract feature vectors vj, j ∈ {i,…, T }. 然后adopt the self-attention
mechanism [?] to extract long-range representations {w j}T1。为了积分,最后的表示是xj = wj + vj .

Temporal Interest Proposals: 使用预定义的多尺度间隔来生成interest proposals, 在第t个时间未知,会生成k个proposals, 每个proposal以t时刻为中点。因此,一个视频序列将生成K*T个interest proposals. 每帧的重要分数相同,这样便只关注时序上的联系。

训练阶段:给每个候选框打上正负标签(0,1);为了平衡,采样正负比为1:3. 当proposal的时序IoU(tIoU)与任意ground truth超过0.6,视为正例。0视为不重要的帧集合;0到0.3视为不完整的帧集合,负例;论文提及如果把0.3到0.6的视为负例则可能会有损于摘要表现。

优点是,通过正负proposals,能够选择高tIoU的相邻帧集合并同时剔除不相关的帧片段;表示形式丰富,0到0.3视为不完整;此外,将完整性任务和分类任务区分开,避免了两者互相影响。

论文统计了SumMe和TVSum数据集上的每个ground truth片段的长度,在1到44范围内(帧数);为了方便,将proposal的尺寸设置为1,2,4,8,16,32;为了平衡效率和效果,只选择了频率最高的四个尺寸,4,8,16,32.

proposals的分类和回归
每个proposal的特征进行一次池化操作转化成固定大小的vector。然后被输入如下的分类和回归模块中
在这里插入图片描述
第一个是重要性分数,第二个是中心的偏移,第三个是长度的偏移,由第二个和第三个可以预测出所需要的片段的边界。

损失函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这之后,还需要通过NMS剔除冗余proposal,之后还需要使用KTS选择不大于原视频百分之15%内容,而且使得平均重要性分数最大的一些shots,最后组合成video summary.

anchor-free:
anchor-based方法的缺点:
1、基于proposals, 由于大多数都是负例,会导致类别失衡。First, to obtain a
high recall of ground truth segments, our anchor-based DSNet
approach is required to densely sample interest proposals
at each temporal location. But, most proposals are assigned
as negative examples, leading to a severe class imbalance
problem.
2、预定义性质不适用于解决复杂和动态的场景。
3、tIoU计算非常耗时。
4、anchor-based的方法需要微调生成proposals的超参数。
结构如下
在这里插入图片描述
在提取特征后,直接预测每一帧的重要分数、分段边界以及center-ness score(下面有用于计算损失)。
提取特征:一样。
片段预测:直接预测每一帧以及相对于所在片段的偏移位置(由此推断出所在的片段的边界)

损失函数
在这里插入图片描述
因为很多正例会靠近所在片段的边界,所以这样会产生很多质量较低的片段。为了解决这个问题,引入了一个中心损失,总损失如下(v是预测的输出之一,叫做center-ness score)
在这里插入图片描述
key shot selection:
用每一帧重要性分数和center-ness score相乘作为置信度,用每个片段的所有帧的置信度的平均值来做动态规划,和anchor-based的方法一样。

实验部分下次一定。


http://chatgpt.dhexx.cn/article/p0rDheLF.shtml

相关文章

信息摘要算法

Java常用的安全算法 目录概 述 LD is tigger forever,CG are not brothers forever, throw the pot and shine forever. Modesty is not false, solid is not naive, treacherous but not deceitful, stay with good people, and stay away from poor pe…

摘要算法(哈希算法)

1. HASH算法 哈希算法(Hash)又称摘要算法(Digest),它的作用是:对任意一组输入数据进行计算,得到一个固定长度的输出摘要。 哈希函数的主要作用不是完成数据加密与解密工作,它是用来检验数据完整性的重要技术,运算结果具有不可逆性。 通过哈希函数,可以为数据创建&…

五分钟搞懂摘要算法

一.摘要算法和摘要 1.概述 摘要算法又称哈希算法、散列算法。摘要也称哈希值,表示输入任意长度的数据,都会输出固定长度的数据。通过摘要算法(比如MDS和SHA-1)就可以得到该哈希值。 2.特点 长度固定,结果越长&#xff…

常用几种消息摘要算法

文章目录 1、MD5 (Message Digest algorithm 5 消息摘要算法版本5)2、SHA (Secure Hash Algorithm 安全散列算法)3、MAC (Hash Message Authentication Code 散列消息鉴别码) 消息摘要(Message Digest)又称为数字摘要(Digital Digest&#xf…

摘要算法与加密(以MD5算法为例)

【README】 部分内容总结自: 摘要与加密的区别(以MD5算法为例) - 掘金https://juejin.cn/post/6844903561478799368 【1】摘要算法与加密区别 【1.1】摘要算法(不可逆) 1)摘要算法: 说白了…

报文摘要算法

1 报文摘要算法 报文摘要算法是一种将任意长度报文转换成固定长度的报文摘要算法。它具有以下六个特点:能够作用于任意长度的报文;产生有限位数的标识信息;易于实现;具有单向性;具有抗碰撞性;具有高灵敏性…

摘要算法

摘要算法是一种能产生特殊输出格式的算法,这种算法的特点是:无论用户输入多少长度的原始数据,经过计算后输出的密文都是固定长度的,这种算法的原理是根据一定的运算规则对原数据进行某种形式的提取,这种提取就是摘要&a…

JAVA摘要算法

数据摘要算法是密码学算法中非常重要的一个分支,它通过对所有数据提取指纹信息以实现数据签名、数据完整性校验等功能,由于其不可逆性,有时候会被用做敏感信息的加密。数据摘要算法也被称为哈希(Hash)算法、散列算法。…

摘要算法和加密算法

什么是摘要算法? 摘要算法就是哈希算法,将一条任意长度字符串转为32位的哈希值,是单向的,不能解密。常见的摘要算法有MD5和SHA,本文将用java对MD5算法进行实现。 摘要算法的用途? 1.登录密码的加密&…

三种摘要算法的简单介绍

原文地址: http://blog.csdn.net/u013991521/article/details/48193953 介绍: 消息摘要算法分为三类: MD(Message Digest):消息摘要 SHA(Secure Hash Algorithm):安全散列 MAC(Message Authentication Code)&…

数据分析之运营篇

文章目录 1.指标体系定目标 1.1根据运营的目的,选取不同的指标类型 1.2.北极星指标 1.3 用户留存指标 2.数据分析找问题 2.1.描述分析 2.2多维分析 2.3.相关性分析 2.4.方差分析 2.5 样本检验 2.6 预测分析 3. 3A3R做决策 3.1洞察 3.2获客 3.3.活跃…

京东数据分析工程师(实习生)笔试

忙了一个星期,把最近的笔试面试记录一下。 京东前面单选多选题,后面3道编程题。小题考的很细,各种概率论统计数据库机器学习的知识点,很多都是蒙的,默默的把不会的题记下来,等再学会怎么做了以后发现蒙的都…

Python人力资源员工离职原因数据分析

本项目的数据集来源kaggle竞赛项目:HR-Analytics,自行下载即可! 1.提出问题 公司当中员工们离职的原因是什么? 什么样的员工会离职呢? 2.读取数据,理解数据 导入数据分析工具包,这次我们用seaborn库来优化我们的数据可视化图表! 读取数据 查看数据,head()方法没…

数据分析案例-电影数据分析

目录 电影数据集介绍 加载数据 数据探索和清洗 评分最多的电影 评分最高的电影 评分与年龄的关系 不同年龄段对某部电影的评分 电影数据集介绍 用户信息 #u.user #列名称 user_id,age,gender,occupation,zip_code #数据 1|24|M|technician|85711 2|53|F|other|94043 3…

数据分析岗位招聘分析

项目背景 学习实践数据分析,形成完整报告。分析目标:从行业、城市、学历、经验分析薪资及需求量分布情况 数据获取 集搜客获取拉勾【数据分析】为关键词的职位列表,根据列表职位详情地址爬取职位详情,435条记录,删除重复值后有…

数据分析的工作目标是什么

题图与内容无关,骗点击的。。。 其实这是回答我知识星球一位读者的问题,但恰好也是我现在在做的事情,所以想想,可以写一篇文章分享一下。 数据分析团队的工作方向,按照阶段分为如下目标。 1、提供准确、可靠、及时的基…

数据分析 面经(已拿到offer)

北航计算机专业(计院太卷,现考虑转向信息安全方向)本科二年级,闲来无事找份日常实习试试水 考虑数分岗也是因为楼主目前大二,专业课学习不够深入,开发技术尚不成熟,而sql、excel和数据可视化比…

数据分析笔试经典sql题解

欢迎关注微信公众号:开心数据 前言:sql是数据分析师笔试必考的考点之一,常考的题型有行列转换、联表查询,这些都比较简单,一般考的最难的就是hivesql窗口函数联表查询,普通的聚合函数每组(Group by)只返回…

滴滴出行2020数据分析面试题

目录 数据来源字段释义指标释义其他信息加载包加载数据数据预处理 问题1 订单的应答率、完单率分别是多少?2 呼叫应答时间多长?3 呼叫量最高的是哪一个小时(当地时间)?呼叫量最少的是哪一个小时(当地时间&a…

大数据分析实习生应该如何选择职业方向?

那么,大数据方向实习生到底该做些什么? Excel2013目前可以支持104万行数据,即使是这样也远远算不上大数据。 以下是华院数据整理的2015年大数据相关公司排名 看看你的公司在不在里边? 话说回来,对于一个实习生来说,让你处理Ex…