视频理解论文串讲——学习笔记

article/2025/6/27 11:29:38

文章目录

  • DeepVideo
  • Two-Stream
    • Beyond-short-Smippets
    • Convolutional Fusion
    • TSN
  • C3D
    • I3D
    • Non-local
    • R(2+1)D
    • SlowFast
  • Timesformer


本文是对视频理解领域论文串讲的笔记记录。


一篇相关综述:Yi Zhu, Xinyu Li, Chunhui Liu, Mohammadreza Zolfaghari, Yuanjun Xiong, Chongruo Wu, Zhi Zhang, Joseph Tighe, R. Manmatha, & Mu Li (2020). A Comprehensive Study of Deep Video Action Recognition… arXiv: Computer Vision and Pattern Recognition.
包括了大部分使用deep learning方法做action recognition的论文。

在这里插入图片描述


DeepVideo

Andrej Karpathy, George Toderici, Sanketh Shetty, Thomas Leung, Rahul Sukthankar, & Li Fei-Fei (2014). Large-Scale Video Classification with Convolutional Neural Networks Computer Vision and Pattern Recognition.
在这里插入图片描述
这四种方法中,最后一种方法最好,然而,还是没有之前手工提取特征的方法效果好。
因此,作者尝试寻找其它的方法:(多分辨率卷积神经网络)
在这里插入图片描述
使用这样的操作,确实变好了一些,但提升相对较小。
在这里插入图片描述

当时最好的手工特征在 UCF-101 上的 ac 已经有 87% 了。所以当时引起了大家的思考,为什么深度学习在视频理解领域不能像图像领域那样好。


Two-Stream

Karen Simonyan, & Andrew Zisserman (2014). Two-Stream Convolutional Networks for Action Recognition in Videos arXiv: Computer Vision and Pattern Recognition.
在这里插入图片描述

上面输入 RGB 图像;
下面输入光流图像。
最后softmax后简单加权平均。

14-17年在双流网络上的发展:
14-17年双流网络上的发展


Beyond-short-Smippets

Joe Yue-Hei Ng, Matthew Hausknecht, Sudheendra Vijayanarasimhan, Oriol Vinyals, Rajat Monga, & George Toderici (2015). Beyond Short Snippets: Deep Networks for Video Classification arXiv: Computer Vision and Pattern Recognition.


Convolutional Fusion

Christoph Feichtenhofer, Axel Pinz, & Andrew Zisserman (2016). Convolutional Two-Stream Network Fusion for Video Action Recognition arXiv: Computer Vision and Pattern Recognition.

在这里插入图片描述

1.做了大量的消融实验,可以让大家少走很多弯路。
2.尝试了3D Conv和3D Pooling,变相地推动了 I3D 的出现。

TSN

Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, & Luc Van Gool (2016). Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
在这里插入图片描述


C3D

Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, & Manohar Paluri (2014). Learning Spatiotemporal Features with 3D Convolutional Networks Cornell University - arXiv.

性能表现:
在这里插入图片描述

网络结构:(很像 vgg)
在这里插入图片描述
16:16个视频帧。
c3d特征:fc6抽出来的特征。

主要还是可以直接拿C3D来抽取特征。(因为别人训练不动)


I3D

Joao Carreira, & Andrew Zisserman (2017). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset Computer Vision and Pattern Recognition.

  1. 降低了网络训练的难度
  2. 提出了一个很好的数据集
    在这里插入图片描述
    把一个2D的网络扩充成一个3D的网络。(可以很好得使用2d网络在imagenet上预训练好的参数)
    证明了从2D网络到3D网络的有效性,比如后续的工作:
    在这里插入图片描述

在这里插入图片描述
把UCF101和HMDB-51数据集刷爆了,以后就是Kinetics数据集了。


Non-local

Xiaolong Wang, Ross Girshick, Abhinav Gupta, & Kaiming He (2017). Non-local Neural Networks arXiv: Computer Vision and Pattern Recognition.

一个即插即用的模块,可以在很多任务上取得好的结果。

在这里插入图片描述


R(2+1)D

Du Tran, Heng Wang, Lorenzo Torresani, Jamie Ray, Yann LeCun, & Manohar Paluri (2017). A Closer Look at Spatiotemporal Convolutions for Action Recognition Cornell University - arXiv.

一篇非常实验性的论文。
在这里插入图片描述

R(2+1)D这种结构的效果最好。
在这里插入图片描述
R(2+1)D的结构:
在这里插入图片描述


SlowFast

Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, & Kaiming He (2018). SlowFast Networks for Video Recognition International Conference on Computer Vision.

在这里插入图片描述
慢分支:小输入,大网络
快分支:大输入,小网络
在这里插入图片描述
慢分支是个标准的 i3d 网络。

在时间维度上一直没有做下采样。
在这里插入图片描述


Timesformer

Gedas Bertasius, Heng Wang, & Lorenzo Torresani (2021). Is Space-Time Attention All You Need for Video Understanding?. arXiv: Computer Vision and Pattern Recognition.

通过大量实验,探索了如果将 vision transformer 从图像领域迁移到视频领域中。
在这里插入图片描述
按照R(2+1)D的思路,设计了Divided Space-Time Attention。
Sparse Local Global Attentiono(L+G),类似Swim Transformer

下图是上面5种方法的可视化展示:
在这里插入图片描述

性能表现:
在这里插入图片描述


其它相关工作:
Xinyu Li, Yanyi Zhang, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio Brattoli, Hao Chen, Ivan Marsic, & Joseph Tighe (2021). VidTr: Video Transformer Without Convolutions Cornell University - arXiv.

Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, & Christoph Feichtenhofer (2021). Multiscale Vision Transformers Cornell University - arXiv.

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic, & Cordelia Schmid (2021). ViViT: A Video Vision Transformer arXiv: Computer Vision and Pattern Recognition.


脉络总结:

在这里插入图片描述


参考链接:
https://www.bilibili.com/video/BV1fL4y157yA/


http://chatgpt.dhexx.cn/article/6nuotOeM.shtml

相关文章

CGB2202串讲-java复习

java基础: day01: 1:java的开发环境: 编译器:.java源文件,编译成.class的字节码文件 运行期:jvm加载并运行.class字节码文件 2:名词解释: jvm: 加载并运行.cl…

我的论文串讲「一」

文章目录 [Done]2022-arXiv-It’s DONE Direct ONE-shot learning without training optimizationAbstractIntroductionRelated workMethodologyImplementation and DatasetResults and Discussion [Phase]2021-SPIE-Deep neural networks to improve the dynamic range of Zer…

多模态串讲(上)

多模态的学习在最近几年异常火爆,除了普通的多模态学习,比如视觉问答,图文检索等,其实之前讲的所有这种Language Guided Detection,或者Language Guided Segmentation,这些任务都是多模态的,还有最近火的文…

C++【引用】——串讲

【引用】——串讲(视频89-94) Note: i.视频为黑马程序员C视频,系列文章为视频听课笔记; ii.引用不仅包含定义及简单应用,在类与对象…中也有涉及; iii.难度指数: iv.不论变量、函数名、标识符形式怎样复杂…

CLIP 改进工作串讲(下)

CLIP 改进工作串讲(下) 本文为 CLIP 改进工作串讲(下)【论文精读】 的学习笔记。 图像生成 最近一年图像生成领域扩散模型大火,尤其是文本生成图像,DALL-E、imagen 等工作层出不穷,有机会专门…

操作系统串讲

前言 文章内容来源:东北大学的操作系统MOOC视频在操作系统的不同阶段,计算机的工作形式也不同,不要在一开始就将操作系统在心里预设成现代的 windows 或 linux 操作系统,以及将计算机预设成个人电脑等,防止代错对象、…

4.7串讲

4.7串讲 Java基础API 文章目录 4.7串讲 Java基础API字符串字符字符串StringBulider,StringBuffer 内存结构正则表达式字符字符类预定义字符类POSIX字符类(仅US-ASCII)java.lang.Character 类(简单的 java 字符类型)Uni…

计算机网络知识串讲复习(超全)

本篇我总结了学习计算机网络时必备的知识,可以用于巩固知识或者期末复习~~~如果觉得博主爆肝总结的不错,感谢点赞! 目录 1、计算机网络的几个发展阶段 2、计算机网络的组成 3、协议的概念 4、实体,协议,服务,和服务访问点 5、计算机网络的分类 6、…

CLIP改进工作串讲(上)

CLIP改进工作串讲(上) 本文为 CLIP 改进工作串讲(上)【论文精读】 的学习笔记。 CLIP 改进方向 语义分割 Lseg、GroupViT 目标检测 ViLD、GLIP v1/v2 视频理解 VideoCLIP、CLIP4clip、ActionCLIP 图像生成 VQGAN-CLIP、CLIPass…

毕业知识串讲

1. 京淘后端项目架构 1.1 数据库主从同步 1.1.1 业务需求说明 当数据库发生宕机的现象,如果配置了数据库主从同步,则可以从从库中获取现有记录,显示数据的恢复. 1.2 数据库主从同步原理 1.2.1 数据库冷备份 说明: 人工的将数据库文件定期导出,一式三份 如果其中一份丢失…

如何做好技术串讲

首先,如何做好演讲是个好话题,不过这过于大众的主题不想写,除非哪天能想到点 新意 再说; 其次,串讲和演讲有啥区别呢?其实也没啥区别,一会儿说说我自己的理解; 最后,什么…

软件开发过程与项目管理(8.软件项目质量计划)

软件开发过程与项目管理(8.软件项目质量计划) 课件 软件质量基本概念 质量定义 质量是满足要求的程度,包括符合规定的要求和满足顾客隐含需求。 软件质量定义 软件质量是软件满足明确说明或者隐含的需求的程度 质量与等级 质量与等级…

软件项目开发基本流程详解

软件项目开发流程图是用来详细描述了软件在开发过程中产品调研、设计、开发、测试等各个阶段中各个角色,包含产品经理、研发、测试、用户等需要处理的事情,以及在不同阶段可以达到哪种效果。那么,一款软件从研发到发布到底要经过哪些流程呢?…

嵌入式软件开发流程

根据使用的开发工具套件不同,软件开发流程会有差异,但主要步骤大致相同。对于使用宿主机(PC)的集成化开发环境,软件开发流程一般包括创建项目、添加文件、编译连接、下载调试等步骤,如下图所示。 图1&#…

软件项目开发流程以及人员职责,软件工程中五种常用的软件开发模型整理

文章目录 一、软件项目开发流程逻辑图开发流程需求分析概要设计详细设计编码测试软件交付验收维护 软件维护软件升级 软件项目开发流程以及人员职责软件工程中五种常用的软件开发模型整理软件系统开发流程七大详细步骤完整介绍 一、软件项目开发流程逻辑图 这张图应该清楚的说…

软件工程项目流程

软件工程项目流程 1.1 项目合作与成员 根据本项目的工作内容和范围,我们将成立一个20人左右的项目工作组来负责本项目的开发。 1.2 项目实施方法 项目管理的成效直接关系到整个项目的成败。尤其是实施与移动互联网有关的新技术应用项目,无论在国内和国外都是有一定难度的,更…

软件工程----开发大致流程

软件开发的流程 需求分析概要设计项目计划详细设计编码测试项目测试项目部署后期运维软件开发注意事项 不同的软件项目,有不同的需求侧重点,开发流程也是不一样的。比如开发一个大型Web电商项目,这个往往需要采用前后端分离的方式&#xff0c…

软件项目开发流程逻辑图

相关链接: 软件项目规划大纲知识点

软件项目的开发流程

一个项目的开发流程 软件开发流程(Software development process) 1.项目启动 1、项目组成立(公司成员、客户成员) 2、制定项目预期目标 3、制定项目计划周期 4、建立好项目组成员沟通机制 2.需求调研 1、创建调研计划、协调调研时间 2、收集客户资料,获取客户需求 …

软件项目开发流程

软件开发流程(Software development process) 首先 看一下基本软件项目开发流程图 其中 1.需求分析:通过对客户业务的了解和与客户对流程的讨论对需求进行基本建模,最终形成需求规格说明书。2.总体设计:通过分析需求信…