超强Video深度学习开源工具集,来了!

article/2025/9/21 15:11:08

      01      

导读

  • 广大人工智能算法工程师,有没有感觉到近几年AI程序员数量激增,公司新来的程序员也可以轻松实现图像分类、目标检测等基本深度学习任务,资深算法工程师岗位如何自保?

  • 广大内容平台的后台开发者,视频理解,视频标签与推荐、关键帧识别自动剪辑,这样的深度学习技术积累,你们准备好了么?

  • 普通用户们,有没有遇到过想从手机或者电脑视频库里面找之前一段视频(比如骑马、射箭、滑雪、游泳),但是无论如何也找不到的窘境。

如果有的话,那今天你赚到了!

言归正传,看看小编今天给大家带来的深度学习黑科技,直接上效果。

 

3000类短视频打标签,一行代码调用

精准定位角球、进球等精彩足球动作:

智能视频剪辑:《伤心镜头集锦:看谁最能打动人心》

注:值得一提的是,以上视频并不是人工剪辑的,完全是结合知识图谱做出的智能化视频生产。具体来说,首先运用知识图谱的能力,根据视频标题可以找到很多包含某些特殊动作类别的视频, 然后再运用Localization技术把每个视频中的这些片段剪辑出来,组合成一个新视频,最后用NLP技术生成视频标题分发出去。

这样的深度学习项目你一定觉得很有趣吧,是的,广大的开发者也是这么认为的。

开源之后star迅速增长,迅速拉升

项目主要干货包含:

  1. 丰富的模型种类:包括视频分类和动作定位两大技术方向模型,包括TSN,TSM,SlowFast,AttentionLstm,BMN等实用领先模型。其中,BMN模型是百度2019年ActivityNet(视频理解领域影响力最大赛事)夺冠方案。

  2. 开源3000类预训练模型VideoTag(离线可用):使用千万量级数据集训练的3000类视频标签预训练模型,可以快速预测部署。

  3. 开源足球动作检测算法FootballAction(离线可用):实现在一段未分割的视频中,定位出各种足球动作发生的起止时间以及该动作的具体类别 。

  4. 提出2D领域SOTA算法PPTSM:达到2D网络SOTA效果,Top1 Acc 73.5% 相较标准版TSM提升3%且模型参数量持平。

  5. 更快的训练速度:多种视频模型训练加速方案,其中SlowFast训练速度相较于原始实现提速100%,TSN训练速度相较于原始实现提速3.6倍。

  6. 完整部署全流程:搞过项目上线的工程师自然知道,完整的部署方案多重要。

如果心急的,可以直接传送门

  • 项目链接:https://github.com/PaddlePaddle/PaddleVideo

 

      02      

具体内容详解

 

(1)丰富的模型种类

PaddleVideo包含视频分类和动作定位方向的多个主流领先模型。其中TSN, TSM和SlowFast是End-to-End的视频分类模型,Attention LSTM是比较流行的视频特征序列模型,BMN是视频动作定位模型。TSN是基于2D-CNN的经典解决方案,TSM是基于时序移位的简单高效视频时空建模方法,SlowFast在ICCV2019上提出的3D高精度视频分类模型,特征序列模型Attention LSTM速度快精度高。BMN模型是百度开源2019年ActivityNet夺冠方案。

 

(2)开源3000分类预训练模型VideoTag

基于百度短视频业务千万级数据,支持3000个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模(千万/亿/十亿级别)短视频分类场景的应用。

(3)开源足球动作检测方案FootballAction

FootballAction分为三个组成部分:特征抽取,时序提名生成,动作分类及后处理模块。

① 特征抽取:图像特征: TSN;音频特征: Vggish

② 时序提名生成: BMN

③ 动作分类 + 回归: AttentionLSTM

(4)提出SOTA算法PPTSM

与图像任务相比,视频任务的难点在于时序信息的提取。传统的2D网络难以捕获时序信息,通过增加时序通道,3D网络能更好的联合时序特征建模。但3D网络的计算量较大,部署成本较高。TSM模型通过时序位移模块,有效平衡了计算效率和模型的性能,是一种高效实用视频理解模型,在工业界广泛应用。

PaddleVideo基于飞桨框架2.0对TSM模型进行了改进,在不增加参数量和计算量的情况下,在多个数据集上精度显著超过TSM论文精度,比如UCF101、Kinetics-400数据集上分别提升5.5%、3.5%。

在仅用ImageNet pretrain情况下,PPTSM在UCF101和Kinetics400数据集top1分别达到89.5%和73.5%,PPTSM在Kinetics400上top1精度为73.5%,是至今为止开源的2D视频模型中在相同条件下的最高性能。

(5)实现更快的训练速度

视频任务相比于图像任务的训练往往更加耗时,其原因主要有两点: 一是模型上,视频任务使用的模型通常有更大的参数量与计算量;一是数据上,视频文件解码通常极为耗时。为优化视频模型训练速度,项目中分别从模型角度和数据预处理角度,实现了多种视频训练加速方案。

针对TSM模型,通过op融合的方式实现了temporal shift op,在节省显存的同时加速训练过程。

针对TSN模型,实现了基于DALI的纯GPU解码方案,训练速度较标准实现加速3.6倍。

针对SlowFast模型,结合Decode解码库和DataLoader多子进程异步加速,训练速度较原始实现提升100%,使用Multigrid策略训练总耗时可以进一步减少。

预先解码存成图像的方案也能显著加速训练过程,TSM/ppTSM在训练全量Kinetics-400数据集80个epoch只需要2天;均大幅优于主流实现。

 

(6)打通完整部署全流程

PaddleVideo提供了便捷的命令行预测,只需要快速安装ppvideo:

pip install ppvideo

然后python命令行执行 ppvideo --model_name=”ppTSM” --video_file=指定视频文件

一行代码即可完成预测推理。在推理速度上,PPTSM也达到了惊人的147VPS

 

      03      

良心出品的文档

 

别的不需要多说了,大家上github上点过star之后自己体验吧,

  • 项目链接:https://github.com/PaddlePaddle/PaddleVideo

另外呢,repo中也贴心的给出了官方微信群,有问题可以进群,答疑更高效。

 

 

如扫码入群失败,请添加微信17867434144,回复暗号“视频”,运营小姐姐会邀请您入群。

 

 

更多相关内容,请参阅以下内容。

  • 官网地址:https://www.paddlepaddle.org.cn

  • GitHub:https://github.com/PaddlePaddle/PaddleVideo

  • Gitee:https://gitee.com/paddlepaddle/PaddleVideo


http://chatgpt.dhexx.cn/article/9X8NYJq2.shtml

相关文章

opencv上设置摄像头曝光参数的经验

实际应用中我们需要调整摄像头的参数比如曝光,由于opencv的后端是一般编译是支撑多种插件,详细信息请参考OpenCV: Video I/O with OpenCV Overview,这里引用里面的图: 对于VideoCaputure,后端有ffmpge,V4L&…

VS 配置 openCV 、Python 、Pytorch

VS 配置 openCV 和 Python 1、VS配置opencv1.1 系统环境PATH增加1.2 复制到Sysmtem32下1.3 配置项目1.3.1 包含目录添加1.3.2 库目录添加1.3.3 附加属性依赖项 2、VS配置Python2.1 复制include和libs文件夹复制到vs项目路径下面2.2将你需要调用的python脚本也存放在该目录下面2…

做机器视觉哪个软件好?

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达 机器人视觉有接触,但是不多,这里我推荐一下一个详细介绍的视觉软件。 在构建机器视觉系统时,开发人员可以选择众多知名公司的商用软件…

康耐视Visionpro脚本编写教程一

theme: github ​本文已参与「新人创作礼」活动,一起开启掘金创作之路。 康耐视visionpro脚本编写 visionpro目前来说在工业中的应用时非常的广泛的,而且作为苹果手机厂指定的视觉厂家来说,他的实力是毋庸置疑的。 康耐视VisionPro的优势&…

visionpro联合c#二次开发二

本文已参与「新人创作礼」活动,一起开启掘金创作之路。 本次康耐视联合C#文档是最后一篇visionpro与C#联合的文章,后续我们将开始c#与halcon的编写或者vidi的文章。 首先我们定义所需要的变量 //定义作业CogToolBlock job;//定义作业VPP的路径string p…

Visionpro联合c#二次开发

本文已参与「新人创作礼」活动,一起开启掘金创作之路。 本文已参与「新人创作礼」活动,一起开启掘金创作之路。 本次文章将会在最近半个月一直出关于康耐视的软件的应用的介绍,前期先是vp, 后续如果大家有兴趣,也会…

Segmentation-Based Deep-Learning Approach for Surface-Defect Detection-论文阅读笔记

Segmentation-Based Deep-Learning Approach for Surface-Defect Detection 基于分割的表面缺陷深度学习检测方法 //2022.7.20下午12:49开始阅读笔记 论文速览 文中提出了一个基于分割的两阶段的表面缺陷检测方法。第一阶段包括在缺陷的像素级标签上训练的分割网络&…

论文阅读:Segmentation-Based Deep-Learning Approach for Surface-Defect Detection

PDF\CODE 基于深度学习分割的表面缺陷检测 Domen Tabernik(domen.tabernik@fri.uni-lj.si); Samo Šela; Jure Skvar; Danijel Skoaj(danijel.skocaj@fri.uni-lj.si) part of Springer Nature 2019 摘要:基于机器学习的表面缺陷自动检测已经成为一个有趣且有发展…

Segmentation-based deep-learning approach for surface-defectdetection(基于分割的表面缺陷深度学习检测方法)

论文地址:https://arxiv.org/abs/1903.08536v3 摘要 基于机器学习的表面异常自动检测已经成为一个有趣且有前途的研究领域,对视觉检测的应用领域有着非常直接的影响。深度学习方法已经成为完成这项任务最合适的方法。它们允许检查系统学习通过简单地显示…

康耐视Designer,VisionPro和ViDi匹配版本兼容-关于外观缺陷检测中肯的建议与评价

海康visionmaster-颜色区分任意选 ​康耐视VisionPro传统检测对缺陷类检测很差,差到不能用。单靠康耐视VisionPro深度学习VIDI,据视觉人粉丝很多大厂反馈,现场项目落地的可能性降低不低于20%。 缺陷检测建议:多软件融合使用&#…

veni vidi vici密钥我的生日ACIGS解密_25人在同一天生日!男女比例又是多少?阳光新生大数据来了!...

2020年 阳光学院共迎来了3884名 活力四射、意气风发的 本科生小萌新 阳光招办带你 一起解密 新生大数据~ 准备好了吗? GO! 2020级普本新生2489人, 专升本新生1395人, 他们分别来自五湖四海,快来找找老乡吧~ 世界那么大,还是遇见你~ 相聚是一种妙不可言的缘分~ 2020级阳光…

vidi深度学习图像处理软件2.1

有需要这个软件的,请加我的QQ7299789 VIDI 提供了第一款基于工业图像分析的深度学习软件。VIDI Suite基于最先进的机器学习算法,是一款优化可靠的可现场测试的软件解决方案。它可以完成检测与分类的编程中不可能完成的挑战。这为不少具有挑…

Insight ViDi系列相机 FTP存图

一、测试说明 标题发现问题:使用In-Sight Vision Suite这个软件设置FTP存图,不能像In-Sight Explorer一样,设置各本地路径就可以直接存图。 相机软件:In-Sight Vision Suite(22.3.0) 电脑本地IP&#xff1…

康耐视深度学习ViDi界面介绍-选项菜单

海康机器视觉Visionmaster-距离与角度测量 选项菜单 Workspace ----------- 程序操作的菜单项 Tool ------------------- 工具操作的菜单项 Database ------------ 数据库操作的菜单项 View ------------------ 特征标注操作的菜单项 Plugins --------------- 插件信息显示菜单…

深度学习康耐视ViDi如何添加工具

在建立好一个Workspace后,会出现一个 图标 点击该图标的加号,即可显示可用的工具。 点击需要添加的工具,即可完成工具的添加

VIDI软件在粗糙金属表面缺陷检测中的应用

2017年1月12日在中国汽车协会举办的信息发布会上,中汽协秘书长助理代表协会对2017年中国汽车市场作出预测:“2017年我国的汽车产销量预计为2940万辆,增速预计保持在5%左右。”在当天发布的产销数据中,2016年汽车销量达2803万辆。 …

深度学习康耐视VIDI-蓝色定位工具1

机器视觉-康耐视visionpro-外观缺陷检测-缺失不少哈 每一个学员都会经历失败,专业于机器视觉visionman团队切中要害,尽快解决学员这些问题。 -专业于机器视觉visionman团队教学宣言 蓝色定位工具用于识别和定位图像中的特定特征或特征组。该工具的输出可用于为其他ViDi 工具…

康耐视ViDi如何实现工具之间的关联

(Q有答疑)康耐视智能相机Insight-边缘检测 要创建一系列工具,请在添加工具后,按工具图标上的加号图标。这样,您即可创建一系列工具,而每个工具都通过有相应工具颜色的关联选项卡显示。您可以通过单击相应 的工具从一个工具关联到下…

深度学习康耐视ViDi 工具概述

(Q有答疑)康耐视智能相机Insight-CD光盘表面检测 Cognex ViDi 工具是一系列机器视觉工具,通过深度学习解 决各种难以解决的挑战。虽然这些工具共享一个引擎,但它们 在图像中寻找的内容不同。更具体地说,在分析单个点、单个 区域或完整图像时,每个工具都有不同的侧重点。 C…

词向量与语言模型

本篇博客是对于 https://www.cnblogs.com/nickchen121/p/15105048.html#%E7%AC%AC%E4%B8%80%E7%AF%87-transformergptbert%E9%A2%84%E8%AE%AD%E7%BB%83%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%89%8D%E4%B8%96%E4%BB%8A%E7%94%9F%E7%90%86%E8%AE%BA的归纳 先来了解一…