100多万个视频短片数据集来啦!

article/2025/10/16 14:45:20

640?wx_fmt=jpeg

本文经授权转载自 IEEE电气电子工程师学会(ID: IEEE_China)


想象一下,如果我们必须向外星人解释地球上发生的所有行为。我们可以为他们提供非小说类书籍或BBC纪录片。我们可以尝试口头解释什么是电臀舞。但是,实际上,没有什么能比三秒钟的视频短片更好地传达出这一行为的含义


640?wx_fmt=gif

Falling Asleep(入睡,来自GIPHY网站)


感谢麻省理工学院和IBM的研究人员,我们现在有了一个做了清晰的标签标记的数据集,其中包含有100多万个视频短片。这个数据集名为“Moments in Time”,已经收集了地球上发生的数百种常见行为,有鲜花绽放的美丽时刻,也有令人尴尬的被绊倒和嘴啃泥场景。


640?wx_fmt=gif

Tripping(绊倒,来自GIPHY网站)


然而,Moments in Time的创建并不是为了提供一系列GIF动画,而是为人工智能系统识别和理解视频中的行为和事件打下基础。迄今为止,大量标记过的图像数据集,如用于物体识别的ImageNet和用于场景识别的Places,在开发更准确的图像分类和理解模型中发挥了重要作用。


“视频理解尤其是视频中的行为识别,与图像理解的情况是不同的。”MIT- IBM沃森人工智能实验室的首席研究员、创建Moments in Time的主管研究员Dan Gutfreund说。“虽然用标签标记了行为的视频数据集在Moments in Time之前就已经存在,但它们比图像数据集要小好几个数量级。此外,它们是以人为中心的,有时还是针对特定领域的(比如体育)。”


视频来源:MIT CSAIL


因此,Gutfreund及其同事们力图开发一个分类系统,该系统可以涵盖最常见的行为(不管这些行为是由人类、动物还是物体完成的,也不管它们是在什么环境下完成的)。他们首先列出了来自VerbNet的4500个最常用的动词(VerbNet是由语言学家开发和使用的一个动词知识库)。


他们将动词解析成语义相关的词簇,然后从每个词簇中选择最常见的动词。结果显示英语是很冗余的一种语言。例如,洗浴、淋浴、沐浴、皂洗、洗发、修指甲、保湿和用牙线——这些都可以简单地归入“梳洗打扮”的范畴。在对动词进行了细致的整合之后,研究团队确定了339个用做Moments in Time基础的关键动词。


640?wx_fmt=gif

Grooming(梳洗打扮,来自GIPHY网站) 


但是,当对视频本身进行分类时,会遇到一系列独特的挑战。例如,描述某个东西正在“打开”(opening),那可能是一个人正在打开一扇门,也可能是一朵花正在绽放,甚至可能是一只卡通狗正在张开嘴。更重要的是,相同帧反向播放,实际上可以描述不同的行为(“关闭”,closing),这意味着捕捉视频的时间线对于理解视频和将其正确分类是至关重要的。


640?wx_fmt=gif

Opening(打开,来自GIPHY网站)


研究人员从网上挑选了与这339个动词相关的视频,将每个视频的时长缩短到3秒。这些视频短片被发送到众包平台Amazon Mechanical Turk上,该平台上的用户帮助对100多万个视频短片进行分类(他们只需点击“是”或“否”来确认每个视频短片中是否发生了指定的行为即可)。


每个标签都经过几个用户的验证。关于该数据集如何创建的详细信息,发表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上,文章标题为“Moments in Time Dataset: one million videos for event understanding”


麻省理工学院计算机科学与人工智能实验室(CSAIL)的Mathew Monfort是该项目的首席研究员,他指出,一些分类,比如“Walking”(步行)或“Cooking”(烹饪),是很简单的,而另一些则不然。“Playing Music”(演奏/播放音乐)可以是一个乐队在舞台上演奏,也可以是一个人在用收音机听音乐。Monfort说:“具有这种视觉和听觉多义性的类目的识别,对于当前的机器学习模型来说是非常具有挑战性的。”


640?wx_fmt=gif

Playing Music(演奏/播放音乐,来自GIPHY网站)


在该数据集的下一版本中,该团队计划使用相同的视频集合,并标记出每个视频中发生的多个行为。“当我们考虑视频的本质时,很明显需要更多的信息来恰当地描述一个事件,而用一个行为标签来训练和评估模型是不完整的。”Monfort说。“将多个标签纳入数据集应该可以显著改善模型训练,同时也为不同行为之间的关系问题以及如何对它们进行推理打开了大门。”


很快,更复杂的视频可以通过机器学习算法分类,轻松自如。


不久之后,机器学习算法可能可以毫不费力地对更复杂的视频加以分类。


640?wx_fmt=gif

机器学习(Machine Learning,来自GIPHY网站)


640?wx_fmt=png


数据集地址:http://moments.csail.mit.edu/


(本文为 AI科技大本营转载文章,转载请联系原作者


在线分享会

周五晚8点

拿下斯坦福和剑桥双offer,00后的算法学习之路


640?wx_fmt=png

推荐阅读:

  • 波音737连续坠毁,AI要背锅?

  • 拿下斯坦福和剑桥双offer,00后的算法学习之路

  • 10行Python,搭建一个游戏AI | 视频教程

  • 7行Python代码,搭建一个可以识花的机器学习APP | 视频教程

  • 人人之间“不简单”,关系图谱“有一套”

  • 近45亿元拿下开源服务器Nginx,F5买断应用交付未来?

  • 中国区块链开发者真实现状:半数只懂皮毛; 数据分析师吃香; Java/Python或成为主流开发语言

  • 13岁女学生因两行JavaScript代码被捕!

  • 没有一个人,能躲过程序员的诱惑!

                         640?wx_fmt=png

❤点击“阅读原文”,查看历史精彩文章。


http://chatgpt.dhexx.cn/article/0ixCGVbi.shtml

相关文章

大数据视频课程汇总

1.由于未经视频版权方授权,很可能会被下架,请各位需要的同仁及时下载,如果被下架,请留言说明。 2.视频为大数据梅峰谷整理,所有视频不加密,不收费,不做机构的宣传品,(因为微信和各大…

视频分类数据集介绍

视频分类数据集 在视频分类项目中,有很多经典的公开数据集,目前主要的数据集如列表所示: 重点介绍三个中等规模的数据集。 1. UCF101 动作识别数据集,从youtube收集而得,共包含101类动作。其中每类动作由25个人做动作…

Python毕业设计 抖音短视频数据分析与可视化 - python 大数据 可视化

文章目录 0 前言1 课题背景2 数据清洗3 数据可视化地区-用户观看时间分界线每周观看观看路径发布地点视频时长整体点赞、完播 4 进阶分析相关性分析留存率 5 深度分析客户价值判断 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕…

大数据分析视频全套

一、全套视频总览 二、大数据分析之level2 三、大数据分析之level3 四、大数据分析之level4 五、课程相关资料 具体详细内容及目录结构如下: 注: 大数据分析与大数据开发的区别在于:本套课程涵盖算法更多,需掌握python语言&#…

AI大数据可视化EasyCVR视频融合平台的部署操作流程详解

EasyCVR视频融合平台基于云边端一体化架构,具有强大的数据接入、处理及分发能力,平台支持海量视频汇聚管理,能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,实现视频直播、云端录像、云存储、…

音视频造数据的路

目录 1、多路数据制造 (1)合并多路 (2) 视频修改分辨率 (3) 修改视频码率 (4)修改帧率 2、音频流多声道合成 (1)双声道合并单声道 (2&…

音视频数据介绍

1、前言 在诸如安防系统标准GB28181和“电网视频监控系统及接口”中,固定视频流的传输格式为PS格式。PS流和TS流的概念是在MPEG2的ISO/IEC-13818标准的第一部分“系统”中提出的。其提出的目的是提供MPEG2编码比特的存储与传输方案。 2、先介绍PS封装中的…

互联网海量视频数据的存储

原文链接:http://www.docin.com/p-86312184.html?docfromrrela 一、背景 互联网内容提供方式转变:用户创造内容。视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展,使得海量数据存储、管理和处理成为当今互联网公司面临的严峻问题。这…

浅析大数据时代下的视频技术发展趋势以及AI加持下视频场景应用

视频技术的发展可以追溯到19世纪初期的早期实验。到20世纪初期,电视技术的发明和普及促进了视频技术的进一步发展。 1)数字化:数字化技术的发明和发展使得视频技术更加先进。数字电视信号具有更高的清晰度和更大的带宽,可以更快地…

音视频数据方案

一点点想法:还请各路大神多多指点! 技术栈: 1、数据存储、数据缓存、数据索引:springboot redis mysql elasticSearch 2、数据抓取:python mysqlBeautifulSoup、Selenium、lxml 3、图片分析:pythonPill…

浅析基于EasyCVR视频技术构建工业园区视频安防大数据监管平台的方案

随着社会经济的快速发展,越来越多的工业园区也正在加快智能化建设的步伐,为入驻企业提供舒适、安全、科技、智慧的办公及生产环境。在建设园区的智能化安防视频监管平台时,需要满足两方面的需求:一是园区内部及周边公共区域安全防…

某马大数据全套视频

某马大数据 01、阶段一 Python大数据开发基础 01、第一章大数据介绍及开发环境 02、第二章 linux命令 03、第三章 MySQL数据库 04、第四章 excel的使用 05、第五章 kettle的使用 06、第六章 数据分析及可视化 07、第七章 大数据框架与数仓基础 08、第八章 数仓实战项目 …

视频观看行为高级分析(大数据分析)

今天介绍一下我们的视频观看行为高级分析功能。 一、观看行为分析 观看行为分析,基于Polyv大数据分析,能够以秒为粒度展示观众如何观看您的视频。 视频观看热力图是单次观看行为的图形化表示,Polyv云点播视频的每一次播放,都会产…

【毕业设计】基于大数据的抖音短视频数据分析与可视化 - python 大数据 可视化

文章目录 0 前言1 课题背景2 数据清洗3 数据可视化地区-用户观看时间分界线每周观看观看路径发布地点视频时长整体点赞、完播 4 进阶分析相关性分析留存率 5 深度分析客户价值判断 5 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,…

五分钟读懂视频大数据分析

 发展至今,大数据不再为互联网企业独有,而是逐渐成为覆盖各行业、可以为具体业务服务的技术。如今,春节不仅演化成了一年一度的“人口迁徙”大节,还成了交通、安保等领域接受技术检验的关键时刻&#xff…

视频大数据的三大发展趋势

趋势一:系统集成下的技术融合 智能视频分析计算本身就是一个非常耗计算资源的过程,利用分布式计算平台的并行计算能力及云平台的计算资源弹性分配机制,可以有效利用平台的计算资源提高视频处理能力。同时,视频分析算法也需要不断…

大数据与视频技术的融合趋势将带来怎样的场景应用?

视频技术和AI技术的融合是一种新兴的技术趋势,它将改变视频行业的运作方式。视频技术和AI技术的融合主要包括以下几个方面: 1)人脸识别技术 人脸识别技术是AI技术的一个重要应用场景。它可以通过对视频中的人脸进行识别和分析,实…

视频时代的大数据:问题、挑战与解决方案

导读:视频大数据云边协同解决方案。 作者:韩锐 刘驰 来源:大数据DT(ID:hzdashuju) 01 介绍 人们所观察的世界无时无刻不在改变,造就了“视频”相比于文本等类型的数据更具表现力,包含…

C# 工厂

(转载)C#抽象工厂模式的几种实现方法及比较 Posted on 2008-12-05 19:45 chefZ 阅读(5127) 评论(2) 编辑 收藏 引用 C#抽象工厂模式的几种实现方法及比较 转载地址: http://www.cndw.com/tech/net/2006042758468.asp 利用设计模式可以使我们的代码更灵活&#…

工厂方法模式--要车,轮子你得帮我装!

工厂模式常见的三种: 简单工厂模式工厂方法模式抽象工厂模式 工厂模式优点: 代码清晰,有效的封装变化对调用者屏蔽具体的产品类降低耦合度 工厂方法模式: 四要素: 工程接口,核心。工程实现产品接口&a…