推荐一些动作识别数据集

article/2025/10/16 3:47:31

↑↑↑↑↑点击上方蓝色字关注我们!




『运筹OR帷幄』原创

作者:周岩

编者按:动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。

动作识别(Action Recognition)是最近计算机视觉领域比较火的一个Topic,近年来有越来越多的相关文章出现在CVPR、ICCV和NIPS等机器学习和计算机视觉顶会上。这里就有一个Github的repo(https://github.com/jinwchoi/awesome-action-recognition)总结和整理了动作识别领域的相关研究工作和数据资源。

动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。

获取对自己研究合适的视频数据集可能需要花大量的带宽资源和硬盘资源下载,本文就动作识别领域目前有的公开数据集进行了深入研究,详细了介绍了一下各个数据集的特点,读者可以在本文的帮助下,根据自身的需要选择合适的数据集下载。

1、经典数据集

  • KTH(http://www.nada.kth.se/cvap/actions/):

经典的动作识别数据集,也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据,其中包含6个动作,每个动作由25个人物在4个不同的场景下完成,因此一共有600个视频序列,每个视频又可以分割成4个子序列。KTH数据集的动作比较规范,同时采用固定镜头,数量对于目前的模型训练来说也比较丰富,所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。同时,KTH在GitHub的处理的开源程序有很多,可以随时根据自己的需要进行参考。

             

  • Weizmann(http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html):

另一组比较经典的数据集,数据同样是固定镜头下的10个典型动作的视频,同时数据集提供了一些带有其他物体的动作作为干扰,可以测试模型的鲁棒性。

官方同时提供了去除背景的程序,但是数据集的数据量比较少的90组常规数据和21组鲁棒测试数据,对于目前的模型训练来说显得有些不足,不过对于本来就需要用小数据的模型比如迁移学习或者One-short Learning来说或许是适合的数据集。

             

  • Inria XMAS(http://4drepository.inrialpes.fr/public/viewgroup/6):

    这组数据主要提供了同一个动作在多组镜头角度下的视频数据,可以说是简单的动态背景。数据集提供了11名演员每人3次的13个日常动作,演员们自由选择位置和方向。这个数据集的下载比较特殊,需要通过wget来下载。

  • UCF sports action dataset( https://www.crcv.ucf.edu/data/UCF_Sports_Action.php):

一个主要关于运动的数据集,这个数据集也是质量比较高的数据集,主要为13个常规的运动动作。但是美中不足的同样是每种数据的数量都比较少,不过这个数据集出了一些后续的数据集比如UCF-50(http://crcv.ucf.edu/data/UCF50.php)和UCF-101(http://crcv.ucf.edu/data/UCF101.php)等。

              

  • Hollywood human action dataset.(https://www.di.ens.fr/~laptev/actions/):

根据好莱坞电影镜头剪辑出来的数据集,这个数据集包含475个视频,数据量上有一定的保证,但是这个数据集有个特点就是电影镜头往往不是单一的动作,而且很多动作同时混合在一起,同时背景由于镜头切换会有非连续的情况出现,或许这样的情况会对模型的训练造成影响。另外这组数据还在后续提供了更大数据量的数据集:https://www.di.ens.fr/~laptev/actions/hollywood2/。

             

总结:以上就是对经典数据集的介绍,经典数据集的数据量普遍比较少,而且场景也相对简单,而且提出的时间通常在2000前后,视频的分辨率也普遍偏低,更详细的介绍可以参考2014年的一篇综述文章:A survey on vision-based human action recognition。

2、中等规模的数据集

  • HMDB(http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads):

这个数据集一共有51个类别,平均每个类别有100-200组数据。从数据量和类别上来看可以看到是具有比较丰富的数据的,但是这个数据集也是由一些电影镜头和日常的摄像机拍摄的视频为主,所以背景相对复杂,同样有动态镜头和切换镜头的视频。因此这个数据集更适合目标识别和目标检测。

             

  • SVW(http://cvlab.cse.msu.edu/project-svw.html ):这个数据集的特点是适合多种形式的任务,可以作为目标检测也可以作为动作识别。目前这个数据官方提供了matlab程序来分割视频(不过亲身实践后发现程序有一些bug需要调试),数据集一共包含30个种类的数据,经过分割后会有更多的类别可供动作识别来用。这个数据的背景也有一些是移动状态下的,但是总体来说对于识别是中等规模数据集中比较合适的。

         

总结:中等规模的数据集普遍具有相对与经典数据集更多的数据量,而且在类别上也更多,这也体现了随着计算规模的发展,可以建立的预测模型越来越复杂,可以处理更复杂的任务。

3、适用于深度学习的大规模数据集

  • ActivityNet(https://github.com/activitynet):Google在2016年出品的数据集,数据的来源主要是Youtube,带有很强的深度学习背景,数据量很大,需要通过官方提供的程序自行下载,官网提供的数据仅为数据的Youtube地址。由于数据主要来源于Youtube,所以这个数据集相对更复杂,更适合目标检测。但是通过动作检测提取后的数据更适合动作识别数据集。

             

  • 20BN-jester(https://20bn.com/datasets/jester/v1#download):手势识别数据集,视频的背景比较固定,动作也更单纯,所以更适合直接应用与动作识别。同时,数据量和类别也很充足,更值得一提的是,数据是以jpeg存储的,所以在读取数据时甚至可以不通过OpenCV这样的框架就可以处理数据。另外,网站还提供了基于物体的动作识别,这两组数据对于实际的应用场景会更有意义。

           

  • NTU RGB+D(http://rose1.ntu.edu.sg/datasets/actionrecognition.asp):

该数据集提供了丰富的数据量,并且视频的背景相对固定,很适合进行动作识别,同时数据的特点是同时提供了RGB,深度和骨骼视频。数据集的全部数据高达1.3TB,并且后续有更丰富的数据集提供("NTU RGB+D 120"),但是这个数据的下载需要通过网站申请账号,但是一天之内会有回复(仔细填写一般都可以通过)。

     

总结:大规模数据集的特点主要是数据量比较大,类别也更多,并且网站上普遍不能提供直接的下载,而是通过提供类似爬虫程序的方式下载。这类数据主要以近3-5年出现的数据集为主数据的大小普遍在GB甚至TB级,需要用深度模型和更强算力的机器来建立模型处理。

4、特定场景的数据集

以上都是一些比较有名的开源数据集,常常用来做算法的benchmark。那么针对一些实际的应用场景,我们往往还需要一些特殊的数据集。这样的小众数据集有很多,我们不一一来收集做介绍,这里只是举例介绍其中的一个。

Distracted Driver Detection是一个司机状态检测数据集,包含10个状态,共22425张图 。大小4G。(数据文末回复关键词可见)

             

数据集地址:

https//www.kaggle.com/c/state-farm-distracted-driver-detection/data

每年很多的交通事故的发生都是因为司机没有专注于自动驾驶,因此一个好的辅助驾驶系统不仅要关注车外的情况,也要时刻关注车内驾驶员的情况。

这一个数据集来自kaggle平台,包含了10种状态,如下:

c0:safe driving

c1:texting-right

c2:talking on the phone-right

c3:texting-left

c4:talking on the phone-left

c5:operating the ratio

c6:drinking

c7:reaching behind

c8:hair and makeup

c9:talking on passenger

一些样本如下,每一类约2000多张图像,共22425张图。

  

最后总结:

这篇文章主要对动作识别领域的一部分数据集做了一些基本的介绍和探讨,很多数据也没有实际的处理和应用,所以并不够深入,但是也希望这篇文章能起到一个抛砖引玉的作用,更详细的介绍可以直接去数据集的官网阅读说明并下载研究。如何组织好自己的数据为算法提供支撑是做研究的关键一步,最后小编希望大家可以通过这些数据做出更精彩的成果。

文章申明

文章作者:周岩

责任编辑:周岩,贯军

微信编辑:葡萄

文章由『运筹OR帷幄』原创发布

备注:公众号菜单包含了整理了一本AI小抄非常适合在通勤路上用学习

往期精彩回顾那些年做的学术公益-你不是一个人在战斗适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(第一部分)备注:加入本站微信群或者qq群,请回复“加群”加入知识星球(4500+用户,ID:92416895),请回复“知识星球”

喜欢文章,点个在看


http://chatgpt.dhexx.cn/article/9dVBHHov.shtml

相关文章

动作识别数据集

官网内容总结 1.UCF101(https://www.crcv.ucf.edu/data/UCF101.php) UCF101发布于2012年,来源于YouTube,拥有来自101个动作类别的13320个视频,在动作方面具有最大的多样性,并且在摄像机运动,物体…

动作识别的笔记

动作识别的笔记 最近有看实验室师姐写的一篇有关动作识别的论文,里边有讲到一种特征融合的方法,怕到时忘记,就此记录下。 (只是简单的记一些流程,公式暂时没有编辑) 论文简介 人体动作是实验室采集的数据…

计算机视觉和动作检测,计算机视觉技术深度解读之视频动作识别

来源:雪球App,作者: 我是张康,(https://xueqiu.com/6964725465/135165468) 作者:极链AI研究院 徐宝函 视频的理解与识别是计算机视觉的基础任务之一。随着视频设备和网络的普通,视频理解也吸引了越来越多研究者的关注。而识别视频中的动作则是其中一个充满挑战而又具有较…

动作识别、检测、分割、解析相关数据集介绍

文章目录 动作识别UCF101(UCF101 Human Actions dataset)Kinetics (Kinetics Human Action Video Dataset) 动作检测 / 时序动作定位CharadesActivityNetMulti-THUMOSUCF101-24IKEA ASMAVAJHMDB 动作分割Breakfast (The Breakfast Actions Dataset)GTEA (Georgia Tech Egocentr…

视频动作识别(Action Recognition)综述

概述 使用深度学习方法解决视频中行为识别/动作识别的问题解决思路有两大类,一是以抽取并分类时空特征为目的的视频识别方法;二是以提取骨架信息进行再训练为目的的姿态估计方法。本文主要梳理近5年来第一类论文中的算法,其中有三个分支&…

使用OpenVINO实现人体动作识别

Paula Ramos著 张晶 译 目录 1.1 人体动作识别背景简介 1.2 OpenVINOTM Notebook简介 1.3 动作识别模型简介 1.4 实现实时动作识别 1.4.1 下载模型 1.4.2 初始化模型 1.4.3 辅助函数 1.4.4 AI函数 1.4.5 完整执行整个程序 1.5 关于作者: 1.6 声明和免责声明 1.1 人…

使用kinect2.0做动作识别和动作计数

利用kinect2结构光相机进行运动动作识别和运动计数,不仅可以测量运动人员的卡路里,也可以测出运动速度和做功,并对于运动的动作做出科学规范的指导。 这里我们选用kinect2和windows系统作为开发工具来进行开发。如果要进行运动动作的识别&am…

基于Detectron2和LSTM的人体动作识别

人体动作识别通过分析视频来预测或分类视频中人物的各种动作。它被广泛应用于监测、体育、健身、防御等各个领域。 假设你想创建一个在线教授瑜伽的应用程序。它应该提供一个预先录制的瑜伽视频列表供用户观看。用户在应用程序上观看视频后,可以上传自己的个人练习…

短视频动作识别技术简述

1总体介绍 短视频在当前多媒体环境中占据着巨大流量,有效理解视频内容对于数据分发发挥着重要作用,动作识别是视频内容理解的一个重要方向。当前图像识别技术已趋于成熟,但动作识别仍未达到理想效果,相比于图像识别,动…

动作识别01:Understanding action recognition in still images

文章目录 摘要一、引言二、相关工作三、实验3.1 定义交互功能 四、结果总结 摘要 静止图像中的动作识别与姿态估计、目标识别、图像检索、视频动作识别和视频帧标记等计算机视觉任务密切相关。这个问题的重点是用单一的框架识别一个人的动作或行为。与视频中的动作识别不同——…

mediapipe 实现动作识别

环境 windows 10 64bitmediapipe 0.8.10.1 前言 本文使用 google 家的 mediapipe 机器学习框架,结合 opencv 和 numpy,实现了一个实时识别 站立、坐下、走动、挥手 共4个动作的简单系统。 mediapipe 能做的事情非常多,感兴趣的童鞋可以去研究…

行为动作识别

一、跌倒检测数据集 随着计算机学科与人工智能的发展和应用,视频分析技术迅速兴起并得到了广泛关注。视频分析中的一个核心就是人体行为识别,行为识别的准确性和快速性将直接影响视频分析系统后续工作的结果。因此,如何提高视频中人体行为识别…

基于骨骼的动作识别:PoseConv3D

Revisiting Skeleton-based Action Recognition解读 摘要1. 简介2. Related Work2.1 基于3D-CNN的rgb视频动作识别2.2 基于GCN的骨骼动作识别2.3 基于CNN的骨骼动作识别 3. Framework3.1 Pose Extraction3.2 From 2D Poses to 3D Heatmap Volumes3.3 基于骨骼的动作识别3D-CNN3…

视频动作识别调研(Action Recognition)

视频动作识别调研(Action Recognition) 本文首发于微信公众号“ StrongerTang”,可打开微信搜一搜,或扫描文末二维码,关注查看更多文章。 原文链接:( https://mp.weixin.qq.com/s?__bizMzg3NDEzOTAzMw&…

动作识别概况

文章目录 一、动作识别二、动作识别的难点三、动作识别现在常用的方法四、行为识别的两个方向五、常用数据集六、常用框架介绍 一、动作识别 主要目标是判断一段视频中人的行为的类别,所以也可以叫做 Human Action Recognition。 二、动作识别的难点 1.类内和类之…

动作/行为识别调研

动作识别调研 1. 简介1.1 基本概念1.2 难点 2. 人体动作识别系统2.1 传统方法2.1.1 iDT框架 2.2 深度学习方法2.2.1 Two-Stream双流架构2.2.2 3D卷积架构2.2.3 CNNLSTM架构2.2.4 GCN架构 相关文献 1. 简介 动作识别(Action Recognition),就是从视频片段&#xff08…

2022广州大学计算机网络实验--使用网络协议分析器捕捉和分析协议数据包

广州大学学生实验报告 开课学院及实验室:计算机科学与工程实验室 2022年**月**日 学院 计算机科学与教育软件 年级、专业、班 ****** 姓名 **** 学号 *******39 实验课程名称 计算机网络实验 成绩 实验项目名称 使用网络协议分析器…

五个好用的网络协议分析工具(附下载地址)

Network Packet Analyzer,是一种网络分析程序,可以帮助网络管理员捕获、交互式浏览网络中传输的数据包和分析数据包信息等。这里给出了5个最好的网络数据包分析工具,具体如下: 1. Wireshark 相信大家都很熟悉,就不多…

网络协议安全分析

网络安全层次结构 物理层 在通信线路上保障不被搭线,不被偷听,尽可能检测出来。 数据链路层 a.点对点的链路上可以采用通信保密机进行加解密。 b.由第层硬件完成,对上层透明。 c.缺陷:无法适应多个路由器的网络,尤其I…

各网络协议分析

IP ip头 ![Image][IPstr] Wireshark ![Image][IPstr2] 名称值含义可选值占位IP版本0100IPV40110:IPV64bit头部长度010120bytes(5)可表示的最大值为1111(60bytes(15))4bit服务类型0x00默认转发(DF)8bit总长度52首部和数据之和最大为2^16-165535字节16bit标识0x239d它是一个…