数据集 | 基于语音(Speech)/多模态(Multimodal)的情绪识别数据集,格式及下载

article/2025/10/29 8:32:13

本文主要介绍了一些常用的语音🗣识别数据集,文件格式以及下载地址:

目录

1.IEMOCAP Emotion Speech Database(English)

2.Emo-DB Database(German)

文件命名

 对象

3.Ryerson Audio-Visual Database of Emotional Speech and Song (English)RAVDESS

4.Korean Emotional Speech Dataset 

5.SAVEE(English) 

6.EMOVO(Italian)

7.MELD

数据集下载命令

 示例对话

​编辑 数据集统计



1.IEMOCAP Emotion Speech Database(English)

Interactive Emotional Dyadic Motion Capture (IEMOCAP) 数据库是一个表演的、多模态和多说话者数据库,最近在南加州大学的SAIL实验室收集. 它包含大约 12 小时的视听数据,包括视频、语音、面部动作捕捉、文本转录。它由二元会话组成,演员在这些会话中进行即兴表演或脚本化场景,这些场景是专门为引发情感表达而选择的。IEMOCAP 数据库被多个标注者标注为分类标签,如愤怒、快乐、悲伤、中性,以及维度标签,如效价、激活和支配。详细的动作捕捉信息、引发真实情绪的交互设置以及数据库的大小使该语料库成为社区现有数据库的宝贵补充,可用于研究和建模多模式和表达性人类交流。更多可查看:https://sail.usc.edu/iemocap/

数据库范围

  • 情绪表达的识别与分析
  • 人类二元相互作用分析
  • 情感敏感人机界面和虚拟代理的设计
  • ...

一般信息

  • 关键词:情感的、多模式的、行动的、二元的
  • 英语语言
  • 10名演员:5男5女
  • 情绪激发技巧:即兴创作和剧本

可用方式

  • 动作捕捉人脸信息
  • 演讲
  • 影片
  • 头部运动和头部角度信息
  • 对话转录
  • 词级、音节级和音素级对齐

注释

  • 会话被手动分割成话语
  • 每个话语至少由 3 位人工注释者注释
  • 分类属性:
    • 愤怒、快乐、兴奋、悲伤、沮丧、恐惧、惊讶、其他和中性状态
  • 维度属性:
    • 程度(valence)、激活(activation)、优势(dominance)

 下载地址:


2.Emo-DB Database(German)

EMODB 数据库是免费提供的德国情感数据库。该数据库由德国柏林技术大学通信科学研究所创建。十名专业演讲者(五男五女)参与了数据记录。该数据库总共包含 535 条话语。EMODB 数据库包含七种情绪
1) 愤怒
2) 无聊
3) 焦虑
4) 快乐
5) 悲伤
6) 厌恶
7)中性 

数据是以48kHz的采样率记录的,然后下采样到16kHz。
 

文件命名

每个话语都根据相同的方案命名:

  • 位置 1-2:发言者人数
  • 位置 3-5:文本代码
  • 位置6:情感(抱歉,字母代表德语情感词)
  • 位置 7:如果有两个以上的版本,则编号为 a、b、c ....

示例:03a01Fa.wav 是 Speaker 03 以“Freude”(幸福)的情绪朗读文本 a01 的音频文件。

 对象

  • 03——男,31岁
  • 08 - 女性,34 岁
  • 09 - 女,21 岁
  • 10 - 男性,32 岁
  • 11 - 男性,26 岁
  • 12 - 男性,30 岁
  • 13 - 女性,32 岁
  • 14 - 女性,35 岁
  • 15 - 男性,25 岁
  • 16 - 女性,31 岁

 

 

 下载地址:EmoDB Dataset | Kaggle


3.Ryerson Audio-Visual Database of Emotional Speech and Song (English)RAVDESS

 瑞尔森情感语音和歌曲视听数据库(RAVDESS):来自 RAVDESS 的语音纯音频文件(16 位,48kHz .wav)。Zenodo提供的语音和歌曲、音频和视频的完整数据集 (24.8 GB) 。RAVDESS 的构建和感知验证在PLoS ONE 的开放获取论文中有所描述。

文件

RAVDESS 的这一部分包含 1440 个文件:每个演员 60 次试验 x 24 名演员 = 1440。RAVDESS 包含 24 名专业演员(12 名女性,12 名男性),用中性的北美口音说出两个词汇匹配的陈述。言语情绪包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情。每种表情都在两种情绪强度(正常、强烈)和一种额外的中性表情下产生。

文件命名

1440 个文件中的每一个都有一个唯一的文件名。文件名由 7 部分数字标识符组成(例如,03-01-06-01-02-01-12.wav)。这些标识符定义了刺激特征:

文件名标识符

  • 模态(01 = 全 AV,02 = 仅视频,03 = 仅音频)。

  • 人声通道(01 = 语音,02 = 歌曲)。

  • 情绪(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 愤怒,06 = 恐惧,07 = 厌恶,08 = 惊讶)。

  • 情绪强度(01 = 正常,02 = 强烈)。注意:“中性”情绪没有强烈的强度。

  • 声明(01 =“孩子们在门口说话”,02 =“狗坐在门口”)。

  • 重复(01 = 第一次重复,02 = 第二次重复)。

  • 演员(01 到 24。奇数为男性,偶数为女性)。

文件名示例:03-01-06-01-02-01-12.wav

  1. 纯音频 (03)
  2. 演讲(01)
  3. 恐惧 (06)
  4. 正常强度 (01)
  5. 声明“狗” (02)
  6. 第一次重复 (01)
  7. 第十二男演员(12)
    女,演员身份证号为偶数。

下载地址:RAVDESS Emotional speech audio | Kaggle

 

jupyter notebook 下载命令

![ -f Audio_Speech_Actors_01-24.zip ] && echo "File existed" || wget "https://zenodo.org/record/1188976/files/Audio_Speech_Actors_01-24.zip?download=1" -O Audio_Speech_Actors_01-24.zip

 解压命令

![ -f "./Audio_Speech_Actors_01-24/Actor_01/03-01-01-01-01-01-01.wav" ] && echo "File existed" || unzip Audio_Speech_Actors_01-24.zip -d "./Audio_Speech_Actors_01-24/"

4.Korean Emotional Speech Dataset 

 https://nanum.etri.re.kr/share/list?lang=ko_KR


5.SAVEE(English) 

Surrey Audio-Visual Expressed Emotion (SAVEE) 数据库已被记录为开发自动情绪识别系统的先决条件。该数据库由 4 位男演员 7 种不同情绪的录音组成,总共 480 条英式英语话语。这些句子是从标准的 TIMIT 语料库中选出的,并且对每种情绪进行了语音平衡。数据是在配备高质量视听设备的视觉媒体实验室中记录、处理和标记的。为了检查表演质量,录音由 10 名受试者在音频、视觉和视听条件下进行评估。分类系统是使用标准特征和分类器为每个音频、视觉和视听模式构建的,独立于说话者的识别率分别达到 61%、65% 和 84%。

 包含六种基本情绪和中性情绪的表达情绪的视听数据库。该数据库由 4 位英语演员说出的语音平衡的 TIMIT 句子组成,总计 480 条语句。该数据库由 10 名受试者针对每个音频、视觉和视听数据的可识别性进行了评估。主观评价结果显示,与音频数据相比,视觉数据的分类准确率更高,并且通过结合两种方式提高了整体性能。在数据库上的说话人相关和说话人无关实验中实现了相当高的分类精度,其遵循与人类评估者相似的情感分类结果模式,即 视觉数据的表现优于音频,并且视听组合的整体性能得到改善。人类评估和机器学习实验结果表明该数据库对情感识别领域研究的有用性。

 下载地址:Surrey Audio-Visual Expressed Emotion (SAVEE) Database


6.EMOVO(Italian)

文件名的结构为emotion _ speaker _ actwav
情感对应的情感代码及其英文翻译如下。

  • dis - disgusto (Disgust)
  • pau - paura (Fear)
  • rab - Rabbia (Anger)
  • gio - gioia (Joy/Happy)
  • sor - Sorpresa (惊喜)
  • tri - triste (悲伤)
  • neu - neutro (中性)

7.Multimodal EmotionLines Dataset(MELD)

通过增强和扩展 EmotionLines 数据集创建了多模态 EmotionLines 数据集 (MELD)。MELD 包含与 EmotionLines 中可用的相同对话实例,但它还包含音频和视觉模态以及文本。MELD 有超过 1400 个对话和 13000 个来自 Friends 电视剧的话语。多位发言人参与了对话。对话中的每一句话都被标记为这七种情绪中的任何一种——愤怒、厌恶、悲伤、喜悦、中性、惊讶和恐惧。MELD 还对每个话语进行情绪(正面、负面和中性)注释。

数据集下载命令

wget https://web.eecs.umich.edu/~mihalcea/downloads/MELD.Raw.tar.gz

或者

wget https://huggingface.co/datasets/declare-lab/MELD/resolve/main/MELD.Raw.tar.gz

下载后如图

 

 解压命令

tar -xzvf MELD.Raw.tar.gz 

 解压后格式

 其中

 Sr No.: 语料的序列号,主要是为了在不同的版本或多个副本有不同的子集的情况下参考语料。

Utterance : 来自EmotionLines的单个语料作为一个字符串。

Speaker :与话语相关的说话人的名字。

Emotion :说话人在话语中所表达的情绪(中性、喜悦、悲伤、愤怒、惊讶、恐惧、厌恶)。

Sentiment :说话人在话语中所表达的情绪(积极、中性、消极)。

Dialogue_ID:对话的指数,从0开始。  

Utterance_ID:对话中特定语词的索引,从0开始。   

Season:某句话所属的《老友记》电视节目的季节号。

Episode:某句话所属的Friends TV Show某一季的集数

StartTime:在给定的情节中,话语的开始时间,格式为 "hh:mm:ss,ms"。 

EndTime:在给定的情节中,说话的结束时间,格式为 "hh:mm:ss,ms"。

示例对话


 数据集统计

 

更多信息请参考MELD

8.CMU-MOSEI 数据集

CMU Multimodal Opinion Sentiment and Emotion Intensity (CMU-MOSEI) 数据集是迄今为止最大的多模态情感分析和情感识别数据集。该数据集包含来自 1000 多个在线 YouTube 演讲者的 23,500 多个句子话语视频。数据集是性别平衡的。所有的句子话语都是从各种主题和独白视频中随机选择的。视频被转录并正确标点符号。该数据集可通过CMU Multimodal Data SDK GitHub下载: https: //github.com/A2Zadeh/CMU-MultimodalDataSDK。

 更多信息请参考

9. CREMA-D 数据集

GitHub - CheyneyComputerScience/CREMA-D: Crowd Sourced Emotional Multimodal Actors Dataset (CREMA-D)

CREMA-D 是一个包含来自 91 个演员的 7,442 个原始剪辑的数据集。这些剪辑来自 48 名男性演员和 43 名女性演员,年龄在 20 到 74 岁之间,来自不同的种族和民族(非裔美国人、亚洲人、高加索人、西班牙裔和未指明的人)。

演员们从 12 个句子中选择发言。这些句子是使用六种不同情绪(愤怒、厌恶、恐惧、快乐、中性和悲伤)四种不同情绪水平(低、中、高和未指定)中的一种呈现的。

参与者根据组合的视听演示、单独的视频和单独的音频对情绪和情绪水平进行评分。由于需要大量的评级,这项工作是众包的,共有 2443 名参与者,每人对 90 个独特的剪辑、30 个音频、30 个视觉和 30 个视听进行了评级。95% 的剪辑有超过 7 个评分。

其中

 

下载数据集命令

git lfs clone https://github.com/CheyneyComputerScience/CREMA-D.git

 

基于计算机视觉的情绪识别数据集请参考https://blog.csdn.net/weixin_44649780/article/details/124030692#comments_26431971


http://chatgpt.dhexx.cn/article/brqfaYOy.shtml

相关文章

历史最全开放语音/音频数据集整理分享

本资源整理了40多个语音和音频处理相关的开源数据集,分享给有需要的朋友。 资源整理自网络,源地址:https://github.com/jim-schwoebel/voice_datasets 有两种主要类型的音频数据集:语音数据集和音频事件/音乐数据集。 语音数据集…

语音识别数据集-TIMIT数据集-中文超详细解析

TIMIT数据集 前言 该文章会详细介绍TIMIT数据集的文件组成、内部文件格式以及如何使用TIMIT数据集。同时还会介绍TIMIT是如何组织数据以及划分训练集与测试集的,可以为今后自己构建数据集提供一种思路。 关键词:TIMIT数据集、语音识别、音素、人工音频…

语音增强数据集总结【持续更新】

语音增强数据集总结 语音增强的第一步一般是准备数据,包含带噪语音和纯净语音。一般这些数据都是人工合成的,以纯净语音和噪声数据为基础即可合出带噪语音信号。以下介绍一些语音增强领域常用的数据集。 纯净语音 Common Voice(2019首次发布&#xff…

DuDuTalk语音工牌:语音数据分析在销售场景的应用价值

在现今这个数字时代,企业需要更高效、更有效地沟通和合作。语音数据的收集和分析能够增加销售团队和客户之间的联系,同时提高销售闭合率。因此,了解和利用销售沟通语音数据的价值,是现代企业所必须的。 销售沟通语音数据指的是在…

VoxCeleb1 语音数据集下载

前言 VoxCeleb1 是广泛使用的 说话人识别、验证 数据集。由于是从 YouTube 视频中提取,有比较丰富的噪声。(有空补介绍)由于我只使用音频数据,这里只介绍音频数据相关的下载流程。 如果可以使用谷歌表单和翻译软件应该就可以顺利…

语音识别之语音数据预处理

Email:ht0909mail.ustc.edu.cn 原创内容,转载请标明 数据集 1.清华大学THCHS30中文语音数据集 data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noi…

中文语音识别数据集总结

目录 OpenSLR国内镜像1.Free ST Chinese Mandarin Corpus2.Primewords Chinese Corpus Set 13.爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )4.THCHS305.ST-CMDS6.MAGICDATA Mandarin Chinese Read Speech Corpus7.AISHELL7.1 AISHELL…

语音数据集整理

语音数据集整理 目录 1.Mozilla Common Voice. 2 2.翻译和口语音频的大型数据库Tatoeba. 2 3.VOiCES Dataset 3 4. LibriSpeech. 4 5.2000 HUB5 English:... 4 6.VoxForge:... 4 7.人类语音的大规模视听数据集 (VoxCeleb)…

语音数据集

最大的语音数据下载网站: openslr.org vox-celeb说话人识别数据集:无法下载 OpenSpeaker之声纹数据整理 - 知乎本文是OpenSpeaker系列的第二篇文章,全系列可参考这篇文章或者文末的专栏: 蘑菇炖提莫:OpenSpeaker&…

Ubuntu 16.04网络配置

A lazy youth, a lousy age. 1.用root账号进行登录。Files–>Computer–>etc–>network–>interfaces 2.使用以下命令可查看网卡编号、IP地址、子网掩码。 ifconfig3.使用以下命令可查看网关号。 route4.最后,在interfaces中填写配置信息。 2021.10…

Ubuntu20配置网络 ssh

Ubuntu20配置网络 ssh Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml确定要配置的地址配置VMnet8地址设置虚拟网络地址配置ubuntu地址 Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml 确定要配置的地址 VMnet8: 192.168.12…

Ubuntu 14.04 网络配置

VMware中网络设置有三种,分别是:NAT、桥接和Host-only。本文仅说明NAT连接,配好后可让虚拟机上网,操作简单图文并茂。 1、首先打开虚拟机的设置 2、设置成NAT模式 3、打开虚拟网络编辑器 4、打开权限 5、设置虚拟网络编辑器为…

Ubuntu如何配置桥接网络

1、Ubuntu的网络配置分类 Ubuntu的主要三种网络配置 (1)桥接模式:Ubuntu和主机各有一个IP地址。(重点) (2)NAT模式:Ubuntu和主机共享IP地址。 (3)主机模式…

VMware虚拟机Ubuntu连接网络设置

VMware虚拟机Ubuntu连接网络设置 前言 学校发了新电脑不想装双系统,装了VMware虚拟机,但是在联网是遇到了困难。在网上找了方法连接成功。现在做一下记录。 方法 一般虚拟机联网方法有两种:NAT 和 桥接。 参考 知乎:Vmware虚拟…

【Ubuntu】配置ubuntu网络

配置ubuntu网络 一、三种虚拟网络介绍二、 配置ubuntu系统使用桥接模式连接外网三、通过NAT模式让ubuntu系统连接外网四、常见问题1.解决ubuntu系统没有网络图标一、三种虚拟网络介绍 VMnet0 : 桥接模式,选中桥接模式之后,可以将VMnet0桥接到对应的物理网卡之上, 默认选中自…

Ubuntu桥接网络配置

一、虚拟机设置 点击虚拟机最上面的“虚拟机”选项,在打开的下拉菜单中选择最下面的“设置”选项,弹出“虚拟机设置”对话框: 在当前“硬件”选项卡,选择“网络适配器”,在右侧的网络连接中选择“桥接模式”&#xf…

Ubuntu网络配置、开发板与电脑

一、Ubuntu网络配置 1、概念 桥接:Ubuntu会单独由路由器分配ip地址,不和Windows共享ip NAT:Ubuntu跟主机共享ip 注意:某些同学Ubuntu一直无法配置联网或者ping不通局域网,有可能是你的虚拟网卡被删了,重新安…

virtualbox下ubuntu虚拟机配置网络

一、目标: 1.在ubuntu虚拟机内可以联通外网 2.可以通过本机ssh连接上ubuntu虚拟机 二、Virtualbox配置 1.勾选 “系统->网络” 2.配置双网卡 网卡1配置为Nat,网卡2配置为Host-Only 三、ubuntu虚拟机内部设置 vi /etc/netplan/00-installer-confi…

VirtualBox设置Ubuntu虚拟机网络通信

1、安装虚拟机 2、设置虚拟机上网 3、设置主机-虚拟机、虚拟机-虚拟机网络通信 4、修改虚拟机IP地址 (1)查看本地IP (2)查看虚拟机IP (3)修改虚拟机IP,切换为管理员用户 改为静态IP,设置dpcp4为false,addresses设置为…

VMware环境下Ubuntu网络的配置

实现VMware虚拟机中Ubuntu的网络连接,本质上是使用Ubuntu作为子机连接PC主机的网络,即PC共享网络到Ubuntu中。 在打开虚拟机前,在编辑中找到“虚拟网络编辑器”,并打开管理员权限(只有在打开管理员权限后,才…