语音增强数据集总结【持续更新】

article/2025/10/29 8:32:14

语音增强数据集总结

语音增强的第一步一般是准备数据,包含带噪语音和纯净语音。一般这些数据都是人工合成的,以纯净语音和噪声数据为基础即可合出带噪语音信号。以下介绍一些语音增强领域常用的数据集。

纯净语音

Common Voice(2019首次发布,至今一直在更新)
48kHz,16bit,MP3格式
截至2023/7/21, 该数据集包括112种语言的28118小时语音,可用于训练的数据共18652小时。具体分布可看官网。

论文:https://arxiv.org/abs/1912.06670
官网链接:https://commonvoice.mozilla.org/en/languages
因为数据集一直在更新,所以建议直接去官网看。

Multi Lingual Speech(MLS)(2020)
源自LibriVox有声读物的数据集
16kHz,8种语言。
44.6k小时的英语数据,以及总计6k左右的其他7种语言的数据,具体分布如下:
在这里插入图片描述
论文:https://arxiv.org/abs/2012.03411
链接:http://www.openslr.org/94/

WSJ0(1992)

DidiSpeech(2021)
普通话,由滴滴出行发布
共800小时,6000个说话人,采样率48kHz,位深度16 bit。性别、地域分布和录音设备(IOS/Andorid)比例基本接近1:1。年龄分布为adults(>=20): youths(13-19): children(<13) = 5:3:2。
包括两个子集DidiSpeech-1和DidiSpeech-2。DidiSpeech-1对标VC(Voice Conversion)任务,包括4500个说话人,共572h,每个说话人的录音有50 parallel sentences(平行语句,每个说话人都说的相同的句子) 和>50 non-parallel sentences(不被重复的、每个人不同的内容)。DidiSpeech-2对标multi-speaker speech synthesis 和 ASR任务,共227h,1500个说话人,没个说话人读>100句 non-parallel sentences。

原文链接:https://ieeexplore.ieee.org/document/9414423
数据地址:https://outreach.didichuxing.com/research/opendata/

VCTK(2019)(又名Voice Bank)
英语,由爱丁堡大学发布
共44小时(数据来源网络), 共110个英语说话人,包含不同的口音,每个说话人读约400个句子,采样率48kHz,位深度16bit。

官方文档及数据下载地址:https://datashare.ed.ac.uk/handle/10283/3443

AiShell
中文,北京希尔贝壳科技
AiShell-1(2017)
共178小时,400个来自中国不同地区的说话人,采样率为16kHz,位深度16bit
AiShell-3(2020)
共85小时,218个说话人,共88035条语音,采样率为44.1kHz,位深度16bit。说话人分布偏向女性,年龄分布集中在20岁左右。

详情见官方介绍:https://www.aishelltech.com/kysjcp

LibriSpeech
英语 2015
共1000小时,16kHz采样率,接近US English,derive from LibriVox
具体分为如下子集:
在这里插入图片描述
基于WSJ语料库训练出的ASR模型评测每个说话人的WER,WER更低的 speaker被分为clean,WER更高的分为other。
论文:Librispeech: An ASR corpus based on public domain audio books
链接:http://www.openslr.org/12/

TIMIT
英语,由TI(Texas Instruments)、MIT(Massachusetts Institute of Technology)和SRI (Stanford Research Institute)共同收集语料库,也是其名字的由来。
16kHz,共6300个句子,由来自美国8个主要方言区的630人每人读10个句子,其中包括2个方言句、5个 phonetically-compact sentences(发音紧凑的句子)和3个phonetically-diverse sentences (语音多样的句子),具体分布如下表:
在这里插入图片描述
其完整测试集占据整个数据材料的27%,共168个说话人、1344条语句。

论文:https://www.researchgate.net/publication/243787812_TIMIT_Acoustic-phonetic_Continuous_Speech_Corpus
链接:https://www.kaggle.com/datasets/mfekadu/darpa-timit-acousticphonetic-continuous-speech

噪声

WHAM!(2019)
16kHz,32bit,双通道、平均时长10s,最短3.5秒,最长47.7秒。
数据集全称为WSJ0 Hipster Ambient Mixtures
这些噪声录制于旧金山湾区的咖啡馆、餐厅、酒吧、办公楼、公园等城市环境中
分布如下:
在这里插入图片描述

原文:WHAM!: Extending Speech Separation to Noisy Environments
链接:http://www.shujujishi.com/dataset/ae73e948-46d8-4e19-aef3-47a7baa044ab.html

DEMAND
16通道 48kHz
六中大环境下的真实噪声
在这里插入图片描述

链接:The Diverse Environments Multi-channel Acoustic Noise Database (DEMAND): A database of multichannel environmental noise recordings

FSD50K(2021)
44.1kHz, 16it
用于声音事件检测任务,有200种噪声种类,51197条音频文件,主要包括人声、动物声音、自然界的声音、音乐和事物的声音,共108小时。
在这里插入图片描述

论文:FSD50K: An Open Dataset of Human-Labeled Sound Events
链接:https://annotator.freesound.org/fsd/release/FSD50K/
https://zenodo.org/record/4060432

Noise-92
19.98kHz,16bit,每条音频时长为235秒
包含15种噪声类型:白噪声、粉红噪声、餐厅内嘈杂说话声、2种工厂噪声、3种驾驶舱噪声、机舱噪声、控制室噪声、两种军车噪声、枪声、车辆内部噪声和高频通道噪声

链接:http://spib.linse.ufsc.br/noise.html

已经合好的公开语音增强数据集

VoiceBank+Demand
英语,爱丁堡大学,48kHz
语音数据来自VCTK,
官方链接:Noisy speech database for training speech enhancement algorithms and TTS models
有两个子数据集
28说话人
train set: 14female 14male (all England accent); 10种噪声数据,2种人为生成、8种来自Demand,4种信噪比:15,10,5,0dB;因此有104=40种不同的噪声。共11572条,9.4h。

test set: 1female 1male (England); 5种噪声数据,全都来自Demand,4种信噪比:17.5, 12.5, 7.5 以及2.5dB,有5
4=20种噪声。共824条,0.6h。

56说话人
28female 28male (Scotland and United States)

论文:Speech Enhancement for a Noise-Robust Text-to-Speech Synthesis System
using Deep Recurrent Neural Networks

NISQA
发布于Quality and Usability Lab, Technische Universit ̈at Berlin、Deutsches Forschungszentrum f ̈ur K ̈unstliche Intelligenz (DFKI),Berlin, Germany
同时拥有合成的和真实的带噪语音
train和validation set都有人工标注的MOS评分
2个training dataset:NISQA_TRAIN_SIM 10,000 samples from 2,322 speakers;NISQA TRAIN LIVE 1,020 samples from 486 speaker
speaker
2个validation dataset:NISQA VAL SIM (2,500 samples from 938 speaker);NISQA VAL LIVE (200 samples from 102 speakers)
4个test set:NISQA TEST P501(240 samples from 4 speakers 男女各半), NISQA TEST FOR(240 samples from 8 speakers,男女各半), NISQA TEST NSC(240 samples from 240 speakers),NISQA TEST LIVETALK wit(232 samples from 8 speakers,男女各半)

论文:https://arxiv.org/abs/2104.09494
链接:https://github.com/gabrielmittag/NISQA/wiki/NISQA-Corpus

NOISEX-92
16kHz,16bit,数据需要空间1.4G
语音部分来自ESPRIT SAM EUROM_0,共一男一女两个说话人,每人读两张一百个独立数字组成的表,一张用于训练一张用于测试,每人还有两张50个三位数组成的表,同样分别作为训练和测试,噪声部分来自RSG.10 NOISE-ROM-0,从中选择了8种噪声,具体如下图:
在这里插入图片描述
最终音频信噪比为18,12,6,0,-6dB.

论文:Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems

真实带噪语音

DAPS(2014)
该数据集有真实的带噪语音,并且提供了答案。收集方法为:现在安静环境下录干净语音,然后在特定噪声环境下经这段语音用扬声器放出来,和噪声一起录下来,作为带噪语音。
20 speakers, 每个说话人有5段脚本大概14 minutes的语音,采样率44.1kHz

论文:Can we Automatically Transform Speech Recorded on Common Consumer Devices in Real-World Environments into Professional Production Quality Speech?—A Dataset, Insights, and Challenges
链接:https://ccrma.stanford.edu/~gautham/Site/daps.html

其他

MUSAN(2015)
约翰斯霍普金斯大学语言语音处理中心
包括语音、音乐和噪声三种数据集,109小时,16kHz
Speech:约60h,其中20h21m来自Librivox, 40h1m来自美国政府公开的听证会、委员会和辩论等
Music:42h31m,分为popular genres和Western art music
Noise:约6小时,共929条音频文件,来自Free Sound和Sound Bible
论文:MUSAN: A Music, Speech, and Noise Corpus
链接:http://www.openslr.org/17/

BABEL(2011-)
BABEL计划收集的数据集,该计划的目标是开发可应用与任何人类语言的语音技术,目前包含爪哇语、粤语、蒙古语、Dholuo、阿姆哈拉语、瓜拉尼、Igbo Language, Lithuanian Language, Cebuano Language, Kazakh Language, Tok Pisin Language, Telugu Language, Haitian Creole Language, Kurmanji Kurdish Language, Lao Language, Swahili Language, Tamil Language, Vietnamese Language, Zulu Language, Assamese Language, Bengali Language, Georgian Language, Pashto Language, Tagalog Language, Turkish Language共25种语言。
8kHz,通话录音
链接:https://catalog.ldc.upenn.edu/byyear
https://www.iarpa.gov/index.php/research-programs/babel

语音分离

LibriCSS(2020)
16kHz、源自LibriSpeech,面向CSS任务(Continuous Speech Separation)
包含10 sessions,每个session 1小时,LibriCSS共计10小时。
每个session包含6 段10分钟的mini session,每个段mini session 有8个说话人(从LibriSpeech development set的40个说话人中随机选择),OVR (overlap ratio)为0-40%,重叠率为0时,句子间silence为0.1-0.5s的被称为short silence version, 句间silence为2.9-3.0s的则被称为long silence; mini session中的uttrance为52-125不等。
原文:Continuous speech separation: Dataset and analysis
数据:https://github.com/chenzhuo1011/libri_css

LibriMix(2020)
16kHz,语音源自LibriSpeech,噪声来自WHAM!
在训练集中,每个句子只使用一次。
在这里插入图片描述
原文:LibriMix: An Open-Source Dataset for Generalizable Speech Separation
参考链接:https://blog.csdn.net/FonFon27/article/details/113834692

AMI(2005)
爱丁堡大学
包含100小时的会议录音,英语。大部分说话人为非母语人士
原文:The AMI meeting corpus
链接:https://groups.inf.ed.ac.uk/ami/corpus/
https://groups.inf.ed.ac.uk/ami/corpus/overview.shtml

个性化语音增强
DNS4-Track2
WSJ0-2mix
AiShell2Mix
Common Voice

最后,这是网上一些其他的数据集整理链接
https://www.cnblogs.com/LXP-Never/p/15474948.html(凌逆战)
https://blog.csdn.net/qq_34637672/article/details/117925485
https://github.com/nanahou/Awesome-Speech-Enhancement
https://zhuanlan.zhihu.com/p/267372288


http://chatgpt.dhexx.cn/article/4bWa5b9W.shtml

相关文章

DuDuTalk语音工牌:语音数据分析在销售场景的应用价值

在现今这个数字时代&#xff0c;企业需要更高效、更有效地沟通和合作。语音数据的收集和分析能够增加销售团队和客户之间的联系&#xff0c;同时提高销售闭合率。因此&#xff0c;了解和利用销售沟通语音数据的价值&#xff0c;是现代企业所必须的。 销售沟通语音数据指的是在…

VoxCeleb1 语音数据集下载

前言 VoxCeleb1 是广泛使用的 说话人识别、验证 数据集。由于是从 YouTube 视频中提取&#xff0c;有比较丰富的噪声。&#xff08;有空补介绍&#xff09;由于我只使用音频数据&#xff0c;这里只介绍音频数据相关的下载流程。 如果可以使用谷歌表单和翻译软件应该就可以顺利…

语音识别之语音数据预处理

Email&#xff1a;ht0909mail.ustc.edu.cn 原创内容&#xff0c;转载请标明 数据集 1.清华大学THCHS30中文语音数据集 data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noi…

中文语音识别数据集总结

目录 OpenSLR国内镜像1.Free ST Chinese Mandarin Corpus2.Primewords Chinese Corpus Set 13.爱数智慧中文手机录音音频语料库&#xff08;Mandarin Chinese Read Speech &#xff09;4.THCHS305.ST-CMDS6.MAGICDATA Mandarin Chinese Read Speech Corpus7.AISHELL7.1 AISHELL…

语音数据集整理

语音数据集整理 目录 1.Mozilla Common Voice. 2 2.翻译和口语音频的大型数据库Tatoeba. 2 3.VOiCES Dataset 3 4. LibriSpeech. 4 5.2000 HUB5 English&#xff1a;... 4 6.VoxForge&#xff1a;... 4 7.人类语音的大规模视听数据集 &#xff08;VoxCeleb&#xff09;…

语音数据集

最大的语音数据下载网站&#xff1a; openslr.org vox-celeb说话人识别数据集&#xff1a;无法下载 OpenSpeaker之声纹数据整理 - 知乎本文是OpenSpeaker系列的第二篇文章&#xff0c;全系列可参考这篇文章或者文末的专栏&#xff1a; 蘑菇炖提莫&#xff1a;OpenSpeaker&…

Ubuntu 16.04网络配置

A lazy youth, a lousy age. 1.用root账号进行登录。Files–>Computer–>etc–>network–>interfaces 2.使用以下命令可查看网卡编号、IP地址、子网掩码。 ifconfig3.使用以下命令可查看网关号。 route4.最后&#xff0c;在interfaces中填写配置信息。 2021.10…

Ubuntu20配置网络 ssh

Ubuntu20配置网络 ssh Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml确定要配置的地址配置VMnet8地址设置虚拟网络地址配置ubuntu地址 Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml 确定要配置的地址 VMnet8: 192.168.12…

Ubuntu 14.04 网络配置

VMware中网络设置有三种&#xff0c;分别是&#xff1a;NAT、桥接和Host-only。本文仅说明NAT连接&#xff0c;配好后可让虚拟机上网&#xff0c;操作简单图文并茂。 1、首先打开虚拟机的设置 2、设置成NAT模式 3、打开虚拟网络编辑器 4、打开权限 5、设置虚拟网络编辑器为…

Ubuntu如何配置桥接网络

1、Ubuntu的网络配置分类 Ubuntu的主要三种网络配置 &#xff08;1&#xff09;桥接模式&#xff1a;Ubuntu和主机各有一个IP地址。&#xff08;重点&#xff09; &#xff08;2&#xff09;NAT模式&#xff1a;Ubuntu和主机共享IP地址。 &#xff08;3&#xff09;主机模式…

VMware虚拟机Ubuntu连接网络设置

VMware虚拟机Ubuntu连接网络设置 前言 学校发了新电脑不想装双系统&#xff0c;装了VMware虚拟机&#xff0c;但是在联网是遇到了困难。在网上找了方法连接成功。现在做一下记录。 方法 一般虚拟机联网方法有两种&#xff1a;NAT 和 桥接。 参考 知乎&#xff1a;Vmware虚拟…

【Ubuntu】配置ubuntu网络

配置ubuntu网络 一、三种虚拟网络介绍二、 配置ubuntu系统使用桥接模式连接外网三、通过NAT模式让ubuntu系统连接外网四、常见问题1.解决ubuntu系统没有网络图标一、三种虚拟网络介绍 VMnet0 : 桥接模式,选中桥接模式之后,可以将VMnet0桥接到对应的物理网卡之上, 默认选中自…

Ubuntu桥接网络配置

一、虚拟机设置 点击虚拟机最上面的“虚拟机”选项&#xff0c;在打开的下拉菜单中选择最下面的“设置”选项&#xff0c;弹出“虚拟机设置”对话框&#xff1a; 在当前“硬件”选项卡&#xff0c;选择“网络适配器”&#xff0c;在右侧的网络连接中选择“桥接模式”&#xf…

Ubuntu网络配置、开发板与电脑

一、Ubuntu网络配置 1、概念 桥接&#xff1a;Ubuntu会单独由路由器分配ip地址&#xff0c;不和Windows共享ip NAT&#xff1a;Ubuntu跟主机共享ip 注意&#xff1a;某些同学Ubuntu一直无法配置联网或者ping不通局域网&#xff0c;有可能是你的虚拟网卡被删了&#xff0c;重新安…

virtualbox下ubuntu虚拟机配置网络

一、目标&#xff1a; 1.在ubuntu虚拟机内可以联通外网 2.可以通过本机ssh连接上ubuntu虚拟机 二、Virtualbox配置 1.勾选 “系统->网络” 2.配置双网卡 网卡1配置为Nat&#xff0c;网卡2配置为Host-Only 三、ubuntu虚拟机内部设置 vi /etc/netplan/00-installer-confi…

VirtualBox设置Ubuntu虚拟机网络通信

1、安装虚拟机 2、设置虚拟机上网 3、设置主机-虚拟机、虚拟机-虚拟机网络通信 4、修改虚拟机IP地址 &#xff08;1&#xff09;查看本地IP (2)查看虚拟机IP (3)修改虚拟机IP&#xff0c;切换为管理员用户 改为静态IP&#xff0c;设置dpcp4为false&#xff0c;addresses设置为…

VMware环境下Ubuntu网络的配置

实现VMware虚拟机中Ubuntu的网络连接&#xff0c;本质上是使用Ubuntu作为子机连接PC主机的网络&#xff0c;即PC共享网络到Ubuntu中。 在打开虚拟机前&#xff0c;在编辑中找到“虚拟网络编辑器”&#xff0c;并打开管理员权限&#xff08;只有在打开管理员权限后&#xff0c;才…

Ubuntu18网络配置

Ubuntu18中的网络连接配置 Ubuntu下有两种配置网络的方式&#xff1a; 通过NetManager提供的GUI配置通过/etc/netplan/*.yml的文件配置 通过NetManager进行网络配置 首先要明白&#xff0c;NetManager是Ubuntu自带的一款网络连接的配置软件&#xff0c;安装在/etc/NetworkM…

Ubuntu入门教程(4)——虚拟机Ubuntu网络配置

文章目录 1.任务背景2.任务目标3.任务实操3.1本机3.2 虚拟机 4.任务总结 1.任务背景 大家在使用虚拟机操作Ubuntu系统的时候&#xff0c;可能来回切换麻烦&#xff0c;又或者是需要下载什么资源&#xff0c;这就需要用到网络&#xff0c;这篇文章教给大家如何在虚拟机上给Ubun…

配置 Ubuntu 的网络

一、三种联网的模式 1. 桥接 VMnet0------> 主机和 Ubuntu 都有一个 ip 地址 2. NAT 模式 VMnet8-------->Ubuntu 和主机是同一个 ip 地址 3. 主机模式 VMnet1-------> 只能和主机进行通信 二、网络配置 1. 虚拟机----->设置 2. 确保网络适配器是桥接模式或…