语音识别数据集-TIMIT数据集-中文超详细解析

article/2025/10/29 8:30:26

TIMIT数据集

前言

该文章会详细介绍TIMIT数据集的文件组成、内部文件格式以及如何使用TIMIT数据集。同时还会介绍TIMIT是如何组织数据以及划分训练集与测试集的,可以为今后自己构建数据集提供一种思路。
关键词:TIMIT数据集、语音识别、音素、人工音频标签;

文件

基本信息

  • 大小:约650MB
  • 创建时间:1986年1月至5月

组织形式

/语料库/用处/方言地区/性别+说话者ID/句子ID.文件类型

  • 语料库:TIMIT
  • 用处:DOC、TEST、TRAIN
  • 方言地区:DR1~DR8
  • 性别:F/M
  • 说话者ID:3大写字母+1阿拉伯数字
  • 句子ID:句子类型(SA/SI/SX)+编号
  • 文件类型:wav、txt、wrd、phn

详细介绍请看下文。

大致结构

一级目录二级目录三级目录
/TIMIT/DOC@包含文档
/TEST/DR1~/DR8
/TRAIN/DR1~/DR8
README.DOC

@包含文档

  • prompts.txt(10/31/88):包含所有句子的文本内容+句子种类编号。eg.【She had your dark suit in greasy wash water all year. (sa1)】

  • spkrinfo.txt(10/15/90):包含所有说话者的信息

  • spkrsent.txt(10/15/90):包含每个说话人说的句子号

  • timitdic.txt(10/12/90):TIMIT句子中每个单词的音素标识符

  • phonecode.doc(10/12/90):说明音素标识规则

  • timitdic.doc(10/11/90):说明音素规则

  • testset.doc(10/11/90):测试集&划分规则

TIMIT文件结构

内容

背景&开发者

TIMIT语料库是为声学语音知识的获取(模型训练)以及自动语音识别系统(ASR)的评估(模型测试)而构建的,是由国防部赞助,在研究计划署(DARPA-ISTO)、麻省理工学院(MIT)、斯坦福研究院(SRI)、德州仪器(TI)共同努力下完成。

TIMIT= TI+MIT,德州仪器+麻省理工大学? //猜测

包含:6300个句子。

说话人信息

由来自美国8个主要方言地区的630位说话者讲10个句子构成。

说话人分布如下:

Region(dr)MaleFemaleTotal
131 (63%)18 (27%)49 (8%)
271 (70%)31 (30%)102 (16%)
379 (67%)23 (23%)102 (16%)
469 (69%)31 (31%)100 (16%)
562 (63%)36 (37%)98 (16%)
630 (65%)16 (35%)46 (7%)
774 (74%)26 (26%)100 (16%)
822 (67%)11 (33%)33 (5%)
Total438 (70%)192 (30%)630 (100%)

区域代号:

  • dr1: New England
  • dr2: Northern
  • dr3: North Midland
  • dr4: South Midland
  • dr5: Southern
  • dr6: New York City
  • dr7: Western
  • dr8: Army Brat (moved around)

地图:

说话人详细信息

位置:TIMIT/DOC/spkrinfo.txt

  • ID:三个大写字母+一位阿拉伯数字
  • 性别Sex:M男/F女
  • 地区DR:DR1~DR8,见上文。
  • 用途Use:
    • TRN:用于系统训练
    • TST:用于系统测试
  • 录制日期RecDate:月/日/年
  • 生日BirthDate:月/日/年
  • 身高Ht:x’y"-x英尺y英寸
  • 人种Race:
    • WHT-白种人
    • BLK-黑种人
    • AMR(American Indian)-美洲印第安人
    • SPN(Spanish-American)-西班牙裔美国人
    • ORN(Oriental)-东方人
    • ???-未知
  • 受教育水平Edu
    • HS-高中
    • AS(Associate Degree)-大专
    • BS-学士
    • MS-硕士
    • PHD-博士
    • ??-未知
  • 其他Comment:一些个性介绍,eg.【CONCIOUS ATTEMPT TO CHANGE ACCENT,有意识地改变口语】

通过统计可发现,TIMIT数据集的说话人大部分为白人男性。

句子信息

TIMIT设计了三类句子供说话者读:

  1. SA-方言句子(Dialect sentence):由SRI设计,总共2句。每个人都会读SA1、SA2这两个句子,体现不同地区方言的差别。(因此可用于方言判断算法的数据集,而其他情况一般不用该类句子)
  2. SX-音素紧凑的句子(Phondtically-compact sentence):由MIT设计,总共450句,目的是让句子中的音素分布平衡,尽可能的包含所有音素对。每个人读5个SX句子,并且每个SX句子被7个不同的人读。
  3. SI-音素发散的句子(Phonetically-diverse sentence):由TI在现有语料库Brown Corpus与剧作家对话集(the Playwrights Dialog)挑选的,总共1890句。目的是增加句子类型和音素文本的多样性,使之尽可能的包括所有的等位语境(Allophonic context)。每个人读三个SI句子,并且每个SI句子仅被一个人读一次。
句子种类句子个数单句/人总读句子数句子数/人
SA263012602
SX450731505
SI1890118903

音素(Phone)

是根据语音的自然属性划分出的最小语音单位。

汉语中对应拼音:eg【我:wo-w、o】两个音素。

英语中对应音标:eg【she:sh、iy】两个音素。

TIMIT在设计之初为了充分考虑发音的多样性,以及向下兼容性,所以推出了含有52个音素、6个闭包以及5个标识符的音素表示。

下面按照音素符号、样例词、以及可能的音素标签来展示。

Stops爆破音:

      b     bee      BCL B iyd     day      DCL D eyg     gay      GCL G ey p     pea      PCL P iyt     tea      TCL T iyk     key      KCL K iydx    muddy, dirty m ah DX iy, dcl d er DX iyq     bat      bcl b ae Q

Affricates破擦音:

     jh     joke     DCL JH ow kcl kch     choke    TCL CH ow kcl k

Fricatives摩擦音:

     s     sea      S iysh    she      SH iyz     zone     Z ow nzh    azure    ae ZH erf     fin      F ih nth    thin     TH ih nv     van      V ae n dh    then     DH e n

Nasals:鼻音

     m     mom      	M aa Mn     noon    	 	N uw Nng    sing     	s ih NGem    bottom    	b aa tcl t EMen    button    	b ah q ENeng   washington w aa sh ENG tcl t ax nnx    winner    	w ih NX axr

Semivowels and Glides半元音与滑音:

     l     lay      L eyr     ray      R eyw     way      W eyy     yacht    Y aa tcl thh    hay      HH eyhv    ahead    ax HV eh dcl del    bottle   bcl b aa tcl t EL

Vowels元音:

     iy     beet     bcl b IY tcl tih     bit      bcl b IH tcl t eh     bet      bcl b EH tcl tey     bait     bcl b EY tcl tae     bat      bcl b AE tcl taa     bott     bcl b AA tcl taw     bout     bcl b AW tcl tay     bite     bcl b AY tcl tah     but      bcl b AH tcl tao     bought   bcl b AO tcl toy     boy      bcl b OYow     boat     bcl b OW tcl tuh     book     bcl b UH kcl kuw     boot     bcl b UW tcl tux     toot     tcl t UX tcl ter     bird     bcl b ER dcl dax     about    AX bcl b aw tcl tix     debit    dcl d eh bcl b IX tcl taxr    butter   bcl b ah dx AXRax-h   suspect  s AX-H s pcl p eh kcl k tcl t

Closure闭包:

			b 		b cloused 		d clouseg 		g clousep 		p clouset 		t clousek 		k clouse

Others其他:

	  pau   pauseepi   epenthetic silenceh#    begin/end marker (non-speech events)1     primary stress marker(重音1)2     secondary stress marker(重音2)

而实际上研究者发现所使用的音素过于复杂,因而会简化一些,因而在训练时有些研究者整合为48个音素,当评估模型时,李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。

以下是基于TIMIT数据库上进行语音识别实验的研究成果。

TIMIT文件种类

.WAV文件

TIMIT里的波形文件虽然是WAV文件后缀,但其实不是真正的wav文件,所以不能够直接打开。

实际文件格式:NIST SPHERE 16bit PCM文件

采样率:16kHz

比特位数:16bits

通道数:mono单通道

SPHERE介绍:该文件设计的意义是能够在各种设备直接传输语音信号数据,尤其是CD-ROM。文件前有1024Byte的文件头

并且NIST提供了C语音函数来对SPHERE文件进行操作。

现在也可以用Audition软件或者Matlab Audioread函数来进行文件读取。

.TXT文件

记录了音频文件的开始样本点,结束样本点以及句子文本。

eg【0 63488 She had your dark suit in greasy wash water all year.】

.PHN文件

手工标定的音素标签,定位每一个音素开始边界语结束边界的样本点。

eg【

0 9640 h#
9640 11240 sh
11240 12783 iy
12783 14078 hv
14078 16157 ae
16157 16880 dcl

52378 54500 ao
54500 55461 l
55461 57395 y
57395 59179 iy
59179 60600 axr
60600 63440 h#

TIMIT开发者也在免责声明(Disclaimer)里说:“Phonetic transcriptions are inherently extremely subjective;” 但由于该标签是他们投入了大量人力、广泛接受各方建议以及经过MIT使用SPIRE system检查后得出的。所以是高度可信的。但他们同样建议可以针对自己需要开发的项目自己做标签。

.WRD

以音素的标签为输入,使用自动词标签标注程序进行词标签的标注。实验表明使用程序标注的词边界在4000个相同样本下获得了与人工标签96%的默契度。说明该标签是可用的。

eg【

9640 12783 she
12783 17103 had
17103 18760 your
18760 24104 dark
24104 29179 suit
29179 31880 in
31880 38568 greasy
38568 45119 wash
45624 51033 water
52378 55461 all
55461 60600 year

可以看出词的边界是由音素的边界合成的,比如she:[9640-12783] = sh:[9640-11240] + iy: [11240-12783]

边界标定细节可看我这篇文章:TIMIT数据集-语音人工标签-波形频谱可视化展示

训练集&测试集的划分

划分原则

1、大约20%~30%为测试集、70%~80%为训练集。

2、不能有说话者既出现在训练集又出现在测试集中。

3、在测试集与训练集中至少存在每个方言区的1男1女

4、测试集与训练集的交集必须最小,最好没有交集

5、测试集中必须涵盖所有音素,并且最好在不同语境中出现多次

根据上述原则,TIMIT划分出了核心测试集(Core Test Set),8个地区,每个地区选择2男1女,每个说话者说5个不同的SX句子3个IS句子。总共3人x8句x8地区=192句子。

地区		男性				女性
1        DAB0, WBT0     ELC0
2        TAS1, WEW0     PAS0
3        JMP0, LNT0     PKT0
4	     LLL0, TLS0     JLM0
5        BPM0, KLT0     NLP0
6        CMJ0, JDH0     MGD0
7        GRT0, NJM0     DHC0
8        JLN0, PAM0     MLD0

由于核心测试集的数据量太少,官方不建议是用该测试集对系统进行性能测试

进一步地,利用核心测试集构建完全测试集(Complete Test Set)构建原则是:将所有与核心测试集里的人读过相同SX句子的人纳入完全测试集中,这样可避免同一个句子既出现在测试集中,又出现在训练集中。而因为一个SX句子被7个人读,所以其他6人必须被放入完全测试集中。

最终构建的完全测试集的分布为:

地区男性女性总计
17411
218826
323326
4161632
5171128
68311
715823
88311
总计11256168

该测试集占全体说话人的27%,有120句不同的SX句子,504个不通的SI句子,共1344个句子。官方推荐使用完全测试集进行性能测试
语音时长分布:

类别说话人个数句子个数总时长
训练集46236963.14
核心测试集241920.16
完全测试集16813440.81

结语

TIMIT数据集至今已有30余年的历史了,已然成为语音识别领域的标准,并运用甚广。

原因是:

1、TIMIT的数据库手动标注详细到音素说话人来自美国各个地方,并且提供了详细的说话人信息比如人种、学历甚至于身高。

2、数据集相对较小,可以短时间完成实验,同时测试系统性能。

参考资料

TIMIT官方文档

TIMIT官网

DARPA TIMIT文档

CSDN博客:TIMIT数据库


http://chatgpt.dhexx.cn/article/TEs2uIGp.shtml

相关文章

语音增强数据集总结【持续更新】

语音增强数据集总结 语音增强的第一步一般是准备数据,包含带噪语音和纯净语音。一般这些数据都是人工合成的,以纯净语音和噪声数据为基础即可合出带噪语音信号。以下介绍一些语音增强领域常用的数据集。 纯净语音 Common Voice(2019首次发布&#xff…

DuDuTalk语音工牌:语音数据分析在销售场景的应用价值

在现今这个数字时代,企业需要更高效、更有效地沟通和合作。语音数据的收集和分析能够增加销售团队和客户之间的联系,同时提高销售闭合率。因此,了解和利用销售沟通语音数据的价值,是现代企业所必须的。 销售沟通语音数据指的是在…

VoxCeleb1 语音数据集下载

前言 VoxCeleb1 是广泛使用的 说话人识别、验证 数据集。由于是从 YouTube 视频中提取,有比较丰富的噪声。(有空补介绍)由于我只使用音频数据,这里只介绍音频数据相关的下载流程。 如果可以使用谷歌表单和翻译软件应该就可以顺利…

语音识别之语音数据预处理

Email:ht0909mail.ustc.edu.cn 原创内容,转载请标明 数据集 1.清华大学THCHS30中文语音数据集 data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noi…

中文语音识别数据集总结

目录 OpenSLR国内镜像1.Free ST Chinese Mandarin Corpus2.Primewords Chinese Corpus Set 13.爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )4.THCHS305.ST-CMDS6.MAGICDATA Mandarin Chinese Read Speech Corpus7.AISHELL7.1 AISHELL…

语音数据集整理

语音数据集整理 目录 1.Mozilla Common Voice. 2 2.翻译和口语音频的大型数据库Tatoeba. 2 3.VOiCES Dataset 3 4. LibriSpeech. 4 5.2000 HUB5 English:... 4 6.VoxForge:... 4 7.人类语音的大规模视听数据集 (VoxCeleb)…

语音数据集

最大的语音数据下载网站: openslr.org vox-celeb说话人识别数据集:无法下载 OpenSpeaker之声纹数据整理 - 知乎本文是OpenSpeaker系列的第二篇文章,全系列可参考这篇文章或者文末的专栏: 蘑菇炖提莫:OpenSpeaker&…

Ubuntu 16.04网络配置

A lazy youth, a lousy age. 1.用root账号进行登录。Files–>Computer–>etc–>network–>interfaces 2.使用以下命令可查看网卡编号、IP地址、子网掩码。 ifconfig3.使用以下命令可查看网关号。 route4.最后,在interfaces中填写配置信息。 2021.10…

Ubuntu20配置网络 ssh

Ubuntu20配置网络 ssh Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml确定要配置的地址配置VMnet8地址设置虚拟网络地址配置ubuntu地址 Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml 确定要配置的地址 VMnet8: 192.168.12…

Ubuntu 14.04 网络配置

VMware中网络设置有三种,分别是:NAT、桥接和Host-only。本文仅说明NAT连接,配好后可让虚拟机上网,操作简单图文并茂。 1、首先打开虚拟机的设置 2、设置成NAT模式 3、打开虚拟网络编辑器 4、打开权限 5、设置虚拟网络编辑器为…

Ubuntu如何配置桥接网络

1、Ubuntu的网络配置分类 Ubuntu的主要三种网络配置 (1)桥接模式:Ubuntu和主机各有一个IP地址。(重点) (2)NAT模式:Ubuntu和主机共享IP地址。 (3)主机模式…

VMware虚拟机Ubuntu连接网络设置

VMware虚拟机Ubuntu连接网络设置 前言 学校发了新电脑不想装双系统,装了VMware虚拟机,但是在联网是遇到了困难。在网上找了方法连接成功。现在做一下记录。 方法 一般虚拟机联网方法有两种:NAT 和 桥接。 参考 知乎:Vmware虚拟…

【Ubuntu】配置ubuntu网络

配置ubuntu网络 一、三种虚拟网络介绍二、 配置ubuntu系统使用桥接模式连接外网三、通过NAT模式让ubuntu系统连接外网四、常见问题1.解决ubuntu系统没有网络图标一、三种虚拟网络介绍 VMnet0 : 桥接模式,选中桥接模式之后,可以将VMnet0桥接到对应的物理网卡之上, 默认选中自…

Ubuntu桥接网络配置

一、虚拟机设置 点击虚拟机最上面的“虚拟机”选项,在打开的下拉菜单中选择最下面的“设置”选项,弹出“虚拟机设置”对话框: 在当前“硬件”选项卡,选择“网络适配器”,在右侧的网络连接中选择“桥接模式”&#xf…

Ubuntu网络配置、开发板与电脑

一、Ubuntu网络配置 1、概念 桥接:Ubuntu会单独由路由器分配ip地址,不和Windows共享ip NAT:Ubuntu跟主机共享ip 注意:某些同学Ubuntu一直无法配置联网或者ping不通局域网,有可能是你的虚拟网卡被删了,重新安…

virtualbox下ubuntu虚拟机配置网络

一、目标: 1.在ubuntu虚拟机内可以联通外网 2.可以通过本机ssh连接上ubuntu虚拟机 二、Virtualbox配置 1.勾选 “系统->网络” 2.配置双网卡 网卡1配置为Nat,网卡2配置为Host-Only 三、ubuntu虚拟机内部设置 vi /etc/netplan/00-installer-confi…

VirtualBox设置Ubuntu虚拟机网络通信

1、安装虚拟机 2、设置虚拟机上网 3、设置主机-虚拟机、虚拟机-虚拟机网络通信 4、修改虚拟机IP地址 (1)查看本地IP (2)查看虚拟机IP (3)修改虚拟机IP,切换为管理员用户 改为静态IP,设置dpcp4为false,addresses设置为…

VMware环境下Ubuntu网络的配置

实现VMware虚拟机中Ubuntu的网络连接,本质上是使用Ubuntu作为子机连接PC主机的网络,即PC共享网络到Ubuntu中。 在打开虚拟机前,在编辑中找到“虚拟网络编辑器”,并打开管理员权限(只有在打开管理员权限后,才…

Ubuntu18网络配置

Ubuntu18中的网络连接配置 Ubuntu下有两种配置网络的方式: 通过NetManager提供的GUI配置通过/etc/netplan/*.yml的文件配置 通过NetManager进行网络配置 首先要明白,NetManager是Ubuntu自带的一款网络连接的配置软件,安装在/etc/NetworkM…

Ubuntu入门教程(4)——虚拟机Ubuntu网络配置

文章目录 1.任务背景2.任务目标3.任务实操3.1本机3.2 虚拟机 4.任务总结 1.任务背景 大家在使用虚拟机操作Ubuntu系统的时候,可能来回切换麻烦,又或者是需要下载什么资源,这就需要用到网络,这篇文章教给大家如何在虚拟机上给Ubun…