VoxCeleb1 语音数据集下载

article/2025/10/29 8:35:40

前言

VoxCeleb1 是广泛使用的 说话人识别、验证 数据集。由于是从 YouTube 视频中提取,有比较丰富的噪声。(有空补介绍)由于我只使用音频数据,这里只介绍音频数据相关的下载流程

如果可以使用谷歌表单和翻译软件应该就可以顺利下载,私下分发数据集有侵权风险。

正文

官网如下:

VoxCelebhttps://www.robots.ox.ac.uk/~vgg/data/voxceleb/

但是很神奇的是现在(2022-7-12),这个网站所有的下载链接被取消了。

VoxCelebhttps://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html

可以看到,只能下载到 Metadata,音频文件暂时不可用。

搜了好久后发现在下面的链接可以下载,一开始担心不是官网,后面发现这是一个韩国的实验室,承接了第四次的 VoxCeleb Speaker Recognition Challenge (VoxSRC) 

VoxCelebhttps://mm.kaist.ac.kr/datasets/voxceleb/下载前需要填个 Google Form,填入单位姓名等。由于是自动流程,所以填完不久就可以检查邮箱收件箱了,会看到一个邮件给出了 用户名和口令。

https://docs.google.com/forms/d/e/1FAIpQLSdQhpq2Be2CktaPhuadUMU7ZDJoQuRlFlzNO45xO-drWQ0AXA/viewform?fbzx=7440236747203254000

这里有说明,给出的身份只能使用 1 个月。

获得用户名和口令之后就好办了,使用 Windows 和浏览器的可以直接在下面的链接找到对应的数据集下载,因为过大所以官方做了分片,具体的操作官网有详细说明,下载的时候点击链接,会弹出需要填入用户名和口令,输入即可开始下载。VoxCelebhttps://mm.kaist.ac.kr/datasets/voxceleb/

额外补充一下,Linux 环境的下载命令。

wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wav.zip  --http-user=username--http-passwd=password

将 链接 `http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wavip` 切换为你需要下载的文件,然后 username 和 password 做替换即可。

官网给出了 md5,可以顺手校验一下。

 md5sum vox1_dev_wav.zip

然后是解压,用 unzip 命令。

unzip -d vox1_dev_wav vox1_dev_wav.zip

然后就大工搞成了,数据集的使用可以参照 GitHub 找 voxceleb trainer,此外用 Pytorch 的用户可以参照  torchaudio.datasets.voxceleb1 — Torchaudio nightly documentation。这个 API 比较新,比较古早的版本可能没有。

补充

对于将要使用这个数据集 Train 模型的同学补充说明一下,Identification 任务的训练也是要下载 Test 数据的。

直接用 https://mm.kaist.ac.kr/datasets/voxceleb/meta/iden_split.txt 这个文件读取数据集,会报错,id10270-id10309 的数据是缺失的,但是 iden_split 这个文件却标注了一些 id 在这个范围的说话人的数据为 Training,我本以为只用 Training Data (因为不是做 ASV)所以没有下载 Test……结果就报错了,找不到音频文件。


http://chatgpt.dhexx.cn/article/Yr0hgwAe.shtml

相关文章

语音识别之语音数据预处理

Email:ht0909mail.ustc.edu.cn 原创内容,转载请标明 数据集 1.清华大学THCHS30中文语音数据集 data_thchs30.tgz http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz test-noise.tgz http://cn-mirror.openslr.org/resources/18/test-noi…

中文语音识别数据集总结

目录 OpenSLR国内镜像1.Free ST Chinese Mandarin Corpus2.Primewords Chinese Corpus Set 13.爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )4.THCHS305.ST-CMDS6.MAGICDATA Mandarin Chinese Read Speech Corpus7.AISHELL7.1 AISHELL…

语音数据集整理

语音数据集整理 目录 1.Mozilla Common Voice. 2 2.翻译和口语音频的大型数据库Tatoeba. 2 3.VOiCES Dataset 3 4. LibriSpeech. 4 5.2000 HUB5 English:... 4 6.VoxForge:... 4 7.人类语音的大规模视听数据集 (VoxCeleb)…

语音数据集

最大的语音数据下载网站: openslr.org vox-celeb说话人识别数据集:无法下载 OpenSpeaker之声纹数据整理 - 知乎本文是OpenSpeaker系列的第二篇文章,全系列可参考这篇文章或者文末的专栏: 蘑菇炖提莫:OpenSpeaker&…

Ubuntu 16.04网络配置

A lazy youth, a lousy age. 1.用root账号进行登录。Files–>Computer–>etc–>network–>interfaces 2.使用以下命令可查看网卡编号、IP地址、子网掩码。 ifconfig3.使用以下命令可查看网关号。 route4.最后,在interfaces中填写配置信息。 2021.10…

Ubuntu20配置网络 ssh

Ubuntu20配置网络 ssh Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml确定要配置的地址配置VMnet8地址设置虚拟网络地址配置ubuntu地址 Ubuntu20的网络配置文件位置: /etc/netplan/01-network-manager-all.yaml 确定要配置的地址 VMnet8: 192.168.12…

Ubuntu 14.04 网络配置

VMware中网络设置有三种,分别是:NAT、桥接和Host-only。本文仅说明NAT连接,配好后可让虚拟机上网,操作简单图文并茂。 1、首先打开虚拟机的设置 2、设置成NAT模式 3、打开虚拟网络编辑器 4、打开权限 5、设置虚拟网络编辑器为…

Ubuntu如何配置桥接网络

1、Ubuntu的网络配置分类 Ubuntu的主要三种网络配置 (1)桥接模式:Ubuntu和主机各有一个IP地址。(重点) (2)NAT模式:Ubuntu和主机共享IP地址。 (3)主机模式…

VMware虚拟机Ubuntu连接网络设置

VMware虚拟机Ubuntu连接网络设置 前言 学校发了新电脑不想装双系统,装了VMware虚拟机,但是在联网是遇到了困难。在网上找了方法连接成功。现在做一下记录。 方法 一般虚拟机联网方法有两种:NAT 和 桥接。 参考 知乎:Vmware虚拟…

【Ubuntu】配置ubuntu网络

配置ubuntu网络 一、三种虚拟网络介绍二、 配置ubuntu系统使用桥接模式连接外网三、通过NAT模式让ubuntu系统连接外网四、常见问题1.解决ubuntu系统没有网络图标一、三种虚拟网络介绍 VMnet0 : 桥接模式,选中桥接模式之后,可以将VMnet0桥接到对应的物理网卡之上, 默认选中自…

Ubuntu桥接网络配置

一、虚拟机设置 点击虚拟机最上面的“虚拟机”选项,在打开的下拉菜单中选择最下面的“设置”选项,弹出“虚拟机设置”对话框: 在当前“硬件”选项卡,选择“网络适配器”,在右侧的网络连接中选择“桥接模式”&#xf…

Ubuntu网络配置、开发板与电脑

一、Ubuntu网络配置 1、概念 桥接:Ubuntu会单独由路由器分配ip地址,不和Windows共享ip NAT:Ubuntu跟主机共享ip 注意:某些同学Ubuntu一直无法配置联网或者ping不通局域网,有可能是你的虚拟网卡被删了,重新安…

virtualbox下ubuntu虚拟机配置网络

一、目标: 1.在ubuntu虚拟机内可以联通外网 2.可以通过本机ssh连接上ubuntu虚拟机 二、Virtualbox配置 1.勾选 “系统->网络” 2.配置双网卡 网卡1配置为Nat,网卡2配置为Host-Only 三、ubuntu虚拟机内部设置 vi /etc/netplan/00-installer-confi…

VirtualBox设置Ubuntu虚拟机网络通信

1、安装虚拟机 2、设置虚拟机上网 3、设置主机-虚拟机、虚拟机-虚拟机网络通信 4、修改虚拟机IP地址 (1)查看本地IP (2)查看虚拟机IP (3)修改虚拟机IP,切换为管理员用户 改为静态IP,设置dpcp4为false,addresses设置为…

VMware环境下Ubuntu网络的配置

实现VMware虚拟机中Ubuntu的网络连接,本质上是使用Ubuntu作为子机连接PC主机的网络,即PC共享网络到Ubuntu中。 在打开虚拟机前,在编辑中找到“虚拟网络编辑器”,并打开管理员权限(只有在打开管理员权限后,才…

Ubuntu18网络配置

Ubuntu18中的网络连接配置 Ubuntu下有两种配置网络的方式: 通过NetManager提供的GUI配置通过/etc/netplan/*.yml的文件配置 通过NetManager进行网络配置 首先要明白,NetManager是Ubuntu自带的一款网络连接的配置软件,安装在/etc/NetworkM…

Ubuntu入门教程(4)——虚拟机Ubuntu网络配置

文章目录 1.任务背景2.任务目标3.任务实操3.1本机3.2 虚拟机 4.任务总结 1.任务背景 大家在使用虚拟机操作Ubuntu系统的时候,可能来回切换麻烦,又或者是需要下载什么资源,这就需要用到网络,这篇文章教给大家如何在虚拟机上给Ubun…

配置 Ubuntu 的网络

一、三种联网的模式 1. 桥接 VMnet0------> 主机和 Ubuntu 都有一个 ip 地址 2. NAT 模式 VMnet8-------->Ubuntu 和主机是同一个 ip 地址 3. 主机模式 VMnet1-------> 只能和主机进行通信 二、网络配置 1. 虚拟机----->设置 2. 确保网络适配器是桥接模式或…

虚拟机Ubuntu网络配置

第一步: 第二步: 注意:如果自动不行就使用所用网络的网卡具体操作如下 第三步: 第四步:地址和网关在主机终端中使用命令 ipcofig 获取 第五步:配置有线网络,地址要与主机地址在同一网段&#x…

ubuntu网络配置

配置ubuntu桥接网络 1> 查看网络是否链接 以是否能ping通为准,不要去看网络图标 ping baidu.com 2> 保证虚拟机有桥接网络 a. 虚拟机---->设置---->网络适配器------>选择桥接或者是Vmnet0 b. 编辑----->虚拟网络编辑器 如果没有vmnet0&…