whisper

article/2025/10/5 4:50:22

Robust Speech Recognition via Large-Scale Weak Supervision

介绍

大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练(无监督的数据容易收集,所以通过大量无监督的学习可以训练出一个质量较好的encoder)。但是用的时候还需要找一些有监督的数据进行微调。作者觉得微调是一个比较复杂的过程,而且微调的时候,很容易对特定的数据集过拟合,使得模型的泛化能力不强。作者认为一个真正的语音识别系统,应该是拿去就可以直接用,而不用进行微调。

方法

数据处理

whisper模型直接预测原始抄录文本,没有进行任何标准化。系统直接输出自然抄录文本,而不需要一个额外的反向文本归一化的步骤(开头字母大写、加上标点符号、缩写形式等)。

做文本归一化的好处是,可以让训练更加简单一点。但是这样事后需要基于规则等做文本归一化


意思说,只要我的数据足够大,所有的文本归一化的情况都会出现,不需要额外做文本归一化。

构建了来自网络上的不同环境(不同录音状态、说话人、使用的语言)下的【音频转录文本数据对】。这样能使得模型更加健壮。

网络上爬取下来的音频是原始的,但是文本的质量不一定好。所以说做了一个文本过滤器,过滤掉那些不好的文本。很多文本不是人为标注的,而是用ASR系统生成的,研究表明这些数据会让模型变得更差。所有需要把用ASR系统的文本过滤掉。用ASR系统生成的文本有一些特点,比如说没有复杂的标点符号(冒号、问号等),没有格式化的一些字符,比如换行字符,或者全部是大写或者全部是小写。

同时使用了音频语言检测器(2021年的一个prototype模型)和CLD2工具,检测说的是哪种语言,如果这两个检测出来的语言不一样,那么就把【音频转录文本对】数据删除。

把音频文件分为30秒的【音频文本对】。训练所有音频片段,包括那些没有人说话的音频(作为sub-sampled),使用这些片段区分有没有在说话。

模型

由于我们的工作重点是研究大规模监督预训练的语音识别能力,因此我们使用现成的架构来避免将我们的发现与模型改进混淆。

模型使用2017年的encoder-decoder Transformer。
声音输入到Transformer:所有音频采样16K Hz,变为80通道的 logmagnitude Mel spectrogram(每个时间点抽取了80维度的特征),每个时间窗口是25ms,每次窗口滑动10ms。

切30s的音频,每次滑动10ms,长为30s的音频变成了3000个数据点,每个数据点的维度是80
(一个段落3000个词,每个词的词嵌入长度是80)

在输入之前,经过两个卷积层,它的宽度是3,使用GELU激活函数,第二个卷积层的步幅是2

步幅为2,把3000个数据点变为1500

然后把正弦位置编码加到卷积层的输出中,一块送到encoder进行训练。

在这里插入图片描述

多任务格式

虽然语音识别模型的核心部分是预测说的一段话的单词,但这不是唯一的部分。对于一个完整特征的ASR系统来说,包括许多额外的部分,比如说检测是不是有人在说话,谁在说话,识别出来的文字归一化。这些部分通常是分别处理,然后把它们合起来,成为一个复杂完整的语音识别模型。为了减少复杂度,作者想要用一个模型执行所有的任务。可以在相同的输入音频信号上执行许多不同的任务:转录,翻译,语音活动检测等等。


http://chatgpt.dhexx.cn/article/jXCe1lXt.shtml

相关文章

2015WPE封包刷Q币图文教程

首先进入魔域小组官网 www.myxzg.pw 然后观看免费的视频教程 土豆网观看地址:http://www.tudou.com/listplay/2tXberN2LlM/-6FhCm1CMv0.html

WPE详细教程一

这里讲的WPEPRO的使用方法 一、打开WPE,选择进程client.exe,切换到游戏打一段话(如9个1),然后切出去按开始截取,切换到游戏反复粘贴刚才那复制好的9个1。 然后切出游戏按停止,就会出来一堆数字.其中找S包最简单的方法就是找位数相…

WPE详细教程

这里讲的WPEPRO的使用方法 一、打开WPE,选择进程client.exe,切换到游戏打一段话(如9个1),然后切出去按开始截取,切换到游戏反复粘贴刚才那复制好的9个1。 然后切出游戏按停止,就会出来一堆数字.其中找S包最简单的方法就是找位数相…

Wpe工作原理和教程-以传奇为列

wpe所要改的,不是[游戏里面的数值],而是[伪造信息封包]。 什么意思咧??就是我们用wpe所要改的,并不是"生命力由100变成10000"之类的东西, 这种东西无法用wpe改, 我们要改的可能是把"我卖了一个500元的…

WPE详细教程二

本教程的内容安排 本教程的安排如下:首先是讲为什么会有封包,封包的结构是怎样的。  然后介绍TCP/IP技术的相关内容,定位封包在网络传输中的层!  然后介绍WPE的工作界面,以及各功能按扭的作用!  前面的内容属于了解阶段的内容,帮助您了解相关内容,对下面的学习会…

WPE 过滤器 滤镜 用法

过滤所有数值匹配的数据包,并修改指定的bit位 打开游戏 打开WPE 附加游戏进程 选项配置 用来配置抓取发送和接收包类型 先抓取发送包,也就是游戏中主动发给服务器的包 点击开始抓包 输入喊话内容 分别输入1和2进行抓包 结束抓包 显示…

WPE详细教程三

关于滤镜 经过前面的讲解,大家该知道封包制作外挂的原理了,这里再深入讲解一点,作为封包,按道理只能修改封包,达到修改游戏的目的,其实,如果我们能更广泛地想一想,如果我们能分析封包,其实是可以制作出很强大的功能的,当然,如果让WPE分析封包,能达到的功能是有限的…

封包(一)(雷电模拟器+ProxyDroid+查尔斯3.93+WPE)

自从换了工作就没有给大家分享一些干活,在加上陪伴自己的孩子没有时间更新文章了,这只能在晚上给大家写文档了,我最近在游戏公司上班,研究封包。我把这些东西都做成了笔记,我想有些东西是大家都想弄明白的,…

python 封包发包_python中封包建立过程实例

在python的变量使用中,有时候会赋予多个值一起使用,相信很多人一般都是添加一个值,对于这种多个赋值还没有接触过,其实这是python高级里的封包使用,我们在下面会进行简单的介绍,并解释建立封包的具体方法和…

安卓模拟器封包抓取加解密

什么是封包呢? 在网上也许能找到许许多多的答案,电脑端的比较多。但是好多都是比较旧的。这方面的知识相当的缺少。 封包就是数据,游戏向服务端发送的请求。就比如你游戏一顿操作,结束最后就是一条数据发给服务器。 封包常见的就有…

海盗王封WPE的方法

在游戏中,合当地使用WPE可以减轻玩家的重复操作,但是利用WPE刷bug作弊,会影响游戏平衡,故意大量发包还会导致全服集体卡顿。因此,很多开服的GM对此深恶痛绝。 以海盗王游戏为例,怎么封WPE呢? 首…

WPE封包外挂教程(上)

国家新闻出版署和信息产业部严厉打击私服和外挂,本教程转载于此处仅做学习和研究之用,如若因此导致任何后果,本站概不负责!Wpe工作原理和可行性分析 wpe所要改的,不是[游戏里面的数值],而是[伪造信息封包]。 什么意思咧??就是我…

wpe封包修改服务器数据,WPE修改基础第三课:封包的基本知识

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。 您需要 登录 才可以下载或查看,没有帐号?立即注册 x WPE修改基础第三课:封包的基本知识 前面给同学们介绍了WPE的作用,和WPE加载游戏的进程,接下来我们就要去游戏中截取封包了,但是大家对封包还是有个模糊的认…

wpe修改充值_WPE修改基础第四课:封包分析教程

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。 您需要 登录 才可以下载或查看,没有帐号?立即注册 x WPE修改基础第四课:封包分析教程 很多刚学习WPE的新人,最喜欢做的事就是拿一个封包,发给我,然后问,静姐,这个封包的代码是什么意思? 在这里我要和大家说…

讲解wpe抓包,封包

相信大多数朋友都是会使用WPE的,因为这里也有不少好的教程,大家都辛苦了! 先说说接触WPE的情况。当时好像是2011年,我本来不知道WPE对游戏竟有如此大的辅助作用的。起先找WPE软件的时候,只是因为我找网络抓包工具&…

Centos7笔记之KVM之磁盘格式转换

一、目标 centos7.6环境下,kvm的raw和qcow2磁盘间的格式转换 二、平台 [rootxserver ~]# cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) 三、解析 1.每个kvm虚拟机都有个配置文件存放在/etc/libvirt/qemu/ 2.使用纯GUI界面创建的kvm虚拟机的默…

计算机格式怎么调,怎么改电脑硬盘格式?

电脑硬盘格式很容易修改,但是要注意,一般来说我们通过系统自带的格式化来修改硬盘格式,但是我们也有CMD命令来无损转格式,现在就让小编带大家了解这些方法吧~ 系统自带转格式的两种方法 Mac系统: 打开LaunchPad→Other→磁盘工具,如下图: 找到你的磁盘分区,选择需要的磁…

计算机分区格式转换,怎么将GPT分区格式转换成MBR分区格式

步骤方法: 1、进入U盘PE系统后运行桌面上的“DiskGen分区工具”并点击顶端“硬盘”中的“删除所有分区” 2、删除所有分区后可以看到硬盘旁边显示空闲40.0GB,同时背景是灰色的。 3、点击上方的“快速分区”图标 4、在弹出“分区表已更改且尚未保存”提示…

虚拟磁盘格式转换

目前比较常见的虚拟机有VMware、Virtual PC、VirtualBox,他们所使用的虚拟磁盘的磁盘格式是不一样的,如果想对不同厂家的虚拟机磁盘中的数据进行移植,就是一个比较麻烦的事情了。不过现在可以通过V4.5版本的DiskGenius软件进行这样的操作了&a…

vmdk to vhdx 虚拟磁盘格式转换qemu-img

qemu-img是创建、转换、修改磁盘映像的工具,我们可以用它非常方便的转换虚拟磁盘格式,比如在vmdk、vhdx、qcow2、vdi之间相互转换,它在流行的Linux、macOS、Windows平台上都发布有对应的版本。 本文介绍的是Windows版本,它支持下…