语音标注必须了解的基础知识点

article/2025/8/21 19:16:37

  昨天发了一遍关于语音数据标注工具Praat的基础使用,后台收到了很多小伙伴的留言,想了解一下更多的语音相关的知识,也想深入的学习一下,所以今天继续写一篇关于语音相关的基础知识,不管是数据标注还是刚了解语音相关AI技术的小伙伴都必须要知道的知识点。

 一.几个重要的概念

    1.采样

    由于声音为为模拟连续信号,而计算机只能处理数字离散信号,因此要用计算机来分析和处理声音,就需要经历模数转换过程[Anlog to Digital Converter,即ADC],即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来,其样本值用二进制码0和1来表示,这些0和1构成了数字音频文件,其过程实际上是将模拟音频信号转换成数字离散信号。

      2.采样率

      采样率表示了每秒对原始信号采样的次数。显然,在一秒中内采样的点越多,获取的信息越丰富,为了复原波形,一次振动中至少得有两个采样点,要想使采集到的信号不失真,采样频率规定至少为语音频率的2倍,因此要 得到一个频率为10000赫兹的声音,则其采样率至少要大于20000赫兹的。采样率越高,数字信号的保真度越高,但同时占用的存储空间越大。如果采样率低于语音频率的两倍,则会产生低频失真、信号混淆现象。

     3.采样精度

    采样精度就是指存放一个采样值所使用的比特数目。当用8个比特(采样精度为8位)存放一个采样值时,对声音振幅的分辨等级理论上为256个,即0至255;当用16个比特(采样精度为16位)存放一个采样值时,对声音振幅的分辨等级理论上为65536个,即0到65536。如果您将采样精度设置为16位,计算机记录的采样值范围则为-32768到32767之间的整数。

    注意采样率和采样精度越大,记录的波形更接近原始信号,但同时占用的内存空间也越大。

    4.声道

    声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时,只要使用单声道就可以了。

    5.信噪比

      信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB,8位采样率的信噪比大约是48dB。在录音时,在录音时简单估计噪音大小的办法是:当没有语音信号输入的时候,如果麦克风输入的信号振幅值超过200(单位为采样值,相当于46dB),则噪声就比较大,需要进行一定控制,如在比较安静的环境下录音,关闭窗户、空调、电扇等噪声源,远离电脑等噪声源等等,选用比较好的带有屏蔽的麦克风,选用比较好的声卡等等。噪声的振幅值越低越好,录音室里的录音一般可以控制在10以下(单位为采样值,相当于20dB)

    注:采样率和采样精度的设置以越高越好,采样率和采样精度越高则声音的质量越高,不过考虑到存储空间和语音信号的特点,一般可以设置为16000赫兹的采样率和16位的采样精度。如果需要录制两个不同的信号源,则使用立体声,否则都使用单声道。

二.声学的几个基础概念

      当物体振动时,会引起周围空气的波动,导致空气粒子间的距离发生疏密变化,从而引发空气压强的改变,在通过人的耳膜对空气压强的反映传入大脑,从而形成声音。物理上讲,声音具有4个基本特征:即音色、音强、音高和音长。

       1.声波

      声波是有物体振动产生的,物体振动使周围的介子(如空气)产生波动,这就是声波。声波的最简单形状是正弦波,由正弦波得到的声音交纯音。在日常生活中,人们听到的大部分都不是的纯音,而是复合音,这是由多个不同频率和振幅的正弦波叠加而成的。

       2.声速

      声波每秒在介子中传播的距离,叫做“声速”,用c表示,单位m/s。声速与传播声音的介子和温度有关。在常温常压的空气中,声速(c)和温度(t℃)的关系可简写为:c ≈ 331.4+0.607t(m/s)。常温常压下,声速为345m/s。

      3.波长

      沿着声波传播方向,声波震动一周所传播的距离,或在波形上相位相同的相邻的两点的距离,叫做“波长”,用λ表示,单位为m。波长与发生物体的震动频率成反比:频率越高,波长越短。日常所说的长波指频率低的声音,短波指频率高的声音。波长、声速和频率三着之间的关系λ=c/f。

       4.振幅

        振动物体离开平衡位置的最大距离,叫做振动的“振幅”,通常用符号A表示。简谐振动的振幅是不变的。强迫振动的稳定阶段振幅也是一个常数。阻尼振动的振幅逐渐减小,振幅是可变化的。振幅是用来表示振动强弱的物理量,振幅大,则振动强度大;振幅小,则振动强度小。

        5.分贝

      分贝是增益或衰减单位,用来描述两个相同物理量之间的相对关系。声信号和电信号的相对强弱,例如声压和电压、声功率和电功率放大(增益)和减小(衰减)的量都可用分贝数来表示。

       计算公式如下:

        LN = 10 * lg(A1 / Ar)  或 LN = 20 * lg(A1 / Ar)  

      公式中,其中Ar是基准量,Al是被测量,分贝符号为“dB”。被测量和基准量之比取以10为低的对数,这对数值称为被测量的“级”,它代表被测量比基准量高出多少“级”。根据公式可以得出,若被测量是基准量的10倍,则被测量比基准量高出1级,如被测量是基准量的100倍,则被测量比基准量高出2级,以此类推。每一级相差10或者20个dB。

      分贝的计算很简单,对于振幅类物理量,如声压、电压、电流强度等,将被测量与基准量相比后求常用对数再乘以20;对于它们的平方项的物理量如电功率、声功率和声强,取对数后乘以10就行了。如果需要表示的量小于与相比的量时(即比值小于1时),则dB数前要加一个负号。

三.语音AI领域的主要方向

      1.TTS(Text-to-Speech,语音合成),即“从文本到语音”,是人机对话的一部分,让机器能够说话。

       2.ASR(Automatic Speech Recognition,语音识别),是将声音转换为文字。

      以上两个概念呢,大家可以自行百度一下有非常详细的介绍,在这里就不复制粘贴啦。在TTS中最主要的一个指标就是自然度,也就是当你听见机器跟你说话的时候,你能不能区分出来这个不是人,目前在很多电话机器人上的使用很广泛,而且几乎已经判断不出来是机器人在对话(当然从其他方面还是很容易区分出来的)。而在ASR部分就比较难了,特别是在中文领域的应用,难上加难啊,必经中文还是博大精深的啊。当然应该也是发展非常有机会的一个方向,当然要结合NLP来进行应用才能发挥出真正的威力,否则还是基于简单规则的就没什么意思了。

      本文着重介绍了一下语音相关最基础的知识点,我个人认为这是做语音数据标注或者语音采集的最基础的知识了,也是必须要掌握的,希望可以对大家在今后的工作学习当中能有好的帮助。

            

 


http://chatgpt.dhexx.cn/article/6au33laR.shtml

相关文章

景联文科技|浅谈常见的语音标注方法

语音标注是数据标注行业中一种比较常见的标注类型。 语音标注的主要工作内容是将语音中包含的文字信息、各种声音“提取”出来,再进行转写或合成,标注后的数据主要用于人工智能,应用在机器学习、语音识别、对话机器人等领域。相当于给计算机…

景联文科技:关于语音标注,你知道多少?

近年来,随着人工智能技术的迅速发展,语音识别(ASR)、语音合成(TTS)技术正不断突破。语音识别技术已深入到日常生活中的方方面面,语音助手、智能音箱、智能客服等都是较为典型的应用场景。在这些…

PyQt5实战之语音标注工具

UI设计采取简单明了的设计风格如下图 首先参考如何播放一个音频文件 https://zhuanlan.zhihu.com/p/60907386完整代码 https://link.zhihu.com/?targethttps%3A//github.com/CharlesPikachu/Tools/tree/master/MusicPlayer目前可以实现音频波形 可实现 开始和结束位置的显示…

语音标注的具体应用场景

语音标注是我们的标注员不断地对语言信息进行转写,让人工系统进行学习的过程。目前,语音识别技术在我们日常生活中的很多方面都有所普及,例如我们的微信翻译、语音助手、智能音响、智能客服等,随着人工智能的逐步发展,…

语音标注实验

前言: 语音标注是基础中的基础。 文章目录 1 首先是学会手动标注的过程 pratt工具的使用1.1[Praat将连续录制的声音文件切成小单位文件](https://blog.csdn.net/shaopengfei/article/details/20928683)1.2Pratt工具的操作 可以参考这个文件1.3 Pratt可以做什么呢&am…

八种常见的语音标注方法 | 语音标注

科技冬奥,是前不久刚刚结束的2022年北京冬奥会提出美好愿景。科大讯飞作为冬奥会的“翻译官”,为冬奥会提供了自动翻译和相关的多语种语音转换、语音识别以及语音合成等一系列技术,展现出了满满的科技文化。 数据标注的重要性 随着人工智能的…

Praat语音标注说明

经常使用这个工具,隔太久就会忘记,这里总结和记录一下。 1 下载 Praat官网 praat github praat6121_win64.zip 字体文件DoulosSIL-5.000.exe 解压直接使用双击Praat.exe即可 2 使用技巧 2.1 首次打开Praat 只要Praat Objects窗口,关闭Pra…

语音标注工具介绍

人工智能业内普遍认为,语音将成为下一个重要的技术平台,近年来随着人工智能理论与技术的迅猛发展,语音识别(ASR)、语音合成(TTS)技术在不断突破。虽然理论技术取得了长足进步,但是在…

语音数据标注工具与平台

最近在做语音深度学习的项目,整理了一下语音数据标注工具和语音标注平台,供大家参考 语音标注工具–Praat Praat是目前已经成为比较流行也比较专业的语音处理的软件,可以进行语音数据标注、语音录制、语音合成、语音分析等等,具…

Snappy Ubuntu 入门

在这篇文章中,我们将介绍Snappy Ubuntu的一些基本知识.我们将介绍如何在我们的电脑上安装KVM,并利用它来学习Snappy的一些基本的命令.在前面的文章" 到底Snappy Ubuntu是什么?"中,我们已经介绍…

Linux--Ubuntu入门篇(在Ubuntu中安装软件)

1. 方法: (1)APP Store安装 (2)Sudo apt-get install安装法 (3)deb软件包安装 (4)自己下载源码编译安装 (5)其他安装方法 2. (1&am…

Linux--Ubuntu入门篇(Ubuntu下的磁盘管理)

引言: U盘类型: FAT32 (U盘右键属性) 一、Ubuntu磁盘文件(在/dev中) /dev/sd* 文件,此类文件时磁盘设备文件,并不能直接访问磁盘,必须要将磁盘挂载到某一个目录才可以访问。(sd* …

Linux之Ubuntu入门篇

Linux之Ubuntu入门篇 第1讲 开发电脑的选择 第2讲 VMware软件安装和虚拟机创建 第3讲 Ubuntu操作系统的安装 第4讲 Ubuntu初次体验 第5讲 虚拟机连接USB设备 第6.1讲 Ubuntu终端操作与Shell命令1 显示当前问价夹下所有文件详细信息 ls -al回跟目录 cd /显示当前路径 pwd系统信…

Linux-Ubuntu入门到精通之远程操作指令

目录 1️⃣shutdown2️⃣查看或配置网卡信息3️⃣网卡和IP地址4️⃣ifconfig5️⃣ping6️⃣远程登录和复制文件7️⃣ ssh 基础(重点)8️⃣域名 和 端口号9️⃣SSH 客户端的简单使用1️⃣0️⃣Windows 下 SSH 客户端的安装1️⃣1️⃣scp(掌握&…

Linux嵌入式学习之Ubuntu入门(二)磁盘文件介绍及分区、格式化等

系列文章目录 一、Linux嵌入式学习之Ubuntu入门(一)基本命令、软件安装及文件结构 文章目录 系列文章目录前言磁盘文件磁盘容量查询挂载与卸载卸载手动挂载 磁盘分区补充介绍文件系统类别 前言 继续学习Ubuntu操作 磁盘文件 磁盘文件是在/dev下的&…

Ubuntu入门编写

在Ubuntu系统中编写简单程序及简单命令的使用 一,编写简单的hello world 命令行输入vi hello.c 编写主程序 写程序 然后使用gcc命令编译 运行./hello得到结果 二,在Ubuntu上写一个简单的程序与在Windows上编写 1,编写主程序与子程序 …

vmware安装ubuntu入门教程

1 ubuntu下载地址: Ubuntu 22.04.1 LTS (Jammy Jellyfish) 2 vmware下载地址: https://customerconnect.vmware.com/en/downloads/info/slug/desktop_end_user_computing/vmware_workstation_pro/17_0 vmware安装按照默认安装即可 3 在vmware中设置ub…

00_Ubuntu系统入门

目录 前言 一、Ubuntu系统安装 1.1 VMware15安装虚拟机不兼容,无法打开 1.2 Ubuntu联网问题 二、Ubuntu系统入门 2.1 Ubuntu系统初体验 2.2 Ubuntu终端操作 2.3 shell操作 2.3.1 shell简介 2.3.3 常用shell命令 2.4 APT下载工具 2.5Ubuntu 下文本编辑 …

Ubuntu入门系列

1.ubuntu软件安装 1.通过App store 安装 2.通过APT 安装 使用apt工具安装软件,需要sudo,也就是root权限 发现出现错误出现进程占用,。 解决办法; 安装成功 3.deb软件包安装 window 是exe ubuntu shi .deb 文件 例如安装网易云音乐 4.…

Ubuntu新手入门全攻略

Ubuntu可以说是Linux系统的一面旗帜,相比于大多数发行版,美观易用,具有强大的社区支持,因而也成为了新手入门Linux系统的一个不错选择(再深入点的CentOS之类的就另说了)。 笔者在尝试Ubuntu系统的时候遇到了…