《语音信号处理》 语音识别章节 读书笔记

article/2025/10/21 21:33:59

两本书,《语音信号处理》赵力编和《语音信号处理》韩纪庆编。强烈推荐韩纪庆版本,知识点很全面,可以作为语音识别的入门中文书籍,章节很也短,很快就入门了。

P34
HMM是一个双内嵌式随机过程,由两个随机过程组成:
一个是状态转移序列,对应单纯markov过程;另一个是每次转移时输出的符号组成的符号序列。(这个也是随机的,理解为 不知道状态序列,也不知道输出符号序列。。。)
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

语音信号处理(第二版)韩纪庆编

P178
BW算法,重估算法证明

在这里插入图片描述
重估算法
在这里插入图片描述

引入GMM:在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GMM: (韩纪庆版 P184)
k:第k个高斯分布
在这里插入图片描述
在这里插入图片描述

P130:
模板(模型)Mi,即 i 单词的均值和协方差矩阵。

P135:
语音信号的特征矢量序列的集合作为观察值序列O = O1,O2,…OT

P136:
声学模型和语言模型时单独训练的,所以要怎么把基于语言模型的句法约束结合进连续语言识别呢?较好的方法应该是实现帧同步的语音-语言处理的统合。一般采用的方法是把声学模型和语言模型结合在一个有限状态自动机的框架进行处理。
在这里插入图片描述
2019.4.7

似然度:就是条件概率

离散hmm:参数B是一个概率矩阵;
连续hmm:所有状态上的观察概率密度函数共同形成了参数B。(每个状态的分布是gmm)。

  1. 克服训练数据的不足:

将一个训练较充分,但细节较差(把一些出现次数很少的观察值概率为0)和一个训练不充分,但细节较好的模型进行混合。
新的模型参数:
在这里插入图片描述

删插平滑法(deleted interpolartion)
在这里插入图片描述
bjk为模型状态j对应的观察值概率。

怎么估计权值w呢?。。取决于各个状态上当前训练序列的数目占全部训练序列数目的比例。
在训练各个HMM时,除了保存模型参数之外,还应保存相应的状态数目。
在这里插入图片描述
2. 处理说话人的影响
3. 基于最大互信息的HMM
4. 考虑状态驻留时间的HMM(三音素?)
引入一个 在状态 i 上相继产生d个观察值的概率为:
在这里插入图片描述
这个概率值pi(d)描述了状态i的驻留时间(state duration),非指数分布。

连接词识别

P190
连接词识别:系统存储的HMM是针对孤立词的,但是识别的语音却是由这些词构成的词串。
包括数字串、拼写的字母串等。

  • 二阶动态规划
  • 分层构筑方法
大词表连续语音识别

P197
需要处理的问题:

  1. 切分
    可以采用的方法:能量最低点最为边界,还要根据发音信息加以验证;
  2. 发音变化
    协同发音的影响。

字典:描述每一个词条是如何用音子串接而成的。
HMM模型中最基本的构成单位是状态及状态之间的转移弧。

声学模型中的三音素

考虑一个音素与其左和右相邻音素的相关情况后选取的基元,称为三音素triphone。

声韵组合的两种形式:前声后韵、前韵后声。22个声母、38个韵母。。。。
出现的可能种类还是很多,有些可能出现的次数很少的。
一般应该保证每个三音素在训练数据中出现的次数不少于10次,如果出现次数过少,则不能保证模型的准确性,这称为训练数据稀疏。

解决三音素训练数据稀疏问题的方法:根据一些准则对上下文相关的音素进行聚类,并根据聚类进行状态共享(同一类的使用同一个状态)。

常见的状态共享方法:

  1. 基于数据驱动
  2. 基于决策树

基于决策树的状态共享策略:l+c+r/env,左相关信息+中心基元+右相关信息,env该位置环境特征(包括前接/当前/后接音节声调、…字数、…词性、…长度等)

决策树分类依赖于问题集的设计,为了定义问题集,应先确认划分特征,包含:发音相似性和基元的上下文相关信息。(根据划分特征定义决策树的问题集)

建立问题集后,就可以构建决策树,构造决策树的方法:

  1. 中心基元。对每个中心基元的每个状态分别构造决策树,中心基元相同的归位一类,再决策。
  2. 同一状态。对所有基元的同一状态构造决策树。
    在这里插入图片描述
    决策树评估函数用来估计决策树的结点上的样本相似性。可以选择对数似然概率作为结点分裂的评估函数。从问题集中选择一个问题,根据此问题把结点分成两个子结点,并且计算评估函数的增量,可以选择具有最大增量的问题,并且根据此问题把结点分成两部分。当所有问题的增量都低于某个阈值的时候,结点上的分裂过程将停止。同一个叶子结点中的状态将被共享捆绑到一起。
基于子词单元的HMM训练 (分段、切分、词边界)

在这里插入图片描述

Ngram语言模型

P206
语言模型分为基于文法的语言模型(现在很少人用了)和基于统计的语言模型。

2gram中,为了使P(wi|wi-1)在i=1时有意义,一般会在整个句子前面家一个特殊标识<s>,这样可以假设w0=<s>。为了使的字符串整体的概率为1,在整个句子的结尾也需要加上特殊标识</s>
在这里插入图片描述
在这里插入图片描述
C(W)是词串W在训练数据中出现的次数。

  • 规则聚类
  • 平滑技术
大词表连续语音识别中的解码技术

搜索过程中的路径扩展方式,可以分为1.基于词;2. 基于时间。

图的基本搜索算法:
OPEN表、CLOSE表
1. A*搜索
代价的概念。 f(N) = g(N)+h(N)
f(N)是结点N的估价函数,g(N)是在搜索空间中从初始结点到N结点的实际代价,h(N)是从N到目标结点最佳路径的估计代价。
2. Beam搜索
这部分看不太懂,要再看。

面向语音识别的搜索算法(decoder解码用到)
  1. Viterbi Beam 搜索算法
  2. 令牌传递模型 token passing
  3. 基于前向搜索后向回溯的N-best算法(Viterbi+A*)
大词表连续语音识别后处理技术

语音识别中间结果的表示形式。
识别结果的三种结构形式分别是:
1. One-best
2. N-best
3. Lattice


http://chatgpt.dhexx.cn/article/IqZFVnEl.shtml

相关文章

基于MATLAB的语音信号处理系统的设计

目 录 摘 要 I Abstract II 1 绪论 1 2 语音信号处理系统设计方案 2 2.1MATLAB的说明 2 2.2系统框架及实现流程图 2 2.2.1系统框架&#xff1a; 2 2.2.2系统流程图&#xff1a; 3 2.3语音信号处理相关原理知识 3 2.3.1语音信号的录入与打开 3 2.3.2采样位数和采样频率 3 2.3.3…

语音信号处理的一些基础知识

人耳的听觉掩蔽效应 一般人可以感觉到20Hz-20kHz&#xff0c;强度为5dB-130dB。 人耳的掩蔽效应&#xff1a;在一个强信号附近&#xff0c;弱信号将变得不可闻&#xff0c;被掩蔽掉了。被掩蔽的不可闻信号的最大声压级称为掩蔽门限或者掩蔽阈值。 语音信号生成的模型 理想的模…

语音信号处理概念

语音交互 你知道苹果手机有几个麦克风吗&#xff1f; 语音交互&#xff08;VUI&#xff09;是指人与人/设备通过自然语音进行信息传递的过程。 语音交互的优势&#xff1a; 输入效率高。语音输入的速度是传统键盘输入方式的3倍以上。例如&#xff1a;语音电视选台、远场语音交…

python做语音信号处理

作者&#xff1a;凌逆战 时间&#xff1a;2019年11月1日 博客园地址&#xff1a;python做语音信号处理 - 凌逆战 - 博客园 音频信号的读写、播放及录音 python已经支持WAV格式的书写&#xff0c;而实时的声音输入输出需要安装pyAudio(PyAudio: PortAudio v19 Python Bindings…

语音信号处理知识点

语音信号处理过程的总体结构&#xff1a; 语音输入-->预处理-->数字化-->特征提取 预处理&#xff1a;对信号适当放大和增益控制&#xff0c;并进行反混叠滤波来消除工频信号干扰 数字化&#xff1a;进行A/D转换 特征提取&#xff1a;用反映语音信号特点的若干参数…

第一章 语音信号处理概述

一、语音交互 语音交互(VUI: Voice User Interface)是指人与人或者人与设备通过自然语音进行信息传递的过程。 1. 语音交互的优势 &#xff08;1&#xff09;输入效率高&#xff1a;相对于键盘输入&#xff0c;语音输入的速度是传统输入方式的3倍以上(有权威统计分析得到的数…

语音信号处理-python

语音信号处理 1.语音信号的产生与特性 我们要对语音进行分析&#xff0c;首先要提取能够表示该语音的特征参数&#xff0c;有了特征参数才可能利用这些参数进行有效的处理&#xff0c;在对语音信号处理的过程中&#xff0c;语音信号的质量不仅取决于处理方法&#xff0c;同时…

python实验六 语音信号处理

目录 实验目的&#xff1a; 实验原理&#xff1a; 实验准备&#xff1a; 实验步骤与内容&#xff1a; 参考代码&#xff1a; 实验目的&#xff1a; 依托语音信号处理领域的声学特征提取任务&#xff0c;学习常用的语音信号处理工具&#xff0c;实现对语音数据的预处理和常…

matlab的语音信号处理

人类交换信息最方便的、最快捷的一种方式是语言&#xff0c;在高度发达的信息社会中&#xff0c;用数字化的方法进行语音的识别、合成、增强、传送和储存等是整个数字化通信网中最重要、最基本的组成部分之一。数字电话通信、高音质的窄带语音通信系统、智能机器人、声控打字机…

语音信号处理 —— 笔记(一)音频信号处理

声音的产生 &#xff1a;能量通过声带使其振动产生一股基声音&#xff0c;这个基声音通过声道 &#xff0c;与声道发生相互作用产生共振声音&#xff0c;基声音与共振声音一起传播出去。 一、音频信号简介 1.声音波形图 传感器以某种频率探测声音的振幅强度以及振动方向&…

语音信号处理的过程及其应用

一、语音信号处理的过程 在信号处理领域&#xff0c;信息加工和处理的一般流程下图所示。 在语音信号的具体情况下&#xff0c;信息源就是说话的人&#xff0c;通过观察和测量得到的就是语音的波形。信号处理包括以下几个内容&#xff0c;首先根据一个给定的模型得到这一信号的…

语音信号处理基础知识-常用特征及预处理

目录 一、语音信号的特点二、常用语音特征参数三、语音信号预处理四、参考链接 一、语音信号的特点 其主要特点如下所示&#xff1a;     a) 语音信号的带宽约为 5 K h z 5Khz 5Khz , 主要能量集中在低频段。     b) 语音信号总体为非平稳时变信号&#xff0c;一般认为…

语音信号基本知识和处理

语音信号&#xff08;音频&#xff1b;声音&#xff09;是模拟信号&#xff0c;现实生活中表现为连续的、平滑的波形&#xff0c;其横坐标为时间轴&#xff0c;纵坐标表示声音的强弱。 我们需要将其保存为数字信号再进行处理。 1. 声音三要素 1.1 音调 人耳对声音高低的感觉…

语音信号处理

文章目录 语音信号处理第一章 绪论第二章 语音信号处理基础知识语音和语言 **浊音的声带振动基本频率&#xff08;fundamental frequency&#xff09;称为基音频率。浊音的基音频率&#xff08;pitch&#xff09;&#xff1a;**&#xff1f;&#xff1f;&#xff1f;&#xff1…

语音信号处理概述及流程

一、语音信号处理的三个主要方向。 1&#xff0c;语音合成。 语音合成的是为了让计算机产生高质量的、高自然度的连续语音。计算机语音合成系统又称文语转换系统&#xff08;TTS&#xff09;&#xff0c;主要是将文本输出语音。 发展过程&#xff1a;共振峰合成、LPC合成、PSOL…

基于matlab的语音信号处理

摘要 利用所学习的数字信号处理知识&#xff0c;设计了一个有趣的音效处理系统&#xff0c;首先设计了几种不同的滤波器对声音进行滤波处理&#xff0c;分析了时域和频域的变化&#xff0c;比较了经过滤波处理后的声音与原来的声音有何变化。同时设计实现了语音的倒放&#xff…

【无线通信篇 | Zstack协议栈】CC2530 Zigbee Zstack协议栈组网项目及详细讲解篇

演示视频&#xff1a;https://www.bilibili.com/video/BV1Ew411o7Fp 物联网无线通信技术&#xff0c;ZigBee无线传感网络 CC2530最大的特点就是一个拥有无线收发器&#xff08;RF&#xff09;的单片机&#xff0c;既能实现单片机功能&#xff0c;也能实现无线传输 Zstack协议…

【Zigbee】进阶篇(1) Zigbee协议栈创建简单项目,协议栈、事件、消息学习

大家好&#xff0c;我是皮皮猫吖&#xff01; 每文一言&#xff1a;梦想不会逃跑&#xff0c;会逃跑的永远都是自己&#xff01; 本篇文章&#xff1a; 主要是协议栈的介绍&#xff0c;使用协议栈完成一个简单例子&#xff0c;协调器创建网络的相关问题&#xff0c;学会在协议…

ZigBee协议栈TI Z-Stack分析

ZigBee协议栈TI Z-Stack分析 2010-11-05 11:26 转载自 slcfhr 最终编辑 slcfhr 标签(TAG)&#xff1a; ZigBee 协议栈 Z-Stack 2007年4月&#xff0c;德州仪器推出业界领先的ZigBee协议栈&#xff08;Z-Stack&#xff09;。Z-Stack符合ZigBee 2006规范&#xff0c;支持…

lesson7-1 Zigbee协议栈的使用

目录 协议栈的使用 协议栈的安装和协议栈工程创建 协议栈工程配置 选项卡选择 用户代码编写注意 信道选择及PANID分配 协议栈的使用 协议栈的安装和协议栈工程创建 首先进行协议栈的安装 如何创建自己的协议栈工程&#xff1a; &#xff08;1&#xff09;先把整个协议…