人工智能之语音识别

article/2025/9/12 15:11:06

语言识别的概念

机器翻译用印刷文本作为输入,能清楚地区分单个单词和单词串 。
语音识别用语音作为输入,口语对话与语音信号中语言提取的不同:
(1)上下文猜测
(2)肢体语言传达信息
fare | fair
male | mail

语音识别的主要过程

语音识别流程

分帧:把一段语音分成若干小段
状态:把每一帧识别作为一个状态
音素:把状态组合成音素,即声母亲和韵母。
声学模型(acoustic model):把一系列语音帧转换为若干音素的过程利用了语言的声学特性。
语言模型(language model) :从音素到文字的过程要利用语言表达的特点,从同音字中挑选正确的文字,组成意义明确的语言。

1.语音信号采集

基于单片机,DSP芯片
基于PC机

2.语音信号预处理

滤波
(1)抑制输入信号各频域分量中频率超出采样频率的一半的所有分量,以防止混叠干扰。
(2)抑制50Hz的电源工频干扰。
采样:对信号进行量化,量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值为量化误差,又称为量化噪声。
预加重:提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,便于频谱分析或声道参数分析。
端点检测:包含语音的一段信号中确定出语音的起点以及终点。
过零率:信号中波形穿越零电平的次数来描述幅度变化的剧烈程度。
在这里插入图片描述
在这里插入图片描述

3.语音信号的特征参数提取

声波有两个主要特征:振幅和频率。
在这里插入图片描述
线性预测编码(LPC):
基本思想:由于语音样点之间存在相关性,所以可以用过去p个样点值来预测现在或未来的样点值。

4.向量量化

矢量量化(vector quantization,VQ)技术是七十年代后期发展起来的一种数据压缩和编码技术。
在标量量化中整个动态范围被分成若干个小区间,每个小区间有一个代表值,对于一个输入的标题信号,量化时落入小区间的值就用这个代表值代替
矢量量化的基本原理:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。

5.识别

识别系统的输入是从语音信号中提出的特征参数。
(1)语音识别模板匹配法
在训练阶段,用户将词汇表中的每一个词依次说一遍,将其特征矢量作为模板存入模板库。在识别阶段,将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
(2)语音识别随机模型法
如隐马尔可夫模型(HMM)。用HMM的概率参数对似然函数进行估计与判决,从而得到识别结果。
(3)语音识别概率语法分析法
不同的人说同一些语音时,相应的语谱总有一些共同的特点以区分于其他语音。将区别性特征与来自构词、句法、语义等语用约束相互结合,构成由底向上或自顶向下的交互作用知识系统。

隐马尔可夫模型

隐马尔可夫模型: 表示序列可能出现的一种方法。
y跟在ph后面出现的概率>跟在t后面出现的概率
在这里插入图片描述
例 序列:1 2 3 3 4。则概率0.9×0.5×0.4×0.6=0.108

基于隐马尔可夫模型的语音识别方法

在这里插入图片描述

解决三个基本问题:

在这里插入图片描述
在这里插入图片描述

语音识别进展

深度学习使自然语言处理进入崭新的发展阶段:

现在神经机器翻译已经取代了统计机器翻译,成为机器翻译的主流技术。
目前统计数据表明:神经机器翻译的性能远远超过了统计机器翻译,而且跟人的标准答案非常接近,甚至说是相仿的水平。
不需要人工进行特征抽取,只要准备好足够的标注数据,比如机器翻译的双语对照语料。
可以在大规模语料上进行训练得到一个在多维语义空间上的表达,因此词汇之间、短语之间、句子之间乃至篇章之间的语义距离可以计算。
基于神经网络训练的语言模型,可以更加精准地预测下一个词的出现概率,以及一个句子的概率。
循环神经网络(RNN、LSTM、 GRU)可以对一个不定长的句子进行编码,描述句子的信息。
编码-解码(encoder-decoder)技术可以实现一个句子到另外一个句子的变换。这个技术是神经机器翻译、对话生成、问答、转述的核心技术。
强化学习使自然语言系统可以通过用户或者环境的反馈,调整神经网络参数,改进系统性能。
2012年11月,微软在天津演示自动同声传译系统。
2015年深度学习在计算机视觉、语音识别、自然语言理解上取得突破。
谷歌2016年推出商业级神经系统机器翻译,准确率达86%。
Facebook使用卷积神经网络CNN翻译速度比谷歌快9倍。
欢迎大家加我微信交流讨论(请备注csdn上添加)
在这里插入图片描述


http://chatgpt.dhexx.cn/article/52n9UNLs.shtml

相关文章

人工智能:语音识别技术介绍

❤️作者主页:IT技术分享社区 ❤️作者简介:大家好,我是IT技术分享社区的博主,从事C#、Java开发九年,对数据库、C#、Java、前端、运维、电脑技巧等经验丰富。 ❤️个人荣誉: 数据库领域优质创作者🏆&…

AI电话机器人有没有效果?具体的功能都有哪些?

当前人工智能成为科技研发的焦点,AI电话机器人的出现就是为了更好服务企业,提高效率。那么AI电话机器人有没有效果呢?具体的功能都有哪些内容?不妨一起来看看。 ​AI电话机器人是一款适用于电话营销场景的智能语音交互系统。我们…

【第3篇】人工智能(AI)语音测试原理和实践

第1章第2节 人工智能简介 本章首先介绍语音的基本概念及语音的产生原理,然后介绍什么是人工智能语音、人工智能语音交互和人工智能语音测试,最后阐述人工智能语音测试的目的和意义,引领大家走入人工智能语音测试的世界。 目录 第1章第2节 人工…

人工智能之语音识别概述(一)

1. 语音是被研究对象和基本内容 语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言,最…

【第4篇】人工智能(AI)语音测试原理和实践

第1章第3节 AI语音简介 本章首先介绍语音的基本概念及语音的产生原理,然后介绍什么是人工智能语音、人工智能语音交互和人工智能语音测试,最后阐述人工智能语音测试的目的和意义,引领大家走入人工智能语音测试的世界。 目录 第1章第3节 人工智…

语音人工智能的简单介绍

语音人工智能的简单介绍 人工智能 (AI) 已将合成语音从单调的自动电话和几十年前的 GPS 导航系统转变为智能手机和智能扬声器中虚拟助手的优美音调。 对于组织来说,为其特定行业和领域使用定制的最先进的语音 AI 技术从未如此简单。 语音 AI 被用于为虚拟助手提供…

(python)生产者消费者模型

生产者消费者模型当中有两大类重要的角色,一个是生产者(负责造数据的任务),另一个是消费者(接收造出来的数据进行进一步的操作)。 为什么要使用生产者消费者模型? 在并发编程中,如果…

【生产者消费者模型】

Linux生产者消费者模型 生产者消费者模型生产者消费者模型的概念生产者消费者模型的特点生产者消费者模型优点 基于BlockingQueue的生产者消费者模型基于阻塞队列的生产者消费者模型模拟实现基于阻塞队列的生产消费模型 生产者消费者模型 生产者消费者模型的概念 生产者消费者…

【Linux】生产者消费者模型 - 详解

目录 一.生产者消费者模型概念 1.为何要使用生产者消费者模型 2.生产者消费者之间的关系 3.生产者消费者模型的优点 二.基于阻塞队列的生产消费模型 1.在阻塞队列中的三种关系 2.BlockingQueue.hpp - 阻塞队列类 3.LockGurad.hpp - RAII互斥锁类 4.Task.hpp - 在阻塞队…

操作系统 —— 生产者消费者模型

文章目录 1. 生产者消费者模型的理解1.1 串行的概念1.2 并行的概念1.3 简单总结: 2. 基于阻塞队列(block queue)实现此模型2.1 阻塞队列的实现2.2 使用阻塞队列,单线程2.3 使用阻塞队列,多线程2.4 总结:阻塞队列实现的消费者生产者…

生产者消费者案例

目录 前言一、案例描述二、创建快递柜三、创建生产者类四、创建消费者类五、测试类总结 前言 生产者消费者模式属于一种经典的多线程协作的模式,弄清生产者消费者问题能够让我们对于多线程编程有更深刻的理解,下面,为大家分享一个生产者消费…

JAVA多线程之生产者消费者模型

生产者消费者模型 所谓的生产者消费者模型,是通过一个容器来解决生产者和消费者的强耦合问题。通俗的讲,就是生产者在不断的生产,消费者也在不断的消费,可是消费者消费的产品是生产者生产的,这就必然存在一个中间容器&…

Linux生产者消费者模型

文章目录 生产者消费者模型生产者消费者模型的概念生产者消费者模型的特点生产者消费者模型优点 基于BlockingQueue的生产者消费者模型基于阻塞队列的生产者消费者模型模拟实现基于阻塞队列的生产消费模型 生产者消费者模型 生产者消费者模型的概念 生产者消费者模式就是通过一…

生产者消费者模型你知道多少

背景 进入正题之前先说点故事。从最开始学java的那里开始:我是从08年下半年开始学Java,在《我的六年程序之路》中提到了一些。当时比较简单,每天看尚学堂的视频(对于初学者而言看视频好一些。),然后写代码。…

生产者消费者模型详解

生产者消费者模型 文章目录 生产者消费者模型什么是生产者消费者模型基于BlockingQueue的生产者消费者模型单生产者单消费者模型多生产者多消费者模型 什么是生产者消费者模型 生产者消费者模式就是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接…

Python -- 生产者消费者

代码 # -*- coding: utf-8 -*- # Author : markadc # Time : 2021/4/14 11:43from queue import Queue import time import threading# maxsize: 指定队列最大长度 q Queue(maxsize10)# 生产者 def product(name):count 0while True:# 只要队列没有满,就一直…

生产者与消费者

生产者和消费者 目录 生产者和消费者1.什么是生产者和消费者2.生产者和消费者(不加唤醒机制)3.生产者和消费者(加唤醒机制)4.解决虚假唤醒5.使用lock锁6.面试题 1.什么是生产者和消费者 ​ 在日常生活中,我们去商店买东西,我们就是消费者,商…

三种方式实现生产者-消费者模型

前言 生产者消费者问题(英语:Producer-consumer problem),也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的经典案例。该问题描述了两个共享固定大小缓冲区的…

生产者消费者模型

目录 一、生产者消费者模型的概念 二、生产者消费者模型的特点 三、生产者消费者模型优点 四、基于BlockingQueue的生产者消费者模型 4.1 基本认识 4.2 模拟实现 五、POSIX信号量 5.1 信号量概念 5.2 信号量函数 5.2.1 初始化信号量 5.2.2 销毁信号量 5.2.3 等待信…

打家劫舍问题

打家劫舍问题 最近碰见这种问题实在是太多了,感觉还是有必要学习一下打家劫舍以及其变种问题这一类问题采用的都是动态规划的解法 一些练习题目 6378. 最小化旅行的价格总和 198. 打家劫舍I 213. 打家劫舍 II 337. 打家劫舍 III 2560. 打家劫舍 IV 1 、打家劫舍I 题目…