语音信号处理概念

article/2025/10/22 0:29:34

语音交互

你知道苹果手机有几个麦克风吗?

 ·

 

语音交互(VUI)是指人与人/设备通过自然语音进行信息传递的过程。

语音交互的优势

  • 输入效率高。语音输入的速度是传统键盘输入方式的3倍以上。例如:语音电视选台、远场语音交互、语音支持组合指令输出(“播放周星驰电影、要免费的、4星以上的”)
  • 使用门槛低。人类本就是先有语音再有文字,对于那些无法用文字交互的人来说,语音交互学习成本低,能带来极大的便利。例如:还不会打字的小孩,或者不方便打字的老人家
  • 解放双手和双眼,更安全。例如:车载场景通过语音点播音乐和导航,医疗场景(医生在操作设备的时候,可能还需要记录病例)
  • 传递更多的声学信息。声纹、性别、年龄、情感等。

语音交互的劣势

  • 信息接收效率低。例如:文字能快速阅览概括信息,语音的话必须听完才能理解。
  • 复杂的声学环境 
  • 心理负担。交互方式不一样,例如:不太愿意通过语音来进行交互,特别是在一些公共场合

人机语音交互发展

  • 1952年,贝尔实验室,阿拉伯数字识别系统Audrey
  • 1962年,IBM-Shoebox
  • ......
  • 2011年,iphone4s,Siri问世
  • 2014年,win8,Cortana
  • 2014年,Amazon发布echo音箱
  • 2016年,Google发布GoogleHome

应用场景

  • 免提通话
  • 电话/视频会议
  • 手机——Siri、小爱同学
  • 车载
  • 智能音响——Amazon
  • 家居——电视语音点台

 

 

总结起来就是:家里、车里、路上。

复杂的声学环境

现实中的语音交互系统,无一例外的会受到各种环境不利因素的影响,极大影响了交互成功率和用户体验。

  • 方向性干扰
  • 环境噪声(散射噪声)
  • 远讲产生的混响
  • 声学回声

痛点:人和机器都听不清

一个成功的语音交互产品,意味着对语音交互的场合和使用模式无约束。

前端语音信号处理的意义:

  • 面对噪声、干扰、声学回声、混响等不利因素的影响,运用信号处理、机器学习等手段,提高目标语音的信噪比或主观听觉感受,增强语音交互后续环节的稳健性。
  • 让人听清:更高的信噪比,更好的主观听觉感受和可懂度,更低的处理延时。
  • 让机器听清:更好的声学模型适配,更高的语音识别性能。

总结:语音信号处理的目标,是为了让人和机器更容易听清语音,让语音交互更加自然和无约束。

针对不同的干扰因素,采用不同的信号处理算法

  去回声——去混响——盲源分离——波束赋形——语音降噪——自动增益控制

声学回声消除

解混响

  • 盲反卷积法[NeelyandAllen,1979]
    • 估计RIR的逆滤波器
  • 加权预测误差[Takuya,2012]
    • 消除晚期混响,适用于单通道和多通道场景
  • 麦克风阵列波束形成
  • 深度学习用于解混响[Han,2015]
    • 通过DAE、DNN、LSTM或者GAN,实现频谱映射

语音分离

  旨在解决“鸡尾酒会”问题

  • 听觉场景分析法[HuandWang,2004]
    • 本质上是对人的听觉特性的模拟,具体手段是二分类+监督学习
  • 非负矩阵分解[LeeandSeung,2001]
    • 基于统计独立假设,语音信号的稀疏性与谐波特性
  • 多通道技术
    • fixbeamforming,adaptivebeamforming,ICA
  • 基于深度学习的语音分离
    • Deepclustering [Hershey, 2016]
    • Deep attractor network [Luo and Chen, 2017]
    • Permutation invariant training [Yu, 2017]

 

波束形成

  用于多通道语音增强、信号分离、去混响、声源定位

噪声抑制

  消除或抑制环境噪声,增强语音信号

  • 基于统计模型的方法
    • 最小均方误差MMSE、最大似然估计ML、最大后验估计MAP
  • 基于子空间的方法
    • 利用语音和噪声的不相关性,借助特征值/奇异值分解手段分解到子空间处理
  • 语音增强的核心在于噪声估计
    • 递归平均、最小值追踪、直方图统计是比较常用的噪声估计手段
  • 基于深度学习的语音增强方法
    • 两大类方法:masking&&mapping
    • 通过DNN、CNN、RNN或者GAN,在频域或时域实现(多为频域)

幅度控制

  自动调整信号的动态范围

常用的两种方法

  • 动态范围控制(Dynamic Range Control)
  • 自动增益控制(Automatic Gain Control)

 

 

前端信号处理的技术路线

信号处理与深度学习相结合的方案

处理依据——“规则+学习”

  • 客观物理模型
  • 语音信号的时域、频域、空域特性
  • 海量音频数据先验信息

既保留了声音传播的物理规律和信号本身的时域、频域、空域特性,又引入了先验数据统计建模的方法。

优化准则:MSE准则

基于深度学习的前后端联合优化方案

处理依据——“端到端联合建模”

  • 输入多通道麦克风信号,输出语音识别结果
  • 利用近场数据,仿真得到海量的带有各种干扰的训练数据

将前端信号处理与后端ASR声学模型联合建模,用一套深度学习模型完成语音增强和语音识别任务。

优化准则:识别准确率

参考

深蓝学院《语音信号处理》课件

奥本海姆,《信号与系统》,电子工业出版社

奥本海姆,《离散时间信号处理》(Discrete Time Signal Processing, Third Edition)

赵力,《语音信号处理》,机械工业出版社

郑君里,《信号与系统》,电子工业出版社,高等教育本科国家级规范教材

韩纪庆,《语音信号处理》,机械工业出版社

张贤达,《现代信号处理》,清华大学出版社

张贤达,《矩阵分析与应用》,清华大学出版社

VanTrees,检测、估计和调制理论(IV)《Optimumarrayprocessing》

Signals and Systems: an Introduction to Analog and Digital Signal Processing. 1987 Lecture. Alan V. Oppenheim

推荐开源项目

Athena-signal:

Python for Signal Processing:《Python for Signal Processing: Featuring IPythonNotebooks》对应源码,包含信号处理12大类(采样定理、傅里叶变换、滤波器等)、随机过程15大类(高斯马尔科夫、最大似然等)

Speex:A Free Codec For Free Speech。专门语音压缩而设计的,包含超过9种算法:AEC、NS、VAD等,不过现在被Opus替代。

Google WebRTC:一个免费的开放式项目,通过简单的API为浏览器和移动应用程序提供实时通信(RTC)功能。

VOICEBOX: Speech Processing Toolbox for MATLAB:语音处理工具箱,由MATLAB程序组成。超过100个函数,包含语音增强、ASR等在内。


http://chatgpt.dhexx.cn/article/H6kO25Nh.shtml

相关文章

python做语音信号处理

作者:凌逆战 时间:2019年11月1日 博客园地址:python做语音信号处理 - 凌逆战 - 博客园 音频信号的读写、播放及录音 python已经支持WAV格式的书写,而实时的声音输入输出需要安装pyAudio(PyAudio: PortAudio v19 Python Bindings…

语音信号处理知识点

语音信号处理过程的总体结构: 语音输入-->预处理-->数字化-->特征提取 预处理:对信号适当放大和增益控制,并进行反混叠滤波来消除工频信号干扰 数字化:进行A/D转换 特征提取:用反映语音信号特点的若干参数…

第一章 语音信号处理概述

一、语音交互 语音交互(VUI: Voice User Interface)是指人与人或者人与设备通过自然语音进行信息传递的过程。 1. 语音交互的优势 (1)输入效率高:相对于键盘输入,语音输入的速度是传统输入方式的3倍以上(有权威统计分析得到的数…

语音信号处理-python

语音信号处理 1.语音信号的产生与特性 我们要对语音进行分析,首先要提取能够表示该语音的特征参数,有了特征参数才可能利用这些参数进行有效的处理,在对语音信号处理的过程中,语音信号的质量不仅取决于处理方法,同时…

python实验六 语音信号处理

目录 实验目的: 实验原理: 实验准备: 实验步骤与内容: 参考代码: 实验目的: 依托语音信号处理领域的声学特征提取任务,学习常用的语音信号处理工具,实现对语音数据的预处理和常…

matlab的语音信号处理

人类交换信息最方便的、最快捷的一种方式是语言,在高度发达的信息社会中,用数字化的方法进行语音的识别、合成、增强、传送和储存等是整个数字化通信网中最重要、最基本的组成部分之一。数字电话通信、高音质的窄带语音通信系统、智能机器人、声控打字机…

语音信号处理 —— 笔记(一)音频信号处理

声音的产生 :能量通过声带使其振动产生一股基声音,这个基声音通过声道 ,与声道发生相互作用产生共振声音,基声音与共振声音一起传播出去。 一、音频信号简介 1.声音波形图 传感器以某种频率探测声音的振幅强度以及振动方向&…

语音信号处理的过程及其应用

一、语音信号处理的过程 在信号处理领域,信息加工和处理的一般流程下图所示。 在语音信号的具体情况下,信息源就是说话的人,通过观察和测量得到的就是语音的波形。信号处理包括以下几个内容,首先根据一个给定的模型得到这一信号的…

语音信号处理基础知识-常用特征及预处理

目录 一、语音信号的特点二、常用语音特征参数三、语音信号预处理四、参考链接 一、语音信号的特点 其主要特点如下所示:     a) 语音信号的带宽约为 5 K h z 5Khz 5Khz , 主要能量集中在低频段。     b) 语音信号总体为非平稳时变信号,一般认为…

语音信号基本知识和处理

语音信号(音频;声音)是模拟信号,现实生活中表现为连续的、平滑的波形,其横坐标为时间轴,纵坐标表示声音的强弱。 我们需要将其保存为数字信号再进行处理。 1. 声音三要素 1.1 音调 人耳对声音高低的感觉…

语音信号处理

文章目录 语音信号处理第一章 绪论第二章 语音信号处理基础知识语音和语言 **浊音的声带振动基本频率(fundamental frequency)称为基音频率。浊音的基音频率(pitch):**???&#xff1…

语音信号处理概述及流程

一、语音信号处理的三个主要方向。 1,语音合成。 语音合成的是为了让计算机产生高质量的、高自然度的连续语音。计算机语音合成系统又称文语转换系统(TTS),主要是将文本输出语音。 发展过程:共振峰合成、LPC合成、PSOL…

基于matlab的语音信号处理

摘要 利用所学习的数字信号处理知识,设计了一个有趣的音效处理系统,首先设计了几种不同的滤波器对声音进行滤波处理,分析了时域和频域的变化,比较了经过滤波处理后的声音与原来的声音有何变化。同时设计实现了语音的倒放&#xff…

【无线通信篇 | Zstack协议栈】CC2530 Zigbee Zstack协议栈组网项目及详细讲解篇

演示视频:https://www.bilibili.com/video/BV1Ew411o7Fp 物联网无线通信技术,ZigBee无线传感网络 CC2530最大的特点就是一个拥有无线收发器(RF)的单片机,既能实现单片机功能,也能实现无线传输 Zstack协议…

【Zigbee】进阶篇(1) Zigbee协议栈创建简单项目,协议栈、事件、消息学习

大家好,我是皮皮猫吖! 每文一言:梦想不会逃跑,会逃跑的永远都是自己! 本篇文章: 主要是协议栈的介绍,使用协议栈完成一个简单例子,协调器创建网络的相关问题,学会在协议…

ZigBee协议栈TI Z-Stack分析

ZigBee协议栈TI Z-Stack分析 2010-11-05 11:26 转载自 slcfhr 最终编辑 slcfhr 标签(TAG): ZigBee 协议栈 Z-Stack 2007年4月,德州仪器推出业界领先的ZigBee协议栈(Z-Stack)。Z-Stack符合ZigBee 2006规范,支持…

lesson7-1 Zigbee协议栈的使用

目录 协议栈的使用 协议栈的安装和协议栈工程创建 协议栈工程配置 选项卡选择 用户代码编写注意 信道选择及PANID分配 协议栈的使用 协议栈的安装和协议栈工程创建 首先进行协议栈的安装 如何创建自己的协议栈工程: (1)先把整个协议…

物联网--Zigbee协议(一):Zigbee初识

物联网--Zigbee协议 前言一、Zigbee初识什么是物联网?什么是Zigbee? 二、Zigbee协议的基础知识Zigbee三种设备类型Zigbee三种网络拓扑结构Zigbee工作频段 三、Zigbee协议架构总结 前言 最近在学习Zigbee的相关知识,发现网上、论坛找到的知识…

ZigBee 快速入门(协议栈,协调器,路由器,终端设备,加入网络,安全,路由功能,频段)

文章目录 1、ZigBee 是什么2、ZigBee 目标3、ZigBee 协议栈4、设备类型5、Mesh网络 拓扑结构6、加入一个 ZigBee 网络7、ZigBee 安全8、频段和速率9、ZigBee相关特性和名词9.1 CSMA/CD,CSMA/CA9.2 信道访问机制9.3 dB、dBm、dBi9.4 传播损耗9.5 RSSI、LQI9.6 接收灵…

ZigBee协议介绍

简介 ZigBee是一种无线通信标准,是由ZigBee Alliance于 2001 年基于IEEE802.15.4标准定制的,这一标准界定了低功耗、低传输速率、近距离无线通信技术所需的所有相关通信协议。基于ZigBee协议的无线通信网络的工作频段主要有2.4GHz、915MHz、868MHz三个频…