语音人工智能的简单介绍

article/2025/9/12 15:44:21

语音人工智能的简单介绍

在这里插入图片描述

人工智能 (AI) 已将合成语音从单调的自动电话和几十年前的 GPS 导航系统转变为智能手机和智能扬声器中虚拟助手的优美音调。

对于组织来说,为其特定行业和领域使用定制的最先进的语音 AI 技术从未如此简单。

语音 AI 被用于为虚拟助手提供支持、扩展呼叫中心、人性化数字化身、增强 AR 体验,并通过自动化临床笔记为患者提供流畅的医疗体验。

根据 Gartner Research 的数据,到 2023 年,客户将更喜欢使用语音界面来启动 70% 的自助客户交互(高于 2019 年的 40%)。对个性化和自动化体验的需求只会继续增长。

在这篇文章中,我将讨论语音 AI、它的工作原理、语音识别技术的优势以及语音 AI 用例示例。

什么是语音 AI,有什么好处?

语音 AI 将 AI 用于基于语音的技术:自动语音识别 (ASR),也称为语音到文本和文本到语音 (TTS)。 示例包括虚拟会议中的自动实时字幕以及向虚拟助手添加基于语音的界面。

同样,聊天机器人、文本分析和数字助理等基于语言的应用程序使用语音 AI 作为大型应用程序或系统的一部分,以及自然语言处理 (NLP)。 有关详细信息,请参阅对话式 AI 词汇表。

在这里插入图片描述

语音 AI 有很多好处:

  • 高可用性:语音 AI 应用程序可以在人工座席工作时间内外响应客户呼叫,从而使联络中心能够更高效地运行。
  • 实时洞察:实时记录被指定并用作以客户为中心的业务分析的输入,例如情绪分析、客户体验分析和欺诈检测。
  • 即时可扩展性:在旺季,语音 AI 应用程序可以自动扩展以处理来自客户的数万个请求。
  • 增强体验:语音 AI 通过减少等待时间、快速解决客户查询以及通过可定制的语音界面提供类人交互来提高客户满意度。
  • 数字可访问性:从语音到文本到文本到语音应用程序,语音 AI 工具正在帮助有阅读和听力障碍的人从生成的语音和书面文本中学习。

谁在使用语音 AI 以及如何使用?

如今,语音 AI 正在彻底改变金融、电信和统一通信即服务 (UCaaS) 等全球最大的行业。

在这里插入图片描述

以下是语音 AI 提高效率和业务成果的一些具体示例。

呼叫中心转录

全球约有 1000 万呼叫中心座席每天接听 20 亿个电话。呼叫中心用例包括以下所有内容:

  • 趋势分析
  • 合规性
  • 实时安全或欺诈分析
  • 实时情绪分析
  • 实时翻译

例如,自动语音识别转录客户和呼叫中心代理之间的实时对话以进行文本分析,然后用于为代理提供实时建议以快速解决客户查询。

临床笔记

在医疗保健领域,语音 AI 应用程序改善了患者接触医疗专业人员和索赔代表的机会。 ASR 在医患对话和理赔代理信息提取过程中自动记笔记。

虚拟助手

每个行业都可以找到虚拟助手来增强用户体验。 ASR 用于为虚拟助手转录音频查询。然后,文字转语音

生成虚拟助手的合成语音。除了人性化的交易情境外,虚拟助手还可以帮助视障者与非盲文文本进行交互,帮助有语音障碍的人与个人交流,以及儿童学习如何阅读。

语音 AI 是如何工作的?

Speech AI 使用自动语音识别和文本转语音技术为会话应用程序提供语音界面。 典型的语音 AI 流程由数据预处理阶段、神经网络模型训练和后处理阶段组成。

在本节中,我将讨论 ASR 和 TTS 流程中的这些阶段。

在这里插入图片描述

自动语音识别

为了让机器能够与人类交流和交流,它们需要一种将声音转换为代码的通用媒介。 设备或应用程序如何通过声音“看到”世界?

ASR 流程处理包含语音的给定原始音频文件并将其转录为相应的文本,同时最小化称为单词错误率 (WER) 的度量。

WER 用于测量和比较各种类型的语音识别系统和算法之间的性能。 它的计算方法是错误数除以正在转录的剪辑中的单词数。

ASR 流程必须完成一系列任务,包括特征提取、声学建模以及语言建模。

在这里插入图片描述

特征提取任务涉及将原始模拟音频信号转换为频谱图,频谱图是表示信号在不同频率下随时间变化的响度的可视图表,类似于热图。转换过程的一部分涉及传统的信号预处理技术,如标准化和窗口化。

然后使用声学建模来模拟音频信号和语言中的语音单元之间的关系。它将音频片段映射到最可能不同的语音单元和相应的字符。

ASR 流程中的最后一项任务涉及语言建模。语言模型增加了上下文表示并纠正了声学模型的错误。换句话说,当您拥有声学模型中的字符时,您可以将这些字符转换为单词序列,然后再将其进一步处理为短语和句子。

从历史上看,这一系列任务是使用生成方法执行的,需要使用语言模型、发音模型和声学模型将发音转换为音频波形。然后,将使用高斯混合模型或隐马尔可夫模型来尝试从音频波形中找到最可能匹配声音的单词。

这种统计方法在实施和部署的时间和精力上都不太准确,而且更加密集。当试图确保音频数据的每个时间步长与字符的正确输出相匹配时尤其如此。

然而,端到端深度学习模型,如连接主义时间分类 (CTC) 模型和具有注意力的序列到序列模型,可以直接从音频信号生成转录本,并且 WER 较低。

换句话说,Jasper、QuartzNet 和 Citrinet 等基于深度学习的模型使公司能够创建更便宜、更强大、更准确的语音 AI 应用程序。

文字转语音

TTS 或语音合成流程负责将文本转换为自然发音的语音,该语音是人工产生的,具有类似人类的语调和清晰的发音。

在这里插入图片描述

TTS 流程可能必须完成许多不同的任务,包括文本分析、语言分析和波形生成。

在文本分析阶段,原始文本(带有符号、缩写等)被转换为完整的单词和句子,扩展缩写和分析表达。输出被传递到语言分析中,以改进语调、持续时间和理解语法结构。结果,产生了频谱图或梅尔频谱图,以将其转换为连续的类人音频。

我之前介绍的方法是一个典型的两步过程,需要一个合成网络和一个声码器网络。这是两个独立的网络,用于后续从文本生成频谱图(使用 Tacotron 架构或 FastPitch)和从频谱图或其他中间表示(如 WaveGlow 或 HiFiGAN)生成音频的目的。

除了两阶段方法外,TTS 流程的另一种可能实现涉及使用端到端深度学习模型,该模型使用单个模型直接从文本生成音频。神经网络直接从文本-音频对训练,而不依赖于中间表示。

端到端方法降低了复杂性,因为它减少了网络之间的错误传播,减少了对单独训练流程的需求,并最大限度地减少了持续时间信息的手动注释成本。

传统的 TTS 方法还倾向于产生更多机器人和不自然的声音,影响用户参与度,尤其是面向消费者的应用程序和服务。

构建语音 AI 系统的挑战

成功的语音 AI 应用程序必须启用以下功能。

访问最先进的模型

从头开始创建训练有素且准确的深度学习模型既昂贵又耗时。

通过在尖端模型发布后立即提供对它们的访问,即使是数据和资源受限的公司也可以在其产品和服务中使用高度准确的预训练模型和迁移学习。

高准确率

要在全球或任何行业或领域部署,必须定制模型以考虑多种语言(世界上 6,500 种口语的一小部分)、方言、口音和上下文。一些域使用特定的术语和技术术语。

实时性能

由多个深度学习模型组成的流程必须以毫秒为单位运行推理,以实现实时交互,准确地说远小于 300 毫秒,因为大多数用户在 100 毫秒左右开始注意到延迟和通信故障,在此之前对话或体验开始感觉不自然。

灵活且可扩展的部署

公司需要不同的部署模式,甚至可能需要混合使用云、本地和边缘部署。成功的系统支持扩展到数十万需求波动的并发用户。

数据所有权和隐私

公司应该能够为其行业和领域实施适当的安全实践,例如在本地或组织的云中进行安全数据处理。例如,可能要求遵守 HIPAA 或其他法规的医疗保健公司限制对数据和数据处理的访问。

语音人工智能的未来

由于计算基础设施、语音 AI 算法的进步、对远程服务的需求增加以及现有和新兴行业中令人兴奋的新用例,现在有一个强大的基于语音 AI 的产品和服务的生态系统和基础设施。

与当前语音 AI 应用程序在推动业务成果方面的强大一样,下一代语音 AI 应用程序必须具备处理多语言、多域和多用户对话的能力。

能够成功地将语音 AI 技术集成到其核心运营中的组织将有能力为尚未列出的用例扩展其服务和产品。


http://chatgpt.dhexx.cn/article/2JunqZ7e.shtml

相关文章

(python)生产者消费者模型

生产者消费者模型当中有两大类重要的角色,一个是生产者(负责造数据的任务),另一个是消费者(接收造出来的数据进行进一步的操作)。 为什么要使用生产者消费者模型? 在并发编程中,如果…

【生产者消费者模型】

Linux生产者消费者模型 生产者消费者模型生产者消费者模型的概念生产者消费者模型的特点生产者消费者模型优点 基于BlockingQueue的生产者消费者模型基于阻塞队列的生产者消费者模型模拟实现基于阻塞队列的生产消费模型 生产者消费者模型 生产者消费者模型的概念 生产者消费者…

【Linux】生产者消费者模型 - 详解

目录 一.生产者消费者模型概念 1.为何要使用生产者消费者模型 2.生产者消费者之间的关系 3.生产者消费者模型的优点 二.基于阻塞队列的生产消费模型 1.在阻塞队列中的三种关系 2.BlockingQueue.hpp - 阻塞队列类 3.LockGurad.hpp - RAII互斥锁类 4.Task.hpp - 在阻塞队…

操作系统 —— 生产者消费者模型

文章目录 1. 生产者消费者模型的理解1.1 串行的概念1.2 并行的概念1.3 简单总结: 2. 基于阻塞队列(block queue)实现此模型2.1 阻塞队列的实现2.2 使用阻塞队列,单线程2.3 使用阻塞队列,多线程2.4 总结:阻塞队列实现的消费者生产者…

生产者消费者案例

目录 前言一、案例描述二、创建快递柜三、创建生产者类四、创建消费者类五、测试类总结 前言 生产者消费者模式属于一种经典的多线程协作的模式,弄清生产者消费者问题能够让我们对于多线程编程有更深刻的理解,下面,为大家分享一个生产者消费…

JAVA多线程之生产者消费者模型

生产者消费者模型 所谓的生产者消费者模型,是通过一个容器来解决生产者和消费者的强耦合问题。通俗的讲,就是生产者在不断的生产,消费者也在不断的消费,可是消费者消费的产品是生产者生产的,这就必然存在一个中间容器&…

Linux生产者消费者模型

文章目录 生产者消费者模型生产者消费者模型的概念生产者消费者模型的特点生产者消费者模型优点 基于BlockingQueue的生产者消费者模型基于阻塞队列的生产者消费者模型模拟实现基于阻塞队列的生产消费模型 生产者消费者模型 生产者消费者模型的概念 生产者消费者模式就是通过一…

生产者消费者模型你知道多少

背景 进入正题之前先说点故事。从最开始学java的那里开始:我是从08年下半年开始学Java,在《我的六年程序之路》中提到了一些。当时比较简单,每天看尚学堂的视频(对于初学者而言看视频好一些。),然后写代码。…

生产者消费者模型详解

生产者消费者模型 文章目录 生产者消费者模型什么是生产者消费者模型基于BlockingQueue的生产者消费者模型单生产者单消费者模型多生产者多消费者模型 什么是生产者消费者模型 生产者消费者模式就是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接…

Python -- 生产者消费者

代码 # -*- coding: utf-8 -*- # Author : markadc # Time : 2021/4/14 11:43from queue import Queue import time import threading# maxsize: 指定队列最大长度 q Queue(maxsize10)# 生产者 def product(name):count 0while True:# 只要队列没有满,就一直…

生产者与消费者

生产者和消费者 目录 生产者和消费者1.什么是生产者和消费者2.生产者和消费者(不加唤醒机制)3.生产者和消费者(加唤醒机制)4.解决虚假唤醒5.使用lock锁6.面试题 1.什么是生产者和消费者 ​ 在日常生活中,我们去商店买东西,我们就是消费者,商…

三种方式实现生产者-消费者模型

前言 生产者消费者问题(英语:Producer-consumer problem),也称有限缓冲问题(英语:Bounded-buffer problem),是一个多线程同步问题的经典案例。该问题描述了两个共享固定大小缓冲区的…

生产者消费者模型

目录 一、生产者消费者模型的概念 二、生产者消费者模型的特点 三、生产者消费者模型优点 四、基于BlockingQueue的生产者消费者模型 4.1 基本认识 4.2 模拟实现 五、POSIX信号量 5.1 信号量概念 5.2 信号量函数 5.2.1 初始化信号量 5.2.2 销毁信号量 5.2.3 等待信…

打家劫舍问题

打家劫舍问题 最近碰见这种问题实在是太多了,感觉还是有必要学习一下打家劫舍以及其变种问题这一类问题采用的都是动态规划的解法 一些练习题目 6378. 最小化旅行的价格总和 198. 打家劫舍I 213. 打家劫舍 II 337. 打家劫舍 III 2560. 打家劫舍 IV 1 、打家劫舍I 题目…

经典动态规划:打家劫舍系列问题

打家劫舍系列总共有三道,难度设计非常合理,层层递进。第一道是比较标准的动态规划问题,而第二道融入了环形数组的条件,第三道更绝,让盗贼在二叉树上打劫. House Robber | public int rob(int[] nums);题目很容易理解…

【算法】动态规划(三)——打家劫舍系列问题

目录 一、前言 二、打家劫舍 (1)198. 打家劫舍Ⅰ • 整体代码: (2)213. 打家劫舍 II • 题目分析 • 整体代码: (3)337. 打家劫舍Ⅲ • 思路分析 • 整体代码: 三、补充知…

动态规划之打家劫舍系列

前言 打家劫舍问题是一种非常经典的有限制条件的动态规划问题,按理说,不是一种特殊的类型,但是因为力扣上纯纯的出了三道题(1,2,3)来考察,题目的难度是依次递进的,还结合…

动态规划之打家劫舍

动态规划之打家劫舍 文章目录 动态规划之打家劫舍1. "198. 打家劫舍"2. "198. 打家劫舍(变种:输出路径)"3. "213. 打家劫舍 II"4. "337. 打家劫舍 III" 1. “198. 打家劫舍” dp数组定义&#xff1a…

oracle 根据部分字段去重

问题:在oracle中使用group by分组,group by子句中必须包含所有的select中的字段和order by子句中的字段。 在不使用group by子句的情况下,进行分组。(根据部分字段分组) over()分析函数 原sql SELECTIM. ID mediaGrou…

oracle字段去重查询,oracle怎么去重查询

oracle去重查询的方法是: oracle 数据库多字段去重 方法介绍:distinct 关键字、group by 、row_number ()over(partition by 列 order by 列 desc) 我的需求是:根据某几列去重 查询出去重后的全部信息。最后我选择的是第三种方法。 我的想法&…