语音交互中的一些技术概念

article/2025/11/6 16:56:43

1、语音交互-示意图1(最简版)
科普:语音交互的过程
这里写图片描述

A)语音识别Automatic Speech Recognition),一般简称ASR;是将声音转化为文字的过程,相当于人类的耳朵。

B)自然语言处理Natural Language Processing),一般简称NLP;是理解和处理文字的过程,相当于人类的大脑。

上图中,写的是“语义理解”(Semantic understanding,行业提到时,也会简称为“语义”),广义来说,也行,因为行业内有时也这么用。

有时“语音”和“语义”会成对出现。比如说“讯飞的核心技术积累在语音,图灵机器人的核心技术积累在语义”。当然,这时也可以用“语音识别”和“自然语言处理”来成对出现,不能说错,只不过比“语音”+“语义”要繁琐和绕口一点。

C)语音合成Text-To-Speech),一般简称TTS;是将文字转化为语音(朗读出来)的过程,相当于人类的嘴巴(和ASR是相反的)。

D)语音交互,一般英文说Speech interaction(优先于Voice interaction),但如果说产品形态的语音助手,英文是Voice Assistant。

E)非专业表达/理解:
a)认为“NLP和NLU是一样的意思”——其实,NLU是NLP的子集。
b)语音识别、语义理解,都是OK的;但说“语义识别”,虽然不能说完全错误,但有点怪(至少不常用),会让人觉得你不是特别专业。

2、语音交互-示意图2(复杂版)

这里写图片描述

这里,多了自然语言生成(Natural Language Generation,NLG)、语义表示、对话管理(Dialogue Management)等概念。后两个大家可以先不用管,只需要知道“自然语言生成”是目前NLP最前沿的研究领域就可以了。

3、语音交互-示意图3(APP交互版)
这里写图片描述

4、CUIConversational User Interaction对话式交互
1)跟语音交互相比,CUI的范畴更宽泛——没有语音过程、只有文字的对话交互流程,可以称为CUI,但是不能称为“语音”交互。

2)提到CUI,很多时候会和互联网/移动互联网时代的“GUI”一起出现:GUI,Graphical User Interface,图形化交互。

二、当前技术边界
ASR、NLP、TTS等单个技术点的边界,后面几天咱们再具体分析;这里只说一个认知:

要想在APP或硬件产品中,添加语音交互体验——实现demo很容易,各方面都有API可以用【比如ASR、TTS用讯飞,NLP(聊天/知识库等)用图灵机器人。】但是,要想实现非常好的整体产品体验,距离还非常远。(这个我曾经写了一个测试的iOS的demo App,实用第三方API实现只能客服,要提前预置关键词进去)

既可能有产品feature方面的定制化需求,还有整合工程化方面的问题。可以说,如果是将这些AI技术体验仅仅当成产品的加分项,也许还可行,而一旦要将其作为产品的核心价值,特别是要实现真正好的产品体验,很多时候不得不自己去研发——这方面,大家可以看看傅盛他们,花了多大力气来做一款智能音箱《傅盛:人工智能的破局点是技术和产品结合 | 猎户星空发布小雅语音》http://t.cn/Ro61HkJ

三、瓶颈和机会
1、不论为了是单个技术点,还是整体体验,要想直接创造一个完美的技术架构,是不现实的。反而需要我们AI产品经理们,从实际场景的用户/客户反馈出发,倒逼技术方面的模型/算法/数据的优化。

2、场景很重要。特别要选细分场景,并且需要有对应的产品技术优化方案。
1)手机场景,几乎被行业放弃了(之前火了一阵的语音助手,被证明难以形成用户粘性),具体原因,以后专题再说。
2)车载场景,目前车内降噪的问题很大,导致整个语音交互体验不好。
3)室内-智能音箱,也是做了很多的专门优化,比如远场识别、降噪等(在后续ASR小节再说)。

3、交互标准很重要。

行业内,有的人认为,Speech interaction**语音交互**会是未来的交互标准形式;

也有人认为,CUI (Conversational User Interface) 对话交互是未来的交互标准形式;

但我个人认为,两者都有漏洞,具体原因及“什么可能是对的”,以后再专题讨论。

注:数据、算法、算力等方面,可以说是必要条件,但不是充分条件——特别是,如果希望做出2C爆款产品的话。

附:相关资料
1、文章
略。目前大多数文章,都太技术化了。以后有合适的文章再分享给大家。

2、产品或视频
《搞笑AI相关视频:智能电梯,惊现老外满级中文》,http://fantuan.guokr.net/web?url=%2Ftopics%2F6569

以上内容,来自饭团“转型人工智能”,点击这里可关注:http://fantuan.guokr.net/groups/219/


作者:黄钊,5年AI实战经验(图灵机器人),8年互联网背景(前腾讯QQ产品经理),微信公众号/知乎/在行/饭团ID“hanniman”,持续3年分享人工智能相关原创干货,关注者1.2万+,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1w+。


http://chatgpt.dhexx.cn/article/2ANAIQ1Q.shtml

相关文章

智能(语音)对话系统架构研究

本文所谈及的架构主要指使用已有的智能对话服务来搭建一个应用系统,而不会深入的探讨智能对话服务内部的架构。 智能对话系统的需求目标 智能对话系统可以提供回答问题的能力,即在理解自然语言的基础上,解答用户提出的问题。进一步的&#x…

人机交互-语音交互方法综述

上图展示了智能语音的界面架构,从中可以看出,语音交互所涉及的技术模块有 4 个部分,如下图所示: 首先,通过应用自动语音识别技术听到用户说的话,然后应用自然语言理解来分析语句的含义,随后用自…

语音助手——简介与交互过程

语音助手简介 语音助手这个产品的目的,是希望通过语音说话的方式,来实现闲聊陪伴、知识获取、设备控制等需求,对应的就有三种不同的助手类型:闲聊型、问答型、指令型。 闲聊型助手用于实现闲聊陪伴的目的,通过AI的技术…

语音交互的基本概念和设计实践

语音技术的发展,将会给我们的产品设计带来极大的改变。未来的产品方向,或者说是人机交互的方式,极可能是视觉与听觉的更加立体的交互,我们会有机会来设计一种完全不一样的用户体验,和完全不同的产品认知。 一、什么是V…

HaaS云端一体智能语音交互方案

1、方案背景 智能语音交互作为物联网领域的一个重要生态成员,是一种全新的交互方式,它能够解放双手,随时提供服务,无须借助任何按键。近年来智能家居逐渐走入千家万户,产业市场规模不断增长。智能家居产品种类繁多&am…

智能语音交互流程

引言 用该文来讲解语音全流程涉及到的技术,整体语音涉及的交互流程如下图: Part1 唤醒 语音唤醒指的是通过预设的关键词即可将智能硬件从休眠状态唤醒,来执行相应操作。 1.1 交互模式 传统模式 唤醒方式:先唤醒设备&#xff…

超全面的语音交互知识总结:从原理、场景到趋势

1. 什么是语音交互? 语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程: (1)ASR 用于将声学语音进行分析,并得到对应的文字…

智能座舱-语音交互系统

一.什么是语音交互 语音交互:语音是方式,交互的对象是任何的智能设备,顾名思义,即通过语音的方式完成人与机的交互。 在现今的各种智能化场景中,语音交互已成为一种非常关键的人机交互方式。从用户的角度来看&#x…

为什么我用LaTeX排版的那个双引号编译出来很奇怪,如下图,怎么做才能出现对的?

为什么我用LaTeX排版的那个双引号编译出来很奇怪,如下图,怎么做才能出现对的?) 我是个LaTeX小白,百度了很久,没有解决办法,求救。引号是在英文输入法下输的,左引号连按两次esc下边那个键&#…

latex中怎么输出双引号

在texstudio中,我们输入这个"we",输出的pdf中会是这样同向的双引号 这是由于方式不对,应该是这样写we,左边的那个符号是在键盘上“ESC”下面那个以前没有注意到的一个符号,开启中文方式是这个符号“”,英…

Latex中单引号,双引号

写论文时候,需要写出英文的单引号和双引号 单引号就是 这个符号 双引号的话,如果输入两个英文输入下的"",比如"paper",LaTeX编译显示的话就是两个向下的引号。 正确应该是第一个向上方向的引号 用 这个…

LaTex使用技巧(2):双引号匹配问题

在LaTex中想输出 “”时,若输入 "",则效果如下图所示: 显然,引号不匹配,两个都是下引号。 可采用Tab键上面的 ,用 表示上引号,用两个单引号 表示下引号,效果如下图所示&am…

LaTeX技巧218:LaTeX如何正确输入引号:双引号“”单引号‘’

最近看一些latex用户的文章,输入的双引号和单引号都是用输入法中的中文模式键入,并不是LaTeX的正确输入方式。 正确的输入方法如下: 使用键盘的 Tab键上侧的连续键入两个然后输入键盘的两个单引号。单引号输入类似。示例如下: 演…

0001.Latex中中文双引号和单引号的写法

如何在Latex或者Ctex中输入中文双引号or单引号? 在Latex中,查看Tab键上面的键,在英文状态下连续输入两个,然后输入Enter键左边的单引号’’,输入两次,也是英文状态下哦。 可以将一个矩阵$\cdot$按列拉直成…

latex中双引号和单引号的正确应用

用输入法中的中文模式键入的双引号和单引号并不是LaTeX的正确输入方式。 正确的输入方法如下: 使用键盘的 Tab键上侧的 连续键入两个然后输入键盘的双引号’’。 单引号输入类似。示例如下: 演示代码: \documentclass{article} \setlength…

LaTeX:引号

LaTeX \LaTeX LATE​X 引号 文章目录 LaTeX \LaTeX LATE​X 引号1. 简而言之2. 单引号3. 双引号 1. 简而言之 英文状态下, 键盘主区域 “ESC” 键下、“1” 号数字键旁边的那个键 “” 和 “” 符号,分别用于控制 左单引号 和 左双引号. 2. 单引号 如…

LaTeX 如何使用双引号,单引号

LaTeX 如何使用双引号,单引号 使用格式如下: 双引号单引号 示例: \documentclass{article}\author{My Name}\title{The Title}\begin{document}\maketitleThis is single quote markThis is double quote mark \end{document} 输出如下&am…

latex中常见论文错误及其改正

论文常见错误 记录一下latex论文写作中常见错误及其方便快捷的修改过程 1、双空格(多空格) 解决方案:先Ctrlf后Ctrlr,选择性的将论文中的双空格替换为单空格。 2、双引号 原因:使用润色工具润色将双引号去掉了&…

LaTeX 中文段落中显示英文引号的方法

方法 中文的引号直接用 “”或者 英文的引号尝试了半天都不行,但我还是想到了一个办法: 使用行内公式! 英文单引号:$$ 引号内的内容 $$ 英文双引号:$$ 引号内的内容 $$测试效果 latex: 编译结果: