国内那几家语音唤醒技术做的比较好? 语音唤醒技术哪家强?

article/2025/9/13 3:51:46

编辑导语:

随着语音交互技术的日渐成熟,越来越多的智能硬件都选择增加语音能力作为产品卖点之一。但是,设备在进入语音交互工作状态的时候,需要先进行唤醒操作。

常见的唤醒语音交互的操作有按键或者触屏形式,但是,为了进一步降低学习成本和操作复杂度,也有不少的智能硬件选择通过语音唤醒的方式来激活交互功能。

本文将综合对比市面上各家提供的语音唤醒技术相关指标,可以帮助你快速掌握语音唤醒技术的情况。

一、语音唤醒技术的相关核心指标

1、唤醒率

语音唤醒的主要目的既然是激活设备进入交互工作状态,那么,唤醒率的高低就显得额外重要了。理论上,最好的状态就是我只要说一次唤醒词,设备就能立即响应。不过,受说话人与设备距离、发音标准、噪声等各种各样的因素,实际工作中比较难达到次次响应的完美工作状态。

一般来说,在近距离的安静场景下,市面上的技术都能够做到唤醒率在95%以上。

不过,消费者的实际使用场景是较复杂的,因此,需要模拟不同的应用场景进行实测,才能得到最后的唤醒率指标。

2、误唤醒率

指设备被非唤醒词唤醒的概率,误唤醒率越高,效果越不好。

大家在日常生活中可能会经常碰到,放在家里的智能音箱,大晚上莫名其妙答一句“我在”,把人吓个半死;还有如果家里用的智能电视,唤醒手机语音助手的时候,不是同一个唤醒词,电视也会蹦出一句“我在”。

这就是典型的误唤醒场景,一般用24小时被误唤醒多少次来衡量。

3、响应时长

主要是指用户说完唤醒词后,设备给出反馈的耗时,一般越短越好。

而反馈的形式则比较多样,可以通过语音应答响应、也可以通过亮屏或者指示灯闪烁响应。统计来看,如果是亮屏或者指示灯闪烁响应,控制在200ms以内用户体验较好;如果是语音应答响应,太快反而体验不好,一般控制在500ms左右更佳。

4、功耗

主要是针对电池供电设备,理论上越低越好,这样,设备的使用时长不会受到太大的影响。

因为唤醒的工作原理是会持续检测声音中是否包含唤醒词的特定片段,所以,会持续耗电。

为了进一步降低功耗,部分产品也会采取DSP来完成语音唤醒,再通过AP层兜底的模式,保证唤醒和功耗的均衡。

总结:语音唤醒的技术指标,除了与算法相关之外,还与智能硬件的结构设计、芯片算力、使用场景等息息相关。最后的实际效果,则应以实际测试效果为准,参考下图:

二、语音唤醒技术对比

该对比信息均从互联网公开渠道获取,相关信息来源于提供商官网公开信息,如其官网有更新,请以更新信息为准。(PS:百度搜索🔍“语音唤醒”)

从上面的对比上来看,我们可以发现几点信息:

  • 大部分服务商都会提供唤醒词评估服务。
  • 在系统支持上,安卓和iOS比较主流。不过,越来越多的语音唤醒功能开始应用在了穿戴设备上,是否支持Linux和Rtos系统也至关重要。
  • 在唤醒词上,基本都支持中文唤醒词,毕竟,大部分的产品都是面向国人,中文普通话是主要的语言。不过,也有服务商,能够额外支持英文、数字、方言唤醒词,市场更加细分。
  • 唤醒指标上,近场唤醒率基本都在95%以上。不过,正如前面分析的那样,唤醒跟很多因素相关,最后在产品上的实测值才具有代表性。

三、唤醒词的区别

唤醒词的定义实际是比较广泛,至少包含了四种使用场景:品牌唤醒词(如,小飞小飞)、离线命令词(如,我要听周杰伦的歌)、云端命令词(如,我要听周杰伦的歌)、免唤醒词(如,下一首、暂停)。这些使用场景,实际上都是使用了唤醒词的原理,只是唤醒后执行不同的动作。

四、语音唤醒项目实施要点

1、唤醒词评估

大部分服务商都提供了唤醒词评估服务,不过,有部分服务商对唤醒词有一定的限制。因此,在选择唤醒词的时候,需要充分考虑品牌、发音特点、词语等因素,综合确定最终的唤醒词。

2、确认测试环境和工具

以以往交付的唤醒项目来看,主要测试的环境包括:外噪场景测试、自噪场景测试、安静场景测试和误唤醒测试。

3、声音采集

根据产品主要面向的使用人群,采集真人发音音频。

示例:【某某投影仪音频采集需求】

  • 采集人数200人,总音频2000句
  • 男女比=1:1
  • 一人10句
  • 语速快:中:慢=1:3:1
  • 年龄儿童:青年:中年=1:3:1
  • 区域:北上广深
  • 普通话

4、测试音频处理

包括去除破音的音频、去除时长>1.7s的测试音频、音频幅度归一化。

5、数据记录表

根据实测结果,如实填写表格中对应测试结果,完成项目验收。

如果需要更深入地咨询了解,可添加笔者V:HolaAI,详细交流。


http://chatgpt.dhexx.cn/article/o7gZaLU7.shtml

相关文章

语音唤醒工具:WeKWS

1 简介 本文根据2022年10月《WEKWS: A PRODUCTION FIRST SMALL-FOOTPRINT END-TO-END KEYWORD SPOTTING TOOLKIT 》翻译总结的。作者为西北工业大学航海学院张晓雷老师团队、西工大音频语音与语言处理研究组谢磊老师团队、WeNet 开源社区等。 WeKWS是一个可以投入生产使用、容…

讯飞语音开发之语音唤醒

只有前面讲到的语音合成,语音理解,语义理解,语音识别确实可以实现人机交流。但是还不能实现完全智能,不能狗做到实时问道,间歇式问答。要实现实时问答,切不用手动操作。这时候语音唤醒功能就大选伸手了。下…

百度语音唤醒

一&#xff1a;前期准工作 &#xff08;1&#xff09;进入百度开放平台&#xff0c;注册账号&#xff0c;创建应用&#xff0c;拿到应用相对应的 AppID&#xff0c;API密钥&#xff0c;密钥 &#xff08;2&#xff09;配置相关信息 <uses-permission android:name"an…

语音唤醒原理

百度语音唤醒时的日志 D/audio_hw_primary: adev_open_input_stream is_karaoke_fastcapture0 D/audio_hw_primary: adev_open_input_stream: enter: sample_rate(16000) channel_mask(0x10) devices(0x80000004) stream_handle(0xf3439a00) io_handle(454) source(1) …

语音唤醒功能篇

语音唤醒功能 语音唤醒使得系统中的各个功能模块能够很好的分隔开来。用户通过唤醒词“依米”唤醒系统&#xff0c;发送语音指令&#xff0c;系统检测到语音指令中的关键词&#xff0c;然后去执行相对应的功能。当系统执行完成后&#xff0c;便进入等待下一次被唤醒状态&#…

语音唤醒

语音唤醒 前言一、语音唤醒相关环境搭建二、使用步骤1.使用流程2.示例代码 总结 前言 针对语音交互过程&#xff0c;提供了一种语音唤醒的方法供大家参考&#xff0c;语音交互采用snowboy离线语音唤醒引擎&#xff0c;snowboy已经被kitt.AI团队下架&#xff0c;但我们仍能够在…

语音唤醒简单说明

随着 Echo 出现,all in one 音响类产品雏形开始显现,语音交互成为最直接的控制方式,Amazon Echo作为最佳代表,智能语音交互成为互联网入口的新价值所在。ABI Research 在 2017 年収布的预测报告指出,估计到 2022 年,支持语音控制的装置出货量将达到 7500万台,其中智能喇…

语音唤醒技术的原理是什么?

https://www.toutiao.com/a6644766450860950024/ 2019-01-10 15:27:29 “天猫精灵。”“哎&#xff0c;在的&#xff0c;你说” “小爱同学&#xff0c;定明天早上8点的闹钟。”“好的&#xff0c;已经帮你定好明天早上8点的闹钟” 不少同学家里都有AI智能音箱产品&#xff0…

android系统看片软件,真正的手机看片神器 和视界手机APP评测

播放界面支持丰富的手势操作&#xff0c;我们可以通过上下左右的滑动手指来调整影片进度以及音量大小。和视界还可以选择不同的输出设备——只要硬件设备支持&#xff0c;我们可以通过手机将和视界中的视频内容投射到电视上观看。 注重影片的口碑效应&#xff0c;支持用户打分与…

FreeRTOS时间片调度

一、FreeRTOS时间片调度概述 FreeRTOS支持多个任务同时拥有一个优先级&#xff0c;这些任务的调度就可以使用时间片来进行调度。在FreeRTOS中允许一个任务允许一个时间片&#xff08;一个时钟节拍的长度&#xff09;后让出CPU的使用权&#xff0c;让拥有同优先级的下个任务运行…

MongoDB 分片集群技术

在了解分片集群之前&#xff0c;务必要先了解复制集技术&#xff01; 1.1 MongoDB复制集简介 一组Mongodb复制集&#xff0c;就是一组mongod进程&#xff0c;这些进程维护同一个数据集合。复制集提供了数据冗余和高等级的可靠性&#xff0c;这是生产部署的基础。 1.1.1 复制集的…

片偏移怎么计算_计算机网络学习笔记(四)之网络层

点击蓝字关注我吧 越努力越幸运!!! 1 网络层的功能 1.1异构网络互联 网络的互联:指将两个以上的计算机网络,通过一定的方法, 用一种或多种通信处理设备(即中间设备)相互联接起来,以构成更大的网络系统。中间设备又称为中间系统或中继系统。根据中继系统所在…

IP分片浅析

一、IP分片原理 IP分片是网络上传输IP报文的一种技术手段。 IP协议在传输数据包时&#xff0c;将数据报文分为若干分片进行传输&#xff0c;并在目标系统中进行重组。 不同的链路类型规定有不同最大长度的链路层数据帧&#xff0c;称为链路层MTU&#xff08;最大传输单元&#…

硅钢片知识点

文章目录 一、电工钢为什么选硅钢二、为什么要用硅钢“片”三、为什么电机用无取向&#xff0c;变压器用有取向硅钢片四、其他关于硅钢片应该了解的4.1 热轧和冷轧4.2 厚度4.3 牌号4.4 叠片系数4.5 冲片性 一、电工钢为什么选硅钢 电机和变压器的内部主要组成是铜绕组&#xf…

wireshark捕获IP分片数据包实践

一 简介 如果一个数据包超过1500个字节&#xff0c;就需要将该包进行分片发送。通常情况下&#xff0c;是不会出现这种情况的。 下面通过使用ICMP包&#xff0c;来产生IP分片数据包。 使用ICMP包进行测试时&#xff0c;如果不指定包的大小&#xff0c;可能无法查看被分片的数据…

mongo分片

分片 在Mongodb里面存在另一种集群&#xff0c;就是分片技术,可以满足MongoDB数据量大量增长的需求。 当MongoDB存储海量的数据时&#xff0c;一台机器可能不足以存储数据&#xff0c;也可能不足以提供可接受的读写吞吐量。这时&#xff0c;我们就可以通过在多台机器上分割数据…

IP分片报文的接收与重组

对于长度超过接口MTU的数据包&#xff0c;需要进行分片处理&#xff0c;IP报头中与分片相关的字段有如下几个&#xff1a; Identification - 用来确认不同的分片是否属于同一个IP报文&#xff1b; Flags - 其中IP_MF表示还有分片&#xff0c;此分片为…

数据 分片

背景 传统的将数据集中存储至单一节点的解决方案&#xff0c;在性能、可用性和运维成本这三方面已经难于满足海量数据的场景。 从性能方面来说&#xff0c;由于关系型数据库大多采用 B 树类型的索引&#xff0c;在数据量超过阈值的情况下&#xff0c;索引深度的增加也将使得磁…

MongoDB:海量存储基础-分片架构

文章目录 1.分片架构2.分片策略3.读写策略4.数据迁移 1.分片架构 分片是数据库中常用的提升存储容量的方式&#xff0c;它基于水平拓展的思想&#xff0c;将大量的数据按一定规则分配到不同的服务器中存储&#xff0c;比如MySQL集群可以借助Sharding-JDBC等外部框架对数据进行…

SpringBoot文件分片上传

背景 最近好几个项目在运行过程中客户都提出文件上传大小的限制能否设置的大一些&#xff0c;用户经常需要上传好几个G的资料文件&#xff0c;如图纸&#xff0c;视频等&#xff0c;并且需要在上传大文件过程中进行优化实时展现进度条&#xff0c;进行技术评估后针对框架文件上…