上线三年却很“鸡肋”的微信声音锁究竟做错了什么?

article/2025/8/16 1:06:10

640?wx_fmt=jpeg

栏目简介:激荡六十年,人工智能已经起航。然而在未来面前,我们都还是孩子。究竟是“奇点临近”?还是泡沫行将破灭?为了解惑,《AI名人堂》将汇聚领航者智慧,和你一起探索前行的方向。

 

记者 | 杨丽

出品 | AI科技大本营

 

想必不少人都用过微信声音锁。2015 年上半年,微信手机客户端悄悄上线这一功能时,曾吸引不少用户尝试,进而开始关注到“声纹识别”这一领域。“依靠声音波形特性,跟口音无关,跟语言无关”,便可轻松进行身份认证,这对当时疲于频繁手动输入密码的用户无疑戳中了痛点。

 

而另一个事实却是,与人脸、虹膜、指纹等生物识别技术相比,声纹识别技术尚未达到一个比较高的市场占有率。据美国智库Acuity Market Intelligence 发布的《The Future of Biometrics》报告显示,2015 年全球生物识别市场结构中,指纹识别份额达到58%,人脸识别为18%,虹膜识别为7%,声纹识别仅为5%。

 

据AI科技大本营观察发现,在微信声音锁上线后的三年时间里,曾有不少用户吐槽声音锁“交互不够自然、流畅”、“安全性有待提高”、“识别正确率不高”、“鸡肋”……

 

本来,以声音登陆账户解锁,只是一个开始,未来会有更大的想象空间。但市场的遇冷却反映出绝大多数用户对声纹识别这项技术的不信任甚至不了解:声纹识别准确性究竟有多高?声纹解锁真得具备身份认证的安全性吗?真正的声纹识别技术可以达到怎样的水平?这都值得我们探讨。

 

近日,清华大学语音和语言技术中心主任、得意音通董事长郑方博士接受AI科技大本营采访时表示:“目前在声纹识别这个领域,不同技术或产品提供商参差不齐、差异很大;与此同时,声纹识别不再是单一强调准确性,而是变得更为成熟、完备和可用。”

 

在他看来,“微信声音锁很早就对这个市场进行了教育让大家认识到这项技术,但同时又拉低了这个行业可以达到的一个技术水平。”

 

要知道,在国内,越来越多的消费级用户开始对一款产品的性能保持零容忍。产品安全性、行业成熟度、用户认知度均成为影响声纹识别技术能否在未来扳回一局的关键。

 

 

为何声纹识别是身份认证的最佳解决方案?

 

实际上,在当前生物识别技术发展的过程中,像人脸识别、指纹识别多少会存在被信息被盗用的可能性。利用他人照片、视频便可轻易打开人脸识别锁,用指模便可复制他人指纹,甚至此前有报道称“黑客利用照片+隐形眼镜成功骗过了三星的虹膜识别技术”。

 

一旦用户的生理特征信息在采集和传输的过程中丢失,就很有可能被人通过非法途径使用,从而影响到用户的隐私安全。

 

因此,郑方强调,在无监督环境下,声纹识别技术的优势就体现出来了,其中,“一种是物理空间无人监督的情形,还有一种是网络空间无法监督的情形。”

 

声纹识别(Voiceprint Recognition),也称说话人识别(Speaker Recognition),即通过声音判断说话人身份的技术。由于任何两个人的声纹图谱都有所差异,所以声纹同样具有如指纹生物特征一样的唯一性。“我们将声纹埋伏在你的语音里面,无论说你每次说的内容是否相同,声纹本身均不受影响。”

 

此外,声音不涉及隐私问题,麦克风和传感器等相关设备成本低廉,传输带宽窄,而语音又是一个形简意丰的信号,口音、语种、情感等各种信息通过一段声音便便传输了出来,这又为声纹识别可广泛推广铺垫了基础。

 

其实,从识别准确性上看,声纹识别是继虹膜识别之后排名第二的生物特征识别技术。一般会涉及声纹特征提取和模式识别两个环节,“我们采用的模型会对特征的分布进行描述,由通用背景和高斯混合模型(GMM-UBM)的共同作用,对说话人进行刻画,最后进行身份认证。”除了不断完善GMM-UBM之外,得意音通改进了使用i-vector、d-vector建模的技术性能,并采取了DNN模型以加强特征学习。

 

 

有时安全与体验不可兼得

 

通常,一个声纹识别系统有两个重要参数,错误拒绝率 (FRR) 和错误接受率 (FAR),理论上,这两个参数无法同时达到最小或者最大,需要调整设定的阈值来满足不同应用场景的需求。这种取舍下,声纹识别将很难既保证用户体验,又同时保证安全。这也是任何一种生物特征识别的共性。

 

郑方表示:“同一个系统永远做不到。我们通常会讲一个错误权衡曲线,在那个曲线上,FRR 越低,体验越好;FAR 越低,安全系数越高。一般来说,要同时保障安全和用户体验,我们会采用多种不同的方式,多种防伪、防攻击手段并用,多种技术方法并用,将每个系统的优势充分利用起来。当然,在安全系数提高的同时,效率总会下降、成本总会上升。”

 

基于声纹识别和语音识别,得意音通推出了“声密保”服务,通过对动态密码语音中的密码内容及请求人身份的双重识别,以实现对操作人身份合法性的双重验证。

 

从基本架构上看,声密保通过语音识别和声纹识别提供了一个永不重复的密码。语音识别用于判断用户读出的数字是否正确,而声纹识别主要判断读出这段数字的是否用户本人。

 

不过,还有些情况下,大家也会担心:别人也可以盗用我的录音进行声纹识别,这该怎么办?万一哪天我生病了,声音改变识别不了怎么办?郑方强调,声密保还在防录音、防时变、及真实意图检测方面进行了更深层次的安全防护:

 

首先是防攻击, 即应具有防假冒和假体攻击的能力。

 

其次是真实意图检测,即认证能体现被认证者的真实意图,在用户知情且愿意的情况下。

 

三是防时变,即降低人的声纹随时间变化对认证行为准确性的影响。这方面,郑方团队在两个层面进行了技术提升:一是建立了一个全球唯一的多人多年相同文本的声纹数据库以研究不变声纹特征的提取,二是增加了声纹自学习功能。

 

此外,在框架方面,声密保采取了一套存储及系统响应期间均可配置、可伸缩、可动态调整的架构。

 

 

用户总不愿为SaaS买单

 

需要承认的是,以声密保为代表的声纹识别虽然技术含量高,但消费者目前尚未对其形成高认知度。以目前指纹、人脸识别应用比较多的手机身份认证场景为例,很少能在公共场合下看到人对着机器大声说话交流。

 

“这其实还是在于市场的认知过程。很多人一开始都会觉得声音不可靠,甚至会觉得声音说起来怪怪的。比如从手机解锁的场景上看,声音能体现用户的真实意图,技术上具有其他方案不可比拟的优势,但在开会等特定场合确实还不是特别的方便,这就需要进一步研究和提升用户体验。”但郑方同时也指出,从之前的合作中会发现,“某些手机厂商对做这个事情的态度很随机,并不完全看市场需求。”

 

另一方面,在声纹识别市场,企业用户对SaaS收费模式的认知仍存在偏见。

 

郑方表示,自上线SaaS服务以来颇受用户认可,根据企业需求和自身IT技术水平,将SDK、API、客户端开发源代码等三种不同的形式提供服务。

 

但实际上,“目前绝大部分客户开发能力不够,他专注的行业可能很强,但是在声纹领域技术能力就很薄弱,往往会在API调用细节上出现问题。”所以,在技术服务方面,团队需要进行包括前期准备、搭系统、调参数等技术方面的支持。

 

而在业务合作方面,跟客户沟通时,郑方团队发现,企业用户对收费模式的认识有所偏差,“客户往往认为国内的产品不行”,不愿意付费甚至希望免费。

 

据了解,声密保这项技术已广泛应用于银行、证券、保险、电子政务、通讯、智能汽车等涉及安全认证的诸多领域。以智能汽车声纹识别系统为例,从前端传感器数据采集,到中间算法处理,再到后端车辆控制环节,以及最后的开关部分,均嵌入了声纹识别技术。

 

郑方还指出,在重视安全性的同时,他们发现企业用户开始提出新的需求,如低(耳)语识别、鸡尾酒会说话人分离、远场语音采集等。

 

 

潮水褪去才可知谁在裸泳

 

除了得意音通之外,科大讯飞、思必驰、云知声、捷通华声、搜狗等诸多企业团队也在暗暗储备在声纹识别方面的技术实力。

 

郑方表示,有时,市场会给人误导,故意将某一优势宣传扩大为整体优势。

 

在他看来,语音细分很大,包括语音识别、声纹识别、语音合成,以及兴起的语种识别、情感识别等。相比之下,科大讯飞、思必驰、云知声、捷通华声在语音合成、语音识别等领域,无论是技术积累、语音数据的搜集、商业化能力做得还是不错的。

 

但在声纹识别方面,“可能就没有那么多比较优秀的企业了”。在他看来,声纹识别不仅要考虑到准确率因素,在防伪、防时变、防录音检测、真实意图检测、稳定性、并发性上同样也需要夯实。“语音产业虽然可以由概念触发,但最终仍由技术驱动,打磨好技术和产品仍是第一要务。”

 

谈及以微信为代表的互联网巨头推出的声纹识别技术,郑方半开玩笑道:“之前我们还给微信声音锁团队的负责人特意写过技术报告,(声音锁)在安全和用户体验上做的都不够好……”隐约中可以察觉到,腾讯的业务逻辑很大程度上决定了其不会在语音尤其是声纹探索方面给予很高的优先级,这也就给了其他人一定的生存空间。

 

目前声密保已处理了 2 亿多次声纹交易,无一次差错和风险,加之声纹识别的技术壁垒相对较高,目前国内越来越重视专利的保护,在包括内核、外围技术、应用等方面的专利,他们均已有深入积累。

 

 

这是一支什么样的团队?

 

据了解,郑方带领团队已经取得了诸多研究成果:从架构上来说,主要包括“一句话解决所有问题架构”,以及“3+2+2 ‘声纹+’安全架构”。

 

“一句话解决所有问题”,即把语音所涵盖的技术集成综合起来,做内容、身份,甚至情感上的识别,如一句话转账、一句话购票。“单一的技术和功能都会存在各种各样的缺陷,未来需要的一定是一种可以综合利用声纹场景和语音场景的命令。”

 

“3+2+2‘声纹+’安全架构”,其中,3 表示三生物特征识别的融合,包括声纹识别、唇纹识别、人脸识别;2 是活体检测,就是将声音的内容(包括语音识别、唇语识别)结合起来,并对比内容和时序的综合一致性;还有一个2 是真实意图检测,包括语音情感识别和人脸表情识别。

 

当然,除了带领团队研究之外,郑方同时还是清华大学的一名教授。“在得意音通,我更多起到的是桥梁的作用,不做具体的业务治理。”郑方提到。一方面,清华是得意音通的股东,是利益的共同体;另一方面,得意音通也反过来投资清华成立了联合实验室,支持清华大学的学科建设。2017年7月,得意音通技术研究院的成立更加深了双方在科研落地上的互通。

 

 “中国现阶段一定需要一种新的产学研模式,这种模式一定是‘化合态’的,既彼此融汇贯通,又分别拥有自己独立的落地组织和实施个性。”从2002年一路走来,郑方不无感叹。

 

——【完】—


http://chatgpt.dhexx.cn/article/ghtPiWyv.shtml

相关文章

微信隐藏功能系列:微信声音锁怎么设置?仅1%的人懂得用“嘴”登录微信

本期微信隐藏功能,教大家一个比较新奇的,微信声音锁怎么设置?用声音识别功能登录微信,相信大家应该没用过吧,平时我们登录微信都是密码或者手机验证登录,这次让大家看看微信声音锁怎么用! 当你的…

【密码学】PRP和PRF

PRP(pseudo random permutation,伪随机置换)和PRF(pseudo random function,伪随机函数)之间的区别,可以从定义来看 PRF 取一个密钥和集合X中的元素作为输入,输出值在集合Y中&#x…

【论文】使用文本分类的PRF

The Simplest Thing That Can Possibly Work: Pseudo-Relevance Feedback Using Text Classification 论文链接:https://arxiv.org/abs/1904.08861v1 ABSTRACT 本文试图用“最简单的事情”来解决数十年的伪相关反馈问题。 文章提出了一种技术,该技术基…

iOS BLE蓝牙开发数据传输协议详解 常用算法(AES加密 HMAC_hash PRF)

前言 这段时间参与了一款与蓝牙外设交互的项目, 以前没有涉及过数据传输方面的开发, 踩了不少坑, 同时也学到了很多东西. 此时, 项目也即将进入尾声, 有时间把这些记录一二. 本人才疏学浅, 如有错误,大佬轻喷. BLE4.0开发 这方面网上的Demo一大堆, 暂时不做太多的赘述, 只对…

qmake language qt 工程文件 配置文件 .pro .prl .prf .pri 词法 语法 for循环 判断语句 函数定义

目录 词法 string 1、数据类型 2、特殊处理的内置变量 3、转义字符 关键字:包括语法关键字、特殊变量 语法 变量 变量、属性、环境变量 变量使用 全局变量作用域 函数定义和使用 判断语句和循环语句 判断语句 判断语句 条件分支 if 案例 循环语句…

prf###.tmp临时文件导致磁盘资源不足

[问题现象] 客户反馈数据库服务器C盘空间严重不足,只有2GB可用空间。 [问题分析] 通过工程师分析检查,空间占用最多的文件是临时文件而且无法直接删除。临时文件格式是prf###.tmp ※ 此文件格式曾经遇到过,我有一些印象的。不过为指导工程师…

基于RTT压缩包C基础-不明白的接口PRF_ENV_GET __attribute__

回答----https://blog.csdn.net/weixin_42381351/article/details/115524780?spm1001.2014.3001.5501 用户APP里面 函数 struct custs1_env_tag *custs1_env PRF_ENV_GET(CUSTS1, custs1); 这个是一个指针 分配内存 但是右边是强转的 实际上右边结构体要小呀 安不安全&…

Qt之pro、pri、prf、prl文件简解

pro文件 QT工程的pro文件,在创建工程时由QTCreater自动创建,我们可以往里面添加内容,增加库文件的声明,包含路径、预处理器定义,生成目录,输出中间目录等等设置。 注释: 以“#”开始,到这一行结…

matlab sar 斑马图,星载滑动聚束SAR卫星姿态和PRF序列设计方法与流程

本发明涉及星载合成孔径雷达系统参数设计技术领域,特别涉及星载滑动聚束SAR卫星系统参数设计,具体是一种星载滑动聚束SAR卫星姿态和PRF序列设计方法,可用于星载滑动聚束合成孔径雷达系统参数设计。 背景技术: 合成孔径雷达可以全天…

PRF 快排系统

简介: PRF快排系统包含WEB管理后台、刷词软件,二者一对N配合使用。刷词软件部分基于模拟点击原理,具有稳定性,避免因刷词带来的K站风险。 WEB管理后台:基于JAVA语言开发,MySql数据库,支持Window…

Efficient Batched Oblivious PRF -Private Set Intersection

论文分享!《Efficient Batched Oblivious PRF with Applications to Private Set Intersection》--《高效批处理不经意伪随机数生成器及其在隐私集合求交中的应用》 今天介绍一篇CCS2016顶会上的文章,该会专注于信息安全领域实用性的论文。本文介绍的这篇…

密码学之PRP/PRF转换引理

Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/course/detail/35475 本文将介绍密码学中的PRF、PRP等相关概念,并介绍 PRP/PRF 转换引理及其证明,希望读完本文后&#xf…

雷达基础知识:脉冲重复频率(PRF)

大家都知道,对于脉冲体制的雷达信号,它有一个重要的参数是脉冲重复频率(PRF)。那么,雷达的重频一般会有哪些变化呢? 重频固定 对 于常规雷达,PRF通常是不变的,也就是说脉冲重复间隔(PRI)是固定的。 示意图…

nifi入门(2)-nifi的简单使用示例

NiFi术语 为了谈论NiFi,用户或者是开发都应该熟悉一些nifi相关的关键术语,一些术语将会贯穿全文。 我们将在此重点介绍两个最重要的术语: FlowFile: 每条“用户数据”(即,用户通过NiFi获取或者是生成的,需要进行处理和…

Apache NiFi简介

一个易用、强大、可靠的数据处理与分发系统。基于Web图形界面,通过拖拽、连接、配置完成基于流程的编程,实现数据采集等功能 一、什么是NiFi? NiFi是美国国家安全局开发并使用了8年的可视化数据集成产品,2014年NAS将其贡献给了Apache社区&am…

【NiFi】(一)NiFi 简介及核心概念

文章目录 一、简介二、NiFi 核心概念三、设计模型四、NiFi 架构五、NiFi 的性能期望与特点六、NiFi 功能的高级概述 一、简介 Apache NiFi 是一个易于使用、功能强大而且可靠的数据拉取、数据处理和分发系统,用于自动化管理系统间的数据流。它支持高度可配置的指示…

nifi从入门到实战(保姆级教程)——环境篇

背景: 公司领导决定将各种基础数据的导入从代码中分离出来,用Apache Nifi替换。使开发者们更关注在业务上,而不用关心基础的由来。 Apache Nifi对于整个团队都是一个全新的工具,之前大家都没有接触过,甚至是第一次听说…

1、nifi-1.9.2介绍、单机部署及简单验证

Apache NiFi系列文章 1、nifi-1.9.2介绍、单机部署及简单验证 2、NIFI应用示例-GetFile和PutFile应用 3、NIFI处理器介绍、FlowFlie常见属性、模板介绍和运行情况信息查看 4、集群部署及验证、监控及节点管理 5、NiFi FileFlow示例和NIFI模板示例 6、NIFI应用场景-离线同步Mys…

Nifi集群安装配置

机器 目录 免密登录 nifi001d /opt/software/nifi nifi001d>>nifi002d、nifi003d niif002d /opt/software/nifi nifi002d>>nifi001d、nifi003d niif002d /opt/software/nifi nifi003d>>nifi001d、nifi002d 1、安装nifi (1&#xff…

NIFI 入门使用

1. Kettle与NIFI差异 Kettle 介绍 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一…