声纹识别背景学习

article/2025/8/20 7:30:54

声纹识别背景学习

  • REFERENCE
  • 前言
  • 基础:Verification vs Identification
  • 方法:Enrollment and verification
  • Text-Dependent vs Text-Independent
  • 技术分水岭
  • 全民智能终端的冲击
  • 迁移学习
  • Speaker Clustering
  • Speaker Diarization
  • 有用的链接

REFERENCE

1.Voiceprint Recognition System — Not Just a Powerful Authentication Tool
2.Voice Biometrics for Speaker Verification and Identification
3.Voiceprint Identification
4.Voice recognition: is it really as secure as it sounds?
5.Speaker Recognition: A Tutoria, JOSEPH P. CAMPBELL, JR.,
6.Voiceprint Recognition Systems for Remote Authentication-A Survey

前言

声纹, voiceprint,这个词听上去很神秘,可能主要使用因为虽然这个词汇来自于指纹,但是它真正长什么样是无法直观获取的原因吧,加之一些一知半解的玄幻广告,把这个词汇吹得神乎其神,其实可以理解为从人类声音提取的一组生物学特征,只是这个特征真的不如指纹那么直观,不仅仅决定于某个人发声器官的特性(没有两个人长得一模一样,也没有人的发声器官长得一幕一眼),而且受到了年龄、健康状况、心理状态、环境等等因素共同影响的。
浏览了一些网站,对声纹特征应用介绍的比较一目了然的是文献【1】提供的这个表,尤其实时的价格很低这点很诱人,我可以理解为这项技术需要的外部条件都可以从一个系统平台现有的设备复用(麦克风和语音数据采集系统),其他都交给软件和算法来解决的,不像指纹和视网膜识别等等需要专用的外部传感器。事实上也的确如此,将语音识别的模型略微改动,就能轻松的训练出说话者的分类模型。但是本身的应用场景和安全级别要求对声纹识别提出了很大的挑战,真正能项目实施,可能付出的努力要远超普通的语音识别。

在这里插入图片描述

基础:Verification vs Identification

声纹识别,也有成为语者识别(Speaker recognition),最初需要的两个属于就是Verification 和 Identification,很多地方介绍的花里胡哨,最后还是发现wikipedia上言简意赅,原文贴在下面,然后简单翻译一下。

the speaker claims to be of a certain identity and the voice is used to verify this claim, this is called verification or authentication. On the other hand, identification is the task of determining an unknown speaker's identity. In a sense, speaker verification is a 1:1 match where one speaker's voice is matched to a particular template whereas speaker identification is a 1:N match where the voice is compared against multiple templates. 
From a security perspective, identification is different from verification. Speaker verification is usually employed as a "gatekeeper" in order to provide access to a secure system. These systems operate with the users' knowledge and typically require their cooperation. Speaker identification systems can also be implemented covertly without the user's knowledge to identify talkers in a discussion, alert automated systems of speaker changes, check if a user is already enrolled in a system, etc.In forensic applications, it is common to first perform a speaker identification process to create a list of "best matches" and then perform a series of verification processes to determine a conclusive match.

Verification可以理解为审核,就是你说你是谁,问问机器同不同意。Identification就是身份辨别,机器“不动声色”的从你的声音中猜出来你是谁(听上去可怕吧)。Verification应用场景往往是1:1的,也就是你告诉机器,调出要审核的id特征,然后和你讲出来的声纹特征做比较,最后鉴权出yes:no的游戏,有点像门禁或者电话授权,而不用说出密码的场景。Identification是机器预先不知道说话者的身份(id),在本身的数据库或者模型中进行运算搜索,查找是否有匹配你声纹的身份。上文还提到一种(法律?)场景,就是首先利用Identification识别出一组id,然后运用审核来决定这个说话人的最后身份。

方法:Enrollment and verification

声纹识别的方法无外乎两个阶段,Enrollment和Verification,这很好理解,你需要先告知系统你的声纹特征,完成Enrollment,然后系统才能verify以后采集的声音是不是你的声音。

Text-Dependent vs Text-Independent

这也很好理解,文本相关的经常用于Verification,因为这不仅要求语者的声纹特征匹配,也可以要求语者的声音内容匹配(密码,预设问题等等),验证更加严谨;文本无关的更倾向于从语者的语音特征来推断语者的身份,对算法的泛化能力有非常高的要求,同时也对准确性带来了很大的挑战。

技术分水岭

很显然,深度神经网络的应用给传统的语者识别带来了颠覆的改变,参考文献【5】对传统的语者识别系统,包括声纹的一些基础都做了非常详尽的介绍,推荐有兴趣的人去读一读。虽然传统方法,数学模型清晰,问题回溯方便,但是和神经网络的简单粗暴比起来,还是慢慢的走向了衰亡,本文开始也提到了,一个非常简单的卷积模型可以轻松的分辨出100个所有的人声,所以融合深度神经网络,与语音识别配合,实现一个语者Verification方案是相对容易,并且实施成本几乎可以忽略的。很有诱惑力吧!

全民智能终端的冲击

参考文献【6】是2011年的一篇文章,对声纹技术的应用和背景做了很详细的调查,但是时至今日回顾这篇文章介绍的一些应用场景,大都已经时过境迁。如今的智能终端大都集成了指纹识别和高清摄像头,由于两者的普及以及准确性的保证,几乎统治了在Verification领域,所以现在反而对声纹识别的需求没有曾经的那种热度了,这项技术本身的难点也限制了它的迅速普及。也许未来IoT技术在门禁对讲,以及网络监控的一些领域,声纹识别可以起到一些辅助判别的作用,但面对如火如荼的视觉处理,其直观性和准确性终究不能和视觉应用分庭抗礼,希望能找到属于自己独领风骚的领域吧。

迁移学习

因为迁移学习在小数据集中的良好表现,所以在speaker recognition中被广泛研究和采用

Speaker Clustering

一般很多情形下,无法获取speaker的语音,例如网络摄像头的或者公共监控,这样可以通过聚类的方法,将录取的一段语流进行分析和切割,强同一语者的声音提取出来。

Speaker Diarization

直译为语者日记,一般理解为从连续语流中分辨谁在什么时刻说了什么,其中有三个为止变量,谁(who/speaker identification-clustering),什么时间(when/speech segmentation),说了什么(what/speech recognition),这是一项融合技术,《FULLY SUPERVISED SPEAKER DIARIZATION》对此做了非常详细的论述。

有用的链接

Wei Rao does research in speaker, language, and emotion recognition, speech signal processing, machine learning
isca-speech Online Archive
The Speaker and Language Recognition Workshop
声纹识别算法、资源与应用


http://chatgpt.dhexx.cn/article/S2Sp6lDN.shtml

相关文章

第二课 声纹识别

可以将".sph"转换成".wav"格式文件 SPHERE Conversion Tools | Linguistic Data ConsortiumThe Linguistic Data Consortium is an international non-profit supporting language-related education, research and technology development by creating a…

linux搭建声纹识别,声纹识别SDK-FreeSR

FreeSR (A Free Library for Speaker Recognition),免费的声纹识别/性别识别SDK,支持Android/Windows/Linux等平台。 https://github.com/NonDay/FreeSR 1.实现算法: gmm-ubm/i-vector/x-vector 2.功能 说话人识别(验证),包括注册…

声纹识别概述(3)声纹识别系统

文章目录 1. 声纹识别系统框架1.0 声纹识别系统1.0.1 不太清晰的两个阶段:训练阶段和测试阶段1.0.2 只讲了一个阶段:测试/应用阶段(包括注册和验证)1.0.3 声纹识别系统的三个阶段 1.1 特征提取1.2 模型建立1.3 打分判决1.3.1 判决…

[声纹识别]基于MFCC的声纹识别算法

Mel频率倒谱系数(melfrequency cepstral coefficients,MFCC)是声音的短期功率谱的表示,基于非线性频谱上的对数功率谱的线性余弦变换。在自动语音识别领域,MFCC是使用最广泛的特征之一,同时,它也广泛应用于声纹识别领域…

声纹识别小总结

文章目录 1.声纹识别基础知识A.识别任务分类:1、固定文本:注册与验证内容相同;2、半固定文本:注册与验证内容一样但顺序不同,且文本属于固定集合;3、自由文本B.常见预处理特征:MFCC/FBank。C.常…

声纹识别概述

转载自https://blog.csdn.net/weixin_44278406/article/details/103787143 声纹识别绪论 前言 指纹信息、人脸信息和声纹(voice-print)信息作为人体固有的生物信息,是智能电子设备私有化部署及辅助辨认个体的媒介。目前,指纹和…

基于Pytorch实现的EcapaTdnn声纹识别模型

前言 本项目使用了EcapaTdnn模型实现的声纹识别,不排除以后会支持更多模型,同时本项目也支持了多种数据预处理方法,损失函数参考了人脸识别项目的做法PaddlePaddle-MobileFaceNets ,使用了ArcFace Loss,ArcFace loss:…

常用应用层协议的报文格式

常见应用层协议的报文格式 1.常用应用程序的端口号2.HTTP的报文格式 1.常用应用程序的端口号 名称应用层协议端口运输层协议说明超文本传输协议HTTP80TCP域名解析系统DNS53UDP/TCP长度超过512字节,使用TCP动态主机配置协议DHCP67/68UDP简单网络管理协议SNMP161/162UDP文件传输…

15-传输层协议和应用层协议

PS:针对上一篇tcp协议中说到的端到端服务,这里我们再通过传输层协议和应用层协议之间的关系来加深端到端服务的学习和理解。 1. 传输层协议和应用层层协议的关系 在应用层,我们知道有很多协议,比如常见的有http,tfp&am…

应用层协议(HTTP协议)

目录 HTTP 简介 URL urlencode&urldecode HTTP请求协议格式 HTTP响应格式 HTTP的常见方法 HTTP状态码 HTTP常见的Header HTTP 简介 HTTP协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务…

应用层常见协议——知识点

这里总结了三种常见的应用层协议:HTTP、FTP、SMTP。供自己复习使用,也供大家参考! 一、HTTP协议 1、HTTP简介 —超文本传输协议(Hypertext transfer protocol)。是一种详细规定了浏览器和万维网(WWW World Wide Web)服务器之间互相通信的…

应用层协议

应用层协议定义了什么 应用层协议定义了运行在不同端系统上的应用程序进程如何相互传递消息。特别是定义了: 交换的消息类型,如请求消息和响应消息。 各种消息类型的语法,如消息中的各个字段及其详细描述。 字段的语义,即包含在字段中的信息的…

传输层协议、应用层协议

传输层协议、应用层协议 一、传输层协议 1、传输层概述 (1)传输层的作用 IP层提供点到点的连接 传输层提供端到端的连接 (2)传输层的协议 TCP(Transmission Control Protocol)传输控制协议 可靠的、面向连接的协议;传输效率低 UDP(User Datagram Protocol)用户数据报…

应用层协议和传输层协议

数字是离散的,模拟是连续的,对连续的信号进行采样就会变成数字信号(A/D转换) 在意念传输发明出来之前,计算机之间传输信息,总是需要介质的!要么有线传输,要么无线电波传输。你能接收…

传输层协议和应用层协议及它们之间的关系(端口)

一、传输层的两个协议 1、TCP协议 ①TCP协议的作用:TCP为应用层协议提供可靠传输,发送端按顺序发送,接收端按顺序接收,其间发生的丢包、乱序,TCP会负责其重传和排序,另外TCP还可实现流量空制和拥塞避免等…

基于TCP或UDP协议的应用层协议

TCP和UDP都是传输层协议,上面是应用层,下面是网络层 TCP与UDP区别: TCP(传输控制协议)提供的是面向连接、可靠的字节流服务。当客户和服务器彼此交换数据前,必须先在双方之间建立一个TCP连接,…

网络:应用层相关协议

应用层位于传输层之上,在OSI七层模型中,分为了三层,从上到下分别是应用层、表示层、会话层。这里对这三层不做具体区分。 应用层是面向用户的一层,主要包括FTP、HTTP、HTTPS、DNS、TELNET等协议。 1、DNS协议 1.1 DNS和域名 DNS…

基于TCP或UDP的应用层协议有哪些?——Linux网络编程

参考博文01:https://blog.csdn.net/Wu000999/article/details/89293717 博文02 https://blog.csdn.net/u014082714/article/details/44994719 这个面试的时候面试官经常会问我,然后就总结了一下。 TCP/IP四层模型(数网传应)&#…

应用层——协议

前言:本章将介绍关于应用层的协议,如下图所示 一、应用协议的概要 利用网络的应用程序有很多,包括Web浏览器、电子邮件、远程登陆、文件传输、网络管理等,能够让这些应用进行通信处理的正是应用协议。 网络应用由不同的用户和软…

常见应用层协议

常见应用层协议 1、超文本传输协议 用于传输浏览器使用的普通文本、超文本、音频和视频等数据。 详细情况请看:超文本传输协议HTTP/HTTPS 2、邮件协议 在互联网中,电子邮件的传送是依靠这些协议完成的。 详细情况请看:邮件协议SMTP/POP3…