6.9 说话人识别
6.9.1概述
�说话人识别,又称为话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人是否在所记录的话者集合中,以及进一步确认说话人是谁。
�自动说话人识别(自动说话人识别Automatic Speaker Recognition,ASR)是一种自动识别说话人的过程。
�
�
A.
B.说话人识别和语音识别的区别:它不注重包含在语音信号内的文字符号以及语义内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说话人的目的。按其最终完成的任务可以分为两类:自动说话人确认(简称ASV):确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,只做“是”和“不是”的判决。自动说话人辨认(简称ASI):必须辨认出待识别的
语音来自待考察认中的哪一个,有时还要对这个人以外的语音做出拒绝的判决。
根据识别对象的不同,可将说话人识别分为3类:�与文本有关(text-dependent):要求说话人提供发音的关键词或关键句子作为训练文本,而识别时也必须按相同的内容发音。
�与文本无关(text-independent):不论是在训练时还是在识别时都不规定说话内容,即其识别对象是自由的语音信号。
�文本提示型(text-prompted):每次识别时,识别系统在一个规模很大的文本集合中选择提示文本,要求说话人按提示文本的内容发音,而识别和判决是在说话人对文本内容正确发音的基础上进行的,这样可以防止说话人的语言被盗用。�
�说话人识别技术的应用背景:
�利用语音信息进行身份鉴定,例如缉拿电话信道犯罪、法庭中根据电话录音信息做身份确认、电话话音跟踪、为用户提供防盗门开启功能等。
�在互联网应用及通信领域,可应用于声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登录等领域。
�在呼叫中心应用上,可以提供更加人性化的人机交互界面。
6.9.2 说话人识别方法和系统结构
�
A.
B.
C.
D.说话人识别系统的实现可以分解为如下几个基本问题:语音信号的预处理与特征提取,即提取能够有效表征说话人特征的参数;说话人模型的建立和模型参数的训练;测试语音与说话人模型的匹配计算;识别与判决策略,即根据匹配计算的结果,
采用某种判决准则判定说话人是否是所声称的说话人(说话人确认)或说话人到底是谁(说话人辨认)。
�说话人识别系统性能指标:
�系统的识别率、训练时间的长短和训练语料的数量、识别响应时间、话者集规模、说好方式要求以及价格等。
�不同的应用场合,对性能指标的要求各不相同,各有侧重。如声控门锁,识别时间要短;司法鉴定,对识别响应时间的要求可以相对放松,但必须设定非常苛刻的训练语料数量的要求。
6.9.3 说话人识别技术的特性选取
�
1.说话人识别技术的特征应具有如下特点:具有很高的区别说话人的能力,能够充分体现说
话人个体间的较大的差异,而在说话人本身的语音发生变化时保持相对稳定。
在输入语音受到传输通道和噪声的影响时,能够具有较好的顽健性。
易于提取、易于计算,并且在特征的各维参数之间应有良好的独立性,在保持高识别率的情况下,应有尽可能少的特征维数。
不易被模仿。2.3.4.
�评价特征对识别的贡献有两种方法:
通过定义F比和D比,来分别表征单个参数和多维特征矢量在特征空间中的区分能力,以衡量特征参数的有效性。
考察各特征参数对识别率的影响,在识别过程中通过增减分量的方法,考察每个特征分量的贡献。A.B.
�F比和D比
对一个说话人的一段语音提取出一组特征参数,相当于把该段语音映射到多维特征空间上的一个点。同一个说话人的不同语音会在特征空间产生不同的点,其分布可用多变量概率密度函数来描述。�对于同一人的不同次发音,这些点比较集中;而不同说话人的发音分布相距较远,则所选择的这组特征参数就能够有效地描述说话人的个性特征。�
�说话人识别系统中常用的特征
�寻找具有良好性能的特征及其提取算法是提高识别系统性能的根本途径之一。
20世纪60年代以前,用于说话人识别的特征主要是基于滤波器组和傅里叶变换的频谱特征。�70年代以来,采用线性预测倒谱系数LPCC进行说话人识别的研究。
�80年代以后,采用Mel频域倒谱系数MFCC和感知线性预测PLP系数进行说话人识别的研究。�目前,在说话人识别中常用的语音特征包括:基于声道的LPCC、基于临界带的MFCC及基于临界带和等响应度曲线的PLP、基于轮廓特征、考虑语音动态特性的一阶和二阶差分倒谱等�
6.9.3 说话人识别的主要方法�与文本有关的识别方法
由于文本内容是已知的,识别时可以同时使用语音信号中的语义特征和说话人特征,即使利用比较短的语料,也能从中提取出较稳定的说话人特征。因此与文本有关的识别系统可以获得比较令人满意的识别率。
�其算法实现与语音识别方法十分相似,最常用的方法是基于DTW的方法和基于HWW的方法�
�与文本无关的识别方法
与文本有关的识别方法是当前说话人识别技术的研究重点。
�比较常用的方法有:基于VQ的方法、基于HMM的方法、基于人工神经网络的方法以及基于语音识别的方法等。近10年来,一种称为高斯混合模型(GMM)。�
�文本提示型的识别方法
�在本系统中,不仅要判别是否是本人的发音,而且也要判定是否是本人所发的指定内容的语音。
�为了使系统能够随时更换指定文本内容,一般系统是以各说话人的声学基元模型为基本模型,由基元模型的连接组成指定文本内容的模型。
�文本提示型说话人识别系统多采用HMM的方法实现。
1.
�
�语音的时变性问题人类语音具有时变性,这会影响说话人识别系统的识别率。识别参数的时间变化,主要是由声源特性的变化引起的。可以把声源与声道分离,只用后者组成经得起语音长期变动的说话人识别系统。
2.
�顽健的说话人识别技术说话人自身心理或生理因素的变化、采集环境的变化、通道传输特性的变化等都可能使说话人语音的声学特征产生变异,从而造成说话人识别系统识别率的下降。
顽健的说话人识别技术,就是要对这种变异进行补偿,以在各种条件下都能保证较高的识别率。
最常用的方法:特征参数归一化方法、似然比归一化方法和并行HMM混合方法。��
3.
�判决门限的设定对于要求快速处理的说话人确认系统,可以采用多门限判决和预分类技术来达到加快系统响应时间的目的,而又不降低确认率的效果。
多门限判决相当于一种序贯判决方法,它使用多个门限来作出接受还是拒绝的判决。�
6.9.5 说话人识别中尚需进一步探索的课题
6.10 顽健语音识别技术
6.10.1 概述
通常在实验室相对安静环境下训练好的语音识别系统,当用到与训练环境不匹配的实际环境时,性能明显下降。如果语音识别系统在这种不匹配情况下,识别性能的下降不明显,则称这样的系统为顽健的(Robust)语音识别系统。
�顽健语音识别系统的任务,就是研究一些实用的补偿技术以提高语音识别系统在变化环境下的系统性能。
�本节的研究内容为:分析影响语音识别性能的环境因素;从语音增强、噪声抑制、模型补偿等方面介绍典型的顽健语音识别的方法。�
6.10.2 影响语音识别性能的环境变化因素一个顽健的语音识别系统在实际使用中将受到各种变化条件的挑战。
�这些变化的条件包括:�
①
②
③
④
⑤
⑥说话人变化 从特定说话人到非特定说话人说话方式的变化 从孤立词识别到连续语音识别词汇量的变化 从小词汇量任务到大词汇量任务领域的变化 从特定词汇到不特定词汇,从特定领域文法到不特定领域文法环境的变化 从特定环境到不特定环境发音变异 话者由于受生理、心理、情感等影响而产生的发音变化
环境中的很多因素影响语音识别系统的性能,下面将逐一介绍这些因素。
1.加性噪声
语音信号在实际环境中常受到背景噪声的干扰,背景噪声通常是加性的,即采集的信号时真实的语音信号和背景噪声的和。
2.通道畸变
例如麦克风依赖于其类型与位置的不同能明显地影响语音的频谱,电话线网络的频率特性也对语音信号产生了频率畸变
由于传输通道而引人的频谱畸变将直接影响到的影响。这些的影响。这些
语音信号的短时频谱分析结果,都直接或间接地依赖于语音信号的短时频谱分析结果。�
其他因素
(1)人为因素
人为因素主要是指话者在噪声环境下进行语音交流时的心
理或生理变化的影响。
(2)瞬间噪声
语音识别系统在实际使用中,受到一些如关门声、电话铃
声、在汽车应用领域或电话亭中经过的其他车辆产生的噪声以及其他的瞬间噪声源的影响。
(3)来自其他话者的干扰3.
6.10.3 噪音环境下的顽健语音识别技术�语音识别系统常应用于具有噪声及其他干扰因素的环境中,如操纵室、工业环境、战场等。噪音环境下的顽健语音识别技术讨论如何改善系统性能,消除加性噪声和通道畸变的若干方法。
常用方法:
①基于语音增强的方法:借鉴语音增强技术将混噪语音先�去除噪声后,再进行语音识别的方法;
②通道畸变的抑制方法:利于人类的听觉系统对声学环境变化的顽健性,提出基于听觉感知的语音信号处理技术;③基于模型的补偿方法
6.10.4 变异语音识别方法�
①
②
③
④根据话者受到的紧张性刺激程度的不同,可以将其分为以下几类:物理层变异,该层次的变异直接与语音产生的物理过程相关,如振动、重力加速度等外来因素引起的变异。生理层变异,引起语音产生机制的生理上的变化,影响从神经冲动向相应部位运动的转换,如疲劳、疾病、药物作用等。感知层变异,它可以引起语言神经中枢神经系统发出的命Lombard效应。令,如环境噪声引起的令,如环境噪声引起的LombardLombard效应。心理层变异,它影响语音产生系统的最高层,如情感变化、工作压力等引起的变异。