分享

用于语音识别的声调特性的制作方法

 fjx117td2tcz7o 2016-07-27
专利名称用于语音识别的声调特性的制作方法
技术领域本发明涉及诸如汉语普通话那样的声调(tone)语言的自动识别。
语音识别系统,诸如大词汇量连续语音识别系统,典型地使用声音/音素模型和语言模型来识别语音输入模式。在识别语音信号之前,信号在频谱域和/或时间域上被分析,以便计算一个特性的代表性矢量(观察矢量,即OV)。典型地,语音信号被数字化(例如,以6.67kHz速率进行采样)以及被预处理,例如,施加预加重。接连的样本被编组(成块)为相应于20或32毫秒的语音信号帧。各个相继的帧部分地重叠,例如分另重叠10或16毫秒。线性预测编码(LPC)频谱分析方法经常被使用来为每个帧计算其特性的代表性矢量(观察矢量)。特性矢量可以具有24,32或63个分量。然后使用声音模型来对给定的字串估计观察矢量序列的概率。对于大词汇量的系统,这通常是通过把观察矢量与语音识别单元目录进行匹配而实施的。语音识别单元用一系列声音参考来表示。例如,一个字或甚至一组字可以用一个语音识别单元来表示。另外,使用了基于语音的子字单元,诸如音素,复音,或音节,以及衍生单元,诸如fenenes和fenones。对于基于子字的系统,子模型由词典给出,它描述与词汇表中的字有关的子字单元序列,子模型也由子字模型给出,它描述涉及的语音识别单元的声音基准序列。(子)字模型典型地是基于隐藏马尔可夫模型(HMM),这些模型被广泛使用来给语音信号建立随机模型。把观察矢量与所有的语音识别单元序列进行匹配,给出矢量与序列之间的匹配的概率。如果使用子字单元,则词典把可能的子字单元序列限制在词典中的序列。语言模型还对匹配施加进一步限制,以使得所研究的路径是相应于如语言模型规定的适当的序列的字序列的那些路径。将声音模型的结果与语音模型的结果的组合就产生识别了的句子。
大多数现有的语音识别系统主要是对于西方语言(如英语或德语)被开发的。由于基于西方的语言中字的声调不影响意义,在音调(pitch)轮廓中反映的声调的声音识别被认为是噪声或被丢弃。特性矢量和声音模型并不包括声调信息。对于像汉语那样的、所谓的声调语言,声调信息影响发言表达的意义。词汇声调发音成为在汉语字符的正确发音中的一部分,并通过声音迹象(诸如音调轮廓)而被反映。例如,几乎遍及世界范围的语言即汉语普通话具有五个不同的声调(音节音调轮廓内的原型),通常表征为“高”(平坦的基本频率F0轮廓(即阴平)),“上升”(上升的F0轮廓(即阳平)),“低-上升”(低的轮廓,或平坦或下沉(即上声)),“下降”(可能是来自高的F0的下降的轮廓(即去声)),和“自然的”(自然的,其特征可能为来自低的F0的小而短的下降轮廓(即轻声))。在连续语音中,低-上升声调可被看作为“低的”声调。用不同的声调发音的同一个音节常常具有完全不同的意义。汉语普通话声调模型直观地是基于这样的事实人们能够直接从发音的基本频率的模式中识别出所讲的汉语普通话字符的词汇声调。
因此,当开发高精度声调语言语音识另器时希望使用词汇的声调信息作为知识源之一。为了汇集声调模型,希望确定要合并到现有的声音模型中或在附加的声调模型中的适当的特性。已经获知,使用音调(基频,F0)或对数音调来作为声调特性矢量中的一个分量。声调的特性矢量典型地还包括音调的一阶导数(以及任选地二阶导数)。在多通道系统中,能量和持续时间信息也常常被包括在声调特性矢量中。音调的测量在近几十年来一直是研究的课题。基本音调检测算法(PDA)的一个共同的问题是出现多重/子多重总体音调误差。在对于普通发话调模型的经典方法中,语音信号被加以分析以便去确定它是发声(voiced)或不发声(unvoiced)的。预处理前端必须可靠地估计音调而不引入多重/子-多重音调误差。这大多数是通过精细调节在多重音调误差和子-多重音调误差之间的门限值、或通过对可能的音调移动的局部约束而完成的。典型地,音调估值可通过下列方式而得到改善,即使得语音信号内的相似性最大化,以便经过平滑(例如,中值滤波器)并连同以前的、关于合理的音调范围与移动的知识而抵制多重/子-多重音调误差。每个已识别的字符或音节的词汇声调由随机HMM算法独立地译码。这种方法具有许多缺陷。词汇声调只存在于汉语字符的发声段,所以希望提取对于语音的发声段的音调轮廓。然而,对于语音段特别难作出发声-不发声判决。发声-不发声判决不能在预处理前端级别上被可靠地确定。另一个缺点是,平滑滤波器的平滑系数(门限值)是与主体很相关的。另外,这种类型的声调模型的结构太复杂而不能在实时的、大词汇量的口述系统(它是当今主要在个人计算机上执行的)上应用。为了克服多重/子-多重音调误差,还结合音调轮廓的连续性特征的知识一起使用了动态编程(DP)技术。然而,普通的基于发声性质的DP禁止它在在线系统中使用,本发明的一个目的是改进从语音信号中的声调特性提取。另一个目的是,规定适合于自动识别以声调语言形式所讲的言语的除了音调以外的语音特性矢量的分量。
为了改进声调特性的提取,引入以下的算法改进-一种音调提取技术的两步方法-在低分辨率下,确定音调轮廓,优选地在频域中进行确定。
-在高分辨率下进行精细调节,优选地是在时域中通过在包含一个以上的完整的音调周期的分析窗口中在准周期信号内使归一化的相关性最大化。
-低分辨率音调轮廓判决优选地包括-优选地根据频域中子谐波的相加来确定基于语音信号内类似性量度的音调信息,-通过使用动态编程(DP)来消除多重/子-多重音调误差。动态编程优选地包括-为了效率,进行自适应射束切除(beam-pruning);-为了保证最大延时,进行固定长度的局部追溯;以及-跨接不发声段和静默段。
这些改进可以与传统技术相组合,被组合地或独立地使用。
为了改进特性矢量,语音特性矢量包括一个代表与特性矢量有关的语音段的估值的发声强度的分量。在优选实施例中,特性矢量还包括一个代表语音段的估值的发声强度的一次或二次导数的分量。在一个实施例中,特性矢量包括一个代表语音段的估值的音调的一次或二次导数的分量。在一个实施例中,特性矢量包括一个代表语音段的音调的分量。优选地,通过减去平均的相邻音调而使音调被归一化,以消除讲话者和词组的影响。有利地,归一化是基于使用发声强度作为加权因子而实行的。将会理解,矢量分量可以包括有关参量的本身或参量的任何适当的量度,例如对数。
应当指出,也使用了一种简化的普通话声调模型。在这样的模型中,可以通过从发声段到不发声段的内插/外推而创建伪音调,因为发声/不发声判决不能可靠地确定。发声强度的知识还没有付诸实际使用。省略发声强度的知识是不希望的,因为发声强度的确是改进识别的知识源。例如,音调的移动在发声段中相当慢(1%/1ms),但在发声-不发声或不发声-发声的段中却很快速地跳跃。按照本发明的系统考察了发声强度的知识。
从附图所示的实施例,将明白本发明的这些和其它方面,以及参照这些实施例加以说明。
附图说明
用于语音识别的声调特性的制作方法附图
图1说明声调特性的三阶段提取;图2显示测量音调的流程图;图3显示带有追溯和自适应切除的动态编程的流程图;图4显示音调轮廓与发声强度的例子;图5显示把F0轮廓分解为语汇声调影响、词组语调影响、和随机噪声影响的流程图;图6A和6B显示加权滤波的使用;图7显示自相关的二阶回归的处理;图8显示说明在不发声语音段中特性矢量的处理的方框图;图9显示按照本发明的优选实施例的增强的声调特性提取器的方框图;以及图10显示相应的流程图。
按照本发明的语音处理系统可以使用惯用的硬件来实施。例如,语音识另系统可以在计算机(诸如PC机)上实施,其中语音输入经过话筒被接收,并由传统的音频接口卡数字化。所有附加的处理以由CPU执行的软件程序形式来进行。具体地,语音可以经过电话连接(例如通过使用计算机上的惯用的调制解调器)而被接收。语音处理也可以通过例如使用围绕DSP构建的专用硬件来实施。由于语音识别系统通常是已知的,这里只更详细地描述与本发明有关的细节。细节主要是针对于普通话汉语语言给出的。本领域技术人员可容易地把这里显示的技术适用到其它声调语言。
图1显示从语音信号s(n)中提取观察矢量ō(t)的声调特性的三个独立的处理阶段。本发明给出在所有三个方面的改进。优选地,这些改进要组合地使用。然而,在其它阶段使用传统技术的地方,它们可以独立地被使用。在第一阶段,确定一个周期性的量度(即音调)。为此,进入的语音信号s(n)被划分成重叠的帧,优选地具有10毫秒偏移。对于每个在时间t的帧,在一个频率范围f内的量度p(f,t)被确定以表示信号对于频率f呈现怎样的周期性。正如下面更详细地描述的,优选地,使用子谐波相加(SHS)算法来确定p(f,t)。第二阶段引入连续性约束,以便提高增强性。它的输出是原来的音调特性的矢量序列,它包含实际的音调估值 和相应的发声强度υ (有利地,归一化的短时间自相关被用作为发声强度的量度)。优选地,通过使用动态编程(DP)而施加连续性约束,正如下面更详细地描述的。在第三阶段,执行加标签的FEAT、后处理和归一化运算,以及得出矢量o(t)的声调特性的实际序列。下面将给出细节。
周期性量度图2显示用于确定音调信息的优选的方法的流程图。语音信号可以以模拟形式被接收。如果是这样,则可以使用AD变换器,把语音信号变换成采样的数字信号。从数字化的语音信号中提取在人的声带的物理振动范围内可能的基频F0的音调信息。接着,确定周期性量度。大多数音调确定算法都是基于在预期的F0范围内对于像p(f,t)那样的量度实现最大化。在时域中,这样的量度典型地是基于信号的自相关函数rs,s,(1/f)或距离量度(像AMDF那样)。按照本发明,使用了子谐波相加(SHS)算法,它运行在频域,并提供子谐波的和作为量度。数字采样后的语音信号被发送到增强的声调特性提取前端,在其中采样的语音信号优选地首先以小于1250Hz的截止频率进行低通滤波。在简单的实施方案中,低通滤波器可用移动的平均FIR滤波器来实现。接着,信号被分段为多个宽度上相等的而时间上重叠的分析门。每个分析门与在语音分析中通常使用的、被称为汉明(Hamming)窗的核相乘(“开窗口”)。分析窗必须包含至少一个完整的音调周期。音调周期τ的合理的范围是在2.86ms=0.00286s=1/350≤τ≤1/50=0.020s=20ms之内。这样,优选地,窗口长度至少是20ms。
然后在分析门(也称为段或帧)中经采样的语音信号的代表优选地用快速富立叶变换(FFT)来计算以产生频谱。然后,频谱被平方,从而产生功率谱。优选地,幅度谱的峰值为了增强性而被增强。然后,功率谱优选地通过三角形核(有利地具有低通滤波器系数1/4,1/2,1/4)被平滑化而产生平滑的幅度谱。接着,最好对经过核平滑的幅度谱上为Iresolution个点进行立方样条插补(优选地,在低的频率分辨率下,每个倍频程不大于16个等距离点,以便快速找出正确的路由)。对经过样条插补的功率谱的听觉灵敏度补偿优选地以对数频率标度上的反正切函数来实现A(log2f)=0.5+tan-1(3.0*log2f)&pi;]]>对于在人的声带的物理振动的范围内的可能的基频F0,进行子谐波求和以产生音调的信息。&Sigma;k=1k=15wk*P(log2(kf))*I(kf<1250)]]>,k=1,2,...,Nsubharmonicswk=(c)k-1,其中P(log2(f))=C(log2(f))*A(log2(f)),其中C(log2(f))是从来自FFT的功率谱S(log2(f))经过样条插补而来的,c是噪声补偿因子。有利地,对于话筒输入c=0.84;对于电话输入c=0.87。f是音调(Hz),50≤f≤350。SHS算法在D.Hermes,“Measurement of pitchby subharmonic summation(用子谐波求和法测量音调)”,J.Acoust.Soc.Am.83(1),January 1988中被详细地描述,该论文在此引用,以供参考。这里只给出SHS的概要。令st(n)代表在帧t开窗的、进入的语音信号以及令st(f)是它的富立叶变换。从概念上讲,基频是通过计算st(n)被投影在具有f的周期性函数的子空间上的能量Ef并相对于f进行最大化而被确定的Ef=&Sigma;n=-&infin;&infin;|St&prime;(nf)|2]]>
在由Hermes描述的、实际的SHS方法中,引入了各种改进方案,通过代之以使用峰值增强的幅度谱|St’|,用代表听觉系统的灵敏度的滤波器W(f)进行加权,以及借助于快速富立叶变换,内插,使用和在对数标度上叠加,有效地实现用加权值hi来加权而加重较低的谐波,从而达到p(f,t)=&Sigma;n=1Nh1n-1(|St&prime;(nf)|.W(nf))]]>在这个公式中,N代表谐波数目。
连续性约束音调的直接估值由 (f,t)给出。然而,由于缺乏对帧的连续性约束,易于引起所谓的多重/子-多重音调误差,最主要是由于宽带噪声而出现在电话主体中。按照本发明,动态编程的原理被用来引入连续性(在语音的发声段)。这样。音调不是孤立地被估值。而是通过考虑相邻的帧,音调是按总的最小路径误差被估值的。基于在语音的发声段中音调的连续性特征,音调在有限的范围内变化(约1%/ms)。这个信息可被利用来避免多重/子-多重音调误差。使用动态编程可确保音调估值遵从正确的路由。应当看到,在发声-不发声的语音段上音调急剧地改变。而且,对于给定路径边界的全搜索方案是费时的(由于它的不必要的长的处理延时),这使得几乎不可能在实时系统中以主观上高的声调质量实施音调跟踪。这些缺点可被克服,正如下面更详细地描述的。
动态编程连续性约束可以通过音调检测而被概括为F^0(1..T)=argmaxF0(1..T)&Sigma;t=1Tp(F0(t),t).aF0(t)|F0(t-1)----(1)]]>其中αf2|f1不利于或阻止音调的快速改变。通过量化F0,这个准则可以通过动态编程(DP)而被求解。
在许多系统中,在静默和不发声区,音调值被设置为0。这导致在发声-不发声边界处的零变量和无定义的导数的问题。已经知道,可通过使音调按指数下降趋向运行的平均值来跨接这些区域。有利地,DP提供用于连接不发声区和静默区的有效的方法。它导致字节的音调轮廓(位于字节的主元音中)的“外推”,在时间上回退到它的初始辅音。已经发现,这可提供附加的有用的信息给识别器。
局部追溯公式(1)需要在音调轮廓可被决定之前处理发声的全部T个帧的情形,使得它不太适合于在线运行。按照本发明,利用DP的路径合并性质来执行局部追溯。追溯方法是在语音识别期间维特比(Viterbi)译码中熟知的。所以,这里不再给出更多的细节。优选地使用固定长度局部追溯,它保证最大的延时在每个帧t,局部最好的路径被确定,并追溯ΔT1帧。如果ΔT1足够大,则可以预期这样确定的音调F0(t-ΔT1)是可靠的。实验表明,延时可被限制为约150ms,它足够短,从而避免对于用户来说任何能意识到的延时。
射束切除在以上的形式中,路径重新组合占用了CPU的主要工作。为了减小工作量,使用射束切除。在其中,射束切除也是在语音识别中熟知的,这里不再更详细地描述。对于每个帧,仅考虑有希望导致全局最佳的一个路径子集。具有满足下式的记分sc(t)的路径是不连续的(scopt(τ)=在时间τ时的局部最好记分) 因为效率是主要关心的内容,在不破坏质量条件下,最好尽可能多地切除。在动态编程步骤中,在发声-不发声语音段中,即使在应用动态编程技术后,在估计音调时仍存在剧烈的改变。这是因为在纯静默区中,没有周期性信息所有的可能的音调数值是同样可能的。理论上,在这一点上不需要切除。另一方面,在纯语音区域中,有许多周期性信息,音调的分布在正确的音调的多重/子多重上有许多峰值。这时,切除某些具有非常低的累积记分的路径是适当的。切除准则优选地也要考虑静默的影响。如果在一个句子开始处,存在有大于约1.0秒的静默区,则最好不应当进行切除。实验表明,通过切除某些具有“迄今的”累积记分小于“迄今的”最高累积记分的99.9%的路径,将导致丢失路径的正确的路由。另一方面,切除某些具有“从0.50s迄今的”累积记分小于“从0.50s迄今的”最高累积记分的99.9%的路径,那么比起全搜索方案,将导致节省96.6%循环消耗。
减小分辨率路径重新组合的数目正比于DP的频率分辨率的平方。通过减小DP中的频率轴的分辨率,可以达到速度的明显提高。在每个倍频程约50个量化步骤时可观察到较低的分辨率极限。在此以下,DP路径成为不精确的。已发现,如果每个帧的音调估值 在DP以后在粗略路径的附近被精细调谐,则极限可被进一步降低到三分之一。优选地,这是通过以较高的分辨率使得在来自低分辨率路径的量化步骤Q(t)内υ(f,t)最大化而被完成的,即F^0(t)=argmaxf&Element;Q(t)&nu;(f,t).]]>图3显示通过使用本发明的带有自适应切除的、使F0的先行局部或然率最大化的优选方法的流程图。概要地,进行以下步骤-计算在语音的发声段中每个可能的音调移动的转移记分。
-计算最大子谐波求和的当前值以及“迄今”累积的路径记分。
-根据“迄今”最好的路径的一定的历史(追溯长度M)确定自适应切除并计算自适应切除门限,然后根据周期性程度进行路径延伸以及根据自适应切除门限进行切除。
-从某个时间帧(先行追溯长度N)追溯到当前帧,以及只输出当前时间帧作为稳定的粗略音调估值。
-在稳定的粗略音调估值的邻近进行高分辨率、精细的搜索,以便估值精确的音调,以及输出精确的音调作为先行自适应切除追溯程序的最后的结果。
更详细地,进行以下步骤。音调信息首先通过计算在发声的发声段中每个可能的音调移动的转移概率而被处理,该音调移动优选地在ERB听觉灵敏度标度上被测量。转移记分的计算可如下地进行PitchMovementScore[k][j]=(1-(PitchMove/MaxMove))*((PitchMove/MaxMove)))),其中用ERB听觉灵敏度标度去测量音调移动和(MaxMove)最大移动。在发声段中音调移动将不超过(1%/1ms)[5],对于男性讲话者,F0约为50-120Hz,对于女性讲话者,F0约为120-220Hz,F0的平均值约为127.5Hz。
从Hz转换到ErbErb(Hz)=21.4*log10(1+f/230);MaxMove(以Hz计)是10ms内12.75Hz,转换为10ms内0.75Erb。
接着,计算最大子谐波求和的当前值,以及“迄今的”(从语音信号的开始点到当前的时间帧)累积路径记分。“迄今的”累积路径记分可以通过使用以下的递归公式来计算AccumulatedScores[j][frame-1]+PitchMovement[k][j]*CurrentSHS[k][frame];路径延伸只发生在那些可能的音调移动处,其转移概率记分(优选地)大于0.6。转移概率记分小于0.6的路径延伸被跳过。优选地,自适应切除是基于(有利地)在0.5秒经历内的累积路径记分。这被表示为ReferenceAccumulatedScore(参考累积记分)。优选地,当路径延伸只对于转移记分大于0.6的那些可能的音调移动才发生时自适应路径延伸就使用判决准则。转移记分小于或等于0.6的路径延伸被跳过。此外或替换地,自适应切除是基于发声强度。按照 6的方法,其中自适应切除使用基于发声强度的判决准则-如果在0.5秒的经历内的累积路径记分小于同一个经历内的最大累积路径记分以及在当前的时间帧中存在有多得多的周期性信息,则在路径上密集地切除,或用公式表示为如果(AccumulatedScores[j][frame-1]-ReferenceAccumulatedScore)小于(MaxAccumulatedScores[frame-1]-ReferenceAccumulatedScore)的99.9%,以及在当前的时间帧中存在有多得多的周期性信息(例如,CurrentSHS[j][frame]≥CurrentMaxSHS[frame]的80.0%)。
-如果在当前的时间帧中有小的含糊的音调信息,把先前的路径延伸到当前的最可能的、最大和最小音调移动,则在路径上稀疏地切除。如果在当前的时间帧中有小的周期性信息,则进行稀疏地切除。这是因为句子的开始点大多数包含静默,因此,累积路径记分太小而不能密集地切除,这对发声-不发声段和句子的开始点是不同的。在那种情形下,在当前的时间帧中有较小的含糊的音调信息。稀疏地切除是通过把先前的路径延伸到当前的最可能的、最大和最小音调移动而进行的。
为了估计精确的音调而在稳定的粗略音调估值的附近进行高分辨率和精细的搜索,使用了在相关曲线图上的立方样条内插。这可以大大地减小在F0的先行自适应切除追溯中的活动状态,而没有在精度上的损失。在高频率分辨率(用于高的音调精度)时,高分辨率、精细音调搜索使用了在包含一个以上的完整的音调周期的分析窗中的拟周期性信号内归一化相关性的最大化。缺省窗口尺度是2乘以最大的完整的音调周期。
f0≥50Hz,音调周期≤1/50=0.020s,窗口长度=2*0.020s=40ms使用F0的在先自适应切除追溯,具有这样的优点它几乎免除了在许多基于峰值摘取法则的音调检测算法中存在的多重/子-多重音调误差。实验表明,当与试探峰值摘选法则比较时,声调错误率(TER)和字符错误率(CER)大大地减小。另外,它改进精确度的概率,而没有以牺牲效率作为代价,因为它提前0.20s查看以及根据音调信息自适应切除许多不必要的路径,无论是发声的或不发声的。
普通话语音识别的特性参照五种普通话词汇声调,第一声(高,即阴平)和第三声(低,即上声)主要在音调水平上不同,而音调导数都接近于零。反之,第二声(上升,即阳平)和第四声(下降,即去声)则跨越一个音调范围,但有清晰的正的或负的导数。因此,音调和它的导数都是对于声调识别的候选的特性。曲率信息(二阶导数)的潜力并不太明显。
按照本发明,发声强度υ(f;t)和/或它的导数在特性矢量中表示出来。优选地,发声强度用(最好是归一化的)短时间自相关的量度来表示,如用自相关轮廓的二次回归的回归系数那样来表示。这可被定义为&nu;(f,t)=&Sigma;n=N1(t)N2(t)s(n).s(n-fsamplef)(&Sigma;n=N1(t)N2(t)s2(n).&Sigma;n=N1(t)N2(t)s2(n-fsamplef))12&le;1]]>使用发声强度作为一个特性,有助于音节分段和区另发声的和不发声的辅音。已经证实,语音信号的最大相关可被用作为音调估值的可靠的量度(参照下表)。这部分地是由于最大相关是周期性的量度这一事实。通过包括这个特性,它可以提供信号中周期性程度的信息,因此,改进了识别精度。
能量和它的导数也可以作为声调特性,但因为这些分量已在频谱特性矢量中被表示,所以这些分量在这里不再考虑。
声调特性被定义为两个部分。第一部分是在相邻帧上解除语调的F0轮廓的二阶加权回归的回归系数,其窗口尺寸与音节的平均长度和相应于信号的周期性程度的加权因子有关。第二部分涉及信号的周期性程度,它们是自相关轮廓的二阶回归的回归系数,其窗口尺寸与音节的平均长度和相应于音调估值的倒数的相关性的滞后有关。
长期音调归一化在其中,使用音调作为声调特性事实上可能恶化识别性能。这是因为音调轮廓是以下参量的叠加(a)讲话者的基本音调,(b)句子级别韵律,(c)实际的声调,以及(d)统计偏差。
虽然(c)是想要的信息,而(d)是由HMM进行处理的,(a)和(b)是与声调识别无关的,但它们的偏差超过在第一声与三声之间的差值。在图4上显示了代表863男性测试组所讲的句子151的示例性音调轮廓。在这个句子中,由于句子的韵律,第一声和第三声的音调水平成为不能区分的。在句子内,词组分量已跨越50Hz的范围,而成人讲话者的音调范围为100到300Hz。图4在上部显示音调轮廓,其中点线表示(估值的)词组分量。实线表示带有大于0.6发声强度的区域。图4的下部显示相应的发声强度。
已经提出把“倒频谱中值相减”应用到对数音调,以便得到与性别无关的音调轮廓。虽然这有效地去除了讲话者偏差(a),但没有考虑词组影响(b)。
按照本发明,在信号中呈现的词汇声调影响可通过去除词组语调影响和随机影响而被保存。对于汉语,词汇声调影响是指在汉语音节内特定的、词汇声调的发音。词组语调影响是指在音调轮廓中存在的语调影响,它是由多音节汉语字的声音实现所造成的。所以,按照本发明,估值音调 通过减去讲话者和词组影响而被归一化。词组语调影响被定义为发声F0的轮廓的长期趋势,它可以由 轮廓在t的相邻段的移动平均值来近似。优选地,使用加权的移动平均值,其中有利地,加权值与信号的周期性程度有关。词组语调影响在叠加假设下从 轮廓中去除。实验证实这一点。这给出F^0&prime;(t)=F^0(t)-&Sigma;&tau;=-&Delta;T3+&Delta;T3F^0(t+&tau;).w(F^0(t+&tau;),t+&tau;)&Sigma;&tau;=-&Delta;T3+&Delta;T3w(F^0(t+&tau;),t+&tau;),]]>移动平均值在它的最简单形式中用w(f;t)进行估值,给出直接了当的移动平均值。优选地,要计算加权移动平均值,其中有利地,加权值代表发声强度(w(f;t)=υ(f;t))。这后一个平均值通过集中在清晰的发声区域而产生略微改进的估值。加权移动平均滤波器的最佳性能是在约1.0秒的窗口内达到的。
图5显示用于把F0轮廓分解为声调影响、词组影响和随机影响的优选方法的流程图。这包括-计算语音信号的归一化相关值,其时间滞后相应于来自先行追溯出现音调估值的倒数,-通过对相邻帧(窗口尺寸与音节的平均长度有关)的移动平均或中值滤波来平滑归一化相关值轮廓。
优选地,移动平均滤波器是Y-smoothed(t)=(1*y(t-5)+2*y(t-4)+3*y(t-3)+4*y(t-2)+5*y(t-1)+5*y(t)+5*y(t+1)+4*y(t+2)+3*y(t+3)+2*y(t+4)+1*y(t+5))/30-对相邻的帧(窗口尺寸与音节的平均长度有关)计算自相关值的二阶回归的系数。优选地,平滑的自相关值的回归系数的计算是要在n(n=11)个帧上使用最小平方准则。为了提高运行时间效率,这个运算被跳过,而γ0可以用平滑的相关系数代替。使用有关恒定数据矩阵2n+10n(n+1)(2n+1)30n(n+1)(2n+1)30n(n+1)(2n+1)30n(n+1)(2n+1)(3n2+3n-1)15,&not;]]>替换地,F0轮廓的回归系数的计算是在n(n=11)个帧上使用加权的最小平方准则,具有加权值的函数的数据矩阵,&Sigma;l=-nnut&Sigma;l=-nnutl&Sigma;l=-nnutl2&Sigma;l=-nnutl&Sigma;l=-nnutl2&Sigma;l=-nnutl3&Sigma;l=-nnutl2&Sigma;l=-nnutl3&Sigma;l=-nnutl4]]>其中加权值是ut=1,&gamma;0,t&GreaterEqual;0.4&gamma;0,t0,&gamma;0,t&le;0.1]]>-根据在对相邻的帧(窗口尺寸与音节的平均长度有关)的自相关值的二阶回归的回归系数的常数项,计算F0轮廓的回归加权值。优选地,回归加权值的计算是根据以下的准则-如果自相关值的回归系数的常数项γ0,t大于0.4,则对于这个帧t的回归加权值被设置为约1.0,-如果自相关值的回归系数的常数项γ0,t小于0.1,则对于这个帧t的回归加权值被设置为约0.0。
-否则,这个帧t的回归加权值被设置为自相关值的回归系数的常数项。对于加权回归和加权的长期移动平均滤波,优选地,使用以下的加权值ut=1,&gamma;0,t&GreaterEqual;0.4&gamma;0,t0,&gamma;0,t&le;0.1]]>-根据长期加权移动平均值或中值滤波,计算汉语普通话韵律的词组语调分量。优选地,窗口尺寸与词组的平均长度有关,以及加权值与F0轮廓的回归加权值有关。有利地,用于提取词组语调影响的长期加权移动平均滤波的窗口长度被设置在大约0.80到1.00秒的范围内。
-通过减去在相邻的帧(窗口尺寸与音节的平均长度有关)的词组语调影响,计算去语调的音调轮廓的二阶加权回归的系数。
如上所述,借助于时变的、加权移动平均(MA)滤波器并结合F0轮廓的加权(在元音上设置更多的加重)的最小平方,F0轮廓被分解成词汇声调影响、词组语调影响、和随机影响。由于词汇声调影响只存在于汉语字节的发声段,发声-不发声的模糊性通过引入在相邻的帧上的加权回归而被解决,窗口尺寸与音节的平均长度有关以及加权值取决于周期性程度。
图6A显示句子的F0轮廓的最小平方。图6B显示在应用了带有加权-最小平方(WLSA)的加权移动平均(WMA)滤波器之后的同一个轮廓。词组语调影响由WMA滤波器估计。声调影响相应于F0轮廓的WLS的常数项减去词组语调影响。在下表显示出词组语调影响可被忽略。
(追溯延时=20,相关平滑半径=5,帧宽度=0.032)(词汇模型在训练中声调的基音/核心-最后的)(词组三字母组LM)WMA滤波器的最佳性能被实验确定为约0.1秒(如上表所示),它在大多数情形下能够对称地覆盖上升和下降的声调。
下面的两个表显示非对称会负面地影响TER(声调错误率)。这也是为什么WMA不单是F0的归一化因子,也是词组的归一化因子的原因。
(追溯延时=20,相关平滑半径=5,帧宽度=0.032)(词汇模型在训练中音调的基音/核心-最后的)(词组三字母组LM)
(追溯延时=20,相关平滑半径=5,帧宽度=0.032)(词汇模型在训练中音调的基音/核心-最后的)(词组三字母组LM)提取发声的音调移动的时间性质借助于自相关值的二阶回归,可从语音信号中提取发声信息。如果自相关的回归系数的常数项大于给定的门限值,例如0.4,则这个帧的回归权因子被设置为1.0。如果自相关的回归系数的常数项小于给定的门限值,例如0.10,则这个帧的回归权因子被设置为0.0。其它情形时,它被设置为自相关的回归系数的常数项。这些加权值被施加到以上的解除语调的F0轮廓的二阶加权回归,以及汉语普通话韵律的词组语调分量的长期加权移动平均值或中值滤波器。F0轮廓的解除语调的二阶加权回归的这些加权因子被设计来增强/解除增强音调轮廓的发声/不发声段,以便保存对于半发声辅音发声的音调轮廓。这种机制的优点在于,即使语音段具有轻微错误,用作为在线信号的预处理前端的这些带有F0轮廓的先行自适应切除追溯的加权值,可以为辅音的音调轮廓保留其元音的音调轮廓。声调特性的这个元音保留的性质具有妨碍由于语音段错误而引起的模型参量偏移估值的能力。
图7显示使用本发明的自相关值二阶回归的优选方法的流程图。通过使用带有相应于F0的先行自适应切除追溯所输出倒数的滞后的自相关二阶回归,可以从语音信号中提取周期性信息。首先,提取的音调分布通过使用音调动态时间反折(PDT)技术被处理,以便得到平滑的(几乎没有多重音调错误)音调轮廓,然后,应用二阶加权的最小平方提取音调轮廓的分布。这样的分布由回归系数表示。恒定的回归系数被使用来计算在分解F0轮廓时需要的加权值,如图5所示。第一和第二回归系数被使用来进一步减少声调错误率。对于窗口的最好的设置值约为110ms,它小于正常讲话速率的有关音节的长度。
伪特性矢量的产生图8显示按照本发明的、用于伪特性矢量产生器的优选方法的流程图。按照局部或然率记分最大化的准则,对于语音信号的不发声段产生伪特性矢量,以便防止HMM中的模型参量产生偏移估计。这是首先通过计算回归窗口内的回归加权值的和值而完成的。对于小于预定的门限值(例如,0.25)的加权值的和值,归一化特性用按照最小二乘方准则所产生的准特性来代替(回退到简并的情形,相等的加权回归)。
对于清晰的静默区,在先行追溯中的本地最小路径将产生音调估值的随机值。这样的解除语调的F0估值和它的导数在相邻帧上以前有相等分布的归一化特性以及归一化特性的概率分布是对称性质的这种前提下具有零的中值。对于最小偏差,它确保在基于HMM的声音模型的每个状态中有非简并的概率分布。由于在发声-非发声区域中很难在以毫秒计的单元中在发声区和不发声区之间画出清晰的界线,所以利用相等的加权回归来平滑在清晰的发声段中可跟踪的音调和在清晰的静默区中的随机音调。
声调分量如上所述,在优选实施例中,声调分量被定义为(优选地)在110毫秒内(它小于有关音节长度(事实上,约一个平均元音长度))解除语调的音调轮廓的局部的、加权的回归,以免为节拍内的音调轮廓建模。在局部回归时的这些加权值被设计来增强/解除增强音调轮廓的发声/不发声段,以便为辅音保存(起始/基音)的发声的音调轮廓。这种机制的优点在于,即使语音段具有轻微错误(它不把小量的不发声的识别为发声的),这些加权值仍将保留元音(最后的/调素)的音调轮廓,以及理所当然地认为它是起始/基音的。这样,统计模型的统计特性在训练过程和以后的识别过程中被累积。而且,它允许仿真对于起始/基音的记分,以免由于语音的分段错误而损害声音识别。
实验配置实验是通过使用Philips(菲利浦)大词汇量连续语音识别系统实现的,它是使用具有一阶导数的标准MFCC特性、用于简单的信道归一化的基于句子的倒频谱中值减法(CMS)、和带有密度特定的对角线协方差矩阵的高斯混合密度的基于HMM的系统。实验是在三个不同的普通话连续语音主体上进行的,即,MAT主体(电话,台湾普通话)、非公共PC口述数据库(话筒,台湾普通话)、和1998大陆汉语863标准检查程序的数据库。对于MAT和PC口述数据库,使用与讲话者无关的系统。对于863,为每个性别进行分开的模型的训练,而且在译码期间,性别是已知的。标准863语言模型训练主体(人民日报1993-4)包含该测试组。这样,系统已经“知道”测试句子的整体性,因而不反映实际生活的口述情形。为了得到真实的性能数字,LM训练组通过去除所有480个测试句子而被“清除”。以下的表格概述主体特征。
PDA常常用精细和粗略的音调错误来评估。因为假设以下的现有的算法已大范围地调整,并且焦点集中在与语音识别相结合,所以系统代之以用声调错误率(TER)来最佳化。除了最后一个表以外,所有的表都显示TER。TER是通过音调的音节译码被测量的,其中对每个音节向译码器给出以下的信息开始和结尾帧(通过强迫对准得到的),
基音节的标识(无声音,来自测试脚本),以及考虑这个特定的音节的声调组五个词汇声调并非都可以与所有的汉语音节相组合的。声调困惑度(TPP)被定义为在测试组上平均的、对于一个音节的可能的声调数目。
在以下的实验的表格中第一列显示实验的Id(D1,D2,T1等等),它们打算有助于快速识别在一个以上的表格中的同一个实验。
实时/在线DP运行第一个实验整个地涉及使用动态编程(DP)的好处。下表显示对于MAT和PCD从DP得到的10-15%TER的减小。只有对于非常清晰的863主体不需要DP。由于实际生活口述系统也不得不面对噪声,DP被认为在任何情况下都是有用的以保证增强性。
第二组实验考虑局部追溯的好处。直观地,一个音节的联合信息应当是足够的,即,约20-25帧。下表显示10帧已足够使得音调轮廓稳定。保守地,可以取15帧。
集中在减小搜索努力上,下表显示对于具有不同的切除门限的射束切除的路径重新组合的次数(主体平均)。在声调错误率的增加为最小时可达到减少93%(P3)。保守地,可以选择配置P2。
把分辨率从每个倍频程48个量化步骤减小到仅仅16个,则路径组合可以得到另一次显著的减少,但导致某些恶化(下表中的实验R1)。这可通过在D2后精细调谐音调而被减轻(R2)。
对于声调特性矢量的实验结果已经进行实验来验证按照本发明对特性矢量的改进。测试以传统的特性矢量
)开始。下表显示几乎整个性能都是由于Δ
。切断
只有很小的影响(F2),而使用它作为唯一的特性导致52%的很大的恶化(F3)。取对数没有多大影响(F4)。
下表显示归一化的影响,通过减去平均的相邻的音调(加权值W(f,t)=1,公式(2)),有效地消除讲话人和词组影响。对于三个不同的窗口宽度(分别为0.6s,1.0s和1.4s的移动平均值),1秒的窗口以小差距取胜。
下表把归一化带有1.0秒的移动平均窗口的
与句子中值的归一化进行比较。MAT和863主体都包含短的发声,其词组影响较小。这样,对于MAT,基于句子的归一化与建议的方法同样地实施。另一方面,对于863(其中性别偏移已由与性别有关的模型考虑),与非归一化情形相比,没有得到改进。对于带有长的发声表达和强的词组影响的PC口述主体,也没有观察到改进。
下表显示使用二阶导数ΔΔ
的影响。在话筒配置获益最大的情况下,观察到9%的重大的改进。
下表显示使用发声ν(f;t)作为特性,导致4.5%的收益,它通过简单平滑以减小噪声,还可进一步调谐到6.4%。
从使发声平滑的导数得到另一个6.1%,但对于二阶导数得不到进一步的减小,如下表所示。
在局部归一化时通过使用v(f;t)作为加权值,得到最终小的改进(2.5%),如下表所示。
对于特性矢量取所有以上的最佳化步骤(从实验F1到N6),比起开始的矢量ō(t)=(F0(t);ΔF0(t)),TER可得到平均28.4%的改进。
与语言模型的组合实验还证实,最佳声调错误率也导致最好的系统总体性能。为了证明这一点,对于选择的配置,使用了基于词组识别词汇和词组-二字母组/三字母组语言模型,来测量综合系统的字符错误率(CER)。为了完整性和可比较性,下表的最后两行显示在测试组内得到的结果(“系统性能测试”。) 得到的结果确认了在TER与CER之间良好的对应性。其次,来自声调模型的总的相对CER改进在平均值上达到非凡的27.3%(二字母组),电话语音的收益最小(19.3%),而对于两个话筒主体则超过30%。对于三字母组,增益稍小一点,因为三字母组只从语音上下文就可弄清更多的事例,而对于语音上下文,二字母组需要声调模型的帮助。(极端情形是863标准检查程序LM-测试组内部LM训练—其中大多数声调是从上下文中正确地导出的,而声音模型提供的助益为10.6%。)总结对于构建在线的、增强的声调特性提取来说,重要的是使用在同时发声的时间帧邻域中联合的局部的周期性信息。本发明排除了直接从来自同时发生的时间帧的边缘周期性信息来确定声调特性。相反把发声强度当作为基频的分布来处理。
图8的方框图上以组合形式显示在线的、增强的特性提取的不同的方面,它们也可以与传统的技术相组合地被使用。图9以流程图形式显示同一个信息。重要的方面是-通过确定语音信号内的量度,优选地根据子谐波求和来提取音调信息,-基频的在线先行自适应切除追溯,其中自适应切除是基于发声强度和在最好是0.50秒以前的联合信息的,-去除词组语调,它被定义为发声的F0的轮廓的长期趋势。这个影响用F0轮廓的加权移动平均来近似,加权因子优选地与信号的周期性程度有关,-在某些时间帧上F0轮廓的解除语调的二次加权回归的中值,其中最大窗口长度相应于音节的长度,加权值与信号的周期性程度有关,-在某些时间帧上自相关的二次回归,其中最大窗口长度相应于音节的长度,其时间滞后相应于来自先行追溯过程的音调估值的倒数,以及-在语音信号的发声-不发声段中伪特性矢量的产生。对于不发声的语音,伪特性矢量按照最小平方准则被产生(回到间并的情形,相等地加权回归)。
权利要求
1.一种语音识别系统,用于识别一个时间顺序输入信号,该信号代表以声调语言说话的语音;该系统包括输入端,用于接收输入信号;语音分析子系统,用于把一段输入信号表示为观察特性矢量;以及单元匹配子系统,用于把观察特性矢量与经过训练的语音识别单元的目录进行匹配,每个单元用至少一个参考特性矢量表示;其中特性矢量包括从由特性矢量表示的语音段的估值发声强度中导出的分量。
2.如权利要求1所要求的语音识别系统,其中所导出的分量表示语音段的估值的发声强度。
3.如权利要求1所要求的语音识别系统,其中所导出的分量表示语音段的估值的发声强度的导数。
4.如权利要求1,2,或3所要求的语音识别系统,其中估值的发声强度被平滑。
5.如权利要求1所要求的语音识别系统,其中发声强度是估值的音调轮廓的短时间自相关性的量度。
6.如权利要求5所要求的语音识别系统,其中该量度是由自相关轮廓的回归系数形成的。
7.如权利要求1所要求的语音识别系统,其中特性矢量包括一个代表语音段的估值的音调的导数的分量。
8.如权利要求5或7所要求的语音识别系统,其中估值的音调是通过从代表语音段的估值的音调轮廓中去除词组语调影响而得到的。
9.如权利要求8所要求的语音识别系统,其中用估值的音调轮廓的加权移动平均值来代表词组语调影响。
10.如权利要求9所要求的语音识别系统,其中加权移动平均值的权重值表示语音段中的发声强度。
11.如权利要求1所要求的语音识别系统,其中用伪特性矢量来表示语音的不发声段。
12.如权利要求11所要求的语音识别系统,其中如果估值的音调轮廓的回归权重值的和值处在回归窗口之内,则语音段被认为是不发声的。
13.如权利要求11所要求的语音识别系统,其中伪特性矢量包括按照最小平方准则产生的伪特性。
全文摘要
增强的声音声调特性首先通过引入带有自适应切除的在线的先行追溯基频(F
文档编号G10L15/18GK1343350SQ00804884
公开日2002年4月3日 申请日期2000年11月10日 优先权日1999年11月11日
发明者C·H·黄, F·塞德 申请人:皇家菲利浦电子有限公司

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多