几种语音端点检测方法简介

霞客书斋 2018-09-22

展开全文

几种语音端点检测方法简介

2011年第11期福建电脑

几种语音端点检测方法简介

邢亚从

（苏州市职业大学江苏苏州215000）

【摘要】：语音的端点检测在语音的编码、语音识别、语音增强、说话人识别中起着非常重要的作用，直接影响着后续工作的正确率。本文在双门限检测法的基础上，介绍了基于自相关极大值和基于小波变换的端点检测方法，阐述其优缺点。

【关键词】：语音端点检测、过零率、小波变换、自相关极大值端点检测是语音识别中非常重要的一步。所谓语音端点检测，就是从一段给定的语音信号中找出语音的起始点和结束点。在语音识别系统中，正确、有效的进行端点检测不仅可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰、提高语音识别的正确率。研究表明[1]，即使是在安静的环境下，语音识别系统一半以上的错误可能主要来源于端点检测。除此之外，在语音合成、编码等系统中，高效的端点检测也直接影响甚至决定着系统的主要性能。因此，端点检测的效率、质量在语音处理系统中显得至关重要，广泛开展端点检测实现手段方面的研究，有一定的现实意义[2]。1、双门限检测法

语音端点检测方法可采用测试信号的短时能量或短时对数能量、联合过零率等特征参数，并采用双门限判定法来检测语音端点，即利用过零率检测清音，用短时能量检测浊音，两者配合。首先为短时能量和过零率分别确定两个门限，一个是较低的门限数值较小，对信号的变化比较敏感，很容易超过；另一个是比较高的门限，数值较大。低门限被超过未必是语音的开始，有可能是很短的噪声引起的，高门限被超过并且接下来的自定义时间段内的语音超过低门限，意味着信号开始[5]。

算法过程如下：

(1)在开始阶段要做预加重和分帧的处理，讲语音信号分成一帧一帧的，分帧处理有利于对语音信号进行准确的分析，并且能够提高识别率，这时再分别求出每帧的短时能量和短时过零率。

(2)接着要设置初始化参数，比如最大静音长度，这是一个经验值，用来判断语音段是否结束，论文中是根据大量的语音样本的长短设置的一个经验值。另外，短时能量和短时过零率的门限也要设置初始值等。

(3)判断当语音在静音段或者是过渡段时，如果语音信号的短时能量值大于短时能量的高门限，或者语音信号的短时过零率大于短时过零率的高门限，那么就确认进入了语音段，如果短时能量的值大于短时能量的低门限或者过零率的值大于过零率的低门限，那么语音处于过渡段，否则，语音仍就处于静音段。

(4)当语音信号在语音段时，判断如果短时能量的

值大于短时能量的低门限或者短时过零率的值大于短时过零率的低门限，那么语音信号仍然处于语音段。

(5)如果静音长度小于设置的最大静音长度，那么就表明语音还尚未结束，还在语音段，如果语音的长度小于最小噪声长度，那么认为语音太短，此时是噪声，同时判断语音处于静音段；否则语音就进入结束段。2、基于自相关极大值的语音端点检测方法

在端点检测中，如果所处理的语音信号是非平稳的随机过程s(n)，可以采用短时自相关函数，它的定义为

它的归一化自相关函数定义为

这里之所以要将自相关函数归一化是为了在语音端点检测过程中不用考虑信号绝对能量的大小所带来的影响。我们知道语音是由浊音和清音两部分组成的。浊音语音是0～10ms内可以被看作为一个准周期信号，而清音信号接近于随机噪声。由于语音的绝大部分能量都集中在浊音语音部分，因此语音可以在10～20ms内被看作为一个准周期信号，那么它的归一化自相关函数也呈准周期性，而高斯白噪声信号的归一化自相关函数的分布较为平均和分散，不具有准周期性。

为了突出带噪语音信号的归一化自相关函数的准周期性和高斯白噪声信号的归一化自相关函数分散性，可以利用一个低通滤波器除去波形上的高频毛刺。这样我们就可以清晰地看到带噪语音信号自相关函数所具有的准周期性。图1(a)为带噪语音信号的归一化自相关函数经过低通滤波后的典型波形。图1(b)为高斯白噪声信号的归一化自相关函数经过低通滤波后的典型波形。我们看到带噪语音信号的自相关函数的能量将集中在基音周期的各个整数倍点上，在这些点附近将出现极大值，并且此函数在零点处必将出现最大值。而高斯白噪声信号的自相关函数却不具有准周期性，它的归一化自相关函数的能量在零点之外较为平均和分散。从图1中我们可以清晰地看到带嗓语音信