语音识别研究的最新进展

icecity1306 2018-03-20

展开全文

语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景。

语音识别研究的方法和内容

实现非特定人、大词汇表的连续语音识别有两条主要途径,一条是知识工程或称为专家系统的途径,另一条则是统计方法的途径。前者已经不是现代语音识别研究的主流。所谓语音识别的概率统计方法,就是从底层到顶层,将全部语音的统计知识容纳在一个统一的隐含马尔可夫模型(HMM)框架内的研究方法。非特定人大词汇表连续语音识别系统的研究主要集中在声学模型、语言模型和训练识别算法等方面。

1. 声学模型。声学模型是识别系统的底层模型,是语音识别系统中最关键的部分。声学模型的目标是计算语音特征矢量序列和每个发音模板之间的距离。声学模型的设计就是找到最小的识别单元,并为之建立HMM模型,它与语言的发音特点密切相关。识别单元的大小对语音训练数据量的大小、识别率和灵活性有较大影响。识别单元可以是词、字、半音节或音素。汉语识别单元的最新研究集中在半音节、二音子、三音子和五音子上。

选取语音的识别特征参数也是语音识别研究中非常重要的一个方面。比较有效的识别参数为Mel频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)和感觉加权的线性预测倒谱系数(PLPCC)。

2. 语言模型。语言模型是指语言中的一些规则或语法结构,也可以是表现字或词上下文之间的统计模型。由于语音信号的复杂性,不同发音之间存在叠接现象,有些单音如果前后没有联想即使人来分辨也很困难,借助于语言模型则可以提高声学模型的区分度。目前比较成熟的模型是统计语言模型,它通过对大量文本文件的统计提取不同字、词之间的统计关系。语音识别中常用的语言模型为N元文法语言模型,其根据已知前(N-1)个词预测当前第N个词的发生概率。这些常规语言模型的主要缺点是不能做到与任务无关。例如从新闻语料中训练出来的语言模型不能用于识别文学方面的有关内容。更先进的语言模型还有语义模型和词性模型。

3. 语音识别系统的训练算法和识别算法。在确定了声学模型和语言模型后,语音识别系统余下的重要问题还要研究有效的训练算法和识别算法。语音识别系统的训练包括声学模型和语言模型的训练。声学模型的训练采用多步训练方法；语言模型的训练通过对大量的语料进行统计而建立。系统的识别算法要根据语言的特点、模型的整体结构进行设计。语音识别的搜索算法可以分为两类,一类为深度优先(depth-first),一类为宽度优先(breadth-first)。深度优先算法通常用堆栈解码器、A*解码算法；深度优先算法使用维特比解码算法。

语音识别的发展方向和研究热点

由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性；2. 语音信号的质量；3. 单个说话人还是多说话人；4. 硬件平台。

语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音-语音翻译将成为语音研究的热点。目前做语种识别的主要机构有:美国OGI(Oregon Graduate Institute)的口语理解研究中心、MIT的口语语言系统研究小组和林肯实验室。语音识别目前研究的热点包括:自然语音数据库的设计；语音特征的提取；利用音语料库进行声学模型训练的研究；不依说话人和适应说话人声学模型的研究；语音识别算法的研究；语言翻译；语音合成和对话处理的研究等。