人工智能快速发展的今天，语音识别现在发展到什么阶段了？(2018,5月)

張先民 2020-07-17

展开全文

人工智能快速发展的今天，语音识别开始成为很多设备的标配，语音识别开始被越来越多的人关注，国外微软、谷歌、Facebook，国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法，今天小编就将为你做语音识别技术的简单介绍，并谈谈它的发展历程和未来可能的发展方向。

在电影《钢铁侠》中，智能助理贾维斯的出色表现让大家充满了对智能语音助手的期待。语音识别技术就是为了让机器人听明白你在说什么，它就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

语音识别现在发展到什么阶段了？

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

语音识别现在发展到什么阶段了？

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，海量未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板;而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息。

事实上，语音识别60多年的发展过程可以分成多个阶段。早期的20多年，即从20世纪50年代到70年代，是科学家们走弯路的阶段，全世界的科学家认为必须先让计算机理解自然语言，也就是用电脑模拟人脑，这20多年的研究成果近乎为零。

直到1970年后，统计语言学的出现才使语音识别重获新生，并取得了今天的非凡成就。推动这个技术路线转变的关键人物是德里克贾里尼克。采用统计的方法，IBM将当时的语音识别率提升到了90%，同时语音识别的规模从几百单词上升到几万单词，这样语音识别就有了从实验室走向实际应用的可能。

首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，下图是一个波形的示例。

语音识别现在发展到什么阶段了？

要对声音进行分析，就需要对声音分帧。也就是把声音切开成一小段一小段，每一小段称为一帧，如上图25ms为一帧。

语音识别的工作可以分为三步：第一步，把帧识别成状态；第二步，把状态组合成音素；第三步，把音素组合成单词。

如下图所示：

语音识别现在发展到什么阶段了？

如上图，每个小竖条代表一帧，若干帧语音对应一个状态（如S1029），每三个状态组合成一个音素（如ay），若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。这个“对应”过程就需要用到统计语言学。比如每帧音素对应哪个状态呢?有个容易的办法：看某帧对应哪个状态的概率最大，那这帧就属于哪个状态；这也就是观察概率。此外，还包括：转移概率（每个状态转移到自身或转移到下个状态的概率），语言概率（根据语言统计规律得到的概率）。

其中，前观察概率和转移概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。这样基本上语音识别过程就完成了,这就是语音识别技术的原理。

20世纪80年代以后，语音识别研究的重点则逐渐转向大词汇量、非特定人连续语音识别。20世纪90年代以后，在语音识别的系统框架方面并没有什么重大突破，直到大数据与深度神经网络时代的到来。

任何技术都有蓄能阶段和爆发阶段，语音识别技术的爆发是源于大数据，伴随互联网出现的涟漪效应和深度神经网络。涟漪效应，指把研究层、产品和用户使用组合在一起，形成一个闭环的迭代优化，这是互联网思维在核心技术优化和突破所发挥作用的一种表达。通过这种方式不仅可以获取数据，还能学习经验、认识以及怎么使用等，比如说调整哪些东西让用户体验得更好。

在大数据时代到来后，隐马尔可夫模型出现了局限，即数据量提升时，它带来的表现提升没有深度神经网络那么大。在同样具有涟漪效应的情况下，深度神经网络比之前的算法好，数据越多，深度神经网络的效果更好。深度神经网络由GeoffreyHinton与微软的邓力研究员最先开始做。

虽然目前的语音识别技术已经能够让机器听懂大部分人类的声音，但离“贾维斯”这种假想的超级智能助理的交互能力还很远。语音识别技术的发展方向将从识别到感知认知。

例如，研究者正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方，比如聚会场所或在高速路上驾驶的时候。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开，不管说话人的年龄、口音或说话能力。例如谷歌近期公布了一项研究成果：能够从嘈杂的环境中分离出单个人的声音。

从更长远来看，研究者将会关注如何教计算机不只是转录来自人类嘴巴的声音信号，而是回到20世纪50年代到70年代语音识别领域专家的最初设想：让计算机理解自然语言，用电脑模拟人脑。让机器可以根据自己被告知的内容回答问题或采取行动。