“芝麻开门”

百眼通 2017-11-05

展开全文

“天方夜谭”里有个阿里巴巴和四十大盗的故事，四十大盗藏宝的石窟的门听见芝麻开门的口令，就会打开。这反映了人们的愿望，能不能使机器听懂人的话，用人的语言控制机器。

为什么机器不容易听懂人的话

每个人的发音都不相同，语种、方言、性别的差异使发音的差别很大，即便是同一语种、同一方言、同一性别的人，讲同一句话，发音还是不完全一样的。同一个人在不同的情绪下，比如生气、高兴、疲倦等等，讲的同一句话，发的音也会有变化，更不用说伤风感冒，影响发音器官，声音就会有更多的变化。一个机器经过训练，能听懂一个人的话，别人的话就听不懂或听的很差，叫做特定发音人的识别系统。不论什么人（同一语种、同一方言）讲话都能听懂，叫非特定发音人的识别系统，这种系统就难做多了。

“芝麻开门”只有四个音，有一个音不一样就不开门。如果要求机器分别几十个词汇，只要事先保存好词汇的发音，再一一对比，这也不复杂。如果词汇量扩展到几千、几万、十万以上，就复杂多了。不光是机器判断的时间问题，词汇量一大就有同音词问题，而汉语普通话中同音词是很多的。

如果识别的是单个词，机器听到后和存在机器里的各个词的音比较，看和哪个最接近就行了。但如果要求识别的是一句话，就是连续语音，机器听到的是一串语音，有时音节和音节连在一起，如何区分哪几个音节是哪个词呢？在自然语言理解中这叫歧义切分，就是把句子切成词，不同的切法就有不同的意思。白纸黑字还有这么多问题，机器识别中听到的是一串音，问题就更多了。

向机器读一段新闻或报告，这里每一句话都结构严谨，合乎文法规则，机器听起来就比较方便。但如果听普通人随便讲话，就不是这样。一句话往往不是一口气说下来，而是几个字一断，中间还要加上嗯、啊、这个等一些没有意义的音。整个句子往往结构颠倒，有时一个词要重复几次，有时还会漏掉个把音节，或者把一些音“吃”掉。机器怎么办呢？

语音识别

语音识别过程简单说就是事先人对机器讲话，机器把一个词或一个音节或一个音位进行分析成为各类参数，把这参数记下来，成为图样。识别的时候，人对机器讲话，机器再把这些词、音节或音位与存下来的各种图样相比较，来判断讲的话是什么。

孤立词（或音节）识别比较好办，一个词与一个词，或汉字中一个音节与一个音节，在读的时候中间要有间断时间，因此词与词、音节与音节之间的边界是清楚的。而在连续语音识别中，你不知道这一句话有多少个词（或音节），更不知道一个词和相邻词，或一个音节和相邻音节的边界在什么地方。

如果计算机识别是针对特定人的，那就要由这个人对机器进行训练，得出和他相应的模型。别的人来讲，机器就会判定错误。即使他本人讲的话，过一段时间也会变化，得了伤风感冒声音更会变化。因此隔一段时间也要训练一次。非特定人的识别系统要经过许多人的训练，把这些人的特征都提取出来存在机器里，识别时与这个组合的模型匹配。人一多，语音不同，一个音与另一个音就容易交叉、模糊，因此识别起来正确率就要比特定人识别系统有所降低。但非特定人识别系统不需要训练，对使用人很方便。

语音识别要求的是知道讲什么字、什么词，有的还要知道是什么意思，这就是理解系统的工作。目前有许多种办法，包括用语法、语义、字与字、词与词配合的概率，这件事要求大量统计。但不同文体、不同性质的资料，词的组合不一样。所以这种方法也有很大局限性。由词构成串之后，还要用语法、语意再加检查，看是否合理。

如果是随便讲话，就可能讲出半句话，或者把一些字省掉或“吃掉”，有的字重复，有的中间塞进没有用的嗯、啊等没有用的音，这时的识别就更加困难。在一些识别系统中使用“词点选”的方法，就是选出关键词，其他词和音都不予理会。不过使用这种方法时任务要单纯。

语音合成

语音合成系统可以按要求说各种话，用的时候大部分场合是输入文字，由合成器发出语音，目前的语音合成都是用电子线路和计算机完成的。对合成器发出的语音的要求是每一个音都发得对，整个句子连接起来的抑扬顿挫，各个音轻重长短都要符合人讲话的规则，听起来又清晰、又自然，好象真人在讲话，不是机器腔，这才是好系统。

语音合成分为两个步骤，第一步是文字分析，第二步是语音合成和发音。汉语是一个个汉字连续排列，只有标点符号能够把前后文分开。哪几个字是一个词是不容易区分的，词划分不对，读起来也不会正确。分词之后要确定哪一个词的发音应该重，哪个音应该轻。汉字每个字都有声调，但在连续起来之后，有的字的调就要改变。再下一步就是要弄清整个句子哪些地方要加重，哪些地方要轻读，哪些词时间要长，哪些词要短，哪两个词间隔时间要长一些，哪两个词间隔时间要短一些，这些总起来叫韵律。下一个步骤就是按上面的结果和规则，在合成器中合成和发音。

通用语音翻译

通用语音翻译说起来并不复杂，只要有需要相互翻译的两种语言的识别系统、机器翻译系统和语音合成系统就可以组成语音翻译系统了。其实不然。首先，平常说话讲的是口语，说话人又有各种方言或口音，周围还会有各种噪声，语音识别系统在识别时就会遇到困难。通常使用的机器翻译系统对这种不规范的文字也会产生困难，会译错或译不出来。

要想使语音翻译有比较好的效果，首先是要限制谈话涉及的领域和词汇，其次在方言上要加以限制。随着口语翻译的发展和计算机词汇量的增加，谈话内容和语种都可以不断扩大，相信实现通用语音翻译系统已经不是很遥远的事情了。

语音编码

把语音波形变成数字码，然后用数字传输，这有很多好处，比如信号稳定、音质可靠，易于构成多路、综合、网络化及多媒体通信，易于实现高度保密，设备易于做到标准化和高的性能价格比。数字传输方法的缺点是要使用比较宽的频带，这也可以采用先进的编码技术，压缩编码率来解决。

语音信息处理

中国科学院声学研究所在语音信息处理技术领域具有多年的技术积累和研发经验，“嵌入式语音识别系统”在“863”计划组织的多次系统性能评测中均名列前茅。目前，针对语音识别的“复杂环境”和“真实口语”组织开展了电话语音识别、电视语音识别、特种语音识别、高自然度语音合成、与低码率高质量的语音编码工作。

特种语音识别