【大百科词条（稿）】语音合成

风吟楼 2020-06-19

展开全文

语音合成

英文条头：Speech Synthesis

学科主编：刘丹青

分支学科：语音学

分支主编：石锋、李爱军

通过机械的或电子的方法产生可以听懂、具有一定自然度的语音的过程。这个过程所产生的语音称为合成语音，与人的发音器官产生的自然语音相区别，有时也叫人工语音（artificial speech）。

一、语音合成系统

由特定算法、模块和数据资源等构成，用来产生合成语音的软硬件系统，也称为语音合成器（speech synthesizer）。由于目前语音合成最常用的实例是将智能设备中的文字信息转换为语音信号，以作为智能设备的语音输出形式，语音合成系统也常常被称为文语转换系统（text-to-speech system）。但是，语音合成系统的输入不限于文字，可以是概念、意图、思想等。

从处理语言的对象出发，可以将语音合成系统再进行细分，如单语种语音合成系统或多语种语音合成系统，普通话语音合成系统或汉语方言合成系统，或更具体的粤语语音合成系统、吴语语音合成系统、湘语语音合成系统、闽语语音合成系统等。

语音合成作为一门交叉学科，涉及自然语言理解、语音学、语言学、信号处理、声学、计算机、模式识别、人工智能、信息论等众多学科领域的理论和技术。一个典型的语音合成系统包含文本分析和语音生成两个主要模块。前者实现从文本中提取音素序列、韵律结构等语言学表征，后者实现从语言学表征中生成文本对应的语音波形。

二、语音合成发展的历史

在早期，“语音合成”是指用机器产生人工言语的技术。它可以通过力学的（机械的）、光学的或电子的手段产生类似人说话的声音。

最早的语音机器是由W. V. 肯佩伦（Wolfgang Von Kempelen，匈牙利，1734～1804）于1780年制造的。它完全是机械式的，通过风箱向簧片送气来模拟声带的振动。声道是用一段软的橡胶管模拟的谐振器，其形状由操作员的手来控制。操作员通过控制操作杆和开口，可以发出/a/、/o/、/u/、/p/、/l/、/m/、/r/、/n/等元音和辅音。在此之后的许多年中，很多人致力于这种机械式语音合成器的改进和完善。但是，所有这些机械式合成器合成的语音都和人说的自然语音相差甚远。

图1 W. V. 肯佩伦会说话的机器（上为复制品外国，下为实物图，现存于德国慕尼黑国家博物馆）

H. 达得利（Homer Dudley，美国，1896-11-04～1980-09-18）于1937年研制了Voder（Voice-operated Demonstrator，如图2所示），并在1939年美国纽约国际博览会上进行了展示。Voder使语音合成技术从机械模拟步入了电子模拟时代。它不再拘泥于声带和声道的生理特征，而着眼这些器官的声学功能，并借助于电子技术模拟这些功能，达到合成语音的目的。Voder有一个像琴键一样的键盘，控制着十个带通滤波器，产生各种语音。一个训练有素的操作员（通常培训半年到1年），可以用Voder“弹奏”一些简单的语句。

图2 Voder构架（引自Bell System Technical Journal 1940, p. 509, Fig.8 Schematic circuit of the voder）

这些早期的语音合成器，功能非常简单，称不上“合成系统”，没有实际的应用价值。随着电子技术的发展，人们开始使用计算机、数字滤波器及各种电子设备进行语音合成的研究。

20世纪50年代出现的OVE和PAT（the Parametric Artificial Talker）就是通过分析语谱参数进行语句合成的合成器。20世纪80年代，D. 克莱特（Dennis H. Klatt，美国，1938-3-31~1988-12-30）结合了G. 方特（Carl Gunnar Michael Fant，瑞典，1919-10-08~2009-06-06）和J. N. 霍姆斯（John N. Holmes，英国）合成器，开发了串并联结合的Klatt合成器。Klatt合成器可以做到输入一组音段符号（音素），通过一系列的控制规则合成出语句，实现了从文本到语音的转换。这个文语转换系统称为KlattTalk，之后还形成了商用系统DecTalk.

20世纪80年代末以后，语音合成技术有了很大的发展，特别是基音同步叠加（Pitch Synchronous OverLap and Add，PSOLA）方法的提出，使得基于时域波形拼接方法合成的语音自然度大大提高。基于PSOLA技术的汉语、法语、德语、英语、日语等语种的文语转换系统已研制成功，并公开发表。

随着语音信号统计建模方式的日渐成熟，20世纪末期，语音合成技术出现了由规则驱动向数据驱动的发展趋势，可训练的统计参数语音合成方法逐渐成为了主流方法之一，其重要标志是基于隐马尔可夫模型（Hidden Markov Model，HMM）的语音合成。随着深度学习的兴起，在21世纪10年代，基于神经网络的统计参数语音合成方法发展迅速。通过学习大量数据，神经网络模型可以有效对语音的参数空间进行建模，合成出更加自然的语音。其中，端到端语音合成方法的出现使得合成系统的搭建变得更加简洁，波形建模方法合成的语音音质已经非常接近真人录音水平。

三、当前主流语音合成方法

语音合成研究的发展历史，反映了人们对语音产生机理认识的不断深入和语音信号处理技术的不断进步。早期的机械式合成器，只是简单地采用一些物理器件来模拟人的肺、声带、声道等。而近现代的语音合成方法，则是对语音信号进行建模，再通过相关的信号处理算法来生成语音。总的来说，当前主流语音合成方法主要包括波形拼接语音合成和统计参数语音合成两大类。

1. 波形拼接语音合成

波形拼接语音合成方法出现于20世纪90年代初，其基本原理就是根据文本分析的结果，拼接预先录制和标注好的语音库中的单元样本，得到合成语音波形。因为合成语句中的各单元均来自发音人的自然录音，所以波形拼接语音合成方法较好地保持了发音人原始录音的音质。

波形拼接语音合成经历了基于样本调整的拼接合成以及基于大语料库的单元挑选拼接合成两个阶段。早期由于硬件存储能力有限，音库中只保留每个双音素单元的单个样本，在波形拼接之前使用PSOLA等算法对样本的基频、时长等韵律特征进行调整^[1]。随着硬件存储能力的提升，基于大语料库的单元挑选拼接合成方法被提出^[2]。该方法在语料库中保留了每个单元的多个样本，合成时依据待合成文本进行备选样本的选择，有效改善了单样本拼接合成语音的不连续现象，提升了合成语音自然度。基于代价函数的单元挑选是该方法的技术核心。代价函数往往通过计算备选样本与目标单元间的文本属性差异或备选样本与预测目标的声学参数距离来实现。进入20世纪以后，HMM等统计参数语音合成中使用的声学模型也被用于单元挑选拼接合成中的代价函数计算^[3]，进一步提高了合成语音的自然度，降低了代价函数设计对于专家知识的依赖。

自20世纪90年代以来，基于大语料库的单元挑选波形拼接合成方法已经得到了广泛的实际应用。但是，该方法仍然存在音库制作周期长、成本高，以及合成语音鲁棒性（robustness）不理想等问题。

2. 统计参数语音合成

针对波形拼接语音合成存在的不足，学者们提出了统计参数语音合成方法。该方法在训练阶段利用声码器对语料库的语音进行参数化，并对声学特征进行统计建模；在生成阶段，利用训练得到的声学模型从文本分析结果中预测出声学特征，再将声学特征送入声码器重构文本对应的语音波形。该方法可以实现合成系统的自动训练与构建，相比波形拼接语音合成具有合成效果稳定、模型灵活性强、系统尺寸小等优势。

HMM是最早用于统计参数语音合成的声学模型结构。基于HMM的参数语音合成方法在20世纪末和21世纪初得到了充分的发展。尤其是HTS（HMM-based Speech Synthesis System）开源工具的推出，大大推进了各种语言的统计参数语音合成的技术进步。在21世纪10年代，该方法已经成为与基于语料库的单元挑选波形拼接方法并列的主流语音合成方法。

随着深度学习研究的热潮，深度学习模型在统计参数语音合成中也逐步得到了应用。为了提高统计参数语音合成中声学建模的准确性，2013年以后涌现了多种基于神经网络的语音合成声学建模方法，如基于受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）和深度置信网络（Deep Belief Network, DBN）的方法^[4]，以及基于深度神经网络（Deep Neural Network，DNN）的方法^[5]等。其中以基于DNN的方法为典型代表。该方法将编码后的文本特征作为DNN模型的输入，将声学特征作为DNN模型的输出，通过网络层次间的非线性运算对文本与声学特征之间的复杂相关性进行建模，避免了HMM方法中使用的决策树模型对特征空间的划分问题。在DNN声学模型基础上，基于递归神经网络（Recurrent Neural Network, RNN）的声学建模方法也被提出^[6]。该方法有效地捕捉了语句中声学单元间的相关性，更好地表征了语音中协同发音等动态特性。2017年谷歌提出了基于序列到序列框架的Tacotron模型^[7]。该模型融合了传统语音合成的前端文本分析和后端声学模型，可以直接对英文字符串到语音幅度谱特征的映射关系进行建模，无需单独的时长预测模型。该模型提升了合成语音自然度，并且被进一步应用于构建具有表现力和可控性的语音合成系统。

除声学模型外，深度学习技术也被用于统计参数语音合成的声码器构建。其中代表性方法是谷歌于2016年提出的WaveNet波形生成模型^[8]。WaveNet模型融合了统计参数语音合成中的声学模型和声码器，接受语言学特征的输入，直接输出波形点。实验表明，WaveNet生成的语音质量接近自然录音，超过了传统参数合成声码器。在WaveNet之后，很多基于神经网络的波形建模方法相继被提出，例如SampleRNN、WaveRNN、WaveGlow和ClariNet等。目前基于神经网络的波形生成模型需要大量运算，合成时间消耗较长。如何设计更高效模型结构以适应运算资源受限环境，是当前神经网络波形建模的研究热点。

参考文献：

[1] Moulines E., and Charpentier F. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication, 1990, 9(5—6): 453—467.

[2] Hunt A. J., and Black A. W. Unit selection in a concatenative speech synthesis system using a large speech database. in Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings, 1996 IEEE International Conference, 1: 373—376.

[3] Ling Z., and Wang R. HMM-based unit selection using frame sized speech segments. in Proc. of INTERSPEECH 2006, 2006, 2034—2037.

[4] Ling Z., Deng L., and Yu D. Modeling spectral envelopes using restricted Boltzmann machines and deep belief networks for statistical parametric speech Synthesis. IEEE Transactions on Audio, Speech, and Language Processing. 2013, 21(10): 2129—2139.

[5] Zen H., Senior A., and Schuster M. Statistical parametric speech synthesis using deep neural networks. in Proc. ICASSP. 2013, 7962—7966.

[6] Fan Y., Qian Y., Xie F., et al. TTS synthesis with bidirectional LSTM based recurrent neural networks. INTERSPEECH. 2014, 1964—1968.

[7] Wang Y., Skerry-Ryan R. J., Stanton D., et.al. Tacotron: Towards end-to-end speech synthesis, in Annual Conference of the International Speech Communication Association, INTERSPEECH. 2017, 4006—4010.

[8] van den Oord A., Dieleman S., Zen H., et.al. WaveNet: A generative model for raw audio, in 9th ISCA Speech Synthesis Workshop (SSW9). 2016, 125.

（编写者：凌震华、李爱军）