什么是语音合成？包括哪些技术？应用领域介绍

热冰_01 2022-05-12

展开全文

1.语音合成

语音合成(也称文语转换，Text to Speech，TTS)技术解决的主要问题是将文本信息通过一定的软、硬件转换后合成自然流畅的语音用。它是信息处理领域的一项前沿技术，涉及到计算机科学、声学、语言学、数字信号处理及心理学等多个学科，语音合成技术最早是由W.von KemPelen在1835年发明的，经他改进的机械式会说话的机器。

2.语音合成技术发展历史

随着技术的发展，语音合成技术也在不断改进，从最初的仿生学方法到如今的基于数据库制作，音质和自然度都得到巨大提升。

语音合成

3.语音合成技术介绍

(1)源-滤波器合成技术

源-滤波器合成技术是对发声器官的简单模拟，该技术认为语音由声源激励(声带)与线性声学滤波器(声道)组合形成的。源-滤波器合成技术最常用的两种技术是线性预测化inear Predictive Coding，LPC)合成与共振峰(Formant)合成。

线性预测化inear Predictive Coding，LPC)合成技术中激励参数由增益常数、浊音/清音开关信息和基音频率组成，声道参数用具体的LPC参数进行控制。通常，清音激励采用白噪声序列，合成语音的质量可通过改变浊音激励来提高。

巧振峰合成技术是把声道看作一个谐振腔，利用不同音色语音具有不同模式共振峰的特征，以巧振峰频率及其带宽为参数构成共振峰滤波器。语音合成时，将多个巧振峰滤波器组合起来模拟声道的传输特征，通过对激励声源发化的信息进行调制获得合成语音。

(2)波形编码/编辑合成技术

波形合成技术一般有两种，即波形编码合成与波形编辑合成技术。

波形编码合成技术主要通过对需要合成的语音波形直接进行存储或对语音波形的模拟信号在时间轴上按一定的速率抽样与量化处理，即进行编码压缩后进行存储，合成时重放语音库的语音或对数字信号经过解码和滤波恢复成模拟信号后输出。

波形编辑合成技术主要利用语音编码技术，在语音库中存储适当的语音片断，合成语音时，对语音波形进行解码、编辑、拼接与平滑处理后输出语音。早期的波形编码技术只能简单地回放语音库预告存储中的语音，计算机的存储能力与计算速度也无法满足语音合成对语音库规模的实际需求。因此，当时的波形编辑合成技术由于语音库技术原因合成的语音自然度不高。

(3)统计参数语音合成

统计参数语音合成(Statistical Parametric Speech Synthesis，SPS1S)技术主要凭借一套自动化的流程，对输入的语音数据进行声学训练，并通过训练得到的模型构建所需的合成系统。即，首先利用统计机器学习的技术对语料库的声学参数进行建模;其次用声码器对模型预测出的声学参数进行参数合成。

(4)基于语料库的语音合成技术

基于语料库的语音合成(Corpus-based Speech Synthesis)直接从语料库中挑选最合适的语音片段作为合成基元。由于所挑选的基元基本上无需进行参数调整，基元的原始音质和语音拼接点处不连续的现象得到很大的改善，从而达到了提高合成语音自然度的要求。

3.语音合成技术应用领域

(1)公共服务领域

主要用在智能播报、智能客服、视障服务和老年服务等场景。

(2)智能硬件领域

主要用在智能音箱、智能机器人和智能家居等场景。

(3)智慧交通领域

主要用于导航与智能车载设备等场景。

(4)长音频领域

主要用于有声阅读、广播剧和新闻资讯等场景。

(5)泛娱乐领域