【原】【语音处理】开始学习语音，从基本概念和应用讲起

有三AI 2022-04-12

展开全文

不语有两个意思，一方面，比起深度学习等大红大热的前沿热点，基础的语音信号处理技术大多是在默默做出贡献，显得有些低调，好似不语；另一方面，时刻提醒自我，应当静下心认真吸收学习知识，行而不语。

今天将对语音信号处理的基本概念、基本特征以及应用场景进行概括性的介绍。

作者&编辑 | 小米粥

编辑 | 言有三

1. 语音基本概念

语音是指人们讲话时发出的话语，是一种人们进行信息交流的声音，是由一连串的音组成语言的声音，我们可以理解为语音(speech)=声音(acoustic)+语言(language)。

关于语音研究主要可分为两个方面：语言学和语音学。

①由于语音中各个音的排列由规则所控制的，语言学主要研究其中的规则和含义。语言学是语音信号处理的基础，例如利用句法和语义信息减少语音识别中的搜索匹配范围。

②语音学主要对语音中各个音的物理特征和分类进行研究，具体包括发音语音学、声学语音学和听觉语音学。发音语音学从生理的角度对发音机理进行研究；声学语音学从声学角度研究语音的物理性质，考察语音物理性质和发声器官的关系，并使用信号分析理论解释语音现象；听觉语音学的主要目的是探索大脑对语音的发出和接受机制，以及语音信息在大脑中的储存。

语音交流是通过联结说话人和听话人的一连串生理、物理和心理转换过程实现的。主要由“想说-说出-传送-接受-理解”五个阶段构成。

①在想说阶段，说话人在头脑中产生想要用语言表达的信息，然后将其进行编码，即将信息所包含的音素序列、韵律、响等表示出来。

②在说出阶段，说话人使用神经肌肉命令对声带、声道、调音相关的部位（唇、舌头等）进行控制，发出声音。

③在传送阶段，语音以声波的方式在空气中传播，声波是一种纵波，振动方向和传播方向一致。

④在接受阶段，听话人耳内的基底膜对语音信号进行频谱分析并进一步转换成为听觉神经的触动信号。

⑤在理解阶段，听觉神经的触动信号在大脑更高层的中枢转换为语言编码，并产生语义信息。

由于语音是发声器官发出的一种声波，因而具有一定的音色、音调、音强和音长等基本特征。

音调：表示声音的高低，由于声波的频率决定。

音强：表示声音的强弱，由声波的振动幅度决定。

音色：即音质，是一种声音区别于另一种声音的基本特征，其与声带的振动频率、发音器官的送气方式，声道的形状尺寸等因素密切相关，是一种对各种频率、强度的声波的综合反应，

音长：发音时间的长短

2. 语音基本特征

在实际处理语音信号时，我们首先要进行短时加窗处理。由于人在发声时声道处于变化状态，因而语音信号产生系统近似是一个线性时变系统，然而在10至30毫秒的短时间内是平稳的（即信号的某些统计特性短时间内保持不变），因而我们要对所有的语音信号先进行分帧加窗，再对逐帧地对帧内信号进一步处理。

对于采样率为16kHz的语音（即1s信号包含16000个采样点），设帧长为25ms，则每帧将包括400个采样点。另外，为了使帧与帧之间具有重叠，帧移往往小于帧长，例如帧移为10ms，其对应160个采样点。

对于语音信号（已加窗分帧），最自然、最直观的方法是以时间为变量进行时域特征分析，包括短时能量、短时平均过零率等。由于人类听觉系统具有频谱分析功能，因而对语音信号进行频谱分析也是重要方法，包括滤波器组方法、傅里叶分析方法等。另外一种常使用的特征为时频特征，即使用离散傅里叶变换对每帧信号进行离散傅里叶变换，然后将每帧的频率处理结果沿时间排列，如下图所示。其他特征，例如倒谱等也具有非常重要的应用，我们将在以后的内容中逐个说明。

3.语音信号处理的应用

语音信号处理的目的主要是为了得到一些反映语音信号重要特征的参数或者通过某种运算实现某种用途。在一系列语音信号处理的基础技术上，常见的应用有以下几方面：

①语音增强：语音增强是指当语音信号被各种各样的噪声干扰、淹没后，从背景噪声中提取有用的语音信号，抑制、降低噪声干扰的技术。然后，由于干扰具有随机性，从带噪语音中提取完全纯净的语音几乎不可能。语音增强的目的主要有两个：1.改进语音质量，消除背景噪声，使得听者乐于接受，不感觉疲劳；2.提升语音客观质量。

②语音编码：编码、输出、储存和译码是语音数字传输和储存的必要过程。语音编码就是对模拟的语音信号进行编码，将模拟信号转为数字信号，从而降低传输码率并进行数字传输。随着语音通信技术的发展，压缩语音信号的传输带宽，增加信道的传输效率，使表达语音信号的比特数目最小。

③语音合成与转换：语音合成（文语转换text to speech）技术，能将任意文字信息转换为标准流畅的语音并朗读出来，其研究目的是制造会说话的机器，使一些以其他方式表达或者储存的信息能转换为语音。语音合成的应用领域十分广泛，例如自动报时、报警、公共汽车、语音咨询、文本校对、语音阅读等等。

语音合成根据参数特征合成语音，而语音转换是将某种特征的语音转换为另一种特征的语音，即将A说话者的语音转换为B说话者的语音，保持语音内容不变。

④语音隐藏：在基于数字水印的版权保护和隐蔽通信两个方面，信息隐藏技术具有重要的应用价值。语音隐藏技术是指将特定的信息嵌入到数字化的语音中。由于语音通信在世界范围内存在充分的硬件基础和通信次数，也是人类交流的主要方式，因而在军事、安全和商业领域具有广泛应用需求。

⑤语音识别：语音识别的主要目的是让机器听懂人说的话，即将人类的语音信号转换为相应的文本和命令，从而进一步地能够理解人的意图并作出反应。目前语音识别已经广泛应用在：语音输入、语音搜索、语音指令、会议纪要等方面，是语音信号处理中讨论最广泛的技术。

⑥说话人识别：说话人识别技术通过对说话人的语音信号进行分析处理，自动确认识别人是否在所记录的说话者集合中，并进一步确认说话人是谁。该技术与语音识别技术比较相似，均需要对原始语音信号进行特征处理，并进行识别。区别在于，语音识别更注重语音中的文字符号和语义内容，而说话人识别技术将语音中的语义信息平均化，尽可能挖掘说话人的个性因素，更注重个人特征。

⑦声源定位：声源定位技术的目标是分析系统传感器接受的语音信号来自于什么方向和什么距离，即方向估计和距离估计。声源定位技术的应用场景非常广泛，例如提升军事武器的精确打击能力，利用声源定位实现说话人的实时跟踪，故障检测以及地震预测分析等。