人工智能之语音识别(ASR)

hlhq1 2019-08-05

展开全文

人工智能之语音识别(ASR)，AI产品经理必须知道的语音识别技术原理！

人工智能之语音识别(ASR)

语音识别（Automatic Speech Recognition，简称ASR），是语音交互中最基础的一个AI技术环节，常见的如siri，智能音箱等。

一、核心概念

1、语音识别（Automatic Speech Recognition）

简称ASR；是将声音转化为文字的过程。

1）语音识别原理流程：“输入——编码——解码——输出”

人工智能之语音识别(ASR)

语音识别，大体可分为“传统”识别方式与“端到端”识别方式，其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型（HMM），而“端到端”方式一般采用深度神经网络（DNN）。

实际场景，有很多种异常情况，都会导致语音识别的效果大打折扣，比如距离太远了，发音不标准，环境嘈杂，打断等等。所以，还需要有各种解决方案来配合。

2）语音识别的评价指标——识别率

看纯引擎的识别率，以及不同信噪比状态下的识别率（信噪比模拟不同车速、车窗、空调状态等），还有在线/离线识别的区别。

实际工作中，一般识别率的直接指标是“WER（词错误率，Word Error Rate）”

定义：为了使识别出来的词序列和标准的词序列之间保持一致，需要进行替换、删除或者插入某些词，这些插入、替换或删除的词的总个数，除以标准的词序列中词的总个数的百分比，即为WER。

公式为：

人工智能之语音识别(ASR)

Substitution——替换
Deletion——删除
Insertion——插入
N——单词数目

3点说明

A）WER可以分男女、快慢、口音、数字/英文/中文等情况，分别来看。

B）因为有插入词，所以理论上WER有可能大于100%，但实际中、特别是大样本量的时候，是不可能的，否则就太差了，不可能被商用。

C）站在纯产品体验角度，很多人会以为识别率应该等于“句子识别正确的个数/总的句子个数”，即“识别（正确）率等于96%”这种，实际工作中，这个应该指向“SER（句错误率，Sentence Error Rate）”，即“句子识别错误的个数/总的句子个数”。

2、远场语音识别（Farfield Voice Recognition）

远场语音识别，简称远场识别，口语中可更简化为“远场”。主要3个概念：语音激活检测、语音唤醒、以及麦克风阵列。

1）语音激活检测（voice active detection，VAD）

A）需求背景：

在近场识别场景，比如使用语音输入法时，用户可以用手按着语音按键说话，结束之后松开，由于近场情况下信噪比（signal to noise ratio, SNR）比较高，信号清晰，简单算法也能做到有效可靠。但远场识别场景下，用户不能用手接触设备，这时受噪声影响比较大，SNR较低，必须使用VAD了。

B）定义：

判断什么时候有语音/什么时候没有语音（静音）。

后续的语音信号处理或是语音识别，都是通过“VAD 检测的语音起始点帧位置”截取出来的有效语音片段上进行的。

2）语音唤醒 （keyword spotting，简称KWS；或voice trigger，VT）

A）需求背景：

在近场识别时，用户可以点击按钮后直接说话，但是远场识别时，需要在VAD检测到人声之后，进行语音唤醒，相当于叫这个AI（机器人）的名字，引起ta的注意，比如苹果的“Hey Siri”，Google的“OK Google”，亚马逊Echo的“Alexa”等。

B）定义：

可以理解为喊名字，引起听者的注意。

VT判断是唤醒（激活）词，那后续的语音就应该进行识别了；否则，不进行识别。

C）语音唤醒的应用交互模式

传统模式：先唤醒设备，等设备反馈后（提示音或亮灯），用户认为设备被唤醒了，再发出语音控制命令，缺点在于交互时间长；
One-shot：直接将唤醒词和工作命令一同说出，如“小雅小雅，我想听周杰伦的歌”；
Zero-shot：将常用用户指令设置为唤醒词，达到用户无感知唤醒，例如直接对车机说“导航到XX大厦”。
多唤醒：主要满足用户个性化的需求，给设备起多个名字。

D）语音唤醒的评价指标（也是难点）

a）唤醒率。叫AI的时候，ta成功被唤醒的比率（注：喊ta的时候，ta不答应，叫做漏报）。

b）误唤醒率（误报）。没叫AI的时候，ta自己跳出来讲话的比率；有时会按照“天”来算，比如要求“一天内不超过一次”。如果误唤醒比较多，特别比如半夜时，智能音箱突然开始唱歌或讲故事，会特别吓人的……

注1：唤醒率=唤醒中真实唤醒的数量/尝试唤醒的总数。这里特意强调“真实唤醒的数量”，是因为唤醒的总数据中，还会包含误唤醒的数据。
注2：关于准确率precision、召回率Recall等概念的辨析。

c）唤醒词的音节长度。一般技术上要求，最少3个音节，如果音节太短，一般误唤醒率会比较高。比如“OK Google”和“Alexa”有四个音节，“Hey Siri”有三个音节；国内的小雅智能音箱，唤醒词是“小雅小雅”。不过，Rokid的唤醒词“若琪”，做到了只有两个音节，据说是全球唯一。

d）唤醒响应时间。

据说，除了Echo和小雅智能音箱能达到1.5秒，其他的都在3秒以上。

e）功耗（要低）。

看过报道，说iPhone 4s出现Siri，但直到iPhone 6s之后才允许不接电源的情况下直接喊“Hey Siri”进行语音唤醒；这是因为有6s上有一颗专门进行语音激活的低功耗芯片，当然算法和硬件要进行配合，算法也要进行优化。

E）语音识别和语音唤醒的本地/云端策略

语音识别：
通用的ASR一般在云端，不过目前很多设备采用离在线融合的方式，一是解决无网状态下的语音识别，二是一些常用指令，靠离线引擎的更快，体验更好，三是有些厂商提供的个性化识别服务依赖本地模型。
语音唤醒：
虽然很多具体产品的方案是离线方案，但目前亚马逊、苹果都明确在技术文档中表示，其使用了云端唤醒的方案（一级唤醒在本地，二级唤醒在云端）。

3）麦克风阵列（Microphone Array）

A）需求背景：

在会议室、户外、商场等各种复杂环境下，会有噪音、混响、人声干扰、回声等各种问题。特别是远场环境，要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）。另外，家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。

B）定义：

由一定数目的声学传感器（一般是麦克风）组成，用来对声场的空间特性进行采样并处理的系统。

人工智能之语音识别(ASR)

C）能干什么

语音增强（Speech Enhancement）：
当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后，从含噪声的语音信号中提取出纯净语音的过程。
声源定位（Source Localization）：
使用麦克风阵列来计算目标说话人的角度和距离，从而实现对目标说话人的跟踪以及后续的语音定向拾取。
去混响（Dereverberation）：
声波在室内传播时，要被墙壁、天花板、地板等障碍物形成反射声，并和直达声形成叠加，这种现象称为混响。

人工智能之语音识别(ASR)

声源信号提取/分离：
声源信号的提取就是从多个声音信号中提取出目标信号，声源信号分离技术则是将需要将多个混合声音全部提取出来。

人工智能之语音识别(ASR)

D）分类

按阵列形状分：线性、环形、球形麦克风。

在原理上，三者并无太大区别，只是由于空间构型不同，导致它们可分辨的空间范围也不同。比如，在声源定位上，线性阵列只有一维信息，只能分辨180度；环形阵列是平面阵列，有两维信息，能分辨360度；球性阵列是立体三维空间阵列，有三维信息，能区分360度方位角和180度俯仰角。

按麦克风个数分：单麦、双麦、多麦。

麦克风的个数越多，对说话人的定位精度越高，在嘈杂环境下的拾音质量越高；但如果交互距离不是很远，或者在一般室内的安静环境下，5麦和8麦的定位效果差异不是很大。

据说，全行业能做“6+1”麦克风阵列（环形对称分布6颗，圆心中间有1颗）的公司可能不超过两三家，包括猎户星空在内。而Google Home目前采用的是2mic的设计。

E）问题

距离太远时(比如10m、20m)，录制信号的信噪比会很低，算法处理难度很大；
对于便携设备来说，受设备尺寸以及功耗的限制，麦克风的个数不能太多，阵列尺寸也不能太大。——分布式麦克风阵列技术则是解决当前问题的一个可能途径。
麦克风阵列技术仍然还有很大的提升空间，尤其是背景噪声很大的环境里，如家里开电视、开空调、开电扇，或者是在汽车里面等等。

整体来说，远场语音识别时，需要前后端结合去完成。一方面在前端使用麦克风阵列硬件，对声源定位并通过自适应波束进行语音增强，在前端完成远场拾音，并解决噪声、混响、回声等带来的影响。另一方面，由于近场、远场的语音信号，在声学上有一定的规律差异，所以在后端的语音识别上，还需要结合基于大数据训练、针对远场环境的声学模型，才能较好解决识别率的问题。

4）全双工（Full－Duplex）

A）需求背景：

在传统的语音唤醒方案中，是一次唤醒后，进行语音识别和交互，交互完成再进入待唤醒状态。但是在实际人与人的交流中，人是可以与多人对话的，而且支持被其他人插入和打断。

B）定义：