农步祥作品

和生k7zm98l2kv 2023-09-07 发布于广东

展开全文

从2014年起，我们先后通过自购和合作厂商获得多个智能语音识别“流派”的品牌音箱产品。那么在接触和体验科大讯飞AIUI、亚马逊Alexa、Google Home 、微软小娜等实体化的硬件产品后，以及苹果的智能音箱HomePod即将上市之际，当我们打算总结时，却发现一直遗漏了一些需要为Soomal读者们解答的问题：这些智能音箱内部是什么结构，又是如何工作的？

随着市场、资金、技术人员的研发投入加大，语音识别交互产业技术也在逐步完善，除了诞生许多配套的软硬件供应商外，甚至已经有不少数量的开源硬件及开发资源，我们也将通过硬件和软件两部分去分析并介绍一个典型的功能完整、支持远场拾音[FAR]的智能音箱是如何诞生的。

基于树莓派的智能音箱开发组件 - 图片来自互联网

从上图可以看出，一个典型的智能音箱除外壳以外所有的模块化部件数量并不算多。有1、处理器主板；2、电源和功放电路板；3、扬声器；4、麦克风；5、可编程MCU电路板；6、LED灯。而7是一个增强低频量感的被动单元，并不是必要的组件。

另一个基于树莓派的智能音箱开发组件 - 图片来自互联网

有意参与智能语音交互体验或者成为音箱硬件、应用的开发者，这些基于树莓派的智能音箱开发组件并不需要花多少金钱就能获得。但是要注意的是这已经是2017年的产物，是智能音箱产业开发者们经过无数生产实践整合出来的产品。智能语音助手的工作流程大致可以分为语音识别[ASR]——语言处理[NLP]——语音合成[TTS]三个步骤，但实际上还需要细分为大量的专业项目，我们就以智能音箱的工作流程来介绍智能音箱内部的重要硬件组成部分。

麦克风阵列

DingDong 叮咚 LLSS-A1 语音智能音箱-拆解-麦克风阵列

为了接收语音，智能音箱自然少不了麦克风[Mic]以及模拟信号转数字的组件[ADC]，智能音箱为何一般会做成圆柱形？是因为除圆柱形占地面积小的优点外，圆柱形可让多个麦克风协同工作的阵列在箱体中不容易出现死角，还能像人耳那样辨别声音的来源和方向。既然是“阵列”，那么就至少需要两个以上的麦进行协同工作。Alexa Echo、Echo Dot等就用了7个麦克风，而Google Home、Home mini只用了两个。当然智能音箱产品中还有一些是通过改变蓝牙音箱的内部电路实现智能化，没有增加麦克风阵列电路的空间。不支持远距离语音识别、需要通过按键操作说话的智能音箱，则往往只有一个麦克风进行拾音。

Google Home电路板[黄色圈为MEMS数字麦克风] - 图片来自ifixit

MEMS数字麦克风：从叮咚LLS-A1的拆解中，我们还可以看从内部到一只只的麦克风组件，但是在更新的智能音箱内部电路板上，这些智能音箱必备的组件居然“消失”了，取而代之的是一种体积极小、集成度更高的MEMS麦克风，它的外形就像一个迷你的时钟晶振。

英飞凌的MEMS数字麦克风组件 - 来自互联网

MEMS数字麦克风组件的结构 - 图片来自安森美

MEMS数字麦克风组件的电路图 - 图片来自安森美

除了体积大幅度减小，这些MEMS麦克风组件内部是由MEMS声音传感器和一个完整的Δ-Σ ADC流程电路的ASIC，这就意味着经过这样的麦克风可以直接输出数字音频PCM信号。市面上的MEMS数字麦克风主要来自AKM、娄氏、英飞凌等专业音频半导体厂商提供。

核心运算电路

DingDong 叮咚 LLSS-A1 语音智能音箱-拆解-全志R16处理器

JBL Go Smart 音乐魔方便携式语音智能音箱-君正X1000 MIPs处理器

变成数字信号后，进一步的识别和语言处理工作就要通过ARM处理器工作，国内的智能音箱一般采用全志、瑞芯微、AMLogic等小型处理器厂商的低功耗多核心ARM处理器，也有君正等MIPS处理器。由于省去了图形界面和显示输出，因此并不需要强大的处理性能。而美国厂商的智能音箱更偏爱集成度更高的TI、博通多媒体SoC，而联想的智能音箱甚至用上了英特尔的Atom X86处理器。虽然CPU性能不是最终影响智能音箱使用体验的关键因素，但更好的性能有利于更快地处理语音信息。

基于XMOS的麦克风阵列组件 - 图片来自互联网

基于XILINX FPGA的麦克风阵列 - 图片来自互联网

为了测试开发方便、优化语音处理的性能和速度，开源硬件的麦克风阵列所在的电路板还包含了一些可编程芯片，例如FPGA、DSP等，甚至XMOS也提供了这样的开发板，这些DSP子系统结合CPU通过操作系统的API用于语音的定向、降噪，甚至直接进行语音转换文本处理，DSP可以更低的功耗代价和更短的运算时间将语音信息转化为文本，这样语音信息只要经过阵列这一层电路板，实际上就经过了将模拟信号转变成一个可以供NLP工作流程的数字语音信号甚至是已经提取出来的文本信息。通过网络发送至云端进行进一步的计算。通过云端服务器获得的文本通过本地CPU运算转换为语音，也就是常说的TTS流程。

DingDong 叮咚 LLSS-A1 语音智能音箱-拆解-博通AP6210蓝牙4.0+WiFI模块

绝大多数智能音箱系统还支持智能家居功能，此时音箱内部的操作系统通过无线局域网络输出特定指令控制已经处于联网状态并且通电待机中的智能家电设备。

音频输出电路和扬声器

DingDong 叮咚 LLSS-A1 语音智能音箱-拆解-扬声器x4 四面各一个

DingDong 叮咚 LLSS-A1 语音智能音箱-拆解-TI TAS5731M 数字功放芯片

变成数字音频信号后，接下来自然就是Soomal读者们最为熟悉的音频输出部分了：将数字信号转换为模拟信号并通过功放和扬声器[喇叭]输出语音信息。音频输出部分的功率和音质往往最终决定了一个智能音箱的体积和物料成本，通常就是简单的D类数字功放电路和扬声器了。

谷歌Google Home Max智能音箱 - 图片来自互联网

JBL Horizon 音乐地平线蓝牙音箱

绝大多数智能音箱对音质并不偏重，只需要一个小口径的全频单元就可以解决发声工作，讲究一些的智能音箱还会有多单元分频、被动单元增强低音等方式提升音质和音效。但也有少数以音质为长项的“音质派”智能音箱，音质成本反而占了很大比重，例如JBL Horizon Smart和Google Home Max等，而后者售价甚至高达379美元。

Amazon 亚马逊 Echo Dot 智能音箱收发器 - 工作状态

亚马逊还考虑到绝大多数用户都有现成的音箱可用，推出了通过模拟输出外接音箱将“功能机”变成“智能机”的音箱智能化产品Echo Dot[叮咚也有类似产品]。不过这类产品上市后人们很快就发现一个问题：它们需要传统的音箱产品保持待机工作，这对于使用待机功耗很低的数字功放音箱或许不是问题，但模拟功放电路设计的音箱甚至甲类功放待机，那就意味着严重的耗电暖炉和工作损耗了，这也注定了这类过渡产品市场潜力很小。

LED和显示

RGB LED灯珠 - 图片来自互联网

为了提供视觉化的交互信息，智能音箱一般还会有LED灯珠，单LED一般通过闪烁和明暗、呼吸等效果进行工作状态反馈，圆环状LED可以表示声音来源方向等效果，甚至还有类似Google Home那样的RGB LED，LED通过系统和可编程MCU芯片进行控制。

带屏幕显示的Amazon Echo Show智能……音箱？

带屏幕显示的Amazon Echo Spot

过去在智能音箱行业对于产品主要还集中在“音箱”属性上，但从去年底开始又出现了新的趋势，亚马逊似乎已经不满足于灯珠的效果，推出了带摄像头、屏幕显示的亚马逊Echo Show、Echo Spot等，增加了可视电话通讯、多媒体视频播放器等更多的用途，这类产品似乎已经不能归类为“智能音箱了”。

总结

以上的组件加上电源、外壳，就可以组装成了一个完整的智能音箱。音箱的硬件部分对于智能音箱是否好使起到了地基的作用，造型的美丑、音质的优劣、运算速度快慢等硬件特性决定了用户对音箱的第一印象的好坏，但是消费后如何保持用户黏度和长期使用、实用性的功能等等却并不是硬件能解决的问题，一个音质再好的Google Home也无法遥控家里的美的空调，这些语音识别应用的技术源头和隔阂来自何处？下一章中我们将介绍智能音箱的核心技术——软件系统和语音识别技术的结构。