2019年12月底,探境科技一举发布了由低功耗系列、主打系列、旗舰系列组成的三大系列、6颗AI芯片组成的产品矩阵。值得一提的是在产品矩阵中,探境发布了具备AI双麦降噪功能的语音识别方案,即Voitist音旋风612。 此外,探境还公布首个离在线一体的语音识别解决方案——Voitist音旋风621。 伴随智能家居语音市场的火热,算法公司和芯片公司都嗅到了无限潜力。但在语音控制技术层面仍面临诸多挑战。例如:由于高噪声、远场识别环境造成低信噪比情况、由于非稳态噪声对于降噪算法产生影响、以及在语音识别期间,同时播放电视剧、音乐造成的多声源问题。 如何解决复杂环境甚至严苛环境下的语音识别?探境科技给出了自己的答案。 AI降噪+HONN,无惧家居噪音 在日常生活的一些典型的高噪声使用场景中,如抽油烟机或者扫地机器人,噪声最低也有70分贝;并且MIC也距离这些噪声源非常近,而实际用户往往距离MIC的距离会远些,这些因素叠加会导致我们语音识别设备采集到的信噪比非常低。 信噪比,是衡量需要识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于15dB的称为噪声环境。信噪比越低,识别难度越大。 在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别,首先要在降噪处理上下功夫。 探境自研的AI降噪算法基于深度学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能很好的过滤。 据探境科技副总裁李同治介绍,为了验证探境AI降噪算法的有效性,他曾将一批信噪比在3dB左右的语音数据送到一个知名的云端公开语音识别引擎做了测试,降噪后比降噪前提高30%识别准确率。 在对声音进行降噪处理之后,就进入到了语音识别环节。在这一环节中,神经网络模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限。 在传统的语音识别算法里,用的最多的是全连接的操作,叫DNN/DTNN。据了解,国内有多家语音识别芯片采用的都是DNN的方法。 相比较于全连接操作,卷积操作能够提供更高的计算强度,且卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。 探境将其计算机视觉中的一些经验迁移到语音识别中,在语音识别算法上加入了更多的卷积操作,重新设计了一个高计算强度的神经网络,即HONN(High Operation Neural Network)。
图:DNN与HONN区别 在高计算强度神经网络里,每一个处理单元变成了立体维度的,优于平面上的处理,因此高计算强度神经网络的信息量和计算密度,也远远超过传统DNN/DTNN的方法,带来的直接效果是,多了一个维度的识别,性能提升是显而易见的。 可以看出高计算强度的模型仅需要350k的存储空间,而DNN需要1.6M的存储空间。更低的存储需求意味着我们可以使用存储更少、成本更低的芯片来做语音识别。 同时DNN与HONN所需的算力相反,处理高强度模型单帧时,HONN需要超过100MOps,而一般的DNN模型需要3.2MOPs的算力。两者相差超过30倍。对于神经网络来说,模型所需的算力决定了模型识别率的上限。 相对安静的环境下两者之间差别不大,但是当信噪比进一步降低时,基于HONN的方法识别优势非常明显。 正是依托于AI降噪技术+HONN神经网络,探境的Voitist音旋风611,可以覆盖绝大部分的生活场景,无惧各种噪音干扰。 然而信噪比还有一种更严苛的情况,即0dB和负dB,望词知意,0dB意味着噪声和信号强度一样,甚至噪声比语音信号还要强。探境如何解决这一问题呢? 端到端双麦加持攻克0dB环境 “生活中超强噪音在所难免,噪声和距离不该成为阻碍我们享受AI科技的绊脚石。为了提升低这些场景下的识别率,还需要使用麦克风阵列来增强语音信号。探境在双麦算法上有自己的独门绝技—FCSP双麦识别算法。” 传统的麦克风阵列处理算法有几个缺点,首先在语音信号增强模块,波束成形依赖于声源定位(DOA),DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测使用单麦信号不用增强后的信号,会影响最终的唤醒率。 其次,传统的阵列处理算法包含降噪、信号增强和识别多个环节,这些环节并不以降低识别率为优化目标,优化目标为提高人耳听觉的舒适度和最终的识别率并不完全等价,会出现不适配的情况。 再次,由于整套流程对麦克风以及电容元器件的一致性要求非常高,提高了物料成本。“有时候大家在实验室做得很好,但是量产后发现识别率变差,就是因为波束成形和声源定位的要求高,一旦出现了波动,会影响识别效果。” 另外,波束成形算法原理是增强特定方向波束内的信号强度,衰减波束外的信号幅度。当干扰声源和目标声源方向非常接近的时候,两者在同一个波束内,信号和噪声同时被增强,无法提升信噪比。 因此,传统的麦克风阵列处理算法效果并不理想。 “为了克服传统分模块语音增强算法的这些缺点,我们设计出了基于FCSP的端到端AI双麦算法。”李同治对记者表示。FCSP(FrequencyComplex Subspace Projection)是探境自研的频域复数子空间投影算法的简称。 这个算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的AI算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。 另外,在模型训练期间,采取了“注意力增强”的学习方法,能够灵敏的检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。 “这个类似于在一个嘈杂的环境里面,如果有人喊自己的名字,一下子就能反应过来。”李同治做了一个形象的比喻。 “端到端”是目前国际上最前沿的处理算法。一些大厂如亚马逊、谷歌公司,也是通过类似的方法。据媒体报道,谷歌公司采用了Factored Model in Frequency的算法,相对错误率降低至16%,双麦达到了传统算法7麦的识别率。探境科技采取了频域复数子空间投影,抗噪性能强,在信噪比为0dB时,相对于传统的处理算法,相对识别错误率降低超过20%。 通过AI语音算法+HONN神经网络模型来提升识别率,再通过FCSP“端到端”的双麦处理算法简化识别流程,降低最终识别错误率,探境的语音算法实现了跨越式的升级。 当然,AI芯片不可能脱离芯片只谈算法。性能优异的算法,一定需要算力强劲且通用性强的AI芯片来支持,才能展现出强悍的实力。 探境自研的SFA架构,以存储驱动计算,具有能效比高、资源利用率高、通用性强等特点。在SFA架构上实现深度学习时,只需要一个较高层次的神经网络描述。SFA的编译器首先将这个神经网络进行全部融合,然后根据具体架构实现的规模产生一个统一的存储流图,再进行存储节点的时空映射,最后根据各个节点之间的计算类型配置计算单元,组合起来形成一个统一的固件供SFA控制器使用。 在28nm常规工艺芯片的对比测试中,SFA架构在乘法器数目相同情况下,结果如下表。(DRAM为LPDDR4)。
注:测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比 这意味着SFA架构所采用的各种微观和宏观调度算法,比较“类CPU架构”采用的基于总线和指令集的映射方法,在近似存储量、近似算力、近似外部存储带宽、近似功耗约束的前提下,可以获得8~12倍的利用率收益。 “SFA(存储优先)架构是探境的产品基石,正是借助SFA的优势,我们的AI芯片产品才能‘裂变式’的推出,大大加快了探境的商业化落地速度。”探境CEO鲁勇这样评价SFA架构的意义。 多种产品规格实现百万级出货 探境首次曝光了由低功耗系列、主打系列、旗舰系列组成的三大系列、6颗AI芯片组成的产品矩阵。 除了支持AI双麦的Voitist音旋风612之外,还包括在离线一体的Voitist音旋风621、以及语音芯片的旗舰产品——可支持本地NLP的音旋风7系列。 探境目前拥有约30家合作伙伴,出货量已达百万级别。探境的战略合作伙伴关系既有美的、海尔等智能家居制造的大厂,也有像世强科技这样在垂直领域颇具影响力的渠道商。据透露知名智能家居制造商阿凡达智控也刚刚与探境达成合作。 据鲁勇透露,未来探境还会将语音产品进行二次升级,推出更多在线离线一体化方案。 “探境不仅仅是一个语音芯片公司,而是一家语音、图像整体结合的AI芯片公司。AI芯片的蛋糕非常大,探境希望可以联合上下游一起,开发生态,开放SDK和工具链,不仅仅是大家可以直接使用我们的产品,我们也希望有大量的合作伙伴,完成更多的场景开发。”鲁勇向记者表示。 另外,探境公布了首个图像芯片的IPS/W高达800,是目前已知图像芯片中最高的。在已公布的发展战略中,探境还瞄准了工业视觉、新零售、安防、辅助驾驶等市场。这并不画饼充饥,据鲁勇介绍,探境的图像芯片在2019年Q4就已经流片成功,图像的某些领域甚至已经开始产生营收了。 鲁勇认为,AI芯片这一领域不像手机APP那样,瞬间可以凭一款应用获得数百万的用户,AI芯片更像马拉松长跑,比的是耐力,而不是冲刺速度,在这场比赛中,不是要看谁跑得快,而是要看谁有潜力到达终点,谁在中途不走岔路。 探境作为创业公司,将从智能家居领域开始,先打好地基,再逐渐加码,等待市场大潮的到来。 |
|