车载语音亟待“新革命”

御龍 2021-09-03

展开全文

加入高工智能汽车专业行业群（自动驾驶，车联座舱，商用车），加微信：17157613659出示名片，仅限智能网联软硬件供应商及OEM。

作为数字座舱的核心入口之一，语音交互既是先行者，也是新一轮整车智能化革命的受益者，推动力量来自于持续的资本和技术驱动。

苏州思必驰信息科技有限公司（以下简称：思必驰）于近日完成E轮4.1亿元人民币融资，本轮融资由和利资本领投，北汽产投、中信金石等跟投。

作为国内领先的对话式人工智能平台公司，思必驰自主研发了全链路智能语音交互关键技术。在车载领域，思必驰最重要的核心技术之一就是在嘈杂环境下的降噪和唤醒能力。

思必驰智能汽车事业部副总经理赵昱认为，通过软硬件的设计提升系统的抗噪能力是提升用户体验的关键所在，同时也是当前业界的难题。

而相关数据显示，思必驰语音的唤醒率达98％，识别率大于97％（带噪音），语义理解准确率达98％。每项指标都已达到国内业界最高水准。

把降噪做到极致，才能达到纯净的声音，识别和理解才能更精准。而对于车载语音交互来说，首先需要做到语音识别结果的准确性，保证识别率，才能真的听得清、听得懂，其次是对接丰富的第三方资源，才能够完成车身内外的有效联结。

但尴尬的是，车载语音的火热程度和它的用户体验度之间并没有呈现出正向递增关系。目前市面上可见的大多数车载语音技术还并不成熟，用户体验还不够好。

简而言之，想让用户心甘情愿的为车载语音买单，技术厂商需要输出更多好的技术和产品方案让用户信服。

一、语音服务的核心是提升驾驶安全

赵昱提出，在提升用户体验方面，目前依然存在两个尚待解决的痛点，其中一个是如何更多地衔接车与人之间的数据关系。

而目前阻碍车载语音技术发展的重要原因之一便是语音厂商拿不到主机厂的数据。同时，主机厂没有语音厂商的技术，又不愿意分享车内数据以提升产品功能，因此很难实现有效连接。

赵昱认为，解决数据问题的核心就是要解决车厂的信任度和开放度，而车厂也需要数据安全性的整合与管理。思必驰目前在做的就是将语音与车辆数据耦合，之后再抽象出对应场景化与数据化的分析。

当语音中台与整车厂各条线的信息整合之后，便有了主动感知的能力，其中包含场景化的感知与云端侧的推送能力。呈现给车主端侧的感知便是从被动语音变成主动场景化语音交互的过程。

目前，思必驰已与车厂合作，挖掘了三十多种语音的主动互动场景，例如上车问候、车辆状态检测提醒、儿童模式、车主生日等主动问候。

另外随着自动驾驶的普及，用户在车内的可控时间会越来越多。在这种情况下，语音服务是否可以延展到车内办公的场景？

赵昱认为，这可能是语音场景化开发的另一个痛点：“之前的语音服务主要针对车内的娱乐板块，那车内办公是否有爆发或延展，这也取决于整车自动驾驶技术的释放。”

思必驰着眼未来，针对办公领域做了相关的技术铺垫——四音区定位。不管用户在车内的哪一个座位说话，语音都可以准确定位并作出识别。赵昱认为，该项技术将逐步延展到车内办公体系的升级，成为未来的一个发展方向。

同时，思必驰也是国内第一个推出并落地多音区方案的语音厂家，达成合作的车厂包括小鹏和爱驰。

不过归根结底，语音作为人机交互的一种方式，最核心的任务其实是提升驾驶安全。而在驾驶过程中，无效或复杂的语音交互次数过多，会极大影响驾驶安全。

对此，从后装市场到前装市场，从识别到理解再到交互，思必驰通过全链路语音交互技术实现了驾驶安全的提升，并将核心语音技术嵌入自主研发的车载语音天琴助手中。

天琴助手针对车载场景的语音技术做了单点优化，强化识别、提升了理解、反馈的速度与准确度。减少人机交互频次，从而使服务更智能。比如，天琴助手在车载场景下的误唤醒率可达到每四十八小时仅有一次，目前是世界最低。

在识别方面，思必驰实现了不管是在什么样的开车的状态下，对于带方言普通话的识别率都可达到极高水准。目前，思必驰也在开始陆续针对粤语、四川话等方言以及海外主流小语种做出识别率的优化。

思必驰CMO龙梦竹强调，公司目前在做的技术升级与产品优化的终极任务都是为了不断地提升车辆的安全性能。展现在用户体验方面则是更自然的交互、更口语的交流、更垂直的场景和更融合的生态。

二、场景细化是趋近“真人对话”的关键

真正的AI语音交互不只是简单的识别合成、一问一答，更应能进行声纹识别、多轮对话交互和多次信息处理，在辨识用户身份、理解复杂语义的基础上，完成在“汽车”这一特殊空间下的用户需求。

对此，天琴语音助手以声纹识别、知识图谱(智能客服、用车知识)、多音区声源定位等核心技术为基础，带来更人性化的语音交互体验。

与其他语音厂商不同的是，思必驰对于车主日常使用语音的场景理解更为透彻，在全双工对话、知识图谱、声音复刻、场景化感知等方面，已经走到了行业的前列。

在全双工方面，思必驰延展包装了全时打断与保持对话两个场景，改善了传统半双工技术存在的弊病。

在传统的半双工对话时代，用户是没办法打断机器语音播报的。而全双工可以做到两路监听，在用户打断对话时触发中控分析，停止播报之前的语音，开始新一轮的回答。很大程度提高了人机交互的顺畅度。

另外，思必驰在大数据分析用户使用语音的场景时发现用户最反感的问题之一是在短时期内反复使用唤醒词。因此推出了在一定时间段内保持唤醒动作的方案，用户不需要重复用唤醒词即可完成操作。

赵昱提出，其实在全双工场景实现的过程中还存在一个难点——流量消耗问题。

双路识别，双路决策，最终给车主反馈，整个操作下来对流量的耗费是很大的。因为在此过程中，车端侧需要不停地监听用户侧的声音，云端侧也需要并发的分析决策和处理。

这样一来，不仅用户端会消耗巨大流量，对于服务端的并发处理的要求也会变高。目前思必驰正在突击降低车主侧的带宽消耗以及云端高并发、并时的计算消耗。

上述两个全双工对话场景的开发可以让用户在行车过程中使用语音时变得更简便，更自然。然而，简便自然的极致应该是真人对话般的体验，语音厂商是否可以用技术来实现呢？

赵昱认为，目前实现接近真人对话体验的难点在于如何把场景细分化。“只有场景足够细的时候，语音的准确度、对话的柔顺度才会接近真人对话的体验。”

对此，思必驰已将车载语音细分为了一百多种场景。另外加上和整车数据的打通，再结合场景化，以实现被动智能变主动智能。再借助思必驰声纹识别技术加持，即可为用户提供个性化的语音交互与内容推荐。

在思必驰最新发布的版本中，当语音端侧感知到成人的声音时，车机就会主动推送成人相关的娱乐信息与对话回应；在感知到小孩子的声音时，则会发起幼儿相关的对话以及儿歌推荐。高度实现了声纹的定制化场景化服务。

此外，思必驰最新推出了海外版天琴语音助手，实现了英语、俄语、日语、西班牙语、葡萄牙语等多语种的本地识别功能，内置近百条识别指令，基本满足相关语种车主的日常驾驶需求。

三、重云轻本地，加速产品迭代

在本地与云端的技术配比上，思必驰的方案是4:6。但赵昱提出，“理想状态我们更倾向于2:8关系。本地是2，云端是8。”

在赵昱看来，搭建成一个重云和轻本地逻辑的好处是后续可以使整个产品的迭代升级速度加快，而不仅仅局限于OTA。“这也为将来整车智能化的运营提供了天然的基础。”

具体到技术方案便是把复杂运算、多场景的串联、多模态决策等更多日常使用的决策和逻辑搬到云端，让本地来做更纯粹的事情，比如降噪，场景化的唤醒，或者特殊场景下的辅助（比如车开到山区没有信号的情况）。

赵昱提出，本地方案的好处是安全，反馈速度快，但交互受限，不自由。而云端的交互能力则更高，可引入更多的功能，包括音乐、导航等刚需。而目前的难点在于如何确保本地有更多的指令输入，在云端方面提高反馈的速度。

从整体系统而言，如何让系统可以自主决策什么时候走本地，什么时候走云端对于语音厂商来说也是一个不小的挑战。

另外，在很多车载场景下，车主还是会选择离线导航以避免信号不稳定带来的不确定性。赵昱认为，在车载场景下对于本地与云端的选择，也要联动客户和产品的定义来做。

四、TSP智能中台助力车厂升级

在车联网产业链的三层架构中，TSP（Telematics Service Provider）占据产业链核心位置。TSP上接汽车、车载设备制造商、网络运营商，下接内容提供商，因此成为主机厂、电信运营商和AI厂商极力争取的角色。

同样，给更多车厂提供智能化的语音TSP平台以及升级改造服务也是思必驰急切想要实现的一个点。

赵昱提出，目前已有越来越多的车厂倾向于将语音方案当成新的智能语音TSP中台来看待。

基于这个点，语音厂商可串联包括车况与车控的整车核心数据，以及车主在买车过程中填写的个人数据等。将数据基于语音的智能中台关联到各个信源，实现全链路的打通。从而提升垂直场景下语音功能的便捷化。

而思必驰也将同时为车厂建立一个可以与用户一对一沟通的链路，帮助车主更快捷地解决问题。这对于车厂的迭代和改进是十分重要的。

赵昱表示，“当我们把整车上包括数据和对应控制的信源与语音进行打通后，工作人员就可以在云端远程运营，提升为车主服务的效率。”

从商业的角度来看，智能语音TSP平台的优势在于降低了车厂采购语音License的费用。通过思必驰公司的测算，一套最低配置的智能语音TSP平台，可支撑约生产20万辆车，所对应车主的主动语音使用。大大降低了车厂采购语音软件的支出。

另外，车厂想要掌握用户在车内的用户行为习惯，对语音的控制力度也会越来越大。从技术操作上来看，语音厂商需要将智能语音TSP平台与车厂中的各个子模块系统进行对接，把对应的场景释放出来，从而让车端侧用户感知到。

赵昱认为，这对于思必驰来说是一个挑战。“这整个的链路是很长的，不仅仅针对于纯粹语音单点技术上，而是端到端整个链路体系上的升级。”

之前语音厂商面临的挑战是如何与车厂的Tier1 的技术对接，以及对语音单点性能的挖掘。而未来将面对端到端全链路的侧私有化定制的要求。

目前，思必驰为车厂提供了端到端的语音解决方案：天琴语音助手是车机端维度的解决方案，主要针对用户做相关服务升级。

而智能语音TSP平台则是思必驰在云端侧的解决方案，以供支持车厂的私有化运营。两端合一的方案将为整车厂带来全新的技术升级与服务提升。

在未来，传统汽车的数字化升级一定是一个大趋势：不仅是新的主机厂会把AI作为核心的基本标配，在很多的存量车里，可能还有更多的AI激活的机会。

龙梦竹表示， “不管是用户的主动推送，运营，还是整个AI底层的赋能，我们都希望能做这些车企的AI Power，给他们提供更多中台服务的能力，共同迎接AI的万亿大市场。”

目前，思必驰业务正在高速增长，近三年复合增长率近300%。其中在车联网领域，思必驰已与北汽、一汽、上汽、五菱、长城、东风、小鹏、爱驰、华阳、博泰、斑马、德赛、航盛、伟世通等汽车企业及多家Tier1厂商达成深度合作。

在具体落地车型方面，包括长城哈弗系列、荣威RX5MAX、奔腾T33、宝骏E系、新宝骏R系、北汽EU5、一汽解放、小鹏P7/G3、爱驰U5等在内的多款主流车型。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：御龍 > 《智能座舱》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

御龍

关注对话

TA的最新馆藏

[转] 4W字一文带你看懂智能座舱域控制主流芯片及平台架构
[转] 一文看懂：华为盘古系列AI大模型到底是个啥？附：盘古发布会网址|ai|华为|大模型|模型图|模态
长城咖啡智能 2.0：会思考、能判断、可持续生长的智慧出行伙伴
[转] 汽车功能安全到底哪里有用了？
[转] 基于电子电器架构的整车OTA设计
智能座舱域控制器技术发展趋势分析

喜欢该文的人也喜欢更多

热门阅读换一换