【原】NOMI GPT背后有哪些思考？我们与蔚来工程师聊了聊

童济仁汽车评论 2024-04-12 发布于上海

展开全文

上一周，我们制作了《GPT上车，到底有什么用？》的节目，对GPT上车可能的应用场景，发表了我们自己的看法。一周之后，蔚来宣布NOMI GPT正式开启推送。我们也在第一时间，与蔚来座舱体验负责人、NOMI交互以及认知的负责人等相关研发人员，就智能座舱迈入大模型时代，进行了沟通。

GPT上车，在过去一年里屡次被车企提及。而我们关心的是，一家车企去做大模型，和OpenAI这样专门从事人工智能研究的公司，究竟会有什么不同。同时，面对曾在语音助手上有多年积累的百度、华为、小米等入局汽车，蔚来和他们相比有哪些优劣势与差异点呢？

这些问题，在今天的沟通会上，我们得到了一些新的认知。

车企做大模型，有什么特点？

大家对大模型的了解，很多来自于ChatGPT在过去一年的火热。但是，相比这种对通用大模型的基础研发，一家车企做大模型，最本质的区别在于，他要让大模型的能力服务于汽车场景的需求，而不是一股脑地将大模型能力“堆”在车上。

比如文生文、文生图等等大模型的通用能力，如果只是简单地搬运上车，除了在宣发上可以吹吹牛之外，对用户其实没有太大的价值。

尤其是对蔚来而言，有一个高度拟人化的NOMI人工智能系统后，如何让这个“伙伴”更加拟人化，如何更富有情感地与乘员互动，既是蔚来研发的一大难点，但同时也赋予了蔚来智能座舱独一无二的体验。

而在此次蔚来端云多模态大模型上车后，NOMI的核心技术架构，得到了全新的升级。具体来看，主要有三项：认知中枢、情感引擎、端侧多模态感知。我们尽可能用通俗的语言，来进行分解。

首先是认知中枢。

这主要是对用户说话中信息的认知，从而进行回应与相应指令的执行。但是，因为NOMI有拟人化的需求，这种需求不仅体现在NOMI对话的语气更像是真人（而不是机器人），而且要能更准确地判断用户对话的意图与需求，既要聪明执行，更要灵活不打扰。

举一个非常常见的例子，当呼唤语音助手进行导航目的地设置时，会在说“我要去……某某地方”时，中间会间断一下，因为脑海中没有组织好目的地的表达方式。很多的语音助手，就会在这个语气的间断时打断用户，用户就必须重新把指令再说一遍。

但是NOMI GPT的认知中枢，可以帮助NOMI“等待”用户在间断后说出目的地，再发起导航。因为大模型能够结合对话的上下文，智能地判断调用任务型交互。这是一个技术问题，但表现出来却是一个人性化的体验。

再举一个例子，在和NOMI进行问答时，NOMI会在给出答案后再加一句类似“你觉得怎么样呢”的互动。这同样也是对对话理解的体现，反映到用户体验上，就是我并不是在执行指令，而是真正地像在与真人对话一样。

其次是情感引擎。

这是蔚来在汽车行业独创的架构。情感引擎的加持，一方面能够让NOMI具备短期记忆和长期记忆的能力，就好像真人去记忆和用户说过的话，记忆用户的喜好，记忆和用户所经历的场景；另一方面也让NOMI具备“人设”，包括性格、三观等等，而不是一个简单的“问答机器”。

比如，和NOMI进行“无限趣聊”时，这个特点就非常明显。NOMI的话语，会让人觉得旁边有一个博学、乐观、谦逊的朋友，而且配合NOMI多达200余种表情，更能凸显情感属性。再比如，语音设置快捷场景的指令后，NOMI能够理解这个场景的意图，并且给这个场景起一个符合其氛围的名字。

最后是端侧多模态感知。

端侧，意味着不管有网没网，NOMI都可以发挥大模型能力，也意味着数据信息都会保存在本地，不会泄露出车，并且做到账号隔离。而多模态感知，意味着NOMI可以与图像、音频、车身传感器进行融合，从而获得更全面的座舱内外人与环境的感知。

比如，当驾驶员走进车内，NOMI就能辨识出今天驾驶员穿的衣服，并在他上车时“吹一顿彩虹屁”夸驾驶员好看。比如，在车里拿起一样物品，就可以问NOMI，我手里拿的是什么。对于座舱外的其它车辆、建筑、动植物等，NOMI也可以看见并且对驾驶员的意图进行回应。

不过，这些能力蔚来并没有一次性全部释放。有一些可能是因为还需要经过更多的训练学习与测试，有一些则是蔚来出于车端应用场景的考虑。比如问“前面是什么车”，这个场景除了好玩有趣之外，还有没有其它的价值可以被挖掘？这样的问题其实很多。可能有些厂家的选择是，只要这个功能能够展现我的能力，能够吸引用户的关注，那我就上车。

但是蔚来会想得更多，哪怕具备了这项能力，但如果功能不能完全体现价值，也暂时不会推送。

所以，蔚来做座舱大模型，它的核心不仅是要让NOMI变得聪明，能够“看得见、认得出”，更要让他拟人化，领会意图有默契，甚至与人“情投意合”。这种能力，体验不到配置表上，没有真正体验过也很难从文字中感受到什么独特性。但也就是这些一点一滴组合起来，最终将会决定智能座舱大模型是否能够打动人，成为真正的伙伴。

科技厂商做语音助手，一定更强吗？

不管是小度、小爱还是小艺，发布都已经有七八年了，而百度、小米、华为现在也都进军汽车行业。那是不是意味着，这些科技厂商在语音助手的能力移植到车端，就会对汽车厂商产生降维打击呢？

或许蔚来并不是这样看，核心还是因为汽车的场景非常垂直，是一个高度依赖优化的场景。

首先，科技厂商的语音助手，此前最大的优势在于开放问答和闲聊。但是，当有了大模型加持后，这项优势事实上已经被填平了。因为所有的技术架构，都需要在大模型的基础上重新建构，所以大家在这方面已经来到了同一起跑线。

其次，车载语音助手比拼的不仅是基础能力，更是对座舱的理解，是能力和车的场景怎样去深入结合。这方面，蔚来因为更早进入，因为积累的用户和数据足够多，反而是有优势的。

举个例子，蔚来现在已经实现的，包括NOMI记事提醒、全舱乘员记忆等等，都是行业首创的功能，而且是和用车场景紧密相关、可以被高频使用的功能。

而且，车里的环境，包括环境噪声、对话的位置与声场，其实和在家里和一个智能音箱对话，有很大的差异。而这些又直接关乎车载语音助手的响应速度、灵敏性、准确性等一系列非常影响体验的指标。这个时候就会发现，并不是简单地把手机或者智能音箱上的能力搬到车上，就能让人觉得好用、想用的。

所以，面对科技厂商进军汽车行业可能在座舱人工智能领域产生的影响，蔚来其实思考得很早，也思考了很多。至少到现在，蔚来仍然会按照自己的想法与节奏，去推进NOMI GPT的能力与功能释放，而不是被短暂的炫技所影响。

写在最后

在沟通中，蔚来的研发人员分享了两个数据。第一个数据，是NOMI在蔚来销售车辆中的选装率，达到了80%。第二个数据，则是在GPT的用户内测中，和NOMI闲聊的对话比例，从GPT前的3%提升到了18%。蔚来的研发人员甚至预期在3-5年内，随着大模型能力的持续提升，这个比例可以达到50%。

此时，我们对车载语音助手，对智能座舱的认知，其实已经不简单是一个“不用动手、只用动口”的命令执行工具，而是一个拟人化的伙伴。而且这个伙伴的作用，不仅仅局限在以座舱为中心的内外环境，还可以实现与产品、服务、社区等的打通，成为蔚来全程体验中一个不可或缺的环节。

所以，GPT上车只是其中的一小步，是在底层技术架构上的部署。后续的场景应用、场景优化、跨域打通，事实上可以做的事情非常多，可以想象的空间也非常大。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：童济仁汽车评论 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

童济仁汽车评论

关注对话

TA的最新馆藏

从爆品走向超级单品，GL8为什么能“跨越周期”？
打破行业惯性，华为要进攻BBA最后的堡垒
如果合资车都智能了，中国车还有优势吗？
高端电动轿车，产品定义为何“回归传统”？
奇瑞汽车的“反向智选车”
为什么二手车越来越不值钱了？

喜欢该文的人也喜欢更多

热门阅读换一换