分享

科大讯飞按下加速键:大模型上车体验已超越传统汽车认知

 cheyunwang 2023-10-27 发布于北京

原创|枕头  编辑|黄河

“时代变了”。

想象一下,当你坐在车里,随口说一首想听的歌,汽车马上就会为你播放;你说开一下窗,并使了一个眼神,汽车马上打开了你眼神瞟过去的车窗;当你遇到不喜欢的歌曲,随意摆了下手,汽车马上就为你切换下一曲。

在车内打电话没办法记备忘,汽车主动帮你整理电话要点;想找个人聊天,车里的虚拟人可以陪你用不同语言交流;忽然想查些实时资料,汽车帮你查询后还主动为你念了出来;车内不同座位的人不用耳机就可以听到不同的音效;主驾说了一句调低空调,其它座位的人仅仅说了一句“我也要”,汽车就会把相应位置的空调温度调低。

“释放想象力”似乎从未如现在一样贴近生活。当年,我们从电视中看到《霹雳游侠》里KITT的种种酷炫功能,总以为这是科幻片里才能出现的场景,然而科大讯飞通过实车展示告诉我们,这些不是想象,而是现实。

10月24日,在科大讯飞全球1024开发者节上,科大讯飞智能汽车分论坛发布了“智能驾驶”、“智能音效”“智能座舱”三大智能产品,汽车大模型从抽象概念走进了现实。而在发布会之前,工作人员将改装调试好的工程车提前放置在了会场,以供大家体验。科大讯飞明白,在真实的体验面前,再多的语言讲解都是苍白的。

01

一场不同寻常的发布会



一般来说,除了某些特别严肃的场合,很少能看到一场发布会的主持人是由领导亲自担当的。科大讯飞副总裁、汽车事业部总经理刘俊峰开玩笑说,“因为预算都花在了产品的研发上,因此和团队商量了一下,我就客串今天的主持人了”。

其实,整场发布会,大多是科大讯飞的员工在亲力亲为。发布会后,有工作人员透露,发布会上的很多直播连线环节大家心理压力都非常大,中途一直担心会出问题,直到连线结束才敢长舒一口气。

事实上,同样是科技产品发布会,“花活儿”越多越容易出错,技术含量越高越倾向于延时直播、伪直播或者录播。而科大讯飞1024的这场智能汽车发布会,显然是大胆的在“秀肌肉”,不但要直播,而且要大家亲自体验。

总结科大讯飞的智能汽车发布会,核心点无非就是大模型上车。发布会上一口气发布的“智能驾驶”、“智能音效”、“智能座舱”三个产品中,或多或少都与大模型和AI产生了联系,其中搭载了星火大模型的智能座舱显然是最值得关注的产品。

①智能座舱

“智能座舱”方面,搭载了星火大模型的星火智能座舱,是三个产品中呼声最高,也是最令人期待的产品。就如本文开头所提到的,搭载了大模型的智能座舱,已经可以视为一个可以主动理解乘客意图的贴身管家。它可以读懂用户的眼神、理解用户的语义,能够识别强意图和弱意图,做到有求必应,无求时不“乱插嘴”。

最新发布的讯飞星火V3.0赋能智能座舱全面升级。在发布会现场,科大讯飞汽车事业部副总经理和卫民宣布,目前,星火大模型所具备的核心能力都已经正式接入汽车。星火智能座舱已经可以支持实时检索,实现插件化调度,并集成了多模态生成的能力。

面向多样化的汽车使用场景,科大讯飞推出了星火座舱OS、星火汽车APP和星火座舱域控。

星火座舱OS包括星火汽车助理和星火场景应用两大部分,将语音与视觉模态深度融合,让识别更精准,语音合成MOS>4.6,大模型业务贯穿支持十轮以上的上下文语义继承,新增的实时检索能力打破大模型认知边界,时新信息即时查询。

发布会现场,工作人员用现场实时连线的方式对新功能进行了演示。在演示中,我们看到,搭载了大模型的智能座舱,人机对话相当自由,一次性可以接受多个语音指令,上下文语义理解能力十分优秀。例如:当乘客说“关闭左侧车窗、调低空调、查询今天天气”,汽车可以一次性将这三个指令同时完成。

星火汽车APP围绕用车场景打造了多样化大模型车端应用,如用车顾问、儿童故事、口语陪练、心灵SPA、旅行伙伴等等。星火座舱域控则拥有丰富成熟的接口能力,面向行业输出兼容核心AI算法的“核心板”,基于全栈的座舱AI算法和结合芯片的异构算法优势实现芯算融合,SOC算力消耗降低10%,并与国内厂商深度合作,大幅度提升国产平台的渲染效果。

和卫民总结星火智能座舱的能力,用了三个方面、四个词。三个方面包括“星火汽车模型绝不仅仅是对交互对话的提升,助理要升级、交互也要升级”、“对蓝牙电话等传统场景赋予新的价值点”、“星火大模型本身会产生新的场景”;四个词包括“极速”、“交互更自然”、“说法更自由”、“用户体验更智能”。

②智能驾驶

“智能驾驶”方面,科大讯飞下场并不算太早,为了证明自己,发布会上特意进行了一场远端的连线直播。

在合肥市金寨路高架路口,搭载科大讯飞智驾技术的车实时待命。开始连线后,工作人员边开边讲解,上下匝道、超车避让、遇到别车时应急处理,智能驾驶功能在若干突发状况下,一气呵成,完美跑完了试验路段。其中一个小插曲是,为了证明自己真的是在直播,车内负责讲解的女孩还专门强调了一下此刻(发布会进行连线的时刻)的时间。

实际上,科大讯飞的智驾技术发展得比较快,尤其是在视觉感知技术积累层面有比较好的基础,近3年已经获得了17个评测冠军。目前,科大讯飞基于BEV+Transformer网络,已经实现了多模态、多任务、长时序的4D精准感知,构建了云端+车端的感知形式。

基于讯飞星火认知大模型,科大讯飞带来了两款高性价比的行泊一体智驾解决方案——智驾STD和智驾PRO,配备增强型高速NOA(HNOA)、记忆行车和记忆泊车等功能。星火大模型将从技术架构层面赋能BEV+transformer智驾感知大模型的研发,解决智能驾驶当前存在的感知不精准、决策不智能、长尾不收敛三大技术难题。

用通俗的话来讲,大模型加高阶自动驾驶,已经真正让自动驾驶变得更智能、更个性化,可以处理更多复杂的突发情况。科大讯飞汽车事业部副总经理李卫兵博士曾举了这样的一个例子:你对汽车说,我想停车后取出后备箱里面的行李。这时,汽车会正确理解你的意图,不但会自己泊车,而且还会挑选靠前的位置,方便车主取出行李。

③智能音效

“智能音效”方面,科大讯飞提出了5级汽车音效的划分体系。而在本次发布会上,科大讯飞发布了支持24声道、30个以上扬声器,具有更强大AI算法加持的新一代音频管理系统。科大讯飞汽车事业部副总经理、苏州研究院常务副院长支洪平表示,在这个音频管理系统中,科大讯飞可以提供全自研的核心算法、全自研的硬件平台iFlySound Plus24ch功放平台以及全链路的工程化服务。

在发布会现场,支洪平说,本次发布,除了既有的“AI主动降噪”、“虚拟现场音效”、“语音分区交互”、“3D矢量空间音频”、“高拟真声浪合成”、“AI自适应”之外,还新增了“车内交流补偿”、“低品质音源修复”、“场景增益控制”“声场分区”、“车载K歌”和“大模型音效”等。

其中,“车内交流补偿”可以让乘客在高速上汽车高风噪情况下依然低声细语进行交流;“声场分区”可以让主驾和后排乘客有隐私隔离,通过局部主动噪声控制,可以让不同座位上的人听歌、看电影、打电话互不干扰;“车载K歌”和“大模型音效”可以让乘客更主动的根据个人爱好调整汽车音响的音效,将需要特定专业人士进行的工作,实现简单化和个性化。

硬件层面,iFlySound Plus24ch功放硬件平台使用高性能浮点DPS,拥有最高2GHZ*2的高速音频处理加速器和128通道数字音频处理能力,可以获得高达24bit 96kHz的HD Audio支持,并且兼容未来E-E架构,拥有超强的硬件扩展能力和音频推动能力,性能超越当前市面上大部分主流硬件设施。同时,科大讯飞还在保证性能的前提下降低了硬件的尺寸和重量。

本次,科大讯飞在硬件上进行了平台化的设计,包括通讯、计算、功放模块都可以进行芯片的选贴。对应车企的不同定位,科大讯飞提供了12扬到36扬、涵盖了A级车到D级车的全范围。

02

“技术派”科大讯飞



实际上,科大讯飞一直都是坚定的技术拥趸。自1999年成立以来,科大讯飞一直从事智能语音、自然语言理解、计算机视觉等核心技术的研究。尤其是在语音识别方面,科大讯飞一直是这一领域的优秀领跑者。

2001年,科大讯飞“半汤会议”正式确定了专注语音产业的发展方向,此后二十余年,其分别在语音识别、语义理解、语音合成等方面取得重大成就。

2006年,科大讯飞首次参加国际语音合成大赛,并斩获第一名,此后获得十四连冠。2008年,科大讯飞成功上市,成为当时中国语音产业界唯一上市企业。2010年,科大讯飞发布了“语音云平台”,这是全世界第一次宣告手机的语音听写时代到来。2015年,某品牌汽车做车载噪音环境下语音识别测试,科大讯飞的语音识别系统,准确率达到86.9%,一年后,这一数字提升至90%。2016年,在Google举行的国际英文语音识别大赛上,科大讯飞的语音识别准确率在全球率先突破97%。

科大讯飞多次在语音识别、语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等各项国际评测中取得佳绩。其曾两次荣获“国家科技进步奖”及中国信息产业自主创新荣誉“信息产业重大技术发明奖”,被任命为中文语音交互技术标准工作组组长单位,牵头制定中文语音技术标准。2021年,科大讯飞“语音识别方法及系统”发明专利荣获第二十二届中国专利金奖,这也是国内知识产权领域的最高奖项。

进入到AI时代,科大讯飞一直保持着前沿领域的探索。2014年,科大讯飞正式启动“讯飞超脑计划”,研发基于类人神经网络的认知智能系统。2020年,基于在认知智能领域的前瞻攻关,以及将技术规模化落地应用取得的显著应用成效,科大讯飞认知智能国家重点实验室团队获得中国青年的最高勋章——“中国青年五四奖章”。2021年4月,科大讯飞获中国智能科技最高奖——吴文俊人工智能科技进步奖一等奖。

2022年底,chatgpt的爆火将生成式预训练Transformer模型推至前台。至此,在中国开始上演了百模大战。2023年5月,科大讯飞正式下场,发布了“讯飞星火认知大模型”,由此揭开了轰轰烈烈的新一波智能化浪潮。

其实,大模型和AI化浪潮中隐藏着很多浑水摸鱼的“伪技术”。比如,此前大热的“超精细化虚拟人”就是AI虚拟人技术中的“伪装者”。再比如,很多公司将此前的AI研究成果整合在所谓“大模型”系统中,诞生出了换汤不换药的“缝合怪”。相比而言,科大讯飞将优势的语义理解、智能感知技术和大模型的处理能力无缝结合,可以说是国内产业界的一股清流。

当然,我们也注意到,目前国内大模型更倾向于垂直领域发展,通用能力不足。这中间有数据量的问题,也有成本考虑的问题,还有硬件水平的问题。科大讯飞董事长刘庆峰坦言,目前的星火大模型V3.0还不如GPT-4。科大讯飞已经联合华为打造基于昇腾生态的自主可控大模型算力底座“飞星一号”平台,在此基础上,2024年上半年,讯飞星火大模型将启动对标GPT-4的更大规模训练。

回到智能汽车领域,科大讯飞从2003年开始进入该领域,至今已有20年时间。截至2023 年9月底, 科大讯飞的汽车智能化产品和技术已累计实现5000万的前装搭载,上半年在线交互次数突破26.13亿次,同比增涨88%,平均每月活跃用户近1900万。

03

“硬核”智能化是未来



大模型上车是必然会发生的事情,因为这一需求在科技水平未能达成时就已经被明确提出。

实际上,科幻作品往往代表着人们对于高科技成果落地的追求,而这些追求最终随着时间的流逝,慢慢也都演化成了现实。比如《从地球到月球》中,载人飞天的空心炮弹;比如《海底两万里》中,神秘的纯电潜艇。

再看《霹雳游侠》等作品,汽车的自由交流、自动化驾驶、实时资讯查询等事项都已经成为了现实。甚至,一些先进的概念车也已经实现了车身图案和颜色的实时变化,飞行汽车的概念已经频繁出现在众多厂商的PPT中,我们似乎生活在一个科技爆炸的时代。

回归到现实,在产业链中,供应商往往是最先做出技术突破的“实干派”,其能力的边界是大多数产品的技术基底。前不久,博世中国宣布重大变动,汽车业务重组更名为智能交通事业部。作为全球最大的汽车技术供应商,博世对于技术潮流的嗅觉非常敏锐,其重大组织调整具有指向性意义。

数据层面也证实了博世预判的准确性。2023年9月,新能源车国内零售渗透率上升至36.9%,新能源化趋势明显。而Canalys报告指出,2023年第一季度,中国市场广义新能源乘用车前装标配智能座舱的市场渗透率已经高达82.7%。

数据显示,在新能源车类别中,新势力品牌智能座舱渗透率达100%,自主品牌智能座舱渗透率为93.6%,一些豪华品牌也都在积极投资智能座舱。由此可见,汽车座舱的智能化已经成为势不可挡的趋势。

以星火认知大模型为代表,汽车垂直大模型正在改变既往预设问答式智能座舱的体验。更自由、更智能、多模态的交互体验使得汽车可以实现从智驾到座舱的全面智能化。无论是TO C的自动驾驶、智能座舱,还是TO B的数据分析与AI训练,大模型带来的便利都前所未有。

大模型上车,给用户带来的是1+1>2的感受,可以更好地解放路上时间。就像科大讯飞智能汽车发布会的口号一样,“释放想象力,智能新出行”。

未来,值得期待。


华为震撼车圈的三十天

国产电动车超越特斯拉了吗?

奔驰电动化:灵魂与肉身的天人交战中前行

从蔚来的“创新底座”看智能电动车的长期竞争逻辑


我就知道你“在看”

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多