分享

想做自动驾驶领域的ChatGPT,毫末智行底气何在?

 NE时代 2023-04-14 发布于上海

这让我想到自动驾驶:未来真正取代人类驾驶、或是真正操控人类方向盘的绝不是自动驾驶,而是熟悉驾驭大模型、大数据和大算力的另一群人类。

4月11日,毫末智行在其HAOMO AI DAY上,高调发布了行业首个自动驾驶生成式大模型DriveGPT,中文取名为“雪湖·海若”。其底层模型,用的正是GPT(Generative Pre-trained Transformer)生成式预训练大模型,试图解决自动驾驶领域的认知决策问题。

两年前,特斯拉将 引入自动驾驶,作为中国自动驾驶新秀的毫末智行很快跟进,成为国内第一家引入Transformer的出行科技公司。后来,毫末又推出了国内第一个 ,率先破题量产自动驾驶。

这场车展前夕的HAOMO AI DAY,让我们再次看到了毫末速度,以及毫末速度背后试图改变人类驾驶的一群人。总结来说,这次发布会主要释放了两个消息——

让业界看到大模型落地应用在车端的另一种可能,AI领域炙手可热的GPT,终于可以用在自动驾驶领域了。

去年9月的HAOMO AI DAY上,公司CEO顾维灏对外提出了数据驱动的自动驾驶3.0时代, 

毫末智行在朝着自动驾驶3.0层级跨越的路上,已经做了不少实践层面的铺垫。 

DriveGPT是目前国内首个自动驾驶生成式大模型,中文名叫雪湖·海若。海若的命名灵感,来自古代传说中的海神,最早出自《庄子·秋水》——于是焉河伯始旋其面目,望洋向若而叹,海若,即北海海神之意。

ChatGPT的全称是Chat Generative Pre-trained Transformer,相信大家已经很熟悉了,它是人工智能研究实验室OpenAI发布的聊天机器人模型,同时也是人工智能驱动的自然语言处理工具。 毫无疑问,能在全球掀起史诗级的狂欢,ChatGPT已不再是传统AI的PLUS版本了,但大家好奇的是,DriveGPT凭什么贴上GPT的标签?这只是蹭热度、抢风口的噱头,还是真能如ChatGPT一样涌现出不一样的颠覆性创新?

一方面,DriveGPT的底层模型, ,只是与ChatGPT使用自然语言进行输入与输出不同,DriveGPT输入是感知融合后的文本序列,输出是自动驾驶场景文本序列, 

也就是说,ChatGPT最拿手的逻辑推理和预测判断,被DriveGPT整合到了自动驾驶领域,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

目前,毫末智行已重新定义了50万个新的token,几乎所有驾驶过程中的场景,都能被token化表达。另一方面,DriveGPT也 ,对自动驾驶认知决策模型进行持续优化,现阶段主要用于解决自动驾驶的认知决策问题,终极目标,是实现端到端自动驾驶。

参数规模达到1200亿, 4000万公里 具体实现流程如下:

训练初始模型

反馈模型(Reward Model)的训练 不断优化迭代初始模型 同时,DriveGPT还会根据输入端的提示语以及毫末CSS自动驾驶场景库的 ,让模型学习推理关系,从而将完整驾驶策略拆分为自动驾驶场景的动态识别过程, 

|毫末,凭什么?|

回顾下毫末智行辅助驾驶产品HPilot的成长历程,三年多的时间已经更新了三代,其中,Hpilot 1.0和Hpilot 2.0此前都已已经量产上车。此前落地的最新一代的行泊一体产品HPilot 2.0,搭载于长城旗下多款车型上,高速NOH是亮点。

这也意味着,中国首个重感知、不依赖高精地图的城市NOH即将量产上车,最先落地北京、上海以及保定等城市,且2024年上半年落地将达到100城。产品落地,一直是毫末的强项。

一方面要得益于重感知的技术路线,另一方面则是大模型技术应用比较领先,当然,还有该公司的用户闭环的数据建设,也是领先于业界很多同类公司。 有意思的是,商汤也在前两天发布自研类ChatGPT产品,就和毫末智行推出DriveGPT几乎前后脚,试图打入通用人工智能(AGI)赛道,背后依托的,其实和毫末智行一样, 

小规模数据和小模型的软件驱动,后者则是大规模数据和大参数模型驱动。 这正是毫末的发力方向。

“思想钢印” 武器库层面,则是推出了 ,这是毫末智行自动驾驶产品进化的核心驱动力。

位于 的是TARS(数据原型系统)、LUCAS(数据泛化系统)和VENUS(数据可视化平台),分别对应核心算法原型实践、算法应用场景实践和数据可视化系统, 的BASE(底层系统)则代表了数据通用能力,主要肩负着中间件、数据存储和数据计算相关的服务。

今年年初,毫末智行宣布成立了 ,并宣称这是中国 的智算中心。

AI计算中心DOJO 持续领先——

至少领先行业一年以上 3家主机厂定点合同。

对此,张凯提到了三点:

将围绕量产上车发力,主要玩家的城市导航辅助驾驶产品进入到真实用户覆盖和多城市落地的比拼。

将成为自动驾驶公司深耕的重点,在乘用车领域,搭载行泊一体功能的智驾产品将迎来前装量产潮。

在商超、快递等场景迎来爆发,2023年将在这些场景实现可持续商业化闭环。

全线爆发的特征之一,是大模型开启在车端的落地应用,毫末智行看到了趋势,顺势推出DriveGPT,迎接智能驾驶行业的冲刺之年、大考之年。竞争只会越来越激烈。

我们可以看到,参数规模几乎是疯狂增长,速度几乎是每年增长十倍。一个问题,是成本。

时间越是往后面走,大模型的成本将越来越高,其中就包括时间成本和经济成本。

之前看到一组数据,ChatGPT在访问阶段的初始投入就是十亿美元级别,训练阶段的单次训练也要花掉约百万至千万美元。 在此次HAOMO AI DAY现场,毫末智行也聊到DriveGPT现阶段的降本策略:

DriveGPT视觉方案直接重新配置感知硬件,毫末在BEV框架中开始验证使用鱼眼相机代替超声波雷达进行测距,以满足泊车要求 

毫末在使用数据过程中,逐步建立起一套基于4D Clips驾驶场景识别方案,如果使用DriveGPT雪湖·海若的场景识别服务, 

大模型对计算能力的要求极高,毫末智行在HAOMO AI DAY上提出了底层算力的几个解决方案——

大模型训练保障框架 其次,是充分利用 优势,并将其推广到大模型训练,训练资源弹性调度,集群计算资源利用率达到95%。

底层算子优化 不过,万里长征才迈出第一步。

今年,毫末智行要打赢智能驾驶装机量、MANA大模型进化、城市 NOH大规模落地和末端物流自动配送商业四场战役。这四场战役具体怎么打,毫末并没有对外透露太多,不过,按照这家公司三个月一场AI发布会的节奏,很多信息,想必很快就能揭晓。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多