【原】毫末智算中心：补齐自动驾驶3.0时代最后一块拼图

电驹 2023-01-07 发布于河南

展开全文

1月5日，在毫末智行第七届AI DAY上。毫末发布了“雪湖·绿洲”（MANA OASIS）。

超算一般指科学计算，智算一般指人工智能计算。毫末智算中心，采用私有的云服务，而且是专门符合自动驾驶需求的云服务。自建云服务耗资巨大，绝大多数选手都在公有云上存储数据，极少数互联网巨头自建云服务。

除了毫末智行，2022年，特斯拉、小鹏也宣布自建超算中心，华为早已搭建了昇腾云平台，相当于华为的超算中心。

自动驾驶企业为什么要自建超算中心？毫末智行的MANA OASIS战斗力几何？它能给毫末带来什么？能给消费者带来什么？

电驹哥采访到了毫末智行，得到了如下答案：

MANA OASIS的含金量

毫末智行的智算中心取名为“雪湖·绿洲”，英文MANA OASIS。毫末解释说：毫末数据智能系统MANA的中文名字是雪湖，绿洲从雪湖孕育而来，支撑毫末的自动驾驶能力进一步升级。

MANA OASIS的浮点运算可以达到每秒67亿亿次，存储带宽达到每秒2T，通信带宽方面达到每秒800G。

官方表示：这是中国自动驾驶业内算力最大的智算平台。作为对比，之前小鹏在内蒙古自建的超算中心，算力是60亿亿次每秒。

这些数据代表了什么？

MANA OASIS与普通的云服务有所不同，它是专门根据自动驾驶3.0时代需求设计的。按照毫末智行CEO顾维灏的介绍，自动驾驶对智算中心有六个独特要求：

1、算力要大。浮点算力67亿亿次每秒这个数据，代表着能做什么大模型，能做多少大模型，能够允许多少个AI工程师在这个“练武场”中进行训练。

2、小文件存储效率。自动驾驶的数据是片段式的，最大特点是小文件多，达到百亿个。对这些小文件随机存储的效率，代表着训练效率。

3、存储带宽。自动驾驶的大模型训练需要交换的数据多，要求有高性能的存储带宽，这样，大量数据才能在大模型中顺畅流动。

4、通讯带宽。所有的计算能力目前还不能在单台服务器中完成，需要多台服务器协同工作，这就要求了集群的通讯带宽。

5、自动驾驶需要的模型，例如transformer模型，当变得很大时，就会稀疏。要求智算中心有更好的并行计算框架，在训练时能把硬件资源都利用起来。

6、兼容性。人工智能发展很快，新的算法层出不穷，要求智算中心能够尽快引入新的技术和新的模型。

根据这六个要求，毫末和火山引擎共同定制了这个属于自动驾驶的智算中心。这些数据也代表了毫末智行在自动驾驶领域的水平和未来的发展潜力。

MANA OASIS的架构

MANA OASIS的系统框架包括两个：超高速并行的毫末文件系统和GPU超算。其中，GPU超算第一期有超过2千张卡，采用双向Switch连接，具有超宽低时延网络架构。

1、毫末文件系统（HMFS）

毫末文件系统是MANA OASIS的核心组成要素之一，也是亮点之一。

毫末为什么要研发一个文件系统？大背景是自动驾驶数据从单帧、单要素向连续帧、全要素形态的转变。

毫末智行技术副总裁艾锐表示，随着自动驾驶技术的发展，自动驾驶的文件形态也发生了变化。以前是单帧、单要素形态，现在是Clip、也就是短视频形态。每个Clip包括好几帧视频信号，再加上毫米波、激光雷达等信号，按照时空顺序组织在一起。结果，一个Clip的数据量是原来帧的几十倍。

文件系统里有非常多的CLIP小文件在里面流动，小文件数量达到百亿级。为了提高计算能力，智算中心需要组织一套高效的数据管理方式，提升对文件随机读写的能力。

“对于计算来说，真正的瓶颈不在GPU上，并不是GPU算得不够快。而是卡在通信和文件系统管理上。因为有大量文件需要吞吐，如果文件读取速度太慢，整个训练速度就会卡在那里，相当于大量的GPU在闲置，这就浪费了算力。”

基于此，毫末研发了一套以场景库标签为索引的文件管理系统。针对正常行驶里面各种各样Case场景，包括AEB场景，在每一份数据上都注明它对应的某个驾驶功能在某个场景的表现。通过对象存储、大容量、高性能存储和显存之间互相连接，提升读写速度。

有了这套文件管理系统，智算中心的文件读写速度大幅提升。“在文件读写速度方面，毫末百亿规模的小文件随机读写的延时，可以小于500微秒。只有达到这个水平，才能支撑起来把几十万、几百万的Clip放在一起训练。”艾锐说。

2、GPU超算：智算中心底层优化

在GPU超算方面，为了支持多模型训练，毫末跟火山引擎合作，在底层进行专门优化。具体包括：

计算：毫末打造了lego高性能算子库，目前拥有超过500多个高性能算子。基本上现在神经网络能用到的算子，都有了高性能版本，可以快速适配超过200种的网络结构，支持现在业界主流的网络模型。在框架上，也有相应推训一体高性能框架。

通信：实现了All reduce和All to all的实现。利用廉价CPU，实现除了每秒800G物理带宽之外，能得到更大的虚拟带宽。

框架，采用大模型训练框架，实现了数据、流水、模型的并行，支持SparseMoE混合并行。

众所周知，大模型的数据量非常大，达到千亿级别。如果用常规的训练方式，成本非常贵。为了解决这个问题，MANA OASIS采用SpareMoE方式降低无效计算，并且实现了多机共享和多任务并行，提高计算效率。

比如：车道线大模型，预测模型，标注用的模型等可以关联在一起，同时训练多个任务，节省整体研发时间。

这些措施的最终结果就是：不仅降低了成本，也提高了速度。例如，大模型的训练效率提升100倍左右。

MANA OASIS的价值

花费巨资自建智算中心，对毫末有什么好处？对毫末智能驾驶的用户有什么好处？对自动驾驶企业来说，自建智算中心有什么价值？这笔投资值不值？

对于这些问题，顾维灏形象地回答说：

“士兵上战场都要有个武器。对于AI工程师来讲，他的武器在云端，一个是数据，另一个是拥有的资源，就是用模型来训练这些数据的资源，这就是AI工程师的武器。”

他解释：之前，毫末一直在用公有云的服务，公有云的服务也能解决这个问题。但是，如果自建智算中心，它的针对性会更强，性价比会更高，对需求和要求就更加聚焦，优化也会更加聚焦，用起来也更加方便。这是智算中心带给毫末的很大的收益。

“我觉得，一个自动驾驶公司、一个AI公司的云计算资源没有足够到位，就像士兵上了战场没有武器一样，整个战斗力和迭代速度都会非常不足，能力也就跟不上时代的发展。“顾维灏强调说。

按照毫末智行董事长张凯的预测，2023年，自动驾驶领域将呈现十大趋势。其中包括：

自动驾驶全面进入3.0时代。

高级别智能驾驶将成为中高端车型标配。

大模型在数据合成、知识提取等方面的能力，将助力自动驾驶迭代速度实现量级提升。

超算中心将成为自动驾驶企业的入门配置。

城市导航辅助驾驶将进入重感知阶段，大规模量产交付拉开大幕。

智能驾驶的用户体验将从尝鲜变成用户依赖。

显然，要想在这些大趋势中保持领先，在自动驾驶3.0时代确保先进性，自建智算中心是关键的一环。

自动驾驶3.0时代的显著特征就是三大：大算力，大模型，大数据。无论是海量数据的训练、还是计算能力的演进，无论是重感知能力的达成，还是用户体验的提升，都需要智算中心的鼎力相助。没有智算中心的加持，就很难保持领先。

此外，MANA OASIS对于普通用户的价值，更是非常显著的。

顾维灏解释：自动驾驶的很多感知、认知功能，都是在云服务器上、在智算中心上先完成训练。训练出一定结果和模型后，再把它部署到车上，然后用户才能体验到这些智能驾驶功能。因此，在云上做的工作越多，训练得越精准，精度越高，用户用起来就会更好用。

这也解释了，为什么特斯拉、小鹏、华为等都自建超算中心。

为什么跟火山引擎合作？

发布会上一个令人惊讶的细节是：MANA OASIS是毫末智行与字节旗下的火山引擎共同建设的。

一个是自动驾驶公司，一个是短视频娱乐平台，两者怎么会走到一起呢？火山引擎有什么技术实力，能为毫末地自动驾驶技术提供支持？

如果了解自动驾驶技术的迭代发展，了解文件形态由离散帧向连续帧的进化，就不难理解这个问题。自动驾驶需要收集、存储、处理海量的短视频文件，然后再做出自动驾驶的规划控制。而处理短视频，正是字节抖音的长板。

当然，火山引擎的功能远不止于此，它在智能驾驶、智能座舱、智能营销领域都有布局。

据毫末智行COO侯军介绍：跟火山的合作是双方相互战略解码、战略匹配、战略合作的结果。火山属于字节旗下，在整个数据规模和数据处理能力上非常强，公开数据报道有8亿人在用抖音，它的底层能力很强。

“中国自动驾驶行业现在的特征不是大鱼吃小鱼，而是快鱼吃慢鱼。对于毫末来说，如何保持更快的奔跑速度，为自己助力，是我们最核心的需求，而不是一定要把所有自动驾驶的东西都背在身上。就像今天的电一样，如果每家都要建一个电厂，可能今天这个故事就不用讲了，根本走不通。“

他解释：对于云、数据中心、IDC是自建还是合建等问题，对毫末来说，关键是确保怎么跑得更快。云服务器技术的迭代非常快，无论是摩尔定律或者其他的测试速度，迭代都很快。要保持自己的奔跑速度，就要跟行业中最有特色，最有核心能力的公司一起联合创新，保证毫末在主赛道上的能力是最强、最快的。

MANA OASIS的撒手锏：五个大模型

在本次毫末AI DAY上，还发布了MANA五大模型，五个模型分别应对训练不同的场景，助力毫末自动驾驶能力发展。

1、视频自监督大模型

这个大模型的作用是以极低的成本，把以前积累的离散帧文件自动标注成连续帧文件。

顾维灏介绍，之前，自动驾驶标注数据的常用方法是单帧标注，也就是标注某一个瞬间，每秒只标注1帧，但真实的视频至少每秒10帧以上，中间有很多空隙没有标注。

现在，为了适应自动驾驶的发展，需要把离散单帧转变成连续帧，也就是4D clip短视频形态，这带来了时间、成本等方面的挑战。如果人工把这90%的内容都补齐，成本会非常贵。

为了解决这个问题，毫末做了一套自动标注的方法，这就是视频自监督大模型。

官方介绍，这个模型基本上实现了百分百自动化标注。只需要2%的人工抽检即可，显著节省成本。准确率也非常高，对一些Hard case，例如被车辆遮挡慢慢出现、又进入遮挡状态的骑行者，雨天情况下被桥梁护栏拦在外面的面包车，远距离的一些小目标等等，也可以自动标注。

“视觉自监督大模型是走向业界最前沿的Clip形态，我们基本上用全自动化的方法，低成本的解决了这个问题。有了这个模型，毫末可以把之前积累的几千万的离散帧都转化为Clip，但只消耗了机械算力。“艾锐说。

2、3D重建大模型

这个模型的作用是：通过数据生成，补充稀缺场景，降低感知错误率。

它引入了电商领域常见的NeRF技术。该技术用神经网络来实现三维重建，用少量的图片通过网络学习获得非常好的重建结果。可以生成任意视角下的高真实感图片，以及物体的3D素材。

3D重建大模型作用很大。首先，它可以根据车端提供的部分数据，重建场景，并把场景细节完全数字化，以及做相应视角的调整。“

其次，它可以模拟一些危险的动作，比如用虚拟车撞前面的车辆，获得极限路况下的数据。之前，这些数据只能通过用户驾驶慢慢搜集，因为发生概率低，数据并不全。有了这个技术之后，就可以自动创造危险的Corner Case，自动补充稀缺场景。

再次，它可以模拟光线的调整，以及雪天的效果，夜晚的效果等等，把这些场景制造出来，供自动驾驶训练使用。

这个模型可以为很多算法研发做场景数据补充，让感知困难场景的错误率下降30%以上。

3、多模态互监督大模型

多模态互监督大模型是为了解决BEV算法的缺陷问题，提升对异型障碍物的识别能力。

毫末已经在自动驾驶系统里面采用了业界前沿的BEV算法。经过量产应用，毫末发现：，这种算法对已知物体的感知效果比较好，但对城市工况奇奇怪怪的异形障碍物，感知能力还有一定的缺陷。

毫末的办法是多模态互监督大模型，就是用视觉、激光、毫米波等互相监督，来感知识别通用障碍物或者通用结构。

它的逻辑是：不去关心这个东西语义上是什么含义，只知道它突出得足够高，可能会对车有影响。

“虽然没有语义含义，不知道这是什么东西，但是从通过性角度来说，可以非常准确地告诉系统，这个地方是可通过还是不可通过。这样的话，针对城市环境的很多挑战，就可以让系统应对得非常好。”艾锐说。

概括而言，多模态互监督大模型不仅提升了对异型障碍物的感知能力，也大幅降低了白名单模式带来的成本。

4、动态环境大模型

动态环境大模型是毫末在重感知路线下，尽量降低地图依赖的尝试。

国内道路建设发展太快，比如在北京，每半年时间、每100公里道路拓扑结构的变化，平均可以达到5.06次。因此，为了更好地解决复杂路口通行的问题，毫末对地图的依赖要进一步减弱。

毫末的解决思路是：让系统像人一样实时推断道路上的拓扑结构。人只需要地图导航的引导，同时用自己的眼睛做实时的推断，并进行驾驶。

动态环境大模型也是如此，它让智能驾驶系统根据地图的引导，推断出道路的连接点或分岔点，自己实时生成一个虚拟的车道线，然后自动驾驶过去。

毫末官方介绍，在北京和保定的很多路口都做了测试，对于大部分路口，这个方法可以达到95%的准确率。对一些异形、小路口的通过能力，还在持续改进中。

5、人驾自监督认知大模型

这个模型是为了进一步优化驾驶决策系统，让自动驾驶能力更加拟人化。

数据驱动是自动驾驶发展的主流路线，但毫末经过实践发现，这条路线也存在问题。例如，面对不同司机在同一个场景下不同驾驶方式数据，模型会倾向于拟合出大家的平均水平。

以路口转弯为例，有人在这个路口开得比较好，有人开得一般，有人开得比较差。这些人类驾驶数据一股脑输给模型之后，模型学出来的是普通司机的转弯水平。

但是，工程师希望模型学到高水平的驾驶，不希望它学习不太好的驾驶方式。同时，又不想进行大量的人工标注，因为那会增加时间和精力成本。

为了解决这个问题，毫末借鉴了最近比较火的ChatGPT。ChatGPT模型使用了“利用人类反馈强化学习RLHF”的训练方式，利用人类知识，让模型自己判断答案的质量，逐步提升给出高质量答案的能力。

顾维灏解释：在自动驾驶中，人类司机的每次接管，都是对自动驾驶策略的一次人类反馈。之前，毫末一直把接管数据当简单的负样本用，现在毫末构建了一个“旧策略、接管策略、人工label策略”的pairwise排序模型。并基于这个模型，构建了自动驾驶决策的奖励模型reward model，这个奖励模型reward model解决了上述问题，即如何选出最优的决策。

他说，通过这种方式，在调头、环岛等公认的困难场景，自动驾驶的通过率提升了30%以上。

总结

顾维灏说，在五大模型助力下，毫末的MANA数据智能体系有了最新的车端感知架构。这是一个更加端到端的架构，过去分散的多个下游任务都集成到一起，除了车道线、车辆、红绿灯等任务，还包括通用障碍物识别、局部路网、行为预测等任务，实现了一个跨代升级。

自成立以来，毫末一直在为自动驾驶3.0做准备，在感知、认知、模式建设上，都按照数据驱动方式建设。例如，毫末在中国最早提出重感知技术路线，最早进行技术准备，并做了大量应用实践。

为了重感知技术路线的实施，毫末也完成了数据体系的升级和最新的五大模型部署，MANA OASIS的建成，标志着毫末补齐了奔跑进入自动驾驶3.0时代的另一块拼图，可以为其自动驾驶技术的持续迭代提供充足动力。

在量产应用层面，有了MANA OASIS的加持，毫末的乘用车辅助驾驶产品HPilot将继续发展，更快迈进全无人驾驶时代。

毫末计划，城市导航辅助驾驶在2023年将会交付用户。2024年第一季度，毫末将完成HPilot落地中国100个城市的计划，实现点点互达。到2025年，更大规模全场景的NOH将更快落地。

可以说，MANA OASIS的加持，将支持毫末快步跨入自动驾驶3.0时代。

插混技术详解之比亚迪DM-i系列

⇧置顶

纯电续航105km+馈电油耗5L/100km，奇瑞插混技术详解

⇧置顶