分享

2022年特斯拉人工智能日活动23分钟精剪版

 从未名湖畔 2023-03-04 发布于广东

当地时间9月30日,2022年特斯拉人工智能日活动在加州Palo Alto举行。马斯克携团队向大家展示了人形机器人,自动驾驶和Dojo项目的最新进展。

本视频采用了Tesla Daily频道的23分钟精剪版翻译而成,方便各位快速回看这个技术盛会的重点演示内容。文章字数约6千5百,翻译内容或有错漏,请多包涵。如果喜欢,欢迎转发,点赞,文末打赏。

源视频:Tesla / 剪辑:Tesla Daily / 翻译及字幕:瓦砾村夫

一 人形机器人

埃隆:欢迎来到2022年特斯拉人工智能日!

我们有一些非常激动人心的内容要向你们展示,我想,会让你们印象深刻的。

对于我们的擎小柱机器人,我确实想要设定期望。去年,它只是一个穿着机器人套装的人,但现在,我们已经取得了长足的进步。跟去年相比,它会让人印象深刻的。

我们将谈一谈我们在人工智能,autopilot,以及Dojo方面的进展。我们是不是应该让机器人出场了?

Kate:在那之前,我们有一个小小的提示:这实际上是我们第一次在没有任何后备支持的情况下,试用这个机器人。吊机,机械装置,电缆,什么都没有。

图片

埃隆:我们将向大家展示一些机器人做其他事情的视频。

Milan:我们想再展示一些在过去几个月里,围绕机器人所取得的进展:它四处走动,跳舞。

这只是一个小小的开始,但你们可以看到,autopilot的神经网络正在按原样运行,我们只是直接在新平台上,针对机器人进行了重新训练。

这是我的浇水壶。

埃隆:当你看到渲染视图时,那就是机器人所看到的世界。它可以非常清楚地识别物体,例如,这是它应该拿起的物体。

Milan:我们使用了与autopilot相同的流程来收集数据,并训练神经网络,对于机器人,我们也是这样部署的。

这是一个例子,进一步展示了上半身的功能。我们的确想在接下来的几个月内,完善这部分功能。

图片

Kate:那并不是我们今天唯一要展示的内容,对吗?

埃隆:没错。

你们刚才看到的这个机器人,我们称之为小黄蜂(Bumble C),那是开发版本的机器人,使用了半现成的驱动器。

但实际上,我们已经更进一步了,我们的团队完成了一项了不起的工作。实际上,我们有一个擎小柱机器人,使用了完全由特斯拉设计生产的驱动器,电池组,控制系统,所有的一切。它还不能行走,但几周之内就可以了。

我们想要展示这个机器人,实际上,它相当接近于投产的标准。我们想要展示它所能做的所有事情,让我们请出机器人。

你可以看到擎小柱,它拥有的自由度就是我们希望第一台量产机所能有的。那就是,独立移动所有手指的能力,拇指有两个自由度。它有对立的拇指,有左手和右手,它能够操作工具,做有用的事情。

我们的目标,是尽快生产一个有用的人形机器人。在设计它的时候,我们也采用了和设计汽车相同的原则,也就是,为了生产而设计。这样才有可能以高产量,低成本,高可靠性地生产机器人。

擎小柱的设计目标是:能力极强,同时产量极高的机器人,最终可能会生产数百万台。而且它的成本预计会比汽车低得多,我想说,可能不到两万美元,这是我的猜测。

图片

它的潜力深不可测,因为你可以说,什么是经济?经济是开展生产的实体数量乘以生产力,人口乘以人均产出。一旦人口数量没有限制,经济究竟意味着什么也就不那么清晰了,经济会接近无穷大。

这意味着,一个富足的未来,一个没有贫穷的未来。到那时,你可以拥有你想要的任何产品和服务,这的确是我们所知人类文明的一个根本性转变。

非常重要的是,把这种理想变成现实的公司实体,需要让公众可以合理的影响。我认为,特斯拉的结构是非常理想的。

Kate:好的,你们今天已经看到了几个机器人,让我们快速的回顾一下时间线。

那个出场为你们表演了才艺的机器人,我们在6个月的时间内就制作完成了,并在此后的1个月内进行了软件集成和硬件升级。

图片

但与此同时,我们也在设计下一代的机器人,这边的这个机器人。这个家伙,植根于车辆设计工艺的基础之上,我们正在利用我们已经拥有的所有这些经验。

重复一下,我们采用了车辆设计的基础,从概念到设计和分析,然后建造和验证。在这个过程中,我们将对成本和效率等方面进行优化,因为最终,这些都是这个产品走向规模化的关键指标。

在躯干的内部,我们安装了电池组。它有2.3度电,这对于一整天的使用来说是完美的配置。接下来是大脑,它不在头部,但很接近。同样在躯干里,我们安装了中央电脑。

如各位所知,特斯拉已经在我们生产的每辆汽车上配备了FSD计算机,我们想利用autopilot的硬件和软件来开发人形机器人平台。但因为它的需求和外形因素不同,我们首先要作出一些改变。

图片

它需要做人脑所做的一切事情:处理视觉数据,根据多传感器输入做出瞬间的决定,还有通信。为了支持通信,它配备了无线连接以及音频支持。

然后,它还具有硬件级别的安全功能,这对于保护机器人和机器人周围的人都很重要。

Nilegen(?):那么,我们是否能利用我们在汽车端的能力和方法来影响机器人呢?

既然我们有碰撞软件,我们可以使用同样的软件,可以让它摔倒下来,这样做的目的是为了确保:即使摔倒,也只是表面损伤,当然最好是别摔。我们希望它掸一掸灰尘,继续完成它的任务。

我们的驱动器能够举起一架重达半吨,九英尺长的音乐会大钢琴。

机器人手的设计,受到了生物学的启发。我们有五个手指,一个对立的拇指,我们的手指由金属肌腱驱动,既灵活又坚固。我们具有完成大范围用力抓取的能力,同时,也为精准的抓取很薄很小的物体进行了优化。

图片

Milan:我们在视频中所展示的所有这些很酷的内容,都是在短短几个月内完成的。感谢过去几年里我们在autopilot上取得的神奇的进展,大部分的组件都可以很容易地移植到机器人的环境中。

你可以想一想,这只是把轮子上的机器人,转变为长了腿的机器人而已,其中某些组件是非常相似的,而另一些则需要我们付出更多的工作。

例如,我们的计算机视觉神经网络,直接从autopilot移植到了机器人的环境中,我们还在努力寻找方法,利用神经辐射场方面的工作来改进这些占用网络,来获得机器人周围环境很好的体积渲染效果。

例如这里,机器人解读了它需要与什么东西进行互动。

另一个有趣的问题是,在室内环境中,大多数情况都没有GPS信号,你怎么让它导航到目的地呢?我们一直在训练更多的神经网络,在机器人摄像头帧流中识别高频特征和关键点,并在机器人导航环境时,进行跨帧跨时间的追踪。我们利用这些点,更好地估计机器人的姿势,以及它在工作环境中的轨迹。

这是一段视频,演示了在autopilot模拟器中运行运动控制的代码,展示了机器人行走的演变过程。可以看到,四月份项目开始的时候,它的行走速度相当缓慢。在过去几个月里,随着解锁更多关节和更多高级技术,如手臂平衡,它开始加速。

图片

希望到目前为止,你们对我们过去几个月的工作有了很好的了解。我们开始实现一个可用的机器人,但还远远没有达到有用的程度。我们前面还有一条很长,很令人激动的路。

我认为,在未来几周内,我们需要完成的首要任务,是让擎小柱至少达到,甚至超越小黄蜂的水平,你们之前看到的那个机器人原型。

我们还将在我们的一家工厂内,开始专注于真正的使用场景,并致力于真正解决问题,彻底夯实将这个产品部署到现实世界的所有要素:我之前提到过,室内导航,优雅的全面管理,甚至提供服务,规模化这个产品所需的所有组件。

我不知道你们的想法,但在看到我们今晚所展示的内容之后,我很肯定,我们可以在未来几个月或几年内完成这个目标,把这个产品变成现实,并改变整个经济。

我想感谢整个擎小柱团队在过去几个月的努力工作,我认为他们的工作非常出色。所有这一切都是在短短的六到八个月内完成的,非常感谢你们!

二 自动驾驶 / FSD Beta

Ashok:嗨,我是Ashok,我和Milan一起领导autopilot团队。

图片

去年的这个时候,大约有2000辆汽车在使用我们的FSD beta软件。自那以后,我们已经大大改进了软件的稳定性和能力。到目前为止,我们已经向16万名客户发布了这个软件。

例如,在过去的一年中,我们训练了75000个神经网络模型,大约每8分钟就完成一个模型的训练。然后,我们在大型计算机集群上进行评估。然后,我们发布了其中281个模型,它们也的确提升了汽车的性能。

这个创新的速度出现在整个技术栈的方方面面:规划软件,基础设施,工具,一切都在朝着更高的水平发展。

让我们用这个十字路口的场景来探讨,autopilot如何进行规划和决策。

我们从侧面小路走到这个十字路口,我们得为所有横穿马路的车辆让路。就在我们即将进入十字路口的时候,路口另一侧的行人决定不走斑马线,横穿马路。现在,我们必须要给这个行人让路,给右边来的车辆让路,我们还要理解行人和路口另一侧的车辆之间的关系,我们需要快速的判断大量物体之间的依赖关系。

图片

而人类在这方面很擅长,我们看到一个场景,理解所有可能的交互,评估最有可能发生的交互,并通常最终选择一个合理的判断。但同样的框架也可以拓展到遮挡物背后的物体。

我们使用来自于八个摄像头的视频源,生成周围世界的三维占用信息。这里的蓝色遮罩,对应的是我们所说的“可见区域”,它基本上会被你在场景中看到的第一个遮挡物挡住。

图片

我们使用这个可见性遮罩,来生成左上角我们所说的“幽灵物体”。如果你对于“幽灵物体”的生成区域和状态转换进行了正确的建模,如果你把控制反应作为存在可能性的一个函数来调整,你就可以提取一些非常好的类似人类的行为。

接下来,请Phil详细介绍一下,我们是如何生成这些占用网络的。

Phil:占用网络接收我们所有八个摄像头的视频流作为输入,直接在向量空间生成一个统一的体占用率。对于我们汽车周围的每个三维位置,它预测该位置被占用的概率。

Tim:让我们谈谈训练的基础设施。

我们已经看了四五个视频,我思考和关心的视频片段数量,远大于此。

我们一直在观看Phil介绍的占用网络,仅仅Phil的视频,就需要14亿帧来训练你们刚才看到的那个网络。如果你有十万个gpu,那就需要一个小时;但如果你只有一个gpu,就需要十万个小时。这个训练任务所需的时间长度,不是你能等得起的,对吧。

我们希望能更快的进行发布,这意味着,我们需要进行并行处理,我们需要更大的算力,而这意味着,我们需要一台超级计算机。

这就是为什么我们在公司内部搭建了三台超级计算机,包括14000个gpu。我们使用其中10000个gpu进行训练,大约4000个gpu用于自动标注。

图片

我可以一直说下去,我刚刚简单介绍了我们内部的两个项目,而这实际上只是为了优化我们内部算力的一个巨大工程的一部分。

通过所有这些优化的积累和整合,我们现在训练占用网络的速度是原来的两倍,因为它的效率翻倍了。如果我们增加更多算力并采用并行计算,就可以在几小时内完成训练,而不是几天。

接下来,我想把舞台交给算力的最大用户,John。

John:大家好,我叫John Emmons,我是autopilot视觉团队的负责人。

图片

我今天要跟大家介绍两个话题:第一,我们如何预测车道;第二,我们如何预测道路上其他对象未来的行为。

好的,最终我们通过这个车道检测网络得到的,是一系列车道的连接性,这是由网络直接计算输出的。这里没有额外的步骤,不需要把密集的预测应用到分散的预测中去,这就是未经过滤的网络的直接输出。

好的,以上我讨论了一些关于车道检测的内容,我会简单讨论下,对于其他物体的未来路径,如何进行建模和预测。我想快速展示一下两个例子。

在右边的视频中,有一辆车闯了红灯,在我们面前转弯。我们处理这种情况的方法,就是对于所有物体,进行一系列短时间周期的未来轨迹的预测。我们可以用这些结果来预测可能发生的危险,并且使用刹车,转向等行为来避免碰撞。

整体来看,autopilot视觉技术栈预测的,不仅仅是周围世界的几何和运动参数,它还能预测丰富的语义,从而实现安全的,类似人的驾驶。

Jaegan:让我们谈谈自动标注。

我们有几种自动标注框架,来支持各种类型的网络。但今天,我想重点介绍这个优秀的车道网络。

图片

这个网络很容易扩展,只要我们有足够的算力和行程数据。在这个场景中,大约有50段行程进行了自动标注,其中一些显示在这里,来自于不同车辆的50段行程。这就是我们捕捉并将世界的时空片断转化为网络监督的过程。

David:以我身后播放的仿真场景为例,旧金山市场街一个复杂的十字路口,艺术家需要两周的时间才能完成设计。这对于我们来说太慢了。

图片

然而,我将谈谈,使用Jaegan的自动基准标注以及一些全新的工具,我们可以在短短五分钟内,过程式的生成这个场景,以及很多类似的场景。这个速度非常惊人,比以前快一千倍。

这个方法为规模和尺度做好了准备。正如你在后面的地图上看到的那样,我们可以很容易地生成旧金山大多数的城市街道。不需要花费数年或者甚至数月的时间,只需要一个人两周的时间。

图片

我们再来回顾一下,因为我们通过基准数据生成了这所有片段数据集,它们包含了现实世界中所有奇怪的错综复杂的情况,我们可以结合过程式的视觉和交通状况的各种变化,创造出无限的目标数据,供网络学习。

仿真部分介绍完毕。下面请Kate谈谈,我们如何利用这些数据来改进autopilot,谢谢。

Kate:这个数据引擎框架适用于我们所有的信号,无论是三维多摄像头视频,无论数据是人工标准,自动标注,还是仿真的,无论是离线模型,还是线上模型。

特斯拉能够大规模的进行优化,这得益于车队优势,得益于我们终端团队所搭建的基础设施,以及为我们网络提供的标注资源。

针对所有这些数据进行训练,我们需要大量的算力。下面请Pete和Ganesh谈谈Dojo超级计算平台。

三 超级计算机Dojo

Pete:我经常被问到,为什么一家汽车公司要搭建用于训练的超级计算机?

提出这个问题,其实还是从根本上误解了特斯拉的本质。从本质上讲,特斯拉是一家硬核科技公司。

今晚,我们将稍微介绍Dojo,并给大家同步一下我们在过去一年里所做的事情。

Yaji(?):去年,我们展示了我们第一个可用的训练瓦。当时,在训练瓦之上已经有负载在运行。

从那时起,整个团队一直在努力勤奋的工作,以能够大规模地进行部署。现在,我们已经取得了惊人的进展,在整个过程中达成了很多里程碑。当然,我们也遇到了很多意外的挑战,正是我们“快速失败”的哲学理念让我们可以突破自己的极限。

通过在每个层面上关注密度,我们可以实现单一加速器的愿景。从我们定制D1芯片上的均匀节点开始,我们可以把它们连接到我们完整集成的培训瓦上,然后,将它们最终无缝连接,跨越机柜的边界,组成我们的Dojo加速器。

图片

总之,一个ExaPOD可以容纳两个加速器,整体达到1 exaflop的机器学习算力。在计算的历史上,这个程度的技术和集成度只出现过几次。

接下来,我们将看到,软件如何利用它来加速性能。

Rajeef(?):两次局部约简,然后全局约简,朝向位于中间的计算瓦。然后,约简的值在硬件设备的加速下,从中间向外广播辐射。

这个操作在25个Dojo芯片上只需要5微秒的时间,而同样的操作在24个gpu上需要150微秒的时间,相对于gpu,这是一个数量级的改进。

这两个网络的表现如何?

我们将要看到的结果,都是在多芯片的gpu和Dojo系统上进行测算的,但都归一化为单个芯片的数值。

在我们的自动标注网络上,在我们当前的硬件上运行上一代的VRMS,我们已经能够超越A100的性能;在我们的生产硬件上运行我们较新的VRMS,能达到A100吞吐量的两倍。我们的模型显示,通过一些关键的编译器优化,我们可以达到A100三倍以上的性能。

我们在占用网络上看到了更大的飞跃。我们的生产硬件几乎能达到三倍的性能,而且还有更大的提升空间。

图片

而这个Dojo瓦的成本比这些gpu还要低。这意味着,以前需要一个多月进行训练的网络,现在只需要不到一周的时间。

我们从硬件设计开始,突破了传统的整合界限,服务于我们单一巨型加速器的愿景。我们已经看到,应该如何在这个硬件上搭建编译器。

通过这些复杂的现实世界的网络,我们的性能得到了证明。我们也知道了,我们第一次大规模部署的目标应该是什么:我们高计算强度的自动标注网络。

今天,这些网络使用了72个gpu机架上的4000个gpu。凭借我们的密集算力和高性能,我们希望只用四个Dojo机柜就能提供同样的计算吞吐量。这四个Dojo机柜将成为第一个ExaPOD的一部分,我们计划将于2023年一季度搭建,它是特斯拉自动标注能力的两倍多。

第一个exaPOD,是我们计划在帕洛阿尔托建造的七个ExaPOD的一部分,就在这面墙对面。我们有其中一个exaPOD的展示柜,供大家观看。一个托盘上密集排列了六片计算瓦,54 petaflops的算力,640GB的高带宽内存,有电源和主机提供支持。

图片

四 结束语

埃隆:我们真心想要展示特斯拉技术的深度和广度,以及人工智能,计算硬件,机器人,驱动器。

我们努力改变人们对于公司的看法... 很多人认为,我们只是一家汽车公司,我们只生产很酷的汽车。但大多数人不知道,特斯拉可以说是现实世界人工智能,硬件和软件的领导者。

而且我们正在搭建可能是第一个... 自Cray-1超级计算机以来,可能是最激进的计算机架构。

如果你致力于开发世界上最先进的技术,真正以积极的方式影响世界,加入特斯拉就对了。

图片

(以上)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多