2022年特斯拉人工智能日活动23分钟精剪版

从未名湖畔 2023-03-04 发布于广东

展开全文

当地时间9月30日，2022年特斯拉人工智能日活动在加州Palo Alto举行。马斯克携团队向大家展示了人形机器人，自动驾驶和Dojo项目的最新进展。

本视频采用了Tesla Daily频道的23分钟精剪版翻译而成，方便各位快速回看这个技术盛会的重点演示内容。文章字数约6千5百，翻译内容或有错漏，请多包涵。如果喜欢，欢迎转发，点赞，文末打赏。

源视频：Tesla / 剪辑：Tesla Daily / 翻译及字幕：瓦砾村夫

一人形机器人

埃隆：欢迎来到2022年特斯拉人工智能日！

我们有一些非常激动人心的内容要向你们展示，我想，会让你们印象深刻的。

对于我们的擎小柱机器人，我确实想要设定期望。去年，它只是一个穿着机器人套装的人，但现在，我们已经取得了长足的进步。跟去年相比，它会让人印象深刻的。

我们将谈一谈我们在人工智能，autopilot，以及Dojo方面的进展。我们是不是应该让机器人出场了？

Kate：在那之前，我们有一个小小的提示：这实际上是我们第一次在没有任何后备支持的情况下，试用这个机器人。吊机，机械装置，电缆，什么都没有。

埃隆：我们将向大家展示一些机器人做其他事情的视频。

Milan：我们想再展示一些在过去几个月里，围绕机器人所取得的进展：它四处走动，跳舞。

这只是一个小小的开始，但你们可以看到，autopilot的神经网络正在按原样运行，我们只是直接在新平台上，针对机器人进行了重新训练。

这是我的浇水壶。

埃隆：当你看到渲染视图时，那就是机器人所看到的世界。它可以非常清楚地识别物体，例如，这是它应该拿起的物体。

Milan：我们使用了与autopilot相同的流程来收集数据，并训练神经网络，对于机器人，我们也是这样部署的。

这是一个例子，进一步展示了上半身的功能。我们的确想在接下来的几个月内，完善这部分功能。

Kate：那并不是我们今天唯一要展示的内容，对吗？

埃隆：没错。

你们刚才看到的这个机器人，我们称之为小黄蜂(Bumble C)，那是开发版本的机器人，使用了半现成的驱动器。

但实际上，我们已经更进一步了，我们的团队完成了一项了不起的工作。实际上，我们有一个擎小柱机器人，使用了完全由特斯拉设计生产的驱动器，电池组，控制系统，所有的一切。它还不能行走，但几周之内就可以了。

我们想要展示这个机器人，实际上，它相当接近于投产的标准。我们想要展示它所能做的所有事情，让我们请出机器人。

你可以看到擎小柱，它拥有的自由度就是我们希望第一台量产机所能有的。那就是，独立移动所有手指的能力，拇指有两个自由度。它有对立的拇指，有左手和右手，它能够操作工具，做有用的事情。

我们的目标，是尽快生产一个有用的人形机器人。在设计它的时候，我们也采用了和设计汽车相同的原则，也就是，为了生产而设计。这样才有可能以高产量，低成本，高可靠性地生产机器人。

擎小柱的设计目标是：能力极强，同时产量极高的机器人，最终可能会生产数百万台。而且它的成本预计会比汽车低得多，我想说，可能不到两万美元，这是我的猜测。

它的潜力深不可测，因为你可以说，什么是经济？经济是开展生产的实体数量乘以生产力，人口乘以人均产出。一旦人口数量没有限制，经济究竟意味着什么也就不那么清晰了，经济会接近无穷大。

这意味着，一个富足的未来，一个没有贫穷的未来。到那时，你可以拥有你想要的任何产品和服务，这的确是我们所知人类文明的一个根本性转变。

非常重要的是，把这种理想变成现实的公司实体，需要让公众可以合理的影响。我认为，特斯拉的结构是非常理想的。

Kate：好的，你们今天已经看到了几个机器人，让我们快速的回顾一下时间线。

那个出场为你们表演了才艺的机器人，我们在6个月的时间内就制作完成了，并在此后的1个月内进行了软件集成和硬件升级。

但与此同时，我们也在设计下一代的机器人，这边的这个机器人。这个家伙，植根于车辆设计工艺的基础之上，我们正在利用我们已经拥有的所有这些经验。

重复一下，我们采用了车辆设计的基础，从概念到设计和分析，然后建造和验证。在这个过程中，我们将对成本和效率等方面进行优化，因为最终，这些都是这个产品走向规模化的关键指标。

在躯干的内部，我们安装了电池组。它有2.3度电，这对于一整天的使用来说是完美的配置。接下来是大脑，它不在头部，但很接近。同样在躯干里，我们安装了中央电脑。

如各位所知，特斯拉已经在我们生产的每辆汽车上配备了FSD计算机，我们想利用autopilot的硬件和软件来开发人形机器人平台。但因为它的需求和外形因素不同，我们首先要作出一些改变。

它需要做人脑所做的一切事情：处理视觉数据，根据多传感器输入做出瞬间的决定，还有通信。为了支持通信，它配备了无线连接以及音频支持。

然后，它还具有硬件级别的安全功能，这对于保护机器人和机器人周围的人都很重要。

Nilegen(?)：那么，我们是否能利用我们在汽车端的能力和方法来影响机器人呢？

既然我们有碰撞软件，我们可以使用同样的软件，可以让它摔倒下来，这样做的目的是为了确保：即使摔倒，也只是表面损伤，当然最好是别摔。我们希望它掸一掸灰尘，继续完成它的任务。

我们的驱动器能够举起一架重达半吨，九英尺长的音乐会大钢琴。

机器人手的设计，受到了生物学的启发。我们有五个手指，一个对立的拇指，我们的手指由金属肌腱驱动，既灵活又坚固。我们具有完成大范围用力抓取的能力，同时，也为精准的抓取很薄很小的物体进行了优化。

Milan：我们在视频中所展示的所有这些很酷的内容，都是在短短几个月内完成的。感谢过去几年里我们在autopilot上取得的神奇的进展，大部分的组件都可以很容易地移植到机器人的环境中。

你可以想一想，这只是把轮子上的机器人，转变为长了腿的机器人而已，其中某些组件是非常相似的，而另一些则需要我们付出更多的工作。

例如，我们的计算机视觉神经网络，直接从autopilot移植到了机器人的环境中，我们还在努力寻找方法，利用神经辐射场方面的工作来改进这些占用网络，来获得机器人周围环境很好的体积渲染效果。

例如这里，机器人解读了它需要与什么东西进行互动。

另一个有趣的问题是，在室内环境中，大多数情况都没有GPS信号，你怎么让它导航到目的地呢？我们一直在训练更多的神经网络，在机器人摄像头帧流中识别高频特征和关键点，并在机器人导航环境时，进行跨帧跨时间的追踪。我们利用这些点，更好地估计机器人的姿势，以及它在工作环境中的轨迹。

这是一段视频，演示了在autopilot模拟器中运行运动控制的代码，展示了机器人行走的演变过程。可以看到，四月份项目开始的时候，它的行走速度相当缓慢。在过去几个月里，随着解锁更多关节和更多高级技术，如手臂平衡，它开始加速。

希望到目前为止，你们对我们过去几个月的工作有了很好的了解。我们开始实现一个可用的机器人，但还远远没有达到有用的程度。我们前面还有一条很长，很令人激动的路。

我认为，在未来几周内，我们需要完成的首要任务，是让擎小柱至少达到，甚至超越小黄蜂的水平，你们之前看到的那个机器人原型。

我们还将在我们的一家工厂内，开始专注于真正的使用场景，并致力于真正解决问题，彻底夯实将这个产品部署到现实世界的所有要素：我之前提到过，室内导航，优雅的全面管理，甚至提供服务，规模化这个产品所需的所有组件。

我不知道你们的想法，但在看到我们今晚所展示的内容之后，我很肯定，我们可以在未来几个月或几年内完成这个目标，把这个产品变成现实，并改变整个经济。

我想感谢整个擎小柱团队在过去几个月的努力工作，我认为他们的工作非常出色。所有这一切都是在短短的六到八个月内完成的，非常感谢你们！

二自动驾驶 / FSD Beta

Ashok：嗨，我是Ashok，我和Milan一起领导autopilot团队。

去年的这个时候，大约有2000辆汽车在使用我们的FSD beta软件。自那以后，我们已经大大改进了软件的稳定性和能力。到目前为止，我们已经向16万名客户发布了这个软件。

例如，在过去的一年中，我们训练了75000个神经网络模型，大约每8分钟就完成一个模型的训练。然后，我们在大型计算机集群上进行评估。然后，我们发布了其中281个模型，它们也的确提升了汽车的性能。

这个创新的速度出现在整个技术栈的方方面面：规划软件，基础设施，工具，一切都在朝着更高的水平发展。

让我们用这个十字路口的场景来探讨，autopilot如何进行规划和决策。

我们从侧面小路走到这个十字路口，我们得为所有横穿马路的车辆让路。就在我们即将进入十字路口的时候，路口另一侧的行人决定不走斑马线，横穿马路。现在，我们必须要给这个行人让路，给右边来的车辆让路，我们还要理解行人和路口另一侧的车辆之间的关系，我们需要快速的判断大量物体之间的依赖关系。

而人类在这方面很擅长，我们看到一个场景，理解所有可能的交互，评估最有可能发生的交互，并通常最终选择一个合理的判断。但同样的框架也可以拓展到遮挡物背后的物体。

我们使用来自于八个摄像头的视频源，生成周围世界的三维占用信息。这里的蓝色遮罩，对应的是我们所说的“可见区域”，它基本上会被你在场景中看到的第一个遮挡物挡住。

我们使用这个可见性遮罩，来生成左上角我们所说的“幽灵物体”。如果你对于“幽灵物体”的生成区域和状态转换进行了正确的建模，如果你把控制反应作为存在可能性的一个函数来调整，你就可以提取一些非常好的类似人类的行为。

接下来，请Phil详细介绍一下，我们是如何生成这些占用网络的。

Phil：占用网络接收我们所有八个摄像头的视频流作为输入，直接在向量空间生成一个统一的体占用率。对于我们汽车周围的每个三维位置，它预测该位置被占用的概率。

Tim：让我们谈谈训练的基础设施。

我们已经看了四五个视频，我思考和关心的视频片段数量，远大于此。

我们一直在观看Phil介绍的占用网络，仅仅Phil的视频，就需要14亿帧来训练你们刚才看到的那个网络。如果你有十万个gpu，那就需要一个小时；但如果你只有一个gpu，就需要十万个小时。这个训练任务所需的时间长度，不是你能等得起的，对吧。

我们希望能更快的进行发布，这意味着，我们需要进行并行处理，我们需要更大的算力，而这意味着，我们需要一台超级计算机。

这就是为什么我们在公司内部搭建了三台超级计算机，包括14000个gpu。我们使用其中10000个gpu进行训练，大约4000个gpu用于自动标注。

我可以一直说下去，我刚刚简单介绍了我们内部的两个项目，而这实际上只是为了优化我们内部算力的一个巨大工程的一部分。

通过所有这些优化的积累和整合，我们现在训练占用网络的速度是原来的两倍，因为它的效率翻倍了。如果我们增加更多算力并采用并行计算，就可以在几小时内完成训练，而不是几天。

接下来，我想把舞台交给算力的最大用户，John。

John：大家好，我叫John Emmons，我是autopilot视觉团队的负责人。

我今天要跟大家介绍两个话题：第一，我们如何预测车道；第二，我们如何预测道路上其他对象未来的行为。

好的，最终我们通过这个车道检测网络得到的，是一系列车道的连接性，这是由网络直接计算输出的。这里没有额外的步骤，不需要把密集的预测应用到分散的预测中去，这就是未经过滤的网络的直接输出。

好的，以上我讨论了一些关于车道检测的内容，我会简单讨论下，对于其他物体的未来路径，如何进行建模和预测。我想快速展示一下两个例子。

在右边的视频中，有一辆车闯了红灯，在我们面前转弯。我们处理这种情况的方法，就是对于所有物体，进行一系列短时间周期的未来轨迹的预测。我们可以用这些结果来预测可能发生的危险，并且使用刹车，转向等行为来避免碰撞。

整体来看，autopilot视觉技术栈预测的，不仅仅是周围世界的几何和运动参数，它还能预测丰富的语义，从而实现安全的，类似人的驾驶。

Jaegan：让我们谈谈自动标注。

我们有几种自动标注框架，来支持各种类型的网络。但今天，我想重点介绍这个优秀的车道网络。

这个网络很容易扩展，只要我们有足够的算力和行程数据。在这个场景中，大约有50段行程进行了自动标注，其中一些显示在这里，来自于不同车辆的50段行程。这就是我们捕捉并将世界的时空片断转化为网络监督的过程。

David：以我身后播放的仿真场景为例，旧金山市场街一个复杂的十字路口，艺术家需要两周的时间才能完成设计。这对于我们来说太慢了。

然而，我将谈谈，使用Jaegan的自动基准标注以及一些全新的工具，我们可以在短短五分钟内，过程式的生成这个场景，以及很多类似的场景。这个速度非常惊人，比以前快一千倍。

这个方法为规模和尺度做好了准备。正如你在后面的地图上看到的那样，我们可以很容易地生成旧金山大多数的城市街道。不需要花费数年或者甚至数月的时间，只需要一个人两周的时间。

我们再来回顾一下，因为我们通过基准数据生成了这所有片段数据集，它们包含了现实世界中所有奇怪的错综复杂的情况，我们可以结合过程式的视觉和交通状况的各种变化，创造出无限的目标数据，供网络学习。

仿真部分介绍完毕。下面请Kate谈谈，我们如何利用这些数据来改进autopilot，谢谢。

Kate：这个数据引擎框架适用于我们所有的信号，无论是三维多摄像头视频，无论数据是人工标准，自动标注，还是仿真的，无论是离线模型，还是线上模型。

特斯拉能够大规模的进行优化，这得益于车队优势，得益于我们终端团队所搭建的基础设施，以及为我们网络提供的标注资源。

针对所有这些数据进行训练，我们需要大量的算力。下面请Pete和Ganesh谈谈Dojo超级计算平台。

三超级计算机Dojo

Pete：我经常被问到，为什么一家汽车公司要搭建用于训练的超级计算机？

提出这个问题，其实还是从根本上误解了特斯拉的本质。从本质上讲，特斯拉是一家硬核科技公司。

今晚，我们将稍微介绍Dojo，并给大家同步一下我们在过去一年里所做的事情。

Yaji(?)：去年，我们展示了我们第一个可用的训练瓦。当时，在训练瓦之上已经有负载在运行。

从那时起，整个团队一直在努力勤奋的工作，以能够大规模地进行部署。现在，我们已经取得了惊人的进展，在整个过程中达成了很多里程碑。当然，我们也遇到了很多意外的挑战，正是我们“快速失败”的哲学理念让我们可以突破自己的极限。

通过在每个层面上关注密度，我们可以实现单一加速器的愿景。从我们定制D1芯片上的均匀节点开始，我们可以把它们连接到我们完整集成的培训瓦上，然后，将它们最终无缝连接，跨越机柜的边界，组成我们的Dojo加速器。

总之，一个ExaPOD可以容纳两个加速器，整体达到1 exaflop的机器学习算力。在计算的历史上，这个程度的技术和集成度只出现过几次。

接下来，我们将看到，软件如何利用它来加速性能。

Rajeef(?)：两次局部约简，然后全局约简，朝向位于中间的计算瓦。然后，约简的值在硬件设备的加速下，从中间向外广播辐射。

这个操作在25个Dojo芯片上只需要5微秒的时间，而同样的操作在24个gpu上需要150微秒的时间，相对于gpu，这是一个数量级的改进。

这两个网络的表现如何？

我们将要看到的结果，都是在多芯片的gpu和Dojo系统上进行测算的，但都归一化为单个芯片的数值。

在我们的自动标注网络上，在我们当前的硬件上运行上一代的VRMS，我们已经能够超越A100的性能；在我们的生产硬件上运行我们较新的VRMS，能达到A100吞吐量的两倍。我们的模型显示，通过一些关键的编译器优化，我们可以达到A100三倍以上的性能。

我们在占用网络上看到了更大的飞跃。我们的生产硬件几乎能达到三倍的性能，而且还有更大的提升空间。

而这个Dojo瓦的成本比这些gpu还要低。这意味着，以前需要一个多月进行训练的网络，现在只需要不到一周的时间。

我们从硬件设计开始，突破了传统的整合界限，服务于我们单一巨型加速器的愿景。我们已经看到，应该如何在这个硬件上搭建编译器。

通过这些复杂的现实世界的网络，我们的性能得到了证明。我们也知道了，我们第一次大规模部署的目标应该是什么：我们高计算强度的自动标注网络。

今天，这些网络使用了72个gpu机架上的4000个gpu。凭借我们的密集算力和高性能，我们希望只用四个Dojo机柜就能提供同样的计算吞吐量。这四个Dojo机柜将成为第一个ExaPOD的一部分，我们计划将于2023年一季度搭建，它是特斯拉自动标注能力的两倍多。

第一个exaPOD，是我们计划在帕洛阿尔托建造的七个ExaPOD的一部分，就在这面墙对面。我们有其中一个exaPOD的展示柜，供大家观看。一个托盘上密集排列了六片计算瓦，54 petaflops的算力，640GB的高带宽内存，有电源和主机提供支持。

四结束语

埃隆：我们真心想要展示特斯拉技术的深度和广度，以及人工智能，计算硬件，机器人，驱动器。

我们努力改变人们对于公司的看法... 很多人认为，我们只是一家汽车公司，我们只生产很酷的汽车。但大多数人不知道，特斯拉可以说是现实世界人工智能，硬件和软件的领导者。

而且我们正在搭建可能是第一个... 自Cray-1超级计算机以来，可能是最激进的计算机架构。

如果你致力于开发世界上最先进的技术，真正以积极的方式影响世界，加入特斯拉就对了。

（以上）

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：从未名湖畔 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

从未名湖畔

关注对话

TA的最新馆藏

file_5047101421258639
可能是老黄信息量最大的采访
英伟达CEO黄仁勋：未来10年算力将再提高100万倍
如何通过现金流量表去寻找优质企业？
凯悦集团的百年家族故事 | 案例
冯仑：别为了买房而牺牲日常的幸福

喜欢该文的人也喜欢更多

热门阅读换一换