分享

英伟达用超级芯片粉碎了智能汽车供应链格局

 mrjiangkai 2022-09-24 发布于上海
原创2022-09-23 11:23·汽车商业思维

英伟达在“2022 GTC”中发布了下一代SoC系统,也就是当前大热的Orin系统的接任者——NVIDIA DRIVE Thor。这套系统的出现非常意外,去年英伟达CEO黄仁勋还说会有一个1000TOPS的Atlan,结果今年就直接说Atlan继任者来了,算力达到2000TOPS的Thor。也正因为Thor太强了,并且同样将在2025年装车,所以英伟达就干脆取消了Atlan。

那么到底Thor强在哪里呢?2000TOPS的算力又会怎样改变自动驾驶的生态呢?我们就来详细说一下。

一、Thor是一整套SoC系统,而不是一个芯片的代号

其实不管是Orin,还是更早的Pegasus,都是一套SoC系统。什么叫系统,就是它有个CPU,也有GPU,还有一整套I/O设备。

Thor系统这次最核心的部分就是英伟达把三块最新的处理器整合在了一个产品里面。GPU部分是RTX 40系列的Ada Lovelace,处理Transformer深度神经网络模型引擎的Hopper也有,另外则是强化了CPU部分,是代号为Grace的芯片。

GPU的并行计算一直是英伟达的强项,而这次Grace的加入,让强大的GPU并行计算能力不再受单线程性能的限制。据说,Grace其实是ARM即将发布的全新一代架构,ARM Poseidon AE内核,单线程性能业内最强。

其实现在的Orin也有CPU,同样是ARM Cortex A78微架构。不过可能因为这个CPU需要编译CUDA,所以占用性能很大,也没听说有哪家车企用Orin当座舱芯片。

所以,Thor系统这次相当于全面提升了性能,准备把智能驾驶和智能座舱一把抓。

二、2000TOPS是个啥概念?

很多媒体都在说Thor系统这次算力达到2000TOPS,也就是每秒2000万亿次计算,相当于8倍Orin芯片的算力。听上去确实很棒,但是到底这个数字反映了什么呢?

首先需要注意的是,这里的2000TOPS主要是GPU的算力标准,但是因为英伟达导入了一个FP8,也就是8位浮点精度。这是一个新的数据处理方式。所以英伟达除了标注2000TOPS之外,也给出了浮点运算的算力标准,同样是2000TFLOPS——不同单位、一样数字。

这个是指每秒2000万亿次浮点运算,这就可以衡量CPU的算力了。

这个2000TFLOPS是什么概念呢?我一直没有搞懂,所以就做了一些研究。我大致理解为CPU算力和GPU算力都可以用浮点运算来衡量,所以也就是多少TFLOPS的水平。

大概参照A100的算力做了一个测算,如果把FP8等同于INT8,那么就相当于英伟达A100三倍的算力。A100的FP32单精度,那就是约为20TFLOPS。可以对比的是,英特尔至强处理器icelake的Gold 6348 CPU,对应的单精度算力是4.6TFLOPS,这意味着Thor比Gold 6348处理器的浮点运算性能高出12倍,听上去确实足够可观了。

当然,这只是我个人的一个胡乱计算,如果有错误还请指正。然后另一个简单对比是,骁龙855芯片,也就是8155座舱芯片的原型,为110GFLOPS,光是GFLOPS和TFLOPS单位就有一万倍的差距。

至于自动驾驶到底是用单精度、双精度还是8位浮点精度,这个就不知道了。

三、Thor系统到底是用于自动驾驶还是智能座舱?

现在Orin装车,大多数车企都是自动驾驶芯片用Orin,然后座舱用8155。而这次英伟达表示,有了Thor系统,你不用搞分布式的域控制器了,直接中央计算机就行了,一个Thor系统都能做到。

“想要实现汽车中的主动安全、停车、驾驶员监测、摄像头后视镜、集群和车载信息娱乐系统等功能,通常需要不同的计算机提供支持。”黄仁勋说,而基于Thor芯片的系统则可以将智能汽车的所有功能都集中在单个AI计算机上,车载计算资源的集中化可以将成本降低数百美元。

英伟达设计另一种多域计算的功能,这意味着Thor系统可以为自动驾驶和车载信息娱乐划分任务。制造商也可以多种方式配置Thor超级芯片,将平台的所有2000TFLOPS专用于自动驾驶管道,或者将一部分用于车内AI和信息娱乐,另一部分用于驾驶辅助。并且在一台计算机上,车辆可以同时运行Linux、QNX和Android,这三种分别代表了自动驾驶、功能安全和智能座舱的系统。

这种大统一的计算模式,你可以理解为汽车有了一个电脑主机,处理所有车内的功能。这样一来,车企在迭代和升级系统软件的时候就更简单了,只需要调用Thor的算力就行,而不用再去给每个域控制器分别更新。

实际上,沃尔沃在即将发布的下一代SPA2平台上就是做了中央集成式计算,不过应该不是Thor的系统。而Thor的首发用户是极氪。

如果车企觉得一个芯片不够,那么最新的NVLink-C2C芯片互连技术还可以连接两个,作为运行单个操作系统的单片平台。

四、关于Thor的未来

这次Thor的信息出来真的挺炸裂,可以说英伟达用2000TOPS的超级算力把现在的自动驾驶行业给搞懵了,同时还把高通的美梦打破了。

首先讲一下自动驾驶方面。

现在自动驾驶领域最大的问题就是算力,因为要识别的道路图像太多,再加上800万摄像头的普及,即便是Orin芯片好像也不太够用。这就使得大家会不断研究自己的算法,尽可能用算法去解决算力不足的问题,比如一个新算法用更少的算力,那就是好的。所以现在搞自动驾驶的公司很多,大家都希望能做出一个高效、轻量化的算法。

同时,像通用、蔚来这样的车企也希望在自己的算法上搞出更高效的芯片——专用芯片对应专用算法,那效率就高了。而目前的Orin还是走得通用路线,效率上就不高。

可是现在英伟达拿出了Thor,说两年之后就给你八倍的算力,不够的话两块芯片一起上,那就是16倍的算力。这样的话,现在在250TOPS算力上可能紧紧巴巴过日子,一下就听到可以在4000TOPS上放飞,那还去搞什么算法优化呢?直接敞开弄就行,这样把算法精度迭代起来,识别做得更精准就可以了。

从而造成的几个结果是——

现在算法公司将是第一尴尬的。因为自动驾驶的算法本质上逻辑可能大差不差,各家以前因为算力不足,只能拼命搞优化,或者用更小的数据方式来探测。结果现在算力解放了,大家又回到了起点,这就是英伟达的“暴力美学”。

而第二尴尬的,可能是那些准备搞自研芯片的车企。以前是觉得专用算法、专用芯片,效率高。但自研芯片对于车企来说确实是一件从零到一的事情,就好像小米搞芯片、OPPO搞芯片,都是边缘搞搞。现在英伟达说了,你们搞专用芯片的效率再厉害,有我2000TOPS厉害吗?英伟达纯粹就是大力飞砖。

就像油车和电动车比加速。大马力高了搞了V8还要搞8AT、四驱系统,结果电动车企业一来就是双电机、三电机,同样是“暴力美学”了。

这也让我想起了当年比尔盖茨和乔布斯的逻辑。乔布斯搞麦金塔就是类似于专有程序、专有硬件,对内存的精打细算。比尔盖茨搞wintel就类似这次英伟达搞暴力美学,等你硬件厂商去解决卡的问题。通用他们自研、做自己的算法,专用芯片;老黄就搞暴力美学,以超大算力解决算法精度问题。

所以,这次Thor芯片系统对自动驾驶行业的震动应该很大。

之后英伟达如果再搞点开源自动驾驶的算法,呼吁大家用它的NVIDIA DRIVE软件开发套件,英伟达直接把硬件、生态、算法都搞完了,那估计算法公司就活不下去了,企业团队对应用场景进行一下优化就OK。

接下来英伟达颠覆的领域会是智能座舱。

前面已经说了,8155的算力和Thor差距是以万倍来计算的。当然8155只是座舱芯片,但这也是2018年的ARM微架构,就算8295芯片落地,那也不过是去年的骁龙888的水平。

然而,Thor用上的却是2022年ARM最新的波塞冬架构,手机厂商铺货也是在2023年左右。但是到了2024年底,就能放到Thor上面开始供货。那时候骁龙8295才开始大批量供货,估计还没有回本,上市第二年就成了中端芯片。

所以,英伟达这次超前布局,把Grace和Ada放在一个芯片系统里面,真的是超强策略。对于很多车企来说,自动驾驶功能和智能座舱本身就应该可以作为一个整体的,那么采购一套性能更强的系统是理所当然。

当然,高通也可以选择把新的ARM微架构导入汽车,今年发布、2025年投产也是没问题。但是问题在于,英伟达是把自动驾驶和智能座舱绑定到一块的,而高通还是单独的组件,从车企角度来看能够选择采购一套,当然好过两套。

而且对于车企来说,Thor这种芯片系统拥有绝佳的长尾效应。比如可以通过订阅模式来解决自动驾驶的使用问题——不给钱就把自动驾驶部分的算力锁住,但也没有额外增加硬件成本;而如果消费者要用,也是低边际成本的。

现在回想过来,其实去年英伟达准备收购ARM时估计就准备了这一手——尽管ARM没有收购成功,但是英伟达一直在按照自己的计划一路走下去。

所以,现在像高通这样想要转型智能座舱的大厂也要头疼了。

文|JackieLXX

图|网络

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多