分享

可能是老黄信息量最大的采访

 从未名湖畔 2024-03-10 发布于广东
黄仁勋这次斯坦福两场演讲,后一场信息量贼大,把英伟达基本面最核心的几个点基本都带到了,摘出了重点,给大家节省脑带宽

  • 加速计算本质?
  • 未来的模型训练什么样?
  • 推理芯片的竞争?
  • ASIC的竞争?
  • 何时实现AGI
  • AI需要多少半导体产能?
  • 英伟达为什么做ASIC?

关于加速计算本质
如果我一生中认为最大的技术发展突破,那就是晶体管,但它所实现的最大能力是软件,是人类以可重复的方式在计算上表达我们的想法和算法的能力。我们在过去致力于一种新的计算形式,称为加速计算。通用计算并不适合每一个工作领域,所以我们说为什么不发明一种新的计算方式,解决通用计算不擅长的问题,并且有效地将计算机的计算成本降低到接近零,当你能够将某物的边际成本降低到接近零时,我们就能以一种新的方式做软件,过去是人类编写,现在计算机编写,因为计算成本接近零。所以你可以让计算机去找到代表人类知识的关系和模式。这个奇迹大约在十年前发生了,我们看到了这一点,推动了这一点,将计算机的边际成本降低到零。在过去的10年里,我们将计算成本降低了100万倍。很多人说,但如果你能将计算成本降低100万倍,人们花的钱自然会更少,这恰恰相反,我们发现如果我们能将计算的边际成本降低到接近零,我们可能会用它来做一些非常惊人的事情需求反而显著增长我们售卖的H100服务器是世界上最昂贵的计算机,每片芯片售价2万多美元,但它所取代的系统的电缆成本就超过了芯片价格。这就是我刚刚解释的,我们把整个数据中心压缩成了这一片芯片。

关于未来的模型训练
现在我们训练模型然后应用模型,再训练、再推理,在未来,我们将有持续的训练,甚至我们可以选择是否把训练的结果部署到应用中,甚至AI通过观看视频和文本,从所有的互动中,不断地自我改进学习过程和训练过程。推理过程、训练过程、部署过程、应用过程将变得一体,这就是我们正在做的你会发现一直在训练和推理,这种循环将是持续的强化学习将基于真实世界数据,这些数据是通过互动以及我们实时创造的合成数据获得的,计算机会一直在想,这是否有道理?就像当人类学习时,通过信息片段,然后从第一原则出发,就开始在大脑中进行模拟和想象,那个未来的想象状态以现实的形式呈现给我们。所以,未来的AI计算机也会做类似的事情,它会合成数据,再进行强化学习,再继续以真实世界的经验为基础,它会想象一些事情,然后用真实世界的经验来测试,整个循环就是一个巨大的循环。这就是当你能够将计算成本降低到接近零时,会发生的事情。
(参考之前文章,训练的需求远远被低估...)

关于推理芯片的竞争
今天无论你使用ChatGPT,还是Co-pilot,service now,Mid-Journey,或者Adobe的Firefly,都在进行推理,背后的100%几乎都是用的NVIDIA的GPU,且大多数英伟达被使用的场景也已经变成推理,今天世界上几乎所有的推理都是NVIDIA。现在大家讨论,推理难还是容易?当你看训练时,你会觉得那看起来太难了,我不会去做,我只是一个芯片公司,但这个系统它看起来根本就不像芯片。只是为了证明新东西是否有效,你就要先投入20亿美元,然后你启动了它,发现可能并不能工作。你投入了20亿美元和两年时间,就为了证明它不work。探索新事物的风险对客户来说太高了。所以很多竞争对手倾向于说,那我们不做训练芯片,我们做推理芯片。那我现在告诉你,推理芯片非常难。你以为,推理的响应时间必须非常快,但这还算简单的,因为这是计算机科学部分,算是容易的部分。难得部分是,推理的难点在于,部署推理的人的目标,是吸引更多的用户,将该软件应用于庞大的安装用户基础因此,推理是一个关于安装基础的问题,这与在iPhone上线APP是一样的,他们选择iphone开发APP的原因是iPhone有一个如此庞大的安装基础,几乎每个人都有一部,所以如果你为那部手机编写了一个应用程序,将受益于它的用户量,能够惠及每个人。换成Nvidia的背景板,我们的加速计算平台CUDA是唯一一个真正无处不在的加速计算平台,因为我们已经在这方面工作了很长时间。如果你为推理编写了一个应用程序,并且你将模型部署在Nvidia架构上,它可以在任何地方运行,所以你能够触及每个人,模型能够产生更大的影响力。所以推理的问题实际上是安装基础问题,这需要巨大的耐心和多年的成功、以及对架构兼容性的持续贡献。

关于ASIC的竞争
我们不仅有来自竞争对手的竞争,我们还有来自客户的竞争(云厂),而且我是他们眼中唯一的竞争对手。而且我们明明知道客户即将设计一款芯片来取代我们,我还要继续向他们展示我目前的芯片、下一代的芯片,以及之后的芯片,各种秘密。这样做的原因是,你要常识让他们相信你在这个领域是最好,他们才会不得不选择你。因此,我们都是完全透明的。诚然你可以为特定的算法构建一款优秀的芯片(ASIC),但记住,计算不仅仅是关于transformer,更何况我们正在不断地发明新的transformer变种,除此之外,软件的种类非常丰富,因为软件工程师就喜欢创造新玩意儿。Nvidia擅长的是加速计算,我们的架构不仅能加速算法,而且是可编程的,这意味着你可以用它来处理SQL(SQL自20世纪60年代IBM以来就出现了,它是存储计算中非常重要的部分,每几年就有300ZB的数据被创造出来,其中大部分都存储在SQL结构化数据库中),我们可以加速量子物理、加速所有的流体和粒子代码等等广泛领域,其中之一才是生成式AI。对于那些希望拥有大量客户的数据中心来说,无论是金融服务还是制造业等,我们都是一个最棒的标准。我们存在于每一个云服务中,存在于每一个计算机公司中。因此,我们公司的架构经过大约30年成为了一种标准。这就是我们的优势。如果客户能够有更具成本效益的替代方案,我甚至会为此感到惊讶。原因是,当你看到现在的计算机时,它不像笔记本电脑,它是一个数据中心,你需要运营它。因此,购买和销售芯片的人仅仅考虑的是芯片的价格,而运营数据中心的人考虑的是整个运营成本、部署时间、性能、利用率以及在所有这些不同应用中的灵活性。总的来说,我们的总运营成本(TCO)非常好,即使竞争对手的芯片是免费的,最终算下来它也不够便宜我们的目标是增加如此多的价值,以至于替代品不仅仅是关于成本的问题。当然,这需要大量的努力,我们必须不断创新,我们不能对任何事掉以轻心。我本来希望不要听起来太有竞争性,但约翰问了一个竞争问题,我以为这是个学术论坛....这触发了我的竞争基因,我道歉,我本可以更艺术地处理这个问题。(哄笑)

什么时候我们能实现AGI?是50年后还是5年后?
我会给出一个非常具体的答案,但首先让我告诉你一些正在发生的非常令人兴奋的事情。首先,我们正在训练的这些模型是多模态,这意味着我们将从声音中学习,从文字中学习,从视觉中学习,就像我们所有人一样,看电视并从中学习。这很重要,因为我们希望AI不仅仅是基于人类去grounded,当然这是ChatGPT真正创新的地方,也就是RLHF。但直到强化学习,人类将AI都锚定在我们认为好的人类价值观上。现在,你能想象,你必须生成图像和视频,AI知道手不会穿透讲台,踩在水上时你会掉进去,所以现在AI开始锚定在物理上。现在,AI观看大量不同的例子,比如视频,来学习这个世界被遵守的规律。它必须创建一个所谓的世界模型。所以,我们必须理解多模态性,还有其他模态,比如基因、氨基酸、蛋白质、细胞等等。
第二点,就是AI会具有更强更强的推理能力,我们人类所做的很多推理,都编码在常识中。常识是我们所有人类认为理所当然的能力。互联网上有很多我们已经编码好的推理和知识,模型可以学习。但还有更高层次的推理能力,例如现在你问我问题,大部分的问题,我的确像生成式模型一样快速生成,我不需要太多的reasoning,但有些问题,我需要想想,也就是规划planning,“很有趣,让我想想”,我可能是在脑海中循环它,我提出了多个计划,遍历我的知识树tree和graph,修剪我的树,“这个没有意义,但这个我可以去做”也就是我会在脑海中模拟仿真运行它,也许我会做一些计算等等。我的意思是,今天的很多“long thinking”,AI并不擅长。你输入到ChatGPT的一切,它都会立即回应。我们希望输入到ChatGPT的某个问题,给它一个目标,给它一个使命,它能思考一会儿。所以,这种系统,计算机科学称之为系统2,或者长思考,或规划。我认为我们正在研究这些事情,你将看到一些突破。所以在未来,你与人工智能的互动方式将会非常不同。有些只是给我一个问题,我会给你答案。有些是说,这里有一个问题,去工作一会儿,明天告诉我。它会做尽可能多的计算。(注:这种算力需求爆炸了...别算一句话平均多少token了...甚至人均多少token都是没意义的) 你也可以说,我给你这个问题,你可以花费1000美元,但不要超过这个数额,然后它会在明天给出最好的答案。
所以,回到AGI的问题,AGI的定义是什么?事实上,这现在是最先需要回答的问题。如果你问我,如果你说Jensen,AGI是一系列测试的列表,记住,尤其工程师最明白,任何组织中,你需要有一个规格,你需要知道产品成功的标准,你需要有一个测试。如果我给你一个AI很多数学测试、推理测试、历史测试、生物学测试、医学考试,以及律师考试,甚至包括SAT、MCAT等等,你把这些测试列出来,摆在计算机科学行业面前,我猜在5年内就会在每一个测试上都做得很好。所以,如果你对AGI的定义是通过人类的测试,那么我会告诉你,五年我们会通过所有的测试。但如果你稍微换一种方式问我,AGI是拥有人类的智能,那么我不确定如何具体定义人类的所有智能,没有人真正知道,因此这很难实现,但我们都在努力让它变得更好。

为了支持AI的增长,需要多少额外的芯片产能?
关于预测,实际上我很糟糕,但我非常擅长基于第一原则推演机会的大小。我不知道有多少FAB,但我知道的是,我们今天做的计算,信息是别人写的、或者由某人创造的,基本上是预先记录下来的。我说的是每件事,每个字、语音、视频,都是检索式的,有人写好了它并存储在某个地方,然后你去检索它,你知道的每一种模态过去都是这样。在未来,因为我们的AI可以接入世界上所有的最新新闻等,也就是可以检索,它理解你的上下文,意味着它理解你问什么,关键是,大部分计算将是生成式的。今天的100%内容是预先录制的。如果在未来,100%的内容将是生成式的,问题是这将如何改变计算的形态。所以,这就是我推演这个问题的方式(需要多少芯片),比如我们需要更多的网络吗?我们需要更多的内存吗?简单说,我们是需要更多的fab然而,我们也在不断改进算法和处理过程,效率在时间上有了巨大的提升。并不是说计算的效率就是今天这样,因此需求就是这么多。与此同时,我每10年都在提高计算能力一百万倍,而需求却增长一万亿倍,这两者必须相互抵消。(仔细听了3遍,的确是这个数量级...算出来太夸张了,可能万亿只是一种形容方式...)然后还有技术扩散等等,这只是时间问题,但这并不改变这样一个事实:总有一天,世界上所有的计算机都将100%地改变,每一个数据中心,价值数万亿美元的基础设施,将完全改变,然后在这之上还会建造新的基础设施。

为什么英伟达开始想做ASIC?
我们是否愿意定制化?是的,我们愿意。为什么现在的门槛相对较高?因为我们平台的每一代产品首先有GPU,有CPU,有网络处理器,有软件,还有两种类型的交换机。我为一代产品建造了五个芯片,人们以为只有GPU一个芯片,但实际上是五个不同的芯片,每个芯片的研发成本都是数亿美元,仅仅是为了达到我们所说的“发布”标准,然后你必须将它们集成到一个系统中,然后你还需要网络设备、收发送器、光纤设备,以及大量的软件。运行一个像这个房间这么大的计算机,需要大量的软件,所以这一切都很复杂。如果定制化的需求差异太大,那么你必须重复整个研发过程。然而,如果定制化能够利用现有的一切,并在此基础上增加一些东西,那么这就非常有意义了。也许是一个专有的安全系统,也许是一个加密计算系统,也许是一个新的数值处理方式,还有更多,我们对这些非常开放。我们的客户知道我愿意做所有这些事情,并认识到,如果你改变得太多,你基本上就全部重置了,浪费了近千亿美元。所以他们希望在我们的生态系统中尽可能地利用这些(减少重置成本)。(这个回答需要仔细揣摩,有更多思考的欢迎后台私信讨论)

最后是几个增量信息:

Marvel业绩会后的callback公司澄清,预计ASIC在FY4Q25结束时的run rate将远高于之前说的2亿美元/季度,受AI的“显著”推动,预计全年交付远高于8亿美元。AI项目中有两个项目很重要,其中一个非常大。交换机和DSP产品推进到3nm,以及更进一步的2nm。运营商和企业市场,预计四月季度将是底部,增长将在下半年更加显著地恢复。但提到利润率时又略显保守,又说企业网络和存储的反弹情况还有点不确定。预计下一季度的光学(DSP等)同比增长强劲。

关于HBM4标准放宽,影响Hybrid Bonding,Barclays的分析:据报道,HBM4的标准已经设定,这可能会推迟混合键合技术的采用。我们本周与韩国内存厂商的会议也表明,采用时间比之前预期的要晚,这可能会推迟HB的采用。科技媒体ZDNET Korea(2024年3月8日)报道,JEDEC已经设定了12层和16层HBM4(下一代高带宽内存)的行业标准,与前一代HBM3的720微米相比,HBM封装的厚度已放宽至775微米。如果属实,意味着16层HBM目前不需要混合键合,可以使用现有的键合技术。我们最近举办了Besi公司CEO的谈话,他说如果封装高度保持不变,那么这可能会加速混合键合的采用,因为这是在不超出现有高度限制的情况下,从12层增加到16层的唯一方式。但我们本周与亚洲的ODMs、供应链和半导体公司进行了交流,根据他们的反馈,HBM4最初将是12层,并使用现有技术,意味着内存厂商将探索所有选项,16层的混合键合不是唯一选择,正在与现有技术一起探索。无论JEDEC规格是否有任何变化,看起来HBM4最初都不会采用Hybrid Bonding。当然,高度厚度只是采用HB的一个原因,另一个好处是增加互连密度,也只能通过HB实现,因此继续看到HBM在某个时刻转向HB。在我们看来,Besi管理层最近一直在试图降低预期,我们预计HBM采用hybrid bonding可能在2025年底。

某行亚洲供应链调研:H100的第四季度销量约为72万颗,预计在第一季度将增加到约81万颗,第二季度预计提高到约85万颗。测试产能预计将在第二季度/第三季度末从每月30万颗增加到40万颗,但增长将是渐进的。在下半年,H/B系列的总产能将从每月40万颗增加到50万颗。供应链尚未获得B100的初步预测,但指出测试通常需要六个月,且已在第一季度开始。ODMs预计B100的实质性出货要到2024年第四季度末/2025年第一季度初,这比最初预计的第三季度来得晚一些。L系列之前预计在第四季度为30万颗,第一季度为60万颗,现在预计每月约为10万颗,并且在下半年随着NVDA寻找向CN销售的方法,可能会更加稳健。ODMs谈到了AMD约50万颗的销量,而NVDA为400万颗,代表AMD在2024年的单位份额为11%。这个数字乍看之下似乎有些过于乐观,但ODMs越来越多地谈到了AMD预计在今年下半年推出的新设计。

上述出现的报告放星球了

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多