可能是老黄信息量最大的采访

从未名湖畔 2024-03-10 发布于广东

展开全文

黄仁勋这次斯坦福两场演讲，后一场信息量贼大，把英伟达基本面最核心的几个点基本都带到了，摘出了重点，给大家节省脑带宽

加速计算本质？
未来的模型训练什么样？
推理芯片的竞争？
ASIC的竞争？
何时实现AGI？
AI需要多少半导体产能？
英伟达为什么做ASIC？

关于加速计算本质

如果我一生中认为最大的技术发展突破，那就是晶体管，但它所实现的最大能力是软件，是人类以可重复的方式在计算上表达我们的想法和算法的能力。我们在过去致力于一种新的计算形式，称为加速计算。通用计算并不适合每一个工作领域，所以我们说为什么不发明一种新的计算方式，解决通用计算不擅长的问题，并且有效地将计算机的计算成本降低到接近零，当你能够将某物的边际成本降低到接近零时，我们就能以一种新的方式做软件，过去是人类编写，现在计算机编写，因为计算成本接近零。所以你可以让计算机去找到代表人类知识的关系和模式。这个奇迹大约在十年前发生了，我们看到了这一点，推动了这一点，将计算机的边际成本降低到零。在过去的10年里，我们将计算成本降低了100万倍。很多人说，但如果你能将计算成本降低100万倍，人们花的钱自然会更少，这恰恰相反，我们发现如果我们能将计算的边际成本降低到接近零，我们可能会用它来做一些非常惊人的事情，需求反而显著增长。我们售卖的H100服务器是世界上最昂贵的计算机，每片芯片售价2万多美元，但它所取代的系统的电缆成本就超过了芯片价格。这就是我刚刚解释的，我们把整个数据中心压缩成了这一片芯片。

关于未来的模型训练

现在我们训练模型然后应用模型，再训练、再推理，在未来，我们将有持续的训练，甚至我们可以选择是否把训练的结果部署到应用中，甚至AI通过观看视频和文本，从所有的互动中，不断地自我改进学习过程和训练过程。推理过程、训练过程、部署过程、应用过程将变得一体，这就是我们正在做的。你会发现一直在训练和推理，这种循环将是持续的。强化学习将基于真实世界数据，这些数据是通过互动以及我们实时创造的合成数据获得的，计算机会一直在想，这是否有道理？就像当人类学习时，通过信息片段，然后从第一原则出发，就开始在大脑中进行模拟和想象，那个未来的想象状态以现实的形式呈现给我们。所以，未来的AI计算机也会做类似的事情，它会合成数据，再进行强化学习，再继续以真实世界的经验为基础，它会想象一些事情，然后用真实世界的经验来测试，整个循环就是一个巨大的循环。这就是当你能够将计算成本降低到接近零时，会发生的事情。

（参考之前文章，训练的需求远远被低估...）

关于推理芯片的竞争

今天无论你使用ChatGPT，还是Co-pilot，service now，Mid-Journey，或者Adobe的Firefly，都在进行推理，背后的100%几乎都是用的NVIDIA的GPU，且大多数英伟达被使用的场景也已经变成推理，今天世界上几乎所有的推理都是NVIDIA。现在大家讨论，推理难还是容易？当你看训练时，你会觉得那看起来太难了，我不会去做，我只是一个芯片公司，但这个系统它看起来根本就不像芯片。只是为了证明新东西是否有效，你就要先投入20亿美元，然后你启动了它，发现可能并不能工作。你投入了20亿美元和两年时间，就为了证明它不work。探索新事物的风险对客户来说太高了。所以很多竞争对手倾向于说，那我们不做训练芯片，我们做推理芯片。那我现在告诉你，推理芯片非常难。你以为，推理的响应时间必须非常快，但这还算简单的，因为这是计算机科学部分，算是容易的部分。难得部分是，推理的难点在于，部署推理的人的目标，是吸引更多的用户，将该软件应用于庞大的安装用户基础。因此，推理是一个关于安装基础的问题，这与在iPhone上线APP是一样的，他们选择iphone开发APP的原因是iPhone有一个如此庞大的安装基础，几乎每个人都有一部，所以如果你为那部手机编写了一个应用程序，将受益于它的用户量，能够惠及每个人。换成Nvidia的背景板，我们的加速计算平台CUDA是唯一一个真正无处不在的加速计算平台，因为我们已经在这方面工作了很长时间。如果你为推理编写了一个应用程序，并且你将模型部署在Nvidia架构上，它可以在任何地方运行，所以你能够触及每个人，模型能够产生更大的影响力。所以推理的问题实际上是安装基础问题，这需要巨大的耐心和多年的成功、以及对架构兼容性的持续贡献。

关于ASIC的竞争

我们不仅有来自竞争对手的竞争，我们还有来自客户的竞争（云厂），而且我是他们眼中唯一的竞争对手。而且我们明明知道客户即将设计一款芯片来取代我们，我还要继续向他们展示我目前的芯片、下一代的芯片，以及之后的芯片，各种秘密。这样做的原因是，你要常识让他们相信你在这个领域是最好，他们才会不得不选择你。因此，我们都是完全透明的。诚然你可以为特定的算法构建一款优秀的芯片（ASIC），但记住，计算不仅仅是关于transformer，更何况我们正在不断地发明新的transformer变种，除此之外，软件的种类非常丰富，因为软件工程师就喜欢创造新玩意儿。Nvidia擅长的是加速计算，我们的架构不仅能加速算法，而且是可编程的，这意味着你可以用它来处理SQL（SQL自20世纪60年代IBM以来就出现了，它是存储计算中非常重要的部分，每几年就有300ZB的数据被创造出来，其中大部分都存储在SQL结构化数据库中），我们可以加速量子物理、加速所有的流体和粒子代码等等广泛领域，其中之一才是生成式AI。对于那些希望拥有大量客户的数据中心来说，无论是金融服务还是制造业等，我们都是一个最棒的标准。我们存在于每一个云服务中，存在于每一个计算机公司中。因此，我们公司的架构经过大约30年成为了一种标准。这就是我们的优势。如果客户能够有更具成本效益的替代方案，我甚至会为此感到惊讶。原因是，当你看到现在的计算机时，它不像笔记本电脑，它是一个数据中心，你需要运营它。因此，购买和销售芯片的人仅仅考虑的是芯片的价格，而运营数据中心的人考虑的是整个运营成本、部署时间、性能、利用率以及在所有这些不同应用中的灵活性。总的来说，我们的总运营成本（TCO）非常好，即使竞争对手的芯片是免费的，最终算下来它也不够便宜！我们的目标是增加如此多的价值，以至于替代品不仅仅是关于成本的问题。当然，这需要大量的努力，我们必须不断创新，我们不能对任何事掉以轻心。我本来希望不要听起来太有竞争性，但约翰问了一个竞争问题，我以为这是个学术论坛....这触发了我的竞争基因，我道歉，我本可以更艺术地处理这个问题。（哄笑）

什么时候我们能实现AGI？是50年后还是5年后？

我会给出一个非常具体的答案，但首先让我告诉你一些正在发生的非常令人兴奋的事情。首先，我们正在训练的这些模型是多模态，这意味着我们将从声音中学习，从文字中学习，从视觉中学习，就像我们所有人一样，看电视并从中学习。这很重要，因为我们希望AI不仅仅是基于人类去grounded，当然这是ChatGPT真正创新的地方，也就是RLHF。但直到强化学习，人类将AI都锚定在我们认为好的人类价值观上。现在，你能想象，你必须生成图像和视频，AI知道手不会穿透讲台，踩在水上时你会掉进去，所以现在AI开始锚定在物理上。现在，AI观看大量不同的例子，比如视频，来学习这个世界被遵守的规律。它必须创建一个所谓的世界模型。所以，我们必须理解多模态性，还有其他模态，比如基因、氨基酸、蛋白质、细胞等等。

第二点，就是AI会具有更强更强的推理能力，我们人类所做的很多推理，都编码在常识中。常识是我们所有人类认为理所当然的能力。互联网上有很多我们已经编码好的推理和知识，模型可以学习。但还有更高层次的推理能力，例如现在你问我问题，大部分的问题，我的确像生成式模型一样快速生成，我不需要太多的reasoning，但有些问题，我需要想想，也就是规划planning，“很有趣，让我想想”，我可能是在脑海中循环它，我提出了多个计划，遍历我的知识树tree和graph，修剪我的树，“这个没有意义，但这个我可以去做”也就是我会在脑海中模拟仿真运行它，也许我会做一些计算等等。我的意思是，今天的很多“long thinking”，AI并不擅长。你输入到ChatGPT的一切，它都会立即回应。我们希望输入到ChatGPT的某个问题，给它一个目标，给它一个使命，它能思考一会儿。所以，这种系统，计算机科学称之为系统2，或者长思考，或规划。我认为我们正在研究这些事情，你将看到一些突破。所以在未来，你与人工智能的互动方式将会非常不同。有些只是给我一个问题，我会给你答案。有些是说，这里有一个问题，去工作一会儿，明天告诉我。它会做尽可能多的计算。（注：这种算力需求爆炸了...别算一句话平均多少token了...甚至人均多少token都是没意义的）你也可以说，我给你这个问题，你可以花费1000美元，但不要超过这个数额，然后它会在明天给出最好的答案。

所以，回到AGI的问题，AGI的定义是什么？事实上，这现在是最先需要回答的问题。如果你问我，如果你说Jensen，AGI是一系列测试的列表，记住，尤其工程师最明白，任何组织中，你需要有一个规格，你需要知道产品成功的标准，你需要有一个测试。如果我给你一个AI很多数学测试、推理测试、历史测试、生物学测试、医学考试，以及律师考试，甚至包括SAT、MCAT等等，你把这些测试列出来，摆在计算机科学行业面前，我猜在5年内就会在每一个测试上都做得很好。所以，如果你对AGI的定义是通过人类的测试，那么我会告诉你，五年我们会通过所有的测试。但如果你稍微换一种方式问我，AGI是拥有人类的智能，那么我不确定如何具体定义人类的所有智能，没有人真正知道，因此这很难实现，但我们都在努力让它变得更好。

为了支持AI的增长，需要多少额外的芯片产能？

关于预测，实际上我很糟糕，但我非常擅长基于第一原则推演机会的大小。我不知道有多少FAB，但我知道的是，我们今天做的计算，信息是别人写的、或者由某人创造的，基本上是预先记录下来的。我说的是每件事，每个字、语音、视频，都是检索式的，有人写好了它并存储在某个地方，然后你去检索它，你知道的每一种模态过去都是这样。在未来，因为我们的AI可以接入世界上所有的最新新闻等，也就是可以检索，它理解你的上下文，意味着它理解你问什么，关键是，大部分计算将是生成式的。今天的100%内容是预先录制的。如果在未来，100%的内容将是生成式的，问题是这将如何改变计算的形态。所以，这就是我推演这个问题的方式（需要多少芯片），比如我们需要更多的网络吗？我们需要更多的内存吗？简单说，我们是需要更多的fab。然而，我们也在不断改进算法和处理过程，效率在时间上有了巨大的提升。并不是说计算的效率就是今天这样，因此需求就是这么多。与此同时，我每10年都在提高计算能力一百万倍，而需求却增长一万亿倍，这两者必须相互抵消。（仔细听了3遍，的确是这个数量级...算出来太夸张了，可能万亿只是一种形容方式...）然后还有技术扩散等等，这只是时间问题，但这并不改变这样一个事实：总有一天，世界上所有的计算机都将100%地改变，每一个数据中心，价值数万亿美元的基础设施，将完全改变，然后在这之上还会建造新的基础设施。

为什么英伟达开始想做ASIC？

我们是否愿意定制化？是的，我们愿意。为什么现在的门槛相对较高？因为我们平台的每一代产品首先有GPU，有CPU，有网络处理器，有软件，还有两种类型的交换机。我为一代产品建造了五个芯片，人们以为只有GPU一个芯片，但实际上是五个不同的芯片，每个芯片的研发成本都是数亿美元，仅仅是为了达到我们所说的“发布”标准，然后你必须将它们集成到一个系统中，然后你还需要网络设备、收发送器、光纤设备，以及大量的软件。运行一个像这个房间这么大的计算机，需要大量的软件，所以这一切都很复杂。如果定制化的需求差异太大，那么你必须重复整个研发过程。然而，如果定制化能够利用现有的一切，并在此基础上增加一些东西，那么这就非常有意义了。也许是一个专有的安全系统，也许是一个加密计算系统，也许是一个新的数值处理方式，还有更多，我们对这些非常开放。我们的客户知道我愿意做所有这些事情，并认识到，如果你改变得太多，你基本上就全部重置了，浪费了近千亿美元。所以他们希望在我们的生态系统中尽可能地利用这些（减少重置成本）。（这个回答需要仔细揣摩，有更多思考的欢迎后台私信讨论）

最后是几个增量信息：

Marvel业绩会后的callback：公司澄清，预计ASIC在FY4Q25结束时的run rate将远高于之前说的2亿美元/季度，受AI的“显著”推动，预计全年交付远高于8亿美元。AI项目中有两个项目很重要，其中一个非常大。交换机和DSP产品推进到3nm，以及更进一步的2nm。运营商和企业市场，预计四月季度将是底部，增长将在下半年更加显著地恢复。但提到利润率时又略显保守，又说企业网络和存储的反弹情况还有点不确定。预计下一季度的光学（DSP等）同比增长强劲。

关于HBM4标准放宽，影响Hybrid Bonding，Barclays的分析：据报道，HBM4的标准已经设定，这可能会推迟混合键合技术的采用。我们本周与韩国内存厂商的会议也表明，采用时间比之前预期的要晚，这可能会推迟HB的采用。科技媒体ZDNET Korea（2024年3月8日）报道，JEDEC已经设定了12层和16层HBM4（下一代高带宽内存）的行业标准，与前一代HBM3的720微米相比，HBM封装的厚度已放宽至775微米。如果属实，意味着16层HBM目前不需要混合键合，可以使用现有的键合技术。我们最近举办了Besi公司CEO的谈话，他说如果封装高度保持不变，那么这可能会加速混合键合的采用，因为这是在不超出现有高度限制的情况下，从12层增加到16层的唯一方式。但我们本周与亚洲的ODMs、供应链和半导体公司进行了交流，根据他们的反馈，HBM4最初将是12层，并使用现有技术，意味着内存厂商将探索所有选项，16层的混合键合不是唯一选择，正在与现有技术一起探索。无论JEDEC规格是否有任何变化，看起来HBM4最初都不会采用Hybrid Bonding。当然，高度厚度只是采用HB的一个原因，另一个好处是增加互连密度，也只能通过HB实现，因此继续看到HBM在某个时刻转向HB。在我们看来，Besi管理层最近一直在试图降低预期，我们预计HBM采用hybrid bonding可能在2025年底。

某行亚洲供应链调研：H100的第四季度销量约为72万颗，预计在第一季度将增加到约81万颗，第二季度预计提高到约85万颗。测试产能预计将在第二季度/第三季度末从每月30万颗增加到40万颗，但增长将是渐进的。在下半年，H/B系列的总产能将从每月40万颗增加到50万颗。供应链尚未获得B100的初步预测，但指出测试通常需要六个月，且已在第一季度开始。ODMs预计B100的实质性出货要到2024年第四季度末/2025年第一季度初，这比最初预计的第三季度来得晚一些。L系列之前预计在第四季度为30万颗，第一季度为60万颗，现在预计每月约为10万颗，并且在下半年随着NVDA寻找向CN销售的方法，可能会更加稳健。ODMs谈到了AMD约50万颗的销量，而NVDA为400万颗，代表AMD在2024年的单位份额为11%。这个数字乍看之下似乎有些过于乐观，但ODMs越来越多地谈到了AMD预计在今年下半年推出的新设计。

上述出现的报告放星球了