英伟达GTC大会万字纪要

learnmachine 2023-03-22 发布于上海

展开全文

产业调研系列

欢迎来到GTC大会，GTC是我们面向开发者的一场盛会，这个全球NVIDIA生态系统涵盖400万开发者、4万家公司和1.4万家初创公司。感谢我们的钻石赞助商，他们为我们提供大力支持并助力2023年GTC大会取得巨大成功。GTC大会的发展令人难以置信，就在四年前，我们的线下GTC大会还只有8000名与会者。在2023年GTC大会上，阿贡实验室的Valeri Taylor、Adobe的Scott Belsky、Netflix的Paul Debevec、苏黎世联邦理工学院的Thomas Schulthess等领导者学习，并且我还将与创造出ChatGPT的OpenAI公司的联合创始人Ilya Sutskever进行一场特别的讨论。

来自学术界和全球大型行业的精英奖带来650场精彩演讲：仅与生成式AI相关的演讲就超过70场。其他精彩演讲，例如适用于机器人开发的预训练多任务模型，还有推进AI发展的重要方法——合成数据生成的演讲，包括如何使用Isaac Sim生成基于物理性质的激光雷达点云。还有一系列关于数字孪生的演讲，从使用AI拓展未来的虚拟工厂，到重现遗失了的古罗马马赛克艺术作品，内容多种多样。

有关于计算仪器的炫酷演讲，包括巨型光学望远镜和光子计数CT，以及用于碳捕获和太阳能电池的材料科学以及气候科学的讨论，及我们在Earth-2上所做的工作。NVIDIA研究团队也将带来重要演讲，探讨关于值得信赖的AI和AI安全等议题。还有从微芯片的计算光刻技术，到制造最小的机器，再到将AI应用在大型强子对撞机中以解释宇宙的议题。

大会汇集了全球最重要的公司和企业，包括汽车和交通运输业、医疗健康业、制造业、金融服务业、零售业、服装业、媒体和娱乐业、电信业以及全球顶尖的AI公司。GTC大会的宗旨是激励全世界，告诉大家，加速计算是可以实践的。并为科学家和研究人员通过利用该技术取得的成就喝彩。

NVIDIA率先推出加速计算，着力解决普通计算机无法解决的问题。加速计算并非易事，它需要从芯片、系统、网络、加速库到重构应用的全栈发明，从图形、成像、粒子或流体动力学、量子物理学，到数据处理和机器学习，每个经过优化的堆栈都会加速对应应用领域。加速后，应用可以获得令人难以置信的速度，还可以扩展到许多台计算机。

在过去十年中，加速和纵向扩展的结合使我们能够为许多应用实现百万倍的性能提升，进而有助于解决以前无法解决的问题。虽然存在许多示例，但最著名的一个是深度学习。2012年，Alex Kerchevsky、Ilya Suskever和Geoff Hinton需要一台速度超快的计算机来训练AlexNet计算机视觉模型，研究人员在GeForce GTX 580上使用1400万张图像训练了AlexNet，可处理262千万亿次浮点运算。经过训练的模型以压倒性优势赢得了ImageNet挑战赛，并触发了AI的大爆炸。

十年后，Transformer模型面世了。现在任职于OpenAI的Ilya训练了GPT-3大型语言模型来预测下一个单词，训练GPT-3需要进行323 x 10e21次浮点运算，浮点运算量比训练AlexNet多一百万倍。结果创造出了ChatGPT，这个震惊全世界的AI。崭新的计算平台已经诞生，AI的“iPhone时刻”已经到来，加速计算和AI技术已经走进现实。

加速库是加速计算的核心，这些加速库连接到了各种应用中，进而再连接到遍布的各行各业，形成了网络中的网络。经过30年的开发，已经有数千款应用倍NVIDIA的库加速，几乎涉及科学和工业的每个领域。所有NVIDIA GPU都兼容CUDA，为开发者提供了庞大的安装基础和广泛的覆盖范围，大量加速应用吸引了终端用户，这为云服务提供商和计算机制造商创造了一个庞大的市场，这个市场大到足以投入数十亿的研发费用来推动其增长。

NVIDIA建立了加速计算的良性循环，在涵盖光线追踪和神经渲染、物理、地球和生命科学、量子物理学和化学、计算机视觉、数据处理、机器学习和AI的300个加速库和400个AI模型中，我们今年更新了其中的100个，让所有正在使用中的用户享受到更高的性能、更多的功能。

下面，我来重点介绍一些可以解决新挑战、开辟新市场的加速库。汽车和航空航天行业使用CFD进行湍流和空气动力学仿真，电子行业使用CFD进行热管理设计，这是Cadence的幻灯片，展示了由CUDA加速的新CFD求解器。在同等系统成本下，NVIDIA A100的吞吐量是CPU服务器的9倍。或者，在同等方针吞吐量下，NVIDIA的成本降低了9倍、能耗降低了17倍。Ansys、Siemens、Cadence和其他先进的CFD求解器现已采用CUDA加速。在全球范围内，工业CAE每年使用近1000亿CPU核心小时。加速计算是减少功耗、实现可持续发展和净零排放的最好方式。

NVIDIA正在与全球量子计算研究社区合作，NVIDIA Quantum平台由库和系统组成，可供研究人员推进量子编程模型、系统架构和算法。cuQuantum是用于量子电路仿真的加速库，IBM Qiskit、Google Cirq、百度量易伏、QMWare、QuEra、Xanadu Pennylane、Agnostiq和AWS Bracket已将cuQuantum集成到他们的仿真框架中。Open Quantum CUDA是我们的混合GPU-Quantum编程模型IonQ、ORCA Computing、Atom、QuEra、Oxford Quantum Circuits、IQM、Pasqal、Quantum Brilliance、Quantinuum、Rigetti、Xanadu和Anyon已经集成Open Quantum CUDA。要从量子噪声和退相干中恢复数据，需要对大量量子比特进行纠错。

今天，我们宣布推出一个量子控制链路，这是与Quantum Machines合作开发的，它可将NVIDIA GPU连接到量子计算机，以极快的速度进行纠错。虽然商用量子计算机还有十到二十年的时间才能实现，但我们很高兴能通过NVIDIA Quantum为这个充满活力的大型研究社区提供支持。全球企业使用Apache Spark处理数据湖和仓库，SQL查询、图分析和推荐系统，Spark-RAPIDS是NVIDIA加速的Apache Spark数据处理引擎。数据处理是全球5000亿美元云计算支出的主要工作负载。

现在，Spark-RAPIDS可加速主要云数据处理平台，包括GCP Dataproc、Amazon EMR、Databricks和Cloudera，推荐系统使用向量数据库来存储、索引、搜索和检索非结构化的大型数据集。

向量数据库的一个新型重要用例是大型语言模型，在文本生成过程中可用于检索领域特定事实或专有事实。我们将推出一个新的库，即RAFT，用于加速索引、数据加载和紧邻检索。我们正在将RAFT的加速引入到Meta的开源FAISS AI相似性搜索，超过1000家组织使用的Milvus开源向量数据库以及Docker镜像下载次数超过40亿次的Redis。对于构建专有大型语言模型的组织而言，向量数据库至关重要。

22年前，运筹学研究科学家Li和Lim发布了一系列具有挑战性的拣取和配送问题（PDP）。PDP出现在制造、运输、零售和物流，甚至救灾领域。PDP是旅行商问题的泛化，同时也是NP-hard问题，这意味着不存在有效算法来找到精确解，随着问题规模的增加，求解时间会呈阶乘增长。NVIDIA cuOpt使用进化算法和加速计算，每秒分析300亿次动作，打破了世界纪录，并为Li和Lim的挑战找到了合适的解决方案，AT&T定期派遣3万名技术人员为700个地理区域的1300万客户提供服务。

如今，如果在CPU上运行，AT&T的调度优化需要一整夜的时间，AT&T处理完找到一个实时调度解决方案，能不断优化紧急客户需求和整体客户满意度，同时能针对延误和出现的新事件进行调整。借助cuOpt，AT&T可以将查找解决方案的速度加快100倍并实时更新其调度方案。AT&T已采用全套NVIDIA AI库，除了Spark-RAPIDS和cuOPT之外，他们还将Riva用于对话式AI，并将Omniverse用于数字人。AT&T正在利用NVIDIA加速计算和AI来实现高可持续性、成本节约和新的服务。

CuOpt还可以优化物流服务。每年有4000亿个包裹被投递到3770个站点，德勤、Capgemini、Softserve、埃森哲和Quantiphi正在使用NVIDIA cuOpt来帮助客户优化运营。NVIDIA的推理平台由三个软件SDK组成，NVDIA TensorRT用于推理运行时针对指定GPU进行性能优化；NVIDIA Triton用于数据中心的推理服务，支持多种深度学习框架，支持GPU和CPU。TensorRT和Triton已有4万余名客户，其中包括Microsoft Office 和Teams，Amazon、美国运通和美国邮政署。Uber使用Triton每秒为数十万车辆预测到达时间，Roblox拥有超6000万的日活用户，它使用Triton来部署包括游戏推荐、构建虚拟形象、审核内容和市场广告的模型。

我们将发布一些强大的新功能：支持集成模型的模型分析器、并发多模型服务，以及适用于GPT-3大语言模型的多GPU、多节点推理。NVIDIA Triton Management Service是我们的新软件，可在整个数据中心自动扩展和编排Triton推理示例。NVIDIA Triton Management Service将帮助您提高部署模型的吞吐量和成本效率，50%-80%的云视频管线运行在CPU上，这增加了功耗和成本，并增加了延迟。

用于计算机视觉的CV-CUDA和用于视频处理的VPF是新的云规模加速库，CV-CUDA包括30个计算机视觉算子，可用于检测、分割和分类。VPF是一个Python视频编解码加速库，腾讯使用CV-CUDA和VPF每天处理30万个视频，Microsoft使用CV-CUDA和VPF来处理视觉搜索，超级酷的Runway公司使用VC-CUDA和VPF为其云生成式AI视频编辑服务处理视频。视频已经占据了80%的互联网流量，用户生成的视频内容正在显著增长，并消耗大量能源，我们应该加速所有视频处理服务并减少能源消耗。CV-CUDA和VPF处于抢先体验阶段。

NVIDIA加速计算帮助基因组学实现了里程碑式发展，现在医生可以在同一次就诊中抽取患者的血液并对其DNA进行测序。另一个里程碑是，使用NVIDIA助力的仪器设备，将整个基因组测序的成本降低至仅需100美元。基因组学是合成生物学的重要工具，从药物研发、农业到能源生产，其应用范围非常广泛。

NVDIA Parabricks是一套AI加速库，可用于云端或仪器设备内的端到端基因组分析，NVDIA Parabricks适用于各种公有云和基因组学平台。今天，我们宣布推出Parabricks4.1，并将会在PacBio、Oxford Nanopore、Ultima、Singular、BioNano和Nanostring的第四代NVIDIA加速基因组学设备上运行。全球价值2500亿美元的医疗设备市场正在发生变革，医疗设备将由软件定义、并且由AI进行赋能。

NVIDIA Holoscan是一个适用于实时传感器处理系统的软件库，超过75家公司正在通过Holoscan开发医疗设备。今天我们宣布，全球医疗设备行业领导者Medtronic将与NVIDIA携手为软件定义的医疗设备构建其AI平台。此次合作将为Medtronic系统打造一个通用平台，从手术导航到机器人辅助手术皆包含在内。今天，Medtronic宣布基于NVIDIA Holoscan构建新一代GI Genius系统，将AI用于早期检测结肠癌并将于今年年底推出。

芯片行业几乎是各行各业的基础，芯片制造要求极高的精确度，生产出的特征比细菌小1000倍，大小约为一个金原子或一条人类DNA链的尺寸。光刻，即在晶圆上创建图案的过程，是芯片制造过程中的起始阶段，包括两个阶段-光掩模制作和图案投影。

从根本上来说，这是一个物理极限下的成像问题，光掩模如同芯片中的模版光线被阻挡或穿过掩模，到达晶片以形成图案。光线由ASML EUV极紫外线光刻系统产生，每个系统的价值超过2.5亿美元。ASML EUV采用一种颠覆性的方式来制造光线，激光脉冲每秒向一滴锡发射5万次，使其汽化，产生一种能发射13.5纳米EUV光的等离子体，几乎是X射线。随后，多层镜面引导光线至光掩模，光掩模中的多层反射器利用13.5纳米光的干涉图案实现更精细特征，精细度可达到3纳米。

晶圆的定位精度达到四分之一纳米，并且每秒对准2万次以消除任何震动的影响。光刻之前的步骤同样令人不可思议，计算光刻应用逆物理算法来预测掩模版上的图案，以便在晶圆上生成最终图案。事实上，掩模上的图案与最终特征完全不相似，计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为，这些行为是麦克斯韦方程组描述的。

计算光刻是芯片设计和制造领域中最大的计算工作负载，每年消耗数百亿CPU小时，大型数据中心24 x7全天候运行，以便创建用于光刻系统的掩模版。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分，随着算法越来越复杂，计算光刻技术也在快速发展，使整个行业能够达到2纳米及以上。

NVIDIA今天宣布推出cuLitho-一个计算光刻库。cuLitho是一项历时近四年的庞大任务，我们与台积电、ASML和Synopsys密切合作，将计算光刻加速了40倍以上。NVIDIA H100需要89块掩模版，在CPU上运行时，处理单个掩模版当前需要两周时间。

如果在GPU上运行cuLitho，只需8小时即可处理完一个掩模版。台积电可以通过在500个DGX H100系统上使用cuLitho加速，将功率从35MW降至5MW，从而替代用于计算光刻的4万台CPU服务器。借助cuLitho，台积电可以缩短原型周期时间、提高产量、减少制造过程中的碳足迹，并为2纳米及以上的生产做好准备。台积电将于6月开始对cuLitho进行生产资格认证，所有行业都需要加速各种工业负载，以便我们能减少功耗，达到事半功倍的效果。

在过去十年中，云计算每年增长20%，成为了价值1万亿美元的巨大行业，大约3000万台CPU服务器完成大部分处理工作，而挑战即将到来。随着摩尔定律的终结，CPU性能的提高也会伴随着功耗的增加。另外，减少碳排放这一任务从根本上与增加数据中心的需求相悖，云计算的发展受功耗限制。首要的，数据中心必须加速各种工作负载，加速将会减少功耗，节省的能源可以促进新的增长，未经过加速的工作负载都将会在CPU上处理。

加速云数据中心的CPU侧重点与过去有着根本性的不同，在AI和云服务中，加速计算卸载可并行的工作负载，而CPU可处理其他工作负载，比如Web RPC和数据库查询。我们为AI和云优先的行业设计了Grace CPU，其中AI工作负载由GPU加速，单线程执行和内存处理则是Grace的擅长之处。但这不仅仅是CPU芯片的问题，数据中心管理员负责对整个数据中心的吞吐量和TCO进行优化。

为了在云数据中心规模下实现高能效，我们设计了Grace。Grace包含72个Arm核心，由超高速片内可扩展的、缓存一致的网络连接，可提供3.2TB/s的截面带宽，Grace Superchip通过900GB/s的低功耗芯片到芯片缓存一致接口，连接两个CPU芯片之间的144个核，内存系统由LPDDR低功耗内存构成（与手机上使用的相似），我们专门对此进行了增强，以便在数据中心中使用。它提供1TB/s的带宽，是目前系统的2.5倍，而功耗只是其1/8。整个144核Grace Superchip模组的大小仅为5 x 8英寸，而内存高达1TB。该模组的功耗超低，风冷即可，这是带有被动冷却功能的计算模组。两台Grace Superchip计算机可以安装进一台1U风冷服务器即可正常运行。

Grace的性能和能效非常适合云计算应用和科学计算应用，我们使用热门的Google基准测试（测试云微服务的通信速度）和Hi-Bench套件（测试Apache Spark内存密集型数据处理）测试了Grace，此类工作负载是云数据中心的基础。在微服务方面，Grace的速度比最新一代x86 CPU的平均速度快1.3倍，而在数据处理中则快1.2倍。而达到如此高性能，整机功耗仅为原来服务器的60%。云服务提供商可以为功率受限的数据中心配备超过1.7倍的Grace服务器，每台服务器的吞吐量提高25%。在功耗相同的情况下，Grace使云服务提供商获得了两倍的增长机会。Grace正在进行样本调测，华硕、Atos、GB、HPE】QCT、Supermicro、Wistron和ZT目前正在构建系统。

在现代软件定义的数据中心中，操作系统在执行虚拟化、网络、存储和安全任务时会消耗一半的数据中心CPU核心和相关功耗。数据中心必须加速每个工作负载，从而降低功耗并释放CPU给可创造收入的工作负载。NVIDIA BlueField卸载并加速数据中心操作系统和基础设施软件，Check Point、思科、DDN、Dell EMC、Juniper、Palo Alto Networks使用BlueField的数据中心加速技术来更高效地运行其软件平台。BlueField-3已投入生产，并被领先的云服务商所采用以加速其云计算平台，比如百度、CoreWeave、京东、Microsoft Azure、Oracle OCI和腾讯游戏。

NVIDIA加速计算始于DGX（AI超级计算机），这是大语言模型实现突破背后的引擎，我亲手将全球首款DGX交给了OpenAI。自此之后，《财富》100强企业中有一半安装了DGX AI超级计算机，DGX已成为AI领域的必备工具。DGX配有8个H100 GPU模组，H100配有Transformer引擎，旨在处理类似令人惊叹的ChatGPT模型。ChatGPT是生成式预训练Transformer模型的代表，这8个H100模组通过NVLINK Switch彼此相连，以实现全面无阻塞通信。

8个H100协同工作，就像一个巨型GPU，计算网络是AI超级计算机的重要系统之一，400Gbps超低延迟的NVIDIA Quantum InfiniBand具有网络内计算功能，可将成千上万个DGX节点连接成一台超级AI计算机。NVIDIA DGX H100是全球客户构建AI基础设施基础的蓝图，现在已全面投入生产。

令我倍感激动的是，微软宣布Azure将向其H100 A1超级计算机开放私人预览版，Atos、AWS、Cirrascale、CoreWeave、戴尔、Gigabyte、谷歌、HPE、Lambda Labs、联想、Oracle、Quanra和SuperMicro也将很快开放系统和云服务。DGX AI超级计算机的市场获得了显著增长，从最初被用作AI研究工具，DGX AI超级计算机正在不断扩展其应用范围，能够全天候运行以优化数据和处理AI。DGX超级计算机是现代AI工厂，我们正处于AI的“iphone时刻”，初创公司竞相构建具有颠覆性的产品和商业模式，而老牌公司则在寻求应对之法。

生成式AI引发了全球企业制定AI战略的紧迫感，客户需要更简单快捷地访问NVIDIA AI。我们宣布推出NVIDIA DHX Cloud，通过与Microfost Azure、Google GCP和Oracle OCI合作，通过一个浏览器就可以将NVIDIA DGX AI超级计算机即时地接入每家公司。DGX Cloud经过优化，可运行NVIDIA AI Enterprise，这是一款全球领先的加速库套件，用于AI端到端开发和部署。

DGX Cloud为客户提供出色的NVIDIA AI以及全球主要的云服务提供商，这一合作将NVIDIA的生态系统引入到了云服务提供商，NVIDIA触及的范围得以扩展。这种双赢的合作伙伴关系为迫切需要使用生成式AI的客户提供了在全球云端即时访问NVIDIA AI的机会。我们很高兴我们的业务模型以这种速度、规模和覆盖范围在云上拓展。Oracle Cloud Infrastructure（OCI）将成为首个NVIDIA DGX Cloud，OCI具有出色的性能，它拥有两层计算网络和管理网络，具有业界最佳RDMA功能的NVIDIA CX-7提供了计算网络，而BlueField-3将成为管理网络的基础设施处理器。这种组合是一款先进的DGX AI超级计算机，可提供多租户云服务。我们拥有50家EA企业客户，涵盖消费互联网和软件、医疗健康、媒体、娱乐及金融服务。

ChatGPT、Stable Diffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知，这些应用的易用性和令人印象深刻的功能，短短几个月内就吸引了超过一亿的用户。ChatGPT是迄今历史上用户数量增长最快的应用，无需训练只需给这些模型下指令即可。您可以使用精确提示，也可以使用模拟提示，如果提示不够清晰，ChatGPT会根据对话了解您的意图。ChatGPT可以撰写备忘录和诗歌，改写研究论文，解决数学问题，突出合同的关键点，甚至编写软件程序。

ChatGPT是一台计算机，它不仅可以运行软件，还能编写软件。众多突破性成果造就了生成式AI, Transformer能以大规模并行的方式，从数据的关系和依赖性中学习上下文和含义，这使得大型语言模型能够利用海量数据进行学习。他们可以在没有明确训练的情况下执行下游任务，受物理学启发的扩散模型通过无监督学习来生成图像。

在短短几十年里，我们经历了从试图识别猫到生成穿着太空服在月球上行走的逼真猫图像。生成式AI是一种新型计算机，一种我们可以用人类语言进行编程的计算机，这种能力影响深远。每个人都可以命令计算机来解决问题，而之前这是只有计算机程序员才能接触的领域，现在每个人都可以是程序员。生成式AI是一种新型计算平台，与PC、互联网、移动设备和云类似，与之前的计算时代类似，先行者正在打造新的应用并成立新公司，以利用生成式AI的自动化和协同创作能力。借助Debuild，用户只需说明自己想要的内容即可设计和部署web应用。

Grammerly是一款可以结合上下文的写作助手，Tabnine可帮助开发者编写代码，Omnekey可生成定制广告和文案，Kore.ai是虚拟客服，Jasper可生成营销材料，Jasper已经编写了近50亿字，将初稿生成时间缩短了80%。Insilico利用AI加速药物设计，Absci正在使用AI预测治疗抗体。

生成式AI将重塑几乎所有行业，许多公司都可以使用某个即将上市的超赞的生成式AI API。一些专业领域的公司需要使用其专有数据来构建定制模型，他们需要制定使用规范并优化模型，以契合公司的安全、隐私和安保要求。

这个行业需要一个类似台积电的代工厂，来构建自定义的大型语言模型。今天，我们宣布推出NVIDIA AI Foundations，这是一项云服务，面向需要构建、优化和运营定制LLM（大型语言模型）和生成式AI，使用其专有数据进行训练。NVIDIA AI Foundations包括语言、视觉和生物学模型制作服务。NVIDIA Nemo用于构建定制的语言文本转文本生成式模型，客户可以引入自己的模型，或从Nemo涵盖了GPT-8、GPT-43、GPT-530等数十亿参数的预训练模型入手。从创建专有模型到运营，NVIDIA AI专家将全程与您合作。

“生成式模型，比如NVIDIA的43B基础模型，通过基于数十亿个句子和数万亿个单词进行训练来学习，随着模型的收敛，它开始理解单词与其基本概念之间的关系，这些关系通过模型嵌入空间中的权重进行捕获。Transformer模型使用一种名为自注意力的技术：一种旨在学习一系列单词中的依赖性和关系的机制，其结果是得到一种模型，该模型可为类似ChatGPT的体验奠定基础。这些生成式模型需要大量数据，数据处理和分布式训练方面深厚的AI专业知识，以及大规模计算，以跟上创新的步伐进行训练、部署和维护。”

Picasso是一项视觉语言模型制作服务，面向希望使用许可内容或专有内容来训练自定义模型的客户。我们很高兴Getty Images将使用Picasso服务构建Edify图片和Edify视频生成式模型，这些模型以其丰富的内容库为基础进行训练，其中包含大量以负责任授权的方式获得许可的专业图像和视频素材，企业能够使用简单的文本或图像提示创建自定义的图像和视频。Shutterstock正在开发一款以其专业的图像、3D和视频素材库进行训练的Edify-3D生成式模型。Shutterstock将帮助简化用于创意制作、数字孪生和虚拟协作的3D素材的创建过程，使企业能够更快更轻松地实现这些工作。我宣布我们与Adobe之间的长期合作将迎来重要扩展，我们将共同构建一系列新一代AI功能，打造创意领域的未来。将生成式AI融入营销人员和创意专业人士的日常工作流，新的生成式AI模型将针对图像、视频、3D和动画制作进行优化。为了保护艺术家的权利，Adobe正在开发以商业可行性和正确内容归属为重点的方案，该方案由Adobe的“内容真实性倡议”提供支持。

我们的第三个语言领域是生物学，药物研发是一个价值近2万亿美元的行业，研发投入高达2500亿美元。NVIDIA Clara是一款医疗健康应用框架，用于影像、仪器、基因组学分析和药物研发。目前，该行业正在转向利用生成式AI来发现疾病靶因、设计新型分子或蛋白质类药物，以及检测药物对机体的作用。数百家新型AI药物研发初创公司相继涌现，有些公司已经发现了新型靶标或候选药物，并开始了人体临床试验。BioNeMo可帮助研究人员使用专有数据创建、微调和提供自定义模型。Amgen、AstraZeneca、Insilico Medicine等公司都是BioNeMO的早期体验用户。

NVIDIA AI Foundations是一个云服务和代工厂，用于构建自定义语言模型和生成式AI。自十年前AlexNet面市以来，深度学习就开辟了巨大的新市场，包括自动驾驶、机器人、智能音箱，并重塑了我们购物、了解新闻和享受音乐的方式，这只是冰山一角。随着生成式AI掀起新一波基于浪潮，AI正处于转折点，使得推理工作负载呈阶梯函数式增长。

AI可以生成多种数据，设计一个云数据中心来处理生成式AI是一项巨大挑战。一方面，理想情况下最好使用一种加速器，因为这可以使数据中心具有弹性，能够应对不可预测的流量峰值和低谷。另一方面，没有一个加速器能以最优的方式处理在算法、模型、数据类型和数据大小方面的多样性，NVIDIA的One Architecture平台兼具加速功能和弹性。

今天我们宣布推出全新的推理平台：四种配置—一个体系架构—一个软件栈，每种配置都针对某一类工作负载进行了优化。针对AI视频工作负载推出了L4，它针对以下方面进行了优化：视频解码和编码、视频内容审核、视频通话功能等。如今，大多数云端视频都在CPU上处理，一台8-GPU L4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。Snap是NVIDIA AI 在计算机视觉和推荐系统领域领先的用户，Snap将会把L4用于AV1视频处理生成式AI和增强现实。Snapchat用户每天上传数亿个视频，google今天宣布在其GCP上提供NVIDIA L4，NVIDIA和Google Cloud正在努力加速在L4上部署主要工作负载。

通过此次合作，Google GCP成为了首款NVIDIA AI云。针对Omniverse、图形渲染等生成式AI，我们宣布推出L40，L40的性能是NVIDIA最受欢迎的云推理GPU T4的10倍。Runway是生成式AI领域的先驱，他们正在发明用于创作和编辑内容的生成式AI模型。

ChatGPT等大型语言模型是一个新出现的重要的推理工作负载，GPT模型是内存和计算密集型模型。此外，推理是一种高容量、外扩型工作负载，需要标准的商业服务器，我们对其推出新的Hopper GPU——配备双GPU NVLINK的PCIE H100.该款H100配备94GB HBM3显存，H100可处理拥有1750亿参数的GPT-3，还可支持商业PCIE服务器轻松扩展。目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100，与适用于GPT-3处理的HGX A100相比，一台搭载四对H100及双GPU NVLINK的标准服务器的速度快10倍。H100可将大型语言模型的处理成本降低一个数量级。

Grace Hopper是我们新的超级芯片，通过900GB/s的告诉一致性芯片到芯片接口连接Grace CPU和Hopper GPU。它非常适合处理大型数据集，如今利用大容量内存，CPU会存储和查询巨型嵌入表，然后将结果传输到GPU进行推理。

全球最大的工业产业都生产实体产品，但他们也希望实现数字化生产方式。Omniverse是一个工业数字化平台，旨在搭建数字化和物理实体之间的桥梁。Omniverse其中一个用途是以虚拟方式构建工厂，在真正的实体工厂建成之前以数字方式整合所有设备，虚拟工厂整合可为全球工厂节省数十亿美元。Omniverse具备独特的技术，Omniverse是USD的首要开发平台，它是一种通用语言，帮助团队协作创建虚拟世界和数字孪生。已经有近30万名创作者和设计师下载了Omniverse，Omniverse不是一种工具，而是一个USD网络和共享数据库，也是一种与各行各业使用的设计工具相连接的基础结构。

今天我们要宣布推出三款专为运行Omniverse而设计的系统。首先我们将推出由NVIDIA Ada RTX GPU和英特尔最新款CPU提供动力支持的新一代工作站，这款新工作站适用于光线追踪、物理仿真、神经图形和生成式AI，从3月开始Boxx、戴尔、惠普和联想将提供这款工作站。其次，针对Omniverse优化的新型NVIDIA OVX服务器，OVX由服务器GPU Ada RTX L40和我们的新款BlueField-3组成，OVX服务器将由戴尔、HPE、Quanta、技嘉、联想和Supermicro提供，每一层Omniverse的堆栈包括芯片、系统、网络和软件在内都是新发明。构建和操作Omniverse计算机需要成熟的IT团队，我们将提供快速轻松地拓展和使用Omniverse的服务。

我们正在与Microsoft合作，将Omniverse Cloud引入全球各个行业，我们将在Azure中托管它，并通过Microsoft丰富的存储、安全性、应用和服务组合收益。我们正在将Omniverse Cloud连接到Microsoft365生产力套件，包括Teams、Onedrive和Azure IoT Digital Twins等。Microsoft和NVIDIA正在将Omniverse带来数以亿计的Microsoft365和Azure用户，加速计算和AI技术已经走进现实。

净零排放是艰巨的挑战，每家公司都必须加速所有工作负载以减少功耗，加速计算是全栈的数据中心级计算挑战。Grace、Grace-Hopper和BlueField-3是适用于超级节能加速数据中心的新芯片，加速库可解决新挑战，开辟新市场。我们更新了100个加速库，包括用于量子计算的cuQuantum、用户组合优化的cuOpt以及用户光刻计算的cuLitho，很高兴能与台积电、ASML和Synopsys合作达到2nm及更高精度制程。NVIDIA DGX AI超级计算机是生成式大型语言模型取得突破的引擎，DGX H100 AI超级计算机正在生产并即将通过。全球不断扩大的OEM和云服务合作伙伴网络面世，DGX超级计算机没有止步于研究，正在成为现代化的AI工厂，每家公司都将会制造智能。我们通过与Microsoft Azure、Google GCP和Oracle OCI合作，借此拓展NVIDIA DGX Cloud的业务模式，通过一个浏览器就可以将其接入每家公司。

DGX Cloud为客户提供在NVIDIA和全球范围内都出类拔萃的CSP，我们正处于AI的“iPhone时刻”，生成式AI推理工作负载已进入超速运行状态，我们推出了新的推理平台：四种配置—一个体系架构，适用于AI视频的L4，适用于Omniverse和图形渲染的L40，适用于扩展LLM推理的H100 PCIE，适用于推荐系统和向量数据库的Grace-Hopper。NVIDIA推理平台可最大化提高数据中心加速和弹性， NVIDIA和Google Cloud正在合作部署广泛的推理工作负载，通过此次合作，Google GCP成为了首款NVIDIA AI云。我们正与Adobe合作，为创造性的未来构建一系列新一代AI功能，Omniverse是实现工业数字化的数字到物理操作系统，可以统一端到端工作流，并将价值3万亿美元，拥有1400万员工的汽车行业数字化。Omniverse正在跃上云端，我们在Azure上进行托管，与Microsoft合作，将Omniverse Cloud引入全球各个行业。

合规声明：本文节选自英伟达年度技术峰会纪要，如需纪要全文请后台留言。