【原】NVIDIA GeForce RTX 4090 Founders Edition首发评测

爱极物 2022-10-11 发布于上海

展开全文

如果你也有加入iPhone 14 SoC挤牙膏的吐槽大军，那么肯定也意识到工艺制程进度放缓已经是不争的事实。在芯片工艺提升随着成本、材质限制的时候，NVIDIA首席执行官黄仁勋却找了另一种性能逐年翻倍的途径，从此AI性能逐年翻番。支撑着AI性能提升背后，正是全新的GPU架构，以至于全新旗舰GeForce RTX 4090尚未公布之时便备受期待。

在AMD RDNA 2和英特尔Alchemist尝试在GPU领域雄起，夹击NVIDIA的时候，NVIDIA用旗舰级卡皇GeForce RTX 4090 Founders Edition予以回击，台积电4N定制工艺，数量破万的CUDA核心，第三代RT Core和第四代Tensor Core，光是把硬件参数细数一遍，就让人兴奋不已。

更重要的是，这不是一款只堆料的产品，在向竞争对手们秀着肌肉的同时，也巧妙的利用了AI性能，将3A游戏最高画质开启光追，也能轻松享受4K流畅度倍增。是的，就是这么离谱。随着今晚性能解禁，就让我们奉上NVIDIA GeForce RTX 4090 Founders Edition首发评测，一窥新卡皇的真正实力。

动力之源：Ada Lovelace架构

NVIDIA在今年其实推出了两款较为重要的GPU架构，两个GPU架构均以计算机领域中的重要女性命名，一个是面向商用计算领域的Hopper，另外一个就是我们眼前的Ada Lovelace。

其中格蕾丝·赫柏Grace Hopper是世界上第一个编译器发明者，耶鲁大学第一位女博士。阿达·洛芙莱斯伯爵夫人Ada Lovelace则是英国数学家，以及拜伦之女，在整理了意大利军事工程师费德里科·路易吉阐述分析机的文章，建立了沿用至今循环和子程序概念，并在180年前预言了计算机用途将不限于计算。

Sylvie Briggs在《神秘博士》中饰演的Ada Lovelace

代号Ada Lovelace，型号AD102-300-A1就是GeForce RTX 4090的核心，NVIDIA利用台积电4N定制工艺和改良的电路设计进一步扩大了芯片规模，时钟频率为2.52GHz，而我们经过实测运行频率可以轻松突破2.7GHz甚至2.8GHz以上，是以往NVIDIA GPU都未曾达到的高度。但同时TGP功耗则可以做到与GeForce RTX 3090 Ti相当，同样为450W，相当于GeForce RTX 4090的每瓦性能是GeForce RTX 3090 Ti的2倍。

从整体上看，完整的AD102包含了12个图形处理集群（Graphics Processing Clusters，GPC），72个纹理处理簇（Texture Processing Clusters，TPC），144个流式多处理器（Streaming Multiprocessors，SM），以及搭配了12个32-bit控制器的显存接口，共计384-bit。

同时每个GPC独立使用1个光栅引擎（Raster Engine，RE），6个TPC，2个光栅处理分区（Raster Operations partitions）。其中每个光栅处理分区包含8个光栅处理单元（Raster Operations，ROP），因此总共16个ROP。

每个TPC下包含2个流式多处理器（Streaming Multiprocessors，SM）。从Maxwell架构开始，SM之下细分出了处理块（Sub-Core）概念，AD102中每个SM包含4个处理块，每个处理块包含1个64KB寄存器堆，1个L0指令缓存，1个Warp调度器，1个调度单元，4个加载/存储单元，1个特殊功能单元（Special Function Unit，SFU）用于执行超越函数指令（比如正弦、余弦、倒数、平方根等）和图形差值算法指令。包含16个专门用于FP32的CUDA Core，16个可以在FP32和INT32之间切换的CUDA Core，因此共计32个CUDA。

此外每个SM还包含1个第三代RT Core，4个第四代Tensor Core，4个纹理单元（Texture Units），256KB寄存器堆，以及可根据需求进行配置的128KB L1共享缓存。第三代RT Core和第四代Tensor Core的更新，则是本篇文章加速游戏与创作体验的关键。

事实上GeForce RTX 4090并非完整的AD102核心，由于禁用了一个GPC，GeForce RTX 4090的AD102-300-A1实际上有11个GPC，因此最终的参数与AD102有所区别，可以理解为NVIDIA为后面竞争对手的反应留足后手。因此GeForce RTX 4090总共包含11个GPC，64个TPC，128个SM，16384个CUDA Core，512个第四代Tensor Core，128个第三代RT Core。

这里不妨让我们放出GeForce RTX 4090与GeForce RTX 3090 Ti，GeForce RTX 3090的规格进行对比：

FE装甲升级

在核心升级的同时，Founders Edition的散热模块也进行了同步升级。从RTX 30系列开始，Founders Edition开始使用了一种全新的错位风扇搭配异性PCB的对称设计，希望使用更少的风扇改善GPU的散热情况。

在散热材质的选择上，NVIDIA团队认为只有金属本身才能更好的体现金属的质感，Founders Edition讲究一体成型，散热鳍片由99%铝合金打造，结合重量轻、刚性可靠、导热性好的特点。

同时散热鳍片再度加厚，变成了三槽位设计，通过颜色更鲜明的金属CNC框架包裹，在色调上相对上一代RTX 3090 FE更为明亮一些。边框末端的支架孔被隐藏在磁吸的挡板下，需要螺丝刀辅助抠开。复原的时候只需要将贴片放回，磁力会迅速将其复原。

从外观上看GeForce RTX 4090 Founders Edition似乎与上一代外观相当。但实际上增厚的散热鳍片也增加了20%的气流速度，风扇直径由110mm提升到116mm。用NVIDIA官方的说法是，GeForce RTX 4090 Founders Edition每分钟产生的气流足以充满3.5个篮球。并且风扇叶片由增强型玻璃纤维组成，具有弹性，搭配动态轴承可以获得更好的静谧性。RTX 4090 Founders Edition的核心温度控制在了72℃。

值得说明是GeForce RTX 4090 Founders Edition使用了16pin（12VHPWR）接口，GPU芯片布局有所调整以配合电源相位由16个增加到20个，同时还增加了2层PCB提升供电效率和隔离供电噪声，确保了GDDR6X信号完整性。

从实际供电来看，GeForce RTX 4090 Founders Edition的通道功率最高可以达到511W，GPU功率超过450W，距离650W的最大值还有一些距离，应该是为后续版本的性能释放做准备的。

追寻光与影

如何定义优秀的游戏体验，NVIDIA认为从三个方向着手，分别是流畅度、响应速度、画面质量，在GeForce RTX 4090的升级中，也着重围绕这三方面进行。GeForce RTX 4090也因此成为首款用上第三代RT Core和第四代Tensor Core的消费级GPU。

第三代RT Core在第二代RT Core的基础上，再次将射线/三角形求交测试吞吐量。意味着射线/三角形求交测试模块由原来的2个再次增加到4个，相对Turing架构的1个射线/三角形求交测试模块翻了4倍，并额外增加了下图左下角的透明度微图引擎（Opacity Micro-Map，OMM）和右下角的位移式微型网面引擎（Displaced Micro-Mesh，DMM）。

其中透明度微图引擎（Opacity Micro-Map，OMM）让第三代RT Core拥有2倍速度的透明度遍历（Alpha Traversal），OMM通过减少几何图形透明度（Alpha）测试数量，最终减少着色器的透明度计算。这个新功能可以让开发人员紧凑的描述不规则形状，或者半透明物体，比如蕨类植物、栅栏等等。如果用下图举例，OMM可以让RT Core有效避免第二张图蓝色部分的的计算，从而更有效的执行光线追踪效率。

位移式微型网面引擎（Displaced Micro-Mesh，DMM）则可以用10倍的速度执行BVH。DMM也是全新的单元，它用来处理RT Core本地微求交结构网格，通过使用较少的基本求交三角形来描述比以往更复杂的几何形状。

最后第三代RT Core还引入了着色器执行重排序（Shader Execution Reordering，SER）技术，通过与游戏设计团队配合，更有效的分配次级射线的排序权重，从而获得更高效的线程排序执行，避免光追运算陷入无意义的次级射线运算的等待中。

本着实践出真知的原则，这里又到了我们喜闻乐见的跑分环节，为了不拖GeForce RTX 4090的后腿，我们组件了一套刚好够用的测试平台，包括Core i9-12900K，64GB DDR5-4800，2TB PCIe SSD，1250W电源，ROG MAXIMUS Z690 EXTREME主板等，具体如下：

除此之外，作为对比我们使用GeForce RTX 3090、GeForce RTX 3090 Ti进行陪跑。

在基础性能测试中，惯例引入检测DirectX 11和DirectX 12的3DMark Time Spy，3DMark Time Spy Extreme，3DMark Fire Strike Extreme，3DMark Fire Strike Ultra，Port Royal和VRMark Blue Room进行检测。

可以看到，相比GeForce RTX 3090 Ti，GeForce RTX 4090能够轻松提升50%到80%，特别是4K性能和光线追踪性能差距明显，第三代RT Core以及更多的CUDA Core、GPU缓存起到了显著的作用。

同时我们也搬出了几个喜闻乐见的3A游戏进行帧数参考，这里除了《地铁：离乡》为1080p开启光线追踪最高画质之外，其他的游戏均使用4K分辨率光线最高画质。能够看到如果在1080p分辨率下，差距不大，RTX 30系列已经能够发挥《地铁：离乡》的最佳效果。

当分辨率一旦提升至4K，情况就不一样了，GeForce RTX 4090性能提升性能提升从45%到96%，帧率轻松跨越4K 100FPS大关，4K最高画质拉满光追对于GeForce RTX 4090不再是问题。

如果这只是NVIDIA GPU的常规升级，那么故事到这里可能就结束了。但对于GeForce RTX 4090而言故事才刚刚开始。在游戏性能提升几乎100%之后，GeForce RTX 4090的杀手锏才刚刚放出，那就是第四代Tensor Core，以及其支撑起的DLSS 3技术。

DLSS 3：一步跨入4K高刷

从RTX 30系列的DLSS 2 进化到DLSS 3，变化是巨大的。因为DLSS 3并非传统意义上的单一技术，事实上它是一个软件与硬件协同的技术合集。

在软件层面，DLSS 3包括：DLSS 2超分辨率技术，AI生成帧，加入对NVIDIA Reflex支持。在硬件层面，DLSS 3需要在第四代Tensor Core上运行，并利用改进的光流加速器帮助DLSS 3像素级的测量场景，最后云端的NVIDIA超级计算机则夜以继日的寻找提升高质量图像的途径。

通过新光流加速器与DLSS 3搭配，能够计算出场景中的所有像素是如何从一个像素移动到另一个像素的，其中就包括阴影、光反射和粒子等光流场信息。同时通过神经网络分析，分析之前帧与当前帧，最终获得一个高清且自然的效果。

DLSS 3在光流加速器的搭配下实现了超越 GPU渲染重建高分辨率方法，让GPU渲染的部分大幅减少，以两帧为例，DLSS 3会承担起重建第一帧的3/4的工作和全新第二帧的所有工作，实际上GPU只需要使用传统的渲染法完成其中的1/8的渲染即可，从而节省了大量的计算资源。

由此可见DLSS 3带来的变化是巨大的，这里将GeForce RTX 3090的DLSS 2 与GeForce RTX 4090的DLSS 3进行对比。在传统的3DMark DLSS 2 2K分辨率测试中，能够看到GeForce RTX 4090性能提升70%以上，似乎在情理之中。

可一旦切换成，3DMark DLSS 3 4K测试和3DMark DLSS 3测试，画风就完全不一样了。其中GeForce RTX 3090仅能以DLSS 2.3运行，GeForce RTX 4090则开启了DLSS 3。能够看到

GeForce RTX 4090通过DLSS 3性能分别提升了126%和170%，就算是8K分辨率，也能轻松达到92FPS相当流畅的画面，4K分辨率更是达到172FPS以上，GeForce RTX 3090完全不是一个量级。

为了更好的帮助开发团队集成DLSS 3, NVIDIA开发了Streamline工具，开发者可以在Streamline中快速集成DLSS 3，这其中包括DLSS 2超分辨率，AI帧生成以及NVIDIA Reflex。

包括《赛博朋克2077》、《微软飞行模拟》、《瘟疫传说:安魂曲》、《逆水寒》、《F1 22》以及《Unity Enemies》《Unreal Engine 5: Lyra》两款DEMO进行了支持，我们也先行拿到了测试版本。在4K分辨率中，GeForce RTX 4090能够比GeForce RTX 3090提升100%到200%的帧率，而如果与开启与关闭对比，最高帧率甚至能提升420%。

值得说明《逆水寒》DLSS 3版本首次使用了路径追踪也就是全景光线追踪作为测试场景，因此最终导致了GeForce RTX 3090原始帧率只有7FPS，而GeForce RTX 4090在开启DLSS 3之后能够达到79FPS，差距可见非常大。这里不妨也让我们奉上一段ICAT截取的画质作为对比，DLSS 3不仅流畅度更有保障，光影效果也处理得更为自然。

给创意踩下油门

与前辈们一样，GeForce RTX 4090不局限于游戏，第三代RT Core和第四代Tensor Core都会伴随着NVIDIA Studio平台发挥出更多的用途。不仅如此，GeForce RTX 4090也首次加入AV1双编码器。

AV1编码是由英特尔、微软、亚马逊、谷歌、网飞等网络巨头组成的开放多媒体联盟AOMedia所推出的免费编码格式，在国内已经获得了哔哩哔哩、爱奇艺支持。它的特点是能在相同文件体积下拥有更高清的画质，或者相同清晰度的画质下拥有更小的体积。

如果与GeForce RTX 30系列进行对比，GeForce RTX 40系列的AV1编码器能比H.264编码器效率高出40%。这意味着AV1编码器能够利用现阶段可以进行1080p串流视频的带宽，实现1440p甚至更好的画质。如果视频平台支持AV1实时直播推流，在同样的带宽占用下，可以轻松播放2K或者4K的视频，而播放4K的带宽也将可以用来播放更高分辨率的内容。

如果说这个月初新推出的Intel ARC显卡特点就是集成AV1编码器加速创意内容制作，那么GeForce RTX 4090现在就加入了2个AV1编码器，实现同时处理4个4K 60FPS视频，一台电脑完成多路4K画质60FPS输出等以前不敢想象的玩法，GeForce RTX 4090仅用了不到一周的时间就接管了视频编码、直播、内容制作相关的王者地位，让初来乍到Intel ARC直接哭晕在厕所。

在实际测试中亦是如此，这里我们先使用了Resolve 18对4K 30FPS和8K 30FPS的视频进行编码，由于GeForce RTX 3090不支持AV1编码，这里使用H.265替代。能够看到，GeForce RTX 4090的效率加速了将近60%。

而在渲染能力上，GeForce RTX 4090的表现自然不在话下，在Blender Benchmark主要测试了GPU的渲染输出能力，在Moster、Junkshop、Classroom按个场景中，GeForce RTX 4090相对GeForce RTX 3090最高提升了102%的性能。

同样在V-Ray 5 Benchmark中会分别考验CUDA和光线追踪性能，GeForce RTX 4090相对GeForce RTX 3090性能同样提升了100%。

Octane Render RTX是同样是测试GPU的光线追踪性能表现，在一个复杂场景下考验GPU每秒产生的样本率，这里能够GeForce RTX 4090相对GeForce RTX 3090提升64%到119%。

在让我们用上AI，使用图像缩放软件ON1 Resize AI 2022对低分辨率图片无损提升到高分辨率图片，软件同样依赖于GPU的AI性能，放大后图片分辨率翻倍，但细节仍然得以保留。

这里GeForce RTX 4090相对GeForce RTX 3090缩短了40%以上的时间。

最后是常规的专业软件，这里引用了SPECviewperf 2020作为参考，其中包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks，涵盖了行业领域诸多主流专业软件，这一环则主要考验GPU的CUDA核心已经频率表现，能够看到GeForce RTX 4090相对GeForce RTX 3090提升36%到130%以上。

写在最后：用DLSS 3掀翻摩尔定律

在进行无数轮GPU之间的近身肉搏之后，我们发现即便是昔日卡皇GeForce RTX 3090 Ti，对GeForce RTX 4090也难以望其项背。这是一款不仅利用了硬件、工艺优势，还巧妙发挥AI性能，使其表现巨幅提升的GPU。NVIDIA正在以GeForce RTX 4090为中心，把硬件、软件、游戏、驱动组成一套生态系统，而DLSS 3正是其中那把关键钥匙。

对于帧率至上的高端玩家而言，DLSS 3搭配让游戏体验成倍提升的效果，也注定让其开始关注更高分辨率的显示器，因为即使是4K分辨率最高画质，GeForce RTX 4090 Founders Edition也足够发挥出4K 144Hz旗舰级显示器的性能，现在真的是时候将1080p高刷屏显示器扔进垃圾桶了，8K显示器可以装进购物车了。

而对于内容创作者而言，AI的加持也让创作效率再次翻倍，哪怕是最习以为常的视频输出和渲染，GeForce RTX 4090也能帮你节省一倍以上的时间，特别是AV1双编码器的加持，也终于不再让我们过分关心CPU的核心数量以及软件编码的支持情况。

是的，无论是玩家还是内容创作者，GeForce RTX 4090都给足了升级的理由。只要想让PC性能一步到位，那么它将是未来一段时间内，你唯一的选择。

现在GeForce RTX 4090 Founders Edition也将在北京时间10月12日晚上在京东首发，猛戳下方链接，就能选购来自NVIDIA Founders Edition和显卡供应商提供的GeForce RTX 4090 GPU标频版和超频版。嗯，又是验证自己钱包厚度的时刻了。