【原】128bit显存频宽真的够用么？NVIDIA GeForce RTX 4060 Ti 公版显卡实测（1）

22DIY 2023-05-24 发布于陕西

展开全文

NVIDIA 正式发布主流级 GeForce RTX 4060 系列显卡，采用 AD106 核心、共三款 SKU 包括 GeForce RTX 4060、GeForce RTX 4060 Ti 与 GeFoorce RTX 4060 Ti 16GB 版本，24 日率先登场是 GeForce RTX 4060 Ti，其余型号则会在 7 月上市，RTX 4060 Ti 官方定价已确定，8GB 版本为 US$399 美元、16GB 版本为 US$499 美元，RTX 4060 还没公布、看来是要先等 RX 7600 上市才定价。

NVIDIA GeForce RTX 4060 采用了 AD106-350 核心，拥有 4,352 个 CUDA 核心、128bit 显存位宽与 8GB GDDR6 显存容量，定价 US$399 将取代之前的 GeForce RTX 3060 Ti 地位，定位 1080P 游戏市场在光追特效全开下，通过 DLSS3 技术加持可达成 100fps+ 性能表现，更重要的是整卡功耗降低到 160W 功耗，性能功耗比更上一层楼。

对比 RTX 4070 相较 RTX 3070 有 30% 的性能升幅，RTX 4060 Ti 明显小气得多，据 NVIDIA 官方数据指示，RTX 4060 Ti 与 RTX 3060 Ti 真实性能相当接近，当 RTX 4060 Ti 启动 RT + DLSS 后性能相比上代 RTX 3060 Ti 快 15%，当启用 RT + DLSS 3 Frame Gen 后，GeForce RTX 4060 Ti 才能拉开与 GeForce RTX 3060 Ti 的距离、性能提升 70%，因此 GeForce RTX 4060 Ti 在游戏市场要取得销售成功，看情况很大程度 NVIDIA DLSS 3 技术的普及程度。

台积电 4N 制程、NVIDIA AD106-350 核心

NVIDIA AD106 核心基于全新 Ada Lovelace 微架构，并用于 GeForce RTX 4060 与 RTX 4060 Ti 产品之中，性能提升主要来自 FP32 运算单元数量及频率倍增，更大的二级缓存容量及全新着色器执行排序技术，升级第 3 代 RT 核心、升级第 4 代 Tensor 核心，与上代比较 Ampere GPU 微架构比较，传统光栅图形运算提高了 2 倍，同时在光线追踪性能上提升近 4 倍。

采用台积电 4N NVIDIA Custom 制程，拥有 221 亿个晶体管、尺寸为 190.2mm² 与上代 GeForce RTX 3060 Ti 的 GA104-200 尺寸 392mm² 差不多，完整的 AD106 芯片内置 3 个 GPC 单元、 18 个 TPC 纹理处理群集及 36 个 SM 串流多处理器，具备 4,608 个 CUDA 核心、36 个 RT 核心、144 个 Tensor 核心、144 个 Texture Unit 及 48 个 ROP。

核心频率方面，采用台积电 4N 制程使这代 Ada Lovelace 的核心频率可大幅升，NVIDIA GeForce RTX 4070 公版默认频率 2,310MHz、加速频率为 2,535MHz，较高的 GPU 频率弥补 CUDA 数量下降，最高 TDP 为 160W 相比上代 RTX 3060 Ti 降低了 40W。

值得注意的是，AD106 仅支持 PCIe 4.0 x8 ，如果使用在 PCIe 3.0 旧平台只能运行于 PCIe 3.0 x8，有概率会导致 PCIe 频宽不足问题使性能略为下降，建议搭配 PCIe 4.0 主板使用。

劈一半 !!仅 128bit 位宽真的够用吗 ?

相比上代 RTX 3060 Ti 拥有 256bit 显存位宽，现在的 RTX 4060 Ti 竟然劈去一半只有 128bit，因此最高显存频宽由 448GB/s 下降至只有 288GB/s，不过 Ada Lovelace 其中一个重大改进是二级缓存容量大幅增加，上代 RTX 3060 Ti 的二级缓存仅 3072 KB (3MB)，RTX 4060 Ti 则大幅提升至 32768KB (32MB)，据 NVIDIA 指出能大幅升游戏 Workload 资料命中率，降低读取延迟达并减少 GDDR6 显存频宽使用。

为何二级缓存的增加能减少显存频宽的需求呢 ? 其实在运算过程中，GPU 内部的 SM 单元在运算时会先查找一级缓存的数据，一级缓存中找到数据则无需访问二级缓存。如果在一级缓存没有命中则耍要在二级缓存中查找。如果二级缓存有就将数据回传至一级缓存，如果二级缓存也找不到就需要到内存中存取了，但这样会造成很大的 GPU 读取延，导致 GPU 运算单元需要闲置等待资料载入。

GeForce RTX 40 其中一个改进是增大了二级缓存的缓存容量，相比上代同级产品增加了 10 倍，极大提高了二级缓存命中率，不仅降低了GPU 资料读取延迟，同时也减少了需要到内存中存取的数量。

根据 NVIDIA 研究指出，当二级缓存由 2MB 增至 32MB，其显存的频宽需求平均降低了 50%，在没有光追下性能提升了 18%、启动 RT 下性能提升了 25%，如果启动了 DLSS 3 性能提升 34%。

为免让消费者误会显存位宽大幅下降，NVIDIA 这次也抄了 AMD 无线缓存的做法，GeForce RTX 4060 Ti 除了标示了 288GB/s 真实显存频宽，同时备注了 554 GB/s 等效显存频宽，意思是 32MB 二级缓存的 288GB/s 显存频宽，性能与 2MB 二级缓存下 554GB /s 显存频宽基本相同。