分享

128bit显存频宽真的够用么?NVIDIA GeForce RTX 4060 Ti 公版显卡实测(1)

 22DIY 2023-05-24 发布于陕西

NVIDIA 正式发布主流级 GeForce RTX 4060 系列显卡,采用 AD106 核心、共三款 SKU 包括 GeForce RTX 4060、GeForce RTX 4060 Ti 与 GeFoorce RTX 4060 Ti 16GB 版本,24 日率先登场是 GeForce RTX 4060 Ti,其余型号则会在 7 月上市,RTX 4060 Ti 官方定价已确定,8GB 版本为 US$399 美元 、16GB 版本为 US$499 美元,RTX 4060 还没公布、看来是要先等 RX 7600 上市才定价 。

NVIDIA GeForce RTX 4060 采用了 AD106-350 核心,拥有 4,352 个 CUDA 核心、128bit 显存位宽与 8GB GDDR6 显存容量,定价 US$399 将取代之前的 GeForce RTX 3060 Ti 地位,定位 1080P 游戏市场在光追特效全开下,通过 DLSS3 技术加持可达成 100fps+ 性能表现,更重要的是整卡功耗降低到 160W 功耗,性能功耗比更上一层楼。

对比 RTX 4070 相较 RTX 3070 有 30% 的性能升幅,RTX 4060 Ti 明显小气得多,据 NVIDIA 官方数据指示,RTX 4060 Ti 与 RTX 3060 Ti 真实性能相当接近,当 RTX 4060 Ti 启动 RT +  DLSS 后性能相比上代 RTX 3060 Ti 快 15%,当启用 RT +  DLSS 3 Frame Gen 后,GeForce RTX 4060 Ti 才能拉开与 GeForce RTX 3060 Ti 的距离、性能提升 70%,因此 GeForce RTX 4060 Ti 在游戏市场要取得销售成功,看情况很大程度 NVIDIA DLSS 3 技术的普及程度。

台积电 4N 制程、NVIDIA AD106-350 核心

NVIDIA  AD106 核心基于全新 Ada Lovelace 微架构,并用于 GeForce RTX 4060 与 RTX 4060 Ti 产品之中,性能提升主要来自 FP32 运算单元数量及频率倍增,更大的二级缓存容量及全新着色器执行排序技术,升级第 3 代 RT 核心、升级第 4 代 Tensor 核心,与上代比较 Ampere GPU 微架构比较,传统光栅图形运算提高了 2 倍,同时在光线追踪性能上提升近 4 倍。

采用台积电 4N NVIDIA Custom 制程,拥有 221 亿个晶体管、 尺寸为 190.2mm² 与上代 GeForce RTX 3060 Ti 的 GA104-200 尺寸 392mm² 差不多,完整的 AD106 芯片内置 3 个 GPC 单元、 18 个 TPC 纹理处理群集及 36 个 SM 串流多处理器,具备 4,608 个 CUDA 核心、36 个 RT 核心、144 个 Tensor 核心、144 个 Texture Unit 及 48 个 ROP。

核心频率方面,采用台积电 4N 制程使这代 Ada Lovelace 的核心频率可大幅升,NVIDIA GeForce RTX 4070 公版默认频率 2,310MHz、加速频率为 2,535MHz,较高的 GPU 频率弥补 CUDA 数量下降,最高 TDP 为 160W 相比上代 RTX 3060 Ti 降低了 40W。

值得注意的是,AD106 仅支持 PCIe 4.0 x8 ,如果使用在 PCIe 3.0 旧平台只能运行于 PCIe 3.0 x8,有概率会导致 PCIe 频宽不足问题使性能略为下降,建议搭配 PCIe 4.0 主板使用。

劈一半 !!仅 128bit 位宽真的够用吗 ?

相比上代 RTX 3060 Ti 拥有 256bit 显存位宽,现在的 RTX 4060 Ti 竟然劈去一半只有 128bit,因此最高显存频宽由 448GB/s 下降至只有 288GB/s,不过 Ada Lovelace 其中一个重大改进是二级缓存容量大幅增加,上代 RTX 3060 Ti 的二级缓存仅 3072 KB (3MB),RTX 4060 Ti 则大幅提升至 32768KB (32MB),据 NVIDIA 指出能大幅升游戏 Workload 资料命中率,降低读取延迟达并减少 GDDR6 显存频宽使用。

为何二级缓存的增加能减少显存频宽的需求呢 ? 其实在运算过程中,GPU 内部的 SM 单元在运算时会先查找一级缓存的数据,一级缓存中找到数据则无需访问二级缓存。如果在一级缓存没有命中则耍要在二级缓存中查找。如果二级缓存有就将数据回传至一级缓存,如果二级缓存也找不到就需要到内存中存取了,但这样会造成很大的 GPU 读取延,导致 GPU 运算单元需要闲置等待资料载入。

GeForce RTX 40 其中一个改进是增大了二级缓存的缓存容量,相比上代同级产品增加了 10 倍,极大提高了二级缓存命中率,不仅降低了GPU 资料读取延迟,同时也减少了需要到内存中存取的数量。

根据 NVIDIA 研究指出,当二级缓存由 2MB 增至 32MB,其显存的频宽需求平均降低了 50%,在没有光追下性能提升了 18%、启动 RT 下性能提升了 25%,如果启动了 DLSS 3 性能提升 34%。

为免让消费者误会显存位宽大幅下降,NVIDIA 这次也抄了 AMD 无线缓存的做法,GeForce RTX 4060 Ti 除了标示了 288GB/s 真实显存频宽,同时备注了 554 GB/s 等效显存频宽,意思是 32MB 二级缓存的 288GB/s 显存频宽,性能与 2MB 二级缓存 下 554GB /s 显存频宽基本相同。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多