特斯拉称,D1芯片提供22.6FLOPS的单精度计算性能(FP32),在BF16/CFP8中提供高达 362 TFLOPS算力。这种性能是在单个 D1 芯片 400W 的 TDP 内实现的。对于AI训练,可扩展性是一个重要方面,这就是特斯拉提出高达 10 TB/s 的高带宽互连(低延迟交换结构)的原因。芯片周围的 I/O 环有 576 个通道,每个通道提供 112 Gbit/s 的带宽。 Tesla D1可以通过Dojo接口处理器进行链接,然后将这些处理器安装在训练平台上,每个平台都能装25个处理器。平台采用Fan-Out Water工艺,具有完整的集群处理器散热和功能解决方案。而这些平台也能进一步链接其他平台,组建成更大的学习网络。 最后,特斯拉还透露了其使用D1芯片构建超级计算机的计划。ExaPOD基于120训练平台和3000个D1芯片,提供1062000个节点。这套系统将提供高达1.1ExaFLOPS的FP16/CFB8计算性能。建成后,ExaPOD将成为速度最快的人工智能训练超算, 比起目前特斯拉用英伟达处理器组建的超算相比,性能提高4倍,每瓦性能提高1.3倍,占地面积减少80%。 |
|