分享

英特尔发布世界上最快的FPGA!

 李清龙1023 2022-04-08

英特尔刚刚推出了Agilex M系列FPGA,支持PCIe Gen5、Optane持久内存、CXL和高速以太网。Agilex M系列中的一些FPGA还集成了HBM(高带宽内存)DRAM堆栈。

集成HBM DRAM堆栈对于FPGA来说并不是什么新鲜事,英特尔和AMD-Xilinx在好几年前就已经开始提供这种设备了。Xilinx于2016年底发布了其首个集成HBM的FPGA,即Virtex UltraScale+ HBM FPGA。英特尔第一代集成HBM2DRAM堆栈的FPGA家族是英特尔Stratix 10 MX FPGA,于2018年底发布。

Agilex M系列FPGA集成了最新、最快的第三代HBM2e DRAM堆栈,与第四代英特尔Xeon Scalable “SapphireRapids” CPU和英特尔Ponte Vecchio GPU使用的堆栈相同,用于提高性能。

将HBM添加到FPGA的主要原因是速度。当然,FPGA上最快的内存仍然是嵌入在可编程逻辑结构中的本地SRAM。这种内存的运行速度通常与FPGA中的逻辑一样快,但是容量有限。FPGA供应商试图在片上FPGA资源(包括逻辑、内存和DSP块)上创造“最佳”平衡,但最佳的资源平衡往往取决于应用程序,所以对于FPGA这样的通用设备来说,并没有最佳的平衡。

SRAM块会消耗大量内存,而外部接口的DDR SDRAM速度上要慢得多,因此FPGA制造商要为FPFA内存结构寻求一种中间存储技术。英特尔和Xilinx都选择了HBM。

将HBM DRAM堆栈添加到FPGA并不廉价,它们是每一代中速度最快的设备,所以价格昂贵。需要这种内存速度的应用包括云加速、400GbE和800GbE网络、下一代网络防火墙、8K(或更高)广播视频设备、军事和航空相控阵雷达,甚至高速测试和测量设备。在这些应用程序中,FPGA成本是次要的,速度为王。

与Stratix 10 MX FPGA中使用的HBM2内存相比,英特尔Agilex M系列FPGA封装的两个HBM2e DRAM堆栈将高速DRAM容量提高了一倍,最高可达32 GB。每个HBM2e DRAM堆栈还将内存带宽提高到410 GB/s,总内存带宽为820 GB/s。与英特尔Stratix 10 MX FPGA相比,带宽增加了60%。额外的内存带宽为Agilex M系列FPGA迎接更具挑战性的系统设计提供了可能。

对于许多系统设计来说,32GB的内存容量是不够的,因此Agilex M系列FPGA还通过硬内存控制器支持外部DDR5和LPDDR5 SDRAM。DDR5和LPDDR5 SDRAM是目前可用的速度最快的主流SDRAM内存。Agilex M系列内存控制器也支持QDR-IV SRAM。

Agilex M系列FPGA还支持英特尔的Optane持久内存,其速度比SDRAM慢,但容量更大。

Agilex M系列FPGA的内存控制器可以以5600 Mtransfers /s的速度运行DDR5 SDRAM,每个通道的数据宽度可达80bit。Intel透露,如果结合封装内的HBM2e DRAM和外部的DDR5 SDRAM内存带宽,得到的理论最大内存带宽为1.099 TB/s(假设8个DDR5 SDRAM内存连接到FPGA上)。这个内存带宽是很大的,而且还不包括逻辑结构内部SRAM的内存带宽。

在可编程逻辑结构上实现超过TB/s的数据传输,再加上HBM2e和DDR5存储,这对于最有经验的FPGA开发团队来说也是一个相当大的挑战。所以英特尔FPGA设计团队为Agilex M系FPGA开发了一种双硬化片上网络 (Network on Chip,简称NoC)。

这是英特尔第一个包含硬NoC的FPGA。如下图所示,Agilex M系列NoC显然不是一个通用的NoC。Xilinx Achronix Speedster 7t FPGA中使用的是通用NoC,可以连接各种片上计算单元、I/O端口以及内部和外部内存。Agilex M系列NoC的设计目的是在FPGA的内存、I/O端口和可编程逻辑中的M20K SRAM块之间传输数据,而不是在逻辑结构中的计算单元之间传输数据。

图片

从上图可以看出,Agilex M系列NoC分为顶部和底部内存NoC。顶部和底部内存NoC组件每个都扩展了20个256位垂直网络段到可编程逻辑结构中,将NoC连接的HBM2e和DDRSDRAM存储器的读数据传输到M20K SRAM块。每个垂直段的峰值带宽为22.4 GB/s。

每个垂直段从顶部或底部内存NoC延伸到逻辑结构的一半。这些垂直的NoC段连接到嵌入在FPGA可编程逻辑结构中的M20K块,并且它们只能实现单向传输数据:从HBM2e和DDR存储器到M20K块。写数据到HBM2e和DDR存储器必须通过逻辑fabric,具体如下图所示。

图片

Top和Bottom内存NoC通过256位的AXI4启动器连接到逻辑fabric,通过UIB块连接到HBM2eDRAM,通过IO96连接到DDR SDRAM和I/O端口。NoC通过网关(图中的S)将数据从源端传输到目的端,每个AXI4启动器可以通过NoC中的全交叉条与NoC中的每个AXI4目标器通信。

NoC就像FPGA中的高速公路,它不消耗FPGA的内部可编程逻辑。Agilex M系列双NoC的总峰值带宽为7.52 Tbps,大大降低了内存瓶颈的可能性。

高端应用的FPGA必须包括高速SerDes收发器,而M系列FPGA包含多达72个高速收发器,其中8个收发器使用PAM4调制,速度为116Gbps。这些SerDes收发器支持各种最新的高速串行协议,包括400G以太网,可以使用PCIe Gen5和CXL接口协议直接连到CPU。

对于其计算能力,英特尔在Agilex M系列FPGA中加入了多达12,300个可变精度浮点DSP块,能够提供18.5个单精度TFLOPS或88.6个INT8 TOPS。

在AMD-Xilinx系列FPGA中,与Agilex M系列FPGA的对标的是Versal HBM ACAP,也添加了HBM2e DRAM堆栈作为内存层次结构的一部分。


原文链接:

https://www./article/intel-announces-worlds-fastest-FPGAs-with-in-package-hbm-the-intel-agilex-m-series-FPGAs/

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多