分享

英特尔架构日2021:手握八芯八箭混合架构,12代酷睿浅析

 爱极物 2022-03-02

与以往不同,这是英特尔在中国首次向公众全平台开放了一年一度的架构日线上直播活动,部分媒体则受邀参加了与技术总监讨论细节的机会。笔者有幸再次见证了英特尔又一轮架构革新,这也将代表着英特尔在未来一年内的产品架构基调。

为了应对竞争对手的追赶,英特尔已经开始加速技术迭代的脚步,在今年年末,我们就能看到下一代消费类和移动端处理器Alder Lake,而在Alder Lake内部,全面更新的微架构正是英特尔下一代处理器征战市场的法宝。现在就让我们趁着英特尔架构日2021,聊聊英特尔的CPU,以及大小核微架构细节,聊聊Golden Cove和Gracemont微架构。

12代酷睿参上

英特尔其实已经在不同场合中透露Alder Lake系列,即英特尔12代酷睿将全面启用大小核设计,并在2021年末开始投入市场。这是英特尔基于Intel 7工艺制程的第二代混合架构。事实上这个设计与英特尔Lakefield的小型化笔记本设计一脉相承,但这次英特尔更为确切的标明了每个核心的定位和作用,即代表高性能的P-Core(Performance-Core),和代表节能且高效、源自Atom的E-Core(Efficiency-Core)。

因此在Alder Lake处理器中,分别由Golden Cove微架构的P-Core和Gracemont微架构的E-Core构成。其中P-Core用于处理低延迟的单线程任务,E-Core则擅长在功率受限以及多线程场景的任务。你可以这么理解,12代酷睿既可以做到类似于Core i9-10900K的高频率,同时还拥有类似于Core i9-10980XE的多线程两种特性。

重点是,英特尔表示无论定位高低每一块12代酷睿Alder Lake都会具备大小核设计特点,只是目前没有披露详细的划分。

而如果从桌面、移动端、轻薄型移动端的角度划分来看,Alder Lake至少会提供三种不同的形态,分别是:

8 P-Core + 8 E-Core,8个大核8个小核24个线程(8C8c24T),在台式机上使用LGA1700插座,对应TDP 125W,台式机常见;

6 P-Core + 8 E-Core,6个大核8个小核20个线程(6C8c20T),移动UP3设计,对应TDP 12W-35W,也就是我们现在低压笔记本上的常见处理器;

2 P-Core + 8 E-Core,2个大核8个小核12个线程(2C8c12T),移动UP4设计,对应TDP 9W,超低压笔记本会用上。

在结构图中我们可以看到,4个E-Core的占地面积与1个P-Core相同,并且桌面端处理器还见配备32个EU(执行单元)的Xe-LP核显,2款移动处理器则最高可以提供96个EU,这样设计也更符合不同使用人群的需要。

桌面处理器扩展细节

作为DIY关心的核心,自然要先聊聊最具备象征意义的桌面端处理器。如前面所言,桌面端Alder Lake将拥有16个内核和24个线程,并最高具备30MB L3缓存。

同时Alder Lake桌面端处理器将一步到位,这半年来你所听到的DDR5-4800,DDR4-3200、LPDDR5-5200、LPDDR4X-4266均有所支持。同时处理器的超频技术也会加强,但细节要到临近发布的时候才会公布。

值得注意的是,英特尔确认不同型号的Alder Lake之前不会有独立的设计,所有台式机处理器都会同时支持DDR5和DDR4标准,同时LPDDR5和LPDDR4X的支持还需要主板厂商的设计支持。

接下来是PCIe通道。Alder Lake也一步到位让处理器同时支持PCIe 5.0,同时也向下兼容PCIe 4.0和PCIe 3.0,通道数量仍然为20条。其中桌面端处理器将拥有16条PCIe 5.0通道,可以支持x16用于GPU,也可以8+4+4分配给GPU和存储。实测证明,PCIe 4.0高带宽给GPU没有带来太大的提升,但是对于SSD而言提升则是质的飞跃,而目前市面上还没有PCIe 5.0的独立显卡。

英特尔表示,支持Alder Lake的芯片组最高还将支持12条PCIe 4.0通道和16条PCIe 3.0通道,允许更多的PCIe 4.0接入平台中,同时也可以减少10Gbps万兆网络接口来获得更多的通道数。

在Alder Lake中还保留了Tiger Lake上的双带宽环通讯,能够实现1000GB/s的带宽。无论是P-Core还是E-Core都能使用,并且可以根据需求禁用其中一个环来达到省电的目的。

除此之外,Thunderbolt 4,Wi-Fi 6E等内容也集成到芯片组中。

混合核心控制关键:Intel Thread Director

掌握了P-Core和E-Core意味着需要一个合理的控制器支撑,为此英特尔推出了英特尔线程管理器Intel Thread Director,本文简称ITD。

目前为止,大多数桌面系统运行的内核和性能之间是相同的,ITD分配线程的方式与同步多线程SMT(即英特尔超线程技术)略有不同,根据媒体Q&A环节解释,Intel Thread Director使用的是线程分配的原则,根据工作负载提供响应的性能,调动不同的核心进行工作。由于遵从动态分配的逻辑,因此没有固定的分配策略,具体细节需要依靠Windows 11根据实际的情况进行调配,本质上是系统与ITD技术配合协同的过程。

这也是为什么只有Windows 11能够完整发挥出12代酷睿性能。在以前版本的Windows中,调度程序必须依靠自己的程序分析推断出线程的性能要求,而Windows 11不同,其需要通过利用新技术来了解不同的性能模式、指令集,分配高优先级的线程性能,并且还可以获取哪些线程速率高,哪些线程需要降级的判断。

在Alder Lake中,性能分级是依靠如下模式进行的:

1、P-Core上的每核线程

2、E-Core上的每核线程

3、P-Core上的SMT(超线程)线程

这意味着当每个P-Core和E-Core加载完线程之后,线程需求才会转移到P-Core的超线程上。

在Intel Thread Director内部实际上还内置了一个微控制器,它用来监控那些指令是耗电的,例如AVX-VNNI指令或者AVX2指令,相对应的操作会被提升优先级。同时微控制器还查看系统中其他线程是否需要降级,无论P-Core空闲与否,亦或者电源、散热原因,微控制器都会给予最佳的线程转移提示。

英特尔表示,微控制器能够在30微秒以内完成一个线程分析,而传统的操作系统程序完成线程分析通常需要100毫秒,并且结论未必是完全正确的。

因此调度P-Core和E-Core的方式可以有很多种,一般而言最初运行的线程会现在P-Core上执行,随后到E-Core上岗,如果是在节能和移动模式下,也可以让E-Core优先执行。

有意思的是,我们发现目前推出的桌面版、移动版、超低压移动版处理器的E-Core均为八核心,原因是8个E-Core只需要占据1个P-Core的位置,效能比当初的Skylake更高,显然是非常划算的。

另外可以反推,由于Windows 10没有ITD,而是依赖于英特尔硬件引导调度HGS执行线程分配,Windows 11与12代酷睿的配合表现应该更为强劲,特别是笔记本的节能和续航能力。具体要看双方在十月份发布正式版的成果。

P-Core:用Golden Cove微架构定义未来10年

让我们把关注的重心放回P-Core。P-Core部分微架构称为Golden Cove,尽管在设计思路上与过去几年的微架构一脉相承,但对英特尔而言意义重大,其原因是英特尔对Golden Cove基本结构进行了大规模改造,甚至会影响未来十年的计算性能。

在此之前,我们已经看到Sunny Cove增强了微架构的乱序执行能力和深度,Willow Cove和Cypress Cove则是增强了内存子系统的表现。Golden Cove则是对微架构前端进行了重要升级,地位相当于当年的Skylake。

其中最直接的改变就是原本的4宽位解码器升级到了6宽位解码器,在x86中其实是比较罕见的。特别是在过去几年中,关于解码器宽度和x86可变长度指令集的讨论,都证明了x86在宽解码器设计上相比ARM更为困难。

原因是在使用大于4条指令并发解码器时,可能会有缺陷,不仅增加了设计的的复杂性,并且延长了流水线。英特尔Golden Cove在修改成6宽位指令解码的时候,增加了一个错误预判机制,虽然让运行周期从16周期上升到了17,但获得的收益是相当明显的。同时,为了配合解码器升级,提取带宽也已经从每周期16字节提升到了每周期32字节。

英特尔也表示,在解码器有80%的时间是由门控时钟操控的,而非依赖于µOP(微操作)缓存,这也使得µOP缓存从2.25K提升到了4K,提升了命中率。

同时L1缓存大小仍然保持在32KB,但是英特尔将L1 iTLB(指令旁路转换缓冲区)从128个条目提升到了256个,从而提升了代码覆盖率。

所有提升的前提都源自于对一般错误预测预判的精准度,英特尔通过提高分支预测来实现这一点。其中L2 BTB(分支目标缓冲区)翻了一倍多,结构从5K条目增加到了12K,这也是目前为止在行业中已知最大的。

同时可以看到,解码器与µOP缓存共享一组µOP队列,除了解码器宽度增加了50%,µOP缓存也增加了带宽,能够同时执行8个微操作,µOP队列自然也起了结构变化,对于单线程,可用深度增加到144个条目,双线程可用条目增加到72个条目。

另外Golden Cove的乱序指令窗口比Sunny Cove大得多,重新排序缓冲区ROB大小从352个条目增加到512个条目,已经是AMD Zen 3的两倍多,仅次于苹果核心微架构。

在后端,Golden Cove的执行宽度从10个端口增加到了12个,并保留合并执行端口设计。ALU和LEA管道增加到了第五个。

在浮点运算方面,Golden Cove新增了FADD单元,与FMA单元相比更为高效,同时还增加了FP16的计算,同时也用来实现AVX-512。从整体来看,后端变化不大。

在家在和存储方面,Golden Cove增加了一个能够加载AGU的额外专用执行端口,每个周期加载数量可以从2个提升到3个。L1D填充缓冲区从12个增加到16个,L1DTLB从64个条目增加到96个条目。

同时L2缓存保持在1.25MB,服务器版本则增长到2MB。

与Rocket Lake的Cypress Cove相比,Golden Cove微架构总体提升大约为19%,英特尔给出了一组SPEC CPU 2017、SYSmark 25、Crossmark、PCMark 10、WebXPRT3 和 Geekbench 5.4.1的数据作为参考,改变还是非常明显的。

E-Core:Gracemont微架构让Atom附体

E-Core的Gracemont微架构则是源自于Tremont Atom设计的全面升级。如前面所说,4个E-Core的战地面积与1个P-Core相当,4个E-Core共享4MB L2缓存。

对于性能的描述,英特尔引用了SPECrate2017_int单线程和多线程作为参考。能够看到Gracemont的1C1T相对Skylake的1C1T提升了40%的性能,并降低了40%的能耗。如果是4C4T的Gracemont对比2C4T的Skylake,则可以提升80%的峰值性能,并降低80%的能耗。

如果从峰值单线程的角度来考量,Gracemont对比Skylake的性能提升大概会在8%左右。

让我们先来看看前端。上一代Tremont特点是双三宽位解码器设计(两个3-wide decoder),支持2个解码流并发,现在Gracemont微架构也继承了这个特点,并具备双倍大小的64KB L1指令缓存。

在解码流程中,通常先将解码历史存储在指令缓存中,如果解码阶段调用缓存内容未命中,则直接从指令缓存中提取,从而达到节省时间的目的。在Gracemont中,重新排序缓冲区增加到了256个,拥有17个执行端口,远比上一代的8个多得多。

17个执行端口意味着Gracemont在一个周期里可以做更多的事情,从后端结构来看,17个执行端口分别为:

4个负责整数运算的ALU,其中2个可以用作MUL/DIV

4个地址生成器单元,2个加载+2个存储

2个分支端口

2个额外的整数存储端口

2个浮点/向量运算存储端口

3个浮点/矢量ALU

这使得E-Core端口数量比P-Core的12个执行端口更多,同时英特尔为其配备了2个单独的调度程序。

此外,后端由32KB L1缓存支持3个周期的指针追踪延迟和64个未完成的缓冲命中。因为有2个加载端口和2个存储端口,这意味着能有2x16个字节加载和2x16个字节的存储到L1缓存中。

4个E-Core共享的4MB L2缓存延迟为17个周期,L2缓存可以支持每个周期执行64字节的读写,对于4个E-Core而言已经足够。同时4个E-Core还共享最多64次未命中内存子系统。

如果将E-Core仍然看作Atom,那么Gracemont还将是第一个启用对AVX2支持的Atom内核,端口20和端口21分别对应FMUL和FADD矢量计算端口,在视频处理上将能够拥有更强的表现。

同时英特尔也表示Gracemont具备最新的安全功能,包括制止挖矿行为的控制流技术CET,虚拟化功能VT-rp等等。这使得E-Core具备了更多的功能性。

写在最后:融合架构新起点

事实上只有2个半小时的英特尔架构日宣传是远远不够的,Alder Lake的具体表现和细节会随着产品发布日期临近而不断放出。其中台式机硬件很可能会在今年年底开始出货,而移动端和低压移动端处理器可能需要等到CES2022。

Alder Lake背后意味着英特尔与微软之间更密切的合作,想发挥出更多硬件性能,必须从硬件和软件层面进行深度定制,这与Apple Silicon软硬结合的思路相类似。特别是系统要细致的掌握每一个线程的状态,并在30微秒内做出判断,进而给予E-Core或者P-Core的使用权限。

而在内存选择上,Alder Lake给予了DDR4和DDR5两者同时支持的准备,给予厂商过度的时间。类似于DDR3到DDR4的漫长过度,期间论坛上不免也会有很多关于DDR4和DDR5谁优谁劣的争论。不过历史的车轮是向前的,虽然从现在来看DDR5还有频率不够、时序太长等诸多问题,但到达2022年,DDR5的市场将增加到10%。

从设计的角度来看,P-Core + E-Core的组合确实给12代酷睿带来了全新的改变。特别是P-Core的Golden Cove微架构升级了前端解码器,IPC性能再次提升19%。而E-Core的Gracemont则赋予了更多的功能性,并拥有17个执行端口,即使把E-Core单独拿出来与Skylake对比,也嫣然是一副能打的架势。

现在距离十月份其实还有一些时间,我们不妨再让Alder Lake酝酿一下,这场能与当初Skylake一般发生质变的升级让人愈发期待。同时也欢迎持续关注爱极物,我们还会在后边的推送中聊聊Xe独显,以及未来Alder Lake和Xe独显的相关测试。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多