【原】超薄本的第二引擎英特尔加速部署多类型Iris Xe

CHIP中文版 2020-12-11

展开全文

使用10nm+SuperFin制程、代号为Tiger Lake的十一代酷睿，自9月初发布以来，已有数十款相关产品上市，价格覆盖4000元到20000元的广阔市场范围。人们更熟的是悉英特尔酷睿i7/i5/i3和奔腾、赛扬等处理器品牌，而对20年来笔记本电脑广泛普及的另一大功臣核显就没有那么熟悉了。每次酷睿升级，“处理器”都更为引人瞩目，而核显则相对低调很多。

2014年开始，英特尔在GMA基础上，将图形部分独立为Iris（锐炬）品牌，并先后推出Iris/Iris Pro、Iris/Iris Plus等数代产品，分别对应GT2和GT3性能级——常规GMA为GT1、无核显为GT0。英特尔Iris品牌的出现，以及后续产品性能的不断跃升，也令英特尔重返独显/高性能显卡市场的雄心逐渐浮出水面。

直到十一代酷睿这一代时，核显已经迭代到第十二代。无论是作为核显出现的UHD、Iris Xe（代号Xe LP），还是代号为DG1的独显回归首作英特尔Iris Xe MAX，都已广泛上市、渐成市场主流。

很多只看处理器指标的朋友，可能会因处理器核心数量最多仍为4个，而对十一代酷睿的提升幅度抱有疑虑。然而从上面的十一代酷睿晶圆照片上不难看出，4个Willow Cove核心的面积，并没有96EU的英特尔Iris Xe核心面积大，如果再加上与显示功能直接相关的视频编解码器、图像处理引擎、显示引擎及I/O等部分，面积将更大，即晶体管数量更多、性能也更强大。另外，如架构图左上角所示，十一代酷睿核心中集成了全新的IPU（Image Processing Unit，图像处理单元）6，而这一功能在特定版本的产品中开放。

题外话，近来跑分牛哄哄的M1，也是通过这样专用单元为特定应用加速。随着Windows相关软件开放对IPU6的加速特性，十一代酷睿本同样快到起飞。

回到正题，Xe架构面向高性能图形应用设计、同时兼顾功耗，和此前成本优先的理念完全不同。它重新设计了整个核心架构，包括流水线、架构、缓存、显示及媒体引擎都进行了大刀阔斧的改革。当然，也加入了更多的晶体管及执行单元（EU）。

从表面上看，更多的晶体管集成，得益于英特尔的10nm制程，而实际上Xe架构的设计思路完全被颠覆。其首要层面就是利用GPU计算单元的数量（多）和结构（简单）优势，将越来越多的AI加速从CPU转移到GPU。因此，英特尔Iris Xe与其他GPU产品的计算特性差异之一，它支持INT8（8位整数），再加支持Intel DL Boost引擎中的DP4a新特性，以及OpenVINO、OneAPI开发工具的优化，其AI性能是上代产品的2~4倍。

除了制程和架构层面的变化，英特尔Iris Xe也不出意外地加入了“军备竞赛”，核心硬件配置全面升级，即使没有频率层面的大幅提升，其各项性能也有了历年来最大的一次提升。其中，在个人消费者最关心的游戏性能方面，预计全速功耗在10W以内的Xe（96EU）产品，性能可达到MX 350的水平——如小新这样的OEM产品甚至将其功耗提升到30W水平，图形性能甚至超过了MX 450。而作为集成显卡，功耗大幅低于独显是最基本的素质，而硬币的另一面就是GPU与CPU相平衡的功耗水平，且不因为散热能力的问题相互影响性能发挥。英特尔Iris Xe频率及功耗的定义，刚好可以不改变散热系统设计，简化了产品设计的复杂度，并且不影响笔记本电脑的超薄化进展。

根据英特尔公布的数据，在1080p这个分辨率级别上，英特尔Iris Xe核显已经能够提供30fps甚至60fps的主流及3A游戏运行速度。你能想象吗！这可是在普遍厚度只有15mm~18mm、重量1kg左右的轻薄本上实现，而且电池续航时间动辄15小时起，远不是30mm厚、2kg重、5小时续航的传统游戏本可比。

除了游戏，英特尔Iris Xe还集成了与时代同步的视频及图形图像显示能力。其中包括对8K的支持：8K@60Hz 12b解码、8K@30Hz编码，对应的原生支持HDMI 2.0b和DP 1.4b，自适应刷新率（游戏）、双编码器（直播）、4个4K@60Hz显示流等新特性一应俱全，也进一步扩展了产品的应用领域。

别不服气，在显示特性领域，没有谁能以低至12W甚至7W的SoC功耗，提供如此强大的显示和处理能力，工业、商业甚至使用环境更严苛的领域，也只有它能够提供-40℃~100℃的宽温及可靠性能力了。这也是英特尔在推出PC用十一代酷睿时，还同步推出嵌入及工业宽温版本产品的原因。

当然，要想发挥英特尔Iris Xe的最佳性能也是有相应条件的，其一就是更大的内存带宽。没错，核显低成本的原因之一，就是没有动辄数GB的专用显存，容量扩大到3.8MB的Iris Xe专用L3 Cache能够解决最棘手的数据处理、三角形生成工作，而材质缓冲仍要依靠系统内存共享。作为英特尔的独门绝技，动态显存分配特性被Iris Xe很好地保留下来，这样显卡可依据工作需求，动态调整占用的内存容量，而无需持续“霸占”2GB～4GB内存。十一代酷睿支持带宽更大的双通道DDR4-3200（64GB）及LPDDR4x-4266（32GB）内存，辅以延迟更低、效率更高、带宽更大的光纤管线，图形引擎的性能更加出色。

当然，不是所有十一代酷睿处理器都配备了硬件规格最高的英特尔Iris Xe核显。Xe架构中，每16个EU为一个整体，通过灵活的模块组织，目前十一代酷睿处理器提供了96、80、48 EU等不同级别的产品，96及80 EU能被称作英特尔Iris Xe，处理器产品编号以“G7”结尾；而48以及更少EU的核显则被称作“Intel UHD Graphics for 11th Gen Intel Processors”，处理器编号以“G4”及“G1（尚未推出）”结尾。

说完了核显部分，再来说说独显版本，也就是英特尔Iris Xe MAX。不是上面这张图片哟！那是集成有4颗服务器GPU的H3C XG310“显卡”——同样基于Xe架构的，同样的96 EU。

相同的软硬件架构，甚至相同的硬件规格及制程，为Iris Xe核显与Iris Xe MAX独显“联合”加速创造了良好的平台。曾几何时，SLI和CrossFireX都可以让双/多显卡协同为游戏加速，而移动平台上，Hybrid CrossFireX昙花一现。难以维系的原因除了单卡性能突飞猛进意外，更多的是支持双/多卡加速的应用少、优化困难的现实因素。无论是帧交错（SLI）还是线交错（CrossFireX），都是被加速应用（几乎只有游戏）机械地平均分配，以解决架构/性能差异给软件优化刨的坑。

英特尔Iris Xe核显与Iris Xe MAX独显之间的联系，则使用了全新理念的Deep Link技术。该项技术是英特尔Adaptix的一部分。

从应用软件看过去，Deep Link连接起的多个Xe架构GPU核心宛若一颗GPU，也就是我们常说的“软件透明”。这样无论是软件编写还是代码优化，都只需要针对“一颗GPU”进行，而无需推出所谓专门的多GPU版本，不仅降低了优化的难度，而且也能令更多的软件一次性调用来自多个物理GPU上的相同资源，实现多GPU的共同使用及加速。因此，相比此前的多GPU技术仅能针对游戏加速，英特尔Iris Xe多GPU系统可共同为AI应用、视频编码等更广泛应用提供加速——3D、IPU、EU等不同功能模块共用。

目前，已经有宏碁Swift 3X、华硕VivoBook Flip TP470和戴尔Inspiron15 7000 2in1等多款1.3kg级别的轻薄型笔记本电脑，采用了英特尔Iris Xe MAX独显解决方案，实现了1+1>2的使用功效。

实际上，NV针对其独显产品也提供了Dynamic Boost（智能功耗分配）技术，即通过压低CPU性能释放，将更多的散热需求让给GPU。Deep Link技术中的Dynamic Power Sharing功能，可以实现类似的分配功能，并且更加智能和动态，更能充分利用笔记本电脑的散热极限实现更好的性能表现。该项技术可作用于游戏、创作或生产力等各类型同时调用CPU、核显和独显的应用上。别忘了，此时核显与独显还是联合工作的。

另外，由于是通过PCI-E4.0接口与CPU直连，英特尔Iris Xe MAX在首个支持PCI-E 4.0的移动平台上有着更好的性能表现。而同样使用PCI-E 4.0协议、与CPU直连的Thunderbolt 4接口，为十一代酷睿笔记本电脑扩展使用更多独立显示卡提供了广阔的空间。

随着英特尔进一步开放平台的硬件限制和软件提供更多优化，一台十一代酷睿笔记本电脑可同时使用英特尔Iris Xe核显、集成的Iris Xe MAX独显以及两片通过Thunderbolt 4接口扩展的Iris Xe MAX独显，Deep Link串联起1+1+2等多个GPU协同为一组应用加速，就像前文那款由4颗芯片组成的服务器“显卡”一样，获得数倍的性能增益。