【原】英特尔为何要执着于独立显卡？

爱极物 2022-04-28

展开全文

随着英特尔桌面独显正式发布日期越来越近，关于蓝方阵营的游戏独立显卡能否一战成为玩家们关心的话题之一。

放眼过去，其实能够在首发中一战成名的电子产品已经凤毛棱角，英特尔桌面独显Arc A首发的Alchemist架构7款显卡似乎也正在遭受这样的尴尬，从目前泄露的性能表现来看，旗舰级Arc A770表现可能处于RTX 3060 Ti和RTX 3070中间。

而在英特尔Arc桌面独显正式发布后的一个季度，NVIDIA下一代GeForce RTX 40系列将蓄势待发，台积电4N工艺可能会让RTX 40系列相比RTX 30性能再翻一倍。而从去年就开始不断预热的AMD RDNA 3架构同样也到了随时可以发布的节骨眼。

更重要的是，GPU已经形成了一套闭环的生态系统，头部游戏工作室、引擎厂商、系统、驱动之间环环相扣，独立游戏显卡如果希望获得良好的游戏表现，就必须不断的攻城拔寨，至少与每一款潜在的爆款3A游戏制作方展开深度合作。比如AMD在NVIDIA设定的实时光线追踪门槛上，就吃了不少苦头。

似乎第一代英特尔Arc还没有正式推出，就已经戴上了悲情者的角色，对于需要向投资者、股东交代的英特尔，为什么会愿意耗费大量研发资源，义无反顾的走上独立GPU的研发之路？这件事可能需要从英特尔的终极梦想说起。

XPU：梦想的大一统

按照计算方式的不同，计算芯片类型可以分为SVMS四大板块，分别是标量（Scalar）、矢量（Vector）、矩阵（Matrix）、空间（Special）。四大类型计算芯片切割了整个计算芯片市场，标量计算由CPU负责，矢量计算由GPU负责，矩阵计算则依靠ASIC，空间计算使用的是FPGA，四个板块在很长一段时间中相互隔阂，能同时掌握两个板块以上的开发人员凤毛麟角，开发出一套具备人脸图像分析加深度学习的硬件平台，通常需要颇具规模的工程师团队协同工作。

类似物理学家们的终极目标是追求大统一定律，计算芯片的厂商们也在不断试探能够一家横跨四大计算芯片类型，一家提供完整的跨类型计算解决方案，实现异构多核处理器的梦想。这使得整个业界TOP 10厂商会不断向下整合，收购其他芯片厂商弥补自缺失。近期最著名的例子包括NVIDIA曾经试图收购的ARM，AMD成功收购的赛灵思。

正是在这样的环境下，擅长买买买的英特尔早已把独立GPU计划写在小本本上。在完成对FPGA厂商Altera收购之后，英特尔马不停蹄提出了奥德赛计划，在时隔二十多年后才将真正意义上的独立显卡产品，重新提上议程，并催生了Xe架构，以及现在所能看到的Arc独立显卡系列。

换而言之，英特尔最初的想法，不是一开始就看上了已经被NVIDIA、AMD斗争到白热化的游戏市场。而是基于计算需求和应用考虑，英特尔从技术角度认为，他们必须在产品序列中弥补矢量计算上的空缺。随着Xe架构的发布，英特尔拿下了异构计算最后一块重要拼图，即完成了标量（CPU）、矢量（GPU）、矩阵（ASIC）、空间（FPGA）四大计算类型的芯片全覆盖。

而这样的操作，也使得英特尔成为目前行业内唯一一家成为四大计算类型芯片的全方案供应商。英特尔甚至为其提供了一套大统一的API入口，通过一个软件平台，就能解决CPU、GPU、AICS、FPGA的全方位问题，其中包括编译器、编程库、分析器在内的全套开发工具统一打包，横跨四大类型计算芯片的梦想变成了现实。这个平台，被称为Intel oneAPI。

至此，英特尔完成了CPU转向XPU的第一步，一家公司横跨CPU、GPU、AICS、FPGA，并通过一个平台调配和掌控，即XPU+oneAPI超异构计算概念成型。

游戏是新的起点

在这样的环境下，GPU光有口号和占位是远远不够的。虽然算上集成显卡领域，英特尔已经占据PC显卡市场份额大头，但无论是服务器、科学计算还是游戏实时计算所需要的大规模并行运算方式，都需要一个规模更庞大，更复杂的GPU。英特尔Arc A系列游戏独显的意义巨变得至关重要了。

举个例子，集显Xe架构最多包含96个执行单元，而在英特尔Arc锐炫独立显卡上，不仅要重新定义单元层级，还要融入多达512个Xe-HPG架构的矢量引擎，在独显芯片面积增大五倍的同时，在控制功耗的同时，性能明显提升。

同时GPU的主要任务是在2D屏幕上创建2D和3D的内容，绘制像素本身需要大量的线程同时处理，即大规模并行处理方式，处理多个小任务，从而实现像素绘制。如果要达到细致的沉浸感，必须在每一个像素上都花费更多功夫，并且同时确保整体的响应迅速、流畅。

如文章开头所说，GPU架构设计和软件开发需要大量的研发资源，进入游戏领域是个很好切入点，英特尔如果想确保自家的GPU产品有足够的竞争力，还必须支持主流游戏，以及包括Adobe、Autodesk在内的专业应用。

而云游戏也仅仅是是个开始。GPU的大规模并行处理能力更适合处理高度并行数据，包括人工智能、深度学习、高性能计算，乃至超级计算机，都需要GPU来提供性能。而英特尔GPU早已在服务器中付诸实践。在一套典型的双卡GPU服务器系统中，英特尔服务器GPU支持超过100个安卓云游戏并发用户，并且最高可以扩展至160个并发用户。