【原】生成式AI，GPU Busy，游戏性能提升，Intel Arc显卡又双叒升级了

爱极物 2023-08-19 发布于上海

展开全文

我们在很多场合中不止一次提到过Intel Arc锐炫显卡是一款会成长的GPU，在推出仅一年多的时间内，Intel Arc就历经了数次重大升级，包括对DX11、DX9主流游戏的不断优化，新游戏发售当天即刻适配等。在Intel Arc发售以来，已经有超过30次的驱动更新，已经颇有当年A/N卡驱动大战，驱动大战的味道。

而就在最近，在英特尔大湾区科技创新中心的英特尔技术分享会上，Intel Arc再次放出接大招，包括DX9、DX11和DX12游戏性能再次提升，并推出了全新的GPU Busy性能指标参考，Apple ProRes到AV1的高效转码，以及包括包括ChatGLM-6b、Llama 2-13b在内的AI生成式内容创作。

海量的功能和技术更新让笔者忍不住看了一下现在Intel Arc A380仅有三位数的实际售价，啧啧，真的是Arc用户血赚的节奏。

GPU Busy：提升响应新法宝

如何降低游戏中可能遇到的各种延迟响应是每一家GPU厂商在提升技术和驱动时需要先考虑的问题。比如NVIDIA Reflex会考虑I/O输入到显示器输出过程中的整体系统响应表现，其中有一种情况是，如果遇到CPU性能太强劲，比如Core i9，那么就会通过CPU Boost来降低CPU速度来确保GPU跟上节奏。

让CPU受限或者性能过剩，显然都是不对的。过往的大部分游戏情况中，如果在Core i5上就能运行很好的游戏，在Core i7和Core i9中很可能提升不明显，原因是CPU与GPU之间没有一个均衡的解决方案，而随着英特尔优化驱动的引入，这个问题得到了很好的解决，特别是引入的GPU Busy性能指标检测，就能很好的观测到这一点。

解铃还须系铃人，CPU和GPU之间搭配的问题，实际上还是需要CPU与GPU之间沟通优化来解决。也就是降低CPU在每帧上花费的时间，并且缩短与GPU的沟通延迟，因此就引出了CPU中的Frametime概念。

不同于GPU在显示过程中的大规模并行处理，游戏单帧画面在CPU中需要历经游戏逻辑处理、物理计算、调用I/O、命中检测等等，而后才是调用渲染器将当下的游戏状态传递给GPU进行下一步操作。

但在动辄5GHz的时代，当下想让GPU赶上CPU的频率是不可能的，在执行的过程中，CPU会执行一段Wait的命令，等待GPU回馈之后再进行下一个流程。顾名思义，Wait就是CPU在等待GPU做出反应，而这个过程也包含在Frametime的过程中，导致Frametime的实际时间被延长。

当CPU的Frametime大于GPU渲染时间，英特尔就会将其称为GPU Busy。是的，这个时候GPU真的很忙。

而原则上，Frametime时间与GPU渲染时间同步，才能保持效率最大化，不会有单方面的处理单元瞎忙活，费力不讨好。因此Intel在最新一版的驱动中降低了CPU Frametime，特别是其中Wait的过程，并且消除一些无意义的行为，让每一次执行变得更为高效。

通过对比可以看到，Frametime在《守望先锋2》1080p Ultra画质下成功降低了CPU Frametime与GPU渲染之间不同步的问题，并将Frametime响应时间从原本的6-10ms，降低至5ms左右，可以说进步是相当巨大的。

同时这意味着如果与高性能CPU搭配，CPU与GPU之间达到平衡，也可以给GPU带来更多提升的机会。

重点是GPU Busy是个通用性的概念，它不局限于英特尔的CPU和GPU中，而是可以检测到不同品牌CPU、GPU之间的配合，比如Intel CPU+NVIDIA GPU，Intel CPU+AMD GPU，AMD CPU+Intel GPU等等。在最新一版本的PresentMon Beta监测工具工具中，英特尔已经将GPU Busy作为一个独立的检测项，在游戏的过程中提供CPU与GPU之间匹配度的参考。

DirectX 11体验再提升

让我们把目光放回Intel Arc。我们知道Intel Arc在设计之初是针对DirectX 12进行硬件设计的，但显卡适配本质上是个经验与体力活，特别对于Intel Arc没有出生之前的游戏适配，实际上会存在很多困难。就好比一个英语专业的大学生，毕业之后为了获得更好的工作机会，必须重新去学习文言文。

从实际情况来看Intel Arc在推出的一年多的时间内，表现得很好。英特尔首先对DirectX 9驱动进行了重构，放弃了之前转换层兼容的低效模式，从而获得43%以上的平均性能提升。

但只有DirectX 9是不够的，因为DirectX 11也占据了主流游戏的半壁江山，比如时下火热的《永劫无间》，不要看宣传说即将支持DirectX 12，支持光追等大量新技术，实际上它现在仍然是基于DirectX 11的游戏。同等性能GPU下，你振刀的效率低于对手，那作为玩家的你肯定是无法忍受的。

现在Intel Arc针对DirectX 11再读给出更新，这也是在第一季度驱动更新之后，Arc针对DirectX 11的再次加强，从Intel官方数据来看，所测试的11款游戏帧率平均提升幅度将近20%。

而我们常说的1% Low帧，或是99th Percentile情况也更为明显，提升幅度也有20%，最高提升可达45%。而所有的测试都是在Intel Core i5-13400F搭配Intel Arc A750完成，可见Arc驱动的成熟度仍在在不断提升，现在已经有了很好的执行效率，并且未来的表现可能还会更好。

生成式AI：用轻薄本也能跑

一旦提到大语言模型，我们第一个反应是Grace Hopper集齐一套，上千万美元投资使劲砸，跟我们普通消费者没什么直接关系。相比之下，英特尔的想法其实会更激进一些，就是在离线状态下，也能让普通消费者体验到本地生成式AI带来的优势和高效。换而言之，英特尔已经着手将AIGC应用到了我们现在常见的轻薄型笔记本上。

在现场，英特尔给我们展示了两个DEMO。一个是当下喜闻乐见的Stable Diffusion，另一个则是基于ChatGLM-6b、Llama 2-13b的计算。对于开源的AIGC，英特尔的态度显得非常积极，同样也得益于OpenVINO优秀的兼容性以及对开发者的友好。

其中Stable Diffusion使用了社区中火热的Automatic1111模型，将一段推理关键词交个Core i7-13700H的轻薄本来执行。英特尔还特别强调了，利用OpenVINO加速的Stable Diffusion在配置过程中，只添加了一行代码，就能实现PyTorch模型的加速。

整个过程只依靠Core i7-13700H的核显来完成，一张512x512分辨率的图片实现时间为17秒左右，与独显比起来算不上快，但是对于移动过程中临时生成一张图片而言，已经完全足够。

如果是使用独显的Arc A770作为比较，同等条件下生成所需时间则只需要2秒，生成速率大概在9.65it/s左右，也就是每秒迭代9.65次，是个不错的成绩。

另外一个演示则是基于ChatGLM-6b、Llama 2-13b的表现。同样是Core i7-13700H搭配Xe核显。其中ChatGLM-6b可以做到首个token生成first latency 241.7ms，后续token平均生成率after latency 55.63ms/token。同时Llama 2-13b则执行了更为复杂的中文与英文生成，在几乎不影响阅读速度的情况下，笔记本也能够做到快速的生成效果。

顺带一提，ChatGLM-6b、Llama 2-13b中的b是billion的意思，即ChatGLM的60亿参数版本，和Llama 2的130亿参数版本，前者由清华大学知识工程和数据挖掘小组开发，后者由Facebook，也就是现在的Meta开发，均为开源。

而根据现场演示，英特尔轻薄本最高可以做到StarCoder-15.5b规模的大语言模型LLM推理演示，将近160亿个参数是目前13代酷睿轻薄本执行的天花板，已经非常惊人。这也让我们看到轻薄本实际上已经具备了一定的AIGC实际应用体验，在未来不同场景、客户端中，通过AIGC替代繁琐的人工，实现更高效的内容创作已经近在咫尺。

写在最后：Intel Arc进阶时

在游戏和AIGC之外，Intel还在现场利用Arc A770进行了通过单一摄像头实现人物动作的3D数字重建，通过抓去27个骨骼点实现快速的虚拟人物生成、渲染，并且流畅度达到70FPS。

同时利用Arc A380在极短的时间内完成Apple ProRes到AV1的高效转码，效率甚至高过NVIDIA GeForce RTX 4090，确是让人倍感意外。

不仅如此，英特尔还在积极设计单槽GPU，计划在未来一段时间中，让Intel Arc向边缘计算进一步扩展。

由此可见，Intel Arc仍然处在一个进阶状态，英特尔进军GPU市场不一定要与A家和N家正面硬刚，通过挖掘Xe架构的优势，挖掘新的GPU应用与生态，给消费市场提供更丰富且高性价比的选择，让人更喜闻乐见。从GPU Busy提出，到DX9、DX11驱动的全面优化，以及对开源大语言模型的积极应对，对AIGC普适化给出解决方案，都已经很好证明了Intel Arc深耕GPU的决心。