口袋里的战争续移动显示芯片发展解析

gxm_lib 2013-01-18

展开全文

口袋里的战争续移动显示芯片发展解析

分页浏览|全文浏览

2012-12-25 05:00 【中关村在线原创】 作者：顾杰 | 责编：林光楠

本文导航

返回分页阅读文章

口袋里的慢性战争

　　不知道还有多少读者记得我们先前制作过的两篇文章——《口袋里的战争移动世界3D芯片构架演义》以及《iPad2也成无尽陷阱？移动GPU构架全揭秘》，它们是我们于2011年中期所作的两篇关于移动领域显示架构及芯片发展状态的文章。在那个移动智能平台方兴未艾，正呈现出蓬勃发展甚至冲击传统DIY领域之势的时间里，我们观察到了许多不甚和谐的，曾经出现在DIY业界中并且直接或间接的导致了DIY界滑向衰落的要素来到了这个领域。我们觉得您应该也有权力知道现象背后的一些本质，所以留下了这些文字，同时也留下了我们对移动业界美好未来的期待和祝福。

口袋里的战争续移动显示芯片发展解析

　　18个月之后的今天，移动业界发生了怎样的变化呢？它是否如我们期许的那样，正在向着更好的方向前进并健康发展呢？

我们18个月前“渴望回到伊甸园”的美好愿望，现在得以实现了么？

　　18个月是一个神奇的数字，它不仅意味着一年半时间的流逝，同时还意味着刚好一个摩尔定律周期的更迭。移动芯片属于半导体业界的一部分，它自然也应该受摩尔定律的统治和支配。根据经验，摩尔定律控制虽然经常背负“限制进步速度”的诟病，但却可以切实的对芯片的良性发展提供必要的约束。移动显示领域的增长和发展，享受到这种约束所带来的好处了么？在今天的文章中，我们将会尝试着为您回答这些问题的答案。

移动显示领域的狼烟

　　● 移动显示领域的狼烟

　　狼烟四起，是用来形容当下移动显示领域激烈竞争最恰当的形容词。Imagination、NVIDIA、高通或者ARM，这些新来的或者早就已经立于移动处理架构战场中的老将们，在2013年都在摩拳擦掌，准备着一个又一个的令人咋舌的新架构。

口袋里的战争续移动显示芯片发展解析
PowerVR Series 6架构

　　作为传统的老大，Imagination的更新自然是当仁不让的。在2013年，我们将会看到代号为Rogue的PowerVR Series 6系列架构将会问世，按照Imagination公布的路线图显示，G6000系列产品将继续通过TBDR以及并行多核拓展等手段，将移动显示架构的运算能力推入100G Flops的门槛，甚至达到前所未有的200G大关。

　　NVIDIA虽然在移动领域是后起之秀，但其逐渐倾斜的在该领域的投入已经清楚地表明了它的决心。2013年里，Tegra4将会在安卓平台及windows平台与我们见面，按照目前坊间流传的参数，Tegra4将会实现Tegra3架构5倍以上的性能指标。

Tegra4将于2013年与我们见面

　　由高通通过吸收前ATI移动部门组成的Adreno虽然不如前面这两位的曝光度，但其勇敢同样不落人后。在“实现”了Adreno320高达15倍的性能提升之后，高通在2013年同样为业界带来了颇多惊喜，Adreno架构不仅会大举进入Windows RT，还会为我们带来不输于前两者的性能提升。

　　最后到场的是最晚“入场”但却最让人无法忽视的ARM。这位移动领域IP Core的事实统治者在以Mali系列架构惊艳登场移动显示领域之后，进一步为我们勾勒出了一副以Mali T600新架构为主的性能增长阶梯。5倍甚至15倍的提升幅度，对ARM而言也不是计划外的事。

Mali架构能否再续辉煌？（图片源自网络）

　　5倍、15倍、100G Flops、200G Flops，这些数字看上去既震撼又振奋人心，移动领域果然一片欣欣向荣的景象啊，我们的祝福奏效啦。

　　等等，难道就没有人觉得这数字看上去已经有些不太对了么……

　　要明白这数字究竟哪里不对，我们需要把眼光放得再长远一些，来看一看更长的时间跨度内整个移动显示领域究竟都发生了些什么。这周期到底有多长呢？其实也不长，60个月就够了。

KFC的嗑药速成鸡根本不算什么

　　● KFC的嗑药速成鸡根本不算什么

　　与正常情况下120天甚至更长成长周期的普通肉用鸡相比，以各种抗生素+激素+极端的饲养环境在45天里催熟的白条鸡也许会让您在惊叹KFC的良知下限之余发出“鸡竟然可以长得真么快”之类的感慨。但如果您知道移动显示芯片领域在过去以及可见未来的60个月间都发生了些什么，我们相信您一定会觉得KFC的战斗力最多只有5。

口袋里的战争续移动显示芯片发展解析
激素速成鸡（图片源自网络）

　　为了创造更强烈的“KFC只是战五渣”的效果，我们不妨先来回忆一下本文开头提到的那个广为人知的概念：摩尔定律。

　　摩尔定律是由英特尔（Intel）创始人之一戈登·摩尔（Gordon Moore）博士提出的关于半导体集成度以及性能递增关系的经验性定律。其内容是：在价格不变的前提下，集成电路上可容纳的晶体管数目，约每隔18个月便会增加一倍，性能也将提升一倍。这一定律揭示了半导体集成度与性能进步的速度。

　　从摩尔定律出发，我们不难得出这样一个模型——假如我们以第一个月的产品性能为100%，那么18个月之后的产品性能应该可以达到200%，第二个摩尔定律也就是36个月之后的产品性能应该达到400%，第三个摩尔定律周期也就是54个月之后，产品性能将会提升到原来的800%。而这仅仅是理想状态下的理论值，换言之，摩尔定律约束下的半导体产业的性能进步应该只会比这一数值慢，正常情况下很难超过800%。那么实际情况又是如何呢？

　　以NVIDIA桌面GPU架构及芯片的性能增长幅度来看，摩尔定律在半导体芯片性能增长中所反映出来的趋势还是十分正常的。从2008年7月到可见未来的2013年7月间，NVIDIA在60个月的周期内累计完成了GT200/200b-GF100/110-GK104/110三次架构升级，架构/单芯片产品运算能力的总增幅为633.9%。如果将统计对象变为期间运算能力最强的单卡多芯产品，则NVIDIA在这3.3个摩尔定律周期里实现了从G92bX2-GT200bX2-GF110X2-GK104X2四次产品升级，单产品运算能力的总增幅为731.8%。不管NVIDIA之前曾经如何的“豪言壮语”，其产品在事实中的增幅与摩尔定律符合的还是非常好的。如果我们将眼光稍微再放远一些，就会发现自从NV20开始强调ALU运算能力起，甚至是更遥远的只以像素处理能力论英雄的年代，无论是谁的GPU芯片的运算能力增速，大抵上都符合摩尔定律的支配。

　　既然桌面GPU产品与摩尔定律符合的很好，那么我们兜这么大一个圈子之前所说的“更加劲爆”的东西又是什么呢？答案就在下图：

　　是的，您没有看错，我们也没有搞错单位。移动显示领域在过去以及近未来的60个月或者3.3个摩尔定律周期内所完成的性能增幅，就是上图所显示的数字：65625%。按照既往发布的芯片以及其最新公布的Rogue芯片的规格来看，从2008年运算能力仅324M Flops的PowerVR MBX一直到明年问世的运算能力210G Flops的PowerVR G6400，Imagination的显示芯片产品的理论性能数据已经实现了656.25倍的增长，这样的增速，是正常摩尔定律增速理论值的82倍。而我们前面所看到的另外三家打得热火朝天的芯片级供应商，大体上也都“实现”了类似的增长幅度。摩尔定律在移动显示领域，早已经被践踏在了“巨人们”的脚下。

　　45天速成的白条鸡不过是吃了点激素和抗生素，然后以比常规肉鸡快2倍多点的速度早熟而已，在移动显示领域所宣称的碾压摩尔定律达82倍之巨的成长速度面前，您觉得它哪怕一丝一毫的资格来相提并论么？

　　自从移动智能平台开始“欣欣向荣”的发展以来，我们似乎被各种繁花乱入式的创新和增长冲昏了头脑，忘记了去观察和理解一些哪怕是最基本的数字。当我们第一次静下心来理解过去究竟发生了些什么的时候，相信任何一个人都会用一个词来概括这其中巨大的不正常——荒谬。我们看到600多倍的性能增幅了么？甚至有几个哪怕是超过6.56倍的实际性能增幅让我们看到了？

　　摩尔定律并非最基本的牢固不破的物理定律，它也是由一系列包括可制造性问题、物理学基本储备的消耗和转化速度以及资源成本的增长等要素共同制约所决定的结果，这种复杂的组合注定了它会存在一定的变数，同时在一定层面和等级上是可以被超越的。但与此同时，也正因为它由许多最基本的物理定律和经济规律所构成并制约，想要大幅度的超越甚至公然改写这样的定律是断无可能的。NVIDIA曾经以自己12个月为周期的产品更迭速度来证明自己超越了摩尔定律，我们且不论上面已经给出的那个“嘴上说不要，身体却很诚实”的统计结果，单看50%这样一个小心翼翼的幅度就知道靠谱的上限究竟在哪里了，而反观移动领域的各位行业领袖们集体为我们上演的这出每6个月2~3倍的成长大戏……诸位大佬，你们几个热热闹闹的这场“大混战”究竟是在蒙谁呢？

游戏规则在哪里？

　　● 游戏规则在哪里？

　　理论运算能力的空泛和不切实际仅仅是移动显示领域当下面临的问题之一，与之一起混淆视听的还有很多其他噱头，游戏规则的不统一就是其中最明显的一个。或者我们可以用一个比较直白的说法来概括——移动领域的API支持，有人说了算么？

　　以当前的移动显示架构对图形API的支持而言，也许百花齐放是最恰当的形容词了。以Imagination的PowerVR SGX Series5XT架构为例，它宣称支持OpenGL ES 2.0 and OpenGL ES 1.1 + Extension Pack、Desktop OpenGL 2.0 (SGX535/545) and 3.0 (SGX545)、OpenVG 1.1 enabling Flash and SVG、PVR2D for legacy 2D Support (BLTs, ROP2/3/4)、OpenWF enabling advanced compositing、OpenCL Embedded and Full Profile (SGX545) for GP-GPU，甚至还支持Windows方面的DirectX 9 (SGX535/545) and 10.1 (SGX545)。

口袋里的战争续移动显示芯片发展解析
PowerVR SGX Series5XT架构API支持说明

　　哇，好复杂好全面啊。甚至连DirectX 10.1都有支持，Imagination真的是业界良心，竟然考虑的如此周详，连windows的图形API都没有被落下。事实果真如此？OK，良心先生，请问只能在USSE中实现半速的FP16精度，甚至连FP16的浮点纹理过滤都做不到的SGX544/545系列GPU，支持的是哪个位面的DirectX 10.1啊？

　　没有统一的行业标准，没有能够起到约束作用的游戏规则，一切特性特征的支持比的不是标准而是谁的嗓门更大。这种混乱的游戏局面，就是当前移动显示领域最真实的现状。支配这里的天条只有一个，那就是噱头。

材质压缩在桌面显示领域发展很好，但在移动领域却缺乏必要的规范

　　如果说缺乏统一行业标准监管造成的对API支持的各种夸大其词可以被看做是对运算能力暴涨的延续，那么特性支持百花齐放就完全可以被称为是一片混沌了。以混战四方的材质压缩格式为例，Imagination显示架构支持ECT1/自家的PVRTC，NVIDIA的Tegra支持ECT1/微软的DXTC，高通的Adreno支持ECT1/自家的ATITC，ARM的MALI架构仅支持ECT1。如果您想编写一款跨平台支持的游戏，同时很有理想的渴望在全平台上都获得最佳的图形和性能表现，那我们只能抱歉的通知您——仅材质包一项，您就要分别准备ECT1、DXTC、PVRTC以及ATITC四种。因为虽然ECT1是共有格式，但因为缺乏一个强力的领导者进行推动和革新，这种材质压缩格式在MALI以外的其他显示架构中的执行效率均非常低落，真想让游戏变得漂亮真实，您无论如何都绕不开微软、Imagination以及Adreno共同造就的“想成功请多付出3倍努力”的局面。

　　浮夸的性能增长，没有游戏规则来约束规范竞争，甚至连玩法都花样百出，这就是移动显示领域的全部问题了么？显然不是。一切乱象的根源，同时也是一切乱象中最根本的这一位，其实早在去年的第一组《口袋里的战争》系列中就已经与我们见过面了：

　　在一个以电池容量为最基本约束底限的领域，是谁让你们几个不要命的去拼硬件规格的？

更有效率的使用晶体管？who care？

　　● 更有效率的使用晶体管？who care？

　　手机和平板电脑用户最关心的是什么？是我的平板电脑换了个多强悍的CPU/GPU？是我的手机跑GLBenchmark/安兔兔能跑多少万分？显然不是。这些东西对用户没有一分钱的意义。智能移动平台用户最关心的事情永远都有且只有一个，那就是设备使用感受，或者说用户体验度。

　　用户体验度的提升是靠飙硬件实现的么？我们面前的移动显示芯片的性能都已经暴涨了656.25倍了，我们真切的用户体验度又提升了多少？

口袋里的战争续移动显示芯片发展解析
高通勾勒的Adreno发展路线图

　　整体而言，移动领域芯片性能的提升虽然水分巨大，但从纯理论角度来讲，这些提升并不是不存在的。无论SGX还是Tegra，它们的理论运算性能确实都在以不正常的幅度暴涨着。那究竟是谁把这些性能提升变成了没有任何意义，无法给我们带来有效用户体验度提升的“水分”呢？

　　逻辑芯片的性能决定要素多种多样，但无论何种芯片都要服从“给多少电就干多少活，给多少有用的晶体管就干多少活”这样一个最基本的定律。也许逻辑结构的变化在过去这些年里花样翻新，但最基本的性能限制要素——运算器的结构，在十数年间都没有过任何颠覆性的本质改变。运算器结构不变，其所能够达到的绝对性能上限和功耗上线就由频率和工艺限定死了，而设计者所做的事情，无非是通过对运算器之外的其他逻辑结构的重设、增减以及重新搭配，来追求更高的运算器动作有效度，并以此来逼近运算器所能够达到的性能。

　　逻辑结构的设计过程伴随着对必要结构的追加以及对非必要结构的删减和优化。补足过程通常意味着增加功耗，如果能够提供充足的必要结构如总线带宽、发射端以及仲裁资源等等，或者干脆的增加运算器的总量，单位时间内运算器能够输出的运算过程就会进一步提升，但对应的功耗也会因为有效动作总量的增多而增加。优化过程可以进一步平衡效率和能耗的关系，比如说提升缓冲资源的复用效率并以尽可能少的资源来满足更多运算器的缓冲需求，架构的整体能耗比就会提升，这类操作不会直接的提升性能总量，但却可以增加绝大多数应用环境下真实的有效性能。无论何种通用运算平台，其设计过程都遵循这一增一减两个最基本的原则。

为“更高效率的使用晶体管”所累的HD7900

　　以逻辑结构的运算效率而言，删节无用单元并施以优化显然是更加有效同时值得提倡的方法，它属于“更加有效率的使用晶体管”而不是“堆砌晶体管”的范畴，不仅可以帮助整个架构提高真实的性能表现，还能以更少的晶体管来实现更多的性能，让架构的功耗表现因低效晶体管的减少而变得更低。但是与前者相比，它有一个看似无关紧要但却决定命运的弱点——无法给芯片带来非常直接的，可供宣传使用的参数：理论性能提升。

　　不能拿来宣传？没有直观可见的参数提升？这怎么行呢？

　　CEO：“嗯，很好很好，你们这个优化……寄存……器？抱歉我没念错吧？OK。你们递交的这个优化结构的一揽子改进确实非常棒，我个人以及大部分董事会成员都十分欣赏这种设计（好吧，虽然我们并不明白它是什么……），但是很遗憾，你这个方案没有多少数据层面的直观提升，我们没办法在这个方案的产品上标出2倍、3倍这样具有‘直接攻击力’的数字，很明显它不能帮助我们吸引眼球并从竞争对手的方案中脱颖而出啊。所以很抱歉，请拿出更加直观的方案吧。”

　　研发主管：“哦，那就让下面的团队继续回去堆ALU/核心吧，请董事会给我们订立一个明确的目标，稍后我们就会递交新的方案，感谢董事会。”

　　这年头，有概念可以炒作最重要了，炒作热乎了东西卖出去了钱卷回来了就行了，有效效率、实际性能或者半导体业界前途之类的东西谁会去管啊。所以让我们甘之如饴的接受堆砌和浮华，一起高呼“Flops万岁”吧。

伪·云中的移动计算

　　● 伪·云中的移动计算

　　每每提及智能移动平台，我们都会同时想到一个美好的概念——云计算。是的，将运算节点设置在云端，然后通过无线互联网体系在终端上对结果加以呈现，这是移动智能平台未来的美好愿景之一。但在眼下，我们能够看到的却只有与这个愿景背道而驰的怪诞现象。

　　按照云计算的模型，移动智能平台作为最底层的终端节点，原则上只需要具备基本的处理能力，能够完成社交、低强度办公处理、网页以及视频之类本地应用加速，或者哪怕是GPGPU加速等等特定的中低负载本地处理过程即可，对于大负载大密度的运算需求，移动智能平台完全可以通过已经成型并正在快速增长的云计算过程加以实现。这不仅能够最大限度的实现性能功耗比，还有利于用户体验的快速提升。对于这种“正常”的智能移动平台来说，忙着去耗费精力提升什么本地处理能力显然没有切中要害，通过软件端和输出端来改善的用户体验，把更多的注意力集中在“怎么做才能让产品变得更好用”的层面上，才是各个行业领导们所应该真正关心并倾力去实现的要务。

显示世界的2012终篇显卡业界深度解析
云计算体系

　　可是现在，本来应该被置于云端，在终端中逐渐弱化存在并向效率层面进展的运算处理能力，却在互联环境日益向好、云端运算能力日益成型、整个体系变得离我们越来越近的当下，被本末倒置甚至是变本加厉到爆炸式的塞到了本来只作为呈现终端的，本身还存在着电池容量这一巨大瓶颈作为最根本限制因素的手机和平板电脑中，而且还被无限放大化、唯一化甚至是神化……

　　移动计算？我们需要的到底是“移动着去计算结果”，还是“在移动中获得计算所呈现的结果”啊？如果是前者的话，随身背个算盘岂不是更加直接！

我们要的是呈现这样的结果，而不是呈现这个结果的过程

　　诚然，云计算本身还存在着包括带宽和资费等问题在内的诸多制约因素，我们的应用环境也因此而并没有完全过渡到云端当中，强求一个空中楼阁的诞生是不现实的。但我们在这里所强调的问题是节奏和方向——既然云计算正在兴起并蓬勃发展，它又是解决移动终端问题的良好方式，诸位忙着混战的大佬合力推动不就好了？在这里浪费资源同时重度透支各种各样的积累，给我们带来了前面的种种乱象，并且把问题越来越严重的导向远离云端的方向，这是负责任的行为么？

有人能让游戏变得不再儿戏么？

　　● 有人能让游戏变得不再儿戏么？

　　60个月656.25倍的性能增幅，当我们再次面对这样一个数字时，它的意义在我们的眼中已经变了——移动领域的增长并不是爆炸式的、欣欣向荣的以及令人值得期待的。它的意义和存在的价值不仅歪曲、荒谬，而且正在滑向会导致各种不良结局的危险方向。

　　在移动领域，最让人头疼的问题就是能耗。无论是CPU还是GPU的架构发展，现在都在更加快速甚至可以说是高速的鲸吞着辛苦积累而来的半导体/物理基础理论，哪怕是最新的32/28nm HKMG工艺，也无法让一颗时下主流的SoC芯片的满载功耗低于哪怕是1W。而我们所见到的一系列所谓的改进措施，无论big.LITTLE，花样翻新的深度休眠技术还是别的什么招数都无助于满载功耗这一最本质问题的解决。甚至big.LITTLE技术本身在充满了对比拼硬件性能这一行为的辛辣嘲讽的同时，还导致了更加严重的性能流失问题：作为LITTLE核心出现的A7处理器同A15处理器之间的L2数据交换延迟，竟然是常规内核数据交换延迟的100倍（2ms VS 20μs）。这些看似新颖实则见招拆招，连数据处理过程的最短板都翻越不过去却想要获得良好的效果的解决方案，是不可能从根本上达到目的的。

口袋里的战争续移动显示芯片发展解析
big.LITTLE辛辣的嘲讽了对其性能的移动硬件发展轨迹

　　透支工艺和各色解决方案都不能补偿的功耗问题，自然就要由电池来担当了。结果呢？2000mA、3000mA甚至更高的电量，都不能满足各种高能耗同时伪高性能的处理器的需求，于是更多的资源又被投入到了进步阻力巨大的电化学过程以及相关领域。提升性能时采用了最低效的手段，然后现在又要在投入产出比极低的领域继续挥霍资源，一切都只为了几位行业巨头和领导者在宣传656.25倍这个令人咋舌的数字时能够有人来买单。

　　我们并不否认性能对于设备的重要性，但性能对于设备究竟重要到何种程度？它究竟应该被怎样提升？它是不是出现在了该出现的地方？它出现在这里会导致什么后果？丝毫不考虑这些问题，一味的为了噱头去炒作，然后以更加低效的手段去制造和维护更多的噱头，进而透支储备和资源并导致更多的浪费，这种不健康的甚至有点像“蝗灾”的成长方式，就是当前移动运算芯片发展状态的真实写照。

　　那么，有人能改变这种形态么？

　　有啊，虽然有些理想化，但解决的办法早在问题出现之前就已经在那里了啊——良性的更加有效率的性能提升手段；抵制恶意炒作；制定具有行业规范性质的统一的游戏规则；以用户体验为导向和要务并尽量将其维持和导入到正确的方向上；继续多方协作推进云端及无线互联网络的建设……简而言之，抛去浮华和浮夸，多追求些实际，把一切现在的问题都调转180度，一切其实就都迎刃而解了。

　　但是，抛去浮华和浮夸，有那么容易做到么……

新一代的3Dmark，会为我们带来契机甚至是奇迹么？

　　商业行为正在缺乏有效监督机制的前提下，是很难进入自律的节奏上去的。所以从最根本上，我们还是需要具有能够把一切都导向正规的各种机制，比如说让人们意识到性能增长虚假问题的测试机制以及各种实际应用。即将到来的新版本3Dmark，也许就是这一机制的一次尝试。在明年年初将要到来的3Dmark中，最低阶的DirectX 9测试环节将实现PC平台及移动平台的跨平台成绩对比（这本身已经讽刺了很多移动显示芯片关于DirectX 10.1甚至是11的所谓“支持”……），移动平台性能巨大的含水量，届时将有可能被展现在世人面前。虽然3Dmark系列软件本身就有着极多受到商业因素影响而偏离公正的先例存在，而且跨平台的比拼其实甚至可能更容易诱发更丧心病狂的硬件堆砌比拼，但如果命运没有抛弃我们所有人，那么作为第一个能够跨平台测试、比较结果并有机会展现性能效率问题本质的测试机制，它的出现同样有让更多的人意识到问题的所在，同时遏制厂商们向更加危险的方向划去的可能。抓住这样的契机，我们就能避免移动领域再次变成第二个DIY业界，同时也将有机会获得更多更好的应用体验。

　　我们的要求应该并不过分，希望命运不要吝啬对我们的垂青。