分享

整活高手 AMD那些奇思妙想的设计

 漫步之心情 2023-06-21 发布于湖南

处理器历史上有多科技创新,但是论整活儿的奇思妙想程度,AMD从历史到今天就没输过,很多意想不到的设计都源自AMD——真不知道AMD的脑洞究竟有多大。这些天才设计有些是极具前瞻性的技术开发,有些直接成为行业标准,推动了科技领域的发展。

文章图片1

“开挂”的处理器

三级缓存现在看再正常不过了对吧?2000年发布了一款极为特殊的处理器AMD K6-III,特殊之处在于第一次提出了民用处理器的三级缓存架构。这个名为TriLevel高速缓存的设计思路已经成为今天的主流:提供了容量更大,速度更快,灵活性更高的系统高速缓存。三级缓存可以提供处理器更为强大的数据吞吐能力,但是成本极高。那个年代处理器的制程工艺完全无法集成更多更大的缓存,说白一点就是“脑子学会了,手没跟上”。

文章图片2

那怎么办呢?AMD的天才设计师想到了一个好方法,外挂三级缓存!在Super 7平台上,主板厂商可以选择外置一个高达1MB的高速三级缓存,以便提高处理器的数据吞吐能力——别小看这个1MB的“外挂”,即便速度比处理器内的一、二级缓存差,但远超过当时的SDRAM内存,也正是因此,K6-III处理器成为了当时的性能担当。

文章图片3

DDR内存普及功臣

DDR5内存这么快就降价到白菜价格,是不是很意外?可你知道吗,今天内存如此便宜,和AMD当年有分不开的缘由。2000年,RAMBUS内存RDRAM推出,RDRAM与当时(以及现在)的电脑技术架构差距甚大(任天堂N64采用了RDRAM),而且因为专利壁垒,购置RDRAM的成本非常高。同时又因为技术原因,RDRAM必须成对购买、安装终结器,这进一步抬高了内存购买成本。在那个年代人们都清晰记得被高价内存支配的恐惧(128MB的SDRAM从130元暴涨到1300元),因此市场的抵触情绪很高。

文章图片4

AMD在这个历史节点上做出了重要技术抉择,AMD和威盛选择支持DDR SDRAM阵营——虽然初代DDR内存性能逊于RDRAM,但是无论价格还是购置便利性(不需要成对购买,也不需要安装终结器)DDR内存都拥有着碾压优势。因此,AMD处理器 DDR内存很快就成为了市场上最受消费者欢迎的电脑产品组合。

文章图片5

技术路线的选择,不仅会推动科技发展,也能左右市场风向。

突破1GHz的世纪频率大战

2000年代,谁能将处理器率先突破1GHz,是整个科技业最为瞩目的事情。因此,当AMD率先推出1GHz处理器的时候,震惊了所有人。

文章图片6

AMD是如何突破1GHz的呢?在Athlon构架上,创新性采用了DEC Alpha EV6架构和DDR(双倍资料传输率)技术。尽管Athlon开始只有100MHZ外频,但是DDR技术连接到总线方式可以更高的频宽。同时,关键分支预测器(Critical Branch Predictor Unit)相比K6处理器得到增强(决定处理器性能的重要设计),这是因为Athlon更长的管线使得高精确的分支预测成为必要,否则将会导致使性能下降的管线延迟,重点来了:长管线设计使得高频更容易实现。

文章图片7

正因如此,AMD在这场GHz世纪大战中拔得头筹。怎么说呢,犹记得当年使用AMD处理器的小伙伴都是与有荣焉的样子——如果你理解不了,那么这样假设类比就明白了:“今天AMD宣布突破了10GHz频率大关”。

行业标准X86-64 AMD的骄傲

2003年8月,AMD发布了新一代CPU——Athlon 64(代号ClawHammer),基于全新的K8微架构。这是一颗具有划时代意义的处理器,而且其中一项技术深远的改变了电脑科技的发展变革,这便是X86-64指令集架构。

文章图片8

K8最重要的改变就是加入了AMD独创的64位指令集架构X86-64,它是一种基于X86架构的扩展指令集,在X86-64指令集架构下不仅可以高效运行64位程序,也能出色地执行32位X86程序,远比当时的纯64位指令集架构更加优秀。正因如此,很快X86-64就获得了微软等业界领导者的支持,迅速成为了行业标准。

文章图片9

你以为这就完了,处理器集成内存控制器这个事情现在看起来理所应当对吧?这是AMD当年的创举——K8处理器采用HyperTransport总线,并率先集成了内存控制器。

开启电脑多核心时代

现在你肯定找不到单核心处理器了,多核心已经成为了基础规格。但是时间回到2005年,AMD率先推出了面向个人用户的单一晶体双核心处理器Athlon 64 X2——这是一个划时代的事件,它意味着处理器发展的方向开始全面迈向多线程、多核心时代。

文章图片10

不同于同一时期的另一款双核心处理器:两个处理器核心分别连接北桥,然后两个晶体安装在一个处理器基板上,性能极为孱弱。与之对比,Athlon 64 X2优异的性能表现迅速成为市场焦点。

文章图片11

脑洞之最 共享浮点的推土机

处理器的结构设计上,个人认为没有任何一个处理器能够和2010年发布的AMD推土机架构相比。注意,这个结构上的差异不是优化架构、是否多核心等等,推土机架构的变化涉及到处理器的基本结构,可以看看这篇文章:《科个普:处理器是如何工作的?》。

AMD推土机架构采用了模块化的小核设计(所以你知道为什么AMD在模块化设计上能走的这么远了吗),每个模块内有两个整数单元和一个浮点单元,各自搭配专用的调度器,一个浮点单元可为两个整数单元“共享”使用。

文章图片12

AMD认为(事实上在当时也是如此),典型数据负载都以整数运算为主(此时AMD已经收购ATI,未来浮点运算期望交给图形核心处理),浮点运算占一小部分,所以大多数情况下一个庞大的浮点单元只会白白消耗内核面积和功耗,整数单元忙得要死。推土机架构通过在两个整数单元之间共享一个浮点单元,既节省了内核面积和功耗,也能灵活满足实际负载需求。

文章图片13

推土机架构的设想十分独特,但是结构上,高频小核心 深流水线让它的执行效率难言出众,后来的事实证明,注重IPC效率的大核心更加有效。不过,这种一个浮点核心 两个整数核心所共享使用独特的设计结构也给人留下了深刻的印象。

APU:核显“奠基人”

2006年AMD收购了ATI,成为当时业界唯一一家具有处理器 图形核心 芯片组的半导体企业。稍后2009年,又剥离了自己的重资产芯片制造业务,成为了一家Fabless无厂半导体企业。在经历了一段时间的蛰伏后,AMD拿出了自己的全新产品兑现诺言:融合。

所谓的融合,今天看来再正常不过的事情:单一晶体内包含CPU和GPU两个部分,即核心显卡。

文章图片14

彼时,集成显卡是置于北桥芯片之中(现在连北桥芯片都已经融入处理器),带宽瓶颈十分严重。2011年AMD推出的Bobcat APU芯片,将所有这些功能模块全部整合到一块晶片后,有效提升各组件之间的带宽。APU内部的GPU图形阵列、UVD解码引擎与北桥模块及内存控制器之间的通道高达27GB/s,内存控制器和内存之间的带宽也同样达到了27GB/s。

文章图片15

在2011年,这是极具震撼的科技创新。可以这么讲,如今我们看到的所有核显CPU,都是APU的衣钵传承人。

定制处理器 AMD的神来之笔

现在买游戏机几乎已经成为了AMD的“一言堂”,除了任天堂的蜜汁操作,XBOX和Playstation都是AMD的天下。

AMD在APU上的多年耕耘,拥有丰富的技术储备,还记得前面我们说的吗:“成为当时业界唯一一家具有处理器 图形核心 芯片组的半导体企业”。找遍市场,游戏机产品想要拥有一套完整方案的可靠供应商,只有AMD一家。

文章图片16

简单举一个例子,在处理器 图形核心的统一内存寻址功能上,AMD具备的技术实力是任何一家企业无法比拟的,它可以大幅度提高处理器 图形核心的数据传输,并且因为是X86-64架构,对开发人员有着极大的便利。说白一点可以轻易挖掘硬件的所有性能,而不是像Playstation 3模拟地球的Cell处理器那样,一直到游戏机生命末期程序员才能吃透硬件机能。

文章图片17

可定制性的灵活技术策略,让游戏机厂家有了足够的“自主权”,这就是拥有全套技术的好处,AMD可以给得更多。

这不,Ryzen Z1的推出又推动了X86-64掌上游戏机的技术变革,AMD在定制处理器这方面可谓独步天下了。

文章图片18

吃螃蟹的AMD HBM显存领路人

HBM显存突然之间爆火,人工智能推高了HBM超高带宽显存的需求,可是,这个技术是谁先放进显卡的?答案是AMD。

文章图片19

2015年,AMD发布了搭载HBM显存的Radeon R9 Fury、Radeon R9 Nano、Radeon R9 Fury X和Radeon Pro Duo。4096bit显存位宽、512GB/s显存带宽惊呆了全世界,要知道当时最高规格的GDDR5不过是512bit位宽、384GB/s的显存带宽。

文章图片20

说简单点,当时AMD发布Radeon R9系列时,所有人都觉得这是外星科技。在技术路线的选择上AMD总是有惊人之举,但好像又在情理之中。

CCX 划时代的处理器结构

如果问你更灵活的设计、更好的性能体验、更低的制造成本如何达成?AMD会告诉你一个全新的答案:CCX。CCX是CPU Complex(处理器综合体)的简写,它是自2017年发布的AMD Zen架构最基本组成单元,每个CCX整合了四个Zen内核,每个核心都有独立的L1与L2缓存,核心内部拥有完整的计算单元,不再像此前的推土机架构共享浮点单元,这四个核心还将共享L3缓存,每个核心都可以选择性的附加SMT超线程,而且可以随意关闭任意一个。

文章图片21

然后,再用Chiplet的方式将这些CCX核心 I/O芯片堆叠组合在一起,形成一个低成本、高性能、设计灵活的处理器。

文章图片22

CCX的设计方案让AMD拥有了前所未有的处理器迭代能力,因为设计更加灵活,设计时间也大大加快。

AMD的Chiplet

科技业界能够缝合芯片的都是“高端玩家”,AMD就是其中的佼佼者。这个技术称之为Chiplet,这种技术可以使不同功能、不同制程工艺的芯片颗粒(晶体),用高级封装技术把不同的芯粒集成在一起,提高良品率的同时降低成本,也让生产变得更加灵活。

文章图片23

AMD最新的几代产品都极大受益于“SiP Chiplet”的异构系统集成模式,这样的生产方式让AMD的处理器可以用更有竞争力的价格销售,大家口中的性价比其实也是高科技呢。

22年后再开挂 叠叠乐3D V-Cache技术

开篇提到的AMD K6-III“外挂”缓存还记得吧?AMD时隔22年后,把外挂的三级缓存“升级了”,这就是3D V-Cache技术。

3D V-Cache的构造是在原本已具备32MB三级缓存CCD (Core Chiplet Die) 表面,通过特殊技术手段垂直堆叠上64MB的SRAM,让每一个核心都能均等地共享这“额外的”L3高速缓存,这样可以在占用很少空间的情况下显著增加缓存的大小。

文章图片24

消费场景中的应用的计算密集度通常要低得多,这使得缓存延迟发挥更加关键的作用。有较低的延迟意味着预渲染帧可以更快地传输到显卡中,减少输入延迟并提高帧速率——游.戏.性.能显著提升。

全大核不同频 惊不惊喜?

在新一代锐龙7000系列处理器中,如何兼顾能耗与性能之间的平衡关系是一件非常棘手的事情。大小核是一种解决方案,但是这要涉及到程序应用的调度机制调整,而且容易出现问题。AMD在这方面的脑洞既合乎情理,又简单粗暴:全大核设计,但是同核不同频。惊不惊喜、意不意外?这么麻烦的事情AMD就这样解决了,重点是还挺有效。

文章图片25

AMD的天才设计师们总是能用我们意想不到的方式推进技术变革,不是吗?

文章图片26

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多