关于内存的容量和速度不得不说的故事

damnit 2010-08-11

展开全文

SDRAM与内存基础概念（一）
即使是RDRAM，在很多方面也是与SDRAM相似的，而至于DDR与DDR-Ⅱ、QBM等形式的内存更是与SDRAM有着紧密的联系。

一、 SDRAM内存模组与基本结构

我们平时看到的SDRAM都是以模组形式出现，为什么要做成这种形式呢？这首先要接触到两个概念：物理Bank与芯片位宽。

1、物理Bank

传统内存系统为了保证CPU的正常工作，必须一次传输完CPU在一个传输周期内所需要的数据。而CPU在一个传输周期能接受的数据容量就是CPU数据总线的位宽，单位是bit（位）。当时控制内存与CPU之间数据交换的北桥芯片也因此将内存总线的数据位宽等同于CPU数据总线的位宽，而这个位宽就称之为物理Bank（Physical Bank，下文简称P-Bank）的位宽。所以，那时的内存必须要组织成P-Bank来与CPU打交道。资格稍老的玩家应该还记得Pentium刚上市时，需要两条72pin的SIMM才能启动，因为一条72pin -SIMM只能提供32bit的位宽，不能满足Pentium的64bit数据总线的需要。直到168pin-SDRAM DIMM上市后，才可以使用一条内存开机。下面将通过芯片位宽的讲述来进一步解释P-Bank的概念。

不过要强调一点，P-Bank是SDRAM及以前传统内存家族的特有概念，在RDRAM中将以通道（Channel）取代，而对于像Intel E7500那样的并发式多通道DDR系统，传统的P-Bank概念也不适用。

---------------------------------------------------图片1----------------------------------------
2、芯片位宽

上文已经讲到SDRAM内存系统必须要组成一个P-Bank的位宽，才能使CPU正常工作，那么这个P-Bank位宽怎么得到呢？这就涉及到了内存芯片的结构。

每个内存芯片也有自己的位宽，即每个传输周期能提供的数据量。理论上，完全可以做出一个位宽为64bit的芯片来满足P-Bank的需要，但这对技术的要求很高，在成本和实用性方面也都处于劣势。所以芯片的位宽一般都较小。台式机市场所用的SDRAM芯片位宽最高也就是16bit，常见的则是8bit。这样，为了组成P-Bank所需的位宽，就需要多颗芯片并联工作。对于16bit芯片，需要4颗（4×16bit=64bit）。对于8bit芯片，则就需要8颗了。

以上就是芯片位宽、芯片数量与P-Bank的关系。P-Bank其实就是一组内存芯片的集合，这个集合的容量不限，但这个集合的总位宽必须与CPU数据位宽相符。随着计算机应用的发展，一个系统只有一个P-Bank已经不能满足容量的需要。所以，芯片组开始可以支持多个P-Bank，一次选择一个P-Bank工作，这就有了芯片组支持多少（物理）Bank的说法。而在Intel的定义中，则称P-Bank为行（Row），比如845G芯片组支持4个行，也就是说它支持4个P-Bank。另外，在一些文档中，也把P-Bank称为Rank（列）。

回到开头的话题，DIMM是SDRAM集合形式的最终体现，每个DIMM至少包含一个P-Bank的芯片集合。在目前的DIMM标准中，每个模组最多可以包含两个P-Bank的内存芯片集合，虽然理论上完全可以在一个DIMM上支持多个P-Bank，比如SDRAM DIMM就有4个芯片选择信号（Chip Select，简称片选或CS），理论上可以控制4个P-Bank的芯片集合。只是由于某种原因而没有这么去做。比如设计难度、制造成本、芯片组的配合等。至于DIMM的面数与P-Bank数量的关系，在2001年2月的专题中已经明确了，面数≠P-Bank数，只有在知道芯片位宽的情况下，才能确定P-Bank的数量，大度256MB内存就是明显一例，而这种情况在Registered模组中非常普遍。有关内存模组的设计，将在后面的相关章节中继续探讨。

SDRAM与内存基础概念（二）
二、 SDRAM内存芯片的内部结构

1、逻辑Bank与芯片位宽

讲完SDRAM的外在形式，就该深入了解SDRAM的内部结构了。这里主要的概念就是逻辑Bank。简单地说，SDRAM的内部是一个存储阵列。因为如果是管道式存储（就如排队买票），就很难做到随机访问了。

阵列就如同表格一样，将数据“填”进去，你可以它想象成一张表格。和表格的检索原理一样，先指定一个行（Row），再指定一个列（Column），我们就可以准确地找到所需要的单元格，这就是内存芯片寻址的基本原理。对于内存，这个单元格可称为存储单元,那么这个表格（存储阵列）叫什么呢？它就是逻辑Bank（Logical Bank，下文简称L-Bank）。

---------------------------------------------------图片2---------------------------------------------

L-Bank存储阵列示意图

由于技术、成本等原因，不可能只做一个全容量的L-Bank，而且最重要的是，由于SDRAM的工作原理限制，单一的L-Bank将会造成非常严重的寻址冲突，大幅降低内存效率（在后文中将详细讲述）。所以人们在SDRAM内部分割成多个L-Bank，较早以前是两个，目前基本都是4个，这也是SDRAM规范中的最高L-Bank数量。到了RDRAM则最多达到了32个，在最新DDR-Ⅱ的标准中，L-Bank的数量也提高到了8个。

这样，在进行寻址时就要先确定是哪个L-Bank，然后再在这个选定的L-Bank中选择相应的行与列进行寻址。可见对内存的访问，一次只能是一个L-Bank工作，而每次与北桥交换的数据就是L-Bank存储阵列中一个“存储单元”的容量。在某些厂商的表述中，将L-Bank中的存储单元称为Word（此处代表位的集合而不是字节的集合）。

从前文可知，SDRAM内存芯片一次传输率的数据量就是芯片位宽，那么这个存储单元的容量就是芯片的位宽（也是L-Bank的位宽），但要注意，这种关系也仅对SDRAM有效，原因将在下文中说明。

---------------------------------------------------图片3---------------------------------------------

2、内存芯片的容量

现在我们应该清楚内存芯片的基本组织结构了。那么内存的容量怎么计算呢？显然，内存芯片的容量就是所有L-Bank中的存储单元的容量总合。计算有多少个存储单元和计算表格中的单元数量的方法一样：

存储单元数量=行数×列数（得到一个L-Bank的存储单元数量）×L-Bank的数量

在很多内存产品介绍文档中，都会用M×W的方式来表示芯片的容量（或者说是芯片的规格/组织结构）。M是该芯片中存储单元的总数，单位是兆（英文简写M，精确值是1048576，而不是1000000），W代表每个存储单元的容量，也就是SDRAM芯片的位宽（Width），单位是bit。计算出来的芯片容量也是以bit为单位，但用户可以采用除以8的方法换算为字节（Byte）。比如8M×8，这是一个8bit位宽芯片，有8M个存储单元，总容量是64Mbit（8MB）。

3、与芯片位宽相关的DIMM设计

为什么在相同的总容量下，位宽会有多种不同的设计呢？这主要是为了满足不同领域的需要。现在大家已经知道P-Bank的位宽是固定的，也就是说当芯片位宽确定下来后，一个P-Bank中芯片的个数也就自然确定了，而前文讲过P-Bank对芯片集合的位宽有要求，对芯片集合的容量则没有任何限制。高位宽的芯片可以让DIMM的设计简单一些（因为所用的芯片少），但在芯片容量相同时，这种DIMM的容量就肯定比不上采用低位宽芯片的模组，因为后者在一个P-Bank中可以容纳更多的芯片。比如上文中那个内存芯片容量标识图，容量都是128Mbit，合16MB。如果DIMM采用双P-Bank+16bit芯片设计，那么只能容纳8颗芯片，计128MB。但如果采用4bit位宽芯片，则可容纳32颗芯片，计512MB。DIMM容量前后相差出4倍，可见芯片位宽对DIMM设计的重要性。因此，8bit位宽芯片是桌面台式机上容量与成本之间平衡性较好的选择，所以在市场上也最为普及，而高于16bit位宽的芯片一般用在需要更大位宽的场合，如显卡等，至于4bit位宽芯片很明显非常适用于大容量内存应用领域，基本不会在标准的Unbuffered 模组设计中出现。

SDRAM与内存基础概念（三）

三、 SDRAM的引脚与封装

内存芯片要想工作，必须要与内存控制器有所联系，同时对于一个电气元件，电源供应也是必不可少的，而且数据的传输要有一个时钟作为触发参考。因此，SDRAM在封装时就要留出相应的引脚以供使用。电源与时钟的引脚就不必多说了，现在我们可以想象一下，至少应该有哪些控制引脚呢？

我们从内存寻址的步骤缕下来就基本明白了，从中我们也就能了解内存工作的大体情况。这里需要说明的是，与DIMM一样，SDRAM有着自己的业界设计规范，在一个容量标准下，SDRAM的引脚/信号标准不能只考虑一种位宽的设计，而是要顾及多种位宽，然后尽量给出一个通用的标准，小位宽的芯片也许会空出一些引脚，但高位宽的芯片可能就全部用上了。不过容量不同时，设计标准也会有所不同，一般的容量越小的芯片所需要的引脚也就越小。

1、首先，我们知道内存控制器要先确定一个P-Bank的芯片集合，然后才对这集合中的芯片进行寻址操作。因此要有一个片选的信号，它一次选择一个P-Bank的芯片集（根据位宽的不同，数量也不同）。被选中的芯片将同时接收或读取数据，所以要有一个片选信号。

2、接下来是对所有被选中的芯片进行统一的L-Bank的寻址，目前SDRAM中L-Bank的数量最高为4个，所以需要两个L-Bank地址信号（22=4）。

3、最后就是对被选中的芯片进行统一的行/列（存储单元）寻址。地址线数量要根据芯片的组织结构分别设计了。但在相同容量下，行数不变，只有列数会根据位宽的而变化，位宽越大，列数越少，因为所需的存储单元减少了。

4、找到了存储单元后，被选中的芯片就要进行统一的数据传输，那么肯定要有与位宽相同数量的数据I/O通道才行，所以肯定要有相应数量的数据线引脚。

SDRAM与内存基础概念（四）

四、SDRAM的内部基本操作与工作时序

上文我们已经了解了SDRAM所用到的基本信号线路，下面就看看它们在SDRAM芯片内部是怎么“布置”的，并从这里开始深入了解内存的基本操作与过程，在这一节中我们将接触到有天书之称的时序图，但不要害怕，根据文中的指导慢慢理解，您肯定可以看懂它。首先，我们先认识一下SDRAM的内部结构，然后再开始具体的讲述。

---------------------------------------------------图片4---------------------------------------------

128Mbit（32M×4）SDRAM内部结构图

1、芯片初始化

可能很多人都想象不到，在SDRAM芯片内部还有一个逻辑控制单元，并且有一个模式寄存器为其提供控制参数。因此，每次开机时SDRAM都要先对这个控制逻辑核心进行初始化。有关预充电和刷新的含义在下文有讲述，关键的阶段就在于模式寄存器（MR，Mode Register）的设置，简称MRS（MR Set），这一工作由北桥芯片在BIOS的控制下进行，寄存器的信息由地址线来提供。
SDRAM的结构、时序与性能的关系（上）

在讲完SDRAM的基本工作原理和主要操作之后，我们现在要重要分析一下SDRAM的时序与性能之间的关系，它不在局限于芯片本身，而是从整体的内存系统去分析。这也是广大DIYer所关心的话题。比如CL值对性能的影响有多大几乎是每个内存论坛都会有讨论，今天我们就详细探讨一下，其中的很多内容同样适用于DDR与RDRAM。这里需要强调一点，对于内存系统整体而言，一次内存访问就是对一个页的访问，这个页的定义已经在解释Full Page含义时讲明了。由于在P-Bank中，每个芯片的寻址都是一样的，所以可以将页访问“浓缩”等效为对每芯片中指定行的访问，这样可能比较好理解。但为了与官方标准统一，在下文中会经常用页来描述相关的内容，请读者注意理解。

一、影响性能的主要时序参数

所谓的影响性能是并不是指SDRAM的带宽，频率与位宽固定后，带宽也就不可更改了。但这是理想的情况，在内存的工作周期内，不可能总处于数据传输的状态，因为要有命令、寻址等必要的过程。但这些操作占用的时间越短，内存工作的效率越高，性能也就越好。

非数据传输时间的主要组成部分就是各种延迟与潜伏期。通过上文的讲述，大家应该很明显看出有三个参数对内存的性能影响至关重要，它们是tRCD、CL和tRP。每条正规的内存模组都会在标识上注明这三个参数值，可见它们对性能的敏感性。

以内存最主要的操作——读取为例。tRCD决定了行寻址（有效）至列寻址（读/写命令）之间的间隔，CL决定了列寻址到数据进行真正被读取所花费的时间，tRP则决定了相同L-Bank中不同工作行转换的速度。现在可以想象一下读取时可能遇到的几种情况（分析写入操作时不用考虑CL即可）：

1、要寻址的行与L-Bank是空闲的。也就是说该L-Bank的所有行是关闭的，此时可直接发送行有效命令，数据读取前的总耗时为tRCD+CL，这种情况我们称之为页命中（PH，Page Hit）。

2、要寻址的行正好是前一个操作的工作行，也就是说要寻址的行已经处于选通有效状态，此时可直接发送列寻址命令，数据读取前的总耗时仅为CL，这就是所谓的背靠背（Back to Back）寻址，我们称之为页快速命中（PFH，Page Fast Hit）或页直接命中（PDH，Page Direct Hit）。

3、要寻址的行所在的L-Bank中已经有一个行处于活动状态（未关闭），这种现象就被称作寻址冲突，此时就必须要进行预充电来关闭工作行，再对新行发送行有效命令。结果，总耗时就是tRP+tRCD+CL，这种情况我们称之为页错失（PM，Page Miss）。

显然，PFH是最理想的寻址情况，PM则是最糟糕的寻址情况。上述三种情况发生的机率各自简称为PHR——PH Rate、PFDR——PFH Rate、PMR——PM Rate。因此，系统设计人员（包括内存与北桥芯片）都尽量想提高PHR与PFHR，同时减少PMR，以达到提高内存工作效率的目的。

二、增加PHR的方法

显然，这与预充电管理策略有着直接的关系，目前有两种方法来尽量提高PHR。自动预充电技术就是其中之一，它自动的在每次行操作之后进行预充电，从而减少了日后对同一L-Bank不同行寻址时发生冲突的可能性。但是，如果要在当前行工作完成后马上打开同一L-Bank的另一行工作时，仍然存在tRP的延迟。怎么办？此时就需要L-Bank交错预充电了。

VIA的4路交错式内存控制就是在一个L-Bank工作时，对下一个要工作的L-Bank进行预充电。这样，预充电与数据的传输交错执行，当访问下一个L-Bank时，tRP已过，就可以直接进入行有效状态了。目前VIA声称可以跨P-Bank进行16路内存交错，并以LRU算法进行预充电管理。

有关L-Bank交错预充电（存取）的具体执行在本刊2001年第2期已有详细介绍，这里就不再重复了。

L-Bank交错自动预充电/读取时序图：L-Bank 0与L-Bank 3实现了无间隔交错读取，避免了tRP对性能的影响

三、增加PFHR的方法

无论是自动预充电还是交错工作的方法都无法消除tRCD所带来的延迟。要解决这个问题，就要尽量让一个工作行在进行预充电前尽可能多的接收多个工作命令，以达到背靠背的效果，此时就只剩下CL所造成的读取延迟了（写入时没有延迟）。

如何做到这一点呢？这就是北桥芯片的责任了。在上文的时序图中有一个参数tRAS（Active to Precharge Command，行有效至预充电命令间隔周期）。它有一个范围，对于PC133标准，一般是预充电命令至少要在行有效命令5个时钟周期之后发出，最长间隔视芯片而异（基本在120000ns左右），否则工作行的数据将有丢失的危险。那么这也就意味着一个工作行从有效（选通）开始，可以有120000ns的持续工作时间而不用进行预充电。显然，只要北桥芯片不发出预充电（包括允许自动预充电）的命令，行打开的状态就会一直保持。在此期间的对该行的任何读写操作也就不会有tRCD的延迟。可见，如果北桥芯片在能同时打开的行（页）越多，那么PFHR也就越大。需要强调的是，这里的同时打开不是指对多行同时寻址（那是不可能的），而是指多行同时处于选通状态。我们可以看到一些SDRAM芯片组的资料中会指出可以同时打开多少个页的指标，这可以说是决定其内存性能的一个重要因素。

但是，可同时打开的页数也是有限制的。从SDRAM的寻址原理讲，同一L-Bank中不可能有两个打开的行（S-AMP只能为一行服务），这就限制了可同时打开的页面总数。以SDRAM有4个L-Bank，北桥最多支持8个P-Bank为例，理论上最多只能有32个页面能同时处于打开的状态。而如果只有一个P-Bank，那么就只剩下8个页面，因为有几个L-Bank才能有同时打开几个行而互不干扰。Intel 845的MHC虽然可以支持24个打开的页面，那也是指6个P-Bank的情况下（845MCH只支持6个P-Bank）。可见845已经将同时打开页数发挥到了极致。

不过，同时打开页数多了，也对存取策略提出了一定的要求。理论上，要尽量多地使用已打开的页来保证最短的延迟周期，只有在数据不存在（读取时）或页存满了（写入时）再考虑打开新的指定页，这也就是变向的连续读/写。而打开新页时就必须要关闭一个打开的页，如果此时打开的页面已是北桥所支持的最大值但还不到理论极限的话，就需要一个替换策略，一般都是用LRU算法来进行，这与VIA的交错控制大同小异。

SDRAM的结构、时序与性能的关系（下）

四、内存结构对PHR的影响

这是结构设计上的问题，所以单独来说。在我们介绍L-Bank时，曾经提到单一的L-Bank会造成严重的寻址冲突。现在，当我们了解了内存寻址的原理后，就不难理解这句话了。如果只有一个L-Bank，那么除非是背靠背式的操作（PFH），否则tRP、tRCD、CL（读取时）一个也少不了。

上文中，内存交错之所以能实现就是因为有多个L-Bank，从这点就可以看出L-Bank数量与页命中率之间的关系了。PHR基本上可以等于“（L-Bank数-1）/L-Bank数”。

SDRAM有4个L-Bank，那么页命中率就是75%，DDR-Ⅱ SDRAM最多将有8个L-Bank，PHR最高为87.5%。而RDRAM则最多有32个L-Bank，PHR到了惊人的96.875%，这也是当时RDRAM攻击SDRAM的一主要方面。

不过，从内存的结构图上可以看出，L-Bank多了，相应外围辅助的元件也要增加，比如S-AMP，L-Bank地址线等等。在RDRAM的介绍中，我会讲到L-Bank数量增多后所带来的一些新问题。

五、读/写延迟不同对性能所造成的影响

SDRAM在读取操作时会有CL造成的延迟，而在写入时则是0延迟。这样，在读操作之后马上进行写操作的话，由于没有写延迟，数据线不会出现空闲的时候，保证了数据总线的利用率。但是，若在写操作之后马上进行读操作的话，即使是背靠背式进行，仍然会由于tWR与CL的存在而造成间隔，这期间数据总线将是空闲的，利用率受到了影响。

在先写后读的操作中，由于保证写入的可靠性，读取命令在tWR之后发出，并再经过CL才能输出数据，本例中CL=3，造成了两个时钟周期的总线空闲

这里需要着重说明一下，在突发读取过程中，想立刻中断并进行新的读操作，和读后读模式（见“突发连续读取模式图”）一样，只是新的读命令根据需要提前若干个周期发出，经过CL后就会自动传输新的数据。但是，若想中断读后立即进行写操作，就需要数据掩码（DQM）来屏蔽写入命令发出时的数据输出，避免总线冲突。根据芯片设计的不同，有时可能会浪费一个周期进行总线I/O的调转，此时一个周期的总线空闲也是不可避免的。
突发读后写时的操作，以本图为例，在最后一个所需数据（本例为第一笔数据）输出前一个周期使DQM有效，屏蔽第二笔数据的输出；2、发出写入命令，此时所读取的第二笔数据被屏蔽。3、继续DQM以屏蔽第三笔数据的输出。其中tHZ表示输出数据与外部电路的连接周期，tDS表示数据输入准备时间，如果tHZ+tDS>tCK，那么写入操作就要延后一个周期，这要视芯片的具体设计而定

六、BL对性能的影响

从读/写之间的中断操作我们又引出了BL（突发长度）对性能影响的话题。首先，BL的长短与其应用的领域有着很大关系，下表就是目前三个主要的内存应用领域所使用的BL，这是厂商们经过多年的实践总结出来的。
BL与相应的工作领域

BL越长，对于连续的大数据量传输很有好处，但是对零散的数据，BL太长反而会造成总线周期的浪费。以P-Bank位宽64bit为例，BL=4时，一个突发操作能传输32字节的数据，但如果只需要前16个字节，后两个周期是无效的。如果需要40字节，需要再多进行一次突发传输，但实际只需要一个传输周期就够了，从而浪费了三个传输周期。而对于2KB的数据，BL=4的设置意味着要每隔4个周期发送新的列地址，并重复63次。而对于BL=256，一次突发就可完成，并且不需要中途再进行控制。不少人都因此表示了BL设定对性能影响的担心。

但设计人员也不是傻瓜，通过上文的介绍，可以看出他们在这方面的考虑。通过写命令、DQM、读命令的配合/操作，完全可以任意地中断突发周期开始新的操作，而且DQM还可以帮我们在BL中选择有用的数据，从而最大限度降低突发传输对性能带来的影响。另外，预充电命令与专用的突发传输终止命令都可以用来中断BL，前者在中断后进行预充电，后者在中断后不进行其他读/写操作。

专用的突发停止命令可用来中断突发读取，其生效潜伏期与CL相同。对于写入则立即有效

用预充电命令来中断突发读取，生效潜伏期与CL相同，要小于或等于tRP。写入时预充电在最后一个有效写入周期完成，并经过tWR之后发出，同时立即中断突发传输

所以，突发周期的中断并不难，但用短BL应付大数据量存取需要不断的指令与列寻址配合，而为了取消不需要的传输周期，由于需要运用额外的控制，也将占用不少的控制资源。所以BL针对不同应用领域有不同设计的主要目的，就是在保证性能的同时，系统控制资源也能得到合理的运用。