千兆以太网和千兆路由交换机技术

简单的人 2006-11-27

展开全文

1、千兆以太网技术原理

　　1.1早期以太网技术

　　以太网：IEEE802.3定义了10Mbps的以太网标准，采用载波监听和冲突检测（CSMA／CD）协议，以半双工方式运行。从80年代末开始以太网取得了巨大的成功。10BaseT是运行在3类或更高类别的双绞线上的以太网，10Base2／5是运行在同轴电缆上的以太网，10BaseFL是运行在光纤上的以太网。由于冲突检测的协议要求一个512位的时间槽保证无错误的检测到冲突，所以以太网的距离覆盖范围受到了限制，10BaseFL最大的覆盖距离为2km，10BaseT在一个网段内的最大覆盖距离为100m。

　　快速以太网：IEEE802.3u定义了100Mbps的快速以太网标准，它可以用半双工的方式运行 CSMA／CD协议，也可以有全双工的方式。由于快速以太网对以太网的后向兼容性，在90年代的中后期，快速以太网成为局域网中的主流技术。100BaseTX是运行于5类双绞线上的快速以太网， 100BaseFX是运行于光纤上的快速以太网。对于以半双工方式运行的快速以太网，同样也有距离覆盖范围的限制，并且由于快速以太网以100Mbps的速率运行，时间槽长度同样是512位，所以它的最大距离覆盖范围是以太网的1／10，为200m。但是对于全双工方式运行的快速以太网，在理论上就不再有距离的限制，而实际受限于电或光信号的衰减。如实际中运行在单模光纤上的100BasFX SMF的全双工快速以太网最大覆盖距离可达20km以上。

　　1.2千兆以太网协议

　　1998年6月在千兆以太网联盟的推动下IEEE正式发布了千兆以太网标准IEEE 802.3。把以太网的速率提高到了1000MbPs。而在此之前的1997年，就已经有很多的厂商迫不及待地推出了千兆以太网的产品，结网络界带来了全新的解决方案。到了现在的2000年，我们已经可以很清晰地看到，不仅以太网和快速以太网在桌面和工作组级网络中打败了ATM，在城域网中，千兆以太网也凭借其良好的兼容性和优异的性价比占据了绝对的上风。可以预见未来随着价格的下跌，千兆以太网会象快速以太网一样普及。

　　1.2.1 半双工千兆以太网 MAC层协议

　　对于快速以太网来说，512位的时间槽内电波或光可以传输400m远，如果在千兆以太网中， 512位的时间槽内电波或光的传输距离则只有40m远，采用星型拓扑结构的半双工千兆以太网的覆盖半径只有20m。这样的距离覆盖范围在实际中无法得到大规模推广。为了解决这个问题， IEEE对以太网的MAC层协议作了第一次重大修改：载波扩展和帧突发。

　　（1）载波扩展

　　为了使千兆以太网的距离覆盖范围达到实用标准，半双工千兆以太网时间槽长度扩展到了 4096位，这样半双工千兆以太网的距离覆盖范围扩展到了160m。为了兼容以太网和快速以太网中的帧结构，半双工千兆以太网的最小帧长度仍需要保持为64byte。但考虑到时间槽长度为51 byte，为了能够匹配时间糟的长度，当某个DTE发送小于512byte帧时，半双工千兆以太网MAC 将在正常发送数据之后发送一个载波扩展序列直到一个时间精结束。例如：某DTE发送一个64 byte帧，MAC将会在其后加入512-64＝448byte的载波扩展序列。如果DTE发送的帧长度大于512 byte，则MAC不做任何改变。

　　在载波扩展的情况下，解决了半双工千兆以太网距离覆盖范围的问题，但引入了一个新的问题：对于长度较小的以太网帧的发送效率降低了。对于一个64byte的帧来说，尽管发送速度较快速以太网增加了10倍，但发送时间增加了8倍。这样的效率并未比快速以太网提高多少，为了解决半双工千兆以太网的效率问题，IEEE又引入了帧突发这种技术。

　　（2）帧突发

　　帧突发的工作方式如下：对于 DTE发送的第一个小于512byte的帧，依然使用载波扩展到 512byte，但随后发送的小于512byte的短帧不再使用载波扩展，而是加入96bit的帧间隔序列后连续发送短帧，最长可以突发到65536位。这种做法可以成立的原因在于一个正确配置的网络环境里，如果某个DTE开始发送数据后，其他 DTE都可以通过载波监听协议检测到其信号并抑制本身的数据发射。使用了帧突发的半双工千兆以太网的效率得到了改善，当一个DTE连续的突发64byte帧并突发持续65536位时，其效率约为72％。

　　1.2.2 全双工千兆以太网MAC层协议

　　在全双工千兆以太网中，由于每个千兆以太网DTE在通信时独占一个信道，因此不需要考虑以太网的冲突问题。自然，全双工千兆以太网也不受时间槽长度的限制，从而也没有距离覆盖范围的限制。

　　与半双工方式相比，全双工千兆以太网的MAC层的区别主要有以下几点：

　　（1）在接受活动中帧的发送不会被推迟

　　（2）全双工方式下的冲突指示将被忽略

　　（3）没有载波扩展，最小帧长度仍为64字节

　　（4）没有帧突发

　　在全双工交换式以太网中，如果多个输人端口同时向一个输出瑞口输出数据，那么将会在输出端口产生拥塞，这时一些输入喘口发送的帧将会被丢弃。如果在以太网帧上承载的是TCP ／IP协议的数据包，那么TCP的传输机制会自动重发被丢弃的数据包，可以想象每个产生了丢包的输入端口都将重新发包，引发新一轮的拥塞和丢包，结果是导致网络的吞吐率大幅下降。为了避免丢包（丢帧）和重发现象的发生，IEEE在MAC层引入了802.3x流量控制协议来避免丢包现象发生。

　　流量控制的原理是当交换机检测到发生拥塞的端口之后，就会向输入端口发送暂停帧，通知其抑制发送的流量，最后达到消除拥塞。流量控制并不能提高整个交换机的数据吞吐能力，但是避免了在交换机内的丢包现象。

　　1.2.3千兆以太网物理层协议

　　IEEE定义了几种用于不同物理介质的千兆以太网接口，有1000Base－CX，1000Base－SX， 1000Base－LX，1000Base－T，其中1000Base－CX是用于155Ω平衡同轴电缆上的接口，在实际中没有真正的产品，1000Base－T是可用于5类或更高类别双绞线的接口，它的标准是IEEE802.3 ab，这一标准刚刚于1999年6月发布，现在市场中刚刚推出商用的产品。

　　1000Base—SX使用850nm波长激光的接口，只适用于多模光纤。 1000Base－LX使用1300nm 波长激光的接口，适用于单模和多模光纤。1000Base一SX主要用于校园网和企业网骨干。 1000Base一LX主要应用于城域网，现在城域网中另外一种应用较多的是1000Base一LH的长距离千兆以太网光接口，一般使用1300nm或1550nm波长的激光，可达到50km以上甚至100km的无中继传输距离。

　　需要特别指出的是，由于 IEEE给出的是最恶劣传输条件下的千兆以太网传输距离，在实际应用中，各个厂商的产品的传输距离远远超过标准的规定，如阿尔卡特的PowerRail千兆路由交换机的1000Base—LX接口在实际测试中可以无中继的传输 22km。

　　1.3千兆以太网效率

　　半双工以太网的效率问题一直是其弱点，在一个半双工以太网里的工作站（如计算机）数增加到某一门限值后，尽管每个工作站是以 10Mbps速率发送数据，但由于冲突的增加，每个工作站不得不等待很长时间后才有可能发送数据，因此每个工作站得到的平均可用带宽急剧下降。在全双工的交换式以太网中，CSMA／CD协议中的CD冲突检测机制不再需要，每台工作站可以得到独占的带宽。因此全双工交换式以太网的效率不再取决于网络内的工作站数，而是由以太网帧的长度而决定。

　　1.4千兆以太网可靠性

　　从传统意义上，以太网被看作是一种局域网（LAN）技术，被大量的应用于企业网中，因此以太网交换机和以太网的可靠性并没有被作为最关键的因素加以考虑。随着交换式全双工快速以太网和千兆以太网的成熟，越来越多的运营商选择千兆以太网作为城域网MAN的首选技术，这时千兆以太网的可靠性就成为运营商考虑的关键因素。

　　用千兆以太网实现一个可靠的城域网，现在有两种成熟的技术：

　　（1）千兆以太网端口聚合；

　　（2）千兆以太网1＋1备份。

　　如果千兆以太网被用于承载IP业务，在网络层IP这一层次，也可以采用环型或网状网拓扑结构，使用IP路由协议来保证网络可靠性。

　　下面就这三种技术作一详细介绍。关于千兆路由交换机的可靠性，请参见第二章。

　　1.4.1千兆以太网端口聚合（Port Trunking）在千兆路由交换机中，可以将多个千兆以太网链路捆绑为一个虚拟的逻辑链路，以达到增加带宽，可靠性的目的。这种技术叫做端口聚合（链路捆绑）。比较常见的是将四个千兆以太网链路捆绑为一个链路，这时的带宽可达到单向4Gbps双向8Gbps。

　　在端口聚合中的多条千兆以太网键路可以实现负载分担，即使其中的一条链路的光纤出现故障，逻辑链路仍会保持正常工作。端口聚会需要较多的光纤来构成，2个端口的端口聚合需要4根光纤，3个端口的聚会需要6根光纤，4个端口的端口聚会需要8根光纤。 1.4.2千兆以太同1＋1备份和很多ATM交换机里实现的ATM物理链路1+1备份相似，千兆以太网也可以实现1十1备份，即在一个千兆路由交换机的接口模块上，对应于一个千兆以太网键路，实际用两个千兆以太网链路来连接，一条千兆以太网链路作为主用键路，另一条则作为备用键路。当主用链路的光纤出现故障时，千兆路由交换机可以在1ms的时间内把数据切换到备用键路的光纤上传输。在这种1＋1备份方式下，需要用四根光纤来完成1GbPS的传输带宽。每一个千兆以太网链路需要1发1收两根光纤。

　　1.4.3 用IP路由来保证城域网可靠性

　　如果是用千兆以太网来承载IP业务，那么就可以应用IP路由协议的收敛特性来保证城域网可靠性。使用IP路由，网络拓扑可以比较灵活，可以是星型、环型、网状网，或是它们的混合。这里顺带指出一点：如果没有使用IP路由，由于生成树协议（SPanning Tree）的作用，千兆以太网即使在物理键路上构成了环型或网状网，在交换机的实际的以太网数据交换也无法构成环状和网状网。而在环型和网状网的拓扑结构中，即使某条链路或某个网络节点故障，由于迂回路由的存在，整个网络不会瘫痪。城域网中最典型的 IP路由协议是 OSPF，运行OSPF协议的路由器利用Hello信息周期性传递路由器状态，当发现邻近节点故障后，路由器会重新计算路由，自动找到可迂回的路由，保证网络恢复正常工作。这一过程被称之为路由的收敛。一般OSPF协议的收敛时间大于10秒。与千兆以太网1＋1备份方式相比，OSPF协议从故障中恢复的时间要长很多。

　　1.5 千兆以太网和莫他承载IP的城域网技术比较

　　目前形式下，广电的宽带城域网承载的都是基于IP的业务，承载IP的平台主要有ATM、千兆以太网、POS、DPT这四种技术。本文不做ATM和千兆以太网承载IP的比较，将会有另一文章专门论述这一课题。 POS最初是用于广域网在SDH上承载IP的技术，也可以用于探光纤上在城域网使用。DPT是 CISCO公司专有的城域网技术。

2 、千兆路由交换机

　　2.1路由交换机的定义

　　传统意义上，只处理第二层数据转发的设备被称之为交换机，交换机只根据数据包中的目的和源MAC地址进行处理和转发，而不涉及第三层的数据包中的内容。如进行以太网，FDDI，令牌杯交换的局域网交换机。第三层的数据包的转发由路由器来完成，对于IP协议来说，路由器检查第三层数据包的目的和源IP地址，然后作出相应的处理或转发。在90年代中期以前，由于硬件芯片技术的限制，路由器和交换机是两个独立的网络设备。路由器的内部系统结构很象一台专用计算机，有一个主CPU，如486或MIPS，有内存，在CPU上运行软件来进行包的转发和路由的计算及更新。所以路由器的性能比较差，往往成为一个网络的瓶颈。

　　为了解决基于软件的路由器在性能上的缺陷，在新的ASIC芯片技术的推动下，交换机中用来处理第二层数据包的芯片功能增强到能够进行第三层数据包的处理，这种具有路由功能的交换机被称为路由交换机。

　　2.2 路由交换机的背板及其实现方式背板是交换机的中央交换部件，用于交换机的各个端口之间传送数据。背板的结构和容量决定了一个路由交换机的性能。现在的路由交换机背板主要有三种结构：交叉矩阵（Cross Bar）；共享内存；并行访问共享内存。下面分别详细论述。

　　2.2.1 交叉矩阵（Cross Bar）这种结构容易设计，扩展性好，并且在其基本形式中可以提供较低的每端口成本。然而，它有几个关键的局限性。

　　交叉矩阵结构的3个主要的局限和其对网络的影响如表1所述。表1

　　局限影响

　　基于端口的内　　不能充分利用内存。内存静态地分配给每个端口，并没有考虑在特定时间端口的状态或端口对内存的需求。在数据突发期间，缓冲区很快就被用光，从而导致数据包丢弃和不必要的数据重传。　　　　队头阻塞　　（Head of Line Blocking）　　在网络的核心阻塞。由于采用了基于端口的输入队列，发向一个很忙的接收端口的数据包常因"队头阻塞"的制约转而发向一个空闲端口的业务。队头阻塞引起了时延并产生了人为的和不必要的网络拥塞。　　　　IP多址广播　　（Multicast）复杂化　　拥塞和恶化的阻塞问题。需要发送到多个输出端口的输入业务必须复制多次并拷贝到多个内存空间中。

　　静态内存他和队头阻塞的问题的共同影响使其难以在逐端口的基础上转发基于优先级的业务。所以交叉矩阵结构提供可靠的QoS支持的能力有限，这与整个IP网络提高QoS能力的要求不符。

　　2.2.2共享内存

　　传统的共享内存结构是基于总线的。这种结构克服了交叉矩阵背板的局限性，并且它们在背板容量小于10GbPS的交换机中十分普遍。在一个共享内存总线结构中，所有的端口通过一个共享总统访问中央内存。采用仲裁机制来控制端口访问共享端口。这消除了交叉矩阵交换机具有的基于端口的静态内存分配和队头阻塞的问题并以一种高效的方式使用系统内存。共享内存的问题是，构造一个快的足以提供无阻塞的速度超过20Gbps性能的仲裁机构现在很难作到。例如：现在的芯片，技术的数据总线一般是64位，总统的时钟频率（并非芯片的内部时钟频率）为 100MHz，这样的系统背板性能可达到64×100MHz＝6.4GbPs，按双向计算，系统背板性能为12.8GbPS。因此，受限于现在的内存促裁机制芯片，共享内存体系的扩展性比较差。

　　2.2.3并行访问共享内存

　　并行访问共享内存是一种共享内存结构设计：所有端口共享一个中央内存空间。然而，不象传统的基于总统的共享内存结构，并行访问共享内存为每个模块上的每个端口提供一个专用的可同时写入中央内存机构和从中读出的机制，这种机制无需要总线仲裁设备。并行访问共享内存能够保证在所有端口上同时实现完全的线速性能。并行共享内存解决了基于总线的共享内存的扩展性问题，它的每一个模块到中央内存的存取速度都可以达到10GbPS以上，而整个中央内存可以容许超过30路的同时访问，这样一个系统的背板容量可以扩展到300GbPs以上。同时并行访问共享内存也没有引人交叉矩阵背板带来的队头阻塞等问题。

　　2.3 交换机的第三层包转发机制（胸中式与分布式）

　　每个厂商的路由交换机的实现机制不同，在路由功能的实现上，主要有集中式和分布式两种机制。下面进行详细论述。

　　2.3.1 集中式第三层包转发

　　集中式第三层包转发是指在交换机中有一个专门的硬件模块（路由模块）来对全交换机的第三层包进行转发。交换机的每个接口模块如千兆以太同交换模块，都不具备第三层的处理功能，需要把第三层的数据包从背饭送往路由模块来查询路由并转发。严格的讲，这种结构的交换机更准确的名称是第三层交换机，而不是路由交换机。集中式第三层包转发是早期的技术，它的缺点在于整个交换机的路由性能受限于其路由模块的能力。另外，当一个IP包要进行路由时，它经常要从一个以太网接口模块通过背板总线送往路由模块，在路由模块处理后，又经背板总统送往同一以太网接口模块，这样一种数据包传送方式浪费了背板总规处理能力。并且路由模块的故障会导致整个交换机内的路由功能的失效。实际中很多厂商交换机中的路由模块就是一个以插卡形式集成在交换机内的软件路由器。因此在各厂商的产品中，采用集中式包转发的交换机的路由能力一般可达到15Mpps。

　　2.3.2 分布式第三层包转发

　　随着ASIC芯片技术的发展，具有路由功能的模块被集成到一块芯片上，于是厂商将路由芯片设计到了路由交换机中的每一个接口模块上，这种技术就被称为分布式第三层包转发。它不需要一个专门的模块来为整个机箱服务做包的转发，第三层的包转发可以由每个接口模块上的路由芯片独立完成。分布式第三层包转发突破了集中式第三层包转发的性能瓶颈，但它的路由控制机制比集中式要复杂，它需要在每一个端口保留路由表信息以进行快速的包转发。尽管在技术上更复杂，由于在性能上远远超出集中式，分布式第三层包转发技术已经成为了现在路由交换机的主流技术。

　　2.4 线速的包转发现在厂商往往直称自己的路由交换机的每个端口都是线速的，那么怎么判定一个路由交换机中所有的端口是否线速呢？线速的衡量标准是以64byte的数据包（第二层或第三层包）作为计算基准，常用的基准如下：

　　*对于千兆以太网，一个线速端口的包转发率为1.488Mpps。

　　*对于快速以太网，一个线速端口的包转发率为148.8kpps。

　　*对于OC－12的POS端口，一个线速端口的包转发率为1.17Mpps。

　　*对于OC－48的POS端口，一个线速端口的包转发率为468MppS。对于千兆以太网来说，计算方法如下：（64＋8＋12）byte×1，488，095pps.×8bit=1，000，000，000bps 说明：当以太网帧为64byte时，需考虑8byte。的帧头和12byte的帧间隙的固定开销。故一个线速的千兆以太网端口在转发64byte包时的包转发率为1.488Mpps。快速以太网的统速端口包转发率正好为千兆以太网的十分之一，为148.8kpps。对于POS端口来说，计算方法如下：一个OC－12的SDH中容器的有效速率约为599MbPs，将其除以64×8bit的包长度，就可以得出一个线速的OC－12POS端口的包转发率为1.17Mpps。OC－48的容器的有效速率为OC－12一的四倍，所以OC－48 POS端口的线速包转发率为1.17×4＝4.68Mpps。

3 、路由交换机选型标准

　　3.1 路由交换机造型五项主要标准针对广电部门在建设宽带IP城域网需要进行千兆路由交换机选型的实际工作，本文列出了五项主要的选型标准供广电部门参考，通过这五项选型标准，基本上可以比较各厂家的路由交换机性能的优劣： *背板容量 *无阻塞千兆端口数量 *第二层包转发速度 *第三层包转发速度 *路由数量

　　3.1.1 背板容量

　　衡量路由交换机容量大小的主要指标是交换机的背板容量，其单位是GbPs。

　　3.1.2 无阻塞千兆端口数量

　　一个千兆路由交换机可以交换或路由多个千兆以太网端口，但其支持的最大千兆以太网端口数量并不意味着它可以全部无阻塞的线速交换这些千兆端口。原因在于有些千兆路由交换机的设计目标是为计算机服务器提供千兆连接，而现有的计算机上千兆网卡的通信速度受限于计算机的总线，远远达不到1000MbPS，一般是300～400MbPS，因此对于这些安装了千兆以太网卡的服务器，并没有必要为其提供线速的千兆交换。但一些厂商的产品往往回避这一设计目标，一味宣传千兆路由交换机支持的最多千兆端口数量，而真正衡量千兆路由交换机的能力的是其可以交换的无阻塞千兆端口数量。

　　3.1.3第二层包转发速度

　　对于千兆路由交换机来说，第二层包转发速度就是其转发以太网帧的速度。以PPS（包每秒）为衡量单位。

　　3.1.4第三层包转发速度

　　第三层包转发速度指千兆路由交换机转发第三层协议包的速度，如转发IP或IPX包的速度。以PPS（包每秒）为衡量单位。

　　这里需要指出的是，第二层包转发速度和第三层包转发速度是两个不同的概念。很多厂商往往只提包转发速度，而没有明确区分是第二层还是第三层的包转发速度。对于采用分布式路由的路由交换机，一般情况下，第二层包转发速度等于第三层包转发速度。对于采用集中式路由的路由交换机，其第三层包转发速度往往不等于第二层的包转发速度，因为集中式路由需要一个单独的路由模块来进行第三层包转发，而第二层包转发是在各个千兆接口模块中进行的。

　　3.1.5路由数量

　　路由交换机中路由表支持的路由数量越多，意味着可支持的网络拓扑结构越大，典型的城域网路由交换机的路由数量是64K／每端口。这里需要明确的是厂商宣称的路由数量是每个机箱还是每个端口支持的数量，通常情况下，每机箱的路由数量=端口数量×每端口的路由数量。当前的Internet中实际运行BGP－4的骨干路由器的路由表大小约为77K（资料来源： www.telatra.net／ops／bgPtable．html），并且在缓慢增长，增长速率的放慢主要是由于 CIDR技术的采用。对于一个城域网路由交换机来说，支持64K的路由表容量是可以满足未来很长时间内的城域网需求。

　　3.2 判断千兆路由交换机无阻塞的标准

　　一个千兆路由交换机需要符合以下几个要求才可以实现真正的无阻塞。

　　（1）背板是无阻塞结构，常见的算法是如果背板容量≥端口数量×端口速率×2，那么这个路由交换机在背板上是无阻塞的。

　　（2）第二层包转发线速，算法是如果机箱的第二层包转发率=千兆端口数量×1.488Mpps，那么讲路由交换机在做第二层交换的时候可以做到线建。

　　（3）第三层包转发线速，算法是如果机箱的第三层包转发率=千兆端口数量×1.488Mpps，那么这个路由交换机在做第三层交换的时候可以做到线速。

　　有很多厂商的产品数据满足第二层和第三层线速的标准，但不满足背板无阻塞的标准，这种情况表明其第二层和第三层线速是在数据包未通过背权交换的条件下取得的；如果有大量的数据包需要通过其背板转发，那么这个路由交换机将无法做到统速。

　　另一种情况是背板满足无阻塞的要求，但是其第二层和第三层的包转发率未满足统速标准，这说明此路由交换机的包转发模块存在瓶颈。

　　需要澄清的是，在本文中述及的阻塞和拥塞在路由交换机里是二个不同的概念。拥塞是当多个端口向一个端口同时发送数据时，由于接收端口的速率小于多个端口速率之和而引起的数据丢包或发送速率下降的问题，这一问题可以通过标准的IEEE802.3X流控协议来加以控制。阻塞是由于交换机内部结构的缺陷而引起的单个端口通信速率达不到全速率的问题，这一问题不是可以通过流技协议加以避免的。

　　4、结束语

　　千兆以太网技术正在日趋成熟，除了原有的兼容性，宽带，廉价，对IP良好的支撑的特点，正在增强其可靠性，可扩展性。在当前广电宽带城域网主要承载IP业务的趋势下，千兆以太网是建设宽带城域网的首选技术。