千兆以太网无源光网络(EPON)是一种点到多点拓扑结构的光接入网技术,采用无源光器件连接局端和远端设备,实现以太网业务的透明传输,并能在同一架构中实现语音、视频等综合业务的接入。 EPON作为新兴接入网技术的突出优势在于低成本、易维护和扩展性好。EPON系统由OLT与ONU构成。 ONU硬件系统设计 系统硬件由嵌入式控制模块和网络交换模块两部分构成。嵌入式控制模块是ONU的控制和管理核心,它为嵌入式Linux操作系统的运行提供硬件平台,通过它来实现对网络交换模块的控制与配置,实现网络交换模块的正常运行。网络交换模块提供以太帧的交换与转发功能,嵌入式控制模块通过PCI总线与网络交换模块进行通信,访问网络交换模块内部各芯片的寄存器,对各芯片进行配置并获取各个芯片的状态信息。网络交换模块内部的交换芯片BCM5615将嵌入式控制模块对它的访问,转换为自己对网络交换模块内部各芯片的访问,这样就实现了嵌入式控制模块对网络交换模块内部各芯片的管理。 嵌入式控制模块接口设计 嵌入式处理器MPC8245简介 MPC8245由一个外设逻辑块和一个32位超标量体系结构PowerPC处理器内核构成。在外设逻辑块中集成了一个PCI桥、DUART、内存控制器、DMA控制器、EPIC中断控制器、一个消息单元和一个I2C控制器。处理器内核支持浮点运算和内存管理,具有16KB指令高速缓存(cache),16KB数据cache和电源管理特性。MPC8245内含一外设逻辑总线,用于连接处理器内核和外设逻辑块。处理器内核可在多种不同的频率下工作。MPC8245既可用作PCIhost,也可用作PCI代理控制器。支持多达2GB的SDRAM;支持1~8 组的4MB, 16MB, 64MB, 128MB, 或256MB存储器。 时钟电路 MPC8245输入时钟由33MHz的的晶振通过零延时缓冲器产生四路时钟信号,一路作为MPC8245的PCI总线时钟和内核的输入时钟,系统时钟信号OSC_IN未用,需要接地。MPC8245的引脚PLL_CFG[0:4]用于配置倍频因子,经过内部倍频器,产生SDRAM时钟和166MHz的CPU内核时钟。一路作为RTL8139的PCI总线时钟,一路作为BCM5615的PCI总线时钟。 PCI总线接口 PCI总线工作在33MHz,设计中要保证PCI时钟的时钟相位偏移小于2ns,否则,系统可能无法正常工作。MPC8245作为PCI主处理器,RTL8139和BCM5615的REQ#、GNT#分别连到MPC8245的REQ[0:1]#、GNT[0::1]#,由MPC8245来实现总线的仲裁。利用地址线AD31,AD30来决定RTL8139、BCM5615的IDSEL,实现PCI总线配置访问时对RTL8139、BCM5615的片选。这种方法会使AD31,AD30线上增加一个负载,因此将它们的IDSEL通过1K?电阻耦合到AD31、AD30上来解决负载加重的问题。PCI总线的控制信号都要求有上拉电阻,保证它们在没有驱动设备驱动总线的情况下仍然具有稳定的值,因而FRAME#、TRDY#、IRDY#、DEVSEL#、STOP#、SERR#和PERR#这些信号使用10K?电阻上拉。 Flash 在MPC8245中,ROM/Flash被分为2个BANK,BANK0 的地址为0xFF800000~0xFFFFFFFF ,片选为/RCS0, RCS0接存储代码的存储器片选;BANK1 的地址为0xFF000000~0xFF7FFFFF,片选为/RCS1。 ROM/Flash/SRAM 工作在不同的数据宽度(8位,16位,32位,64位)地址总线下,复位时,MPC8245的引脚MDL0、/FOE决定启动数据位宽度;复位后,硬件复位配置字决定数据的宽度。 本设计中选择512KB的Flash作为Bootloader代码存储器,系统工作在8位模式,对应的地址为0xFF800000~0xFF87FFFF。选用两片AM29LV320B分别作为Bootloader/Linux内核和文件存储器,AM29LV320B是32Mb、单3.3V电源供电的闪存,编程和擦写电压由内部产生,与JEDEC单电源闪存标准兼容;可组成4M×8Bit或2M×16Bit的存储器。可用标准EPROM编程器进行编程;存取时间最短为70ns;独立的片选(CE#)、写使能(WE#)和输出使能(OE#)控制,可减小对总线的压力。片选RCS1、RCS2分别选择两片Flash,RCS1选中的Flash对应的地址为0xFF000000~0xFF3FFFFF,RCS2选中的Flash地址由编程决定。 跳线J1用来将RCS0接到Flash1,RCS1接到Flash0,这样在Bootloader代码运行后,将Bootloader代码、Linux内核代码都烧到Flash1,节约一片512KB的Flash,同时留下RCS2、RCS3片选信号,留作以后扩展Flash用。 SDRAM 32MB的SDRAM由两片HY57V283220T组成。MPC8245的SDRAM接口使用一个片选信号CS1,同时作为两片HY57V283220T的片选,构成64位数据的SDRAM。HY57V283220T是4 Bank×1M×32Bit的CMOS SDRAM,单3.3±0.3V电源供电,所有引脚与LVTTL接口兼容,所有输入和输出都以系统时钟的上升沿为参考。 CONSOLE和EMS接口电路 串行通信通过MAX232芯片实现,工作在3.3V工作电压,它的体积比较小,工作稳定。通过串口可实现对ONU的网络管理。使用常用的PHY芯片RTL8139扩展一个10Mbps网口,使得在Bootloader代码引导系统后,通过该网口下载Linux内核代码,系统运行后通过该网口对ONU进行WEB管理。 交换模块接口设计 以太网交换模块由1个BCM5615交换芯片、3个BCM5228BPHY芯片、1个BCM5221PHY芯片、1个HDMP-1636A千兆SERDES和SDRAM芯片组成。该模块提供1个千兆光口(1000BASE-LX),25个百兆光口(100BASE-FX),是实现ONU功能的核心部分。一个千兆口作为PON的接收端口,接收OLT广播发送的数据包;另一个千兆口连接成百兆口,作为PON的发送端口,向OLT发送数据,该端口发射的是特殊波长的光。通过特殊的交换机制来实现ONU与OLT的连接。 BCM5615芯片简介 BCM5615是集成多层交换芯片,是以太网交换模块的核心。它具有24个10/100Mbps和2个10/100/1000Mbps以太网口;具有2层和3层交换和2~7层过滤功能;可实现全线速交换,交换速率达670万包/秒;支持IEEE802.1Q.D;具有256KB的内部数据包存储器,可以用SDRAM扩展64MB外部数据包存储器。 本设计选用3片BCM5228B来提供24个PHY端口。BCM5228B是物理层器件,单片内包含8个独立的PHY(端口)。BCM5615通过串行MII管理接口管理3个BCM5228B芯片的24个PHY端口,系统对BCM5228B的访问就是通过转化为BCM5615的串行MII管理接口上的操作来实现的。BCM5228B每个PHY端口的管理地址由PHYADD[4::0]引脚设置,若BCM5228B的PHYADD[4::0]为PHYAD,则每片8个端口对应的管理地址分别为ADDR=PHYAD+PORTX,PORTX为每个PHY端口的编号。 时钟电路 BCM5615的芯核时钟由133MHz的晶振产生,设计PCB时,应尽量靠近BCM5615的时钟输入引脚,BCM5615的GMII时钟与MII时钟均为125MHz,由125MHz的晶振通过74LCX245缓冲后产生四路125MHz的时钟源,输入到BCM5615的GMII_CLKIN引脚和3片BCM5228的REF_CLK引脚。注意连接到BCM5228B的时钟线应该等长,不管千兆口是否使用,GMII_CLKIN的时钟都必须提供。 系统复位电路 系统复位电路采用IMP811复位芯片,通过74LCX245缓冲后产生多路复位信号,分别接到各个芯片的复位引脚。为了可靠复位,要求复位信号的上升沿不能有振荡现象发生。 系统软件设计 本文选择Linux作为操作系统,使用Broadcom公司提供的软件开发包SDK开发BCM5615的驱动程序。PPCBOOT是独立于其它软件的,它只负责初始化并配置有关硬件,然后调用Linux内核映像引导操作系统运行,其它软件分为用户空间程序和内核空间程序两大部分。在内核空间运行嵌入式Linux操作系统、BCM5615驱动程序、RTL8139网口驱动程序、实现STP的STP内核模块、为方便整个软件系统设计和实现而采用的虚拟设备VND和VCD。它们之间的接口关系是:Linux提供内核API给BCM5615驱动和其它Linux可动态加载内核模块,如STP、VND、VCD、RTL8139网卡驱动等。 ASIC驱动 ASIC驱动主要是完成对BCM5615的初始化和配置工作,并为上层服务提供接口。其中SAL层的目的就是把操作系统所提供的各种服务映射为驱动程序本身的API。第二层即中间层,也可以说是整个驱动程序的核心层,它建立在SAL之上,其设计目标主要是提供底层寄存器和存储器的访问、PCI 总线操作、DMA 操作以及中断处理函数等。驱动程序的顶层是API层,它建立在DRV层之上,是对DRV 有关部分的封装,从而为上层的其他软件模块提供各种服务,其他模块通过调用这一层的函数来访问和控制ASIC。ASIC 驱动提供的API 对用户进程来说是无法直接调用的,因此本文设计了一个虚拟的字符设备(TTY),并编写其驱动程序,同时在/dev 目录下用mknod 命令建立相对应的字符设备文件。 对操作系统来说,BCM5615的26个端口对应于一个物理PCI设备,即ASIC,它们共享一个PCI通道和地址空间。这给那些与网络设备紧密相关的软件带来不少麻烦,因此可以把26个端口设计成26 个虚拟网络设备(VND)并编写其驱动程序。因此,SNMPD 和生成树协议软件所看到的是26 个虚拟网卡,和普通的网卡并无区别。 结语 本文采用波分多址(WDMA)实现的EPON系统,与同类产品相比较,有实现简单、性能好、易于升级、系统造价低的优势,已经在宽带接入网中获得重要应用。 三层以太网交换机CPU收发包问题的分析
摘要:三层以太网交换机发展迅速,一方面网络设备的带宽及交换容量大幅提升,另一方面设备所支持的协议种类也随着用户的需求不断增加。如何在大业务量的网络环境下确保各设备之间协议包的正常交互,是以太网交换机设计面临的重要问题。文章以基于ASIC的三层以太网交换机为例,从CPU负载、软硬件队列配置、CPU和交换芯片的通信机制等方面入手,讨论并分析在多进程环境中与CPU收发包功能相关的一些典型问题,得到解决办法。解决方法对于网络处理器(NP)同样适用。 关键词:三层以太网交换机 CPU 中断 轮询 直接存储器存取 队列调度 在当前的三层以太网交换设备中,报文的二层交换和三层路由主要由交换芯片和网络处理器完成,CPU基本上不参与交换和路由过程,主要完成管理和控制交换芯片的功能[1]。 在这种情况下,CPU的负载主要来自以下几个方面:协议的定时驱动、用户的配置驱动、外部事件的驱动。其中,外部事件的驱动最为随机,无法预料。典型的外部事件包括端口的连接/断开(Up/Down),媒体访问控制(MAC)地址消息的上报(包括学习、老化、迁移等),CPU通过直接存储器存取(DMA)收到包,CPU通过DMA发包等。 在以上所列的外部事件中,又以CPU通过DMA收到包之后的处理最为复杂。因为数据包由低层上送到上层软件时,各协议的处理动作千差万别,可能会涉及到发包、端口操作、批量的表操作等。所以,只有处理好CPU的收发包的相关问题,才能使相关的上层协议正常交互,从而使交换机稳定、高效地运行。 1 可能涉及到的问题 以下就CPU收发包可能涉及的各个方面分别说明。 下面的分析都基于典型的CPU收发包机制:CPU端口分队列,通过DMA接收,采用环形队列等。 1.1 CPU的负载与收包节奏控制 根据交换机处理数据包的能力,决定单位时间上送到CPU的包的个数;决定了单位时间上送多少个包给CPU后,再考虑上送数据包的节奏。 假设通过评估,确定了单位时间上送CPU数据包的上限,例如每秒x个数据包。 图1 图1给出了两种典型的处理手段:匀速上报CPU、突发(Burst)方式上报CPU,下面分别分析一下这两种方式的优劣: (1)匀速上报CPU 数据包匀速上报CPU时,对CPU队列的冲击较小,而且对CPU队列的缓冲能力要求不高,CPU队列不必做得很大。 (2)突发(Burst)方式上报CPU 交换芯片(采用ASIC)一侧的硬件接收队列和DMA内存空间中的环形队列,一起赋予了交换机一定的缓冲能力(针对上送CPU的数据包)。利用这个缓冲能力,我们可以把控制周期适当放长,并设定控制的粒度(单位控制周期内CPU收报个数的上限),采用类似于电路中负反馈的机制动态地使能和关闭CPU收包功能。这样就在宏观上实现了对数据包上送CPU速率的控制。另外,如果交换芯片(采用ASIC)支持基于令牌桶算法的CPU端口出方向流量监管或整形功能[2-3],且监管或整形的最小阈值可以满足CPU限速的需要,则可以利用这个功能控制数据包上送CPU的节奏,减小CPU的负载。这样软件的处理就简化了很多。 1.2 CPU端口队列的长度规划 如果仅考虑交换机CPU端口的缓冲能力,CPU端口队列当然是越长越好,但是必须兼顾对其他功能以及性能的影响。针对不同的ASIC芯片,需要具体问题具体分析。 1.3 零拷贝 零拷贝是指在整个数据包的处理过程中,使用指针做参数,不进行整个数据包的拷贝。这样可以大大提高CPU的处理效率。 使用零拷贝后,会一定程度上降低软件处理的灵活性,我们会面临到这样的问题:如果协议栈需要更改一个数据包的内容,会直接在接收缓存(buffer)上修改,但是如果需要在数据包中删除或添加字段(例如添加或删除一层标签(tag)),即数据包的长度需要变化时,应该如何处理。 添加或删除字段,必然会导致数据包头一侧或包尾一侧的位置发生移动,如果包尾一侧移动,问题比较简单,只要数据包总长度不超过buffer边界即可。由于通常此类操作都靠近包头的位置,如果包头一侧移动,效率会比较高,所以协议栈在处理时可能更倾向于在包头一侧移动,这时就需要驱动在分配buffer时做一些处理: (1)接收数据包时,头指针不能指向buffer边界,需要向后偏移一定裕量,同时单个buffer的大小也必须兼顾到最大传送单元(MTU)和该裕量。 (2)释放数据包时buffer首指针需要作归一化处理(如图2所示)。 图2 1.4 中断/轮询 目前交换机涉及到的外部中断主要由交换芯片产生,交换芯片主要的外部中断包括DMA操作(如收到包、发包结束、新地址消息等等)和一些出错消息。如果中断请求过于频繁,中断服务程序(ISR)和其他进程之间频繁地上下文切换会消耗大量CPU时间。如果有持续大量的中断请求,CPU会始终处于繁忙状态,各种协议得不到足够的调度时间,从而导致协议状态机超时等严重故障。 为了避免事件触发频率不可控的问题,可以使用轮询机制,通常的做法是用CPU定时器触发原先由外部中断触发的ISR,由于定时器触发的间隔是固定的,所以ISR执行的频率得到了控制,避免了上述的问题。 轮询和外部中断相比,只是节奏可控(外部中断的节奏取决于外部事件发生的频率,CPU不可控)。但是,轮询也有其不可避免的缺点——响应慢。不能满足某些实时性要求较高的功能。另外,人们会发现用ping命令检测交换机3层接口大包时,使用轮询方式的交换机比使用中断方式的交换机的时延明显要大。 如果能通过某种机制,避免持续、大量的中断请求,则既可以保证CPU不会过于繁忙,又保留了中断实时处理的优点。 典型的会产生大量中断事件的行为是CPU接收数据包和MAC地址消息上报。以收包为例,在前面“CPU负载与收包节奏控制”部分提到的Burst方式就是根据实时的流量,控制接收DMA的开关,这样就达到了使中断源受控的目的,这种类似负反馈的机制可以很好的避免持续的中断事件上报CPU。 总之,轮询控制简单,但实时性较差;中断实时性好,但是使所有的中断源受控有一定难度。在系统初始设计阶段,我们需要综合考虑需求以及芯片对外部事件的处理方式,来决定采用中断或者轮询方式,或者两者兼用。 1.5 多进程环境中外部事件的处理机制 常见的外部事件(中断事件)包括收到包、包发送完(这里指的都是CPU收发包),包括收到MAC地址消息、MAC表操作完成等。 如果把各类中断事件的处理放在一个进程里,就人为地造成了各个事件耦合性增强,增加了各种事件相互制约的机会。 在多任务操作系统中,为了能更灵活地处理各个事件,减少事件之间的子相互制约关系,各种事件应当尽可能地单独起进程,或者根据处理方式的不同划分为几个进程,至少用单个进程来处理是不合适的。 1.6 协议包保护和CPU保护 对于基于ASIC的交换机,协议包保护是指利用ASIC芯片的某些机制,把特定的协议包指定到特定的端口队列上去,保证其经DMA队列上送CPU的优先级;CPU保护是指尽量减少不必要的数据包对CPU的冲击。 实现协议包保护的必要条件: (1)CPU端口必需支持严格优先级(SP)或者带权重的罗宾环(WRR)的调度算法。 (2)交换芯片必需具有较强的流分类能力,且可以给不同的流指定不同的端口队列。 在系统方案设计时我们需要兼顾对协议报文的保护和对CPU的保护,应该尽量做到: (1)保证CPU收包通道和发包通道的畅通。 (2)精确匹配,按需选取。充分利用ASIC芯片的访问控制列表(ACL)功能,尽量精确地匹配各类协议报文。必要时需要匹配到4层字段[4]。 实现以上几点时,应兼顾其他功能及整机性能的限制。 1.7 效率降低的避免 在多任务操作系统中,各种事件需要用尽量短的时间片处理完成,以保证其他任务有足够的机会得到调度。所以我们在调用任何函数时都要考虑其执行效率。除了算法本身会影响执行效率之外,频繁地访问某些硬件也相当耗时,而这一点往往容易被忽略。 2 结束语 随着以太网相关技术的发展,交换芯片和网络处理器的处理能力不断被提升;相比之下,数据交换设备中CPU处理性能的提升程度远远不及交换芯片和网络处理器;同时数据交换设备支持的业务种类也在不断增加,对CPU承载的业务量也有了更高的要求。在这种情况下,交换设备容量以及支持业务种类的大幅提升和有限的CPU资源之间的矛盾会日益凸显。因此,做好CPU和交换芯片以及网络处理器接口的缓冲管理、队列调度以及流量监管,合理利用CPU资源,是保证数据交换设备安全、稳定运行的前提,也是目前及将来数据交换设备开发的重要课题。 |
|