分享

PCIe系列专题之六:PCIe系统复位方式

 kevin__xu 2022-03-25

*故事前传

*系统复位(System Reset)

一、故事前传

前面的文章针对PCIe的一部分内容已经做了解析。

较为详细解释请见之前的文章:

1. PCIe技术概述;

2.0~2.8 PCIe事务层详细解析;

3.0~3.2 PCIe数据链路层详细解析

4.0~4.1 PCIe物理层解析

5. PCIe电源管理

二、系统复位(Reset)

在PCIe Spec中,Reset总共分为两类:Conventional Reset和Function Level Reset.

1. Conventional Reset

从字面上来讲,Conventional Reset是传统的Reset方式。这一类Reset功能是在PCIe Spec 2.0之前的Spec中定义的,所以称为传统的Reset。PCIe设备必须要支持这一类Reset。

Convential Resets包含了三种Resets: Cold Reset,Warm Reset 和 Hot Reset.

另外,还有一个概念: Cold Reset和Warm Reset又被称为Fundamental Reset, Hot Reset被称为Non-Fundamental Reset.

什么是Fundamental Reset呢?

这是PCIe最基本的复位方式,主要通过硬件实现,效果是重置整个设备,对每个状态机、所有硬件逻辑、端口状态和配置寄存器重新初始化。

但是,也会有例外的情况:在某些寄存器中的字段只有在全部电源(包括VCC电源和Vaux备用电源)切断的情况下才会被重置。PCIe Spec给这些固执的字段起了个外号"Sticky Bits".

一般来说,Fundamental Reset是针对整个系统做Reset,但是有时也可以针对某个单一设备进行重置。

在这里说明一下Fundamental Reset中的Cold Reset和Warm Reset。

  • Cold Reset: 设备的主电源VCC上电时,就会触发Cold Reset。

  • Warm Reset: 在VCC不断电的情况下,系统可以触发Warm Reset。比如,电源状态的变化就会触发Warm Reset. 不过,PCIe Spec并没有定义触发Warm Reset的具体方式,这部分可以有系统设计人员自行决定。

另外,在PCIe Spec中,规定了两种触发Fundamental Reset方式。

  • 一是通过PERST#(PCIe Reset)信号控制。

  • 二是在没哟PERST#信号的情况下,通过Power on/off的方式实现。

举个例子,看看PERST#是如何生成的。

  1. 系统上电稳定后,有POWERGOOD信号产生(下图红色框所示)。

  2. 当系统的南桥芯片(也就是图中的IO控制器ICH)收到POWERGOOD信号后,就会产生PERST#信号(下图绿色部分),此时会引起Cold Reset。

  3. 如果系统可以通过非上电的方式触发PERST#信号,此时会引起Warm Reset。

图片

明白了Fundamental Reset,那Non-Fundamental Reset中的Hot Reset又是什么呢?

与Fundatmental Reset相反,Hot Reset是一种软件控制的复位方式。PCIe设备出现错误时,通常情况下用软件的方式对设备重置。软件可以通过在Bridge control中设置Secondary Bus Reset bit来触发Hot Reset. 

图片

另外,在PCIe总线中,通过发送TS1序列,并且在TS1序列中设置Hot Reset bit来对下游设备进行Hot Reset(如下图红色框). 

在这个过程中,发送端会持续发送TS1序列至2ms, 接收端在接到2个连续的TS1序列之后进行Hot Reset.

图片

同样,举个例子说明一下Hot Reset:

  1. 系统通过软件对Switch A左边端口的Secondary Bus Reset bit置为1(下图红色框),触发了Hot Reset.

  2. 之后通过发送TS1序列对PCIe链路中的下游设备触发Hot Reset(下图黑色箭头).

图片

2. Function Level Reset

在传统复位方式的基础上,PCIe Sepc 2.0以后开始增加了新的复位方式FLR(Function Level Reset)。前面讲到的传统复位方式(Cold Reset, Warm Reset, Hot Reset)均属于全局复位方式,而FLR的优势则是对局部复位。

在PCIe协议中,一个PCIe设备可能包含多个功能模块(Function),每个功能模块相互对立,共用一个PCIe link。其中,某个功能模块出问题时,虽然可以采用传统复位方式对整个PCIe设备复位,但这个显然不友好,因为其他功能模块可能正在埋头苦干。这就好比如,在一个团体中,一个人犯错了,要团队所有人一起承担,这个肯定会影响团结呀。

所以,PCIe深得管理学的精髓,为了不影响团结,FLR允许只对其中出错的功能模块(Function)进行重置,其他功能模块正常工作。

不过,FLR复位方式对PCIe设备并不是必须的,在对PCIe设备使用FLR复位之前必须先检查是否支持FLR。这部分可以查看Device Capabilities Register是否将Funcion-Level Reset Capability bit置起。

图片

如果PCIe设备支持FLR,那么就可以通过设置Device Control Register中的Function-Level Reset bit触发FLR复位咯~

图片

触发FLR之后,PCIe链路中都有哪些变化呢?

我们前面提到了,FLR是一个局部复位方式,只对出问题的那个Function起作用。所以说,FLR只会改变当下Function内部的状态和寄存器的内容。以下几个方面不会被影响:

  • 执行FLR的Function所在的PCIe链路状态不会改变,因为其他Function也在共用整条PCIe链路;

  • Sticky Bits. 传统复位方式也无法改变Sticky bits,  除非完全断电。

  • HwInit Bits. HwInit bits是硬件初始化的内容,这些值由芯片的配置引脚决定,后者上电复位后从EEPROM中获取。Cold和Warm Reset可以复位这些寄存器,然后从EEPROM中从新获取数据,但是使用FLR方式不能复位这些寄存器。

  • 与Link相关的寄存器。比如ASPM,Flow control等相应的寄存器。

另外,PCIe Sepc规定,某个Function的FLR必须在100ms之后完成。所以,PCIe Spec写了一封倡议书给要使用FLR复位方式的"人们"-软件:

为了创造一个温馨的FLR工作环境,请做到以下几点:

  • 在FLR工作期间,请不要访问对应的Function;

  • 清除所有的Command Register;

  • 通过Polling Device Status Register中的Transaction Pending bit来确保之前请求的Compeletion报文已完成,或者确保后续不会再发送Compeletion报文。

  • 触发FLR之后,请耐心等待至少100ms;

  • 初始化Function的配置寄存器,让其正常工作。

在FLR执行的过程中,如果收到TLP或者Compeletions都会被默默的丢弃,而不会向系统报错。

举个栗子,看看FLR执行过程,

1. 如下图,这个PCIe设备中有两个功能模块:Function 0和Function 5. 此时,两个Functions依旧是互不干扰,认真工作,传输TLPs.

图片

2. 之后,Function 5出了一些问题,需要做FLR。FLR之后,Function5中的之前的TLPs全部被清除。

图片

3. Function 5做FLR,并不影响Function 0,继续TLPs传输。如下图,3个TLPs正常传输完毕。

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多