分享

视角丨数据中心不间断电源系统架构演进

 昵称bL4ze1MC 2015-07-31

作者:朱永忠


摘要:随着大数据和云计算时代的到来,业务呈现规模化和爆发式增长,传统UPS电源系统在能耗、扩展性、可靠性等方面迎来挑战,HVDC等新型不间断电源系统开始在数据中心应用。

本文从UPS、HVDC、分布式电源等设备自身特点,以及冗余、在线、离线等系统架构的角度进行梳理,提出数据中心不间断供电系统架构正在呈现从在线到离线,从集中到分布的发展趋势

0. 引言

一个典型的数据中心供电系统,由中压配电、变压器、低压配电、不间断电源(Uninterruptible power supply,UPS)、末端配电以及发电机等设备组成,其中,UPS的主要作用,是在市电电源中断、发电机启动之前,确保所带的负载持续供电,因此,UPS系统包含了储能设备,如蓄电池或飞轮;此外,传统UPS还具有隔离市电侧浪涌、电压骤升骤降等作用。

UPS系统是数据中心供电连续性的重要保障,UPS系统的可靠性直接影响数据中心的可靠性,同时,在绝大多数数据中心,UPS系统的损耗可占IT设备能耗的10%以上。因此,提高UPS系统的可靠性,同时降低其损耗,就成为数据中心UPS系统架构演变的主旋律。

1. 传统UPS供电系统

目前,数据中心内应用最广的不间断电源还是传统UPS,它主要由整流AC-DC、逆变DC-AC和静态旁路3部分电路组成,DC母线上挂接蓄电池,输入AC正常时,经整流和逆变两次转换后为负载供电,同时为蓄电池浮充,输入AC中断时,蓄电池由浮充转放电,经逆变器为负载供电,对负载来说,感受不到输入端电源的中断。

1.1 UPS设备的发展

从结构上看,UPS设备可以分为后备式、在线互动式、双转换在线式、Delta 转换在线式等类型,其中前两种主要用于小容量负载(≤5kVA),Delta转换在线式技术受专利保护,因此,大型数据中心主要采用双转换在线式UPS设备。

传统的双转换在线式UPS设备采用可控硅整流,主要的问题是谐波电流畸变率(THDi)高(10-30%),转换效率低(85-92%)。

随着电力电子器件的发展,呈现出IGBT取代可控硅整流的趋势,IGBT整流的优势是取消变压器,因而降低了成本,同时有比较好的输入特性,在较宽的负载范围内,可以将THDi控制在5-10%之间,最大的好处是效率的提升,通常在87-95%之间。目前,IGBT整流型UPS的可靠性比可控硅整流型略低。

1.2 UPS系统的发展

由于UPS设备结构复杂,因此自身容易发生故障,设备冗余可以提高可用性,UPS系统便有了N、N+X、2N、”市电+U电“等架构。

N系统满足基本需求,没有冗余的UPS设备。它的优点是系统简单,硬件配置成本低廉;由于UPS工作在设计满负荷条件下,因此效率较高。其缺点是可用性低,当UPS发生故障,负载将转换到旁路供电,无保护电源;在UPS、电池等设备维护期间,负载处于无保护电源状态;存在多个单故障点。

N+X并联冗余系统是指由N+X台型号规格相同且具有并机功能的UPS设备并联组成的系统,配置N台UPS设备,其总容量为系统的基本容量,再配置X台(X=1~N)UPS冗余设备,允许X台设备故障退出检修。相对于“N”系统,“N+X”系统在UPS配置上有了一定的冗余,系统可靠性有所提高,同时带来了系统配置成本的增加、系统负荷率的降低以及效率降低。N+X系统在成本增加不多的前提下提高了可用性,因此,在数据中心得到了广泛的应用,但是该系统在UPS输出端仍然存在单故障点,实际项目中由此造成的系统宕机屡见不鲜。

为了消除单点故障,高等级数据中心通常采用2N冗余系统。该系统是指由两套或多套UPS系统组成的冗余系统,每套UPS系统N台UPS设备的总容量为系统的基本容量。该系统从交流输入经UPS设备直到双电源输入负载,完全是彼此隔离的两条供电线路,也就是说,在供电的整个路径中的所有环节和设备都是冗余配置的,正常运行时,每套UPS系统仅承担总负荷的一部分。这种多电源系统冗余的供电方式,克服单电源系统存在的单点故障瓶颈,对于少数单电源设备的情况,可通过安装小型STS设备,保证其供电可靠性。采用2N冗余系统可用性得到明显提高。2N冗余系统的缺点也非常明显,设备配置多、成本高,通常情况下效率比N+X系统更低。

“市电+U电”供电架构由百度提出并在2011年其自建M1数据中心规模应用,它在N+1系统基础上做了改进,UPS设备配置不变,将服务器等双电源设备的其中1路改由市电直接供电,消除了单点故障,可靠性较N+1系统大大提高,同时,UPS系统的损耗降低为原先的50%。UPS系统整体效率提升至95%以上。



图1.2.1 N+1冗余系统和“市电+U电”系统

1.3 UPS ECO模式

前文已经提到,双转换在线式UPS配置有静态旁路,当正常情况下负载由旁路供电,交流输入中断后再切换至逆变由电池供电的运行模式,被称为ECO模式,又称为经济运行模式,某些UPS厂家将此模式也称为ESS(节能系统)、SEM(超级节电模式)、VFD(基于电压和频率的模式),等等。

由于正常情况下电能不再经过整流和逆变两次转换,因此,整机效率有所提升,不少厂家声称的ECO模式效率高达99%,但是实测数据与此相差较大。图1.3.1是5种型号UPS ECO模式效率的实测数据。(注:图中“工频”表示可控硅整流机型,“高频”表示IGBT整流机型)


图1.3.1 UPS ECO模式实测效率曲线

对上述6个型号UPS在逆变工况和ECO工况实测效率做平均后的对比如图1.3.2。可见,不同产品ECO-逆变效率提升差异较大,30%负载率下,某些工频机效率仅提升2.69%,某些高频机效率提升可达5.89%,整机效率高达98%。


图1.3.2 UPS ECO和逆变模式实测效率对比曲线

UPSECO模式带来了效率的提升,其代价是IT负载由市电供电,UPS必须不断监视市电状态,并在发现问题且当该问题尚未影响负载时,迅速切换到逆变器供电。这个听起来简单,但实际操作起来非常复杂并且需要承担很多风险以及潜在的负面影响。

经过对主流的3种品牌6个型号UPS实测的ECO和逆变切换时间,在大约100次切换中,UPS最大切换时间为6.6ms,满足IEC标准 62040-3,UPS要求服务器等设备在瞬时断电10ms内时应能维持正常工作;以及ITIC标准,服务器等设备在瞬时断电20ms内时能维持正常工作的要求。采用UPS ECO模式不需要改变服务器电源,可以取得类似Facebook DC 48V离线供电的节能效果。

2. 直流(HVDC)不间断电源系统

尽管所有国家的市电都是交流,但是IT设备内部都采用直流供电,这就为直流供电提供了可能。事实上,通信行业采用直流48V供电已经有几十年的历史,电力行业也长期采用直流220V作为断路器等设备的操作和控制电源。

传统UPS设备存在效率低、可靠性差、灵活性和扩展性差、故障后不易修复等问题,所以业内一直在寻找替换UPS的方案。

国外早在上世纪90年代就提出高电压直流供电的方案,如1999年日本代表INTELEC上发布《290V直流供电系统是电信和数据高效和可靠的供电系统》。真正有效的推动直流供电大规模应用,却发生在国内,2007年,中国电信结合DC48V和DC220V系统,提出DC240V系统并应用在江苏省自用的数据机房。随后,中国移动提出了DC336V的系统。

图2 是现有主流的高压直流供电系统图,与通信行业48V直流系统架构基本一致。与传统双转换在线式UPS系统的主要区别,是取消了逆变环节,蓄电池挂接在直流母线,与整流器并联,同时为IT设备供电。由于直流电源拓扑简单,因此故障率较UPS有所降低,因采用模块化设计,可在线维护。


图2 现有典型高压直流供电系统图

2.1 DC240V or DC336V,电压等级的选择

采用高压直流供电架构遇到的第一个问题就是电压等级的选择。涉及系统效率、元器件耐压、配电设备耐压、配电线路的金属消耗、与蓄电池的匹配、对现有IT设备电源的匹配等因素,最重要的因素是对IT设备的兼容。

DC336V系统浮充电压为380V,采用单体2V电池168只,适用于有PFC电路的IT设备或专为直流电源研制的IT设备,其优点是配电线路的金属消耗量小,转换效率高。其主要缺点是对现有IT设备的兼容性不如240V直流系统。

DC240V系统浮充电压为270V,采用单体2V电池120只,对现有IT设备的兼容性最好,由于电压较低,因此对人身的安全性较好,其主要缺点是配电线路的金属消耗最大,与DC336V相比,电源转换效率较低。

DC240系统在国内从提出到实施落地已经超过7年,保守估计,目前应有数以十万计的IT设备运行在DC240V系统下,其可行性得到较好的实践检验。其效率可以通过元件的选择以及采用离线架构(后文详述)弥补,将电源与负荷就近布置也可以抵消配电线路金属的消耗。综合考虑,建议选择DC240V。

2.2 DC240V 系统的IT设备兼容性

IT设备电源模块的前端一般是一个桥式整流电路,从原理上看,输入由AC220V替换为DC240V可以工作,另外,中国电信等公司也做过一些IT设备DC240V供电兼容性的测试,有些资料宣称兼容性达98%以上。

不论原理如何,也不论其他公司兼容性测试数据有多高,当决定选用DC240V直流供电后,必须进行系统的兼容性测试,建议的测试内容至少包括:正常电压、反复上下电、极性反接、误接地、欠压保护、缓慢上电、长时间工作7项内容。

一项对34款服务器、17款交换机所做的兼容性测试中,共有8款服务器电源、1款交换机电源不支持,服务器电源不兼容率高达24%;5款IT设备不支持正负极反接,这个需要在确定接口极性时特别注意;还有1款服务器在长时间(不小于3个月)测试中出现性能不稳定,经常宕机情况。有些双电源服务器的2个电源模块分别由不同的厂家提供,会有1个兼容另1个不兼容的情况。不做相关的测试,很难发现其中的问题,当大规模上线后再遇到问题,恐怕为时已晚。

2.3 从在线(Online)到离线(Offline),节能到极致

与双变换在线式UPS应用类似,高压直流目前也以在线应用为主。所谓在线(Online),是指交流电能始终经HVDC整流后为IT设备供电,通常有6%以上的损耗;所谓离线(Offline),是指正常情况下市电直供IT设备,HVDC仅为蓄电池提供浮充,市电中断后,转由蓄电池供电,在这种架构下,正常情况为IT设备供电的电能不经过HVDC转换,此部分损耗几乎可以忽略。因此节能效果显著。图2.3.1 – 2.3.3显示了传统UPS、HVDC Online、HVDCOffline在系统效率上的差异。


图2.3.1 传统UPS供电架构


图2.3.2 240V HVDC Online供电架构


图2.3.3 百度推出的HVDC Offline供电架构

HVDCOffline架构最大的问题在于IT设备供电的兼容性。毫无疑问,这种架构需要定制IT设备电源。

最简单的定制无需改变原有电源模块的硬件,只需修改控制软件,调整其中1个模块为热备状态,优点是实现简单,可靠性较高,缺点是热备模块的空载损耗较高;如果做更深度的定制,将备用模块处于休眠状态,可以进一步节省备用模块的空载损耗。

由于IT设备的峰值功耗和常载功耗有较大差异,另外IT设备的电源模块配置容量通常偏大,所以采用主备供电时,主用模块的负荷率容易进入效率较高区间,加上热备模块的空载损耗,IT电源的整体损耗与双路均分负载方式基本相当。

此方案还有一个潜在的收益,即IT设备主用模块负荷率提高后,输入端THDi明显降低,进一步降低谐波在线路及变压器上的传输损耗。

3. 分布式不间断电源系统

UPS或HVDC通常采用集中式供电方案,集中式系统的优点是可以实现资源共享,降低成本,其缺点是系统故障范围大,影响面广。

UPS也有小型机分布式供电方案,但是多套分布式小型机系统与1套集中式大型UPS系统相比,小型机的数量多,故障点多,成本高,因此大中型数据中心不会采用分布式UPS系统。

尽管有如上问题,但是对于分布式不间断电源系统的探索,从来没有停止过。

3.1 DC12V 分布式系统

谷歌是最早进行服务器自研定制的互联网公司,同时也最早放弃了集中式UPS电源方案,转将蓄电池分布到每台服务器电源直流12V输出端。详见图3.1。


图3.1 谷歌DC12V分布式供电架构

市电正常时,进入服务器电源转换成DC12V为服务器主板供电,同时为蓄电池提供浮充电源,市电停电后,由DC12V母线并联的蓄电池继续给主板供电,直到柴油发电机启动后回复交流供电。谷歌早期采用铅酸电池供电,因服务器内部高温导致铅酸电池故障率高,后改为锂电池方案。蓄电池的后备时间为分钟级(通常为1-3分钟)。

此方案的优点是大大简化了IT设备前端供电系统,缺点是服务器电源需要深度定制。

3.2 DC48V 分布式系统

Facebook于2011年公开了其自建数据中心的资料,供电系统采用DC48V离线备用系统。详见图3.2。


图3.2 Facebook DC48V分布式供电架构

Facebook为每6个9kW的机柜配置1个铅酸蓄电池柜,输出为DC48V,服务器电源采用AC277V和DC48V双输入,市电正常时作为主用,市电中断后由蓄电池输出DC48V为服务器供电。蓄电池后备时间为45秒。此方案的系统效率与240V HVDC Offline方案及DC12V分布式系统相当。

3.3 DC240V 分布式系统

随着业内对数据中心能耗关注日益增强,国内近几年出现了一种新型的分布式DC240V电源设备,同样采用离线方案,市电正常时,直接输出市电电源,市电停电后,由内部锂电池提供DC240V输出。

这种方案的优势是IT设备无需定制,只要兼容DC240V供电即可。其缺点是电源内部存在AC220V和DC240V的切换,系统可靠性降低;锂电池串联数量多,单只电池故障会影响系统的可靠性。

从实际应用效果看,某互联网公司租用的数据中心一年中发生十几起电源故障,证明此架构还需完善。

4. 总结和展望

根据以上讨论,可以看出数据中心不间断电源系统架构呈现如下两种趋势:

第一,从在线到离线。UPS ECO模式、DC48V电池备用、DC12V电池备用、DC240V电池备用等本质上都是将电源离线,从而降低电源成本和运行损耗。

第二,从集中到分布。随着锂电池等新型储能设备的发展以及大数据时代服务器快速部署、灵活扩展的需要,不间断电源设备正在从集中到分布。

供电架构只有更好,没有最好,选择与业务匹配的技术才是最佳选择。对于追求稳定可靠的银行客户,UPS双总线架构可能是稳妥的选择;对于追求低成本、快速发展的互联网企业,将更青睐于分布式锂电池方案。


另一种格式的总结和展望:

过去,计算机作为一种非常娇贵的设备,双转换在线式UPS消除了市电电能质量问题,但带来了6-10%的电能损失以及其自身可靠性低的问题。

通过冗余可以提高系统可靠性,UPS发展出主备供电、N+1冗余并机、双总线、分布冗余等方案,相应带来的是成本和能耗的进一步增加。

为了避免UPS设备故障率高的问题,国内提出并已规模部署了直流240V电源系统,大部分IT设备可以直接兼容直流供电。

UPSECO模式是一种离线供电方案,虽然效率较高,但是解决不了UPS设备故障率高和不便于维护的问题。

Facebook提出了48V直流电源设备离线运行的方案,降低了电源设备投资和损耗。48V系统的缺点是电压低,电流大,配电设备容量大,配电距离近,不仅投资高,而且蓄电池需靠近服务器机柜布置。

国内蓄电池的品质差,易产生漏液、着火等故障,因此这种方案直接应用于国内风险非常大。百度提出了240V高压直流离线应用的技术方案,蓄电池安装在专门的电池室,有效控制了安全风险,同时电源设备成本节省70%,电源效率提高到99.5%。

DC12V分布式锂电池方案可以简化前端供配电系统,加快部署速度,但是国内动辄15分钟以上的后备时间与谷歌分钟级(据估计3分钟左右)的后备时间相比,锂电池的配置增加3-5倍,相应成本和安全风险都成比例增加。

随着国内数据中心前端配电系统及发电机自动控制系统的完善以及运营水平的提升,蓄电池的后备时间一定会缩短,分布式锂电池供电系统将在互联网等行业数据中心迎来春天。


作者简介:

朱永忠,现任平安科技(深圳)有限公司基础架构首席总监。曾在百度历任系统部高级经理、副总监、总监、高级总监,加入百度之前供职于中国最大的商业数据中心服务提供商——世纪互联(Nasdaq:VNET)。拥有十多年数据中心建设、运营和管理经验,是百度数据中心基础设施的总设计师、规划师和推动者。在百度的七年时间中,永忠组建和培养了国内互联网领域最强大的数据中心团队,打造出中国互联网领域最领先的数据中心基础设施,为百度的大数据战略打下了良好的基础。永忠是国内数据中心领域的顶尖技术专家,身为中国数据中心专家技术委员会副主任委员,和工信部数据中心工作组特聘专家,主持和参与了多项行业标准及白皮书的编写和审核工作,为过去几年中国数据中心行业的大发展做出了突出贡献。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多