分享

硬件开源(5):Open Vault与重构数据中心

 ssqsqzws 2015-06-17

编者按:本文是《数据中心2015》技术报告的第5章《硬件开源:Facebook后发制人》的第五部分。由于章节较多,且篇幅较长,我们将分为6-7篇文章在微信公众号上连载,请持续关注。谢谢支持!

续上章《硬件开源(4):Open Rack重新定义机架尺度》(点击底部“阅读原文”可阅读到本节为止的全部内容)

Open Vault:存储从服务器分离

得益于Open Rack,第四届OCP峰会上亮相的第三代OCP服务器(代号Winterfell)在设计上有质的飞跃:

  • 主板仍然是v2.0,但服务器高度增至2 OU,并特意强调不是1.5 OU,80mm风扇效率进一步提高;

  • 更大的纵向空间(高度)有利于容纳全尺寸GPGPU,支持两个全高的PCIe卡,一个3.5英寸驱动器槽位,均从前端维护;

  • 服务器机箱里没有PSU,正好并排摆放三台(每台2个80mm风扇),分别从后部的铜排取电,密度进一步提高(2 OU3)且相互独立;

  • 观感上,做工精细了很多,裸露部分的处理也较好,总体上不输一般商用服务器的水准。


用于Open Rack V1的OCP服务器(Winterfell)俯视图及三联装(共占用2 OU机架空间)(来源:网络图片组合)

现在的OCP服务器主板已发展到V3.1,尺寸不变,支持Intel Xeon E5-2600 V3,16个DIMM/NVDIMM,加上了BMC,支持Open Rack V1和V2。3个75W PCIe x8插槽,挤占了硬盘的位置,代之以板载mSATA/M.2(2260,60mm长)SSD——以前只支持mSATA,且需要通过适配器。

硬盘先是被边缘化,接着连装操作系统的工作也被SSD抢走了。那么,大容量存储怎么办?


没有定制服务器和存储项目时Facebook的6种服务器类型,Type Ⅱ因与Type Ⅵ配置相近而被并入后者(弱势的AMD啊),多数公开资料里都没有单独列出;Type Ⅳ和Ⅴ的存储配置看着很像2U的所谓“存储服务器”(来源:Facebook)

我们常说,互联网公司是不买存储(设备)的,这里指的是SAN、NAS等传统的企业级存储系统(磁盘阵列),而不是没有对大容量存储的需求。像上一节刚提到的AWS存储优化机架,即为一例。

OCP V1服务器支持最多6个3.5英寸硬盘,都放满,不算多;只放一两个,剩下的空间又派不上别的用场。保持灵活性,就得付出浪费空间的代价,问题是也没多灵活。

其时Amir宣布了一个面向存储密集型应用的项目设计,看起来像是个4U设备,支持50个硬盘,分配到两个控制器,可以连接到多台服务器,提供可变的计算与存储配比。

第三届OCP峰会上,失势的AMD基于其双插槽Opteron 6200主板建立了一个代号Roadrunner的项目,包括1U(HPC选项)、1.5U(通用)、2U(云选项)、3U(存储计算选项)共四个规格。2U支持8个3.5英寸或25个2.5英寸驱动器,3U支持12个3.5英寸或35个2.5英寸驱动器,仅以3.5英寸硬盘的密度而言,还不如OEM厂商推出的服务器,2.5英寸规格于互联网用户更像是为SSD而非硬盘准备的。在Open Rack实用后,这个项目愈发没有下文,AMD也投靠了ARM阵营,在OCP的项目里主要以微服务器卡(Micro-Server Card)刷存在感。

总的来说,还是Amir那个计算与存储分离(解耦,disaggregation)的思路靠谱。Facebook在存储架构师Per Brashers(已离职创业)和中国籍工程师晏勇等工作人员的努力下,于同一届峰会上公开的Open Vault(代号Knox)取得了成功。这是一个宽度和高度(2 OU)都适配Open Rack的JBOD(Just a Bunch of Disks,一堆硬盘的简单集合,无处理能力,需配合计算节点使用),共30个3.5英寸硬盘,分为上下两层,每层(tray)有15个硬盘和一对冗余的连接电路板(Knox Board)。电路逻辑比服务器主板简单许多,基本上是Facebook独力设计完成,先交由纬颖(Wiwynn)生产,贡献给OCP之后,与OCP服务器一样有其他提供商(如Hyve Solutions和广达)生产的版本。


抽出一层共15个硬盘的Open Vault,背景机架供电区上方的2 OU设备为广达的JBR,是另一种符合OCP规范的JBOD(来源:张广彬,2013年)

Open Vault是个非常经典的设计,后面会有专门的章节展开分析。


除了CPU、内存和硬盘配置的自然更新,2013年Facebook 的Hadoop(类型4)和Haystack(类型5)服务器都用上了Open Vault,冷存储机架更成为一种新的服务器类型(7),从硬件架构上也可以理解为一台单控制器(Winterfell服务器)带8个JBOD(Knox)组成的低性能存储系统(来源:根据Facebook数据制表)

现在,需要大容量存储的Facebook服务器,如Type Ⅳ(用于Hadoop)和Type Ⅴ(用于Haystack,Facebook的图片应用)都由Open Vault提供存储,还增加了一个OCP服务器带8个Open Vault(240个硬盘)的冷存储(Cold Storage)类型——共18 OU,占据半个机架的空间。

数据中心:RDDC与Open DCRE

如本章一开始所言,OCP的孕育便与数据中心建设有着密不可分的关系,Facebook贡献的基于Prineville数据中心实践的数据中心电气和机械设计规范,是OCP最早的文档之一;Facebook向OCP贡献的冷存储硬件设计规范包括了冷存储数据中心地面布局的建议,冷存储服务器就是前述的Type Ⅶ机型。


Prineville数据中心采用两层阁楼式设计,无冷机(no chiller)。地面层放置服务器等IT设备,上层阁楼为冷却系统空间,对外部冷空气和回流热空气进行处理,按一定比例混合(来源:Data Center Knowledge)

Google在数据中心建设上起步早,发展水平高,但也不可避免的形成了历史路径依赖(阿里巴巴技术保障部资深IDC专家陈炎昌语,本节多有借鉴)。这个“遗产”主要体现在水循环系统制冷设计,所以我们总能看到Google的数据中心逐水而居。虽然Google在水的利用上玩出了很多花样,譬如海上数据中心,还有上一章提到的芬兰Hamina数据中心,都是利用海水散热,但是各种水管道始终是个麻烦事,PUE则很难降到1.1以下(即使通过神经网络等技术进一步优化)。


Google俄勒冈州Dalles数据中心内景,蓝色的是冷水供应管道,红色的把温水送回致冷。铺设水管是典型的工程项目,费时费力,难以模块化(来源:Google官网)

本着“后发优势”,Facebook着力推行新风供冷(fresh air cooling),没有空调(Chiller-less)和冷却水管道,冷却系统都布置在上层阁楼内,PUE也低至约1.07。不过,因为要靠喷水雾调节温度和湿度,Facebook的数据中心早期有过教训。


Prineville数据中心的冷却气流示意。热通道封闭,也是从一层的顶棚回风(来源:Facebook演示材料)

2011年夏天,Prineville的数据中心投入使用不久,建筑控制系统错误的输送了富含水分(湿度95%)的冷空气(80华氏度),“机房里就像飘着一朵雨云”,很多服务器遇湿重启,或者因电线短路而自动关机。那年6月下旬,Facebook曾计划将Prineville数据中心二期像北卡Forest城数据中心一样,把服务器进风温度从80华氏度(26.7摄氏度)提高到85华氏度(约29度),相对湿度从65%提高到90%,温升(ΔT)从25华氏度提高到35华氏度,旨在控制环境的影响,并允许减少45%的空气处理硬件。现在看来其后两个指标只到80%和22华氏度,且仅Forest城数据中心相对湿度达90%,不知是否与这次事故有直接关联。


Facebook三大区域数据中心(Prineville、Forest City、Lule?)基本设计指标对比,当时Altoona数据中心尚未完全建成(来源:Facebook,2014年)

总的来说,始于Prineville的成功经验被复制到包括瑞典Lule?数据中心的一期工程。随着Open Rack规范的成熟和相关产品的广泛应用,服务器、存储等IT设备及配电已经基本实现了标准化和模块化,可以在工厂内组装好整机柜,以三联柜等方式整体交付,而机械系统采用工程化设计需要配合建筑施工,电气系统也是工程实施,导致数据中心整体交付速度滞后。Facebook希望对(整机柜)微模块外的机电、数据中心建筑进行产品化、标准化预制、预构件等改进,配合并行作业,达到业务、ICT设备(服务器、存储和网络)、机电、建筑各部分的部署速度几乎同时匹配,实现快速交付。


位于北极圈边缘的Facebook Lule?数据中心(建设中),景象是不是有点像前一章介绍的Google芬兰Hamina数据中心?为Hamina数据中心提供电能的Maevaara风力发电厂就在Lule?北边不远……(图片来源:Facebook)

2014年3月初,Facebook数据中心设计团队的设计工程师Marco Magarelli在OCP官网上撰文表示,瑞典Lule?园区的第二座数据中心建筑(Lule? 2)将采用“快速部署数据中心”(Rapid Deployment Data Center,RDDC)的概念模块化构建。RDDC包括两种方法,第二种“flat pack”自称效仿宜家(Ikea),不过,真正“因地制宜”的是为了适应瑞典寒冷的气候(Lule?离北极圈不到100公里)——Facebook机械和散热工程师Veerendra Mulay在与我的交流中表示,用传统的方法建设数据中心需要11~12个月(参见Prineville和Altoona一期),RDDC可以缩短为3~8个月,从而尽量避开Lule?下雪的季节(腾讯天津数据中心建设过程中也曾被暴雪所阻)。


RDDC的整体布局,A和B是放置服务器、存储、网络等ICT设备的区域(data hall),中间的Elec Skids为电气模块,边上的Mech Units为机械制冷模块(来源:Facebook)

为了达到RDDC的目标,首先,Lule?二期的数据中心建筑取消了上层的阁楼,采用大平面一层的的设计方式,所有主要设备都置于地面,架高的顶棚为布线和热通道回风留下足够的空间。陈炎昌认为:建筑顶部倾斜使得热气流更容易上升,最高处带有风机的热气流排出口调节废热排出的设计,很像雅虎2007年公布的“鸡舍”(chicken coop)式数据中心;而地面的整体布局又类似两边为精密空调、一侧为UPS等配电系统的传统数据中心。可谓兼收互联网与传统企业数据中心之长。


右下小图为“Chassis”的预构件摆放示意,注意建筑中间向上凸起的部分,与Yahoo!设于纽约州北部Lockport的“鸡舍”式数据中心的相似性(来源:OCP官网与NBC Bay Area)

建筑构造上,采用了钢结构预构件,吊装部署。模块化的方法不仅便于复制,还可以根据地区等变化灵活更换为不同的模块,譬如60Hz的美国电源标准和50Hz的世界标准,就分别有对应的供电模块。至于两种工厂预制、现场组装的模块化方法——第一种“chassis”(底盘)和第二种“flat pack”(组合件),公开的资料非常有限,主要来源是Marco Magarelli的那篇博客,某些第三方的解读有所不同,但都有令人困惑之处。


一个典型的数据中心区域(data hall,前面整体布局图中的A或B)由52个chassis构成,4×13网格配置,13个冷通道(每个冷通道对应2列机柜),如图中上半部分;下半部分是2个40英尺chassis(两个蓝色方框覆盖范围,Unit IT)及制冷模块(a/b/c)的剖面图,冷气流从右至左经过IT模块(服务器或网络机柜),热气流上升,沿顶棚回流(上方橙色区域)至右侧制冷模块(三个粉色方框覆盖范围),部分高温空气从左上方(墨绿色区域)经风机排出,形似鸡舍(来源:根据Facebook演讲资料加工)

按照OCP官网博客中的说法,“chassis”类似组装汽车底盘的理念:使用12英尺(约3.6米)宽、40英尺(约12米)长的预组装钢框架,然后在组装线上附加部件,电缆槽、输电排、控制面板乃至照明都在工厂预安装好。在现场组装时,两个chassis的钢框架相连,在机柜上方构成长60英尺(约18米)的冷通道,两端各留10英尺(约3米)的空间给过道。把这种方法比作搭建乐高积木(源自丹麦,也是北欧国家)形成很好的对应关系,但没有“宜家”贴切。

“Flat pack”用14英尺(约4.2米)高的墙板围成热通道,也有跨越机柜和冷通道、金属面板构造的12英尺宽天花板组件,可以使用特制的挂架承载电缆槽、输电排和照明,感觉这部分与chassis方法是存在重合或替代关系的。有一点是相通的,即flat pack方法同样经过预先工程化后做成预构件,将原有工程化(现场施工)为主的框架转变为产品化(现场组装)的框架。


Flat pack方法拼装示意,注意左上角的截面图,实线部分肯定是flat pack,虚线方框似与chassis方法相重合,约3.6米的宽度扣除2个机架的深度,冷通道宽度约1.5米左右(来源:Facebook)

顾名思义,这两种方法的精髓都体现了由传统的工程项目到工厂预制产品、现场模块化组装的转变。通过部署预安装的总成和预制单元模块、交付可预测和可重用的产品,RDDC能够实现站点无关设计、减少现场影响、改善执行和工艺的目标,加快数据中心建设的速度,提高利用率且易于复制到其他地区。提高效率,终归是要服务业务需求。

数据中心建设走向模块化之后,下一步是从里(ICT设备)到外(风火水电)作为一个整体来统一管理。2015年3月10日召开的第六届OCP(美国)峰会上,数据中心项目组介绍了开放数据中心运行时环境(Data Center Runtime Environment,DCRE),这是基于社区的用户数据中心运行时环境,包括可以与任何单板式计算机对话的控制板、到OCP铜排(Bus Bar)的电力线通讯(PLC)接口、固定在铜排上的PLC传感器hub及固件等,能够:

  • 允许完整的解耦带外(OOB)管理网络;

  • 从机架、交换机和服务器上去掉所有外部的物理RJ-45/串行集线器/BMC;

  • 提供机柜级管理的标准接口;

  • 促成定制一个包括北向和南向接口的健壮的Linux操作系统。

Open DCRE支持标准BMC功能,包括IPMP的远程开闭电源、重启、通过串口控制和OCP的远程硬重置、串口(本地,非LAN)控制、POST错误代码、缓冲引导代码。

国内的腾讯也在致力于数据中心模块化进程和南北向接口的标准化等工作,下一章会有简要介绍。

未完,待续……

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多