分享

面对疫情, 如何将关键基础设施风险最小化?

 yi321yi 2020-04-11
在面对疫情下,支持关键任务运行的数据中心基础设施运维将面临特殊的挑战。幸运的是, 预先准备早已存在这个行业的DNA中;从面对停电、恶劣气候、以及其他潜在事件的经验和准备过程中, 大部分的数据中心管理者都有制定应急计划的经验。

Uptime Institute在这段期间, 透过Uptime Institute Network的会员、客户、Uptime Institute Intelligence团队、以及顾问们的反馈和评论,完成了本次的白皮书报告。

内容主要阐述数据中心管理者如何在疫情挑战下, 如何维持业务运行的目标所做的准备! 如何保护员工和场地安全? 如何保持运维持续运行不受影响? 以及如何考虑那些会造成风险提升的因子? 

应业务的准备: 

制定可执行的应变计划, 包含一个响应的分级。明确地确定每一分级要采取的行动,以及可能触发下一级的情况。大多数组织都有定义3到5级的应急计划,从采取合理的预防措施到停止运营操作。在最坏的情况下,通过将关键的应用程序和操作转移到灾备数据中心来完全关闭数据中心。这个计划应该考虑工作人员可能无法在接到通知后短时间内进入或离开数据中心的情况。

考虑可能对业务或IT服务的影响。对疫情的响应可能会影响某些客户对网络流量、工作负载和可用性需求。运营管理者应与内部和外部客户进行协商并讨论任何可能的影响,特别是在计划升级、迁移、或扩增新容量的情况下,而且这些项目的延迟可能影响业务单位的运行或项目执行。

保持内部和外部的沟通。与员工、客户和合作伙伴保持沟通,由于情况随时在变化,所以每天一次或甚至每天两次的汇报都算是适当的,因为情况可能会 随时改变,并可能影响关键业务运作。

享即时新闻和相关信息渠道以帮助工作人员了解目前的当前状况且这也是维持安全和健康工作环境的最佳做法。

向员工提供相关明确公司政策方针的指导,包含确诊(个人或家庭成员)、可能接触的病例、自我隔离的条件和持续时间、病假/带薪休假限制的影响、保险范围等。

定期对员工更新当前的响应级别及其对日常活动的影响。

考虑外包的协同合作如果操作和维护等任务是外包的,则与合作伙伴协作来设置和调整策略。

考虑可能遭遇的供应链中断。除那些支持业务功能的运行的资源核心外,采购适当的防疫产品,以减少传染病的传播:消毒湿巾、洗手液、口罩、手套、非接触式温度计,适合不同类型设备的清洁产品等。还要考虑关键零部件和消耗品的供应链可能出现的⻓期中断,当零件组件制造在受影响的地区时,可能数月都无法获得关键零件。

护员工和场地: 

生消毒的处理和政策。对于病毒大流行,卫生处理当然是至关重要的。关键设施面临防疫的挑战,如进出、安全等等需要专⻔程序和或需要防护设备。而以下步骤将改善保护措施:

1、在整个设施内放置洗手液和消毒湿巾(并有垃圾桶可以丢弃这些湿巾),以及放置标语提醒工作人员和访客经常使用这些物品。

2、在洗手间内放置标志,提醒员工经常洗手,并使用正确的方法。

3、通过设施张贴告示,提醒员工携带卫生纸(用于喷嚏和咳嗽),然后将其弃置于垃圾桶内。

4、注意个人储物区可能会提供病毒存活的机会。它们通常是很小的封闭空间且不通⻛,而且它们的表面可以让病毒存活几个小时或更久。可以的话考虑限制其使用或在每次使用后消毒。

对场地的深度清洁。对场地的深度清洁。提供清洁用品,并要求员工在每班开始和结束时对所有工作区域进行消毒。审核外包的保洁公司所使用的材料和清洁程序。考虑聘请一家专业保洁公司,并按照当地的公共卫生机构。尽可能使用喷雾消毒或喷雾技术—这比简单地用消毒液擦拭表面更有效,因为雾状消毒剂会在表面停留更⻓的时间。

研究并采用深度清洁IT机房环境的方法,考虑到数据中心设施的具体情况(例如,空气交换率/⻛速、高架地板)。增加标准清洗操作的频率(例如公共空间、机柜外表等)及深度清洁(所有设备全面清洁、高架地板下清洁及天花板吊顶清洁,并使用消毒剂、喷雾等)。

清洁人员使用经本地政府部⻔批准的专业清洁剂和抹布。确认清洗过程中使用的所有材料在使用后不会留在数据中心,并在清洗完成后将其作适当处理。

如现场确认有疫情病例发生时:清洁人员使用生物防护服、 手套、鞋套等。一旦清洗完成,所有的部件都被装入袋中并作适当处理。

定期更换新⻛机组和空调机组的空气滤清器(滤网)。考虑更频繁地更换滤网或使用具有更高过滤等级的滤网。

保障个人的防护装确保个人防护装备的可用性,包括面罩、手套和Tyvek特卫强(危险材料或危险品)防护服。考虑关闭所有的休闲设施和餐厅,只开放有预先包装的食物的小便利店。

出管制政策的调整。对关键设施的进出严格管控的,这将有助于减少感染⻛险。建议可以考虑以下几点:

1、数据中心入口大⻔的安全检查点应设置入口通道,使用非接触方法测量温度和消毒(使用消毒剂)。只有在访问者合格的情况下才允许进入数据中心。

2、在所有出入口和人员常出没地区张贴健康自我评估告示。

3、由于目前许多医疗机构不能对COVID-19进行检测,因此采用相对保守的方法:将任何相关症状视为可能的COVID-19感染病例。咨询公共卫生部⻔发布的检查标准指导。

4、与您的组织的人力资源(HR)和环境卫生与安全部⻔协商,制定一份关于接触高⻛险情况(前往高感染率地点、当前症状或与其他有相关症状的人接触等)的筛选问卷。要求所有访问数据中心的个人(雇员和非雇员)在进入数据中心前完成问卷。

人员管制方面。各国的工作惯例、法规和对工作条件和安全的态度可能大不相同。同样地关于远程工作的规则、远程访问数据、和现场出勤可能因国家和行业的不同而有很大差异。

值班管理会差旅的管控。支持数据中心设计和运维的冗余原则也应该适用于员工。

1、创建任务关键型员工团队,确保每个团队拥有足够的技能、经验来有效地管理基础设施。隔离不同数据中心的团队,特别是不允许在主数据中心工作的人员访问主数据中心的灾备数据中心或与灾备数据中心的工作人员有任何接触。

2、不允许团队之间的交叉接触,即使是在工作环境之外的场景。

3、不允许轮班时各班之间有所接触。

4、不同团队间彼此共享的工作空间应由接手的轮班人员用消毒湿巾擦拭。

5、根据适当的医疗或管理建议,一线人员应在轮班时使用口罩。

6、根据适当的医疗或管理建议进行培训,相互间必须佩戴口罩。

7、当班的领导应定期(通过电子邮件)向二线经理汇报员工遵守相关政策的情况措施的情况,并通报任何问题。

8、考虑实现每个人员的健康追踪系统。

持运维持续运行:

定义运维行为和维护的优先级别。在可能的情况下,推迟所有非必要的维护以及原先计划执行的重要项目。在疫情⻛险降低后重新安排高⻛险测试。

查灾备计划以及应现有情况调整流程。审查灾难恢复计划、程序和政策(如标准操作程序(SOP)、程序方法(MOP)紧急操作程序(EOP))目标说明等,并根据当前和预期情况进行必要的更新。

供应商的管理和沟通。制定SOP、EOP并对供应商进行培训(尽可能远程进行)、以便他们在确定无法到达现场时的情况下能够透过远程完成必要的基本工作。

对可能的供应链(含关键备件、耗材等)中断进行准备。预测和准备供应链中断的情况,如电缆、服务器机架、关键基础设施备件和其他组件。订购更多的库存,并与供应商讨论预计的交货时间。如果数据中心依赖供应商或服务提供商来维护备件和消耗品的库存,请验证这些供应商已经预期并考虑到可能的供应链中断。

制定计划,以应对当发生重大设备故障时却因为供应链中断而无法获得关键人员或资源时的可能性。确保有关设备故障的既定程序已经和有关人员进行清晰的沟通。检查系统结构的弹性—如果冗余不足以应付一个或多个组件的故障,则考虑其他备用计划以确保可用性。加满油箱。对VPN进行压力测试,以确保系统可以处理更高的流量,因为许多工作人员可能将远程办公。

考虑人力短缺的情况。准备好当现有人力资源短缺时能透过不同供应商获得储备的人员,这可能包括来自其他供应商的人力资源和专业人员(电气、暖通)。

虑那些会提升风险的因素:

现场人员和项目的管理排除(在一定程度上)所有由供应商所执行非必要的工作,并积极筛选那些必须到现场的人。确保他们充分了解目前所有的要求和程序。审查供应商培训计划,并添加说明和必要信息,以覆盖对健康和安全程序的加强要求和现场工作规则。

如有顾问或其他必要的访客在场,应考虑采取以下预防措施:

出一间卫生间供来访者专用。当他们离开时,把它彻底打扫干净。对于访客、供应商和顾问,将“禁止食品或饮料”的一般IT机房区域要求扩展到整个数据中心(即非工作人员不得携带食物进入数据中心设施或使用员工休息室)。

对第三方运维外包和其他外包服务的管理。与外包伙伴就响应政策、升级程序进行沟通讨论。确定每一方将以何种方式、以何种通报频率向彼此告知目前最新情况。审查所有SLA(服务水平要求)的条款,包括每班的人员配置水平和其他条款。联系服务提供商,确认他们具备满足所有需求的能力。检查服务外包供应商是否能够通过从其他地区调派有经验的员工来弥补当地员工的短缺,并提前讨论这种可能性。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多