分享

超级互联网公司如何评估IT运营水平?

 rootstock 2016-05-26

作者介绍

朱品燕(女)

IT圈非著名文艺女青年,十年来混迹百度,任系统部高级经理,负责百度服务器硬件研发,管理系统研发,资产管理以及供应链团队,统管百度IT基础设施交付和运营。

带领团队经历了百度基础设施演进的每一个过程,时间跨度724365*10,服务器规模跨度1K-1W-10W-50W,对IT运营有深刻理解。现创办灵犀,并就读清华EMBA。

前言

本文是衡量IT运营水平系列文之一,旨在:

  • 阐述在云计算时代,如何客观合理的评估一个企业IT运营的水平

  • 详细阐述超级互联网公司的内部IT运营水平评估指标以及算法

  • 提供指标数据的获取来源

您现在的IT运营水平处在什么阶段?

作为一个互联网企业或者一个正在尝试互联网 的传统行业,IT 基础设施是其搭建上层业务的核心要素,而其的运维负责人(运维总监或者 CIO 们),通常在岗位定义中属于后端支撑部门,永远处于镁光灯的背面。

这样的定位和IT基础设施的重要程度其实产生了一种怪异的矛盾。

原因是多层次的,但有一种原因却是客观存在的:即对于后端 IT 基础设施的交付和运营水平,企业的 CEO 们无法客观合理的评估其行业先进性,从而无法评估运维团队的工作表现,只能通过故障多和少这一简单数据来予以奖励和惩罚。

然而可悲的是,不出故障的系统是不可能的,因此运维人员被打上要么默默无闻,要么罚款开除的宿命 LOGO。

本文作者有在 BAT 超过 10 年的 IT 运营负责经验,且对于国内一线云计算公司的运营团队以及运营水准有深入的了解,尝试通过介绍 BAT 这样超级互联网公司和一线云计算公司如何评估其 IT 运营水平,从而梳理出行业的一个客观公开的标准。

一旦该标准确立,则将有助于运维人员和其公司负责人评估 IT 运营水平,从而进一步提升高绩效的运维团队的岗位含金量,推进整个 IT 行业的发展。

评估IT运营水平的几个核心要素

我们对于核心要素有如下两个准入标准:

  • 和运营的实际效果密切相关

  • 尽可能回归为量化数据,且此数据可以相对公平的横向对比

按照上述准入标准,在超级互联网公司归纳为如下 4 个大类,各个大类之中又分为若干子类别,用以在评估公司总体 IT 运营水平的同时,又能评估各个子团队的绩效水平。

  • 可用性

  • 成本

  • 效率

  • 技术先进性

100分的水平 = 可用性50% TCO20% 效率20% 技术创新10%

上面提到的四类核心要素的细分指标说明如下。

1、可用性

可用性 = 1 - 服务不可用时间/服务总时间

在超级互联网公司,通常业务可用性的保底要求是 99.5%。而核心业务的可用性目标通常设置为 99.9% 或者 99.99%。

而整体业务可用性指标又可以按 case trace 的思路拆分成如下 4 类可用性指标:

  • 程序可用性

  • 安全可用性

  • 网络可用性:其中又可以拆分为自有网络可用性;运营商网络可用性;负载均衡等网络产品可用性

  • 服务器可用性:其中又可以细化为服务器整体故障率;单品牌故障率以及部件故障率

业界不少公司会采用 MTTR(Mean Time To Repair),MTTF Mean Time To failures),MTBF(Mean Time Between Failure)来作为一部分考量指标,但在超级互联网公司的运维部门,反而不常用该类指标。

逻辑其实也相当简单:一切指标围绕自身需要,最能反映现实问题,并且最能帮助拆分后优化问题。

2、成本

在超级互联网公司已经一致采用 TCO 作为总成本的考量。前期为了客观考量,先剔除水平偏离度高的人员薪酬数据,我们通常把 TCO 的算法按如下计算:

在超级互联网公司,如果把单台服务器 TCO 作为一个不断 trace 的成本业绩指标,最新的单台 TCO 数据可以做到 15000 元人民币/年/台。

其中:

  • 服务器采购成本可以量化为单服务器平均单价。

  • 网络设备采购成本可以量化为单端口平均单价。

  • 布线成本可以量化为单端口平均单价。

  • IDC 租用成本可以量化为单服务器平均单价。

    关于IDC 租用成本,需要额外注意的是:

    • 如果一个 16A 的机柜月定价为 8000 元,则客观衡量的单价应该为该机柜实际放置了 10 台服务器,则单价为 8000/10;

    • 如果一个机柜放置了 10 台,一个机柜放置了 12 台,则平均单价应该为(8000 8000)/(10 12)

  • 带宽成本可以量化为单 G 平均单价。

  • 软件成本可以量化为单服务器平均单价。

  • 外包服务成本可以量化为单服务器平均单价。

3、效率

总指标为上线效率,修复效率和资源使用效率。

上线效率即从业务需求提出到业务正式上线的效率,其中又可以拆分为:

  • 预算效率:从内部预算开启,业务部门提出需求到预算审批通过的时间效率

  • 采购效率:从预算确认到采购流程完毕,供应商开始正式接单的时间效率

  • 到货效率:从供应商接单到服务器到货的时间效率

  • 上架效率:从服务器到货到服务器完全上架的效率(包含捆扎网线电源线,以及电源通电)

  • 安装效率:从安装操作系统到具备交付业务的时间效率

  • 部署效率:从业务接收服务器资源到业务正式上线的效率

修复效率即从故障发生到故障修复的时间效率,其中又可以拆分为:

  • 故障报出效率:从故障发生到监控系统报出的时间

  • 故障接手效率:从故障报出到运维人员接手处理的时间

  • 故障定位效率:从运维人员接手到定位故障的时间

  • 故障修复效率:从运维人员接手到故障修复的时间

业务交付效率和故障修复效率是两个常见概念,但是 在超级互联网公司,对于资源使用效率也非常之关注,因为此类效率数据和成本关系极大,并且也能客观反映一个 IT 运营团队的技术水平以及精细化的运营能力。

资源使用效率主要为 CPU,IO 和存储的利用率。CPU 利用率主要考虑计算资源,通常以平均峰值使用率和平均使用率作为 2 个衡量指标。

在超级互联网公司,平均 CPU 峰值使用率可以超过 40%。

4、技术先进性

技术先进性指标包括如下:

  • 知识产权数量

  • PAPER 数量:尤其在意国外一级会议的 PAPER

  • 开源社区贡献:例如阿里巴巴对于开源社区的贡献

  • 技术创新性:强调别人没有而你有的那部分:例如百度全球首款 ARM

  • 服务器的商用;例如百度通过机器学习预测磁盘故障率;例如腾讯的模块化数据中心设计

  • 生态合作程度:例如 BAT 天蝎组织的创建

核心要素如何记录和评估?

按照第二部分的拆解,一个超级互联网公司的 IT 运营水平考量要素,大指标有 4 类,但子指标多达几十种。

如果只是通过单人手工的方式来收集碎片数据,纯粹作为 KPI 来考量,工作量巨大,并且数据失真严重。

事实上,上述核心要素贯穿运营工作的每一个过程和每一处细节,绩效考量应该是润物细无声,工作完毕要素即能够实时保留和核算,并且每一个子目标的出具,能够便于运营团队及时发现问题,从每一个细节改进过程。

所以在超级互联网公司,一套统管运营全过程的 IT 管理系统便不可或缺。从功能上说,它集成了 IT 监控,资产管理,报警,故障修复,故障知识库等多个功能模块,在功能运转过程中,它同时兼备了数据统计的职能。

案例1:如下图所示,修复效率这项指标,您可以从其的报表页面直接获取实时生成的指标数据,客观评估您的运维水平。

案例2:甚至还可以给出一个得分。这样变成关注整个运营全生态的闭环,提供了从发现故障到解决故障的全生态功能,在其软件部署运行的过程中,也会替您实时生成实时的运营阶段全指标数据。

致谢

本文由灵犀(IT运营专家)供稿,您目前可以扫码并免费试用灵犀。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多