11月了 战战兢兢,如履薄冰 可以形容电商运维人员在这个月的心情 因为一年一度的大考又开始了 Duang、Duang、Duang
双十一来了 对于运维来说,没有能参与一次双十一的运维,职业生涯不算完满,但是巨大心理压力也使得运维人员喘不过气来。
以某司为例,数据中心全年断网时间不能超过2小时,而故障等级分为四级:P1~P4。P1是最严重的故障,P4最轻微。如果频繁出现P1故障,那么老板就要对工资、绩效、年终奖等等下手。 1T、2T……,随着数据接口的输出峰值越来越高,运维人员的心提到嗓子眼。尽管网络、服务器、存储设备等都检查过,运维同事依然死死的盯住屏幕。 当每秒创建是2000笔订单,现在突然一下降成500笔时,问题出现了。可能是订单生成,有丢单等等,这些业务层面的问题会大大影响销售额,顿时运维部门鸡飞狗跳。 今年,某宝的老板的心情好,顾念运维团队多年辛苦,在数据中心引入了机器人,替代人工巡检,安全检查、随工服务、温度、湿度、电气参数监测等,对服务器排查、故障预判。 以往运维团队都要身强力壮,靠着双腿在偌大的园区里穿梭。现在,机器人脑子里有数据中心地图,身上装着激光雷达导航、传感器和全景摄像,巡逻一圈,数据中心的温度、湿度、电气参数、每个服务器的运营状况,全都能实时传回后台。 若后台发现服务器故障,机器人可以瞬间锁定维修地点,通过大脑里存储的服务器坐标直接带领维修人员到达指定维修地。如果维修过程中遇到特殊情况,维修人员还可以用它与值班室人员语音对话进行求助。 30% 机器人目前代替运维人员做30%的重复性工作,未来这个数字将提升到60%。 问题来了,老板在考虑是否需要裁掉60%的IDC运维,又或者需要砍掉60%的运维预算呢? 一切问题的本质可以归结为一点,AI能在多大程度上代替IDC运维。事实上,某宝的机器人身上可以看见人工智能的身影,AI管着数据中心近百万台服务器,对每个服务器的数百个数据点进行实时检测采集,能对数据点进行秒级检测和故障定位,并根据使用情况绘制服务器生命周期曲线。 今天的技术是处于不断变化之中的,数据中心是需要紧跟上日益复杂的IT基础设施的变化和平稳运行所需的功能范围的。 AI允许机器自己学习,从数据解释中得出结论,从而优化资源管理,减少在IT方面投入更多的人力。人工智能可以与数据中心基础设施管理技术协同工作,以检查电力消耗和散热、系统状态和容量。 2014年,谷歌采用人工智能技术来提高其数据中心的产能,利用机器学习将制冷能源的使用量减少40%,节省数亿英镑。随着利润的削减,人工智能很可能是企业需要通过优化的资源管理来获得关键的优势。 从远期来看,AI的将进一步降低IDC运维的对人工的需求,所以,运维们要小心,未来你将与AI竞聘上岗。 |
|