云平台屡次停摆，核心系统事故频发？您的运维系统该升级了！

kaller_cui 2019-03-20

展开全文

3月3日凌晨，阿里云出现宕机故障，受宕机故障影响，华北不少互联网公司 APP、网站纷纷瘫痪，一大波程序员、运营和运维不得不从被窝里爬起来干活。网友“上海蓝盟网络夏立成”调侃，“阿里云一年一宕机，今年特别早”。

然而日常生产、生活对应用依赖程度逐渐增加导致宕机频率和成本都在升高，人工运维投入产出却在下降。根据专业评测机构 downdetector.com 统计，2018年，Facebook 系统全年宕机200次，Youtube 宕机 140 次，Google 宕机 100 次。每次宕机损失至少 100 万美元！某些事故对企业的影响将是灾难性的，对于金融、互联网、电信等信息化成熟度较高的行业更是如此。

软件系统带来的复杂度提升，还需要软件来应对。人工智能(AI)技术结合运维(Ops)场景，已成为目前业界看到的唯一应对之道 -AIOps。然而，落地 AIOps 并不简单，首先需要从改进现有运维流程，升级监管装备入手。当前，大多企业的人工为主，基于 Zabbix、Nagios、Prometheus 等开源、商业数据采集系统建设的诸多监控采集展现数据的方式，会随着监控对象和数据采集量激增而失控。

随着信息系统加速升级演进，运维也正在遵循人肉运维>工具化运维>自动化运维>智能化运维转变历程。因此，新一代运维体系，理念上首先需要站在运维人员角度将复杂变简单，人工转智能。要达成此目标，我们需要完成以下四阶段运维系统升级。

应用全景监控

整合分散、孤岛监控系统数据，实现全景监控视图：整合已经建设的基础设施、网络、中间件、应用监控系统，形成以风险感知为核心的监控系统。

运维大数据分析

转数据监控为信息监控，基于大数据分析能力构建运维信息检索平台：融合指标、日志、代码执行堆栈、网络嗅探数据，全量存储、索引、融合海量低价值密度的运维大数据，为运维人员提供便捷的信息查询入口。

智能化运维

用算法积累运维经验，转人工数据筛查为智能化分析：利用知识库、规则引擎、概率图模型等手段积累运维专家经验，集成异常检测、因果关系判断、根因定位分析等算法引擎辅助人工筛选海量数据，探测、解释异常。

运维可视化

运维数据可视化，自然人机交互：将实时、历史信息可视化，利用更直观、自然的人机交互界面连接人脑和计算机，实现敏捷高效运维。

东软 RealSight APM 应用智能运维平台在传统应用性能管理(Application Performance Management, APM)类产品基础上升级设计理念，引入先进技术，打造了全景化监控视图，运维大数据分析、智能化异常检测分析等能力。为保障政府、企业数字信息系统高效、稳定运行提供必要支撑。

如今，产品已经在社保、医疗、汽车、运营商、金融、快消、保险等多个行业客户得到应用。服务于宝马中国、宝马金融、中国航空、蒙牛集团、宜昌三峡运、上海教委、北京东城区、中翼航食、吉林人社等。

产品在行业中的应用场景

互联网

全景监控态势，保障客户数字体验，提升客户转化率

金融

预测规避风险，提升核心系统稳定性，降低运维成本

汽车

监控车联网车机端、云端全链条健康状态，提升行车安全保障

医疗

提升患者就医客户数字体验，为互联网医疗建设提供运维支撑

政府

保障信息系统稳定，为民生工程、公共管理提供高效可靠数字平台支撑