配色: 字号:
可视化智能IT运维系统
2018-05-15 | 阅:  转:  |  分享 
  
现状与痛点&IT监控运维管理诉求从一个真实的故事开始:一天,轮到小李值班,突然几个系统同时发出告警(告警风暴),小李哪里见过这阵仗,顿时感觉
手脚无措,能想到的就是马上给师傅打电话求助。小李按照师傅的建议从服务器开始慢慢排查,从系统告警到问题解决,已经过去了几个小时…期间
,由于用户没法访问系统服务,信息中心接到很多投诉电话。最终的结果是,由于出现被投诉等不良事件,IT运维部被内部通报批评,小李也被扣
罚当月奖金…这也只是运维工作中一个小小的缩影。风险根源问题!告警风暴!!!!IT运维人员日志分析系统网络监控系统云环境监控系统应用
性能管理系统服务器监控系统虚拟化监控系统基础设施监控系统客户场景之NIT资源管理用户体验管理业务部门IT运维部门功能使用是否方便系
统访问是否缓慢系统故障响应和排除是否及时…..主机数据库中间件动力环境存储网络设备…..天花板?用户体验指标用户访问响应时间用户满
意指数系统吞吐量系统错误率用户来源地系统需求执行时长网络传输时长数据库SQL执行时长…现状与痛点:IT监控运维密室的内与外业务应用
中间件密室之内痛数据库IT环境异构、业务系统繁多无法快速适应复杂环境设备的监管人员能力层次不齐,服务范围广缺少规范的、自动的流程化
管理IT设备规模大且分散、管理困难缺少可视化管理&自动化管理手段虚拟化服务器密室之外痛存储网络基础设施业务负载逐年增加,无法确定功
能完整可用性业务形态更加多种多样,部署环境愈加复杂为了适应发展的需求,业务调整日趋频繁云技术的成熟,一定程度上减少了企业自建运维团
队的需求技术的快速演进,对运维团队提出了更高的要求应用场景运维主管资源总览运行统计容量规划应用系统运维工程师IT基础设施运维工程师
流程优化决策分析业绩考核性能监测健康检查自动巡检业务系统瓶颈定位预测分析用户体验流量分析设备监管故障处理根源分析告警通知运行报告数
据中心对智能化IT监控运维的期待(岗位)战略决策支撑数据工作量统计SLA遵守情况部门运转分析支撑数据持续优化的支撑数据业务优化支撑
数据配置/资产管理业务可用性运维主管流程运转情况故障预测/主动预警故障快照/自动处理应用性能监控预警IT运维工程师运维知识库应用体
验分析IT设施自动巡检应用潜在风险预测应用运维工程师故障精准定位应用可用性巡检对智能化IT监控运维的期待(管理)智能管理方式传统管
理方式E更好地进行业务保障一体化离散信息展现业务的稳定性、可靠性要求越来越高,业务系统对IT支撑的依赖性越来越强。自动人工信息
处理S切实地提高服务质量IT架构的复杂度不断加深;IT运维部门工作职责越来越重知识信息信息提取V真正地降低系统风险主动被动
信息采集IT运维人员不足难以应对繁重的运维要求;IT事故将直接影响业务,责任重大对智能化IT监控运维的期待(效果)可视协作运维门户
服务流程管理运维即时协同远程桌面协助运维知识库运维可视化展示运维大数据分析度量中心流程中心配置管理资产管理监控中心操作中心智能自动
业务系统自动巡检应用自动交付部署基础设施自动体检资源集中监控网络/应用拓扑应用性能监控应用体验分析智能化IT监控运维平台逻辑架构云
计算管理平台统一访问门户Portal统一用户管理统一配置管理统一权限管理统一菜单管理大屏展示系统三维仿真业务巡检应用性能监控模块
机器数据分析运维管理用户体验监控用户体验监控业务可用性巡检预测分析应用性能分析预测分析代码级监控代码级监控事件管理实时数据流式处理
基于业务的数据分析基于DSL的检索引擎工单管理移动设备管理模块IT基础设施监控模块问题管理大数据环境数据库应用拓扑中间件在线情况监
控移动设备管理设备访问管理服务器登录审计数据库访问审计防火墙日志审计网络拓扑存储设备网络设备服务器硬件配置管理基础设施监控模块变更
管理容量管理能耗管理容量计算容量规划容量分析位置推荐及模拟影响PUEWUE能耗可视化节能策略发布管理制冷环境安全防护消防系统供配电
第三方监控系统多功能电量仪发电机组蓄电池冷机冷塔精密空调新风排风漏水视频监控门禁入侵报警消防喷淋气体消防消防报警排班管理温湿度CO
2微环境PDUATSUPS知识库管理IT资产管理系统资产申请资产模型维护库存管理变更管理资产统计分析资源分配配置更新报废管理配置审
计资产配置变更资产盘点资产规划维保管理出入库与分发配置管理配置管理配置模型维护变更管理配置统计分析智能化IT监控运维平台技术架构统
一访问门户Portal自动化巡检平台统一用户管理统一配置管理统一权限管理统一菜单管理大屏展示系统三维仿真业务巡检运维管理自动盲检
安全合规业务分析事件管理巡检定义工单管理巡检调度机器数据分析应用性能监控模块IT基础设施监控模块问题管理操作系统监控数据库监控存储
设备监控应用拓扑展现告警通知框架JAVA应用.Net应用PHP应用应用性能分析预测分析用户体验监控代码级监控巡检告警网络设备监控应
用中间件监控网络拓扑展现采集策略框架统计分析报表配置管理巡检报告基础设施监控模块变更管理容量管理能耗管理计算规划分析推荐及模拟P
UEWUE能耗可视化节能策略基础设施巡检发布管理制冷环境安全防护消防系统供配电第三方监控系统多功能电量仪发电机组蓄电池基础设施巡检
冷机冷塔精密空调新风排风漏水入侵报警消防喷淋门禁气体消防视频监控消防报警排班管理温湿度CO2微环境PDUATSUPS知识库管理容量
状况巡检IT资产管理系统性能状况巡检资产模型维护资产统计分析资产申请变更管理配置更新资源分配库存管理出入库与分发资产配置变更资
产盘点资产规划配置审计维保管理报废管理信息安全巡检配置管理配置管理变更管理配置模型维护配置统计分析智能化IT监控运维平台逻辑功能应
用系统自动化测试自动化测试,从目标系统真实操作环境中创建测试用例,有效降低开发和测试成本。凌乱的测试任务和报告难于管理庞大的配置文
件低效地手动构造测试数据可视化用例录制,轻松录制创建测试用例。参数化测试数据,保证测试覆盖度。零编码断言配置,配置选项方式设置断言
。无污染事务提交,自动清理测试过程垃圾数据。自动化测试任务,自动化执行定制测试任务。图形化测试报告,按需发布测试报告。高昂的日常维
护成本繁重的环境搭建工作通过自动化测试手段来有效提高开发效率和降低测试成本接口测试边界测试回归测试冒烟测试覆盖率测试恢复测试安全
测试压力测试性能测试部署测试确认测试准则配置评审A/B测试单元测试集成测试系统测试确认测试网络拓扑及流量追踪网络拓扑手动设置拓扑自
动发现及故障预警基于ICMP(ping)、CDP、LLDP以及SNMP协议的网络自动发现Request流量分析监管设备Respon
seSyslog网络设备监控Trap基于SNMP(MIB)协议的网络设备监控数据中心资源存储IT软硬件资源监控从动环基础设施—>I
T基础设施硬件—>数据库中间件—>自定义脚本,快速满足不同客户实际的IT监控需求IT运维工程师资源监控配置资源集中监控基础设施监控
应用新资源服务器采集周期:1min采集周期:3min采集周期:2minCSSCSSCSSPluginPlatformPlugin
PlatformPluginPlatformSNMP/ModbusSNMPSNMP/SMI-SHypervisorAdapt
orJMX/JDBCSNMPRest/Webservice中间件Hypervisor虚拟化动力环境网络XenServerVmwar
eKVMXENRHEVPowerVM数据库(DB2、MySQL、Oracle、SqlServer)应用服务器(Tomcat、Web
Sphere、Weblogic、JBoss)消息中间件(ActiveMQ)行业应用第三方应用插件开发支持新类型资源监控防火墙负载
均衡路由器交换机PDUUPSATS空调WindowsLinuxSolarisAIXNetAPPEMC移动设备的安全管控移动设备全面
维护提高运维工作效率01020304基本信息获取设备指标检查在线情况监控多维智能分析应用上传管理便捷升级更新合规使用限制使用情
况统计08070605移动应用高效管控降低运维工作难度业务应用性能监控一站解决应用性能管理问题全面监控核心业务,实现自动化的业
务系统异常监控、风险检测,以及应用性能优化。应用系统健康体检遍历规则配置巡检脚本录制安装启动监测遍历检查项设置兼容性适配巡检脚本导
入业务可用性体检业务可用性客户端性能分析系统日志分析移动应用巡检系统遍历巡检业务流程巡检主机访问量分析业务状态分析僵尸门户监测HT
TP请求分析系统状态报告敏感词监测业务跳出率分析巡检脚本录制跨设备巡检执行区域用户量分析坏死链检查应用安全分析业务办理量分析标准遍
历执行深度遍历执行业务检查点设置交互数据管理巡检流程编排业务流程执行安全合规检查定期安全审计操作系统中间件数据库预处理建立关联模型
实时采集处理实时采集处理实时采集处理自动化威胁检查操作系统-日志仪表板实时告警即席查询数据挖掘统计报表日志数据分析平台网络攻击分析
基于业务系统的多层次机器数据,实现完善的安全合规审计保障索引存储PB级日志数据管理能力业务应用系统告警分析页面告警邮件告警短信告警
微信告警声音告警应用故障根源分析可用性应用监控线程池并发连接数根据请求自动拓扑HTTPJMXWebService用户会话性能JM
XRest设置告警策略分析结果故障分析算法故障分析模型故障定位应用发生故障告警通知实际故障点页面告警短信邮件应用故障快速定位应用访
问预测分析业务价值:变被动解决风险告警为主动发现预防,提前规避问题及风险。未来负载变化趋势预测潜在风险及问题分析定位历史|实时|
未来!应用性能资源配置策略预测分析计算存储网络可视化分析&展现存储从分散粗放到统一精细操作系统不同类型资源
不同单一管理工具一体化集中平台统一操作统一告警统一展现统一策略网络流量vCenter新资源服务器Nagios流量分析CactiPR
TG虚拟化监控自身管理端数据库中间件HypervisorZabbix硬件监控JDBC协议JMX/CLISDKAgentSNMPSN
MPSNMP/SMI-S……虚拟化网络……存储监控业务聚合指标实现故障根源追踪负载设备发现业务异常形成业务拓扑应用响应时间突然增大
业务weblogic中间件追踪故障根源AppserverAppwebear2webear1webserver数据库主机App-ho
stNIC1网卡进程java磁盘/opt/data交换机端口G/0/2被动告警到主动式巡检负载设备中间件AppserverApp业
务巡检硬件巡检数据库网卡快速修复进程智能故障分析发现问题业务拓扑钻取自动巡检磁盘解决告警端口告警通知主机业务可用性自动巡检保障、追
溯故障影响范围交换机重复运维工作自动化自动化脚本发送邮件.sh枯燥、重复、不及时清理磁盘.sh触发器重启服务.sh关闭服务.sh数
据备份.sh…….提取任务运维工作自动巡检计划报表计划维护计划备份…….传统监控转向智能分析硬件故障率分析虚拟化资源池分析服务器性
能分析Top剩余量存储分析Top停机时长vm分析Top磁盘消耗vm分析Top磁盘日均增长vm分析Top磁盘读写效率vm分析Top
内存使用vm分析应用性能监控TopCPU使用率机器分析Top内存使用率机器分析Top磁盘使用率机器分析Top性能故障告警
分析Top磁盘读写速率分析IT监控Top服务器硬盘故障分析Top服务器电源故障分析Top存储控制器故障分析Top存储硬盘故障分析
请求响应时间过长SQL执行时间过长代码执行效率低下系统软件配置失当…….操作系统磁盘使用率过高服务器磁盘损坏数据库表空间使用率过高
交换机端口流量异常虚拟化资源池容量不足HDFS磁盘使用率不足…….各种统计报表,提升分析价值网络流量分析数据库性能分析Top会话
流量排行分析Top源IP流量排行分析Top源端口流量排行分析Top目标IP流量排行分析Top目标端口流量排行分析Top协
议流量排行分析Top表空间剩余量分析TopSQL性能分析Top缓存命中率分析Top日志日均增长分析Top磁盘读写速率分析
提升运维能力积累针对不同资源(服务器性能、硬件健康、日志状态、日志关键字、进程性能、数据库性能等)的告警处理,通过知识库可以实现运
维方案的知识积累,方便知识的传递与故障的快速解决。提升故障处理效率知识转化知识积累知识共享告警事件告警资源告警时间告警类别原因分析
处理方案处理结果处理人知识关键字附件信息总结智能化以大数据分析能力支撑的智能化IT监控运维平台构建智能化运维体系效率提升机器数据分
析一体化传统ITSM、APM、NPM、SOC、CloudManagement支撑运维智能化升级接着我再讲讲IT运维部门与业务部门
的矛盾。传统模式中,业务部门充当了故障的发现者,他们通知IT运维部门检查问题,而IT运维部门由于无法准确定位故障原因,无法判定责任
归属(很多情况下就成了背锅侠),往往运维人员又在分析定位问题过程中花费了大量时间,低水平的故障处理效率很容易给业务系统造成负面影响
(这个我们前面也刚刚讲过)。IT运维部门作为支撑服务部门,在信息系统的战略规划和立项等工作中基本没有话语权,更谈不上决策权,往往是
项目建设完成之后才介入系统的管理和维护,等到发现问题为时已晚。另一层面,IT运维部门只能了解IT设施和业务系统的是否可用,而业务部
门则希望业务系统不仅可用,而且要给用户很好的体验,这也给IT运维部门提出了更高的要求。(这就形成了中间交叉的部分,而这部分就是IT
运维部门的能力天花板)我们把IT运维的现状比作一个密室(为什么拿密室来做比喻):一是运维人员每天忙忙碌碌,到处在各个业务部门间解决
和处理问题。虽然如此忙碌,但业务人员(局外)还是经常抱怨“找不到人”、“解决问题太慢”、“不知道TA们在忙什么”。IT运维服务人员
的工作经常得不到业务部门的认可,而且自身工作也难以量化。二是运维人员的分工比较细,没有一个团队有全栈运维能力,也没有一个团队能够俯
瞰完整技术运维领域的工作。对于运维队伍自身,整体的发展和成长被严重束缚,而大部分人都活在自己的微观世界中。在这个IT运维密室之内,
IT设备规模和种类繁多、业务系统数量繁多和环境异构、运维团队自身能力短板等问题都是现实存在的。同样,在密室之外,由于业务形态的变化
多样、信息技术的快速发展和革新,也进一步加剧了IT运维的难度。业务方面:1、业务流量峰值是一年比一年高,尤其是有特殊任务和紧急任务
时;2、业务形态越来越多,以前更多可能是我们自己内部用户在用的各种系统;现在出现各种面向直接的C端和B端的用户;3、为了适应形式的
变化,业务的调整也日趋频繁,传递到技术运维端体现为更加频繁的版本和变更。技术方面:1、云技术的成熟减少了企业对于自建技术运维团队的
需求,市场需求这个池塘在逐渐干涸,而池塘中的很多鱼儿还没有感应到变化;2、技术的全面开源和快速的演进让很多传统商用技术专业成为鸡肋
,工程师挟一技之长吃到底基本不可能,来不及在池塘干涸前完成进化的职场鱼儿们可能会被提前淘汰;3、DevOps的风行为运维开辟了另外
一条更有效地路线,反过来也对现有运维人提出了新的素质要求,运维人需要有研发能力且能够应用这种能力来提高运维的效率和质量。IT运维团
队大致分为三类角色:运维主管、应用运维工程师、IT(硬件)运维工程师。每一类角色都有他们关注的核心问题,IT运维主管希望能从整体进
行把控,为信息中心运转提供IT保障,并希望能让IT运维变得高效、IT运维工作可以度量。IT运维工程师希望能够做故障的精准定位,更进
一步做故障的预测,并且希望能够用IT设施自动巡检替代效率低下的人工巡检方式。应用运维工程师关注业务系统性能监控和用户体验,更进一步
做业务系统的风险预测。SLA(Service-LevelAgreement):服务等级协议总的来说,就是希望能改变传统人工、被动
的IT运维方式,打造一体化监控运维平台,并通过这样一个平台进行主动的、智能化的IT运维,以便更好的进行业务保障、提升IT服务质量、
真正意义上的降低系统风险。Ensure:保障Service:服务Venture:风险就是以配置管理数据库(CMDB)/资产管理为基
础,构建一个可视化、高协作、智能化、自动化的一体化监控运维平台。首先展示一下智能化(或一体化)IT监控运维平台的逻辑架构以资产管理
和运维为基础,以各类资源监控为主线(从动力环境DCIM、IT基础设施Aclome、移动设备EMM、业务系统APM提供全链监控),提
供了一体化IT监控运维平台,并且支持对资源的自动化巡检和基于日志的安全合规检查。首先展示一下智能化(或一体化)IT监控运维平台的逻
辑架构以资产管理和运维为基础,以各类资源监控为主线(从动力环境DCIM、IT基础设施Aclome、移动设备EMM、业务系统APM提
供全链监控),提供了一体化IT监控运维平台,并且支持对资源的自动化巡检和基于日志的安全合规检查。产品面向企业级应用和互联网应用提供
360度全方位、全堆栈监管能力;内置自主研发,并拥有多项专利技术的PAEngine预测分析引擎,能够通过分析运维数据提前发现潜在问
题及风险,将传统被动响应式的风险处理方式变为主动防御,从而规避应用性能问题给企业带来的损失。PAEngine不但能够自主学习生成预
测分析模型,而且能够借助Intel?DAAL(DataAnalyticsAccelerationLibrary)实现数据分
析全流程加速,这使得RealSightAPM能够快速分析处理海量数据,并从中提取出隐含的信息,实现大数据驱动的智能运维。从而帮助
企业构建具备风险主动防御能力的智能运维平台,提高企业运维效率,降低应用性能管理成本,加速企业运维智能化转型。能够把平台提供的测试工
具讲清楚(页面录制脚本、断言、数据会滚等);实现网络自动拓扑、端口的流量监、网络设备性能监控,及时发现端口故障以及网络性能瓶颈从监
控能力上,可以实现从IT基础设施软硬件的一体化监控能力对客户移动设备的安全管控,提升对移动办公运维支撑能力对企业业务系统的监控能力
,实现业务系统的异常监控、风险检测,以及企业应用性能优化分析。从业务支撑能力,IT运维队伍走到一定的能力水平和规模,都会开启运维工
作自动化建设的阶段,通过实现业务流程巡检、移动应用巡检、系统遍历巡检等方式,保障业务系统的访问可用性。通过机器数据和日志分析,可以
保障整个业务系统的安全合规检查,包括:定期安全审计:通过日志管理平台,提供快速定位某台设备某一时间段所有日志信息,便于安全审查员快
速定位和审计自动化威胁检查:实现多级联动、快速分析异常行为,降低单个防护应用和设备的漏报和误报,实现多源安全数据碰撞和自动化威胁检查互联网攻击分析:通过分析应用服务器日志,定期分析攻击事件、定位攻击来源,攻击次数,形成报表供参考。对黑客渗透、关键文件修改等事件、及时发出告警通知管理员。对于告警分析能力,平台具备统一的策略告警框架,基于复杂的策略阈值设置满足不同级别的告警通知,通知方式支持常见的页面、邮件、短信、微信、声音等。并且根据业务请求自动形成应用拓扑,及时发现应用性能瓶颈及故障的根源分析和定位以及基于对应用历史访问数据的分析,通过预测算法预估未来业务增长情况下的潜在风险点与业务所需资源配置,提前规避风险及有效保障应用健康运行,从而扭转原有的被动的运维方式。有了这些功能还不够,接下来要考虑如何通过运维门户,把这些数据更好的进行呈现由传统分散粗放的多监控工具,到一体化监控平台,统一展现告警通过形成业务拓扑,以及发送故障时的聚合指标快照,快速定位故障根源通过自动化的业务巡检以及硬件巡检,保障整个系统环境的健康稳定将传统枯燥、重复的运维工作逐渐用机器自动化代替,例如磁盘不够用时自动清理无用数据、定期开关服务等,无需人为参与。将传统的监控的离散数据转化为业务分析数据,从而帮助运维团队提供运维数据支撑
献花(0)
+1
(本文系班诺居士首藏)