配色: 字号:
腾讯大讲堂30-运维工具让你的开发运营更轻松
2020-02-28 | 阅:  转:  |  分享 
  
事件管理是一个很关键的流程,它为组织提供首先检测事件然后准确确定正确的支持资源以便尽快解决事件的能力。该流程还为
管理层提供关于影响组织的事件的准确信息,以便他们能够确定必需的支持资源,并为支持资源的供给做好计划。通过利用事件管理流程,组织能
够确保他们的支持资源集中在最紧迫并且可能对业务产生最大影响的问题上。如果没有该流程提供的控制和管理信息,组织将无法确保他们在IT
支持方面的投资(经常是很重大的投资)是否真正满足其目标。消灭隐患-提升业务可用率和产品质量通过解决潜在的问题
和隐患,将业务故障消灭在发生前,促进BU的运维管理逐步从救火到预防发展和转变。质量提升案例没有模块间调用监控的时候(以前)产
品质量问题多,定位难,跟踪麻烦,长期得不到解决。上级主管常常一周询问运维主管好几次,本周的重大故障定位和解决情况如何,还有什么可能
发生的情况存在。有了模块间调用监控(现在)上级主管一个月会询问运维主管一、两次关于重大故障定位和解决情况。快速、准确的定
位-提升运营效率通过模块间调用的返回值及调用结果,使开发、运维人员定位故障的时间提升了35%。以前平均定位时间:23分,数据来
源于ISD突发事件管理系统现在平均定位时间14.95分,数据来源于模块间调用监控系统邮件订阅点评功能效率提升案例业务:会员
功能:会员头像问题:会员头像显示速度慢,不稳定,用户体验感很差没有模块间调用前:根据经验定位,估计是即通的接口返回速度慢。
与即通沟通后,答复接口没有问题。问题只得搁置一直得不到解决。接入模块间调用后通过调用数据分析发现,即通的接口返回速度快,没有
任何问题网盘接口的调用返回速度慢,失败率高通过排查发现:网盘提供的接口业务逻辑不稳定,有过多的冗余日志操作优化相关代码,问题
得到解决从发现问题到具体定位:3个工作日为业务发展和决策提供数据支持提供成功率、响应时间等7个维度业务分析数据,为业务的扩
容、迁移等决策提供了数据支持。以QQ会员自定义图像为例,扩容前QQ会员自定义图像调用网络硬盘qqdisk上传接口成功率为81.5
1%、响应时间为3.52秒,通过数据分析,扩容后QQ会员自定义图像调用网络硬盘qqdisk上传接口成功率为99.9%、响应时间为1
97.79毫秒,CGI自动化测试时间由2.4秒下降到现在的800毫秒,大大提高了产品质量,提升了产品的用户体验感。对不达标CGI
业务潜在隐患的实时跟踪★通过模块间邮件订阅和日分析报告,对任何一个不达标的cgi业务模块的潜在隐患,从根本层面形成了BU在每天的
业务故障跟踪方面的制度,这一方面在监控技术的发展和思路方面是一个大的进步后续建设计划结合配置管理,真实的勾画业务的内部调用
结构图,使业务内部结构透明化。后续建设计划结合自动化测试系统,进行数据的深度分析,打通外部调用和内部调用之间的联系,精确
监控每次外部请求的逻辑走向,形成业务调用逻辑有序图,使定位更加快速、直观突发事件管理服务支持流程事件管理流程用于记录跟踪
和监控事件事件管理目标最快恢复正常服务;尽量减少对业务的不利影响;确保最可能的服务级别的质量,维护SLA条款的有效性;反
应公司平均故障解决时长、计算各个业务的可用率单据类型被动主动事件维护单客服自动监控/运维发现突发事件监控单投
诉单服务请求(管工事件)有影响无影响管工BU处理部门?标红色是为目前未实现变更实施解决故障产品关联图事
件管理问题管理变更管理配置管理服务台变更请求提供配置信息配置变化通知提供配置信息提供配置信息趋势分析避免故
障重复出现监控告警客服工单投诉单事件系统的价值和定位SLA确定及签署事件的记录及处理SLA的阶段核算及监控绩
效及评价考核SLA优化及改进措施年度系统建设及优化规划系统建设及优化实施S
LA偏离整改及行动方案系统改进及优化系统建设项目评估评价图:可用性管理与项目建设的推进协作解决方案
及成果解决方案项目收益事件记录公司统一事件录入平台,记录跟踪事件处理直至最终解决1.将原来分散在工单系统、事件系
统和BU内部的运维数据录入统一的事件管理平台中2.公司只建设一套系统,各部门不用投入重复开发3.将ISD/IED对事件管理的管
理和规范推广到其他部门管理支持建立服务目录和级别管理模块1.在统一平台上展现管工SLA以及BU可用性统计等重要运营数据和报
表,可以纵向对比运营质量2.支持管工、客服、BU针对数据分析,进行管理决策3.支持对运维人员的服务质量和运维质量考评ITI
L其他系统建设统一后续问题管理,知识库管理的建设,减少重复投入1.通过各相关系统提供的接口,预留变更管理、问题管理接口,并在
统一平台上展现管工SLA以及BU可用性统计等重要运营数据和报表2.已支持与ISD问题管理系统接口,实现初步的问题管理升级模式
阶段目标夯实基础精耕细作拓展08Q108Q208Q4事件数据源的完善;改进事件系统的易用性统一考核指标、关键统
计服务台建设第一期系统优化,组件化提高事件系统与配置系统、网管系统、问题系统、变更系统的数据集成,建立公司级统一的可用性度
量和评价体系系统优化,组件化提高事件数据源的完善,管理精细化;监控单、突发事件单、管工事件单、维护单整合08Q3
服务台建设第二期问题管理的建设系统优化,组件化提高V3.2V3.3V4.0系统界面http://helper.it
il.com发布管理公司发布工作以前存在的问题大量的发布仍处于手工或者半自动化运作方式,效率低;由于历史原因,现实环境非常
复杂,开发管理不规范,导致发布工作的复杂性高,导致发布容易出错;现有的系统工具虽然能够实现一定程度的自动化,但应用还不够系统化;
在权限管理和规范化方面,还有待提高;缺乏同其他相关应用或系统,如配置系统、报警系统的关联和集成;发布管理缺乏健全的管理规范和
培训体系;各BU在发布管理上参差不齐,发布工具不统一,在自动化工具的实现上,也具有非常大的差异;发布管理解决方案的层面
发布管理发布工具及管理系统ICT基础架构从发布管理、发布工具及系统、ICT架构三个层面去改进发布管理。明确相关岗位角色,区
分发布操作岗、发布管理审计、发布工具管理维护等角色,建立岗位职责;建立《发布管理规范》,对发布工作进行严格管理;开展相应的人员
培训及教育;建立TOMS-ARS软件系统和打包工具;实现发布过程的自动化;固化相关的关键控制点和权限控制;实现同公司相关
系统的集成和整合;建立预发布机备份管理;对测试环境及编译环境进行梳理;规范产品、模块在编译环境、测试环境和预发布环境中的映射
;梳理配置系统,建立配置关系,推动应用系统配置的完整性和准确性;梳理IDC生产环境,提高生产环境的一致性,降低复杂性;通过自
动化发布,提升发布质量和效率,减少误操作,保证发布安全性;梳理和规范发布流程,促进发布环境管理;版本管理,进行版本的快速恢复;
任务管理,有效提升windows服务器维护效率;控制开发环境对生产环境的访问,保证安全性;公司统一发布平台。价值ARS发
布推广情况部门对象业务接口人现状ISDQzonewaynewang1、已经覆盖ISD80%的发布工作;2、剩余2
0%的ISD发布计划在Q2实现覆盖(主要是包的增量发布);QQ秀QQ会员QQ相册QQ交友QQ音乐Imagecache
IED寻仙leoxiong、felixwang1、飞行岛发布稳定。2、PET1.0正常进行了多次正式环境发布。3、CF
进行了多次正式发布。4、其它多个产品处于试用中。QQ宠物1.0飞行岛QQ宠物2.0CFQQ幻想无线手机QQamy
li,yen,steveqiao,wingzhou1、手机QQ发布稳定。2、VOIP进行了多次正式发布。3、其它多个产品处于
试用中。无线音乐无线平台服务VOIP创新中心QQ客服jackye1、频道应用发布稳定。网站部频道应用国际产品
中心美国QQGame广告部QQlive运营支持部pay.qq.comhairyxie发布数量稳定。电子商务部
eagle已完成部署,试用中在线支付部财富通aaronzheng完成了新环境的部署,试用中。红色代表基本覆盖所有产品
蓝色代表部分产品覆盖白色代表正在试用中ARS发布数据注明:1、图表中所示为发布次数,不是发布版本数,因为一个版本可能会发布
多次;2、互动娱乐和无线产品部的发布次数中包含试用次数。ARS版本计划V3.2Mar2008V3.2Beta02
Apr6,2008V3.0Dec2007V3.1Jan2008ARSV3.2主要进行windows移植开
发、Linux整改、包发布、task完善。V3.2Beta03Apr22,2008V3.3Jul2008V3.2
Beta04May15,2008V3.2Beta05May23,2008V3.2Beta06Jun6,2008
V3.2Beta07Jun17,2008V3.2Beta08Jun27,2008公共运维平台的规划发布管理任
务管理TSH监控管理用户管理权限管理操作日志管理安全管理公共运维平台发布自动化发布平台化发布审批发布计划管理
版本管理公共软件的发布管理命令/脚本集中管理(编辑/查看/保存)任务的权限管理任务手工/定时自动调用任务执行结果查看
进程状态监控;版本状态查询;自动/手工重启进程;用户分权分组管理操作进行分类管理记录/查看用户在公共运维平台的所有操作
公共运维平台的拓扑图RnetDnetIDCARS服务器编译机池生产机生产机办公网…测试机池…预发布机池
…ARS备份服务器……公共运维平台定位IDCRNet办公网…………控制以及审计对生产环境的访问发
布系统:http://rtools.itil.com真实准确的反应公司运营环境的配置状况为其他ITIL流程、各类
运营管控流程提供配置数据支持能够计量运营环境所有资产和配置项的价值能够分析和评价公司运营环境的整体服务能力价值系统结
构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RTools…CMDBAutoD
iscoverySystem高级配置管理模块接口系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管
OMSCA变更系统RTools…CMDBAutoDiscoverySystem高层配置管理模块接口配置核心支撑
平台(包括配置系统核心的数据库(CMDB)和管理模型、接口、管理工具(定义及配置管理、用户管理、角色权限管理、日志管理、通用增删
改、通用查询检索)系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OMSCA变更系统RTools
…CMDBAutoDiscoverySystem高层配置管理模块接口基于场景的配置管理模块(为了提高批量操作,简化
配置管理的复杂性,而引入的基于场景的配置管理模块)系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块网管OM
SCA变更系统RTools…CMDBAutoDiscoverySystem高层配置管理模块接口高层配置管理模块
(以配置数据的管理为核心的高层增值管理模块,如综合管理试图)系统结构配置核心支撑平台管理平台接口基于场景的配置管理模块
网管OMSCA变更系统RTools…CMDBAutoDiscoverySystem高层配置管理模块接口Au
toDiscoverySystem(用于数据的自动发现、自动采集、自校验和诊断的系统)系统结构配置管理支撑平台管理平台
接口基于场景的配置管理模块网管OMSCA变更系统RTools…CMDBAutoDiscoverySystem
高层配置管理模块接口周边配套系统(主要不是用于配置管理的系统,但需要存取CMDB中的数据的系统)系统界面http:/
/Server.itil.com业务监控体系什么是业务健康业务在功能、容量等相关方面体现出来的各项可监控数的总称。当个
别或部分数据不满足标准阀值时我们称业务为亚健康或不健康的,反之业务为健康的。我们为什么需要立体化监控 一个良好、
全面、完善的业务健康立体化监控体系,能够 帮助我们准确,及时、完善地了解业务各个层面的生存情 况,并最终实现对业务的量化管理。
怎样才算立体化监控 一个从外部/内部、从业务/基础环境、从功能/性能、从预算/收入等各个方面对业务数据进行采集、展现和告警的体系
3个W用户分析我们的用户是谁运维人员业务主管中高层领导我们面临的需求是什么运维人员: 通过对各层
次的数据的展示和告警设置,快速直观的发现和定位 故障运维主管:通过对各层次的数据的展示,来反应业务的容
量和性能,通过 设置阀值来对业务的容量和性能进行告警公司中高层: 通过对各层次数据的量化,来量化业务运行的监控度
发现快、定位准直观、全面的了解业务情况业务情况量化了解提供腾讯唯一、准确的运营信息采集、传输、存储的渠道及时、准确的发
现故障及辅助故障定位、排障向其他业务系统提供高效、规范、稳定可靠的运营数据接口定位和价值逻辑结构监控层次产品业务模
块组模块业务功能用例用例操作组件(具体到IP)基础资源外部监控业务内监控基础监控产品体系架构(三横两纵)
用户体验监控系统用户体验定位系统业务特性监控系统外部监控业务逻辑监控系统模块间调用监控系统业务模块监控系统
业务内部监控基础环境监控基础设备监控系统基础网络监控系统统一告警平台告警关联模型库统一告警渠道智
能分析平台公司级网管http://monitor.itil.com二级网管ISDhttp://isd.i
til.comIEDhttp://ied.iti.com无线http://mqq.itil.com网站
http://info.itil.com即通http://srv.itil.com运支http:
//oss.itil.com基础设备监控系统基础网管架构层次Agent数据接入层数据Cache层数据逻辑运算层DB
,文件存储层数据访问接口层Web展示层采集的网络,主机数据,业务插件接入数据最近访问数据内存缓冲告警分析,数据分析,叠加
运算等主机性能数据,告警等历史数据各种数据访问方法,访问协议适配方法基于iis的aps.net和apachecgiweb
应用展示网管公共组件库(.so)数据流核心价值-故障主动发现和定位能力核心价值-故障主动发现和定位能力核心价值-采集的数
据挖掘展现核心价值-挖掘展现:服务器负载分析ISD模块间调用监控系统无线模块间调用监控系统运支模块间调用监控系统模块
间调用监控系统模块间调用监控系统现状及原状对比运维人员需要做大量的数据查找工作运维人员需要做大量的数据统计工作定位问
题要经过多次尝试对模块间调用的监控粒度不更细提供数据支持,让分析更轻松发现问题及时及准确使定位问题更直观使对模块间调用的
监控粒度更细使对模块间调用的告警更直观……原状原状:现状:模块间调用原状特点运维人员需要做大量的数据查找工作在
公司的日志集中平台需要做大量的手工查找工作查找工作比较耗事且不够准确;运维人员需要做大量的统计工作定位问题需要经过多次尝试,
效率低监控粒度不细模块间调用原状特点运维人员需要做大量的数据查找工作运维人员需要做大量的统计工作在公司的日志集中
平台需要做大量的手工统计工作统计工作比较烦琐;定位问题需要经过多次尝试,效率低监控粒度不细模块间调用原状特点运维
人员需要做大量的数据查找工作运维人员需要做大量的统计工作定位问题需要经过多次尝试,效率低模块间调用故障原因比较复杂,多重故障
现象交错;如出问题需要从单机、网络、机房、业务特性等多方面反复排除定位,效率极低监控粒度不细模块间调用原状特点运维人
员需要做大量的数据查找工作运维人员需要做大量的统计工作定位问题需要经过多次尝试,效率低监控粒度不细模块间调用只监控到模块层
不能监控到模块之间的相互调用的性能及请求量;产品架构日志集中平台---localLogApi日志预处理机制
LogfilesDataProcess处理插件处理插件ResultfilesDataSender二级网管
预处理机制由DataProcess、DataSender两个模块组成DataProcess通过插件形式加载不同的处理逻辑
插件需要实现handle_init、handle_process、handle_write_result几个接口Da
taSender负责将本地的结果数据发送给二级网管日志预处理机制说明由于处理结果集可能很大,因此考虑将结果发送独立出来
。预处理系统由数据处理和结果发送两个模块组成处理模块的结果跟logserver的输出格式一致,结果发送模块读取后再发送给二级
网管。目的是如果单个logid的数据一台机器处理不过来,forward到多台机器分别预处理,然后再通过一台机器汇总,汇总的机器可
以用同一套程序数据处理模块通过插件方式加载数据处理算法不同的处理算法启动多套程序处理,数据也需要分开保存。譬如模块间调用的l
og数据、业务log数据应该分开不同目录保存运维工具让你的开发运营更轻松架构平台部-运营平台中心AresliangA
resliang架构平台部-运营平台中心产品管理组分机:7574个人介绍来看一些数据ITIL基础介绍运营平台中心
产品介绍Agenda服务器数25867进程数 64025域名数 4864机房 111
业务集合 322业务总数5075我们为什么要建ITIL还将以每年80%的速度增长月突发事件平均数量
:3000起;故障平均定位时间:23分钟;ISD12月份各业务对外发布450次;我们为什么要建ITIL我们为什么要建
ITIL30多个亿100亿我们的规模会有多大?我们需要多强大的支持能力?来看一些数据ITIL基础介绍运营平台中心产品
介绍AgendaIT管理国际规范--ITIL全称ITInfrastructureLibrary从1986年
开始被使用英国政府电脑局(CCTA)开发制定国际上唯一的关于IT服务管理的综合性准则国际性资格认证(基础级
/主管级/经理级)有自己的国际性用户组织(ITSMF)全球十万多家大型企业采用的管理模式
最新国际标准ISO20000ChangeConfigHelpDeskProblemCostSLMAvailCo
ntingencyOperationsCapacitySecurityhttp://www.itil.co.ukIT服
务管理的“最佳实践”,而不是抽象的方法论!优化IT环境/基础设施管理的系统化、实用的方法:运行和维护现有系统开发新的系
统使IT服务和业务需求保持一致ITIL的好处HP-ITSM方法论如何实施ITIL配置管理
CMDB客户服务台突发事件管理问题管理变更管理发布管理专家建议
:应用ITIL,一般从服务支持环节着手。服务支持环节包括包含5个流程:事件管理、问题管理、变更管理、配置管理和软件发布管理,它们之
间互为补充。ITIL的实施过程中,配置管理是核心。传统的IT管理和ITSM比较ITSM的核心思想是:IT组织,不管它是企业
内部的还是外部的,都是IT服务提供者,其主要工作就是提供低成本、高质量的IT服务。IT服务的质量和成本则需从IT服务的客户(购买
IT服务的)和用户(使用IT服务的)方加以判断。ITSM也是一种IT管理。不过与传统的IT管理不同,它是一种以服务为中心的IT管
理。IT服务管理的核心思想来看一些数据ITIL基础介绍运营平台中心产品介绍Agenda质量基础数据运营平
台中心成本4个产品线31个子产品效率服务目录介绍运营环境基础数据配置管理系统服务器业务软件网络设备网络专线
IP域名LVS存储IDC资源ADS业务监控体系(ServiceView)基础服务器监控URL监控基础网络监控
模块间调用监控智能分析监控综合故障管理平台容量管理质量基础数据2007成本效率运营质量ITIL流程建设
事件管理ServerDesk问题管理需求门户IDC需求管理IDC变更管理设备分配管理值班系统8000报障系统基
础数据成本2007效率质量运营效率效率公共运维平台建设发布管理作业自动化平台自动化编译基础数据成
本2007质量控制运营成本ITIL流程建设OMSCA系统基础数据成本2007效率质量产品线体系价值-运维的工作及重心转变日常发布及相关沟通协调工作×扩容工作×投诉的二线支持×数据迁移/提取×IDC软硬件故障维护×配置管理运营数据分析立体化监控及异常发现代码编译检查可运营规范及推进开发优化……重心日常操作救火运营分析优化改进监控预防工具化、智能化及自动化持续优化和规范环境,降低复杂度举措进化配置管理系统配置管理是一项关键过程,负责对所有版本的硬件、软件、文档、过程、程序及信息技术(IT)机构内其它无生命组成要素进行识别、控制和跟踪。配置管理的目标在于,确保只有经过授权的组件才能在IT环境中得到应用,并对所有变更调整实施记录和跟踪。什么是配置管理配置管理CMDB服务台突发事件管理问题管理变更管理发布管理定位事件管理是一个很关键的流程,它为组织提供首先检测事件然后准确确定正确的支持资源以便尽快解决事件的能力。该流程还为管理层提供关于影响组织的事件的准确信息,以便他们能够确定必需的支持资源,并为支持资源的供给做好计划。通过利用事件管理流程,组织能够确保他们的支持资源集中在最紧迫并且可能对业务产生最大影响的问题上。如果没有该流程提供的控制和管理信息,组织将无法确保他们在IT支持方面的投资(经常是很重大的投资)是否真正满足其目标。
献花(0)
+1
(本文系新用户18771...首藏)