机房如何运维,才能让甲方放心?IDC机房是网络核心重地,运维十分重要,一份全面的运维方案能让甲方放心将机房交给你。 本期我们来详细了解关于IDC数据机房运维方案。 n软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等维护:常用应用软件的安装、调试、管理、更新、升级、故障检测及排除。操作系统的调试、管理、更新,升级,故障检测及排除。1、硬件设备包括:网络设备、安全设备、主机设备、存储设备等维护:计算机硬件设备的维护、保养、更新、升级、故障检测及排除。对于需要更换的设备,提供设备选型建议及市场参考价格,并可代为购买(设备采购费用另计)。建立电脑硬件配置档案,实行标准化管理。(视客户情况而定)提供网络交换机的调试、故障诊断、日常维护保养、更换升级建议。对于突发的紧急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转。提供用户端路由器的调试、故障诊断、日常维护保养、更换升级建议。对于突发的紧急硬件故障可以提供匹配的设备进行临时替代,保证用户网络的正常运转。培训用户计算机病毒的防护知识以及防病毒软件的使用,建立用户的防病毒意识。升级、更新、优化用户已有的病毒防治系统。提供紧急病毒故障处理服务,对突发的新计算机病毒进行及时响应。对用户的网络防病毒系统进行维护,升级版本,更新病毒库从而确保网络、系统及数据资料的安全。利用专业测试仪器提供对铜缆、光纤的布线故障检测处理。对现有综合布线系统中存在的缺陷、问题提供合理化改造或升级方案,并可提供专业水平的工程施工(工程费用另计)。主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。内存和硬盘的增加是服务器最常见的,安装的应用软件、资源库越来越多,服务器需要更多的内存和硬盘容量。增加内存前需要认定与服务器原有的内存的兼容性,最好是同一品牌的规格的内存。如果是服务器专用的ECC内存,则必须选用相同的内存,普通的SDRAM内存与ECC内存在同一台服务器上使用很可能会引起系统严重出错。在增加硬盘以前,需要认定服务器是否有空余的硬盘支架、硬盘接口和电源接口,还有主板是否支持这种容量的硬盘。尤其需要注意,防止买来了设备却无法使用。卸载和更换设备时的问题不大,需要注意的是有许多品牌服务器机箱的设计比较特殊,需要特殊的工具或机关才能打开,在卸机箱盖的时候,需要仔细看说明书,不要强行拆卸。另外,必须在完全断电、服务器接地良好的情况下进行,即使是支持热插拔的设备也是如此,以防止静电对设备造成损坏。尘土是服务器最大的杀手,因此需要定期给服务器除尘。尤其是在炎热的夏季,对于服务器来说,灰尘甚至是致命的。除尘方法与普通PC除尘方法相同,尤其要注意的是电源的除尘。、机房环境检查就是对机房的温度、湿度、照明、防鼠、防水、防尘、消防、卫生、门窗的关闭进行检查,主要通过检查以下设备或项目去完成:UPS主机一般是智能型的,它对环境温度要求不高,但要求室内清洁卫生否则灰尘遇潮湿会引起主机工作紊乱;主机中的参数在使用中不能随意改变;在断电时,应避免带负载启动UPS电源,应先关掉负载,等UPS启动后再开启负载,否则会有多负载的冲击电流和供电电流造成UPS电源瞬间过载,严重时会损坏变换器;不能让UPS电源经常处于满载或过载。尽管使用的是免维护蓄电池,但从广义来说一定的维护还是必要的。首先它对环境温度要求较高,工作环境一般要求在20℃—25℃之间,低于15℃时,其放电容量下降,温度每降低1℃,其容量下降1%,而温度过高(大于30%℃)其寿命就会缩短;其次,要防止电池短路或深度放电,深度放电会造成电池内阻增大或充电电压过低从而导致降低甚至失去充电能力,放电程度越深,循环寿命越短;第三,要避免大电流充放电,否则会造成电池极板膨胀变形,使得极板活性物质脱落,内阻增大,容量下降,寿命缩短;第四,由于组合电池电压很高,存在电击危险,因此装卸导电联接条、输出线时应有安全保障;第五,对于不经常停电的地区,建议用户每隔一个月对UPS进行一次人为的断电,让UPS电源在逆变状态下工作一段时间,防止电解液沉淀,以便让蓄电池维持良好的充放电特性,延长使用寿命;远程智能控制管理软件 可实现对IDC数据机房的实时监控、故障检测、批量备份、一键开关机重启、一键安装应用软件、远程分配资源、机房空调控制等。 机房、机柜内每台设备都会在远程只能控制管理软件上面一对一映射,可进行全方位远程监测和控制管理,远程智能控制软件最大限度地诠释绿色机房和高效便捷管理的新概念。 IDC数据机房资产统计应包含在日常运行维护中,帮助我们对用户现有的信息资产情况进行了解,更好的提供系统的运行维护服务。 统计内容包括: Ø硬件设备型号、数量、版本等信息统计记录; Ø软件产品型号、版本和补丁等信息统计记录; Ø网络结构、网络路由、网络IP地址统计记录; Ø综合布线系统结构图的绘制; Ø其它附属设备的统计记录; 一、用户现场技术人员值守 IDC数据机房现场应安排技术人员值守,保证网络的实时连通和可用,保障接入交换机、汇聚交换机和核心交换机的正常运转。现场值守的技术人员每天记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常进行,交换机的性能检测,进行整体网络性能评估,针对网络的利用率进行优化并提出网络扩容和优化的建议。 现场值守人员还进行安全设备的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。 同时能够对设备的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。具体记录的数据包括: 配置数据 性能数据 故障数据 二、现场日常巡检 现场日常巡检需要对设备及网络进行全面检查的服务项目,通过该巡检,可最大可能地发现存在的隐患,保障设备稳定运行。同时,将有针对性地提出预警及解决建议,使客户能够提早预防,最大限度降低运营风险。 巡检包括的内容如下: 

一、突发事件应急策略 系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,公司应设计完善的突发事件应急策略。 系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。 对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。 技术支持工程师,需根据长期的机房工作经验,建立常用知识库,其中包括多种常见技术故障和突发事件的应急策略。当获悉出现突发事件时,技术支持人员可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。
|