第一章 方案概述 1.1背景介绍 中石油加油站管理系统(以下简称加管系统)经过多年建设和完善,目前已经成为中石油成品油销售业务的核心支撑系统,承载着中石油全国成品油销售业务和非油品销售业务的运营和管理任务。系统采用集中建设和集中管理模式目前比较成熟稳定。随着经营模式和业务连续性要求、IT技术发展和网络性能提高,目前该系统面临着性能功能升级和采用更先进技术来满足系统对高可用性、高可靠性的要求。 加管系统在每个站上部署了BOS服务器、FUEL服务器、POS服务器、发卡终端和办公系统PC机,由于站内机房环境、网络病毒防护、业务人员IT水平等现实因素给这些站级IT设备的正常运行带来诸多风险隐患。一旦站级IT设备系统、数据损坏势必对加油业务造成严重影响,甚至可能造成严重的社会影响。所以急需一套技术先进、成熟、简单易用的快速救援解决方案实现业务快速恢复,以减少对销售公司的业绩和社会效益造成的影响。 1.2需求痛点 如何避免或者减少站级BOS服务器、FUEL服务器、POS服务器等IT设备系统或数据损坏对加油业务的影响,减少这些设备维护成本成为各销售公司IT部门日常维护的核心需求。具体需求痛点分析如下: (1)BOS、FUEL、POS等服务器的操作系统基本为WINDOWS XP或WINDOWS 7,由于这些系统存在天生漏洞和网络病毒攻击的猖獗,对这些站级系统构成严重威胁,有时是灾难性的。当这些威胁发生时常规的处理方法找到问题、解决问题太慢,不仅加大销售公司运维难度,而且对业务和效益造成严重影响。如何快速可靠的恢复系统和业务运行就成为痛中之痛。 (2)由于站内加油员工不是IT专业人员,有时误操作可能造成站内IT设备系统重要文件损坏、数据丢失。解决这个问题需要运维人员现场解决,同时可能面临问题定位难的情况,这样势必增加故障对业务系统影响时间和销量。如何简单、快速恢复,减少其对业务的影响、减少运维时间和成本成为第二个需求痛点。 (3)由于加油站机房并不是专业机房,温度、湿度、尘埃会对IT设备系统造成影响,严重缩短设备使用寿命和增加设备故障频率。如何在故障发生后快速恢复就成为需求的第三个痛点。 (4)面对病毒攻击,企业采用了很多技术手段和行动,但总体上当病毒爆发威胁来临时我们只能增加投资防护已经发生的病毒,而对即将发生的病毒威胁仍然素手无策。根源在于所有的防护病毒爆发的技术手段都是后置的。而常规的解决办法也只能是隔离、打补丁、封端口、查杀、重装系统、重做配置等耗时多、影响大的手段。最重要的是导致企业疲于防护旧的病毒,而对新的病毒爆发还要重复采取机械式的常规解决办法。如何找到一种新的技术方案快速恢复系统运行、减少对业务影响成为迫切需求。 (5)解决系统损坏、数据丢失的常规运维手段是从备份系统中恢复。比如采用备机硬盘或GHOST恢复系统,痛点是恢复时间长、备份管理复杂、恢复具有不完整性;再比如使用系统中配备的自动备份系统进行恢复,痛点是备份时间长、专业性要求更强、成本高、影响业务运行效率甚至恢复不成功或数据不完整。 1.3实现目标 东晨联创一直围绕着用户核心业务需求痛点进行技术创新,面对中石油销售公司加油站业务需求,我们不仅有加管云化、桌面云化等创新产品和解决方案。还针对上述需求痛点,采用全息日志技术和产品,经过严格测试,专门设计了站级系统与数据快速救援解决方案。方案核心目标就是快速、简单易用,针对这些设备发生系统破坏、病毒感染、数据丢失等非硬件故障,全部采用时光倒流的方式,使其10分钟之内即可解决问题,恢复业务。 当然,我们也有更先进的《系统硬盘故障在线再造系统盘》技术等你体验。 第二章 详细技术方案 2.1概述 我们的《站级系统与数据快速救援技术解决方案》正是应上述需求痛点而创新设计的。该方案所采用的全息日志监控技术,是从EFI/MBR层面设计开发的。能够在站级各PC机系统出现故障后,采用时光倒流或逆推模式,授权加油员或在集中控制台远程即可快速(10分钟之内)恢复故障系统或数据到你指定的时间节点。减少不必要的故障诊断、故障排除所造成的系统宕机和业务停止。 其先进性,在于采用全息日志技术,可以将系统和数据恢复到任意时间点,既可以向前恢复,也可以向后恢复。时间点的选择颗粒度极细,可以实现秒级。 2.2整体方案架构设计 图示:总体系统架构设计 2.3方案构成 本方案由在省中心部署的集中管理系统和在每个加油站的PC机上分别部署时光机客户端软件两部分构成。 本方案采用集中管理和分散部署方式,其构成为: 1) 集中管理系统:集中管理系统部署在省公司的中心机房内,是一个1U高,集软硬一体的服务器设备,一般一个省公司如果网络可连通只需要一台即可。 2) 时光机客户端软件:在每个加油站的每台PC机上分别安装时光机客户端软件,是一块大小为1T的SATA硬盘,安装在PC机内,其作用是实现数据的快速救援。 2.4方案核心功能 2.4.1系统救援功能(系统穿越) 应急救援功能主要是利用系统穿越方式完成对PC机操作系统、配置文件、应用程序的快速救援功能 1) 桌面文件恢复,从安装客户端开始,即完成当下桌面系统文件的备份。文件丢失,可利用系统穿越的功能对桌面的文件进行恢复,同时,也可以利用硬盘数据穿越找回桌面文件。 2)操作系统的快速恢复,当安装客户端后,每次操作系统的变化都会记录到全息日志中去,产生的时光节点包括所有操作行为,使用系统穿越功能即可进行系统的后滚和前滚。本功能可以完整记录操作系统运行状态,对包括应用程序在内的所有破坏进行快速恢复。
图示:系统穿越功能示意图 2.4.2硬盘数据救援功能(硬盘穿越) 因为误操作或者是其他原因而造成单个文件或者加管系统的共享配置文件丢失时,管理员不再需要为了恢复单个文件去找专业软件恢复,现在只需要在时光机客户端的硬盘穿越功能中去选取最近的恢复点,选择需要数据穿越回去的时光节点。并选择丢失文件所在分区点击“执行”选项即可执行此类型的操作,想要恢复的文件或者是文件夹会以一个虚拟映像盘的形式挂载到硬盘中,将丢失的文件拷贝回来即可。 图示:硬盘数据穿越恢复示意图 2.4.3集中管理平台 通过部署集中管理系统,集中管理整个销售分公司所有部署的客户端软件,从而可以进行远端系统的恢复,还可以进行集中下发文件任务,简化IT管理流程。 集管平台包含了以下几部分模块: >审核管控模块 1) 对连接客户端的U盘、移动硬盘等等外设文件的增删改、复制粘贴等行为进行记录,并可以实现外设权限管控 2) 监控客户端系统进程、网络流量情况、端口转发消息、文件传入传出追踪等功能 >行为分析模块 对客户端安装的应用程序进行手动分析,监控程序安装后所有的关联文件位置,程序启动流程图,程序创建文件后所有的流程轨迹分析 >客户端日志管理 1) 对客户端全息日志实现管理,可根据全息日志远程恢复客户端操作系统 2) 客户端的IO流日志、用户访问日志、程序访问日志、文件编辑日志等内容的管理 >漏扫功能管理 通过编辑预定义策略对客户端漏洞,端口封闭情况,病毒扫描情况进行管理 2.4.4裸硬盘恢复功能设计 在加油站的PC机上,无论硬件问题、配置更改、应用程序故障,还是病毒攻击都可能造成加管系统故障。其中最严重的情况是物理硬盘损坏,导致系统不可用。 这种极端情况,可以使用裸硬盘恢复系统功能,第一次部署时,会在外置盘上自动对原系统进行一次全量的备份,(要求外置盘比实际系统硬盘容量大),相同部分的空间做系统备份,多出来的做快照存储区,完成后,软件在后台启动线程来做系统的拷贝和同步,让PC系统处于双工运行状态。 在系统硬盘遭到破坏,重启系统后,时光机外置盘就会无缝接管系统,继续提供业务支持。只要换上新盘,在进行重启,时光机客户端软件后台自动感知硬盘分区变化,触发同步策略。在线将原系统和变化部分的数据同步拷贝到新盘中,再重启系统后,实现系统切换。 图示:非系统盘的分区数据恢复示意图 2.5方案部署与实施 2.5.1建立统一的管理应急恢复中心 本方案在省中心部署一台或两台集中管理系统构成应急恢复中心,来统一管理和远程恢复加油站内PC机系统状态,应急恢复中心有非实时和实时两种模式:非实时恢复模式可以选择在带宽不足的加油站做设置,利用夜间或业务不频繁的时间来将本地电脑的全息日志进行上传。这种模式的特点是不需要占用大量的网络带宽来进行传输需要用来恢复系统的全息日志。 实时模式在加油站和管理应急恢复中心建立通信线路,利用全息日志实时上传备份,将加油站站点的主机的数据实时送往应急恢复中心,保证数据的一致性和实时性。当加油站环境发生灾难时,应急恢复中心可以在最短的时间内,恢复站点的系统运行和数据状态。 图示:应急恢复数据中心 2.5.2加油站级救援系统部署实施 站级系统与数据快速恢复方案实施是个系统工程,必须有一套科学的方案来保证项目在不同阶段的顺利实施。实施策略、方法和工作规程需要明确的定义和执行。 一、软硬件环境确认准备 1) 召开项目启动会 项目实施单位负责召开项目启动会,确定项目实施范围,明确职责 建立良好的沟通机制,保证实施方、接口原厂沟通顺畅 实施环境准备,包括现场环境确认,实施配合人员、项目实施步骤; 2) 制定实施方案 编制快速救援系统应用试点实施方案。实施方案内容包括实施工作项、实施阶段目标、实施阶段工作成果、实施责任人、实施所需资源、计划完成时间等;确定调试进度安排。 3) 环境准备 正式环境准备完成是系统上线的前提条件,它是影响项目是否能够顺利完成的重要因素 跟踪项目软硬件采购情况,及时调整工作计划。 了解配置情况,为系统正式环境部署做好准备; 试点环境部署(包括调试设备、搭建基础管理平台、创建数据库、初始数据库加载、应用系统部署后的安装和验证测试) 二、数据初始化 1)数据收集与处理 收集使用快速救援软件的加油站点分布情况,目标用户在使用中涉及到的权限分组情况; 2)数据校验 协助加油站点员工,对已经部署加管系统的完整性进行校准,并检查系统健康状况,主要核查内容包括加管系统是否能正常使用,是否处于无病毒状态等。 3)管理权限 用户可根据站点员工职责分配时光机软件的使用操作权限。 三、方案部署 方案部署主要是对集中管理平台、加油站PC机客户端和相关网络联调方面而言,因此需要做好以下几个方面的工作: 1)制定系统部署方案 了解部署加油站点的软硬件配置情况; 编写快速救援系统的安装、配置、调试方案; 拟定部署计划 2) 部署方式 架构决定:系统采用CS架构部署,服务器端部署在省中心机房,客户端采用外置硬盘模式部署在加油站每台PC机上 部署客户端:采用1T大小的SATA硬盘(内置客户端安装程序); 安装:打开主机箱,插入1T的SATA硬盘后开机。使用管理员权限,运行时光机客户端安装包。 网络连接:2M/10M 3) 实施步骤 双击硬盘版安装程序图标并右键以管理员权限安装,然后单击打开; 勾选“时光机-硬盘版”客户端选项,然后单击下一步; 选择是否安装到时光机软件运行盘中,然后单击下一步; 选择完成,静待安装成功;(期间会弹出划分区和磁盘整理的界面,对安装过程没有影响) 提示安装成功,是否重启系统,单击是; 重启时,进入到时光机的EFI启动界面,单击从硬盘启动; 安装完成。 4)部署验证 验证软硬件是否正常运行; 验证应急快速救援系统应用功能是否正常; 验证安装应急快速救援系统与加管系统及其他部署应用系统是否存在兼容性问题; 四、系统占用资源说明 1)硬盘空间: 1、在外置硬盘中划分出和系统盘大小一致的空间用来备份系统, 2、剩余空间做快照存储区。 2)内存:占用100M至400M 1、启动程序占用100M内存,所有操作系统的行为记录会占用200M左右的内存,全息日志的记录规则为先将IO、文件行为、操作日志缓存到内存中, 2、待系统重启或待机关机时在将全息日志存储到硬盘中。 3)CPU:开销比例为3% 1、时光机软件运行在客户端时,后台线程调用占用系统约3%的CPU开销。 如下图: 2.5.3应急救援方案应对故障的办法 采用本方案后,加油站经常出现的一些故障问题使用本方案的应对办法如下表;
2.6方案对软硬环境要求 操作系统要求
系统硬件要求 >处理器 Corei3\i5及以上主频,3.2Ghz,或按照操作系统要求; >内存 客户端:要求 256 MB(推荐 2048 MB) 控制台/服务端:要求4096 MB 及以上; >磁盘空间 软件版客户端:40 GB 以上可用硬盘空间 控制台/服务器:1 TB以上可用硬盘空间 外置STAT硬盘:1 TB(硬盘版客户端) >集中管理功能要求 2048 MB内存 50 GB可用硬盘空间; >客户端功能要求 200 MB内存 500 MB可用硬盘空间; 2.7.1方案特点 本方案能够对关键系统进行快速可靠的恢复,不管故障是由于系统损坏、病毒、蓝屏崩溃、蠕虫、用户使用错误引起的还是硬件损坏而造成的。 系统可靠 在操作系统层面,员工无论做什么操作,计算机都可以进行回退。在不影响业务运行的前提下进行全盘的备份和在线数据的同步。系统被破坏,也可以保证系统运行的可靠。 长期适用 本方案的软件不会占用系统资源,对设备要求低,后期需要更换设备或者上虚拟化环境,只需要在管理控制台将客户端注册地的软件授权码更换即可。 灵活的存储方式 本方案软件能在几乎所有类型的介质上存储备份文件,包括直接写入硬盘、外置SATA、SSD硬盘、网络磁盘以及支持NAS和SAN,同时为了不同介质的不同容量,安装时可以自动选择存储日志的空间大小。 不间断工作 通过使用全息日志技术,能够捕捉和存储所有的服务器文件及配置信息。这样用户可以在一天中的任意时刻创建快照回退点,而不会对用户的生产效率造成影响。 事件驱动型的备份 常见的备份工具可以基于时间或者系统状态进行备份,而时光机的裸硬盘备份则不仅仅局限于此,会在第一次安装时在后台全量备份系统状态,然后结合全息日志回退系统,此项备份包括: 应用程序的安装 系统的变化 用户的登陆和退出变化 由于这些事件都发生在正常工作时间内,所以备份方案既要能够帮助用户进行实时的完全备份和线性同步,同时对用户的工作效率不造成影响。 远程恢复 时光机系统的核心是全息日志,安装客户端后会记录所有系统发生的状态改变,上传到后台服务器上,在系统发生故障时,无需亲自到达现场即可执行完整的系统逆推恢复操作。 2.7.2核心技术 系统与数据快速救援软件,是基于EFI控制技术,结合全息监控 日志逆向推导技术。实现的系统数据保护方案,引用了创新的EFI监控技术,可以显著增强对Windows操作系统的控制力和整个系统的恢复功能 2.7.2.1EFI控制技术 从主板启动的EFI/MBR层开始便接管整个系统,实现对电脑的绝对控制。让操作系统在内的任何行为均可被监控、记录任何操作均可前滚、后滚。作为制定EFI安全标准的微软厂商发布了u-efi标准作为EFI技术唯一安全认证方式,时光机系统得到了其核准颁发的EFI数字签名,作为国内唯一得到此签名的软件厂商为PC工作站提供系统快速救援解决方案。 2.7.2.2全息日志监控技术 利用全息日志(Holographic log)能在系统效率影响小于3%的前提下,完整记录整个系统运行日志,完整到可以通过这个日志实现整个系统回滚、前滚的程度。也可以从全息日志中追查任何文件的来源、行为、关联关系等。确保任何木马、后门无处藏身。 IT运维人员可以迅速将整个系统远程恢复到想要倒退的节点,员工自己也可以进行独立管理和操作。最大限度的减少关键IT服务的停机时间。 2.8名词解释
第三章 方案的收益和效果 3.1投资预算 本方案的投资预算与各省分公司的实际加油站情况密切相关,主要影响因素包括: 1·计划使用本方案,加油站内PC机数量(包括BOS、POS、Fuel和办公电脑) 2·与实际网络链路情况结合,加管系统网络和办公网络如果是两条分开的链路,若不考虑互联,可在省公司机房多部署一台集中管理平台。
3.2方案应用效果 一、 应用效果 1) 简单直接解决了病毒问题,一旦设备感染病毒,只需要将系统恢复到感染病毒的前一秒,还未感染病毒的状态。然后打补丁,杜绝感染机会。本方案还能保障在系统不能启动的情况下,恢复到任意时间点。 2) 保障数据安全,使用时光机,可以保障由病毒,误操作等造成的数据损坏或丢失,在配置硬盘版客户端情况下,即使原设备硬盘硬件故障也能通过再造硬盘方式恢复原硬盘系统和数据。 3) 集管平台可以对客户端外设进行管控,降低感染病毒和数据外泄风险,可以对日志进行分析,审计客户端的各种操作行为。 4) 极大提高运维时效,感染病毒,误操作或其他原因引起的故障,都可以10分钟内远程恢复。不用人员到现场操作 二、管理效果 1)提高终端办公效率 通过对加油站PC的统一安排和部署时光机,让所有使用时光机的用户的桌面体验效果提升,减少对于系统问题的解决占用的时间,通过整体统一管理终端和用户,减轻运维压力。 2)提高用户数据安全 通过时光机的硬盘穿越功能的使用,让用户的数据集中在本地存储、使用和传递,并永不丢失。既提高了数据可靠安全性又为用户提高较大的数据传输灵活性做了支撑,达到加油站PC数据不丢失和销售公司数据集中管控的目的。 3)提高在线运维能力 快速救援解决方案在系统程序被破坏、系统注册表被破坏、中病毒的情况下使用系统穿越功能在2分钟之内恢复系统状况。加油站点的PC系统盘损坏导致业务系统不可用的情况下可使用裸硬盘恢复功能在线切换系统盘。 3.3方案经济效益 通过实施本方案,可以在如下几个方面给销售分公司带来经济效益。 分析如下: 1) 大幅减少运维成本 未采用本方案时,当一个加油站因BOS、Fuel、POS和办公电脑系统损坏或故障时都要专业的运维人员现场诊断、故障恢复。不仅差旅成本高,而且如果不能快速解决问题而延长现场运维时间也造成人工成本高。而采用本方案,则专业的运维人员不用到现场运维。只要在应急恢复中心即可对站点系统故障进行处理,不会发生差旅费用和人工成本。 以某一销售分公司一年内处理加油站故障而产生的费用成本分析如下表: 总体预算,用户可以用下表计算得出:
2) 大幅减少停业影响效益 传统的系统故障运维方式因去现场解决问题和解决故障所需要时间太长,造成了加油站停业时间长。本方案采用快速救援方式,现场只需10分钟就能迅速恢复加油站内PC系统,从而大大减少因此造成的加油业务停业时间,为企业间接大幅提升营业收入。 3.4方案社会效益 通过使用本方案带来的社会效益主要体现在以下几个方面: 1·传统的运维方式给加油站造成的停业时间长,严重影响企业的社会形象,例如勒索病毒一次性大规模爆发将给整个企业造成巨大的社会影响。 2·采用本方案,无论加油站PC机发生任何非硬件故障都可以在10分钟之内恢复营业,将大幅度提升企业的服务质量和社会形象。 3·采用本案,可以在系统管理平台中科学的汇总分析销售公司加油站PC机全年的故障时间、次数、原因。为销售公司科学运维提供数据支撑,为企业的IT运维水平提升一个档次。 第四章 结束语 系统与数据应急救援方案是一种面向服务器、台式机、PC机、虚拟化环境,基于EFI控制技术 全息日志逆向推导技术,快速恢复系统状态的应急救援解决方案。帮助加油站PC机在短时间内从系统灾难中快速恢复。既可作为灾备方案使用,也可作为应急救援方案使用。是最安全可靠的系统快速恢复工具。 本方案通过创新技术颠覆了传统灾备恢复软件先备份后恢复的方式,同时具备审计类产品功能。其裸硬盘恢复、系统穿越、硬盘数据保护等功能,可以满足中石油加管系统对PC机的实时性、高可用性、高可靠性的要求,该解决方案不仅能够缩短系统恢复时间,而且可以大幅度节省投资。具有广泛的应用和推广价值。 用于备份快速恢复类的产品对比:
销售总监:石国志 电话:13901337999 |
|