1.1云计算容灾概述
随着云计算的蓬勃发展,越来越多重要的计算机信息系统出现在云计算中。由于各行业的用户和企业对网络应用和数据信息的依赖日益强烈,使得突发性灾难如火灾、洪水、地震、区域电力中断或者人为破坏对整个企业的数据和业务生产会造成重大影响,如重要信息丢失、服务中断、经济损失、客户流失等。因此,为了保证云计算中计算机信息系统的业务连续性和数据可靠性,华为提供了针对云计算的容灾解决方案,保证灾难发生时关键数据不丢失,系统服务尽快恢复运行。
1.1.1容灾简介
容灾系统是指在相隔较远的异地,建立两套或多套功能相同的系统,系统之间可以相互进行健康状态监视和功能切换,当一处系统因意外(如火灾、洪水、地震、人为蓄意破坏等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
容灾系统需要具备较为完善的数据保护与灾难恢复功能,保证生产中心不能正常工作时数据的完整性及业务的连续性,并在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。
1.1.2容灾系统的评价指标
容灾系统主要为了在灾难发生时业务不发生中断,那么当灾难发生时,用户最关心的是什么呢?下面是国际上通用的容灾系统的评审标准Share 78,可以作为广大用户衡量和选择容灾解决方案的指标。
❊备份/恢复的范围
❊容灾计划的状态
❊业务中心与容灾中心之间的距离
❊业务中心与容灾中心之间如何相互连接
❊数据是怎样在两个中心之间传送的
❊允许有多少数据被丢失
❊怎样保证更新的数据在容灾中心被更新
❊容灾中心可以开始容灾进程的能力
因此,容灾系统的设计,主要也是围绕这几个用户需求。由于用户投入资金的数量限制,想用少的资金达到第6级容灾级别显然是有难度的,我们设计出的系统也只能是在现有的条件下尽量减少故障历时,尽量多的恢复数据,这也是衡量我们所设计出来的容灾系统质量的指标。实际的容灾系统设计过程中,我们重点关注的是RTO和RPO两个指标。
RPO(Recovery Point Objective):即数据恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。
RTO(Recovery Time Objective):即恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。
RPO针对的是数据丢失,而RTO针对的是服务丢失,RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。
好的容灾系统需要尽量满足用户的需求,但是容灾系统的设计往往受多种条件的制约,如可用的技术、现网状况、用户意志、用户业务等,但到目前为止,起决定性的因素,是容灾建设的成本。以下是容灾中心建设等级示意图:
1.1.3容灾系统建设过程
根据对容灾系统建设模型,容灾系统建设过程分为分析、策略制订、方案实施和测试/演习/维护四个阶段。下面分别对各个阶段作出说明:
❊分析阶段
在取得管理层的正式同意后,获得人员和资源上的保证。首先收集业务过程的信息、技术基础架构的支撑环境、灾难类型等方面的内容,然后进行业务影响分析和风险分析,确定由于中断和预期灾难可能造成的影响。分析的结果用以确定业务关键级别、业务恢复时间和可承受的数据损失程度。
❊策略制订阶段
在本阶段,结合以上的分析成果,以及企业对容灾的投入规划,制订企业短期、长期范围内的容灾策略和目标,先定义初步的方案。再进一步结合各种因素进行分析,在候选的方案中剔除不合适的方案,将剩余的可用的方案提交给评估组,评估组经过充分详细的评审,选择最合适的容灾方案。
方案实施阶段
根据选择的容灾方案,整合企业相关资源,确定容灾的体系架构和灾难恢复计划,通过技术手段和服务以达到所要求的容灾目标。
❊测试/演习/维护阶段
任何制订的计划,都必须经过不断的测试和修正,才能满足企业不断发展的需求。同时,通过培训、测试过程,也能够使企业内部人员熟悉自己在容灾流程中所扮演的角色,保证在灾难真正发生的时刻能够有条不紊地执行恢复流程。
1.1.4容灾系统的实现分类
从容灾系统保护级别,可以分为数据级容灾和应用级容灾。数据级容灾指的是对生产机的业务数据定期进行异机保存,当生产机的业务数据由于灾难而损失时,待生产机修复之后,可以利用异机保存的数据来恢复业务,这个过程称为数据级容灾。应用级容灾侧重业务完整性,尽可能的保证业务不中断或者可以快速恢复。数据级容灾是应用级容灾的前提,即应用级容灾也需要在异机有一份生产机业务数据的备份,并且当生产机发生灾难时,异机可以利用备份数据快速恢复业务。一般来说,应用级容灾实现较为复杂,成本也较高。
根据容灾系统所采用的数据复制实现层次的不同,又可分为:基于主机层的复制、基于阵列层的复制和基于网络层的复制。
❊基于主机层的复制
实现方式:在主机操作系统安装数据复制软件,或是应用程序提供的数据复制、灾难恢复工具(如数据库的相关工具),利用TCP/IP网络连接远端的容灾站点的服务器,实现异地数据复制。
优点:数据复制建立在应用主机之上,用户不需更换太多的现有的系统架构,也不用担心后端存储系统的兼容性问题,并且可以满足用户的不同数据保护要求,提供多种不同数据保护模式,可实现要求最苛刻的应用级的容灾。
缺点:由于复制基于其对应的数据库或者卷管理,应用有一定局限性;需要在每台应用服务器上安装;系统运行需要占用主机资源,会影响主机的系统运行性能;操作系统的版本和存储软件的版本兼容性需要一一确认。
❊基于存储层的复制
实现方式:基于存储系统(磁盘阵列、NAS)内置的增值功能,通过IP网络或光纤通道等传输界面连接,将数据以同步或异步的方式复制到远端。目前各个主流存储厂商均可以提供这种容灾技术。
优点:将数据与运行分开,对主机系统的运行资源影响比较小。另外,由于运行机制大多是利用镜像来复制数据,并借助高速缓冲存储器加速I/O存取,两端的数据差异时间点比较小,加上存储系统本身具备一定的容错能力,使之具有一定的运行性能和可靠性。
缺点:成本高。由于用户必须在本地端和灾备端分别配置两套相同的存储系统,不仅采购成本高,而且还要受制于单一的设备厂商,未来的扩展性势必缺乏弹性。此外,光纤通道存储系统如果要构造远程容灾,必须在本地端和灾备端各安装一台FC-to-IP转接器,再加上网络带宽成本,整体费用投入非常大。
❊基于虚拟化网关的镜像或复制
实现方式:在前端应用服务器与后端存储系统之间的存储区域网络(SAN),加入一层存储网关,前端连接服务器主机,后端连接存储设备。它的角色就好像是存储网络中的交通警察,所有的I/O都交由它来控制管理,不仅可以实现本地存储系统的应用与镜像,而且可以实现异地数据的复制。
优点:由于数据镜像或复制是通过存储网关来执行,对主机的性能影响十分低。通过存储网关的虚拟化技术,可以整合前端异构平台的服务器和后端不同品牌的存储设备。
缺点:成本高。由于用户必须增加虚拟化网关设备,相对存储复制其成本更高。 综上所述,这三种容灾复制方式各有千秋,用户需要根据自身的IT系统的特性,选择适合自己的容灾复制方式 。