什么是容灾?应用容灾 所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份)。2007年7月,国务院信息化工作办公室领导编制的《重要信息系统灾难恢复指南》正式升级成为国家标准《信息系统灾难恢复规范》(GB/T 20988-2007 )。这是中国灾难备份与恢复行业的第一个国家标准,并于2007年11月1日开始正式实施。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各资源之间的良好协调。主要的技术包括负载均衡、集群技术。数据容灾是应用容灾的基础,应用容灾是数据容灾的目标。
在选择容灾系统的构造时,还要建立多层次的广域网络故障切换机制。本地的高可用系统指在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。
在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。
集群系统是在冗余的通常可用性系统基础之上,运行高可靠性软件而构成。高可靠性软件用于自动检测系统的运行状态,在一台服务器出现故障的情况下,自动地把设定的服务转到另一台服务器上。当运行服务器提供的服务不可用时,备份服务器自动接替运行服务器的工作而不用重新启动系统,而当运行服务器恢复正常后,按照使用者的设定以自动或手动方式将服务切换到运行服务上运行。备份服务器除了在运行服务器出现故障时接替其服务,还可以执行其他应用程序。因此,一台性能配备充分的主机可同时作为某一服务的运行服务器和另一服务的备份服务器使用,即两台服务器互为备份。一台主机可以运行多个服务,也可作为多个服务的备份服务器。
数据容灾系统,对于IT而言,就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)。可以说,容灾系统是数据存储备份的最高层次。
什么是容灾?数据容灾
所谓数据容灾,就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个可用复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。采用的主要技术是数据备份和数据复制技术。
数据容灾技术,又称为异地数据复制技术,按照其实现的技术方式来说,主要可以分为同步传输方式和异步传输方式(各厂商在技术用语上可能有所不同),另外,也有如“半同步”这样的方式。半同步传输方式基本与同步传输方式相同,只是在Read占I/O比重比较大时,相对同步传输方式,可以略微提高I/O的速度。而根据容灾的距离,数据容灾又可以分成远程数据容灾和近程数据容灾方式。下面,我们将主要按同步传输方式和异步异步传输方式对数据容灾展开讨论,其中也会涉及到远程容灾和近程容灾的概念,并作相应的分析。
什么是容灾?容灾系统分为:
数据级容灾是指通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏,但在数据级容灾这个级别,发生灾难时应用是会中断的。在数据级容灾方式下,所建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。数据级容灾的恢复时间比较长,但是相比其他容灾级别来讲它的费用比较低,而且构建实施也相对简单。
应用级容灾是在数据级容灾的基础之上,在备份站点同样构建一套相同的应用系统,通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整的、可靠的和安全的。应用级容灾生产中心和异地灾备中心之间的数据传输是采用异类的广域网传输方式;同时应用级容灾系统需要通过更多的软件来实现,可以使多种应用在灾难发生时可以进行快速切换,确保业务的连续性。
业务级容灾是全业务的灾备,除了必要的IT相关技术,还要求具备全部的基础设施。其大部分内容是非IT系统(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。
容灾备份是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。
根据容灾系统对灾难的抵抗程度,可分为数据容灾和应用容灾。数据容灾是指建立一个异地的数据系统,该系统是对本地系统关键应用数据实时复制。当出现灾难时,可由异地系统迅速接替本地系统而保证业务的连续性。应用容灾比数据容灾层次更高,即在异地建立一套完整的、与本地数据系统相当的备份应用系统(可以同本地应用系统互为备份,也可与本地应用系统共同工作)。在灾难出现后,远程应用系统迅速接管或承担本地应用系统的业务运行。
设计一个容灾备份系统,需要考虑多方面的因素,如备份/恢复数据量大小、应用数据中心和备援数据中心之间的距离和数据传输方式、灾难发生时所要求的恢复速度、备援中心的管理及投入资金等。根据这些因素和不同的应用场合,通常可将容灾备份分为四个等级。
第0级:没有备援中心
这一级容灾备份,实际上没有灾难恢复能力,它只在本地进行数据备份,并且被备份的数据只在本地保存,没有送往异地。
第1级:本地磁带备份,异地保存
在本地将关键数据备份,然后送到异地保存。灾难发生后,按预定数据恢复程序恢复系统和数据。这种方案成本低、易于配置。但当数据量增大时,存在存储介质难管理的问题,并且当灾难发生时存在大量数据难以及时恢复的问题。为了解决此问题,灾难发生时,先恢复关键数据,后恢复非关键数据。
第2级:热备份站点备份
在异地建立一个热备份点,通过网络进行数据备份。也就是通过网络以同步或异步方式,把主站点的数据备份到备份站点,备份站点一般只备份数据,不承担业务。当出现灾难时,备份站点接替主站点的业务,从而维护业务运行的连续性。
第3级:活动备援中心
在相隔较远的地方分别建立两个数据中心,它们都处于工作状态,并进行相互数据备份。当某个数据中心发生灾难时,另一个数据中心接替其工作任务。这种级别的备份根据实际要求和投入资金的多少,又可分为两种:
1、两个数据中心之间只限于关键数据的相互备份;
2、两个数据中心之间互为镜像,即零数据丢失等。零数据丢失是目前要求最高的一种容灾备份方式,它要求不管什么灾难发生,系统都能保证数据的安全。所以,它需要配置复杂的管理软件和专用的硬件设备,需要投资相对而言是最大的,但恢复速度也是最快的。
在建立容灾备份系统时会涉及到多种技术,如:SAN或NAS技术、远程镜像技术、基于IP的SAN的互连技术、快照技术等。这里重点介绍远程镜像、快照和互连技术。
远程镜像技术
远程镜像技术是在主数据中心和备援中心之间的数据备份时用到。镜像是在两个或多个磁盘或磁盘子系统上产生同一个数据的镜像视图的信息存储过程,一个叫主镜像系统,另一个叫从镜像系统。按主从镜像存储系统所处的位置可分为本地镜像和远程镜像。远程镜像又叫远程复制,是容灾备份的核心技术,同时也是保持远程数据同步和实现灾难恢复的基础。远程镜像按请求镜像的主机是否需要远程镜像站点的确认信息,又可分为同步远程镜像和异步远程镜像。
同步远程镜像(同步复制技术)是指通过远程镜像软件,将本地数据以完全同步的方式复制到异地,每一本地的I/O事务均需等待远程复制的完成确认信息,方予以释放。同步镜像使拷贝总能与本地机要求复制的内容相匹配。当主站点出现故障时,用户的应用程序切换到备份的替代站点后,被镜像的远程副本可以保证业务继续执行而没有数据的丢失。但它存在往返传播造成延时较长的缺点,只限于在相对较近的距离上应用。
异步远程镜像(异步复制技术)保证在更新远程存储视图前完成向本地存储系统的基本操作,而由本地存储系统提供给请求镜像主机的I/O操作完成确认信息。远程的数据复制是以后台同步的方式进行的,这使本地系统性能受到的影响很小,传输距离长(可达1000公里以上),对网络带宽要求小。但是,许多远程的从属存储子系统的写没有得到确认,当某种因素造成数据传输失败,可能出现数据一致性问题。为了解决这个问题,目前大多采用延迟复制的技术(本地数据复制均在后台日志区进行),即在确保本地数据完好无损后进行远程数据更新。
快照技术
远程镜像技术往往同快照技术结合起来实现远程备份,即通过镜像把数据备份到远程存储系统中,再用快照技术把远程存储系统中的信息备份到远程的磁带库、光盘库中。
快照是通过软件对要备份的磁盘子系统的数据快速扫描,建立一个要备份数据的快照逻辑单元号LUN和快照cache。在快速扫描时,把备份过程中即将要修改的数据块同时快速拷贝到快照cache中。快照LUN是一组指针,它指向快照cache和磁盘子系统中不变的数据块(在备份过程中)。在正常业务进行的同时,利用快照LUN实现对原数据的一个完全的备份。它可使用户在正常业务不受影响的情况下(主要指容灾备份系统),实时提取当前在线业务数据。其“备份窗口”接近于零,可大大增加系统业务的连续性,为实现系统真正的7×24运转提供了保证。
快照是通过内存作为缓冲区(快照cache),由快照软件提供系统磁盘存储的即时数据映像,它存在缓冲区调度的问题。
互连技术
早期的主数据中心和备援数据中心之间的数据备份,主要是基于SAN的远程复制(镜像),即通过光纤通道FC,把两个SAN连接起来,进行远程镜像(复制)。当灾难发生时,由备援数据中心替代主数据中心保证系统工作的连续性。这种远程容灾备份方式存在一些缺陷,如:实现成本高、设备的互操作性差、跨越的地理距离短(10公里)等,这些因素阻碍了它的进一步推广和应用。
目前,出现了多种基于IP的SAN的远程数据容灾备份技术。它们是利用基于IP的SAN的互连协议,将主数据中心SAN中的信息通过现有的TCP/IP网络,远程复制到备援中心SAN中。当备援中心存储的数据量过大时,可利用快照技术将其备份到磁带库或光盘库中。这种基于IP的SAN的远程容灾备份,可以跨越LAN、MAN和WAN,成本低、可扩展性好,具有广阔的发展前景。基于IP的互连协议包括:FCIP、iFCP、Infiniband、iSCSI等。
应用级容灾技术,不仅仅可以保障数据安全,更主要的是能确保业务系统7*24小时持续运行。美创DBRA应用级容灾系统,通过挖掘日志、应用日志的形式实现数据的异地实时同步,通过自动或一键式全业务切换来确保,业务连续性。
美创DBRA主要有以下几个特点:
支持全业务的切换
DBRA是业界第一个以整个业务系统为视角进行组织和管理的软件技术,可用实现包括应用、中间件和数据库系统的一键式容灾切换。实现0数据丢失,分钟级切换。在灾难带来的巨大恐慌的时刻,避免人工出错和降低RTO,使RTO可控。
支持双活数据中心,容灾端数据实时可用
DBRA容灾端的数据库提供只读查询的功能,使客户的部分业务可以迁移到容灾端进行,减少生产端的压力。另外用户可以随时校验数据的有效性。
具有闪回机制,可以防范人为误操作
DBRA对于发生频率比较高的误操作也可以很好的防范。可以做到基于数据库、表空间、表格等任意粒度的闪回,帮助用户快速的找回误删除的数据。
灾备一体化
DBRA用一套软件可以同时实现容灾和备份的功能,避免了分别建设容灾和备份系统的重复性投资。DBRA的备份是真正的实时备份,备份数据随时可用。避免了传统备份无法解决的备份窗口问题和数据丢失问题。同时备份数据的随时可用,大大减少了业务系统的停机时间。
容灾的完备性
灾难是多种多样的,如:地震、火灾、电力故障、人为误删除、病毒、黑客入侵等等。灾难一般可以分为物理错误和逻辑错误。DBRA对于物理错误和逻辑错误都能进行很好的防范。
什么是容灾?注意事项
数据安全
目前国内用户所能购买到的灾难备份产品,在技术上并不落后于国外用户,但是国外用户在灾难备份意识上,明显比国内用户强。国外很多企业是全球性运作,要求业务能够7×24小时不间断工作,对业务的连续性要求高,一旦出现中断将造成巨大损失。而目前国内企业的规模相对较小,对业务连续运行的需求没有那么强烈,因此对灾难备份的意识相比国外客户来说要淡薄些。但随着中国加入WTO市场以及跨区域、跨国企业的逐渐增加,国内客户的认识、需求正逐渐提高。
在数据安全意识方面,国内企业常常会走两个极端。有的企业是没有数据安全的防卫意识,而一旦意识到要保证数据安全了,就想到容灾。数据安全其实不仅仅是容灾,它应该是一个体制,是一个管理范畴的问题,例如人员的管理,大楼的安全,网络的安全等,这些对于企业保证数据安全才是最重要的;其次才是技术的问题。容灾系统应该具有三个层次,包括了主机的高可用系统、备份系统和整体系统故障异地容灾。但是国内的许多企业在做异地容灾的时候都只重视第三个层次,殊不知前两个层次能够有效地屏蔽掉单点故障等局部故障问题,在整个容灾系统中也起着重要的作用。
因地制宜
企业在制定数据安全方案时,首先要加强人员管理,建立安全体制,避免人为失误;第二步是采用磁带和双机热备份来确保本地的数据安全;第三步才是用到远程灾难备份。其实灾难备份只是业务连续性的一部分,保证业务连续性应包括两个方面:一是计划内的停机,如备份、系统升级、维护等造成的计划停机;另一方面是非计划的中断,如电源、通信链路、灾难等引起的灾难性备份。
根据企业的规模、所处地域、业务类型、网络状况、数据量等因素,容灾备份系统的建设需因地制宜地采取不同容灾技术以免造成不必要的成本消耗。如果是防火灾,则容灾中心距离容灾数据中心只需要几百米就可以了。如果要是水灾,则要求它们之间的距离在数公里以上。如果要是预防地震的话,则需要保持几百公里的距离。此外,不同的地域需求也有不同,例如在北京,就可以不用考虑水灾的问题,而在有的地区,地震就不用考虑。
成本考虑
企业在建立灾难备份系统时,须考虑整个系统成本问题。如果实现远程异地自动备份,租赁通信链路所付出的代价较大。国内中小企业一般采用的多是本地备份,这主要是因为资金和中国通信广域网线路的限制。而国外用户一般都租用比较宽的带宽。
100公里以上的异地灾难备份将是未来的一种趋势。这种备份分为两种形式,一种是历史备份,一般采用每天凌晨备份的形式,出现问题可以恢复一天前的数据。如果对数据要求不是很高的话,可以采用3天,甚至一周备份的方式,可以节约很多成本。
灾难恢复
要想做好针对灾难性的备份系统,数据大集中是亟待解决的问题。由于灾难性备份系统的建立需要耗费很大的资金,如果每一个地市都建立一个灾难性备份中心,企业是很难承受的。有效整合资源,建立全省性的,或是区域性的数据集中系统,可以减少灾难备份系统建设的成本。
目前最有效的备份方式是“数据大集中”,以“数据大集中”为基础的灾难备份手段,可以有效避免企业各分部各自进行备份而导致的各自为政、管理不统一的问题出现。以“数据大集中”为基础的灾难备份会使管理更有效,也便于数据统计。