登錄

容災系統(tǒng)

百科 > 信息管理系統(tǒng) > 容災系統(tǒng)

1.容災系統(tǒng)概述

容災系統(tǒng)是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進行健康狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)因意外(如火災、地震等)停止工作時,整個應用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。容災技術(shù)是系統(tǒng)的高可用性技術(shù)的一個組成部分,容災系統(tǒng)更加強調(diào)處理外界環(huán)境對系統(tǒng)的影響,特別是災難性事件對整個IT節(jié)點的影響,提供節(jié)點級別的系統(tǒng)恢復功能。

完善的容災系統(tǒng)是企業(yè)保護核心數(shù)據(jù),讓企業(yè)生產(chǎn)應用不間斷運行、為客戶提供增值服務的關(guān)鍵和前提。

2.容災系統(tǒng)的類型

從其對系統(tǒng)的保護程度來分,可以將容災系統(tǒng)分為:數(shù)據(jù)容災和應用容災。

數(shù)據(jù)容災就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應用數(shù)據(jù)的一個實時復制。

應用容災是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份),在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行。數(shù)據(jù)容災是抗御災難的保障,而應用容災則是容災系統(tǒng)建設的目標。

一、數(shù)據(jù)容災

所謂數(shù)據(jù)容災,就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應用數(shù)據(jù)的一個可用復制。在本地數(shù)據(jù)及整個應用系統(tǒng)出現(xiàn)災難時,系統(tǒng)至少在異地保存有一份可用的關(guān)鍵業(yè)務的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實時復制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復制技術(shù)。

數(shù)據(jù)容災技術(shù),又稱為異地數(shù)據(jù)復制技術(shù),按照其實現(xiàn)的技術(shù)方式來說,主要可以分為同步傳輸方式和異步異步傳輸方式(各廠商在技術(shù)用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占 I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災的距離,數(shù)據(jù)容災又可以分成遠程數(shù)據(jù)容災和近程數(shù)據(jù)容災方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對數(shù)據(jù)容災展開討論,其中也會涉及到遠程容災和近程容災的概念,并作相應的分析。

二、應用容災

所謂應用容災,是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng) (可以是互為備份)。建立這樣一個系統(tǒng)是相對比較復雜的,不僅需要一份可用的數(shù)據(jù)復制,還要有包括網(wǎng)絡、主機、應用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。主要的技術(shù)包括負載均衡、集群技術(shù)。數(shù)據(jù)容災是應用容災的技術(shù),應用容災是數(shù)據(jù)容災的目標。

在選擇容災系統(tǒng)的構(gòu)造時,還要建立多層次的廣域網(wǎng)絡故障切換機制。本地的高可用系統(tǒng)指在多個服務器運行一個或多種應用的情況下,應確保任意服務器出現(xiàn)任何故障時,其運行的應用不能中斷,應用程序和系統(tǒng)應能迅速切換到其它服務器上運行,即本地系統(tǒng)集群和熱備份。

在遠程的容災系統(tǒng)中,要實現(xiàn)完整的應用容災,既要包含本地系統(tǒng)的安全機制、遠程的數(shù)據(jù)復制機制,還應具有廣域網(wǎng)范圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強大的故障診斷和切換策略制訂機制,確??焖俚姆磻脱杆俚臉I(yè)務接管。實際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應形成一個整體,實現(xiàn)多級的故障切換和恢復機制,確保系統(tǒng)在各個范圍的可靠和安全。

3.容災系統(tǒng)的等級

參照國際災難備份行業(yè)的通行災難備份等級劃分原則,根據(jù)異地數(shù)據(jù)的多寡,異地數(shù)據(jù)與生產(chǎn)數(shù)據(jù)的差異程度,以及災難恢復環(huán)境的完備程度,將災難備份系統(tǒng)從低到高劃分為如下四個等級:

第0級:沒有備援中心

這一級容災備份,實際上沒有災難恢復能力,它只在本地進行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒有送往異地。

第1級:本地磁帶備份,異地保存

在本地將關(guān)鍵數(shù)據(jù)備份,然后送到異地保存。災難發(fā)生后,按預定數(shù)據(jù)恢復程序恢復系統(tǒng)和數(shù)據(jù)。這種方案成本低、易于配置。但當數(shù)據(jù)量增大時,存在存儲介質(zhì)難管理的問題,并且當災難發(fā)生時存在大量數(shù)據(jù)難以及時恢復的問題。為了解決此問題,災難發(fā)生時,先恢復關(guān)鍵數(shù)據(jù),后恢復非關(guān)鍵數(shù)據(jù)。

第2級:熱備份站點備份

在異地建立一個熱備份點,通過網(wǎng)絡進行數(shù)據(jù)備份。也就是通過網(wǎng)絡以同步或異步方式,把主站點的數(shù)據(jù)備份到備份站點,備份站點一般只備份數(shù)據(jù),不承擔業(yè)務。當出現(xiàn)災難時,備份站點接替主站點的業(yè)務,從而維護業(yè)務運行的連續(xù)性。

第3級:活動備援中心

在相隔較遠的地方分別建立兩個數(shù)據(jù)中心,它們都處于工作狀態(tài),并進行相互數(shù)據(jù)備份。當某個數(shù)據(jù)中心發(fā)生災難時,另一個數(shù)據(jù)中心接替其工作任務。這種級別的備份根據(jù)實際要求和投入資金的多少,又可分為兩種:①兩個數(shù)據(jù)中心之間只限于關(guān)鍵數(shù)據(jù)的相互備份;②兩個數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失等。零數(shù)據(jù)丟失是目前要求最高的一種容災備份方式,它要求不管什么災難發(fā)生,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復雜的管理軟件和專用的硬件設備,需要投資相對而言是最大的,但恢復速度也是最快的。

不同等級的災難備份系統(tǒng),其投資差異非常巨大,企業(yè)需要根據(jù)實際情況,主要是遭受嚴重災難后的損失情況,以及發(fā)生災難的幾率,建立滿足企業(yè)需求的災難備份系統(tǒng)。

4.容災系統(tǒng)的衡量指標

衡量容災系統(tǒng)的兩個技術(shù)指標:

RPO(Recovery Point Objective):即數(shù)據(jù)恢復點目標,主要指的是業(yè)務系統(tǒng)所能容忍的數(shù)據(jù)丟失量。

RTO(Recovery Time Objective):即恢復時間目標,主要指的是所能容忍的業(yè)務停止服務的最長時間,也就是從災難發(fā)生到業(yè)務系統(tǒng)恢復服務功能所需要的最短時間周期。

RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務丟失,二者沒有必然的關(guān)聯(lián)性。RTO和RPO的確定必須在進行風險分析和業(yè)務影響分析后根據(jù)不同的業(yè)務需求確定。對于不同企業(yè)的同一種業(yè)務,RTO和RPO的需求也會有所不同。

5.容災備份的關(guān)鍵技術(shù)

在建立容災備份系統(tǒng)時會涉及到多種技術(shù),如:SAN或NAS技術(shù)、遠程鏡像技術(shù)、基于IP的SAN的互連技術(shù)、快照技術(shù)等。這里重點介紹遠程鏡像、快照和互連技術(shù)。

1. 遠程鏡像技術(shù)

遠程鏡像技術(shù)是在主數(shù)據(jù)中心和備援中心之間的數(shù)據(jù)備份時用到。鏡像是在兩個或多個磁盤或磁盤子系統(tǒng)上產(chǎn)生同一個數(shù)據(jù)的鏡像視圖的信息存儲過程,一個叫主鏡像系統(tǒng),另一個叫從鏡像系統(tǒng)。按主從鏡像存儲系統(tǒng)所處的位置可分為本地鏡像和遠程鏡像。遠程鏡像又叫遠程復制,是容災備份的核心技術(shù),同時也是保持遠程數(shù)據(jù)同步和實現(xiàn)災難恢復的基礎。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認信息,又可分為同步遠程鏡像和異步遠程鏡像。

同步遠程鏡像(同步復制技術(shù))是指通過遠程鏡像軟件,將本地數(shù)據(jù)以完全同步的方式復制到異地,每一本地的I/O事務均需等待遠程復制的完成確認信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求復制的內(nèi)容相匹配。當主站點出現(xiàn)故障時,用戶的應用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業(yè)務繼續(xù)執(zhí)行而沒有數(shù)據(jù)的丟失。但它存在往返傳播造成延時較長的缺點,只限于在相對較近的距離上應用。

異步遠程鏡像(異步復制技術(shù))保證在更新遠程存儲視圖前完成向本地存儲系統(tǒng)的基本I/O操作,而由本地存儲系統(tǒng)提供給請求鏡像主機的I/O操作完成確認信息。遠程的數(shù)據(jù)復制是以后臺同步的方式進行的,這使本地系統(tǒng)性能受到的影響很小,傳輸距離長(可達1000公里以上),對網(wǎng)絡帶寬要求小。但是,許多遠程的從屬存儲子系統(tǒng)的寫沒有得到確認,當某種因素造成數(shù)據(jù)傳輸失敗,可能出現(xiàn)數(shù)據(jù)一致性問題。為了解決這個問題,目前大多采用延遲復制的技術(shù)(本地數(shù)據(jù)復制均在后臺日志區(qū)進行),即在確保本地數(shù)據(jù)完好無損后進行遠程數(shù)據(jù)更新。

2.快照技術(shù)

遠程鏡像技術(shù)往往同快照技術(shù)結(jié)合起來實現(xiàn)遠程備份,即通過鏡像把數(shù)據(jù)備份到遠程存儲系統(tǒng)中,再用快照技術(shù)把遠程存儲系統(tǒng)中的信息備份到遠程的磁帶庫、光盤庫中。

快照是通過軟件對要備份的磁盤子系統(tǒng)的數(shù)據(jù)快速掃描,建立一個要備份數(shù)據(jù)的快照邏輯單元號 LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數(shù)據(jù)塊同時快速拷貝到快照cache中??煺誏UN是一組指針,它指向快照cache和磁盤子系統(tǒng)中不變的數(shù)據(jù)塊(在備份過程中)。在正常業(yè)務進行的同時,利用快照LUN實現(xiàn)對原數(shù)據(jù)的一個完全的備份。它可使用戶在正常業(yè)務不受影響的情況下(主要指容災備份系統(tǒng)),實時提取當前在線業(yè)務數(shù)據(jù)。其“備份窗口”接近于零,可大大增加系統(tǒng)業(yè)務的連續(xù)性,為實現(xiàn)系統(tǒng)真正的7×24運轉(zhuǎn)提供了保證。

快照是通過內(nèi)存作為緩沖區(qū)(快照cache),由快照軟件提供系統(tǒng)磁盤存儲的即時數(shù)據(jù)映像,它存在緩沖區(qū)調(diào)度的問題。

3.互連技術(shù)

早期的主數(shù)據(jù)中心和備援數(shù)據(jù)中心之間的數(shù)據(jù)備份,主要是基于SAN的遠程復制(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(復制)。當災難發(fā)生時,由備援數(shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性。這種遠程容災備份方式存在一些缺陷,如:實現(xiàn)成本高、設備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進一步推廣和應用。

目前,出現(xiàn)了多種基于IP的SAN的遠程數(shù)據(jù)容災備份技術(shù)。它們是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡,遠程復制到備援中心SAN中。當備援中心存儲的數(shù)據(jù)量過大時,可利用快照技術(shù)將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發(fā)展前景。基于IP的互連協(xié)議包括:FCIP、iFCP、Infiniband、iSCSI等。

6.建設企業(yè)容災系統(tǒng)應注意的問題

1.加強數(shù)據(jù)安全意識

目前國內(nèi)用戶所能購買到的災難備份產(chǎn)品,在技術(shù)上并不落后于國外用戶,但是國外用戶在災難備份意識上,明顯比國內(nèi)用戶強。國外很多企業(yè)是全球性運作,要求業(yè)務能夠7×24小時不間斷工作,對業(yè)務的連續(xù)性要求高,一旦出現(xiàn)中斷將造成巨大損失。而目前國內(nèi)企業(yè)的規(guī)模相對較小,對業(yè)務連續(xù)運行的需求沒有那么強烈,因此對災難備份的意識相比國外客戶來說要淡薄些。但隨著中國加入WTO市場以及跨區(qū)域、跨國企業(yè)的逐漸增加,國內(nèi)客戶的認識、需求正逐漸提高。

在數(shù)據(jù)安全意識方面,國內(nèi)企業(yè)常常會走兩個極端。有的企業(yè)是沒有數(shù)據(jù)安全的防衛(wèi)意識,而一旦意識到要保證數(shù)據(jù)安全了,就想到容災。數(shù)據(jù)安全其實不僅僅是容災,它應該是一個體制,是一個管理范疇的問題,例如人員的管理,大樓的安全,網(wǎng)絡的安全等,這些對于企業(yè)保證數(shù)據(jù)安全才是最重要的;其次才是技術(shù)的問題。容災系統(tǒng)應該具有三個層次,包括了主機的高可用系統(tǒng)、備份系統(tǒng)和整體系統(tǒng)故障異地容災。但是國內(nèi)的許多企業(yè)在做異地容災的時候都只重視第三個層次,殊不知前兩個層次能夠有效地屏蔽掉單點故障等局部故障問題,在整個容災系統(tǒng)中也起著重要的作用。

2.實現(xiàn)容災需因地制宜

企業(yè)在制定數(shù)據(jù)安全方案時,首先要加強人員管理,建立安全體制,避免人為失誤;第二步是采用磁帶和雙機熱備份來確保本地的數(shù)據(jù)安全;第三步才是用到遠程災難備份。其實災難備份只是業(yè)務連續(xù)性的一部分,保證業(yè)務連續(xù)性應包括兩個方面:一是計劃內(nèi)的停機,如備份、系統(tǒng)升級、維護等造成的計劃停機;另一方面是非計劃的中斷,如電源、通信鏈路、災難等引起的災難性備份。

根據(jù)企業(yè)的規(guī)模、所處地域、業(yè)務類型、網(wǎng)絡狀況、數(shù)據(jù)量等因素,容災備份系統(tǒng)的建設需因地制宜地采取不同容災技術(shù)以免造成不必要的成本消耗。如果是防火災,則容災中心距離容災數(shù)據(jù)中心只需要幾百米就可以了。如果要是水災,則要求它們之間的距離在數(shù)公里以上。如果要是預防地震的話,則需要保持幾百公里的距離。此外,不同的地域需求也有不同,例如在北京,就可以不用考慮水災的問題,而在有的地區(qū),地震就不用考慮。

3.容災成本考慮

企業(yè)在建立災難備份系統(tǒng)時,須考慮整個系統(tǒng)成本問題。如果實現(xiàn)遠程異地自動備份,租賃通信鏈路所付出的代價較大。國內(nèi)中小企業(yè)目前一般采用的多是本地備份,這主要是因為資金和中國通信廣域網(wǎng)線路的限制。而國外用戶一般都租用比較寬的帶寬。

100公里以上的異地災難備份將是未來的一種趨勢。這種備份目前分為兩種形式,一種是歷史備份,一般采用每天凌晨備份的形式,出現(xiàn)問題可以恢復一天前的數(shù)據(jù)。如果對數(shù)據(jù)要求不是很高的話,可以采用3天,甚至一周備份的方式,可以節(jié)約很多成本。

4.數(shù)據(jù)大集中有利于災難恢復

要想做好針對災難性的備份系統(tǒng),數(shù)據(jù)大集中是亟待解決的問題。由于災難性備份系統(tǒng)的建立需要耗費很大的資金,如果每一個地市都建立一個災難性備份中心,企業(yè)是很難承受的。有效整合目前的資源,建立全省性的,或是區(qū)域性的數(shù)據(jù)集中系統(tǒng),可以減少災難備份系統(tǒng)建設的成本。

目前最有效的備份方式是“數(shù)據(jù)大集中”,以“數(shù)據(jù)大集中”為基礎的災難備份手段,可以有效避免企業(yè)各分部各自進行備份而導致的各自為政、管理不統(tǒng)一的問題出現(xiàn)。以“數(shù)據(jù)大集中”為基礎的災難備份會使管理更有效,也便于數(shù)據(jù)統(tǒng)計。

7.企業(yè)容災系統(tǒng)構(gòu)建

實現(xiàn)了數(shù)據(jù)集中處理之后,企業(yè)的業(yè)務運行和經(jīng)營管理將更依賴于信息系統(tǒng)的可靠運行。服務的連續(xù)性以及業(yè)務數(shù)據(jù)的完整性、正確性和有效性,將直接關(guān)系到企業(yè)的生產(chǎn)、經(jīng)營決策。一旦因自然災害、設備故障或人為因素等引起了信息系統(tǒng)的停頓,導致了數(shù)據(jù)丟失或業(yè)務處理的中斷,將會造成巨大的經(jīng)濟損失和聲譽損害,甚至會讓企業(yè)受到致命打擊。

當然,企業(yè)的業(yè)務信息數(shù)據(jù)是有生命周期的,從產(chǎn)生那一刻起就進入到一個循環(huán)周期,從收集、復制、訪問、遷移到刪除,周而復始,而處在生命周期不同階段的信息數(shù)據(jù)的價值又是不一樣的。因此,業(yè)務信息需要不同級別的保護,其中一些信息和事務需要比以前更高的保護級別; 而另外一些信息和事務則僅需要用更有吸引力的價位提供標準保護就行了。企業(yè)在構(gòu)建自己的容災系統(tǒng)時,有必要根據(jù)信息價值的變化實施分級存儲,以合理調(diào)配存儲資源,降低整體擁有成本。

選擇好技術(shù)與工具

建立容災系統(tǒng)的初衷就是以最合理的代價保護應用數(shù)據(jù)的完整性與安全性,在災難發(fā)生后盡快恢復系統(tǒng)運行,減少業(yè)務停頓時間,盡可能不中斷或不影響業(yè)務的正常進行,并讓災難對企業(yè)造成的損失降到最低。也就是說,無論兩個系統(tǒng)相隔多遠,當一個數(shù)據(jù)中心出現(xiàn)問題時,另一個數(shù)據(jù)中心就能迅速接替運行,同時既要保證業(yè)務數(shù)據(jù)的完整性,又要保證關(guān)鍵業(yè)務的連續(xù)性。

保持業(yè)務連續(xù)性就對災難恢復系統(tǒng)提出了更高的要求—要保證業(yè)務的連續(xù)性,要保證業(yè)務數(shù)據(jù)的連續(xù)性,就要對系統(tǒng)提供連續(xù)完整的基本數(shù)據(jù); 縮小或取消應用系統(tǒng)用于批處理和數(shù)據(jù)備份(如磁帶備份)的時間,保證關(guān)鍵業(yè)務服務24小時不中斷; 為業(yè)務發(fā)展及應用提供與生產(chǎn)系統(tǒng)完全一致的開發(fā)與測試環(huán)境。

目前,在構(gòu)建容災系統(tǒng)方面出現(xiàn)了四個不同發(fā)展方向的技術(shù)趨勢,這為保證企業(yè)數(shù)據(jù)的完整性及業(yè)務的連續(xù)性提供了新的不同的選擇。

1. 實時熱備份技術(shù)實時熱備份技術(shù)雖然缺點非常明顯,比如一次性投資昂貴、通信費用高等,但其優(yōu)點也很明顯,就是對數(shù)據(jù)的完整性以及對業(yè)務連續(xù)性的高保證?,F(xiàn)在,隨著業(yè)務的發(fā)展及競爭的需要,企業(yè)對業(yè)務連續(xù)性的要求將越來越高,因此用實時熱備份技術(shù)來實現(xiàn)災難備份已經(jīng)成為了主流的發(fā)展趨勢。

2. 外包方式 災難恢復計劃涉及業(yè)務風險分析、方案選擇、實施、測試、培訓、演習等內(nèi)容,是一項既復雜又煩鎖的工作。采用外包方式則可以將災難恢復計劃交給專業(yè)公司來完成,企業(yè)就可以專心從事核心業(yè)務的生產(chǎn)和經(jīng)營了。

3. 開發(fā)災難恢復計劃輔助工具 災難恢復計劃是一項系統(tǒng)工程,開發(fā)災難恢復計劃輔助工具與系統(tǒng)是非常有必要的,這其中包括備份策略決策系統(tǒng)、災難恢復指引系統(tǒng)及自動運行管理系統(tǒng)等。

備份策略決策系統(tǒng)是以風險及損失分析為基礎的,同時考慮成本、恢復速度、防災種類、數(shù)據(jù)的完整性等因素,通過科學的分析及決策方法來確定應采用的備份策略; 災難恢復指引系統(tǒng)是通過將相應的災難恢復處理流程編成相應的在線指引性軟件系統(tǒng),在災難發(fā)生后指導管理維護人員一步一步地依照設定好的步驟,準備相應的資源,執(zhí)行相應的操作,從而準確地進行災難恢復; 自動運行管理系統(tǒng)是指通過軟硬件等措施,實現(xiàn)生產(chǎn)系統(tǒng)及備份系統(tǒng)的全部或部分自動操作,這樣既可減少人員的投入,又可減少由于人為失誤而帶來的損失,從而提高整個系統(tǒng)的安全性與可靠性。

4. 遠程容災前面提到,根據(jù)業(yè)務種類的不同,各種數(shù)據(jù)的安全級別是不同的,為防范高級別的故障(如火災、地震),可以通過遠程監(jiān)控體系和報警體系實現(xiàn)遠程切換,切換包括IP、域名和應用等。一旦故障解除,應用系統(tǒng)的主備站點恢復傳輸,采用異地復制中斷傳輸?shù)幕謴?a href="/wiki/%E6%B5%81%E7%A8%8B" title="流程">流程(軟件方式復制),斷點序號重傳,增量異地同步實現(xiàn)增量塊復制。

七大規(guī)劃原則

首先,在制定容災系統(tǒng)方案的過程中要考慮的就是容災系統(tǒng)建設對原有業(yè)務系統(tǒng)帶來的影響。比如,采用數(shù)據(jù)復制技術(shù)對系統(tǒng)I/O帶來的延遲,應用數(shù)據(jù)同步對日常業(yè)務處理系統(tǒng)帶來的壓力等。因此,企業(yè)要通過周密的測試和分析來規(guī)避容災系統(tǒng)建設時帶來的這些風險,以保證業(yè)務系統(tǒng)不會因容災系統(tǒng)的建設而出現(xiàn)在處理性能上下降的問題。

第二,數(shù)據(jù)狀態(tài)要保持同步。為保證在災難發(fā)生時,業(yè)務可以成功地切換到備份中心,就必須保證容災系統(tǒng)數(shù)據(jù)同步機制的可靠性。因此,建立可靠的數(shù)據(jù)同步校驗機制是必須的; 同時,還要考慮建立定時的、自動的數(shù)據(jù)同步核查對比機制,以檢驗兩個中心數(shù)據(jù)的一致性,這是數(shù)據(jù)容災工作中非常重要的一部分。

第三,容災系統(tǒng)的日常維護工作要盡可能輕,并能承擔部分業(yè)務處理和測試的工作。容災系統(tǒng)的維護和管理是容災切換成功的重要保證,在系統(tǒng)建設中,就必須要考慮系統(tǒng)的維護管理流程。生產(chǎn)中心任何業(yè)務處理過程的改變都必須完整地復制到備份中心; 所有新業(yè)務系統(tǒng)上線時,必須通知備份中心,并在備份中心配置好數(shù)據(jù)同步機制; 對原程序的改動也必須保證兩個中心同時上線。

第四,系統(tǒng)恢復時間要盡可能短。容災系統(tǒng)主要是為了實現(xiàn)在主中心系統(tǒng)發(fā)生災難時,可以在規(guī)定時間切換到備份中心,保證數(shù)據(jù)不會丟失,并且繼續(xù)向用戶提供服務。但往往在災難發(fā)生時,主要技術(shù)人員不能及時到達現(xiàn)場,為了順利實現(xiàn)系統(tǒng)間的切換,應該讓系統(tǒng)切換操作盡可能地簡單; 并建立固定化的、標準化的切換流程,要求維護人員在切換演習時嚴格按照流程的指導步驟進行操作。

第五,可實現(xiàn)部分業(yè)務子系統(tǒng)的切換和回切。當人事變動、業(yè)務變化、IT設施變化以及其他可能引起恢復規(guī)劃文檔失效的變化發(fā)生時,應及時更新各恢復規(guī)劃文檔,并在必要時啟動模擬測試或演習,確保業(yè)務連續(xù)性系統(tǒng)的工作能力。

第六,技術(shù)方案選擇要遵循成熟穩(wěn)定、高可靠性、可擴展性、透明性的原則。目前,國際上比較成熟的容災技術(shù)包括: SAN/NAS技術(shù)、遠程鏡像技術(shù)、虛擬存儲、基于IP的SAN互連技術(shù)以及快照技術(shù)等。其中基于IP的SAN遠程數(shù)據(jù)容災備份技術(shù)應用比較廣泛,其是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡,遠程復制到備份中心的SAN中的。當備份中心存儲的數(shù)據(jù)量過大時,可利用快照技術(shù)將其備份到磁帶庫或光盤庫。這種基于IP的SAN遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好?;贗P的互連協(xié)議主要包括FCIP、iFCP、InfiniBand、iSCSI等。

第七,構(gòu)建系統(tǒng)方案可以選擇多種技術(shù)組合方式。目前,業(yè)內(nèi)應用較多的容災方案是基于智能存儲系統(tǒng)的遠程數(shù)據(jù)復制技術(shù),它是由智能存儲系統(tǒng)自身實現(xiàn)的數(shù)據(jù)遠程復制和同步,即智能存儲系統(tǒng)將對該系統(tǒng)中的存儲器I/O操作請求復制到遠端的存儲系統(tǒng)中并執(zhí)行。由于在這種方式下,數(shù)據(jù)復制軟件運行在存儲系統(tǒng)內(nèi),因此較容易實現(xiàn)主中心和容災備份中心的操作系統(tǒng)、數(shù)據(jù)庫、系統(tǒng)庫和目錄的實時拷貝及維護能力,且不會影響主中心主機系統(tǒng)的性能。如果在系統(tǒng)恢復場具備了實時數(shù)據(jù),那么就可以做到在災難發(fā)生時,及時開始應用處理過程的恢復。但這種方案也有開放性差(不同廠家的存儲設備系統(tǒng)一般不能配合使用)、對于主、備中心之間的網(wǎng)絡條件(穩(wěn)定性、帶寬、鏈路空間距離)要求較苛刻等缺點。

建立模型、制度及管理流程

按照容災能力的高低,目前數(shù)據(jù)容災可分為多個層次,按國際標準SHARE 78定義的容災系統(tǒng)有七個層次:從最簡單的僅在本地進行磁帶備份,到將備份的磁帶存儲在異地,再到建立應用系統(tǒng)實時切換的異地備份系統(tǒng); 恢復時間也可以從幾天到小時級再到分鐘級、秒級或0數(shù)據(jù)丟失等。

無論是采用哪種容災方案,數(shù)據(jù)備份還是最基礎的,沒有備份的數(shù)據(jù),任何容災方案都是沒有現(xiàn)實意義的。當然,光有備份也是不夠的,容災也必不可少。在建立容災系統(tǒng)的過程中,建設容災系統(tǒng)模型、容災演習制度以及容災系統(tǒng)管理流程都非常重要。

而容災系統(tǒng)主要是從業(yè)務連續(xù)能力、應用系統(tǒng)連續(xù)能力、網(wǎng)絡連續(xù)能力三個方面來保證業(yè)務應用系統(tǒng)的正常運行的。

對于數(shù)據(jù)級容災,可以采用定期拷貝的方式,如磁帶備份、數(shù)據(jù)快照、廉價存儲等。定期拷貝是在業(yè)務運行過程中某一時刻對生產(chǎn)數(shù)據(jù)的保護,這種保護一般在業(yè)務正常運行時生成,主要預防業(yè)務因生產(chǎn)數(shù)據(jù)的邏輯故障而造成的停頓。當產(chǎn)生的數(shù)據(jù)因人為誤操作而損壞時,可以利用該定期拷貝將業(yè)務狀態(tài)恢復到損壞發(fā)生前的某一時刻(即執(zhí)行定期拷貝時)的業(yè)務狀態(tài)。在業(yè)務恢復過程中,輔以其他手段(如手工錄入等),補充自定期拷貝生成時至業(yè)務中斷時這一段時間內(nèi)業(yè)務運行產(chǎn)生的數(shù)據(jù)。

對于應用級容災,可以采用連續(xù)復制的方式,如應用分發(fā)、數(shù)據(jù)庫復制、文件系統(tǒng)復制、邏輯卷復制、智能存儲等。連續(xù)復制是對業(yè)務狀態(tài)數(shù)據(jù)進行持續(xù)不斷的復制,主要是預防業(yè)務系統(tǒng)遭遇嚴重故障而造成生產(chǎn)系統(tǒng)長時間無法修復,利用該復制作為恢復生產(chǎn)的基礎。在進行業(yè)務恢復時,利用復制結(jié)果可以恢復系統(tǒng)中斷現(xiàn)場的生產(chǎn)數(shù)據(jù),從而恢復業(yè)務。

容災演習是對容災項目建設是否成功的檢驗標準,也是對容災維護管理流程和文檔檢測的重要手段。通過演習可以及時發(fā)現(xiàn)問題,并確保各相關(guān)部門的配合和人員的操作準確無誤。容災演習的主要工作內(nèi)容包括:對業(yè)務影響的評估、核查恢復規(guī)劃、制定回退計劃、觸發(fā)演習場景、執(zhí)行恢復規(guī)劃、總結(jié)報告、維護等。

此外,容災系統(tǒng)管理流程的建立也至關(guān)重要,容災項目的實現(xiàn)過程是人員、流程、技術(shù)相輔相成的過程,容災管理流程的建立是容災系統(tǒng)成功運作的保證。通過固化的流程,指導維護人員按照實現(xiàn)規(guī)定的步驟進行系統(tǒng)切換和演習工作,才能保證容災技術(shù)的最終實現(xiàn)。

評論  |   0條評論