登錄

容災(zāi)系統(tǒng)

百科 > 信息管理系統(tǒng) > 容災(zāi)系統(tǒng)

1.容災(zāi)系統(tǒng)概述

容災(zāi)系統(tǒng)是指在相隔較遠(yuǎn)的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進(jìn)行健康狀態(tài)監(jiān)視和功能切換,當(dāng)一處系統(tǒng)因意外(如火災(zāi)、地震等)停止工作時(shí),整個(gè)應(yīng)用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。容災(zāi)技術(shù)是系統(tǒng)的高可用性技術(shù)的一個(gè)組成部分,容災(zāi)系統(tǒng)更加強(qiáng)調(diào)處理外界環(huán)境對系統(tǒng)的影響,特別是災(zāi)難性事件對整個(gè)IT節(jié)點(diǎn)的影響,提供節(jié)點(diǎn)級(jí)別的系統(tǒng)恢復(fù)功能。

完善的容災(zāi)系統(tǒng)是企業(yè)保護(hù)核心數(shù)據(jù),讓企業(yè)生產(chǎn)應(yīng)用不間斷運(yùn)行、為客戶提供增值服務(wù)的關(guān)鍵和前提。

2.容災(zāi)系統(tǒng)的類型

從其對系統(tǒng)的保護(hù)程度來分,可以將容災(zāi)系統(tǒng)分為:數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)。

數(shù)據(jù)容災(zāi)就是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)實(shí)時(shí)復(fù)制。

應(yīng)用容災(zāi)是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)(可以是互為備份),在災(zāi)難情況下,遠(yuǎn)程系統(tǒng)迅速接管業(yè)務(wù)運(yùn)行。數(shù)據(jù)容災(zāi)是抗御災(zāi)難的保障,而應(yīng)用容災(zāi)則是容災(zāi)系統(tǒng)建設(shè)的目標(biāo)。

一、數(shù)據(jù)容災(zāi)

所謂數(shù)據(jù)容災(zāi),就是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)可用復(fù)制。在本地?cái)?shù)據(jù)及整個(gè)應(yīng)用系統(tǒng)出現(xiàn)災(zāi)難時(shí),系統(tǒng)至少在異地保存有一份可用的關(guān)鍵業(yè)務(wù)的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實(shí)時(shí)復(fù)制,也可以比本地?cái)?shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復(fù)制技術(shù)。

數(shù)據(jù)容災(zāi)技術(shù),又稱為異地?cái)?shù)據(jù)復(fù)制技術(shù),按照其實(shí)現(xiàn)的技術(shù)方式來說,主要可以分為同步傳輸方式和異步異步傳輸方式(各廠商在技術(shù)用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占 I/O比重比較大時(shí),相對同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災(zāi)的距離,數(shù)據(jù)容災(zāi)又可以分成遠(yuǎn)程數(shù)據(jù)容災(zāi)和近程數(shù)據(jù)容災(zāi)方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對數(shù)據(jù)容災(zāi)展開討論,其中也會(huì)涉及到遠(yuǎn)程容災(zāi)和近程容災(zāi)的概念,并作相應(yīng)的分析。

二、應(yīng)用容災(zāi)

所謂應(yīng)用容災(zāi),是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng) (可以是互為備份)。建立這樣一個(gè)系統(tǒng)是相對比較復(fù)雜的,不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。主要的技術(shù)包括負(fù)載均衡、集群技術(shù)。數(shù)據(jù)容災(zāi)是應(yīng)用容災(zāi)的技術(shù),應(yīng)用容災(zāi)是數(shù)據(jù)容災(zāi)的目標(biāo)。

在選擇容災(zāi)系統(tǒng)的構(gòu)造時(shí),還要建立多層次的廣域網(wǎng)絡(luò)故障切換機(jī)制。本地的高可用系統(tǒng)指在多個(gè)服務(wù)器運(yùn)行一個(gè)或多種應(yīng)用的情況下,應(yīng)確保任意服務(wù)器出現(xiàn)任何故障時(shí),其運(yùn)行的應(yīng)用不能中斷,應(yīng)用程序和系統(tǒng)應(yīng)能迅速切換到其它服務(wù)器上運(yùn)行,即本地系統(tǒng)集群和熱備份。

在遠(yuǎn)程的容災(zāi)系統(tǒng)中,要實(shí)現(xiàn)完整的應(yīng)用容災(zāi),既要包含本地系統(tǒng)的安全機(jī)制、遠(yuǎn)程的數(shù)據(jù)復(fù)制機(jī)制,還應(yīng)具有廣域網(wǎng)范圍的遠(yuǎn)程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強(qiáng)大的故障診斷和切換策略制訂機(jī)制,確??焖俚姆磻?yīng)和迅速的業(yè)務(wù)接管。實(shí)際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應(yīng)形成一個(gè)整體,實(shí)現(xiàn)多級(jí)的故障切換和恢復(fù)機(jī)制,確保系統(tǒng)在各個(gè)范圍的可靠和安全。

3.容災(zāi)系統(tǒng)的等級(jí)

參照國際災(zāi)難備份行業(yè)的通行災(zāi)難備份等級(jí)劃分原則,根據(jù)異地?cái)?shù)據(jù)的多寡,異地?cái)?shù)據(jù)與生產(chǎn)數(shù)據(jù)的差異程度,以及災(zāi)難恢復(fù)環(huán)境的完備程度,將災(zāi)難備份系統(tǒng)從低到高劃分為如下四個(gè)等級(jí):

第0級(jí):沒有備援中心

這一級(jí)容災(zāi)備份,實(shí)際上沒有災(zāi)難恢復(fù)能力,它只在本地進(jìn)行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒有送往異地。

第1級(jí):本地磁帶備份,異地保存

在本地將關(guān)鍵數(shù)據(jù)備份,然后送到異地保存。災(zāi)難發(fā)生后,按預(yù)定數(shù)據(jù)恢復(fù)程序恢復(fù)系統(tǒng)和數(shù)據(jù)。這種方案成本低、易于配置。但當(dāng)數(shù)據(jù)量增大時(shí),存在存儲(chǔ)介質(zhì)難管理的問題,并且當(dāng)災(zāi)難發(fā)生時(shí)存在大量數(shù)據(jù)難以及時(shí)恢復(fù)的問題。為了解決此問題,災(zāi)難發(fā)生時(shí),先恢復(fù)關(guān)鍵數(shù)據(jù),后恢復(fù)非關(guān)鍵數(shù)據(jù)。

第2級(jí):熱備份站點(diǎn)備份

在異地建立一個(gè)熱備份點(diǎn),通過網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)備份。也就是通過網(wǎng)絡(luò)以同步或異步方式,把主站點(diǎn)的數(shù)據(jù)備份到備份站點(diǎn),備份站點(diǎn)一般只備份數(shù)據(jù),不承擔(dān)業(yè)務(wù)。當(dāng)出現(xiàn)災(zāi)難時(shí),備份站點(diǎn)接替主站點(diǎn)的業(yè)務(wù),從而維護(hù)業(yè)務(wù)運(yùn)行的連續(xù)性。

第3級(jí):活動(dòng)備援中心

在相隔較遠(yuǎn)的地方分別建立兩個(gè)數(shù)據(jù)中心,它們都處于工作狀態(tài),并進(jìn)行相互數(shù)據(jù)備份。當(dāng)某個(gè)數(shù)據(jù)中心發(fā)生災(zāi)難時(shí),另一個(gè)數(shù)據(jù)中心接替其工作任務(wù)。這種級(jí)別的備份根據(jù)實(shí)際要求和投入資金的多少,又可分為兩種:①兩個(gè)數(shù)據(jù)中心之間只限于關(guān)鍵數(shù)據(jù)的相互備份;②兩個(gè)數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失等。零數(shù)據(jù)丟失是目前要求最高的一種容災(zāi)備份方式,它要求不管什么災(zāi)難發(fā)生,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復(fù)雜的管理軟件和專用的硬件設(shè)備,需要投資相對而言是最大的,但恢復(fù)速度也是最快的。

不同等級(jí)的災(zāi)難備份系統(tǒng),其投資差異非常巨大,企業(yè)需要根據(jù)實(shí)際情況,主要是遭受嚴(yán)重災(zāi)難后的損失情況,以及發(fā)生災(zāi)難的幾率,建立滿足企業(yè)需求的災(zāi)難備份系統(tǒng)。

4.容災(zāi)系統(tǒng)的衡量指標(biāo)

衡量容災(zāi)系統(tǒng)的兩個(gè)技術(shù)指標(biāo):

RPO(Recovery Point Objective):即數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo),主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。

RTO(Recovery Time Objective):即恢復(fù)時(shí)間目標(biāo),主要指的是所能容忍的業(yè)務(wù)停止服務(wù)的最長時(shí)間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間周期。

RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務(wù)丟失,二者沒有必然的關(guān)聯(lián)性。RTO和RPO的確定必須在進(jìn)行風(fēng)險(xiǎn)分析和業(yè)務(wù)影響分析后根據(jù)不同的業(yè)務(wù)需求確定。對于不同企業(yè)的同一種業(yè)務(wù),RTO和RPO的需求也會(huì)有所不同。

5.容災(zāi)備份的關(guān)鍵技術(shù)

在建立容災(zāi)備份系統(tǒng)時(shí)會(huì)涉及到多種技術(shù),如:SAN或NAS技術(shù)、遠(yuǎn)程鏡像技術(shù)、基于IP的SAN的互連技術(shù)、快照技術(shù)等。這里重點(diǎn)介紹遠(yuǎn)程鏡像、快照和互連技術(shù)。

1. 遠(yuǎn)程鏡像技術(shù)

遠(yuǎn)程鏡像技術(shù)是在主數(shù)據(jù)中心和備援中心之間的數(shù)據(jù)備份時(shí)用到。鏡像是在兩個(gè)或多個(gè)磁盤或磁盤子系統(tǒng)上產(chǎn)生同一個(gè)數(shù)據(jù)的鏡像視圖的信息存儲(chǔ)過程,一個(gè)叫主鏡像系統(tǒng),另一個(gè)叫從鏡像系統(tǒng)。按主從鏡像存儲(chǔ)系統(tǒng)所處的位置可分為本地鏡像和遠(yuǎn)程鏡像。遠(yuǎn)程鏡像又叫遠(yuǎn)程復(fù)制,是容災(zāi)備份的核心技術(shù),同時(shí)也是保持遠(yuǎn)程數(shù)據(jù)同步和實(shí)現(xiàn)災(zāi)難恢復(fù)的基礎(chǔ)。遠(yuǎn)程鏡像按請求鏡像的主機(jī)是否需要遠(yuǎn)程鏡像站點(diǎn)的確認(rèn)信息,又可分為同步遠(yuǎn)程鏡像和異步遠(yuǎn)程鏡像。

同步遠(yuǎn)程鏡像(同步復(fù)制技術(shù))是指通過遠(yuǎn)程鏡像軟件,將本地?cái)?shù)據(jù)以完全同步的方式復(fù)制到異地,每一本地的I/O事務(wù)均需等待遠(yuǎn)程復(fù)制的完成確認(rèn)信息,方予以釋放。同步鏡像使遠(yuǎn)程拷貝總能與本地機(jī)要求復(fù)制的內(nèi)容相匹配。當(dāng)主站點(diǎn)出現(xiàn)故障時(shí),用戶的應(yīng)用程序切換到備份的替代站點(diǎn)后,被鏡像的遠(yuǎn)程副本可以保證業(yè)務(wù)繼續(xù)執(zhí)行而沒有數(shù)據(jù)的丟失。但它存在往返傳播造成延時(shí)較長的缺點(diǎn),只限于在相對較近的距離上應(yīng)用。

異步遠(yuǎn)程鏡像(異步復(fù)制技術(shù))保證在更新遠(yuǎn)程存儲(chǔ)視圖前完成向本地存儲(chǔ)系統(tǒng)的基本I/O操作,而由本地存儲(chǔ)系統(tǒng)提供給請求鏡像主機(jī)的I/O操作完成確認(rèn)信息。遠(yuǎn)程的數(shù)據(jù)復(fù)制是以后臺(tái)同步的方式進(jìn)行的,這使本地系統(tǒng)性能受到的影響很小,傳輸距離長(可達(dá)1000公里以上),對網(wǎng)絡(luò)帶寬要求小。但是,許多遠(yuǎn)程的從屬存儲(chǔ)子系統(tǒng)的寫沒有得到確認(rèn),當(dāng)某種因素造成數(shù)據(jù)傳輸失敗,可能出現(xiàn)數(shù)據(jù)一致性問題。為了解決這個(gè)問題,目前大多采用延遲復(fù)制的技術(shù)(本地?cái)?shù)據(jù)復(fù)制均在后臺(tái)日志區(qū)進(jìn)行),即在確保本地?cái)?shù)據(jù)完好無損后進(jìn)行遠(yuǎn)程數(shù)據(jù)更新。

2.快照技術(shù)

遠(yuǎn)程鏡像技術(shù)往往同快照技術(shù)結(jié)合起來實(shí)現(xiàn)遠(yuǎn)程備份,即通過鏡像把數(shù)據(jù)備份到遠(yuǎn)程存儲(chǔ)系統(tǒng)中,再用快照技術(shù)把遠(yuǎn)程存儲(chǔ)系統(tǒng)中的信息備份到遠(yuǎn)程的磁帶庫、光盤庫中。

快照是通過軟件對要備份的磁盤子系統(tǒng)的數(shù)據(jù)快速掃描,建立一個(gè)要備份數(shù)據(jù)的快照邏輯單元號(hào) LUN和快照cache。在快速掃描時(shí),把備份過程中即將要修改的數(shù)據(jù)塊同時(shí)快速拷貝到快照cache中??煺誏UN是一組指針,它指向快照cache和磁盤子系統(tǒng)中不變的數(shù)據(jù)塊(在備份過程中)。在正常業(yè)務(wù)進(jìn)行的同時(shí),利用快照LUN實(shí)現(xiàn)對原數(shù)據(jù)的一個(gè)完全的備份。它可使用戶在正常業(yè)務(wù)不受影響的情況下(主要指容災(zāi)備份系統(tǒng)),實(shí)時(shí)提取當(dāng)前在線業(yè)務(wù)數(shù)據(jù)。其“備份窗口”接近于零,可大大增加系統(tǒng)業(yè)務(wù)的連續(xù)性,為實(shí)現(xiàn)系統(tǒng)真正的7×24運(yùn)轉(zhuǎn)提供了保證。

快照是通過內(nèi)存作為緩沖區(qū)(快照cache),由快照軟件提供系統(tǒng)磁盤存儲(chǔ)的即時(shí)數(shù)據(jù)映像,它存在緩沖區(qū)調(diào)度的問題。

3.互連技術(shù)

早期的主數(shù)據(jù)中心和備援?dāng)?shù)據(jù)中心之間的數(shù)據(jù)備份,主要是基于SAN的遠(yuǎn)程復(fù)制(鏡像),即通過光纖通道FC,把兩個(gè)SAN連接起來,進(jìn)行遠(yuǎn)程鏡像(復(fù)制)。當(dāng)災(zāi)難發(fā)生時(shí),由備援?dāng)?shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性。這種遠(yuǎn)程容災(zāi)備份方式存在一些缺陷,如:實(shí)現(xiàn)成本高、設(shè)備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進(jìn)一步推廣和應(yīng)用。

目前,出現(xiàn)了多種基于IP的SAN的遠(yuǎn)程數(shù)據(jù)容災(zāi)備份技術(shù)。它們是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡(luò),遠(yuǎn)程復(fù)制到備援中心SAN中。當(dāng)備援中心存儲(chǔ)的數(shù)據(jù)量過大時(shí),可利用快照技術(shù)將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠(yuǎn)程容災(zāi)備份,可以跨越LAN、MAN和WAN,成本低、可擴(kuò)展性好,具有廣闊的發(fā)展前景?;贗P的互連協(xié)議包括:FCIP、iFCP、Infiniband、iSCSI等。

6.建設(shè)企業(yè)容災(zāi)系統(tǒng)應(yīng)注意的問題

1.加強(qiáng)數(shù)據(jù)安全意識(shí)

目前國內(nèi)用戶所能購買到的災(zāi)難備份產(chǎn)品,在技術(shù)上并不落后于國外用戶,但是國外用戶在災(zāi)難備份意識(shí)上,明顯比國內(nèi)用戶強(qiáng)。國外很多企業(yè)是全球性運(yùn)作,要求業(yè)務(wù)能夠7×24小時(shí)不間斷工作,對業(yè)務(wù)的連續(xù)性要求高,一旦出現(xiàn)中斷將造成巨大損失。而目前國內(nèi)企業(yè)的規(guī)模相對較小,對業(yè)務(wù)連續(xù)運(yùn)行的需求沒有那么強(qiáng)烈,因此對災(zāi)難備份的意識(shí)相比國外客戶來說要淡薄些。但隨著中國加入WTO市場以及跨區(qū)域、跨國企業(yè)的逐漸增加,國內(nèi)客戶的認(rèn)識(shí)、需求正逐漸提高。

在數(shù)據(jù)安全意識(shí)方面,國內(nèi)企業(yè)常常會(huì)走兩個(gè)極端。有的企業(yè)是沒有數(shù)據(jù)安全的防衛(wèi)意識(shí),而一旦意識(shí)到要保證數(shù)據(jù)安全了,就想到容災(zāi)。數(shù)據(jù)安全其實(shí)不僅僅是容災(zāi),它應(yīng)該是一個(gè)體制,是一個(gè)管理范疇的問題,例如人員的管理,大樓的安全,網(wǎng)絡(luò)的安全等,這些對于企業(yè)保證數(shù)據(jù)安全才是最重要的;其次才是技術(shù)的問題。容災(zāi)系統(tǒng)應(yīng)該具有三個(gè)層次,包括了主機(jī)的高可用系統(tǒng)、備份系統(tǒng)和整體系統(tǒng)故障異地容災(zāi)。但是國內(nèi)的許多企業(yè)在做異地容災(zāi)的時(shí)候都只重視第三個(gè)層次,殊不知前兩個(gè)層次能夠有效地屏蔽掉單點(diǎn)故障等局部故障問題,在整個(gè)容災(zāi)系統(tǒng)中也起著重要的作用。

2.實(shí)現(xiàn)容災(zāi)需因地制宜

企業(yè)在制定數(shù)據(jù)安全方案時(shí),首先要加強(qiáng)人員管理,建立安全體制,避免人為失誤;第二步是采用磁帶和雙機(jī)熱備份來確保本地的數(shù)據(jù)安全;第三步才是用到遠(yuǎn)程災(zāi)難備份。其實(shí)災(zāi)難備份只是業(yè)務(wù)連續(xù)性的一部分,保證業(yè)務(wù)連續(xù)性應(yīng)包括兩個(gè)方面:一是計(jì)劃內(nèi)的停機(jī),如備份、系統(tǒng)升級(jí)、維護(hù)等造成的計(jì)劃停機(jī);另一方面是非計(jì)劃的中斷,如電源、通信鏈路、災(zāi)難等引起的災(zāi)難性備份。

根據(jù)企業(yè)的規(guī)模、所處地域、業(yè)務(wù)類型、網(wǎng)絡(luò)狀況、數(shù)據(jù)量等因素,容災(zāi)備份系統(tǒng)的建設(shè)需因地制宜地采取不同容災(zāi)技術(shù)以免造成不必要的成本消耗。如果是防火災(zāi),則容災(zāi)中心距離容災(zāi)數(shù)據(jù)中心只需要幾百米就可以了。如果要是水災(zāi),則要求它們之間的距離在數(shù)公里以上。如果要是預(yù)防地震的話,則需要保持幾百公里的距離。此外,不同的地域需求也有不同,例如在北京,就可以不用考慮水災(zāi)的問題,而在有的地區(qū),地震就不用考慮。

3.容災(zāi)成本考慮

企業(yè)在建立災(zāi)難備份系統(tǒng)時(shí),須考慮整個(gè)系統(tǒng)成本問題。如果實(shí)現(xiàn)遠(yuǎn)程異地自動(dòng)備份,租賃通信鏈路所付出的代價(jià)較大。國內(nèi)中小企業(yè)目前一般采用的多是本地備份,這主要是因?yàn)?a href="/wiki/%E8%B5%84%E9%87%91" title="資金">資金和中國通信廣域網(wǎng)線路的限制。而國外用戶一般都租用比較寬的帶寬。

100公里以上的異地災(zāi)難備份將是未來的一種趨勢。這種備份目前分為兩種形式,一種是歷史備份,一般采用每天凌晨備份的形式,出現(xiàn)問題可以恢復(fù)一天前的數(shù)據(jù)。如果對數(shù)據(jù)要求不是很高的話,可以采用3天,甚至一周備份的方式,可以節(jié)約很多成本。

4.?dāng)?shù)據(jù)大集中有利于災(zāi)難恢復(fù)

要想做好針對災(zāi)難性的備份系統(tǒng),數(shù)據(jù)大集中是亟待解決的問題。由于災(zāi)難性備份系統(tǒng)的建立需要耗費(fèi)很大的資金,如果每一個(gè)地市都建立一個(gè)災(zāi)難性備份中心,企業(yè)是很難承受的。有效整合目前的資源,建立全省性的,或是區(qū)域性的數(shù)據(jù)集中系統(tǒng),可以減少災(zāi)難備份系統(tǒng)建設(shè)的成本。

目前最有效的備份方式是“數(shù)據(jù)大集中”,以“數(shù)據(jù)大集中”為基礎(chǔ)的災(zāi)難備份手段,可以有效避免企業(yè)各分部各自進(jìn)行備份而導(dǎo)致的各自為政、管理不統(tǒng)一的問題出現(xiàn)。以“數(shù)據(jù)大集中”為基礎(chǔ)的災(zāi)難備份會(huì)使管理更有效,也便于數(shù)據(jù)統(tǒng)計(jì)

7.企業(yè)容災(zāi)系統(tǒng)構(gòu)建

實(shí)現(xiàn)了數(shù)據(jù)集中處理之后,企業(yè)的業(yè)務(wù)運(yùn)行和經(jīng)營管理將更依賴于信息系統(tǒng)的可靠運(yùn)行。服務(wù)的連續(xù)性以及業(yè)務(wù)數(shù)據(jù)的完整性、正確性和有效性,將直接關(guān)系到企業(yè)的生產(chǎn)、經(jīng)營決策。一旦因自然災(zāi)害、設(shè)備故障或人為因素等引起了信息系統(tǒng)的停頓,導(dǎo)致了數(shù)據(jù)丟失或業(yè)務(wù)處理的中斷,將會(huì)造成巨大的經(jīng)濟(jì)損失和聲譽(yù)損害,甚至?xí)屍髽I(yè)受到致命打擊。

當(dāng)然,企業(yè)的業(yè)務(wù)信息數(shù)據(jù)是有生命周期的,從產(chǎn)生那一刻起就進(jìn)入到一個(gè)循環(huán)周期,從收集、復(fù)制、訪問、遷移到刪除,周而復(fù)始,而處在生命周期不同階段的信息數(shù)據(jù)的價(jià)值又是不一樣的。因此,業(yè)務(wù)信息需要不同級(jí)別的保護(hù),其中一些信息和事務(wù)需要比以前更高的保護(hù)級(jí)別; 而另外一些信息和事務(wù)則僅需要用更有吸引力的價(jià)位提供標(biāo)準(zhǔn)保護(hù)就行了。企業(yè)在構(gòu)建自己的容災(zāi)系統(tǒng)時(shí),有必要根據(jù)信息價(jià)值的變化實(shí)施分級(jí)存儲(chǔ),以合理調(diào)配存儲(chǔ)資源,降低整體擁有成本。

選擇好技術(shù)與工具

建立容災(zāi)系統(tǒng)的初衷就是以最合理的代價(jià)保護(hù)應(yīng)用數(shù)據(jù)的完整性與安全性,在災(zāi)難發(fā)生后盡快恢復(fù)系統(tǒng)運(yùn)行,減少業(yè)務(wù)停頓時(shí)間,盡可能不中斷或不影響業(yè)務(wù)的正常進(jìn)行,并讓災(zāi)難對企業(yè)造成的損失降到最低。也就是說,無論兩個(gè)系統(tǒng)相隔多遠(yuǎn),當(dāng)一個(gè)數(shù)據(jù)中心出現(xiàn)問題時(shí),另一個(gè)數(shù)據(jù)中心就能迅速接替運(yùn)行,同時(shí)既要保證業(yè)務(wù)數(shù)據(jù)的完整性,又要保證關(guān)鍵業(yè)務(wù)的連續(xù)性。

保持業(yè)務(wù)連續(xù)性就對災(zāi)難恢復(fù)系統(tǒng)提出了更高的要求—要保證業(yè)務(wù)的連續(xù)性,要保證業(yè)務(wù)數(shù)據(jù)的連續(xù)性,就要對系統(tǒng)提供連續(xù)完整的基本數(shù)據(jù); 縮小或取消應(yīng)用系統(tǒng)用于批處理和數(shù)據(jù)備份(如磁帶備份)的時(shí)間,保證關(guān)鍵業(yè)務(wù)服務(wù)24小時(shí)不中斷; 為業(yè)務(wù)發(fā)展及應(yīng)用提供與生產(chǎn)系統(tǒng)完全一致的開發(fā)與測試環(huán)境。

目前,在構(gòu)建容災(zāi)系統(tǒng)方面出現(xiàn)了四個(gè)不同發(fā)展方向的技術(shù)趨勢,這為保證企業(yè)數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性提供了新的不同的選擇。

1. 實(shí)時(shí)熱備份技術(shù)實(shí)時(shí)熱備份技術(shù)雖然缺點(diǎn)非常明顯,比如一次性投資昂貴、通信費(fèi)用高等,但其優(yōu)點(diǎn)也很明顯,就是對數(shù)據(jù)的完整性以及對業(yè)務(wù)連續(xù)性的高保證?,F(xiàn)在,隨著業(yè)務(wù)的發(fā)展及競爭的需要,企業(yè)對業(yè)務(wù)連續(xù)性的要求將越來越高,因此用實(shí)時(shí)熱備份技術(shù)來實(shí)現(xiàn)災(zāi)難備份已經(jīng)成為了主流的發(fā)展趨勢。

2. 外包方式 災(zāi)難恢復(fù)計(jì)劃涉及業(yè)務(wù)風(fēng)險(xiǎn)分析、方案選擇、實(shí)施、測試、培訓(xùn)、演習(xí)等內(nèi)容,是一項(xiàng)既復(fù)雜又煩鎖的工作。采用外包方式則可以將災(zāi)難恢復(fù)計(jì)劃交給專業(yè)公司來完成,企業(yè)就可以專心從事核心業(yè)務(wù)的生產(chǎn)和經(jīng)營了。

3. 開發(fā)災(zāi)難恢復(fù)計(jì)劃輔助工具 災(zāi)難恢復(fù)計(jì)劃是一項(xiàng)系統(tǒng)工程,開發(fā)災(zāi)難恢復(fù)計(jì)劃輔助工具與系統(tǒng)是非常有必要的,這其中包括備份策略決策系統(tǒng)、災(zāi)難恢復(fù)指引系統(tǒng)及自動(dòng)運(yùn)行管理系統(tǒng)等。

備份策略決策系統(tǒng)是以風(fēng)險(xiǎn)及損失分析為基礎(chǔ)的,同時(shí)考慮成本、恢復(fù)速度、防災(zāi)種類、數(shù)據(jù)的完整性等因素,通過科學(xué)的分析及決策方法來確定應(yīng)采用的備份策略; 災(zāi)難恢復(fù)指引系統(tǒng)是通過將相應(yīng)的災(zāi)難恢復(fù)處理流程編成相應(yīng)的在線指引性軟件系統(tǒng),在災(zāi)難發(fā)生后指導(dǎo)管理維護(hù)人員一步一步地依照設(shè)定好的步驟,準(zhǔn)備相應(yīng)的資源,執(zhí)行相應(yīng)的操作,從而準(zhǔn)確地進(jìn)行災(zāi)難恢復(fù); 自動(dòng)運(yùn)行管理系統(tǒng)是指通過軟硬件等措施,實(shí)現(xiàn)生產(chǎn)系統(tǒng)及備份系統(tǒng)的全部或部分自動(dòng)操作,這樣既可減少人員的投入,又可減少由于人為失誤而帶來的損失,從而提高整個(gè)系統(tǒng)的安全性與可靠性。

4. 遠(yuǎn)程容災(zāi)前面提到,根據(jù)業(yè)務(wù)種類的不同,各種數(shù)據(jù)的安全級(jí)別是不同的,為防范高級(jí)別的故障(如火災(zāi)、地震),可以通過遠(yuǎn)程監(jiān)控體系和報(bào)警體系實(shí)現(xiàn)遠(yuǎn)程切換,切換包括IP、域名和應(yīng)用等。一旦故障解除,應(yīng)用系統(tǒng)的主備站點(diǎn)恢復(fù)傳輸,采用異地復(fù)制中斷傳輸?shù)幕謴?fù)流程(軟件方式復(fù)制),斷點(diǎn)序號(hào)重傳,增量異地同步實(shí)現(xiàn)增量塊復(fù)制。

七大規(guī)劃原則

首先,在制定容災(zāi)系統(tǒng)方案的過程中要考慮的就是容災(zāi)系統(tǒng)建設(shè)對原有業(yè)務(wù)系統(tǒng)帶來的影響。比如,采用數(shù)據(jù)復(fù)制技術(shù)對系統(tǒng)I/O帶來的延遲,應(yīng)用數(shù)據(jù)同步對日常業(yè)務(wù)處理系統(tǒng)帶來的壓力等。因此,企業(yè)要通過周密的測試和分析來規(guī)避容災(zāi)系統(tǒng)建設(shè)時(shí)帶來的這些風(fēng)險(xiǎn),以保證業(yè)務(wù)系統(tǒng)不會(huì)因容災(zāi)系統(tǒng)的建設(shè)而出現(xiàn)在處理性能上下降的問題。

第二,數(shù)據(jù)狀態(tài)要保持同步。為保證在災(zāi)難發(fā)生時(shí),業(yè)務(wù)可以成功地切換到備份中心,就必須保證容災(zāi)系統(tǒng)數(shù)據(jù)同步機(jī)制的可靠性。因此,建立可靠的數(shù)據(jù)同步校驗(yàn)機(jī)制是必須的; 同時(shí),還要考慮建立定時(shí)的、自動(dòng)的數(shù)據(jù)同步核查對比機(jī)制,以檢驗(yàn)兩個(gè)中心數(shù)據(jù)的一致性,這是數(shù)據(jù)容災(zāi)工作中非常重要的一部分。

第三,容災(zāi)系統(tǒng)的日常維護(hù)工作要盡可能輕,并能承擔(dān)部分業(yè)務(wù)處理和測試的工作。容災(zāi)系統(tǒng)的維護(hù)和管理是容災(zāi)切換成功的重要保證,在系統(tǒng)建設(shè)中,就必須要考慮系統(tǒng)的維護(hù)管理流程。生產(chǎn)中心任何業(yè)務(wù)處理過程的改變都必須完整地復(fù)制到備份中心; 所有新業(yè)務(wù)系統(tǒng)上線時(shí),必須通知備份中心,并在備份中心配置好數(shù)據(jù)同步機(jī)制; 對原程序的改動(dòng)也必須保證兩個(gè)中心同時(shí)上線。

第四,系統(tǒng)恢復(fù)時(shí)間要盡可能短。容災(zāi)系統(tǒng)主要是為了實(shí)現(xiàn)在主中心系統(tǒng)發(fā)生災(zāi)難時(shí),可以在規(guī)定時(shí)間切換到備份中心,保證數(shù)據(jù)不會(huì)丟失,并且繼續(xù)向用戶提供服務(wù)。但往往在災(zāi)難發(fā)生時(shí),主要技術(shù)人員不能及時(shí)到達(dá)現(xiàn)場,為了順利實(shí)現(xiàn)系統(tǒng)間的切換,應(yīng)該讓系統(tǒng)切換操作盡可能地簡單; 并建立固定化的、標(biāo)準(zhǔn)化的切換流程,要求維護(hù)人員在切換演習(xí)時(shí)嚴(yán)格按照流程的指導(dǎo)步驟進(jìn)行操作。

第五,可實(shí)現(xiàn)部分業(yè)務(wù)子系統(tǒng)的切換和回切。當(dāng)人事變動(dòng)、業(yè)務(wù)變化、IT設(shè)施變化以及其他可能引起恢復(fù)規(guī)劃文檔失效的變化發(fā)生時(shí),應(yīng)及時(shí)更新各恢復(fù)規(guī)劃文檔,并在必要時(shí)啟動(dòng)模擬測試或演習(xí),確保業(yè)務(wù)連續(xù)性系統(tǒng)的工作能力

第六,技術(shù)方案選擇要遵循成熟穩(wěn)定、高可靠性、可擴(kuò)展性、透明性的原則。目前,國際上比較成熟的容災(zāi)技術(shù)包括: SAN/NAS技術(shù)、遠(yuǎn)程鏡像技術(shù)、虛擬存儲(chǔ)、基于IP的SAN互連技術(shù)以及快照技術(shù)等。其中基于IP的SAN遠(yuǎn)程數(shù)據(jù)容災(zāi)備份技術(shù)應(yīng)用比較廣泛,其是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡(luò),遠(yuǎn)程復(fù)制到備份中心的SAN中的。當(dāng)備份中心存儲(chǔ)的數(shù)據(jù)量過大時(shí),可利用快照技術(shù)將其備份到磁帶庫或光盤庫。這種基于IP的SAN遠(yuǎn)程容災(zāi)備份,可以跨越LAN、MAN和WAN,成本低、可擴(kuò)展性好。基于IP的互連協(xié)議主要包括FCIP、iFCP、InfiniBand、iSCSI等。

第七,構(gòu)建系統(tǒng)方案可以選擇多種技術(shù)組合方式。目前,業(yè)內(nèi)應(yīng)用較多的容災(zāi)方案是基于智能存儲(chǔ)系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù),它是由智能存儲(chǔ)系統(tǒng)自身實(shí)現(xiàn)的數(shù)據(jù)遠(yuǎn)程復(fù)制和同步,即智能存儲(chǔ)系統(tǒng)將對該系統(tǒng)中的存儲(chǔ)器I/O操作請求復(fù)制到遠(yuǎn)端的存儲(chǔ)系統(tǒng)中并執(zhí)行。由于在這種方式下,數(shù)據(jù)復(fù)制軟件運(yùn)行在存儲(chǔ)系統(tǒng)內(nèi),因此較容易實(shí)現(xiàn)主中心和容災(zāi)備份中心的操作系統(tǒng)、數(shù)據(jù)庫、系統(tǒng)庫和目錄的實(shí)時(shí)拷貝及維護(hù)能力,且不會(huì)影響主中心主機(jī)系統(tǒng)的性能。如果在系統(tǒng)恢復(fù)場具備了實(shí)時(shí)數(shù)據(jù),那么就可以做到在災(zāi)難發(fā)生時(shí),及時(shí)開始應(yīng)用處理過程的恢復(fù)。但這種方案也有開放性差(不同廠家的存儲(chǔ)設(shè)備系統(tǒng)一般不能配合使用)、對于主、備中心之間的網(wǎng)絡(luò)條件(穩(wěn)定性、帶寬、鏈路空間距離)要求較苛刻等缺點(diǎn)。

建立模型、制度及管理流程

按照容災(zāi)能力的高低,目前數(shù)據(jù)容災(zāi)可分為多個(gè)層次,按國際標(biāo)準(zhǔn)SHARE 78定義的容災(zāi)系統(tǒng)有七個(gè)層次:從最簡單的僅在本地進(jìn)行磁帶備份,到將備份的磁帶存儲(chǔ)在異地,再到建立應(yīng)用系統(tǒng)實(shí)時(shí)切換的異地備份系統(tǒng); 恢復(fù)時(shí)間也可以從幾天到小時(shí)級(jí)再到分鐘級(jí)、秒級(jí)或0數(shù)據(jù)丟失等。

無論是采用哪種容災(zāi)方案,數(shù)據(jù)備份還是最基礎(chǔ)的,沒有備份的數(shù)據(jù),任何容災(zāi)方案都是沒有現(xiàn)實(shí)意義的。當(dāng)然,光有備份也是不夠的,容災(zāi)也必不可少。在建立容災(zāi)系統(tǒng)的過程中,建設(shè)容災(zāi)系統(tǒng)模型、容災(zāi)演習(xí)制度以及容災(zāi)系統(tǒng)管理流程都非常重要。

而容災(zāi)系統(tǒng)主要是從業(yè)務(wù)連續(xù)能力、應(yīng)用系統(tǒng)連續(xù)能力、網(wǎng)絡(luò)連續(xù)能力三個(gè)方面來保證業(yè)務(wù)應(yīng)用系統(tǒng)的正常運(yùn)行的。

對于數(shù)據(jù)級(jí)容災(zāi),可以采用定期拷貝的方式,如磁帶備份、數(shù)據(jù)快照、廉價(jià)存儲(chǔ)等。定期拷貝是在業(yè)務(wù)運(yùn)行過程中某一時(shí)刻對生產(chǎn)數(shù)據(jù)的保護(hù),這種保護(hù)一般在業(yè)務(wù)正常運(yùn)行時(shí)生成,主要預(yù)防業(yè)務(wù)因生產(chǎn)數(shù)據(jù)的邏輯故障而造成的停頓。當(dāng)產(chǎn)生的數(shù)據(jù)因人為誤操作而損壞時(shí),可以利用該定期拷貝將業(yè)務(wù)狀態(tài)恢復(fù)到損壞發(fā)生前的某一時(shí)刻(即執(zhí)行定期拷貝時(shí))的業(yè)務(wù)狀態(tài)。在業(yè)務(wù)恢復(fù)過程中,輔以其他手段(如手工錄入等),補(bǔ)充自定期拷貝生成時(shí)至業(yè)務(wù)中斷時(shí)這一段時(shí)間內(nèi)業(yè)務(wù)運(yùn)行產(chǎn)生的數(shù)據(jù)。

對于應(yīng)用級(jí)容災(zāi),可以采用連續(xù)復(fù)制的方式,如應(yīng)用分發(fā)、數(shù)據(jù)庫復(fù)制、文件系統(tǒng)復(fù)制、邏輯卷復(fù)制、智能存儲(chǔ)等。連續(xù)復(fù)制是對業(yè)務(wù)狀態(tài)數(shù)據(jù)進(jìn)行持續(xù)不斷的復(fù)制,主要是預(yù)防業(yè)務(wù)系統(tǒng)遭遇嚴(yán)重故障而造成生產(chǎn)系統(tǒng)長時(shí)間無法修復(fù),利用該復(fù)制作為恢復(fù)生產(chǎn)的基礎(chǔ)。在進(jìn)行業(yè)務(wù)恢復(fù)時(shí),利用復(fù)制結(jié)果可以恢復(fù)系統(tǒng)中斷現(xiàn)場的生產(chǎn)數(shù)據(jù),從而恢復(fù)業(yè)務(wù)。

容災(zāi)演習(xí)是對容災(zāi)項(xiàng)目建設(shè)是否成功的檢驗(yàn)標(biāo)準(zhǔn),也是對容災(zāi)維護(hù)管理流程和文檔檢測的重要手段。通過演習(xí)可以及時(shí)發(fā)現(xiàn)問題,并確保各相關(guān)部門的配合和人員的操作準(zhǔn)確無誤。容災(zāi)演習(xí)的主要工作內(nèi)容包括:對業(yè)務(wù)影響的評(píng)估、核查恢復(fù)規(guī)劃、制定回退計(jì)劃、觸發(fā)演習(xí)場景、執(zhí)行恢復(fù)規(guī)劃、總結(jié)報(bào)告、維護(hù)等。

此外,容災(zāi)系統(tǒng)管理流程的建立也至關(guān)重要,容災(zāi)項(xiàng)目的實(shí)現(xiàn)過程是人員、流程、技術(shù)相輔相成的過程,容災(zāi)管理流程的建立是容災(zāi)系統(tǒng)成功運(yùn)作的保證。通過固化的流程,指導(dǎo)維護(hù)人員按照實(shí)現(xiàn)規(guī)定的步驟進(jìn)行系統(tǒng)切換和演習(xí)工作,才能保證容災(zāi)技術(shù)的最終實(shí)現(xiàn)。

評(píng)論  |   0條評(píng)論