張 亮 北京電信規劃設計院有限公司工程師楊春麗 北京電信規劃設計院有限公司工程師馬媛媛 北京電信規劃設計院有限公司工程師
?
數據中心業務連續性方案設計
張亮北京電信規劃設計院有限公司工程師
楊春麗北京電信規劃設計院有限公司工程師
馬媛媛北京電信規劃設計院有限公司工程師
摘要:目前,信息已經成為企業的生命源泉,數據中心業務連續性也越來越重要,信息系統需要依據災難恢復等級來統籌考慮業務連續性策略,探索信息系統容災及災難恢復方案。
關鍵詞:業務連續性;容災;災難恢復
隨著信息化進程快速發展,信息已經成為企業的生命源泉,業務數據的安全、可靠及可用性成為企業信息化亟需解決的問題。而信息化程度較高的電信、金融等行業,大量數據甚至是海量數據在一個或幾個數據中心進行集中存儲,一方面提高了信息和數據管理的自動化,提高了效率;另一方面也使數據中心的風險不斷提高,數據中心發生意外而造成的業務中斷或數據丟失都會給企業造成巨大的損失,因此保障業務連續性對企業變得越來越重要。本文依據國務院信息辦頒發的《重要信息系統災難恢復指南》,對不同等級災難恢復進行了業務連續性的策略研究及方案設計。
2.1業務連續性概述
2.1.1業務連續性的定義
從廣義上來講,對于信息系統而言,一切引起系統非正常宕機的事件都可以稱之為災難。災難大致可以分為以下幾種類型:
(1)自然災難,包括地震、臺風、水災、雷電、火災等,這種災難破壞性很大,影響面比較廣,但不常見,頻率較低。
(2)設備故障,包括CPU、硬盤等設備損壞、電源中斷以及網絡故障等,這類災難影響范圍比較小,破壞性也較小,但比較常見。
(3)人為操作失誤,包括誤操作、人為蓄意破壞等。業務連續性是指當認為以上災難來臨的時候,基于建設完備的災難備份系統切換,達到業務中斷時間最短和業務數據丟失最少的狀態。
2.1.2業務連續性水平指標
業務連續性水平現在一般是以數據丟失量和數據恢復時間作為標準進行評價的,所公認的評價標準是RTO和RPO。
●RPO(RecoveryPointObject):即數據恢復點目標,主要指的是業務系統所能容忍的數據丟失量。
●RTO(RecoveryTimeObject):即恢復時間目標,主要指的是所能容忍的業務停止服務的最長時間。
RPO針對的是數據丟失,而RTO針對的是服務丟失,二者沒有必然的關聯性。RPO和RTO的確定必須在進行風險和業務影響分析后根據不同的業務需求確定。
2.2業務連續性層次
根據國務院信息辦發布的《重要信息系統災難恢復指南》,業務連續性劃分為以下7個等級:
(1)第1級:這一級別的容災,實際上只有很低的災難恢復能力,提供支持備份介質場外存放,只能應付CPU以及磁盤損壞等硬件方面的系統災難,并且在這類災難發生后,也無法保證業務的連續性,需要較長的恢復時間。
(2)第2級:這一級別的容災,提供備份場地,能調配所需資源。能夠保證CPU以及磁盤損壞等硬件方面系統災難,但系統能夠迅速切換,保持業務的連續性。
(3)第3級:在本地將關鍵數據備份,定時傳送。災難發生后,按預定數據恢復程序恢復系統和數據。當數據量增大時,存在存儲介質難管理的問題,并且當災難發生時存在大量數據難以及時恢復的問題。并且出現災難時,損失的數據量也較大。
(4)第4級:通過網絡進行定時數據備份。也就是通過網絡以異步方式,把主站點的數據復制到備份站點,備份站點只備份數據,不承擔業務。當出現災難時,可以利用備份站點的數據進行恢復。采用了通過網絡進行數據復制的方式,因此兩個站點的數據同步程度要比等級3高,因此只會丟失少量數據。
(5)第5級:通過網絡進行實時數據備份。也就是通過網絡以同步方式,把主站點的數據復制到備份站點,備份站點只備份數據,不承擔業務。當出現災難時,數據丟失量比等4級小,數據丟失趨于零,但是仍然存在系統恢復速度較慢的缺點,可能造成系統服務的長時間停止。
(6)第6級:在異地建立一個與生產系統完全相同的備用系統。當生產中心發生災難時,備用系統接替其工作任務。數據零損失,并能立即自動轉移到災備中心。
(7)第7級:在異地建立一個與生產系統完全相同的備用系統。它們之間采用同步的方式進行數據復制。當生產中心發生災難時,備用系統接替其工作任務。
3.1關鍵技術方案設計
3.1.1數據復制保護方案設計
由于業務連續性分為7個等級,不同等級災難恢復需要不同的數據備份、復制保護技術,故需要按照不同等級災難恢復要求來配置不同的數據備份及復制保護措施。
(1)第1級:只提供支持備份介質場外存放,即備份介質(如光盤、磁帶等)具備場外存放的條件即可滿足需求。
(2)第2級:提供備份場地及調配所需資源,建議對關鍵應用所需數據進行復制保護,即主機采用雙機熱備方式,存儲采用Raid方式對數據進行保護。
(3)第3級:在本地將關鍵數據備份,定時傳送。在第2級的基礎上,建議對關鍵數據進行磁帶庫備份。
(4)第4級:定時對關鍵數據進行數據快照,完成數據在某一時間點的靜態映像,實現關鍵數據的快速復制與備份。
(5)第5級:通過網絡以同步方式,把主站點的數據復制到備份站點,備份站點只備份數據,不承擔業務。此等級的數據復制保護建議采用數據遠程復制技術(IBMPPRC、EMCSRDF、HDSTruecopy等),將本地數據同步鏡像到備份站點。
(6)第6級:在異地建立一個與生產系統完全相同的備用系統。通過各種數據同步技術將本地數據同步到備用系統中。目前,主要的數據同步技術分為:基于磁盤數據復制、基于數據庫的復制、基于操作系統級鏡像的復制、基于應用的復制。
●基于磁盤數據復制:主要是在磁盤級別對數據進行復制,包括磁盤鏡象等,對生產系統的性能影響較小,但是網絡帶寬要求高,依賴存儲廠商。
●基于數據庫的復制:在主系統正常工作的同時,將主系統產生的歸檔日志文件(ArchivedLog)不斷地傳送到備份數據庫系統,并且利用這些日志文件在備份數據庫系統上連續進行恢復(Recover)操作,以保持備份系統與主系統的數據的一致性,此類技術依賴于數據庫廠商,主要有IBM DB2 HADR、Oracle ODG/ ADG等主流技術。
●基于操作系統級鏡像的復制:通過主機上安裝的操作系統級鏡像軟件進行遠程數據鏡像也可實現數據的容災。操作系統級鏡像軟件能將主系統卷上每次I/O操作的數據實時地復制到備份系統的相應卷上,從而實現兩地數據的同步或準同步。
●基于應用的復制:由應用軟件實現數據的遠程復制和同步。通過應用軟件每次的業務處理數據分別存入主中心和備份中心的數據庫中。
以上4種數據同步技術的具體比較如表1所示。通過對比可知,適用于數據中心的數據同步技術為基于磁盤數據復制和數據庫的復制的技術?;趹玫膹椭萍夹g適用于特定應用場景,而基于操作系統級鏡像的復制技術則占用主機資源較高,對主機性能有影響,適用于生產壓力不大的系統。
(7)第7級:數據保護方案同第6級。
3.1.2網絡部署方案設計
考慮到未來數據中心的發展趨勢,數據中心不僅有日益增長的南北向流量,而且服務器之間交互也會越來越頻繁,產生大量的東西向流量。未來數據中心網絡架構需要能夠支撐虛擬機在數據中心的范圍內進行動態遷移。因此,數據中心網絡架構及部署應滿足以下特點:

表1 4種數據同步技術比較
(1)應滿足大規模東西及南北向流量,高吞吐高性能需求。
(2)支持更高系統級及數據中心網絡的可靠性。
(3)支持更高的隨需擴展需求。
(4)支持虛機及物理機的簡單無縫遷移。
由于第1~5級容災方案主要是針對數據級保護,沒有建立備用的業務系統,因此網絡部署比較簡單,不再一一闡述。本文主要關注第6、7級容災方案中的網絡部署設計。
根據業務連續性需求,當災難發生后,業務系統能夠自動切換到備用網絡系統,并且可以直接通過備用網絡訪問備用數據中心。
數據中心互聯方案包括局域網絡延展、存儲網絡設計和接入網絡設計(見表2)。

表2 數據中心互聯方案設計目標對比
傳統數據中心一般采用二/三層組網架構,POD內采用二層組網,POD間通過三層網絡進行互聯。虛擬機只能在一個POD內進行遷移,如果需要跨二層區域遷移,需要更改虛擬機的IP地址。
3.1.2.1局域網延展方案設計
傳統數據中心一般采用二/三層組網架構,POD內采用二層組網,POD間通過三層網絡進行互聯。虛擬機只能在一個POD內進行遷移,如果需要跨二層區域遷移,需要更改虛擬機的IP地址。
為了更充分地利用數據中心資源,虛擬機需要更大的遷移范圍,可以通過TRILL構建的大二層網絡來實現。TRILL(Transparent Interconnection of Lots of Links,多鏈路透明互聯)是將成熟的三層路由的控制算法引入到二層交換中,將原先的L2報文加一個新的封裝(隧道封裝)轉換到新的地址空間上進行轉發。而新的地址有與IP類似的路由屬性,具備大規模組網、最短路徑轉發、等價多路徑、快速收斂、易擴展等諸多優勢,從而規避STP/MSTP等技術的缺陷。TRILL與傳統的L2POD和L2/L3POD方案的對比分析情況如表3所示。
建議選擇TRILL方案作為主備數據中心互聯方案,基于TRILL技術構建的網絡架構能夠很好地滿足數據中心業務需求。
3.1.2.2接入網絡設計
接入路徑優化即數據中心切換方式的選擇。目前,數據中心接入網絡互聯主要有3種方式:手工切換、基于域名解析(DNS)以及基于RHI(路由健康注入)。3種不同切換方式的對比情況如表4所示。
通過對比可知:手工切換適用于規模不大、流量較小、業務簡單的場景;RHI路由適用于業務流量較大、IP規劃復雜、業務連續性要求較高的場景,但安全性存在隱患(防火墻禁用狀態監測);DNS方式則需要增加相應的DNS服務器。具體的方案選擇還是要在實踐中根據具體的應用場景來確定。

表3 TRILL與傳統的L2 POD和L2/L3 POD方案的對比分析

表4 3種不同切換方式對比
3.1.2.3存儲網絡設計
主備數據中心存儲網絡互聯主要有FCIP、DWDM 及SDH3種實現方式:●FCIP是主數據中心存儲網絡通過SAN路由器的FCIP功能將FC協議轉換為IP協議,通過IP網絡與備數據中心的SAN路由器互聯,實現基于FC的高速數據通信。
●DWDM接入方案將主數據中心SAN路由器接到DWDM設備上,通過DWDM設備的波分復用功能將多條FC通信,通過裸光纖傳輸到備數據中心的DWDM設備,實現基于FC的高速數據通信。
●SDH接入方案與DWDM方案類似。
以上3種方案的對比情況如表5所示。

表5 3種方案對比
3.1.3時間同步策略設計
主、備數據中心服務器等設備的系統時間不一致,可能會導致業務切換后,對時間敏感類應用程序的運行出現異常或者業務邏輯錯誤,因此在主、備數據中心內均部署一臺時間同步服務器與標準源時鐘實現同步,所有設備均與時間同步服務器實現時鐘同步。
3.2應急與災難恢復計劃
災難恢復計劃的關鍵內容包括應急響應、災難恢復和重續運行流程、災后重建和回退流程3個階段。
(1)應急響應流程
●災難預警處理流程
災難預警是在災難即將發生時所采取的通知流程。在災難預警處理流程的制定中,需要明確規定通知流程、通知策略和通知內容等。
●損害評估流程
災難發生時,損害評估人員應該盡快到達災難現場查看災難狀況和確定事態的嚴重程度,并且召集相應的專業人員對災難事件進行慎重評估,確認災難事件對信息系統造成的影響程度,確定下一步將要采取的行動。
●災難決策流程
在災難決策流程的制定中,首先需要確定災難恢復計劃啟動的條件,啟動條件可以基于以下幾個方面來考慮:
——評估員工傷亡狀況。
——執行災難恢復流程的足夠人員需求。
——損失是否足以構成立即宣布災難。
——轉移至災備中心比修復此損失需花費更多時間。
——所需設備均已具備還是有些設備必須更換。
——受影響的服務的恢復時間為多少(此服務是否經過營運單位判定為關鍵服務)。
如果損害評估的結果達到一項或多項啟動條件時,將由之前授權的人員正式發出災難宣告。如果達到災難恢復計劃啟動條件時,則繼續監控事態發展和損害評估直到問題解決或者提升為災難。
●災難宣告流程
災難宣告是區分災難和一般性操作問題的重要標識。災難的正式宣告可以讓企業內部的各個部門馬上提供恢復所需的資源。
(2)災難恢復處理流程
災難恢復從大的方面來說,包括技術恢復和業務恢復。技術恢復包括對硬件、軟件、數據、網絡等的恢復。業務恢復指在災難恢復團隊按照預先制訂的恢復規程完成技術恢復后,技術和應用業務的人員對業務完整性、數據一致性、網點和服務渠道進行檢查和審核,確定具備條件后恢復業務運作。
(3)災后重建和回退流程
●災后重建流程
災后重建階段應該設定負責重建工作的團隊。這個階段進行的主要工作有:
——確認災難種類和應該召集的人員,并按照各項災難情形召集各相關單位人員。
——盡快安排檢查災難現場,災難場地有可能因為公安人員、醫護搶救而被限制出入,尤其在災難造成人員死亡的情況下。
——評估基礎設施和環境,包括場地建筑結構、環境污染、設備管道損害等。
——與保險公司評估人員、硬件廠商和災難搶救專業人員評估和決定需要搶救的設施和設備。
——確定重建方案。
——實施重建方案,包括IT系統修復重建、網絡連接、系統測試、數據裝載等內容。
●災后回退處理流程
災后重建完成后,將生產由災備中心回切到原生產中心是一個復雜的過程。在執行前需要進行嚴密的計劃和廣泛的測試。在制定災后回退處理流程時主要需考慮以下內容:
——恢復和充分測試驗證各應用系統,保證系統和應用功能的一致性、完整性。
——生產數據的裝載和驗證,保證數據的一致性、完整性。
——進行網絡和系統切換。
——關閉災難備份系統。
——安排恢復人員回到原生產中心。
目前,保障信息系統的業務連續性已經是企業不能回避的問題,因此數據中心的業務連續性也凸顯重要,但是保障業務的連續性需要大量的人員及投資,企業應依據不同系統的重要性劃分災難恢復等級,根據災難恢復等級實行不同的容災方案,實現保障業務連續性與成本的平衡。
參考文獻
[1]國務院信息化工作辦公室.重要信息系統災難恢復指南.
[2]湯勇,呂英杰.數據容災技術介紹[J].郵電設計技術,2002 (10):40-43.
收稿日期:(2016-03-29)
Business continuity of data center design
ZHANGLiang,YANGChunli,MAYuanyuan
Abstract:Currently information has become the lifeblood of the enterprise,business continuity of data center has become increasingly important;information systems disaster recovery needs to be based rating and consider business continuity strategy to explore information systems disaster recovery scenarios.
Key words:business continuity;disaster tolerance;disaster recovery