楊 珺
(中國鐵路信息科技集團有限公司 網信技術處,北京 100038)
隨著信息系統建設的飛速發展,各行各業對利用信息系統處理事物和數據分析的依賴性越來越大,越來越多的企業認識到信息系統安全運行的重要性。2019年發布的《信息系統安全等級保護基本要求》(簡稱:等級保護2.0)中對不同的等級系統需采用的災備方式提出了要求,其中,等級保護二級信息系統需實現異地數據備份功能,等級保護三級信息系統需實現提供異地實時備份功能,等級保護四級系統則需實現業務應用的實時切換。因此,災備技術的研究對構筑信息系統堅實的防線十分重要。
恢復時間目標(RTO,Recovery Time Objective),指系統從中斷恢復到企業可接受的運行狀態所需的時間。RTO值越小表示系統恢復能力越強。
恢復點目標(RPO,Recovery Point Objective),指為支撐系統恢復進行所需數據的備份時間點,表示系統恢復后需修復或追補的數據量。RPO值越小代表系統數據丟失越少。
實現業務連續性是信息系統災備的最終目標,也是災備方案價值的具體體現。為保障災難發生時的業務連續性,系統需進行網絡切換和應用切換,保障業務系統能夠在備用數據中心繼續安全運行,從而最大限度地保障企業利益。
數據的完整性和連續性是保障業務連續性的關鍵,在本地一般采用獨立磁盤冗余陣列(RAID,Redundant Arrays of Independent Disks)技術來保障,而在異地則需采用數據復制技術來實現。
通信網絡的質量直接影響災難恢復的效率,包括網絡的數據傳輸帶寬、網絡傳輸通道的冗余性。
國家《信息系統災難恢復規范》[1]規定了信息系統的容災級別,并分別給出了應對措施,如表1所示。

表1 《信息系統災難恢復規范》規定的容災級別及其應對措施
實際應用中,從系統的保護程度來分,災備大體上可以分為數據級、應用級、業務級這3個災備等級,如圖1所示。

圖1 災備的3個等級
數據級災備的重點在數據的備份和恢復,采用人工或工具將數據保存到異地,如數據的復制、備份和恢復等。災難發生后利用備份數據將用戶數據的丟失或者破壞降到最低,是所有災備工作的基礎。
應用級災備強調應用的功能接管,是在數據級災備的基礎上再構建一套應用支撐系統,如數據備份系統、備用數據處理系統、網絡系統等。在生產中心發生故障的情況下,由災備中心提供業務的接管。此方式提供比數據級災備更高級別的業務恢復能力,同時也是業務級災備的基礎。
業務級災備是最高級別的災備模式,對業務有更強的支撐能力,不僅提供支撐系統繼續服務的能力,還提供備用辦公場所、辦公人員等其他非業務方面的備份。
結合災難恢復需求,參照等級標準給出的恢復時間、恢復時間點目標參考值,計算出應用系統的災難恢復需求,即應用系統的RTO、RPO值。災難恢復需求參照等級標準作為計算應用系統的RTO、RPO值的參考模型,制定過程需要結合行業災備領先實踐、災備技術發展水平、行業特征以及對應用系統的依賴程度等因素制定。災難恢復需求參照等級標準,如表2所示。

表2 災難恢復需求參照等級標準
在推導應用系統的災難恢復需求時,還需要考慮以下因素:(1)分析應用系統是否與其他系統相關聯,如果應用系統作為其他應用系統災難恢復的基礎時,其RTO、RPO值應該參照關聯系統的災難恢復需求;(2)是否存在對應用系統的災難恢復有特定的管理規范,應用系統的災難恢復需求應滿足管理規范要求;(3)承載信息系統運行的數據中心采用的基礎平臺的技術特征,采用傳統的架構搭建的數據中心,災難恢復需求較高,采用云架構搭建的數據中心,由于云架構本身具備的高可用和靈活性,災難恢復要求可較上表適當降低。
業務連續性保障策略有通常有應用雙活、熱備、暖備、冷備等方式。
(1)應用雙活方式
應用雙活是在主數據中心與備用數據中心均配置同等級的資源,使部署的應用集群實現業務同時在兩個數據中心運行,并根據一定的規則進行業務負載分擔,實現自動業務切換。
(2)應用熱備方式
應用熱備是在備用數據中心提前部署軟硬件和業務數據。當災難發生時,災備系統可自動接替主站點生產系統運行,主要通過跨數據中心集群或負載平衡方式實現。此方式需要較高的運營水平,數據的實時性取決于數據恢復方法。
(3)應用暖備方式
應用暖備是在備用數據中心配置恢復系統所必須的資源,提前部署軟件。當災難發生時,應用暖備需要在備份站點進行業務數據恢復,并人工將網絡切換到備份站點之后,備份系統才可接替生產運行,此方式要求保證備用數據中心資源處于活動狀態。
(4)應用冷備方式
應用冷備則是在數據中心配置滿足數據存儲和應用運行所必需的硬件資源。當災難發生時,應用冷備需要在備用場地進行系統重建工作,從而在備份數據中心恢復業務運行。
(5)策略分析
應用雙活方式可以做到RTO趨近于0,基本達到數據的零丟失。應用熱備方式RTO一般為分鐘級/小時級,會損失主數據中心正在處理的部分數據。應用暖備方式RTO一般為小時級,會損失主系統宕機后至備用啟動前的所有數據。應用冷備方式RTO一般以天計算,同樣會損失主系統宕機后至備用啟動前的所有數據。
RTO決定了應用系統連續性保障策略的選擇,同時RTO值越小,所需的投資也就越多。根據業務影響分析結論,可根據系統能夠忍受的數據丟失程度結合投資采取相應的應用系統連續性保障策略,具體如表3所示。

表3 應用系統連續性保障策略
3.2.1 數據復制方式
災備數據復制方式包括數據同步復制、數據異步復制、數據定時復制、數據離線備份[2-3]。
(1)數據同步復制
數據同步復制是生產系統的I/O寫入主數據中心盤陣時,同步寫到備用數據中心后,才開始處理下一次I/O,但是高的I/O 應用限制了主數據中心和備用數據中心間的距離,通常要求兩中心的距離不超過100 km。
(2)數據異步復制
數據異步復制是生產系統的I/O寫入主數據中心盤陣時,同時發送到備用數據中心,生產系統不用等到I/O寫入到備用數據中心完成,就開始處理下一I/O,可以遠距離傳輸但是不能保證數據復制是按照順序進行。
(3)數據定時復制
數據定時復制指生產數據定時從主數據中心復制到備份數據中心,復制到備份數據中心的數據是生產系統一段時間內最終變化的數據。
(4)數據離線復制
數據離線復制按照離線流程,實現數據從磁盤到磁帶的定期備份,并進行異地保存。
數據同步復制方式沒有事務性數據丟失;數據異步復制方式RPO達到秒級或分鐘級,能夠基本保障數據的完整性和即時性。數據定時復制方式RPO一般為小時級(最高達24 h),雖然能夠保障一段時間內的最終數據得到復制,但是過程數據等沒有備份無法追溯。數據離線復制方式RPO一般為12 h以上甚至數天,從上次備份到備份系統運行期間產生的數據將丟失。
RPO和數據中心間的距離決定了災備數據復制方式的選擇。基于業務影響分析的結論與數據中心距離,可選擇相應的應用系統災備數據復制方式,具體如表4所示。

表4 應用系統災備數據復制方式
3.2.2 數據復制技術
目前,通常采用的數據復制技術有基于操作系統和存儲(包括虛擬存儲)、基于數據庫及基于中間件和應用層這3種模式。
(1)基于操作系統和存儲的數據復制技術
基于底層的物理卷、數據塊,通過存儲存儲虛擬化等技術實現數據復制。這種數據復制技術的主要優點是支持所有類型的數據,可以在不影響生產存儲數據的情況下進行靈活的各種數據管理,如存儲快照等。這種復制技術的主要問題是數據需要集中存儲,所以進行災備復制前可能需要進行數據遷移,數據耦合度高,依賴存儲類型或操作系統,數據可用性校驗較差。
(2)基于數據庫的數據復制技術
大部分數據庫軟件都提供數據復制技術,包括商數據庫業和開源數據庫,實現數據的物理和邏輯復制復制。這種復制技術的主要優點是效率高、網絡帶寬占用少、同時可利用軟件自身的檢測功能,增加數據壞塊的檢驗,提高數據的可用性。這種復制技術的主要不足是只針對數據庫數據,不能提供應用數據的復制。
(3)基于中間件和應用層的數據復制技術
基于中間件和應用層的數據復制技術采用中間件或者應用層面的雙寫,通過應用架構設計實現數據復制。這種復制技術的主要優點在于可以根據業務需求來自行定制、自主可控性高。這種復制技術的主要缺點是應用設計復雜,根據特定應用場景定制,普遍推廣性差,一般情況下應用需要改造,不適用于高頻更新、一致性要求高的場景。
根據2.4節中不同的災難恢復需求等級,可以采用不同的災備策略,對于評估分值高于8的系統,可采用最高級別的業務級災備,對于評估分值為4~8的系統,可采用應用級災備。對于評估分值低于4的系統,信息系統災備方案可采用數據級災備。
一般是在主數據中心部署應用,并在本地實現數據備份的基礎上,將需要備份的數據通過人工方式定時運輸或通過數據復制工具采用異步方式保存到異地。當主中心出現故障時,數據級災備方案利用災備中心的備份數據可完成數據恢復,待將用戶請求切換到災備中心后即可恢復業務運行。
應用級災備一般采用雙中心主備或雙活模式部署,應用以主中心為生產環境、災備中心為備份環境。同一業務系統同時只能在某一個數據中心提供讀寫,另一個數據中心熱備,通過負載均衡設備實現請求分發,應用數據庫在本地實現高可用,同時向備份環境進行單向同步數據復制,其中,數據復制技術均可采用。當應用在主中心發生故障時,應用級災備方案通過負載均衡將請求分發至災備中心。災備中心數據庫變為主用數據庫,向主數據中心數據庫同步數據,從而實現在災備中心接管應用,提高業務連續性[4-5]。
業務級災備除了必要的信息系統相關技術,還要求具備全部的基礎設施能力,即非信息技術系統的備份(如電話、辦公地點)。當災難發生后,業務級災備方案除了在災備中心恢復數據和應用外,還能在備份工作場所開展的正常業務,讓用戶應用的服務請求能夠透明地繼續運行,保證信息系統提供的服務完整、可靠、安全[6]。
不同災備模式的對比如表5所示。

表5 不同災備模式對比
本文從災難恢復考慮因素、災備等級劃分、災備技術分析、信息系統災備方案設計等方面進行了詳細的論述,并對不同災備模式進行了對比,旨在提升業務應用系統的連續性、穩定性和可用性,信息系統據此選擇適合的的災備方案能夠以恰當的規模、合理的資源利用率及適當的運維模式實現信息系統災備效果,從而達到保障企業安全穩定生產的目的。未來,將進一步研究信息系統災備的具體技術手段和實現方案,實現信息系統安全可靠運行的目標。