張正欣
(江蘇省鹽城市社會保障信息中心 江蘇省鹽城市 224001)
高可用性:數據集中意味著風險集中和響應集中。計算機軟件和硬件出現意想不到的故障幾乎是不可避免的,業務連續性和數據完整性中斷對企業持續運營來說是致命的,而新一代數據中心的高可用性可以程度地減少業務中斷對企業核心業務的影響。
融合:數據統一管理加大了業務維護復雜度,隨著企業業務的無限拓展,數據中心IT 基礎設施越來越密集,基礎架構也將越來越復雜,當該架構達到一定規模后將難以擴展且輸入成本也在持續增加,無法滿足企業業務拓展的需要。這時有很多新的融合技術被越來越多地被應用于數據中心,例如LAN 和SAN 合并,計算和存儲合并,網絡和安全合并。
虛擬化:虛擬化是數據中心的常見功能,它讓安裝部署業務變得更加靈活,同時提高了業務連續性和設備使用效率,也使數據中心變得更加綠色并降低了總投資成本,隨著服務器和存儲虛擬化應用程序的日益普及,當前網絡虛擬化技術也成為數據中心建設和規劃的熱點。
智能:隨著下一代數據中心變得越來越復雜,僅依靠運維人員的個人能力進行日常管理和故障排除也變得越來越困難,如果發生錯誤將需要很長的時間來查找和解決問題,因此越來越多的新興數據中心管理工具正被推廣使用,使用這些工具可以直觀地觀看數據中心的運行情況,當發生系統錯誤后,可以快速找到并解決問題。
引起業務災難的原因很多,災難的定義有不同的說法,沒有統一的理解。我們將災難定義為影響系統正常運行的不可預測事件或不可預測的影響。災難可影響數據中心的正常操作,以下是定義的五個災難級別。
一級:攻擊威脅。如果有人聲稱知道業務系統具有后門準備發動或發起病毒攻擊,則可以視為受到攻擊威脅。在這種情況下用戶必須加強安全技術或管理手段以攔截攻擊者。
二級:漏洞。數據數據中心系統存在技術或管理上的漏洞,且系統漏洞使入侵者獲得敏感信息,則可視為漏洞引起的災難。這種情況雖然不會影響數據系統,但仍然是企業或機構需要解決的問題。
三級:單個系統故障。單個系統故障脫機時間超出了幾分鐘或更長的時間,則可視為單個系統故障。脫機時間取決于對系統威脅的嚴重性,在這種情況下應立即將應用程序轉移到本地備份系統,否則必須將系統從磁帶還原到備份硬件上面。通常這些情況不會對業務運營產生重大影響,但是應盡快解決故障問題。
四級:單個致命錯誤或多個非致命錯誤。這種情況已經對業務運營產生了直接威脅,但數據中心仍在正常運行。可以還原到備用硬件或進行本地應用程序轉移,應急響應的時間也變得非常重要。
五級:數據中心正在發生故障或已發生,如停電,間諜活動,恐怖活動和自然災害都可以歸為此類,唯一的選擇是應用轉移或使用磁帶備份數據來重建數據中心,在此級別上實施時間過長將會導致生產設備長時間不能使用。

圖1:災難恢復示例圖

圖2:RTO 和RPO 關系示例圖

圖3:同城災備中心例圖

圖4:異地災備中心例圖
根據國際標準SHARE 78 的定義,從低到高有7 個級別的災難恢復操作,取決于不同的投資成本和恢復時間。
第0 層:無異地數據。未構建信息存儲和備份硬件平臺,也未制定應急計劃,數據僅在本地備份和還原。
第1 層:卡車運輸。將必要的信息通過卡車運輸的方式運送到異地進行存儲,然后根據災難恢復的特定需求有選擇地構建備份平臺,有制定應急計劃,但異地備份事件不在計劃內。
第2 層:卡車運輸訪問模式+熱備份中心。基于第1 層,熱備份站點設置在異地,站點上有主機系統,只需要通過數據備份介質恢復數據,當發生災害時使用主機系統恢復數據,在這種情況下備份介質會被運送到異地,而運送需要花費時間,因此會丟失一天或一周的數據。
第3 層:電子鏈接。基于第2 層,使用光纖或通信線路將由本地備份軟件創建的數據發送到異地備份,不需要任何傳遞工具,而且災害恢復的速度會加快。
第4 層:在線數據庫圖像和日志。第4 層的災害恢復是兩個站點同時激活,管理彼此的備份數據,因此可以向兩個方向進行備份操作,但接收方的硬件物理上必須與其他平臺分離,這種情況下可以在兩個站點之間共享工作負載。
第5 層:兩中心兩階段確認。基于第4 層,第5 層管理在考慮滿足更新請求之前選擇的數據(即本地和遠程數據庫的實時更新數據)。第5 層更新了應用程序站點和備份站點的數據,恢復時間只有幾分鐘,例如使用專用的數據復制軟件和硬件的使用。
第6 層:零數據丟失的遠程磁盤鏡像與自動切換。第6 層保證數據在保持數據丟失率為零的狀態下自動地向備份站點傳送,第6層被認為是災難恢復的最高水平,在更新所有本地和遠程數據的同時,我們可以利用多余的在線存儲和完整的網絡進行交換。
根據災難恢復時間和數據恢復程度等不同的災難恢復要求,將這七個災難恢復備份模式分為三個級別。
(1)冷備份:災難恢復系統不設置在與生產系統相同的運轉環境中,不在備份系統中加載應用系統數據,在發生災害的情況下,安裝、設置必要的操作環境,使用數據備份介質復原應用數據,手動備份數據
優點:保護投資,降低通信成本,減少通信環境要求。
缺點:恢復時間通常是幾天到一周,嚴重影響數據的完整性。
(2)預熱備份:災害恢復站點配備的基礎設施環境與正式生產系統的環境配置一致。安裝的應用程序系統會在災難恢復站點定期備份數據。在發生災害的情況下可以直接使用以往的備份數據。
優點:保護投資,降低通信成本。
缺點:恢復時間較長。
(3)熱備份:災難恢復系統實時在線與生產系統聯動,數據實時同步。通過高速通信線路實時向災害恢復系統發送數據。災難發生后可以通過災難恢復系統定期恢復生產系統上的數據。
優點:恢復時間通常從幾分鐘到幾個小時都很短,數據完整性和一致性最高,數據丟失的可能性最小。
缺點:投資成本增高,對通信環境要求較高。
從理論上講,構建災難恢復系統的目的是防止由于意外數據丟失而導致系統服務中斷。 以下兩個重要指標可以幫助評估災難恢復系統對系統業務回報的有效性。
圖1 從最左數起,是系統執行災難恢復備份的時間,圖1 的中間部分顯示了由于災難導致的數據丟失,圖1 的右側顯示了數據服務恢復時間。 RPO(恢復點對象)表示災難發生前的數據丟失量,RTO(恢復時間對象)表示發生災難后系統的恢復時間。顯然這兩個指標的值越小越好。
圖2 較好地反映了RTO 和RPO 的關系。
與可持續業務運營相比,災難恢復強調災難發生時關鍵業務的響應和恢復能力。換句話說,通過盡可能最快,最全面的企業業務恢復操作,將災難造成的損失降至最低。當然也不能保證不會有業務中斷,實際上,災難恢復系統的整個災難恢復過程都將導致一段時間停機。

圖5:兩地三中示例圖

圖6:冷備模式災備中心例圖

圖7:熱備模式災備中心例圖

圖8:雙主災備中心網絡架構示例圖
通常,提高系統可用性的任何努力都可以稱為容災,如主機集群本地災難恢復:如果主機服務器出現故障并且無法正常運行,則另一臺主機可以替換該主機繼續工作。通常提到的災難容災,通常是指遠程災難容災,遠程災難恢復可以理解為:不同行業的IT 系統必然有非常重要的部分(尤其是核心部分)組成,這被稱為新中心,為新中心配備一個遠程備份中心,并且在新中心內部實施了各種數據保護。無論采用哪種方法進行保護,在發生火災,地震等突發性災難的情況下,當新的中心癱瘓時,遠程備份中心都可以接管生產系統并繼續提供網絡服務。
高可靠性計算環境能夠保障數據中心中計算機系統硬件、軟件和應用程序的單點故障不會影響整個數據中心的數據處理功能。
建設一個遠程備份數據中心來應對注入因火災,地震,停電等災難引起的業務中斷。
主數據中心在災難恢復后,業務數據必須能夠快速切換到主數據中心運行。
災難備份中心業務系統應由服務器層、網絡層和數據層三個部分組成。
由于中心的業務系統是由服務器層,網絡層和數據層這三部分組成,為了保障系統的可用性和業務的連續性和去除單點故障,應從這三個不同的層面分別進行合理性設計,而整個容災系統也是由這三個層面的保護措施組成的
從管理方式上看,人社單位具有明顯的縱向特征,但就構建數據中心本身而言,為了確保業務系統和數據的高可用性,通常必須并行構建多個數據中心進行災難恢復,以下從縱向和橫向描述人力資源和社會保障局數據中心的建設。
通常,可以根據人社單位的規模來構建不同級別的數據中心,構建一個數據中心在很大程度上依賴于國家信息網絡,數據安全問題也更加突出,數據中心的建立應基于諸如數據的本地化屬性,根據數據量以及數據更新頻率之類的因素來確定。可以根據需要構建最多3 個級別的數據中心。
總部數據中心;
區域/省級數據中心;
區/縣級/數據中心。
三層數據中心網絡相連接,實現實時數據交換和數據統一更新,確保數據的一致性,及時性,準確性和完整性并確保數據實時共享。
數據中心的垂直層次結構是為了更好地適應人社單位的管理模式,在這種分層配置模式下,集中管理的原則應優先考慮IT 應用系統的部署,確保系統集成和使用最佳軟件。集中管理在總部,如果由于技術限制而無法實施集中管理,最好考慮使用分布式管理,集中管理和分散管理各有優缺點,因此需要根據實際情況進行選擇。
集中管理:管理措施更完備,提供的支持更有有效,采購價格的性價比也更高;
分散管理:易于實施,滿足分支機構的需求,能提供更快的支持。
對于上述的三層數據中心垂直配置,為確保數據中心提供服務可靠性,應在每個數據中心考慮業務連續性和數據災難恢復,因此應該為三層數據中心的每個級別考慮水平的多中心災難恢復配置,目前災難恢復中心有三種主要的建設模式。
圖3 所示,同城雙中心。生產中心和災難恢復中心在同一城市,并且通常使用DWDM 或光纖互連,可以輕松地實現數據的同步鏡像,確保數據完整性和零數據丟失,業務備份通常通過第2 層群集等技術完成。生產中心和災難備份中心相對物理位置較近,實現數據的同步鏡像比較容易,保證了數據的完整性。同時它也可以防止潛在的危險,例如火災和建筑物損壞,但是較小的容災半徑使其無法應對戰爭,地震和洪水等隱患。
異地雙中心:
圖4 所示,異地雙中心。生產中心和災難恢復中心跨城域,距離通常為數百公里。同城互聯使用高速專用線路,例如155 / 622M SDH,大的容災半徑防止了諸如地震,洪水和戰爭之類的隱患,但是由于生產中心和備份中心跨城域并且距離相對較長,因此當同步遠程鏡像時,事務處理效率太低,通信成本也很高,無法通過異步鏡像或復制進行數據備份以保證零數據丟失。
圖5 所示,兩地三中心。是同城兩中心和異地兩中心的結合并繼承了它們的優點。
將人社單位數據中心和災備中心進行垂直和水平整合的構建模式中,為數據中心選擇業務災難恢復模型將直接影響數據中心的構建成本以及關鍵的評估指標恢復時間目標(RTO)和恢復點目標(RPO)。典型的業務災難恢復模式包括冷備用,熱備用和雙活模式。
如圖6 所示,冷備容災。在冷備模式中,備份系統沒有安裝在與主系統相同或相似的操作環境中,并且應用系統數據未加載到備份系統中,發生災害時,必須手動或自動安裝,設置必要的操作環境,使用數據備份介質恢復應用數據,恢復孤立的數據。
優點:保護投資,降低通信成本和降低通信環境要求。
缺點:恢復時間長(通常超過幾天),并且數據完整性和一致性差。
災備等級:3 級。
如圖7 所示,暖備/熱備容災。在這種模式下,備份系統和主系統的后臺數據層通過高速通信線路將數據實時傳輸到備份系統,以使備份系統和生產系統的數據保持同步,并且還可以恢復備份系統的數據,在應用程序級別,備用系統的應用程序系統和業務網絡通道處于待機狀態。換句話說,應用程序系統和業務網絡設備已打開電源,但未加載相關的配置文件。在發生災難的情況下無需補充或僅需少量補充孤立數據,通過僅加載應用程序服務器和業務網絡設備的配置文件,備份系統可以快速接管主系統的操作并恢復生產。
優點:恢復時間非常短,通常從幾分鐘到幾個小時,數據完整性很好,而且數據丟失的可能性最小。缺點:大型設備投資,高通信成本,高通信環境要求,更復雜的常規運行和維護。 災難恢復級別:4 到5。
如圖8 所示,雙活容災。數據中心采用雙活動數據中心網絡架構,可同時提供服務。數據中心的應用架構基本上是被劃分為web層、應用服務器層和數據庫層的多層應用體系結構。主模式在各層實現。Web 層通常不是基于狀態連接,而是基于HTTP 連接,因此,在默認情況下,應用程序可以連接到任意的數據中心的Web 層。應用服務器層可以在非狀態應用中實現主狀態模式。數據庫集群太長。太長距離將難以獲得數據庫訪問時間和同步策略。
優點:恢復時間通常與最好的數據完整性一致,數據丟失和短短幾十秒幾分鐘。
缺點:在軟件和硬件設備上的大量投資,較高的通信成本和較高的通信環境要求。
災難恢復級別:6 級。
實現數據中心雙活,不僅依賴于應用程序、操作系統、網絡系統、存儲系統的全方位雙活架構設計,也要關注各系統模塊之間的整體協同性,當設備故障需要自動切換時,各系統之間仲裁時間的設定將直接影響,雙活數據中心架構遇到故障時能否正常切換。[1]面對復雜的數據中心雙活架構,設計時應充分考慮細節,實踐時需多維度測試,以保證數據中心雙活架構的有效性。[1]