[摘要] 本文闡述災難恢復系統的建設原則、相關技術,并針對不同的業務系統,制定不同的災難恢復策略,從而應用不同的技術進行相應的災難恢復系統建設。
[關鍵詞] 災難恢復系統; 災備; 建設; 策略
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 20. 038
[中圖分類號]TP309.3 [文獻標識碼]A [文章編號]1673 - 0194(2011)20- 0064- 02
0引言
許多企業為降低信息化建設和管理成本,采用數據大集中方式進行信息系統建設。而大集中的模式相應會帶來集中的風險,隨著企業信息化建設的深入開展,中心機房的業務系統和數據日益增多,一旦中心機房的網絡、電源、計算機等出現故障,或因業務系統本身問題,或發生火災、地震、洪水等自然災害,將導致相關業務系統癱瘓,影響IT系統的正常運行,甚至影響企業正常經營業務的開展,造成不可估量的后果。因此,為業務系統建立相應的災難恢復系統很有必要。
1建設原則
依據技術先進性、可擴充性、高可靠性、業務連續性、成熟性、可管理性等原則來進行災難恢復系統建設。
先進性原則:所采用技術不僅滿足災難恢復系統建設的需要,也順應未來的發展方向。
可擴充性原則:保護已有建設和投資,確保新功能、新業務能在原有的系統平臺上擴展。
高可靠性原則:保證系統具有自動負載均衡能力和性能調節能力。
業務連續性原則:保證發生災難時,災難恢復系統能平滑接管生產系統運行。
成熟性原則:應盡量選用經過大量運用、成熟可靠的技術和產品來實現災難恢復系統。
可管理性原則:為確保災難恢復系統的可用性,應對其進行實時監控和管理。
2災難恢復技術
根據不同的災難恢復系統的需求和恢復策略,有各種災難恢復技術,本文為簡化討論,僅涉及主機失效保護、數據復制、數據備份及恢復等主要技術。
2.1主機失效保護技術
主要包括:主機集群技術、負載均衡技術及主機切換技術。
(1) 主機集群技術:通過心跳線方式監聽業務系統主機的運行狀態,一旦發現生產主機故障,自動切換到災難恢復系統主機上。這類技術一般包括兩類:一是基于共享存儲的本地主機集群技術,主要適合于本地兩臺主機共享磁盤陣列的場合,其工作方式有3種:雙機主備方式、雙機雙工方式和并行工作方式;二是遠程主機集群技術,適合于遠程兩臺主機的切換,無法做到共享存儲,必須通過存儲技術實現生產系統和災難恢復系統數據的一致性。
(2) 負載均衡技術:要求兩臺或多臺主機處于活躍狀態,即主機同時工作,均衡負載,當一臺主機出現故障時,其上的負載將自動加載到其他主機上。這種方式切換時間短,不需要重啟應用,但要求部署負載均衡設備,且要求生產系統和災難恢復系統雙活。
(3) 主機切換技術:通過災難切換和恢復預案,進行生產系統與災難恢復系統主機的切換。這種方式的切換可以通過手動切換,也可以通過編寫腳本實現自動切換。其特點是每臺主機需配置兩個IP地址:一個是生產地址,一個是管理地址。其中生產地址是主機對外服務的地址,管理地址用于數據復制。兩端主機的生產地址必須一致,以保證平滑切換。平時,災難恢復系統主機只啟動管理地址,生產地址不啟動,以防止與生產系統發生地址沖突,當災難發生時,先斷開數據復制鏈路,再通過預先制定的切換預案實現主機切換。
2.2數據復制技術
主要包括:異地保存技術、異地備份技術及遠程復制技術。
(1) 異地保存技術:將數據在本地備份到磁帶上,通過人工方式遞送到異地保存。在災難恢復時,需從備份磁帶中重新安裝操作系統、應用系統、業務數據。這種方式最簡單,成本低,但恢復時間長。
(2) 異地備份技術:通過專業的數據備份軟件,結合相應的硬件和存儲設備,對數據備份進行集中管理,自動實現備份、文件歸檔、數據分級存儲以及災難恢復等。
(3) 遠程復制技術:這是目前比較流行的技術,通過生產端與災難恢復端的網絡,實現兩端數據的一致性。
2.3數據備份與恢復技術
主要包括:LAN Free、Server Free、Server Less及虛擬帶庫技術。
(1) LAN Free:是指數據不經過局域網直接進行備份,用戶只需將磁帶機或磁帶庫等備份設備連接到SAN中,各服務器就可把需要備份的數據直接發送到共享的備份設備上,不必再經過局域網鏈路。由于從服務器到共享存儲設備的大量數據傳輸是通過SAN網絡進行的,局域網只承擔各服務器之間的通信(而不是數據傳輸)任務。
(2) Server Free:是指數據不經過服務器直接進行備份。備份客戶端沒有安裝在應用服務器上,但需要在應用服務器上安裝代理客戶端。主控服務器和介質服務器在同一臺機器上,磁帶庫連接在后端SAN存儲網絡上。數據備份時,主控服務器發送備份信息到應用服務器,應用服務器上代理客戶端收到備份請求后,在存儲上生成快照或鏡像并分離出來,備份服務器將分離出來的數據備份到磁帶庫上,數據備份對在線應用沒有任何影響。
(3) Server Less:備份客戶端沒有安裝在應用服務器上,在應用服務器上安裝代理客戶端。主控服務器和介質服務器在同一臺機器上,磁帶庫連接在后端SAN存儲網絡上。數據備份時,主控服務器發送備份信息到應用服務器,應用服務器上代理客戶端收到備份請求后,向SAN交換機發出拷貝的命令,然后由交換機內部的監控機制,按拷貝命令的要求將數據從磁盤陣列直接送入磁帶庫。
(4) 虛擬帶庫:這是性能最好的一種復制技術,可支持接近磁盤陣列極限速度的備份和恢復速度,數據安全性等同普通磁帶庫,兼容流行的主機設備和操作系統,與現有磁帶庫應用方式一致,不用更改現有存儲應用軟件的管理策略,但比較昂貴。
3業務系統分類
將業務系統進行分類,目的在于可以針對不同類型的業務系統,采用不同的災備策略來建設災難恢復系統。
按照信息系統處理的業務類型、數據存儲方式、處理方式、實時性要求、單位時間內處理的業務量、與其相連的客戶端與系統個數等條件,可以將業務系統劃分為關鍵業務系統、重要業務系統和一般業務系統。
(1) 關鍵業務系統:業務數據集中存放,所連客戶端及系統較多,對保證整個企業的正常運轉至關重要。一旦業務中斷,將會立刻使公司提供的服務及正常運作受到相當嚴重的影響,尤其是在特殊時期如月末、年末、業務量高峰期,中斷造成的影響更大。如ERP系統等。
(2) 重要業務系統:業務中斷將對整個企業的正常、有效運轉產生較嚴重的影響。如協同辦公系統等。
(3) 一般業務系統:業務中斷將不會立刻對整個企業的正常運轉產生嚴重影響,一旦業務中斷可以容忍在數天或數周內恢復。如門戶網站系統等。
4災備策略
建議不同的業務類型使用不同的災難恢復指標來形成系統所需的災備策略。如:關鍵業務系統在1小時內恢復;重要業務系統在4小時內恢復;一般業務系統在24小時內恢復。要達到以上指標可以對不同類型的業務系統應用不同的技術。
本文只提供參考的舉例,具體對業務系統如何分類,如何制定災難恢復指標,以及應用哪些技術應根據具體系統和具體場景而定。
災難恢復技術應用舉例見表1。
5災難恢復系統的增值應用
在現實中,災難的發生屬于小概率事件,在災難未發生時,可以考慮充分利用災難恢復系統的計算資源,以保護投資。
(1) 數據資源的利用:通過數據復制手段保證了生產系統與災難恢復系統數據的一致性,可將這些數據用于測試、開發及培訓等。
(2) 處理能力的利用:可以在災難恢復系統上運行數據倉庫和數據挖掘應用系統。而且,在大數據量查詢業務發生時,亦可將災難恢復系統作為查詢的負載分擔系統使用,以降低生產系統的壓力,并提高查詢效率。