【摘要】企業信息系統是現代企業運營的基礎平臺,數據則是關系到客戶和企業利益的核心資源,業務連續性和數據可用性是關系到企業生存的重要問題,建立容災系統能使企業在遭遇意外災難時,保障業務的連續性,最大程度地降低損失。本文通過對虛擬化技術的分析論述了服務器虛擬化的應用以及IBM公司的ERM鏡像系統實現在線備份的過程及實施步驟,分析了VMware SRM在容災備份中的特點和優勢進而實現信息系統應用業務的連續性,可靠性。
【關鍵詞】服務器虛擬化;災難備份;異地容災
1.虛擬化概述
1.1 概述
隨著IT技術的快速發展和應用的挑戰,電廠信息化正處轉型階段,對于電廠信息化能力也提出了更高的要求,特別是虛擬化、物聯網、云計算等新興技術被紛紛引入信息化建設,為新一代的信息系統提供更加穩定、完善、高效的技術支撐。
虛擬化技術一直被視為企業邁向云計算的第一步,是云計算的技術的基石。嚴格來講,虛擬化是一門應用很廣泛的技術,是將實體進行邏輯抽取轉化成為抽象體的一個過程,借助虛擬化技術能實現對物理層狀態復雜性的屏蔽,使系統對外運行狀態呈現出簡單的邏輯狀態;是增加資源利用和提高資源效率的最強大工具之一,同時使企業能夠更好地從戰略角度發展云計算模式。它最大的特點不僅可以提高業務連續性和數據安全性,還可以對業務集中管理,提高數據中心和桌面環境的管理效率,使工作負載變得易于部署,使各應用獨立開來,提高配置管理,縮短甚至消除計劃和非計劃的停機時間,增強業務的連續性,減少錯誤發生并使信息系統獲得更低的消耗以及更低的風險。
虛擬化正在迅速成為管理高效IT環境的標準方式,它不但改寫了計算規則,又對存儲和網絡的變革起了推動作用。
1.2 我廠虛擬化應用現狀
第一階段,實現服務器虛擬化。采用服務器虛擬化技術將信息中心分別運行在十幾臺服務器的應用系統遷移至由2臺IBM高性能服務器及一臺IBM存儲柜搭建的服務器平臺中,管理人員只要事先做好快照和虛擬機的部署模板,在服務器宕機時,只需恢復快照和重新部署一次模板即可,服務器的使用效率和靈活性大大提高,運維和管理也非常方便。
第二階段,實現災難備份,行政樓配置有4臺物理服務器跑著40個虛擬機,2臺IBM B24光纖通道交換機,1臺IBM DS5020替換原IBM DS 3400。信息中心機房的DS5020通過IBM遠程磁盤鏡像復制技術ERM,將數據鏡像復制到生產樓災備機房的DS5020,在兩套磁盤存儲設備間建立磁盤鏡像復制關系從而實現高可用性,保證關鍵數據的可恢復性與業務應用的可持續性。
第三階段,實現異地容災。采用VMware vCenter SRM(Site Recovery Manager—站點恢復管理)軟件實現異地容災。SRM是VMWARE的一個軟件包,它同VMWARE虛擬化架構無縫連接,其功能為在主站出現災難環境后能在異地的從站迅速恢復主站災難前運行的虛擬架構,恢復受保護的虛擬機,立即恢復運行,保證業務的連續性。
2.虛擬化階段實施過程
2.1 實現災難備份
2.1.1 概述
第一階段以資源整合和節約成本為目的,通過對邊緣應用及非核心應用進行虛擬化,是將虛擬化技術引入信息系統的第一步,同時對虛擬化平臺進行實際驗證也幫助我們熟悉虛擬化平臺的運維管理,為進一步擴大虛擬化平臺范圍打下基礎。具體實施過程通過服務器虛擬化的實施將數據庫、中間件分開,每個應用都擁有一個相對獨立的運行環境,軟件之間不會相互影響,從而保證了所有應用的穩定性和安全性。
隨著第一階段完成服務器虛擬化部署,第二階段將部分業務應用改造并部署到虛擬化平臺上,實施災難備份系統。
虛擬化技術為災難異地備份的發展起到了很大的作用。在災難備份系統建設中虛擬化軟件的優勢是十分明顯的。通過允許虛擬機在物理服務器之間進行無縫遷移,在災難發生時能使業務保持連續,提供關鍵性的災難恢復計劃。
我們采用智能存儲設備IBM DS 5020實現硬件級別的數據復制,自帶數據復制技術Enhancement Remote Mirror(簡稱ERM),無需占用主機設備的系統資源。生產中心和備份中心的存儲設備的硬件平臺都是DS 5020磁盤存儲系統。另外,基于數據復制系統在搭建數據鏈路時,采用了基于FC 的光纖裸鏈路,其數據的傳輸性能可以得到保證,提供了最可靠、最經濟高效并且最簡單的災難保護。
2.1.2 容災備份目標:
保證我廠關鍵信息應用系統在最接近的時間內,復制到遠端生產樓的備份設備,防止因災害發生引起重要數據的丟失。
采用IBM DS5020 兩個陣列在VMware應用環境下,實現異地存儲備份。
通過關于關鍵信息應用系統的遠程存儲備份,實現在信息中心主機不能正常運行情況下,生產樓的遠程備份接替關鍵應用系統的工作。
2.1.3 我廠容災備份方案特點:
(1)對物理主機及虛擬機的完整保護:與VMware vSphere完全集成 實現7×24小時備份及可用性;
(2)集成VMware vSphere提供持續可用性:
a.通過最新的完整備份,從虛擬機恢復系統及服務
b.三個簡單步驟:10分鐘完成物理主機到虛擬機(P2V)轉換,可實現在線P2V轉換,立即啟動備份服務器
(3)直接升級到遠程容災機制:
a.直接將完整VMware系統及數據復制到災備中心,有效利用硬件資源
b.利用IBM DS5020存儲的數據復制技術Enhancement Remote Mirror(簡稱ERM)技術實現存儲級別的硬件級數據傳輸
c.利用VMware SRM快速實現站點間的切換
圖1 災難備份拓撲結構圖
2.1.4 災難備份實施
IBM DS 5020存儲系統支持實現跨越兩個站點的DS 5020 存儲系統之間,進行數據復制的能力,包括同步拷貝、異步拷貝與異步一致性組拷貝功能。這種功能稱之為Enhanced Remote Mirror(ERM)。
實施過程中,我們通過ERM增強的遠程磁盤鏡像復制技術---Metro Mirror(同步的鏡像模式),在兩套IBM System Storage DS5020磁盤設備間建立數據復制關系。對于主機來講,活動狀態的存儲設備只有一臺。這臺存儲設備使用硬件復制技術和備份磁盤之間進行數據復制,保持兩個存儲設備上的數據一致。
存儲系統的數據復制對于主機來說是透明的,其自身的優點是,由于它是基于存儲設備來實現整個系統的數據復制,因此,它對主機系統的資源沒有消耗,可以保證相關主機上的應用高性能運行;另外,基于數據復制系統在搭建數據鏈路時,我們采用了基于FC的光纖裸鏈路,不管是采用同步或異步的傳輸方式,其數據的傳輸性能可以得到保證。同時,每個DS 5020存儲系統的控制器需要使用專用的,即每個控制器最后一個主機端口用于遠程拷貝連接。同時還規劃了相應的Zone。就用于ERM連接的Zone而言,本地DS 5020存儲系統的控制器A 要與遠端DS 5020存儲系統的控制器A 劃成一個Zone,本地 DS 5020存儲系統的控制器B要與遠端DS5020存儲系統的控制器B劃成一個Zone。
在具體實施過程中,為保證數據的安全、可靠,我們將行政樓IBM DS 5020中的數據備份到生產樓的DS 5020中。由于兩樓之間距離約300米并配有光纖連接,在選擇IBM的ERM備份軟件的工作模式時選用同步鏡像工作模式,這樣兩臺DS 5020中的數據保持同步一致。同樣的數據在兩地各有一份,這樣就大大增加了數據的安全性和可靠性。
2.2 容災技術方案
2.2.1 概述
隨著社會的發展和科技的進步,企業越來越依賴于數據處理來進行業務運營,業務的連續運營依賴于IT系統的穩定運行。然而,災難就像灰塵一樣伏擊在企業周圍,任何企業的信息系統可能可能面臨突如其來的災難:
如果不能對風險采取有效治理,一旦數據由于上述某種原因丟失,就有可能造成整個企業在運營上的重大不便和經濟損失。
由此可見,保證企業的業務連續運營及數據處理的高可靠性和高可用性已經成為我廠信息系統首先要考慮的問題,以便在發生系統災難后能夠從容應對風險。一個堅實的 VMware 災難恢復計劃對應用發生中斷后如何進行故障切換并恢復工作及對保護企業的數據和業務操作是至關重要的。
為此,我們開始第三階段的異地容災系統并為系統設立了如下目標:
數據與存儲系統的高可用性,保證數據7X24小時的連續訪問;
將現有的存儲技術集成,創造出一種更有效的數據存儲管理,實現高效、高可靠性、低成本的數據管理;
需要對企業現有的數據庫、郵件系統、文件服務器以及各種應用系統進行集中化、自動化的基于策略的保護;
采用一套成熟度高,業內應用廣泛的企業級軟硬件整體解決方案;
這些目標的實施保證一旦發生災難(洪水、地震、火災等),或者人為災難(用戶失誤、磁盤失效等)導致數據丟失或者業務中斷時,能夠快速、及時地恢復數據,保證業務的連續運行。
從開始實施虛擬化以來,容災系統就在規劃之中,經過多方考察,我們認為VMware? vCenter? Site Recovery Manager能夠滿足我廠的異地容災需求。
VMware? vCenter? Site Recovery Manager作為 VMware vSphere 的有益補充,可確保為所有虛擬化應用程序提供最簡單、最可靠的災難防護。Site Recovery Manager 提供經濟高效的內置vSphere Replication,并支持使用廣泛的基于存儲的高性能復制產品集將虛擬機復制到輔助站點。
對于我廠的容災方案來說,即當行政樓信息中心系統出現問題后生產樓的系統能夠迅速啟動恢復運行,以保持業務的連續性。
根據這種要求生產樓配備了與行政樓幾乎同樣的硬件配置,包括多臺物理服務器,光纖通道交換機,存儲設備以及VMWARE Site Recovery Manager軟件系統。
2.2.2 VMWARE SRM虛擬化容災方案的優點
SRM(Site Recovery Manager—站點恢復管理)是VMware的一個軟件包。它同VMware虛擬化架構無縫連接,其功能為在主站出現災難環境后能在異地的從站迅速恢復主站災難前運行的虛擬架構,恢復受保護的虛擬機,立即恢復運行,保證業務的連續性。其優點在于:
· 提供內置 vSphere Replication 進行簡單、經濟高效的復制。
· 支持針對大型、關鍵業務環境的基于存儲的眾多復制產品。
· 自動執行災難恢復和遷移流程以確保快速、可靠的恢復。
· 簡化計劃內遷移和預防性故障切換。
2.2.3 容災硬件配置及SRM的應用
(1)物理服務器
生產樓配置3臺物理服務器,并且每臺具有足夠的CPU數量及內存容量。以保證能夠生產相應數量的虛擬機,以便對行政樓主要應用的虛擬機進行遷移保護。
每臺服務器配備雙HBA卡,以實現硬件冗余。
(2)光纖通道交換機
配備2臺IBM B24光纖通道交換機,以實現鏈路冗余。
(3)存儲陣列
IBM DS 5020已配備,并已進行數據同步鏡像(通過ERM),工作正常。
(4)VMWARE SRM容災軟件包
Site Recovery Manager 5 Standard 可用于保護每個站點和每個Site Recovery Manager 實例中的最多75個虛擬機。
2.2.4 實施步驟
·完成生產樓服務器、光纖通道交換機的安裝調試。
·生成生產樓服務器、光纖通道交換機及存儲DS 5020之間的鏈路連接,并對鏈路進行測試,保證鏈路連接正確及連通無誤。
·進行Zone的劃分。
·選取行政樓具有重要應用意義的12個虛擬交換機做為SRM在發生災難時向生產樓遷移的對象。
·在生產樓安裝Vcenter,并由Vsphere生成相應數量的虛擬機。
·對生產樓的虛擬機進行LUN映射并測試每個虛擬機工作正常。
·在行政樓和生產樓安裝SRM。
·對容災SRM進行模擬故障切換,進行測試,以保證在發生災難時能夠正常啟動,工作正常。
3.結論
經過三個階段虛擬化的硬件部署、軟件升級、應用的實施,我廠虛擬化建設已初具規模并在信息系統中發揮著關鍵作用:
通過服務器虛擬化的實施,實現整合服務器、操作系統、應用平臺,對服務器資源進行統一管理;實現按需分配資源,簡化了管理的復雜性,極大地提高了工作效率。
存儲高可用:通過IBM EMR Metro Mirror(同步的鏡像模式)遠程磁盤鏡像復制技術,在兩套IBM System Storage DS5020磁盤設備間(信息中心機房及生產樓機房各一套),建立磁盤鏡像復制關系從而實現存儲高可用性,從而建立完善的存儲備份中心,保證關鍵數據的可恢復性與業務應用的可持續性。
使用VMware vCenter Site Recovery Manager確保高度可靠的RTO和RPO,并且成本和復雜性程度遠低于傳統災難恢復方法。借助 Site Recovery Manager,可以將災難防護擴展到在vSphere平臺上運行的所有應用程序。
IBM DS5020的遠程磁盤鏡像復制技術ERM和VMware的SRM的完美結合,為我廠關鍵信息應用系統構筑了安全、可靠、高效的存儲備份體系。
未來我們將不斷摸索網絡虛擬化和云計算技術,專注點將主要集中在虛擬化實現云計算的基礎,將已有的虛擬化X86服務器建設成一個資源池,并且有計劃、有規模的梳理現有的各種應用,實現應用按需申請資源;其次,未來將逐步實現系統開發、上線、監控、運維、管理、容災等實現應用平臺云化,以便跟上即將到來的SDN(軟件定義存儲)的時代。
參考文獻
[1]Muller,A1(EDT)/Wilson,Seburn/Happe,Don/Hummphre,Gary j.,With Vmware ESX Server [M].by Elsevier Science Ltd,2010.
[2]虛擬化應用手冊 IBM研究院,2012.
作者簡介:閻立波,工程師,現供職于華能國際電力股份有限公司上安電廠,研究方向:虛擬化存儲在信息系統中應用和實施。