□劉克武 李 亞 呂朋舉(河南省水利信息中心)
河南省水利業務系統容災平臺高可用研究與應用
□劉克武 李 亞 呂朋舉(河南省水利信息中心)
隨著信息技術的飛速發展,社會需求的刺激,河南省水利業務系統呈幾何增長,隨之水利業務應用系統的穩定性和高可用性就顯得日益重要,為有效地防止因本地網絡的中斷或業務系統的故障引起的數據丟失和服務不可用,研究和建設河南省水利業務系統容災平臺高可用,實現若生產端服務器故障或宕機,應用服務自動或手動切換到容災端的服務器上,由其上對應的應用對外提供服務,關鍵業務系統達到“RPO≈0,RTO<5m”的目標,保證河南省水利業務系統的連續性。
容災;高可用;水利業務系統
容災技術是現在信息化建設的重要組成部分,是防范災難、降低損失、提高業務持續性的重要手段,是提升服務質量、承擔社會責任的重要保障,目前已廣泛應用于各行各業。
河南省水利信息化建設起步比較早,從20世紀70年代開始,隨著社會的發展和互聯網技術水平的提高,一方面水利系統業務的不斷擴展,刺激了水利業務系統突飛猛進的增長,另一方面隨著水利業務系統的推廣、使用以及無紙化辦公的要求,現在的工作已依賴于網上辦公,網絡的中斷或業務系統的故障都會嚴重影響日常工作的正常完成,同時也會對社會和公眾造成嚴重的影響。如何有效地規避故障風險,如何提高水利系統業務連續性的接管能力,降低或減少網絡、業務系統中斷產生的影響,保證其安全穩定的運行,已經成為河南省水利信息化應用管理的當務之急。
在網絡層,河南省水利廳信息網絡建設了省水利廳至18個省轄市水利(務)局、10個省直管縣(市)水利(務)局、12座大型水庫、26個廳屬單位及124個縣(市、區)水利部門的計算機網絡系統,實現省、市、縣三級計算機網絡系統的互聯互通,并與水利部、濟南軍區、河南省委、省政府、省氣象局、省國土資源廳等相聯,但帶寬非常有限。
在業務應用層,河南省水利業務系統從2010年開始建設,現已完成河南省水利廳門戶網站、水利綜合辦公系統、網上行政審批系統、水利電子郵件系統等水利電子政務系統,以及防汛抗旱決策指揮系統、山洪災害系統、水資源管理系統,水利普查系統等重要業務系統,承載著河南省、市、縣三級水利機構的日常辦公、山洪預警、水文監控、水資源監測等工作,為越來越多的河南省水利業務提供基礎支撐。這其中的業務系統大多數都是涉及全省范圍的業務,但卻都是在單機上運行,如果出現業務系統服務器硬件或服務故障,都會等待服務器配件到貨或從網絡層逐節點查找原因,甚至會重新搭建服務器環境、重新配置程序,這時間就不是半天、一天能恢復正常運行的。
為提高業務系統的服務質量、減少業務系統中斷時間,梳理河南省水利業務系統的實際情況,按照容災的等級要求,河南省水利業務系統容災平臺高可用的需求如下:第一,生產端服務器發生故障時,容災端服務器按容災等級通過自動/手動方式實現一個或多個應用的接管,關鍵業務系統做到自動的應用接管。第二,容災備份的一致性校驗。第三,生產端及容災端網絡的最低帶寬的快速傳輸。
容災的等級標準是按恢復點目標RPO、恢復時間目標RTO兩個指標來劃分。RTO是針對服務丟失,從業務系統故障開始,到業務系統恢復正常之間的時間段。RPO是針對數據丟失,指業務系統和應用數據恢復正常后,系統及生產數據能恢復到過去的哪個時間點。
河南省水利業務系統容災平臺高可用能在現帶寬網絡環境下快速地容災數據復制與傳輸、跨多網段應用接管,實現對業務系統的按需切換。
根據河南省水利廳的實際業務系統環境,業務重要性和部署方式不同,分級對現有業務進行設計。其核心業務系統的應用與數據十分重要,RPO和RTO要求級別較高,不僅要保證數據不丟失,而且在發生故障時,也需要快速地接管應用,保障業務系統連續性,因此要求RPO≈0、RTO<5m;對于一般的業務系統,不涉及下面市、縣,數據變化頻率不高,而且是在內網運行的,要求RPO≈0、RTO<120m。
分析國內外高可用容災技術實現,經過詳細的探討研究,現河南省水利系統業務部署在不同的網段內,為實現高可用,容災平臺通過對生產端服務器業務應用、服務器等資源的狀態進行實時監控,在發現業務應用突然異常停止(如業務應用異常退出、服務器斷電、硬件故障等)、或者達到需要切換的條件時(如生產端服務器資源即將耗盡、軟硬件升級等),通過負載均衡設備自動或者手工將應用切換到容災端服務器上,實現業務多種模式的加密高效率地傳輸、跨網段的業務系統雙活。如圖1所示。

圖1 河南省水利業務系統容災平臺高可用總體架構圖
2.3.1 窄帶寬網絡環境下容災數據快速復制與傳輸技術
數據復制與傳輸技術是容災方案設計中最基本也是最為核心的技術。傳統的數據容災和備份技術,是對生產端文件系統的關鍵數據,進行定期的完全或增量備份,并使用去重技術減少對存儲空間的耗費,它存在著為了保證數據一致性,需要對生產端設備相關狀態進行暫時凍結或進行快照,然后再進行定期的完全或增量備份,無法在用戶使用過程中實時捕獲增量修改,不能保證數據的同步;另一方面需要考慮使用額外的數據來滿足去重技術,增加了系統資源和處理開銷。因此備份的時間粒度和系統開銷需求都不能滿足實際。經過多方的溝通、測試,容災數據復制與傳輸功能最終選擇基于字節級的復制技術及數據序列化傳輸技術。一方面它可以通過旁路式監聽源端的數據變化,以最小字節級增量數據捕捉方式,將生產端字節級的數據變化量實時的容災復制,不需對生產端設備相關狀態進行暫時凍結或進行快照。另一方面字節級的復制技術對生產端服務器計算資源占用可以忽略。僅僅是旁路捕獲數據,通過旁路式截獲生產系統的數據變化,所有的數據都是從內存中獲得,處理和復制正在使用的文件與目錄時,無需要求關閉該文件,相關的應用仍然保持在線和活躍運行狀態,不會對您的工作有任何負面影響,因此數據復制過程不占用主機的IO資源。第三方面基于字節級的數據復制粒度最小到字節,數據保護和恢復粒度可以做到毫秒級,因此對于帶寬資源的要求也是極低的。綜上容災數據的快速復制、傳輸,在不影響現有生產端應用的前提下,保證了信息在整個過程中的安全及完整性。
2.3.2 基于負載均衡的業務應用無縫切換技術
分析國內外跨網段容災技術,目前有3種技術方式:一是基于網絡虛擬化技術。通過使用MAC地址路由規則,打通生產端與容災端的二層通信,實現IP地址跨數據中心的遷移,從而有效滿足了生產端與容災端資源調度和虛機遷移的要求,但是網絡虛擬化技術對硬件要求較高,投資成本較高,對當前網絡環境及設置改動較大,不符合實際建設需求。二是基于VPN技術。利用VPN技術使主機集群二層可達,缺點是維護復雜,系統節點較多的情況下維護更復雜,不支持H.232視頻協議等,經過詳細調查研究,放棄此解決方案。三是基于負載均衡技術。采用負載均衡技術,旁路接入對當前網絡環境沒有任何改變,利用負載監控業務端口或靜態頁,當生產端應用異常或出現各種異常(如服務異常停止、網絡異常、硬件故障、生產應用宕機維護)而導致應用不可用時,將相關的應用立刻切換到容災端服務器上,由容災端服務器上的應用來提供服務,實現業務系統的無縫切換。根據河南省水利廳網段較多、網絡復雜及安全性的要求,經過詳細的研究與測試,關鍵業務系統最終采用負載均衡來實現業務的雙活。
2.3.3 信息一致性技術
文件系統的I/O操作是序列化的,這些操作日志必須保持它原有的操作次序,如數據庫文件,在I/O操作被截獲時為每個操作日志進行序列化排序,要求對數據的截獲、傳輸、存儲嚴格的按源序處理,容災端收到I/O操作日志后對個別亂序通過日志記錄中的數字序號重新將I/O操作序列化,與生產端序列嚴格一致后再提交到容災端寫入,從而保證兩端信息的一致性。
根據河南省水利信息化業務系統現狀和特點,經過針對性研究,利用最新容災技術,采用最經濟的手段建設一套復雜網絡下業務應用高可用的容災平臺,為河南省水利信息化業務系統提供完善安全的容災體系。
從長遠看,業務高可用的價值并非僅僅是業務系統應對災難、提高生存能力的工具,而是已經成為提升政府服務質量、承擔社會責任的重要保障;是水利系統提高政府辦事效率和透明度,減少行政環節,節約行政成本,適應需求變化的重要基礎。
[1]馬獻章.數據庫云平臺理論與實踐[M].北京∶清華大學出版社,2016(1).
[2]武春嶺.數據存儲與容災[M].北京∶高等教育出版社,2015(1).
[3]肖良華.從災備到雙活[J].金融電子化,2013(11)∶55-56.
[4]詹浩,李陽,郗新江.大型數據中心“雙活”應用探析[J].金融電子化,2013(8)∶69-70.
[5]韓兆云.綜合業務異地災備系統三層異構云服務平臺[J].金融電子化,2014(9):70-72.
TP311.5
A
1673-8853(2017)09-0092-02
2017-6-16
編輯:劉 青