謝智勇
(廣東電網有限責任公司韶關供電局,廣東 韶關512026)
隨著電網公司信息化建設的不斷深入,信息系統建設模式也隨之發生了很大的變化,從之前粗放式分散建設逐漸向大集中方式轉變。在這種發展趨勢下,各種風險因素對信息系統造成的影響范圍和程度進一步加大。如何保證重要業務數據的安全、提高信息系統可靠性和可用性,促進電網企業經營和管理水平更上新臺階,成為公司信息化工作急待解決的問題。
建設災備中心是應對應用大集中后信息系統高風險的必要手段。目前營銷等核心系統已開始初步的容災系統建設工作,其他非核心的業務系統主要提供業務輔助支撐類功能,考慮到業務關聯性和聯動性,一旦出現異常很可能影響關聯的核心業務系統無法正常使用,影響客戶體驗,因此需要擴展容災覆蓋范圍,進一步提升信息系統的業務連續性保障能力。
另一方面,當前建設完成的容災中心為數據準雙活級別,僅能保證主備兩端的數據一致。為實現RTO、RPO目標,需要對所有基礎支撐類系統采用異地雙生產中心、異地數據級災備補充方式進行容災,即兩個生產中心雙活的運行環境配置同時提供應用訪問。
同城災備系統建設方案簡要設計如圖1所示。

圖1 災備系統邏輯架構圖
(1)接入層:通過F5負載均衡和智能DNS域名解析服務器實現對用戶訪問路徑的解析及判斷。對用戶的訪問可通過以上結合方式,實現用戶無感知訪問業務。
(2)應用層:應用級災備中心對各系統應用服務器集中部署,同時需保證兩端業務系統的版本一致性。應用程序版本可通過應用系統版本統一發布平臺實現兩中心之間業務系統版本的統一發布,同時在線服務,故障時采用重連的方式恢復用戶業務。
(3)數據層:分為結構化數據與非結構化數據。
a.結構化數據:采用基于數據庫的Oracle Ex-tended RAC方式進行數據復制,通過IP網絡進行數據庫數據復制,該方式搭建四節點的rac,asm卷管理采用鏡像的方式,并增加第三方仲裁盤,既不改變數據文件的管理方式,也不改變數據庫原有結構。
b.非結構化數據:采用基于NAS災備文件系統,對兩端非結構化數據進行實時同步。
災備建設以雙生產中心為目標,避免切換帶來的不確定結果,一般災備中心機房距離控制在50 km以內,RTO、RPO時間均可實現5分鐘的目標。
結構化數據的復制技術相對成熟,業界目前一般普遍采用 EMC Vplex結合 Oracle Extended RAC的成熟解決方案。通過EMC Vplex或其他類似存儲同步技術實現跨IDC機房的存儲共享和數據復制,借助Oracle Extended RAC數據庫雙活技術實現跨節點的遠程并行訪問能力,同時Oracle ASM磁盤管理技術優先訪問本地IDC磁盤,極大減少了跨IDC機房的數據交換需求,降低了磁盤I/O和網絡帶寬壓力;另外不同IDC機房的數據庫節點,通過自身的Oracle ASM存儲進行管理,通過SAN存儲網絡實現數據的雙向實時復制,避免存儲復制集成使用帶來的潛在的兼容性、實時性問題,極大減少了數據復制節點帶來的多節點維護難度和運維風險。
Oracle ADG復制方式是對于oracle數據庫雙活容災方案的一個補充,目的是基于遠距離的數據保護以及應對部分數據邏輯錯誤,采用Oracle ADG技術,這個模式采用從主庫向備庫網絡傳輸redo日志方式,備庫恢復數據過程可以用只讀方式打開進行查詢操作,在主節點故障后可以將備節點切為生產,以及恢復部分因為人為誤操作帶來的錯誤或者缺漏數據。兩種方式都比較成熟,各有優劣,可按照自身實際情況選擇。
對于非結構化數據的復制,由于目前大部分業務系統的非結構化數據所使用的磁盤為SAN存儲,對比非結構化存儲的方式如下:
(1)由于非結構化數據的特殊性(文件不統一、零散),非結構化數據在NAS文件存儲上處理效率比在SAN存儲上要較高。
(2)通過SAN存儲,非結構化的應用系統需要重新搭建,因此建議將其改造為NAS存儲。采用NAS雙活文件存儲系統實現雙活,數據在同一時間是真實寫在雙邊存儲,保證數據的完全一致。
在應用節點方面,采用集群配置,動態擴展。選型時一般建議第二生產中心加域并單獨建域,若不采用在原域加節點的方法;采用12c Dynamic-cluster集群部署,在生產中心出現問題時,第二生產中心可以動態擴展滿足要求。
災備網絡作為整個容災環境基礎中的基礎,對于第一生產中心與第二生產中心的網絡切換及應用層面的切換采用F5加智能DNS域名解析方式實現切換。第二生產中心系統接入綜合數據網與第一生產數據中心交互,第一生產中心與第二生產中心采用不同的綜合數據網接入點,機房需按照安全要求配置防火墻等安全設備。
災備中心調度規章流程制度,災備中心的建設,需具備運維組織架構、管理制度體系建設、運維體系演進。
(1)運維組織架構
人員和架構:針對多數據中心的建設特點,原則上第二生產中心的運維組織架構設計需要嚴格參照主生產中心的運維模式成立,一方面是從組織架構和崗位職責方面提供可靠的組織能力保障,為數據中心的日常基礎運營、后勤支撐等提供支撐服務。另一方面確保了多個數據中心具備統一指揮、統一調度、各司其職、協同運維的能力,有利于確保IDC運維的規范性和一致性,從而確保多數據中心的安全穩定運營。
(2)管理制度體系建設
運維管理體系:借鑒國內ITSS信息技術服務標準,針對核心生產業務制定針對性的運維管理、災難恢復演練、應急切換和回退等管理制度,保障跨多生產中心運營的各項企業核心業務安全、穩定、高效運行。
運維技術支撐體系:多生產中心運營涉及的技術架構復雜、技術多樣,除了需要專業人員組織保障,也離不開多種專業運維支撐工具和平臺,例如多維監控告警系統、自動化運維平臺、統一服務管理門戶等。
安全管理體系:安全管理在運維管理中無處不在,從網絡安全到數據安全等面面俱到,通盤考慮安全服務配置及安全管理工作,提升信息安全自主可控能力。
(3)運維
伴隨著雙活災備技術的不斷發展和進步,多個數據中心承載的關鍵業務也在進一步演變,包括災備應急恢復、數據恢復演練、業務切換和回退、災備應急演練也需要與時俱進不斷發展,結合企業實際情況和業界先進的ITSS信息技術服務標準,從管理模式、人員組織、管理流程、工具平臺、制度規范、安全管理等方面不斷優化運維體系,從人員、流程、工具、技術和資源等各個方面為多數據中心生產業務的長期穩定運行提供有力保障。
本文著眼于災備系統的建設,從多階段、多層面針對各類型重要信息系統進行數據的安全、系統可靠性和可用性方面的提升。在災難發生時,通過預先定義好的流程和方法,協調各方面資源,抵御信息系統所面臨的各種風險,有效縮短信息系統的服務停止時間和數據丟失時間,降低災難發生時給企業帶來的損失。