郭嬋娟
“云上揚州”是智慧揚州發展的新階段,也是國家“新型智慧城市”理念在揚州的落地。揚州市政府云計算中心作為全市電子政務的基礎設施管理中心和數據資源中心,承擔著全市電子政務的信息基礎設施整合,將在現有基礎上打造“云上揚州”云基礎設施環境,實施大平臺建設,推進大數據應用。“云上揚州”建設對數據資源計算存儲能力、交互處理能力、容災備份能力以及安全保障能力提出了更高的要求,現有服務能力難以快速處理海量復雜的數據、無法保障業務的連續性和穩定安全的運行,亟需提升現有數據中心的數據處理能力并統籌規劃建設全市統一的災備中心。本次項目以“云上揚州”建設為契機,在市政府云計算中心基礎上統籌規劃“兩地四中心”容災建設。
揚州市政府云計算中心于2011年啟動建設,通過從基礎設施、數據資源和應用平臺三個方面對全市的信息資源進行整合,有效解決信息孤島問題,從而實現全市信息化項目的集約投資、信息共享和業務協同,截至目前,整合了全市81家市直單位、4個功能區和邗江區機房,已承載超過550臺虛機,支撐了全市115個政務網站,139個業務信息系統的運行。目前部署了5臺核心存儲,合計承載421T各類生產數據。同時建立了300TB備份容量的一體化備份平臺,采用各類備份策略將不同類型的數據進行統一備份、分類歸檔,保障了整個數據資源中心的數據安全,部分核心數據實現了同城異地備份。
隨著云計算、大數據技術的飛速發展,各類信息系統數量的不斷增加,當前云計算中心的系統支撐能力已逐漸無法滿足大平臺融合通用、大數據開放利用的需求,主要體現下如下幾個方面:
基礎環境運行年限長,部分設備老化,故障率高。市政府云計算中心機房已使用七年,設備數量逐年遞增,對機房內環境壓力逐漸增大,空調、環境監控等經常出現告警,無法保障機房內各類設備全天候恒溫恒濕穩定運行。
網絡架構存在性能瓶頸,無法精細化管理。市政府云計算中心采用傳統三層架構組網建設電子政務網,已持續運行七年,隨著業務數量、服務器規模、接入用戶數的增長,已出現網絡性能瓶頸,同時區域劃分較多,無法精準掌握網內業務關聯情況,管理難度大。
存儲備份平臺架構單一,未實現異地容災,存在數據安全隱患。市政府云計算中心現有存儲平臺采用全FC方式進行部署,隨著非結構化數據的不斷增長,現有FC存儲架構存在非結構化數據交互的性能瓶頸,云計算中心已實現本地備份和部分數據異地備份,尚未實現數據容災,無法保障業務的連續性,存在數據丟失風險。
現有備份環境備份和恢復效率不高。僅部署了一套備份系統對現有業務系統數據庫、文件目錄、虛擬機文件、應用程序等進行統一集中備份,隨著業務系統越來越多,數據量也越來越大,一旦出現存儲故障,只能提供已備份的數據和文件;如果要恢復系統運行,必須重新部署系統環境,需要花費大量的人力物力和較長的時間進行恢復工作。
充分運用云計算、大數據等先進理念和技術,按照“集約高效、共享開放、安全可靠、按需服務”的原則,以“統籌建云”為構架,依照國家第六級容災的建設標準,依托市政府云計算中心和企業云計算中心,完成“兩地四中心”建設,即建設主中心、本地雙活中心、同城備份中心以及異地災備中心,其中主中心與本地雙活中心兩個中心組成雙活架構,揚州本地運營商機房作為同城備份中心,江蘇省統一建設的鹽城災備機房作為異地災備中心,最終完成核心業務系統實現雙活級容災,重要業務主備級容災,一般業務數據級容災。
(一)網絡容災設計
主中心和同城雙活中心采用OTN光纖線路將兩個數據中心的管理網、業務網等互聯,實現網絡層的雙活容災。在管理網中,為保證兩個數據中心統一管理,統一運維,本次通過10G光纜將兩個數據中心的管理網互聯,形成一張網,所有的管理IP均是統一分配,不存在主中心和雙活中心的區別,通過統一的管理網,運維人員可以在主中心實時監控兩個中心的運行狀況,也為業務網絡提供了可靠的管理監控體系。業務網采用了SDN+Vxlan的技術,本次通過40G光纜將兩個數據中心的的業務網互聯,網絡層采用的是傳統二層架構,實現分布式網關,當業務主機實現夸中心遷移時,不需要更換網絡地址,真真意義上實現,網絡層的位址分離,策略跟隨。各接入市直單位鏈路通過運營商匯聚后分別與主中心和雙活中心互聯,同時采用浮動路由的策略,探測兩個數據中心網絡狀態。同城備份中心因為對時延要求較低,則可直接通過IP網絡進行異步數據復制。
(二)云容災設計
核心類業務利用負載均衡和應用容災的技術,云主機在主中心和雙活中心各部署一套,應用容災軟件負責兩個中心云主機數據的一致性,配合全局負載均衡,對該兩邊的業務進行負載分擔和實時監測,在發生災難事故時根據相應策略實現故障切換,保障業務連續性。重要業務采用虛擬化平臺的SRM技術和底層存儲通過自有的同步復制技術,實現數據的實時一致,SRM同步虛擬化平臺的信息,同時關聯存儲的復制信息,從而實現平臺跨站點容災備份。SRM的容災業務是通過在虛擬化管理平臺上創建虛擬機保護組,虛擬機的數據通過存儲的復制功能,在遠端存儲上保有一份虛擬機的數據,并通過制定恢復計劃來保證受保護虛擬機在特定的恢復流程指導下完成在遠端站點的業務恢復。
(三)數據庫容災設計
1、Oracle 數據庫容災設計
Oracle數據庫容災采用RAC和ADG兩種技術的應用。在主中心,由數據庫一體機內的多個的計算節點服務器構建RAC實時應用集群。當一體機中的某個計算節點硬件故障或數據庫不可用時,可在其余節點上繼續運行,從而確保一體機能夠對外提供一個穩定可靠的數據庫服務。在主中心與雙活中心間,則采用Active Data Guard(ADG)來實現Oracle數據庫的容災。應用在主中心部署主數據庫,在雙活中心部署以及一個或多個備用數據庫,備用數據庫是與主數據庫在事務上一致的副本,利用ADG 技術通過備用數據庫對主數據庫文件的不斷復制,不斷應用主數據庫傳輸過來的redo重做日志來保持和主數據庫的一致性。
2、SQL Server、MySQL等數據庫容災設計
SQL Server、MySQL等數據庫直接在由云管平臺分配虛擬機部署,當數據庫發生故障時,整個數據庫隨虛擬機進行云平臺內遷移,即在操作系統層面確保此類數據庫的高可靠性。
(四)備份系統設計
采用災備云方式,分別在主中心、運營商同城異地備份中心和江蘇省災備中心鹽城災備中心部署備份集群,可按需無限擴展備份節點數量,滿足不斷增長的業務數據備份需求。主中心備份系統實現對大數據中心內所有平臺及租戶數據的保護,通過重復數據刪除、LAN-FREE等技術,搭建高效備份云。對于Windows及Linux文件系統備份,安裝客戶端選擇文件進行備份。對于虛擬化平臺采用無代理備份,通過調用VADP,配合重復數據刪除、CBT(數據塊變化追蹤)、LAN-FREE備份、NBD備份等技術,實現海量虛機的高效備份及細粒度恢復,同時將備份的數據進行本地歸檔,歸檔至物理磁帶庫。運營商同城異地備份中心實現對對大數據中心所有業務數據的異地備份,江蘇省災備中心鹽城災備中心備份資源實現對核心業務數據的異地保護,保證所有業務數據的完整性。
建成同城異地雙活政務網,提升了網絡承載能力,政府辦公更加高效。主中心與雙活中心之間以100G波分通道互聯,骨干網速率達到40Gbps,互聯網出口帶寬8Gb,網絡核心層通過大二層技術實現存儲層雙活、數據庫層雙活、網絡層雙活、應用層雙活,接入層實現了雙運營商雙網運行,自上而下任一節點出現網絡故障時,雙活數據中心能夠快速接管業務,實現用戶訪問的無感知切換,為政府部門辦公和業務訪問提供了可靠的保證。
建成同城異地雙活政務云,提高了上云業務的可用性,政務服務更加可靠。將區域衛生、政務服務一張網等民生類核心業務分別部署在兩個中心,依托大二層網絡、雙活存儲、全局負載等技術最終實現應用級雙活,當一個站點發生故障時,另外一個站點可實時接管所有業務。同時采用一體機的形式來提供數據庫服務,一方面保證數據庫的高可靠性,另一方面提升數據庫的處理效率,從而帶動業務處理效率的提升,最終使運行在政務云上的業務更高效、更穩定、更可靠,全天候為社會公眾辦事、看病就醫等服務做好保障。
構建了完善的容災備份架構,提高了云上業務數據的安全性,政務數據更有保障。通過云平臺無代理備份、異構云平臺恢復、租戶數據自行備份、CDP、CDM、重復數據刪除、LAN-FREE等技術搭建備份云平臺,對云上所有應用和平臺的數據進行備份,利用不同存儲介質將核心數據進行全生命周期歸檔保存,并通過災備智能分析運維系統,實現對備份節點日志接收采集、備份日志數據解析處理、備份策略的優化改善等功能。通過獲取來的各備份任務的詳細日志信息,可對歷次備份日志進行合并、分析并做圖形化展示。同時同城異地備份中心和江蘇省災備中心鹽城災備機房備份資源對大數據中心所有備份數據的再次異地保護,確保在主中心發生備份系統異常甚至是整體機房災難的時候,數據在同城的異地備份中心仍有一份,便于盡快恢復業務系統,政務數據的保護級別和抵抗各種可能安全因素的容災能力得到極大改善。
(四)建立了災備管理體系,提高了應急事件處理能力,政務云運維更加規范。基于現有ITSS運維服務體系,增補了災備服務的內容。一方面加強了災備系統的運維管理,擴充了有關災備運維管理的知識庫,制定了基于災備運維評價體系;另一方面利用云管理平臺從技術層面對災備系統進行實時化、可視化的監管;最后中心通過內訓和外訓等方式提升了現有運維人員對新建災備系統的理解,為運維團隊提供技術支撐。最終,中心通過完善機制、精細服務、技術培訓等方式,為災備系統打造了一只高素質運維團隊,維持一貫的高效率運維服務。
此次項目建設完成后,市政府云計算中心將定期開展數據中心災備與恢復的模擬測試演練。
一是對核心業務的雙活測試。在主中心和雙活中心部署核心類業務的模擬測試應用,在事先制定應急策略前提下,通過對指定設備斷電、中斷網絡等手段,測試在“任一中心內突遇重大災害,網絡、服務器、存儲等硬件某一設備或全部設備出現故障”的情況下,核心業務系統能夠自動切換至正常工作的雙活數據中心,而前端訪問無感知。
二是對重要業務的容災測試。在主中心部署重要業務的模擬測試應用,在事先制定應急策略前提下,通過對指定設備斷電、中斷網絡等手段,測試在“主中心突遇重大災害,網絡、服務器、存儲等硬件某一設備或全部設備出現故障”的情況下,重要業務應用首先能夠在主中心云平臺內自動漂移拉起,其次能在人為干預下在預定的時間內在雙活中心重啟并提供服務,數據無丟失,前端訪問中斷時間較短。
三是對一般業務的數據備份測試。在測試環境內,定期對業務應用執行數據備份與恢復演練操作,記錄備份和恢復的成功率,以及備份數據是否丟失,并建立歸檔數據采樣恢復機制,確保歸檔的數據有效可用。
通過這些測試和演練,將進一步提升市政府云計算中心的災難恢復水平,為“云上揚州”各類業務應用的高效運行提供有力保障。
作者單位:揚州市政府信息資源管理中心