周保紅,劉 帥,張玉松
(1.三峽水利樞紐梯級調度通信中心,湖北 宜昌 443002; 2.智慧長江與水電科學湖北省重點實驗室,湖北 宜昌 443002)
云計算是一種采用大量低成本的標準計算單元,通過網絡連接構建基礎設施平臺,以實現各種IT基礎設施資源共享和按需分配的信息技術[1]。云技術已在各個行業得到廣泛應用,如國家電網已通過云技術建設了調控云,采用物理分布與邏輯統一相結合的分級部署設計方式,形成了國調中心主節點與各省級調度機構協同節點共同組成的基礎云資源集合[2]。同時,云基礎架構的引入有效解決了傳統基礎架構的問題。云基礎架構在傳統基礎架構計算、存儲、網絡硬件層的基礎上,增加了虛擬化層、云層。相對于傳統IT基礎架構,云基礎架構通過虛擬化整合與自動化,應用系統共享基礎架構資源池,實現高利用率、高可用性、低成本、低能耗;并通過云平臺層的自動化管理,實現快速部署、易于擴展、智能管理。新一代水庫調度自動化系統在數據存儲方面引入了基于CRAID的虛擬存儲技術、存儲雙活技術、集群技術等。
三峽梯級水庫調度自動化系統原本為集中式數據中心模式,可為系統提供物理設備集中存放、運行和管理服務[3]。該構架方式為傳統 “專機專用”方式,易于部署,在系統建設初期發揮較大作用。隨著業務的擴張以及應用需求的不斷豐富,該方式的不足逐漸顯現。受能源、空間、成本和管理等方面的制約,系統管理、運行、維護成本的顯著增加,集中建設的優勢不能進一步體現。因此,本文提出了三峽梯級水庫調度自動化系統云平臺的總體方案,闡述了云平臺計算資源池、網絡方案、存儲資源池、云計算管理平臺的具體實現方法。
構建云平臺的關鍵在于較好地解決云基礎設施數據存儲的穩定性、高效性、安全性問題,設計主要應用CRAID虛擬存儲技術、存儲雙活技術、集群技術來解決上述問題。
高性能的存儲是構建云平臺的基礎。劉艷等[4]借鑒集群文件系統“分布式虛擬磁盤”的概念,針對大規模 RAID提出了一種新的CSRAID存儲結構,其由若干結構不同SubRAID組成,并能為各用戶提供一個由SubRAID物理存儲空間構成的、始終適應用戶I/0需求的虛擬磁盤。通過仿真實驗結果表明:與傳統結構大規模 RAID 系統相比,同樣大小存儲空間的CSRAID系統的I/0性能具有顯著優勢。基于CSRAID的商用技術已得到應用,并且從CRAID 1.0發展到CRAID 2.0。CRAID 1.0原理主要是通過將磁盤細分為數千甚至數萬個小單元進行單獨管理(引入了Cell層),在單元內發生的故障和問題采用其他單元替換與屏蔽故障單元方式進行處理,避免對整個磁盤進行數據重建。在進行全盤數據重建時該技術也會將健康單元數據提前克隆到新磁盤中,只對個別故障單元數據進行校驗計算重建。CRAID 2.0在CRAID 1.0基礎上采用全新算法和三重數據校驗機制,在保證數據安全、磁盤空間使用率和性能的前提下,在保護力度上更優異,其較傳統RAID技術優勢見表1。本文選取具有CRAID 2.0技術的產品來構建存儲體系以提升存儲性能與數據穩定性。

表1 RAID技術比較Tab.1 RAID technology comparison
為避免傳統數據中心故障導致丟失數據的情況,數據中心普遍采用了存儲雙活技術。主要做法為運用2套存儲系統,兩者互為鏡像,當一個存儲系統發生故障時,業務自動切換到另一個存儲系統中[5]。存儲雙活技術對存儲網絡要求極高,一般用于1 km范圍內容的保護設計,在配合遠距離集群軟件下使用其雙活功能也只能擴展到數十千米范圍內,該技術一般用于進行同城災備保護。
傳統的雙活存儲方案無法由存儲陣列自身直接實現,更多的是通過在服務器上增加卷鏡像軟件,或者通過增加額外的存儲虛擬化引擎實現,這兩種方式存在的弊端如下:① 卷鏡像軟件實施復雜,對應用業務影響大;② 存儲虛擬化引擎存在性能、可靠性的瓶頸以及兼容性問題;③ 相關軟件購買成本較高,維護開銷大。
本文選取內置存儲引擎的國產化雙活存儲產品保護云平臺的數據,在復原時間目標(Recovery Time Objective,RTO)、復原點目標(Recovery Point Objective,RPO)的目標實現上具備優勢,其主要優點如下:① 讀寫并發,雙活;② 自動化秒級完成故障存儲陣列切換;③ 采用虛擬卷技術,無需操作系統額外安裝軟件支持;④ 內部專用萬兆網,數據同步高速;⑤ 雙陣列控制器冗余,形成高可靠的雙活四控結構。
構建系統云平臺涉及的關鍵集群技術主要包括核心數據庫集群與虛擬化集群技術。
1.3.1 核心數據庫集群技術
集群數據庫的數據分配技術可提升數據庫均衡性,提高數據庫性能、提高數據使用率[6]。作為整個系統最重要的部分,從安全性能角度考慮,核心數據庫采用高性能物理機方式進行部署。每個核心數據庫采用集群的方式構建。數據庫集群包含數臺高性能服務器作為組成節點,節點間通信通過高速內部通信網絡進行,節點間高速通信網絡可以采用萬兆網絡的方式,每個集群數據庫系統中通過建設不同的數據庫實現對各個業務數據的存儲和管理。核心數據庫區物理機部署集群,主要優勢如下:① 高性能物理機可以解決數據庫對于高并發I/O帶來的資源競爭,為其提供獨立足夠的資源空間;② 集群負載均衡能解決業務突發增長情況下帶來的訪問量和數據處理能力不足問題;③ 集群布置能方便性能持續擴張,能通過動態增設服務器解決資源擴張;④ 集群布置能實現故障自動切除、業務自動轉移,避免單點故障帶來的數據庫崩潰,帶來嚴重生產事故,具有極高的可靠性;⑤ 物理機部署數據庫可以確保數據的絕對信息安全,防止信息泄露。
1.3.2 虛擬化集群技術
三峽梯級水庫調度自動化系統云平臺主要使用服務器虛擬化技術來實現,其技術本質就是通過虛擬化操作系統將服務器物理資源抽象成邏輯資源,讓1臺服務器變成幾臺甚至幾十臺相互隔離的虛擬服務器,不再受限于物理上的界限,讓CPU、內存、磁盤、I/O等硬件變成可以動態管理的“資源池”,從而提高資源的利用率,簡化系統管理,實現服務器資源池化的整合,讓計算資源對業務的變化更具適應力。虛擬化集群的幾個關鍵點:① 虛擬化操作系統,該操作系統能將所有物理機的CPU、內存、硬盤存儲、網絡等硬件通過軟件進行抽象,資源打散重組成為資源池,并可任意劃分資源池作為虛擬機;② 虛擬主機是數據中心的基本計算基礎,可以聚合這些主機資源以構建高度可用的動態資源池環境,作為數據中心中每個應用程序的整體計算資源。
云平臺主要由服務器虛擬化、云存儲和云桌面組成,提供了彈性可擴展、負載均衡、按需自動服務基礎支撐環境。在滿足業務應用高性能、高可靠性、高安全性和高可適應性的基礎上,云平臺可實現系統資源的集中管理、動態調整、快速分配并進一步減少IT整體投入目標。
三峽梯級水庫調度自動化系統采用云技術構建,在宜昌區域為主用功能、成都區域為備用功能、昆明區域具備有應急調度功能。實現了宜昌、成都及昆明3地的業務功能整合。具體做法是通過在宜昌建立三峽水庫調度自動化系統私有云環境并建立數據中心,將所有應用、功能、數據均部署在數據中心;成都和昆明的業務人員通過網絡訪問私有云數據中心,從而實現數據、應用、功能的一致性與平臺的統一性。私有云數據中心在業務邏輯上總體呈現為安全Ⅱ區“水庫調度自動化系統主平臺”和安全Ⅲ區“綜合數據云平臺”架構。水庫調度主系統云平臺承載的業務主要是面向水庫實時調度,“綜合數據云平臺”承載的業務主要是面向水庫調度決策技術支持。
云計算平臺建設首先是IaaS層的建設,即在水庫調度自動化系統安全Ⅱ區和安全Ⅲ區,通過將基礎硬件資源虛擬化的方式,將存儲硬件抽象為軟件,包括卷管理、RAID、數據保護、快照和復制等。通過對異構的存儲資源抽象成邏輯存儲池,滿足應用場景的需求。使用網絡虛擬化技術對底層各種網絡資源虛擬化,實現對網絡的集中控制和管理,滿足統一快速靈活部署需求。采用分布式數據處理,通過冗余配置和數據庫互備等措施,將傳統數據庫服務器、應用服務器、通信服務器、數據處理服務器等專用設備由云計算虛擬服務器代替,減少設備數量,提高管理效率。
在基礎硬件虛擬化的基礎上實現PaaS層和SaaS層功能。在IaaS 基礎上提供統一的平臺化系統軟件支撐服務,包括將數據采集、數據通信、數據處理、信息查詢與展示、報表、數據監視和報警、后臺權限管理、版本管理等功能提供給用戶。通過對水庫調度專業應用軟件模塊的進一步封裝,將系統中水庫調度、洪水預報、調度方案制作、節水增發、典型洪水分析、整編資料管理、水位優化控制計算等具體應用作為服務提供給用戶,滿足不同用戶的個性化定制需求。SaaS,PaaS,IaaS 3層模式架構以及各層在系統中承擔的作用見圖1。

圖1 水庫調度自動化系統云平臺架構Fig.1 Cloud platform architecture of reservoir dispatching automation system
云平臺總體方案以軟件定義數據中心的模式,建設全新的云數據中心。同時,在設計方案時,充分考慮整個大系統的安全性,實現核心數據庫、虛擬機鏡像等關鍵數據的本地容災備份,保證業務數據的安全性。方案設計范圍為水庫調度自動化主系統、信息采集和交換平臺、內/外網調度綜合數據平臺業務模塊,在遵照安全分區的信息安全防護要求的前提下構建兩套云平臺:① 安全Ⅱ區云平臺,用于運行水庫調度自動化主系統和內網綜合數據平臺;② 安全Ⅲ區云平臺,用于運行外網調度綜合數據平臺和信息采集及交換平臺。安全Ⅱ/Ⅲ區云平臺的架構見圖2。

圖2 系統云平臺架構Fig.2 System cloud platform architecture
云計算平臺的建設內容包括云操作系統(虛擬化操作系統、云計算管理平臺)、硬件平臺建設(計算資源池、網絡資源池、存儲資源池)及業務前端的工作站,設計如下:① 云操作系統由虛擬化操作系統和云計算管理平臺等內容構成,并提供統一運維、監控報警、故障預警等管理手段。② 計算資源池的建設包括數據庫服務器和虛擬化資源池兩部分。數據庫服務器采用四路服務器;對于虛擬化資源池的建設,安全Ⅱ區虛擬化資源池采用4臺四路服務器構建,安全Ⅲ區虛擬化資源池采用8臺四路服務器和1臺雙路桌面服務器構建。③ 存儲資源池的建設包括生產區域和本地備份區域兩個部分的存儲系統建設。生產存儲包括核心數據庫全閃存共享存儲(一級存儲)、GIS及虛擬化高性能共享存儲(二級存儲);備份存儲系統包括在備份磁盤陣列(二級存儲)和備份一體機,為核心數據庫、操作系統、虛擬化等提供兩份數據備份,提供多種備份措施,最大程度地保護客戶業務系統中關鍵數據的安全。④ 網絡資源池的建設主要是包括業務網絡、存儲網絡及管理網絡。業務網絡采用萬兆光纖網絡,存儲網絡采用16 Gb FC網絡,管理網絡采用千兆以太網。
云計算資源池主要由基于X86架構的服務器設備組成。根據基礎平臺總體架構以及網絡架構設計中對功能區的劃分原則,將計算資源池設備按照需要實現的功能劃分為多個功能分區,支撐不同的上層業務應用,主要是水庫調度自動化主系統、內網綜合數據平臺、外網綜合數據平臺及信息采集與交換平臺的應用,根據基礎平臺所承擔的應用系統的特點和未來3~5 a的業務規劃,可把計算資源池分為核心數據庫集群和虛擬化集群。
云平臺建設方案應綜合考慮業務高效運行和便捷管理的需要,又要避免業務需要與管理需要之間的矛盾,因此將云平臺網絡分為業務網、存儲網、管理網,3套網絡相互獨立,互不干涉,便于根據不同方面的需要規劃和調整網絡。各網絡特點如下:① 業務網用于訪問客戶業務系統、業務系統內部互聯、虛擬機遷移、以及LAN備份與備份數據復制,每個安全區的數據中心內均采用10 Gb以太網絡高速互聯。② 存儲網提供本地存儲訪問、存儲卷拷貝等網絡通訊能力,每個安全區的云計算中心內均采用16 Gb FC網絡實現服務器與存儲之間的互聯。③ 管理網用于管理信息傳輸、集群心跳、集群仲裁等,每個數據中心內均采用千兆網絡互聯,以保證管理信息的及時有效傳遞,確保集群正常工作。④ 為保證系統高可用及業務連續性,業務網、存儲網及管理網均采用冗余鏈路部署,提高系統整體可用性和可靠性。
4.3.1 數據類型分析與存儲規劃
為滿足新建的云平臺的數據庫存儲、虛擬機、GIS等文件系統存儲,需新增集中存儲設備。根據業務對存儲設備的不同要求,采用不同的存儲方式,并根據存儲設備性能建立分區存儲策略,采用CRAID技術為納入云平臺的應用系統、數據提供統一的高可用性數據存儲服務和存儲管理服務。從采用的數據結構角度來看,業務數據包括結構化數據和非結構化數據,特點如下:① 結構化數據主要是關系數據庫存儲的流域水文、水庫運行、電站運行、電力等數據,對存儲的性能、穩定性及可靠性要求很高,采用閃存磁盤陣列,保證數據庫業務的高效運行,用于一級存儲;② 非結構化數據主要包括專生成業務產生的圖片、視頻、工作檔案等數據,例如GIS業務、氣象衛片、專題文檔等數據,此外還包括采用虛擬化技術產生的虛擬機文件。非結構化數據量較大,對底層存儲性能和帶寬要求較高,配置為高速SAS盤與SATA盤混合存儲,用于二級存儲,并配置SSD緩存加速功能以提升數據讀寫效率,高速SAS盤為虛擬化提供存儲空間,SATA盤為GIS等業務系統提供存儲空間。
4.3.2 數據備份方案
為防止數據邏輯錯誤、提高數據安全性,完善的數據容災備份方案可為業務數據的安全性提供安全保障,數據備份方案將從備份方式、備份架構、備份方案策略角度來設計。
(1) 數據備份方式。對核心數據庫數據、虛擬機鏡像等關鍵數據進行備份,備份方式分為以下兩種:① 采用磁盤陣列備份方式,即額外再配置1套二級存儲,通過數據庫復制技術將數據庫數據復制到第二套二級存儲中,通過卷拷貝將虛擬機鏡像等核心數據復制到第二套二級存儲中;② 采用備份一體機備份方式,通過LAN備份方式,對核心數據庫、操作系統等關鍵數據進行備份。
(2) 數據備份架構。結合備份技術,采用本地備份,將備份數據分別傳輸至備份磁盤陣列及備份一體機,做到1份數據3份保護。備份架構如圖3所示。

圖3 備份架構Fig.3 Backup architecture diagram
(3) 備份策略。備份系統的設計需要考慮配置的軟硬件產品之外,更需要精心設計。備份策略是整個備份系統中的重要策略,其作用為保證系統在故障情況下能實現數據的快速恢復。良好的備份策略和管理規劃是實現數據恢復的基礎。備份策略的選擇需要統籌考慮需備份的總數據量、線路帶寬、數據吞吐量、時間窗口以及對恢復時間的要求等因素,且還需要一并考慮通用的備份方式,如全量備份、增量備份和差分備份。結合系統特點,綜合分析系統數據情況,數據備份策略規劃見表2。

表2 數據備份策略規劃Tab.2 Data backup strategy planning
借助云計算管理平臺,可將基礎架構資源集成到具有計算、網絡和存儲集合的資源池中,也可將數據中心的計算資源、存儲資源、網絡資源(和相關策略可以集成到虛擬數據中心資源池中。
管理平臺能簡化對基礎架構的訪問,其主要作用如下:① 基于開放的應用模板,發布相關的虛擬機和Web目錄,實現用戶的快速管理和部署;② 在配額范圍內提供彈性服務,為用戶的應用程序提供調度和業務擴展功能,并支持資源池資源的擴展以滿足用戶的更大規模的需求。
綜合運維管理平臺包含運維和運營兩個模塊。運維模塊對資源層進行智能運維,包括對操作系統和應用程序的監控,以及操作系統級別的更改和配置。運維模塊能支持第三方操作系統和應用監控工具的可延展性,同時能夠監控、規劃和優化系統資源,對數據中心資源進行容量化管理,還提供告警和日志功能。該模塊還使用戶能夠及時發現并解決環境中的問題,從而避免問題擴大化。
操作模塊給用戶帶來便捷服務交付體驗,通過基本配額的部署和計劃,可實現用戶定義的項目和工作流管理。同時,操作模塊可對資產進行審核下放和資產回收,通過計量透明地管理成本,還支持應用程序部署、更改和數據監視。
為了保障云平臺的安全,云計算管理平臺還設計了完整的安全架構,分別從主機/虛擬化、網絡、數據、管理等多個層次來考慮,其總體架構如圖4所示。

圖4 云計算管理平臺總體架構Fig.4 Overall architecture of cloud computing management platform
三峽梯級水庫調度自動化系統依托虛擬存儲、存儲雙活、 集群等關鍵技術構建了云計算平臺,并以此為基礎,設計了以宜昌主調、成都備調、昆明應急調度的三地互備系統結構,實現了宜昌、成都及昆明三地的業務功能整合。該云平臺已完成設計和建設,從實效效果來看,具備較好的穩定性、可靠性、安全性,能實現系統資源的集中管理、動態調整、快速分配的目標。