陸宏波 魏海波 袁以友
摘要:隨著國家電網公司分布式數據中心建設數量的不斷增加,受困于分布式機房的規模、距離等客觀因素,運維人員疲于奔波應付巡檢和故障檢修,導致分布式數據機房運維效率低下,運維人員工作量日益加大。為了提升分布式數據中心監控管理和故障處置能力,該文將研究一套分布式數據中心統一運營支撐平臺,通過對數據中心機房設施進行統一管理,對故障告警進行分級派單處置,對數據中心的可用資源以及運維專責靈活調度,提高運維效率,保持分布式數據中心的安全穩定運行。
關鍵詞:分布式數據中心;運維管理;運營管理
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)04-0029-03
1 研究背景
隨著國家新基建戰略部署,國家電網公司加快推進新型數字基礎設施建設,融合建設數據中心、充換電站、儲能站、5G基站、北斗基站、光伏站等“多站融合”式變電站。2020年國家電網公司已完成1100余座分布式數據中心站建設,并且數量正在呈現規模化態勢增長。這些數據中心利用現有的電力變電站閑置土地資源價值,但因具有“偏遠、分散、規模小、交通不便利”等客觀因素,給數據中心的運維管理工作帶來了新的挑戰。
目前這些“分散式、小型化”的數據中心機房運維工作僅依靠變電站點的運維團隊,存在無專業運維人員值守等問題。現有的機房管理系統僅能實現分布式多機房設施綜合監控,很難做到機房運維的集中調度和設施遠程控制的調節。基于這些分散數據機房的運維管理的現狀,需要一套統一的綜合運維運營管理系統,能夠納管分散的數據中心站的設備以及系統,不僅能夠滿足監控需求,還具備遠程控制和管理調度的能力。以實現分布式數據中心的自動化運維、智能化運維和自主化運營。
在人員成本日益提升的今天,如何提高分布式數據中心運維管理效率,提升機房故障處理時效性,保障數據中心安全運行,是當下研究分布式數據中心綜合運維業務的重點和難點。
2 平臺設計原理概述
分布式數據中心統一運營支撐平臺從總體架構設計、機房基礎設施運行數據采集、機房基礎設施運維管理、機房能效提升、機房調度控制管理五個方面進行設計。以總體架構設計方法論、數據采集、大數據分析、運行監控、遠程控制、數據中心運維體系等原理技術為理論研究基礎。各原理相應的理論支撐與研究內容的層次架構如圖1所示。
從系統的邊界關系的角度,分布式數據中心機房及基礎設施運行管理可作為運維門戶的子模塊與統一權限平臺進行集成,亦可作為系統平臺獨立部署,對數據中心機房及基礎設施運行管理進行用戶、角色、權限的統一管理。與電力監控子系統、暖通監控子系統、機房環境監控子系統、視頻門禁監控子系統以及消防報警子系統進行集成,通過采集接口采集各類基礎設施運行數據和告警數據。
在總體架構關系中,業務架構從業務角度對分布式數據中心機房及基礎設施的運行和管理等業務進行精細化、總結化,形成完整的業務能力即視圖,為應用和數據的架構提供業務邏輯輸入。應用架構和數據架構都基于業務架構,從系統的應用功能角度來定義功能的種類、應用功能模塊的劃分和應用的分布,組成了分布式數據中心機房及基礎設施運行管理的應用架構輪廓圖。從支撐業務數據的角度對應用數據模型、分類、存儲以及流轉等方面進行規劃設計。從技術原理實現的角度定義系統的各個組件的集成方式、部署方式以及關聯關系。
3 架構及功能設計思路
3.1 總體結構設計
“分布式”數據中心采用“中心站+分支站”的運維模式,通過構建綜合運維平臺實現“中心站”的統一監控和“分支站”的分層運維管理,并可實現的數據共享,在應急情況處理時,其他“站點”的管理人員也可以實時掌握信息。針對“中心站”數據中心,可將所有數據都匯總到中心站的支撐平臺上進行統一管理、集中展示;而各個“分支站”的數據中心可進行獨立的運維管控。
本方案采用Vertx 全異步式框架構建分布式數據中心統一運營支撐管理系統,適合物聯網、分布式應用的海量設備接入。其次Vertx 也是微服務架構,可匹配國網微服務開發架構,方便和其他系統實現對接與集成。數據庫采用開源的PostgreSQL,PostgreSQL是功能最全面的數據庫,在集群方面有開箱即用的解決方案,數據庫的擴展能力強,通過Extension 可以實現未來的各種高階應用(如OLAP 數據分析,GIS 地理位置等)。為實現海量設備和海量數據的接入,硬件資源采用物理服務器方式,并配置SSD 固態硬盤做數據加速,便于數據的邊緣計算、數據分析的應用。面向復雜SQL 處理的OLTP 在線事務處理場景,支持NoSQL 數據類型(JSON/XML/hstore),支持GIS 地理信息處理,適用于互聯網、位置應用系統、復雜數據對象處理等應用場景。同時可以配合分布式集群軟件,做讀寫分離、負載均衡、數據拆分等方案,實現數據的快速讀取,支撐各類系統的大數據應用及分析計算的要求。
3.2 功能模塊設計
3.3 基礎設施數據采集、監控運維
基礎設施運行數據采集主要包含電力設備的運行數據采集、暖通設備狀態采集、弱電設運行數據采集、消防設備運行數據采集、機房環境設備運行數據采集、傳感器設備運行數據采集。利用各“站點”數據中心內的采集傳感器設備對機房內基礎設施運行數據進行采集。通過數據采集實現提供機房基礎設施管理和能效策略的數據基礎。
基礎設施運維管理是進行基礎設施狀態和運行的監控,以及機房日常的巡檢、檢修工作,包括電力設備監控、暖通設備監控、給排水設備監控、弱電設備監控、環境設備監控、消防設備監控。基于數據采集基礎上,對異常設備發出告警,并進行檢修工作。基于采集的基礎設施監控以及運行數據,利用統一支撐平臺實現分布式數據中心的綜合運維管控,包括基礎設施運行狀態監控、基礎設施運行告警、臺賬管理、可視化展示、設備巡視同質化管理、設備檢修同質化管理、應急演練同質化管理等。
3.4 機房能效策略及可視化
機房能效策略研究是基于機房基礎設施運行數據采集和運維管理的基礎之上。通過對設施監控數據的采集及日常運行管理工作,構建能耗模型(總體能耗模型、單設備能耗模型、PUE模型、pPUE模型、影響分析模型、IT聯動模型、節能控制模型等),利用統一的支撐平臺結合大數據分析技術,結合模型計算各機房能耗及PUE值并進行智能分析,給出機房能效優化和改進策略,并根據策略實現對機房能耗的控制。
總體能耗監測:系統自動進行采集相關數據,并進行總體能耗計算。
分項能耗計算:自動收集并計算IT用電量、空調設備用電量、配電設備用電量等分項能耗數據,以量化的方式展示分項能耗的數據,掌握能耗的實時信息、發掘節能降耗的切入點以比對分析降低能耗的差異性。
PUE計算:按一年時間采集及統計數據中心總耗電、IT設備耗電。計算公式:PUE=數據中心總耗電/IT設備耗電。
實時PUE計算:能效指標的數值受機房環境、設備性能等各種因素的影響。故采用固定儀表進行實時測量,根據電量數值計算實時PUE,并采用自動化測量和記錄。計算公式:實時PUE=數據中心總功率/IT設備功率。
pPUE計算:局部范圍的PUE適合用于基于冷通道、微模塊等單元型構建的模塊化數據中心。計算公式:pPUE=局部機房總用電/局部機房IT設備用電。
CLF計算:系統將收集的數據,通過公式計算得出CLF值。計算公式:CLF=制冷設備耗電/IT設備耗電。
PLF計算:系統將收集的數據,通過公式計算得出PLF值。計算公式:PLF=供配電系統耗電/IT設備耗電。
數據機房設施可視化利用了數字孿生技術,將分布式數據中心的實體基礎設施在數字空間中構建出來,并根據模型辨識和算法設計來對基礎設施的特性、關系、參數、指令等進行描述和管理,包括數據中心的3D建模、設備空間分配模型、機房溫度場模型等。通過數字孿生技術,運用模型構建和算法設計,將分布式數據中心的基礎設施運維管理數字化。
3.5 分布式數據中心資源調度和控制
通過云端分布式數據中心運營支撐管理系統對各分布機房的設施運行狀態以及監控告警進行分析,對城市各區域的機房運維負責人、運維專員等進行綜合調度,遵循告警及時發現、故障及時處理、工單及時關閉的機房運維策略,通過對運維工單、人員的綜合調度實現分布式數據中心的安全運行。
利用平臺對各站點數據中心的基礎設施進行遠程操控,實現日常的設備簡單操作,例如門禁遠程授權、設備遠程調節、重啟等。通過遠程控制的手段解決一些日常的運維管理問題,為機房運維工作提供便捷,提高效率。
4 總結
通過基Vertx 全異步式框架的分布式數據中心統一運營支撐管理平臺建設,實現分布式數據機房的集中運維與管理。基于數據機房基礎設施與資源的數據采集和運行監控,實時掌握各機房設施運行狀態以及資源使用情況。對數據機房能耗和PUE進行分析,給出機房能效優化和改進策略。對各分布站點的資源使用情況以及故障工單處置情況進行計算分析,實現數據中心資源的靈活調度和遠程控制。
通過建設分布式數據中心運營支撐管理平臺,實現數據中心機房基礎設施(供配電、制冷、弱電、防雷、安防、消防、機房等)運行指數據的實時采集、分析和展示,對數據中心運營情況、能耗利用等優化提供指導參考,進一步提升數據中心運營自動化、智能化水平。
參考文獻:
[1] 姚宗國,李金屏.兩級分布式數據中心的設計和實現[J].濟南大學學報(自然科學版),2008,22(4):384-387.
[2] 冷迪.一種分布式數據中心管理系統[發明專利]:CN111355788A[P].2020-06-30.
[3] 田兆楠.一種分布式數據中心鏈路監控方法及系統[發明專利]:CN109981377A[P].20190705.
[4] 劉正偉,呂廣杰,朱波.一種分布式數據中心云管理平臺架構系統及方法[發明專利]:CN104158879B[P].2018-02-23.
[5] 張艷麗.分布式數據中心可生存性及性能優化算法研究[D].成都:電子科技大學,2015.
[6] 張鵬.分布式數據中心 讓IT資源利用“最大化”[J].通信世界,2013(23):48.
[7] 季瑩.ZStack——云行業的“Windows”[J].網絡安全和信息化,2019(3):8-9.
[8] 趙建邦.HID:VertX門禁系統完美應用于高校[J].中國公共安全,2014(S2):138-139.
[9] 艾勇.IDC機房能耗分析及優化策略[J].中國電子商務,2013(18):22-23.
[10] 陳朝學.數據中心機房節能策略[J].科技信息,2008(29):83-84.
收稿日期:2021-08-11
作者簡介:陸宏波(1984—),男,安徽舒城人,中級,主要研究方向為IT運營和運維業務。