謝銀海 張常亮 何星庭 田娟
1. 四川省氣象探測數據中心 四川 成都 610072;2. 高原與盆地暴雨旱澇災害四川省重點實驗室 四川 成都 610072
隨著信息技術的發展和普及,四川省氣象探測數據中心機房里運行的天擎、天鏡、資源池、核心網絡和安全設備,集約化精細化程度越來越高,氣象數據量飛速增加,計算機系統及通信設備數量與日俱增,規模越來越大,中心機房、計算機系統和通信網絡已成為各大單位業務管理的核心部分。為保證其安全正常運行,與之配套的機房動力系統、環境系統、消防系統、保安系統必須時時刻刻穩定協調工作。傳統的機房管理往往不能及時排除故障,對事故發生的時間及責任也無科學的管理;更缺乏對已發生的故障作全面的分析數據,使得問題不能得到完善的解決[1-6]。
本文基于省級綜合業務實時監控系統技術架構,充分研究機房動力環境所亟需的綜合監控需求,設計數據中心機房監控系統。該系統對機房多種設備實現了集中監控,主要包括機房動力系統監控、機房環境系統監控和視頻監控,具有完善的監測和控制功能。通過Web頁面展示,實時記錄各類事件,對故障事件提供及時的告警,有效提高了運維人員的管理效率,能夠快速高效的排除故障,并對已發生的故障做出全面的數據分析,實現了機房可靠的科學管理。
該系統由通信局(站)、區域監控中心、監控中心、用戶終端、上層管理平臺組成,層次分明、結構簡單、邏輯清晰。采用分布式部署,在每一個數據中心分別部署一臺監控主機,作為該數據中心的前端數據采集器,記錄本地監測數據、操作記錄、告警發送記錄等,并支持控制傳感器[7-8]。該系統的物理流程圖如圖1所示。

圖1 機房監控物理結構
1.1.1 通信局(站):由環境監控主機、傳感器、監控模塊等組成,實現對現場環境、動力設備、消防安防等數據采集。現場傳感器通過雙絞線接入到環境監控主機接口上,各種智能設備通過智能監控模塊將采集到的數據直接接入環境監控主機。
1.1.2 區域監控中心:由區域監控服務器組成(可由監控中心服務器集成服務,分配訪問權限),監管及運維區域內通信局(站),存儲區域內通信局(站)上傳的數據。同時向上級監控中心轉發區域內各通信局(站)的數據。
1.1.3 監控中心:由主監控服務器、備監控服務器、智云中心組成,存儲通信局(站)上傳的數據,系統采用B/S架構,作為數據后臺可支持前端PC設備、客戶端App等多種方式訪問。同時提供接口,可向第三方傳輸數據,便于集成。
1.1.4 用戶終端:客戶端App、PC端瀏覽器等多種方式管理、查詢、控制、運維、信息推送等。可實現各種統計報表、數據分析挖掘、告警管理、運維管理、權限管理和系統配置管理等。
1.1.5 上層管理平臺:通過VPN、公網等方式將環境監測的數據傳輸至第三方兼監管平臺,集中數據大屏展示。
系統具有良好的擴容性,對于監控對象的增減,機房增減,系統只需在原有設計的基礎之上增加相應的傳感器和監控模塊,而無須更改整個系統的原始設計,即可把新增的監測內容和監測對象整合到原有系統內。
服務器端擬采用Linux操作系統,客戶端擬采用Windows XP/Windows7/Windows10等操作系統。
1.2.1 編程語言:擬采用Java、Python編程語言,前端運維門戶網站及管理界面采用J2EE技術架構和Java編程語言進行系統開發,后端的數據采集、數據存儲管理等功能采用探針、Python腳本、爬蟲、Spring JPA等技術進行開發,以滿足系統的數據來源多樣性要求。
1.2.2 數據存儲服務:數據存儲服務程序擬采用Java等編程語言進行開發,采集數據主要通過接口進行讀寫,配置信息擬復用天鏡系統作為數據存儲平臺。
1.2.3 數據通信服務:擬采用Java等編程語言進行開發,數據通信服務程序提供FTP/HTTP/Socket等多種通信接口,以便和多個數據源進行數據交換。
1.2.4 用戶界面:擬采用AJAX+HTML+CSS3、React框架技術進行開發,豐富客戶端功能,支持IE9.0以上、Chrome2.x以上或其他主流瀏覽器。
選用主流工具和成熟的基礎軟件:開發平臺、智能報表工具、在線編輯器、WebGIS、數據庫等主要開發軟件和基礎軟件均選用穩定高效的主流開發工具,如Eclipse 3.3.x、IDEA 2018、Jasper Report、iReport、FCKeditor、HXGIS、Mysql、Restful等。
統計分析程序調用接口采用WebService技術實現,通過應用服務器的負載均衡策略,實現程序調用的高并發響應。如圖2所示。

圖2 機房監控技術架構
系統基于全國統一的氣象綜合業務實時監控系統(天鏡)數據庫,對接現有省局機房系統信息,按照天鏡數據庫入庫接口規范,將機房系統的監控數據資源錄入天鏡數據庫,然后通過數據獲取接口獲取已入庫的數據資源。
機房動力環境監控平臺架構包括數據支撐層、數據存儲層、技術支撐層、應用層和展示層5個部分,系統組成如圖3所示。

圖3 機房監控平臺架構
數據支撐層實現平臺所需監控數據的采集和處理,包括服務器,數據庫、網絡設備等基礎軟硬件資源,對接核心業務平臺如狀態數據對接CTS、省級綜合業務監控系統。監控數據源主要包括機房設備狀態數據、機房溫濕度數據、UPS監控數據、機房實時視頻監控數據、業務告警數據、火情漏水監控數據等。
數據存儲層通過省級綜合業務監控系統數據接口進行數據讀寫,數據存儲包括狀態數據(如精密空調運行狀態、配電開關運行狀態等)、數據指標數據(如溫濕度實時數據等)、采集任務配置數據(如定時任務時間、頻次數據)等[9-10]。
技術支撐層包括數據采集(探針、爬蟲)、對接和web服務(Spring Boot等)、展示(Echarts、D3、React、Nginx、三維可視化組件)等方面所涉及的技術支撐。
應用層包括數據采集分析、機房設備運行狀態監控、機房溫濕度實時監控、配電開關監控、監控信息可視化展示、監控告警等,通過API接口與現有省級綜合業務監控系統對接。
展示層主要包括監控信息的可視化,實現各分系統監控功能展示及可視化視圖展示,告警信息推送給各級業務保障和管理人員。
系統功能主要包括動力監測,環境監測,系統日志,告警管理,數據統計,權限管理等模塊。系統首頁如下圖4所示。

圖4 系統首頁展示
包括市電監測、配電開關狀態監測、UPS監測。市電監測實現是通過在配電柜中安裝一個電量儀,電量儀連接市電的進線和電流互感器的連接線,然后將電量儀用雙絞線與環境監控主機傳感器接口相連。從而達到監測電壓U、電流I、頻率、功率因素、有功功率、無功功率等參數。配電開關狀態監測實現是通過在配電柜中安裝一個配電開關模塊,配單開關模塊并接空氣開關的出線和連接電源防雷器輸出的信號,然后將配電開關用雙絞線與環境監控主機傳感器接口相連。從而達到監測市電配電主要空氣開關斷開或閉和狀態,電源防雷器(帶開關量輸出)的狀態。UPS監測實現是通過用數據線或網絡線將UPS直接連接到智能監控模塊上,由智能監控模塊將數據轉發到環境監控主機上,這樣監控主機就可以直接獲取到UPS的各項運行參數、工作狀態、報警信息。從而達到監測UPS整流器、逆變器、電池(電池健康,含電壓電流等數值)、旁路、負載等各部分的運行狀態與參數。
包括溫濕度監測、漏水檢測、視頻監測。溫濕度監測實現是通過將溫濕度傳感器布置在需要監測的區域,將采集到的信號傳送到環境監控主機上,在Web頁面上以動態的電子地圖,實時監測處于不同空間位置的溫濕度的真實值。漏水檢測實現是通過在易產生漏水的區域鋪設漏水感應線,將感應線接到漏水控制器上,再將控制器的輸出信號接到環境監控主機。當漏水感應線檢測到有漏水發生時,系統會立即報警。視頻監測能對機房進行實時監視并在Web頁面查看,系統支持視頻多畫面瀏覽、錄像回放、視頻控制管理。
系統日志對自身及主機的操作、運行、訪問、告警均有日志記錄以便追溯問題。
自身系統日志記錄包含:操作日志、訪問日志、告警發送日志。主機日志記錄包含:訪問日志、操作日志、事件日志。
當監測項超過設定的上下限值,判定為告警事件,為避免環境監測量處在設定的上下限閾值波動時,系統不斷地重復判斷為報警事件,重復發送報警信息,增加預警狀態,僅當監測量越過上下限值一定的時間才判斷為報警事件,預警時間可設置。告警展示通知告警信息及告警反饋信息流水式展示,在告警臺主頁面實現對嚴重告警信息及反饋信息流水式查看,以時間規律查看嚴重告警生成情況,并通過查看某個時間的告警事件,告警信息能夠自動關聯故障源的配置信息,掌握故障資源的相關管理信息,提升故障處理效率。
數據統計可選擇查詢的起止時間和查詢的傳感器來查詢該監測點在這段時間內的數據。查詢的內容含有數據采集時間、描述、類型和數據。可對歷史數據做趨勢分析、對比分析,告警數據做告警次數統計、離線次數統計,并可查看更多數據。可選擇起止時間、選擇具體某一個監測對象來進行小時、日、月統計。
該研究從頂層設計出發,建立數據中心綜合監控管理平臺,實現機房基礎設施的一體化監控、管理。該系統具備全面的監控管理功能、系統兼容能力、系統擴展能力。設計建設流程化、信息化、自動化、智能化、可視化的數據中心基礎設施監控管理系統。
可以實現機房基礎設施精細化管理,保障機房可用性;實現高度統一的信息共享、相互協調和聯動功能,機房整體監控及管理所需要的重要信息進行綜合處理、集中管理;實現各子系統之間的信息共享和集中的設備監控、報警管理等功能,并通過信息發布系統實現關鍵信息的展示與交互操作。
為機房內各系統及設備運行提供高度穩定可靠的監控信息資源,減少了管理人員的負擔,能夠快速高效的排除故障,并對已發生的故障做出全面的數據分析。