周振煜,朱江,張明,萬明
(南瑞集團有限公司(國網電力科學研究院有限公司),南京210003)
隨著電網領域信息化的發展,電網企業根據各類業務場景興建的信息系統越來越多。信息系統及其基礎設施的正常運行對電網企業的正常業務開展有著重要保證。如何有效監控并反饋信息系統運行狀態也成為各個電網企業監控管理的重要內容之一[1]。
現階段電網企業針對信息化監控也構建了較多系統,如基礎設施狀態采集、信息化環境運行狀態展示、信息調度管控、資產資源管理等。數量繁多、功用不同的各類系統給監控整體統一的管理帶來了一定挑戰[2]。分析目前的電網企業信息化監控領域可以發現存在下述問題:①IT資源配置信息分散,不同系統各自維護一套資源配置信息,導致部分系統間存在冗余甚至重復數據,而依據不同維度建立的相關資源間關系分散在不同系統中,系統間資源信息缺少融合。②監控數據存在孤島,各類監控數據缺少關聯分析。當前的監控系統對應用系統各類信息進行分類,如設備的配置信息、運行信息、告警日志等,但監控信息的處理基本上是依據各類數據提取監控指標信息,各類數據之間信息割裂,缺少關聯分析,故障告警只能提示運維人員哪里有問題,無法定位導致問題的原因,依然依賴于人工經驗做進一步判斷。③可視化體驗較低,系統拓撲內容單一,使用價值比較低。目前的監控可視化研究多數集中在通過豐富的圖元組合實現各類監控指標的展示,也有對系統體系關系的拓撲可視化的研究,但缺少貼近業務多維度統一的可視化應用研究。
為解決本文前述的信息化監控領域存在的問題,本文設計的系統依據廣東電網公司用戶現實監控全景化要求,將重點放在數據和系統功能的整合上,從而統一整個廣東電網公司信息監控領域的IT資源配置信息,優化系統拓撲可視化內容,集成展示重點業務需求的信息內容。已在運的監控類系統、數據中心及管理應用、全景式綜合展示,其中數據中心對外提供統一的IT配置信息獲取接口。
已在運的監控類系統是依據各個不同監控需要構建的具體業務系統,是目前廣東電網信息化運維的重要保證,從IT基礎設施運行性能情況、信息化環境狀態分析及告警、信息調度流程管理等多個方面對當前廣東電網信息化環境進行監控。各個系統中的拓撲性能展示、告警管理展示、流程工單展示等內容都是當前運維監控人員使用程度較高的模塊,這些模塊將作為構建全景式運行監控系統的基礎?;谝延械男畔⒒O控建設成果,可以避免重復的功能建設,極大程度地減少新系統的建設投資,同時使用戶對新系統的熟悉度相對較高。數據中心及管理應用提供新系統及所有已在運的監控類系統統一的IT資源配置,旨在解決當前IT資源配置信息分散冗余等問題。數據中心的建設需要分析現有信息化運維監控領域涉及的IT資源配置信息種類、屬性、關系等諸多要素[3]。
全景式綜合展示提供本系統監控可視化界面,本文設計的系統將充分利用當前信息監控的建設成果,依據運維過程中使用的相關等因素,將已有功能模塊進行重新組合,包括功能整合和數據整合。最終通過以信息化業務系統為粒度,實現信息化業務系統全景式監控內容的展示。
數據中心作為全景式監控系統進行IT資源配置管理的重要模塊,在兼容現有監控資源數據的同時需要兼顧擴展性,因此本文的設計中基于CMDB的思想,對數據中心進行了設計。
分析廣東電網公司現有監控資源數據,可以將資源配置數據按照類型劃分為主機、數據庫、中間件、路由器、交換機等,同時依據現實物理關系和各系統中已經構建的類型間關系,如:設備與設備、設備與應用、應用與應用、資源與工單、采集與資源等等,得到本文構建系統的資源模型,如圖1所示。
依據上述模型,可以實現數據中心的實體庫表設計,同時將構建自動發現+標準流程+人工維護的數據中心數據的維護方式,即:
通過信息采集,實現運行信息的自動發現入庫,降低維護成本,提高數據準確性。
通過標準化的運維流程,實現資源配置信息的變更維護。
通過維護界面,實現對無法自動發現的信息進行人工維護,如負責人等信息。
數據中心還將設計統一的數據接口提供對外數據調用功能,本文定義下述接口規范來定義數據接入和消費標準,保證配置項數據的安全性、準確性。

圖1 數據中心資源及關系
全景可視化的意義在于在有限的監控可視化頁面中盡可能提供更豐富的信息?;跀祿行?,將監控數據貫通,就可以在集成多個系統可視化頁面的同時,提升每個可視化頁面的信息量,配合監控大屏提升可視化體驗。
廣東電網公司在已運行的監控類系統中篩選出下述重點使用的功能頁面:拓撲性能展示、告警管理展示、流程工單展示。其中拓撲性能展示提供了所監控的業務系統基礎設施及中間件等內容的拓撲關系,提供端口、鏈路等性能狀態展示;告警管理展示提供所監控的業務系統的硬件及軟件的異常狀態的告警通知,通過聲音、視覺、短信等多種方式對告警相關人員實現實時提示;流程工單展示信息化環境運維的檢查、維修等工作的審批及通知。此3個監控頁面存在如下相關性:當告警信息提示業務系統異常,可通過拓撲模塊檢查錯誤物理或者邏輯定位,對比流程工單信息排除正常檢修工作造成的異常,運維人員僅需要對排除剩下的異常進行問題排除和原因分析。本系統設計中將對這三類展示功能實現集成,如下圖2所示:

圖2 全景可視化頁面
本文提出的一種基于數據中心的全景式運行監控系統,該系統解決了多年信息化監控系統建設導致的IT資源配置信息分散,數據冗余重復;數據缺少關聯,存在應用孤島;各系統的可視化體驗效果差的問題。同時基于數據中心的設計對信息化監控領域進一步運用大數據技術,實現狀態預警,輔助決策支持等下一步發展奠定基礎。