何潤泉
(廣東電網有限責任公司茂名供電局,廣東茂名525000)
根據南方電網一體化電網運行智能系統(OS2)建設及運行要求的二次系統一體化總體建設原則,一體化運維管控系統部署基于OSB服務總線的SOA架構平臺,遵循南方電網一體化電網運行智能系統(OS2)的總體架構和功能規劃,系統從硬件平臺、支撐平臺、各類業務應用功能等方面遵循一體化運維的原則,確保各業務功能模塊按相關標準規范實現一體化建設。系統以基礎平臺為應用支持,以資源管控、安全審計、運行維護為核心實現對主站二次系統的監視管理功能(圖1);結合目前電力技術、IT技術的發展,實現各類應用功能的智能化建設,提高了電網智能化應用水平,向電力企業提供了遵循國際標準的、分布式的一體化系統運行與開發環境,支撐業務面廣、信息量大,滿足南網“一體化、模塊化、智能化”調度技術支持系統建設的要求。

圖1 一體化運維管控系統架構
系統以《南方電網自動化運行管控系統建設技術方案》為指導原則,遵循“統一標準、統籌建設、統一管理、分區負責”的總體思路在南方電網一體化電網運行智能系統(OS2)標準框架下開展自動化運行管控系統建設,統籌考慮、分步實施、逐步完善,實現對主站的二次系統建模、運行狀態及安全監視、告警、監視畫面等信息的接入及綜合展示,提高自動化、一體化運行管理水平。
一體化運維管控系統主要建設內容包括資源管控、安全管控和系統支撐平臺三大部分,以系統支撐基礎平臺為應用支持,以資源管控、安全審計、運行維護為核心實現對主站二次系統或設備的監視管理功能。
IT資源管控模塊實現主站端的主機、網絡設備、中間件、數據庫、存儲、備份和安全設備等平臺基礎軟硬件和業務應用系統等設備對象的配置信息、運行信息的采集和管理。
2.1.1 IT資產管理
通過對主站二次系統設備配置SNMP協議,建立統一的團體名和端口號,運維管控系統各安全區IT資源管控功能模塊自動搜索本安全區內二次系統設備和采集系統及設備運行狀態信息,通過獲取來自各個安全區的采集到的數據,根據模型解析入庫,形成統一的IT設備資產管理和跨廠商、跨平臺的統一拓撲管理。IT設備資產管理對支持SNMP協議的設備自動識別設備類型、型號、生成廠家以及設備的硬件配置信息,如CUP、內存、DMA、I/O、DISK等,對網絡設備能識別到端口的類型、速度、端口工作模式等,并對識別入庫的IT資產進行分類管理;物理連接網絡拓撲管理將網絡交換機、路由器、主機、防火墻等應用于保障二次系統的設備納入統一的管理視野,按真實架構關系進行互聯,提供統一的全方位可視化管理。
2.1.2 IT資源監控
一體化運維管控系統IT資源管控模塊能接收和檢測到各種形式的設備運行、故障告警、閾值告警信息。主要包括:
(1)服務器性能監視,自動收集服務器的CPU、內存、DISK等性能狀態,并與設置閾值進行比較監視,及時發現及處理資源分配出現的不正常或者服務器運行中core文件大量產生影響服務器運行性能的情況。
(2)服務器進程運行監視,服務器正確情況下運行著大量的系統進程和應用進程,通過進程管理能有效避免由于進程過多導致占用大量系統資源,造成服務器不穩定的可能性。通過進程運行監視能及時監視服務器所有進程的名字和設置匹配的進程數量,當出現異常時能及時發現并解決問題,避免故障發生。
(3)KPI運行指標監視,通過收集所需監控數據構建可視化的KPI指標駕駛艙,正確反映ICT基礎設施、業務系統、網絡拓撲的實際運行狀態,能夠滿足實時運行和事后統計的需要,預防并及時發現二次系統運行過程中的安全隱患、主機運行負載過高、網絡流量異常等問題,為二次系統運行提供決策依據。
2.1.3 IT資源分析
運維管控系統根據當前數據或歷史數據,實現多種角度的數據分析,為業務系統或設備的性能分析及故障分析提供依據。通過數據分析預測未來的需求及發展,提高服務質量及管理層次。數據的分析、匯總及統計功能包括:
(1)對于不同類型的設備,選擇監測不同的性能指標,提供監測性能數據(如設備的內存、CPU、網絡流量、磁盤、響應時間、可用率等)從大到小TOP N排名情況,便于及時發現系統中負荷最重的資源;
(2)提供常用的網絡、系統、通用、SLA等多種報表模板,運維人員可基于模板根據不同需求靈活定義分析內容。
安全管控模塊可對已接入運維管控系統監管范圍內的所有設備,包括一般主機及安全設備,如防火墻、正反向隔離裝置、縱向加密裝置、入侵檢測裝置、運維堡壘機等安全設備的安全策略、日志進行關聯分析,結合漏洞掃描、防病毒系統、網絡運行日志、操作系統運行日志、數據庫重要日志、業務應用系統運行日志等對全網的整體安全情況進行綜合審計,及時發現各種違規行為以及病毒和黑客的攻擊行為。
安 全 管 控 模 塊 通 過 SNMP、Trap、Syslog、JDBC、WMI、FTP、NetBIOS、OPSEC等多種協議方式對監管范圍內的所有設備完成日志收集,并對異構日志格式統一規范化及日志設備類型、日志類型、日志級別等進行重定義。系統結合知識庫和規則引擎等專家系統技術、人工智能技術的支撐,從海量原始日志數據中提取關鍵信息進行分析,以多維度實時監視的形式展示安全事件并自動識別與網絡安全防護相關的內容,對于需關注的網絡安全事件可依據其源目的IP和端口信息進行深入的事件追蹤調查分析行為,并可視化地展示描述事件之間相互關系的行為圖,使得運維人員及時準確掌握網絡運行故障,以便及時發現和修復網絡故障,提升系統網絡安全防護水平,保障二次系統的有效運行。
一體化運行管控系統部署于OSB服務總線,以基礎平臺為應用支持,以資源管控、安全審計、運行維護為核心,實現對主站OS2系統設備的監視管理功能;系統支撐平臺通過資源管理、告警管理、指標管理、風險管理與數據分析、優化方法等構成面向對象的一體化綜合智能管控平臺,將人工管理和信息點自動識別相結合,同時在系統內建立故障自動檢測、報警功能模塊,讓整個網絡系統出現故障的節點在第一時間被監控系統自動檢測,并向相關運維人員及時發出正確的報警信息,有效幫助二次系統運維人員解決信息化資源安全管理問題,實現從單項系統的運維到跨系統、跨設備信息化協調一致統一管理,從單點解決方案到覆蓋各方面的全面管理,從面向功能的系統自動化到面向服務的IT流程自動化和從靜態的被動管理到實時動態的前瞻性管理,從而提高系統運維質量,保障系統安全可靠運行。
一體化運維管控系統的建設對自動化運維管理工作的開展有著顯著的提升作用,主要表現為以下方面:
通過對主站端的主機、網絡設備、中間件、數據庫、存儲、備份和安全設備等平臺基礎軟硬件和業務應用系統等設備對象的配置信息、運行信息的采集和管理,物理連接網絡拓撲管理將網絡交換機、路由器、主機、防火墻等應用于保障二次系統的設備納入統一的管理視野,自動檢測系統整體網絡架構,按真實架構關系進行互聯(圖2)。通過大量實時運行數據的自動化標注、顯示,直觀展示監視的系統運行全貌,打破各種監控系統業務視角不同、管理獨立、信息分散互不相通、安全策略難以一致的壁壘,實現電網運行業務和信息的橫向協同和縱向貫通,為自動化專業運維人員提供統一的全方位可視化管理平臺,從而有效監控設備及系統業務運行狀況,實現二次系統全面精準巡視。

圖2 二次系統全方位可視化管理界面
一體化電網運行智能系統(OS2)技術橫跨電力系統、自動化控制、計算機技術、通信技術等諸多專業,軟硬件實現方式眾多,數據分散、異構,通信方式不一,要實現全面的運維數據分析,及時發現及處理故障,需要運維人員不僅具有較高的專業技術水平,還要具備相當廣泛的專業面。因此,運維故障事件處理過程中,往往難以快速地提取全局的、有效的信息,從而導致難以及時識別系統事件,定位故障原因(圖3)。通過一體化運維管控系統對主站二次系統的建模、運行狀態及安全監視,結合知識庫和規則引擎等專家系統技術、人工智能技術的支撐,能夠快速地從全局海量原始數據中提取關鍵信息進行分析,及時識別系統事件,快速定位故障原因,為自動化運維人員提供快速決策的建議。

圖3 系統安全管控模塊告警信息詳細內容
本地區一體化運行管控系統經過一年多的實用化應用,打破了各種二次系統業務視角不同、管理獨立、信息分散互不相通、安全策略難以一致的壁壘,實現了電網運行業務和信息的橫向協同和縱向貫通,人工管理和信息點自動識別相結合。同時在系統內建立故障自動檢測、報警功能模塊,讓整個網絡系統出現故障的節點能在第一時間被監控系統自動檢測到,有效幫助二次系統運維人員解決了信息化資源安全管理問題,實現從單項系統的運維到跨系統、跨設備信息化協調一致統一管理,從而提高了系統運維質量,保障了二次系統安全可靠運行。