李 凌,金文杰,陳躍國
(國網浙江省電力有限公司金華供電公司,浙江 金華 321000)
電網系統建設作為國家重要的發展戰略之一,始終是我國基礎建設投入資金最大的項目之一。尤其是近年來,隨著工業化水平的不斷發展,電網系統承載的工作量與日俱增,電網系統的各項內容不斷趨向智能化。與傳統電網系統相比,現代電網系統擁有更加復雜的結構、承載更多的工作內容且運行程序更加多樣。因此,任何一個環節出現問題,都會對供電系統的正常工作帶來困擾[1]。所以,專業人員需要有效監督和管理電網系統。智能網絡告警系統可以有效監督管理系統,全天候監控系統的運行,并在發生故障時第一時間反饋并精準定位故障地點,幫助工作人員快速解決問題。
隨著互聯網技術的不斷深化,網絡規模與復雜程度越來越高。基于網絡智能化的電力告警系統將直接影響電力系統的安全和正常運行[2]。電力系統監控涉及許多復雜的設備,而告警系統的工作是集中收集和管理監控設備內容,并及時反饋突發情況。
電力監控系統與其他系統相比,具有設備與用戶相對確定、網絡空間隔離性強且服務私有可控等特點。所以,一旦出現脫離用戶和設備常規使用內容的操作,便被視為出現安全隱患[3-4]。安全監測系統與產品一般基于網絡流量與報文分析技術,工作對象一般基于互聯網通用服務與協議,并不適用于電力監控系統。
傳統使用的內網安全監控平臺只能對便捷網防護進行有限范圍的監控,無法排除系統內部的危險隱患,也無法及時有效地監控分析安全區內部主機和數據庫等的相關內容。基于此,在原有的內部安全平臺上,采用基于事件和面向設備的技術路線,以主機操作系統和網絡設備固件作為依托,實時直接管理設備[5]。另外,基于調度數據網絡、廠站監控、配網調度、配電自動化以及負荷控制等系統實現集中監控,并且進一步完善網絡綜合管理功能,保證電力系統的安全運行。
電力系統的內容復雜,其告警系統的流程涉及較多,主要步驟如圖1所示。

圖1 告警系統流程圖
當前電力系統中的網絡告警系統在各個階段還存在許多問題。第一,告警信息采集階段。當前告警信息的采集主要依靠專業網管或者廠商設備采集告警消息,存在告警通報方式缺乏統一的通報標準、告警信息漏報以及告警風暴與接入數據不完整等問題。第二,告警關聯分析階段。該階段主要是向告警內容添加標注,常見問題包括缺乏清晰的關聯規則與對業務產生影響的關聯分析等。第三,告警呈現階段。該階段將經過關聯與分析后的處理信息告知用戶,常見問題包括告警呈現存在滯后性、關鍵的告警信息往往因為大量干擾導致推送緩慢等,后期應當與物理對象和地理等各類信息相結合,實現故障定位。第四,告警預處理階段。該階段的主要問題包括無法自動識別和判斷故障原因、難以將日常人工經驗以智能程序化處理方式固化。第五,告警處理階段。該階段的主要問題是如何有效屏蔽工程預警并實現智能派單。第六,故障恢復階段。該階段主要通過分析告警信息對異常告警信息進行歸檔,并對規章告警指標進行專題分析,面臨的主要問題是無法全面準確地分析異常告警,難以有效體現故障收集管理取得的成果。
4.1.1 告警標準規范統一化
通過多對一的映射關系,統一標準且清晰的告警信息,搭建消息連發機制,杜絕漏報告警現象。設備生產廠家在設備消息發送時,要求數據消息以連續正整數作為編號[6]。從數字1開始,以信息實時發布通道(如一個MQ隊列或socket端口)為單位進行編號。當編號數值超過最大值時,可以重新開始編號。在信息緩存方面,數據生產者最少要保存5萬條以上數據,或者保存6 h之內的告警。
4.1.2 搭建優先上報通道,解決告警風暴
優先上報通道的流程,如圖2所示。建立重要告警優先上報機制,依據告警級別、專業、標題以及對象類型等相關參數,制定告警優先上報規則[7]。將優先隊列和普通隊列同時解析入庫,告警風暴出現后,優先觸發重要告警優先觸發機制,優先處理普通隊列,并且生成相關文件。

圖2 優先上報通道
4.1.3 建立資源與告警核查,保證接入的數據可覆蓋全專業
核查接入的資源,內容包括數據的完整性、有效性、數據格式的規范性以及網元連接關系。
選擇可能出現關聯性的告警條目范圍,分析以往經常出現的大范圍故障類報警。例如,大范圍設備退服等,時常伴隨大量的los和linkdonw告警[8]。
自主設定關聯規則,確定可關聯告警所包括的專業網元類型,選擇可關聯的字段,包括資源關聯關系、端口描述以及機房地址等,還可選擇關聯規則,如模糊匹配和完全匹配等。
模擬驗證告警關聯。主要模擬兩類告警,第一類是關聯告警,第二類為衍生告警[8-9]。制定關聯規則后,選取相關歷史警告開展模擬關聯、生成關聯成功率和無關聯告警清單等數據。
依據故障的具體情況,根據相關監控部門的預處理能力,將故障分成人工預處理與系統預處理兩類。通過兩類處理方式補充相關信息,以此不斷完善處理方案,并為下一環節的工作提供參考,以此提高整體效率。告警預處理的工作流程如圖3所示。
自我設定工程告警的屏蔽規則,即首先匯總各專業網管的屏蔽規則,其次選取故障告警系統和專業網管屏蔽規則數據共有的數據,再次選擇跨專業網元關聯規則并對其進行人工確認,最后完成工程告警屏蔽。
4.5.1 告警入庫階段
告警入庫后,統計專業網管的告警是否標準化,是否為異常告警,并匯總無法歸納的告警。

圖3 告警預處理
4.5.2 告警關聯階段
判斷可能需要關聯的告警,并分析和總結無關聯告警與無法關聯情況。
4.5.3 告警預處理階段
記錄每次進行預處理的告警過程,包括是否經過預處理和結果等[9],并對預處理失敗情況進行分析和分類,如登陸或者指令下失敗等。
綜合網管告警系統的網絡方案不僅考慮當下的實際需要,還要從未來考慮整體規劃。所以,告警系統的網絡架構要保證做到開放性和可擴展性。系統網絡架構如圖4所示。

圖4 系統網絡架構
系統由集中告警、告警采集、告警發布平臺、數據庫以及業務處理與WEB服務器等部分組成。系統使用插件方式與各專業網管系統的告警數據相連接,如將數據適配器插件和數據庫接口連接[10]。在具體的實際應用中,可以依據具體情況將多個平臺安放在一臺機器中,如將數據庫、業務處理以及WEB服務器放置在同一機器。
隨著經濟的快速發展,電力系統的規模逐漸擴大,以往單純依靠內網安全監視平臺和增加維護人員的方式已經無法解決現存問題。通信網絡的變化帶來告警信息量的增加,使用最少的投入實現最大化的解決維護困難問題是根本途徑。綜合網絡告警收集系統除了要智能化升級傳統的內網安全監視平臺外,還要利用維護人員制定的告警信息分類和維護規則,準確分辨和優先處理重要告警事件。不僅提高了工作效率,還提高了反應速度和準確性,保證了電力系統運行的穩定性。