(國網江蘇省電力公司信息通信分公司 南京 210024)
近年來,電力行業信息化、智能化水平的持續提高,作為承載眾多電網業務的電力通信系統,其在總體規模、網絡容量、網架結構、覆蓋范圍和承載能力等各個方面均得到長足的發展。電力通信在智能電網體系中的基礎性技術支撐作用越發突顯,這對大規模通信網絡的整體管控和風險防范提出了更高運維管理要求。然而電力通信網絡復雜、異質的特性決定了通信運行維護人員在告警監視的實時性與故障處置的及時性方面始終面臨著極大的挑戰[1]。
在一個現實的電力通信網絡中,通常包含著多個設備廠家、不同技術體制的系統和設備,這些系統和設備會以光、電方式通過各種物理介質連接起來,相互之間存在著復雜的關聯關系。在運行中的通信網絡中,一個故障往往會引發不同系統/設備之間,以及同一設備不同層次的多個告警事件,而且告警事件的種類和原因各不相同。這些眾多的告警信息錯綜疊加,使得發生故障的真正根原因告警被掩蓋掉了,運維人員不得不花費大量時間與精力來診斷故障原因,造成運行維護效率低下,現場故障處置緩慢等問題。目前針對電力通信告警關聯分析的方法主要有基于規則(Rule-Based)、基于事例推理(Case-Based Reasoning)、基于因果關系(Casual-Model Approach),以及基于模型(Mod?el-Based)等分析方法[2~5]。這些分析方法通常需要借助專家經驗構建出相應的分析模型或甄別規則,具有針對性強、處理準確性高等優點。但隨著網絡結構的日趨復雜,告警發生機制以及告警之間關聯關系的不斷變化,純粹依賴于專家經驗很難真正構建出跨系統、跨廠家的動態關聯分析模型。因此,利用數據挖掘分析海量告警,從中挖掘出告警之間的關聯關系已成為一種發展趨勢。
本文在系統分析電力通信告警關聯特點的基本上,深入研究了泛化序列模式GSP(Generalized Sequential Pattern)算法原理,在此基礎上構建了通信網絡分層模型作為網絡拓撲約束,通過兩者結合實現了改進的GSP告警關聯挖掘。經過算例分析表明,本方法對電力通信告警關聯分析具有較好的適用性。
在電力通信網中,設備網元之間是相互關聯、相互影響的關系。通常某一設備網元發生故障或異常,會引發同一拓撲關系圖內多個相關設備網元或承載業務的告警,這種情況稱之為告警傳播。告警傳播的路徑可以是縱向的,即從物理層面向上層邏輯層面和業務層面擴散;也可以是橫向的,即向周邊的網元或系統擴散。因此,告警關聯需要發現這些原始告警信息之間的關聯關系,進而定位出發生故障的實際根原因告警。其形式化定義為:告警事件a和告警事件集合{a1,a2,…,an}有相關性,則a ?{a1,a2,…,an}表示a為根原因告警,由其引發了一系列告警事件集合[6~9]。
告警的關聯關系一般分成主次告警關系和衍生告警關系。而其中衍生告警關系又可細分為閾值觸發告警關系和同源關聯告警關系,如圖1所示。
主次告警關系表示存在著由主要告警引發一系列次要告警的因果關系,在實際操作中可屏蔽掉次要告警,只對主要告警進行展示與操作即可。閾值觸發告警關系表示在某一劃定區域和時域范圍內,多次發生的同類型告警超過了指定數量或比例的門限閾值后,衍生出一條新的告警信息。同源關聯告警關系表示對同一資源拓撲關系內無明顯因果關系的一批告警信息進行歸并,衍生出一條新的告警信息。

圖1 告警關聯分類圖
因此,電力通信網絡中的告警關聯挖掘需要從海量原始告警信息中找出各類告警信息之間直接或間接存在的關聯關系規律,從而提升告警定位的準確性。這種關聯關系規律一般是從頻繁出現的告警信息集合中找出集合內告警之間的內在關系,所以告警關聯挖掘可間接轉變為發現具有頻繁模式特性的告警信息集合。
GSP引入了滑動時間窗口、時間約束、分類層次等約束條件,比較適合通信網絡中告警數據的頻繁模式挖掘[11~16]。其主要算法過程如下。
1)設定原始序列集為S,最小支持度為Supmin;
2)設定i=1,遍歷原始序列集S,生成長度Length=i=1,滿足最小支持度Supmin的初始頻繁序列集Li=1;
3)遍歷長度Length=i的頻繁序列集Li,通過連接操作和剪枝操作生成長度Length=i+1的候選序列集C_Li+1;
連接操作:若長度Length=n的兩個頻繁序列S1={s1,s2,…,sn}和,滿足條件S1=,則S1和S2可通過連接生成長度Length=n+1的候選序列Ci+1=
4)遍歷原始序列集S,計算候選序列集C_Li+1中每個候選序列的支持度,若支持度滿足最小支持度Supmin,則將其放入Length=i+1的頻繁序列集Li+1;
5)若Length=i+1的頻繁序列集Li+1為空,表示無新的頻繁序列產生,則算法結束;否則令i=i+1,重復步驟3)。
在通信網絡中告警的傳播必然是沿著拓撲連接進行上下左右的擴散,因此將網絡拓撲結構作為GSP算法的額外約束條件可以提高告警挖掘的針對性和有效性。
SDH傳輸網絡作為電力通信的核心骨干層,是日常運行維護的重點監視對象。SDH傳輸網絡中的實體類型主要有分插復用器(ADM)、同步數字交叉連接設備(DXC)、終端復用器(TM)、再生中繼器(REG)以及傳輸線路(Trans Link)等。SDH傳輸網絡中對數據信息的放大、復用和再生等操作,以及支路之間的交叉連接實現可通過這些傳輸設備來實現。在TM與TM之間物理鏈路上承載的是端到端業務通道。通過對SDH傳輸網絡進行抽象,建立SDH的拓撲模型圖,從而能夠直觀、明晰地反映網絡中各組成部分之間的物理與邏輯關系,其可抽象為如圖2所示的分層模型圖。

圖2 SDH網絡分層模型示意圖
通過采集SDH網管系統北向接口的配置信息,依據圖2的分層模型構建相關的網絡拓撲約束關系,在傳統GSP序列模式算法中引入網絡拓撲約束關系,可以有效降低噪音和數據缺失帶來的不利影響,過濾掉可能存在邏輯錯誤的頻繁序列,進而有效提高挖掘的效率與正確性。
在具體實現過程中,利用電力通信網絡收集到的海量原始歷史告警數據,通過對告警的壓縮、布爾化和歸一化等預處理,消除數據冗余和不一致性。從網絡拓撲數據庫中分析網元設備之間的拓撲關系,生成網絡拓撲模型。在進行告警關聯規則挖掘和告警序列模式挖掘時,訪問網絡拓撲模型。若候選序列不在網絡拓撲模型中,則說明候選序列中的設備網元之間不存在告警傳輸路徑,可以過濾掉該候選序列。經過剪枝后的候選序列集可作為告警關聯規則與序列經驗庫。從而為后續實時告警的相似性分析提供科學依據,最終實現根告警的準確定位。其告警關聯挖掘過程如圖3所示。

圖3 告警關聯挖掘過程圖
從某省傳輸網中獲取一月內產生的原始告警信息65714個,分別采用傳統GSP與改進GSP進行關聯頻繁序列的數據挖掘。在傳統GSP算法中滑動步長采用定長時間,設定時間窗口大小為1600s,定長時間為940s,從而確保鄰近的原始告警信息能夠劃分到同一個事務中。在改進GSP算法中以網絡拓撲約束動態調整時間窗口的大小,盡量避免具有相關性的原始告警劃分到不同的事務中。選擇不同的最小支持度Supmin={0.7,0.6,0.5,0.4}分別對傳統GSP和改進GSP進行測試。其測試對比結果如表1所示。
測試對比結果表明,在最小支持度Supmin=0.5時,改進GSP算法執行時間只是傳統GSP算法執行時間的1/3,改進GSP挖掘出的頻繁序列模式數量也只是傳統GSP挖掘出的頻繁序列模式數量的1.3%。可見網絡拓撲約束的引入,從根源上能夠有效過濾掉大量不符合網絡實際拓撲的無用頻繁序列模式,從而使得改進GSP在數據挖掘算法的速度與精度上均明顯優于傳統GSP。

表1 原始告警數據測試對比表
告警監視是電力通信調度管理的重點要工作,也是運行檢修的主要依據。在復雜、異質的電力通信網絡結構中,各個設備網元之間相互影響。一旦網絡出現故障,運行維護人員很容易淹沒在一系列突發、海量的告警風暴中,從而延誤了故障排除的時間。在實際電力通信網絡中傳統的通信告警關聯挖掘方法由于其自身的局限性或多或少存在著缺陷,難以實現實用化。本文以電力通信網絡的原始告警信息為研究對象,結合電力通信網絡自身的拓撲結構特點,將網絡拓撲約束引入到傳統的序列模式挖掘中,大大減少了無用頻繁序列模式的輸出,有效提高了序列模式挖掘算法的速度與精度,保證了最終輸出結果具有實際的指導價值。
采用通信告警實驗數據對傳統GSP與改進GSP進行告警關聯的數據挖掘,測試結果表明改進的GSP在電力通信網絡的關聯分析中具有較好的適用性,為進一步研究通信告警關聯挖掘奠定了一定的工程實踐基礎。后續工作中,將繼續完善電力通信網絡的分層模型,使得網絡拓撲約束能夠真實反映復雜網絡環境下不同設備網元之間的真實連接關系,同時加大對原始告警信息的數據挖掘范圍與深度,確保改進GSP算法能夠指導實際的通信網絡運行維護工作。