尹 山 匡立偉
(1.武漢郵電科學研究院 武漢 430074)(2.烽火通信科技股份有限公司 武漢 430073)
隨著光網絡的高速發展,其運維也面臨著新的挑戰。從海量的告警數據中找到根源告警實時準確診斷故障,保障光網絡穩定運行至關重要[1]。
目前基于關聯規則挖掘的告警相關性分析已經取得了一系列的研究成果[2~6],其中應用較為普遍的是Apriori算法[7~8]以及在其基礎上的一些改進算法[9~11]。通過滑動時間窗口法進行告警聚類得到告警事務集是較為有效的方法之一[12~13]。但該方法沒有充分考慮到告警之間的業務關系,很可能將原來相關的告警劃分在不同的序列中。文獻[14]提出了網絡和時間約束的告警相關性分析算法,在時間和空間上進行關聯規則挖掘,有一定指導作用。因此,針對滑動時間窗口法的缺陷,結合網絡業務拓撲信息與告警相關性的關聯關系,本文提出基于業務拓撲的告警聚類關聯分析方法。該方法充分考慮光網絡結構,從光網絡業務維度壓縮告警,改進現有的告警聚類方法,使得將相關告警劃分在不同序列中的可能性盡量減小,為后續光網絡故障溯源提供了有效支撐。
傳統的滑動時間窗口法在窗口寬度和滑動步長的設定上存在一定不足[15]。光網絡中告警產生具有隨機性,產生時間具有不確定性。采用固定的窗口寬度和滑動步長,可能會出現如下問題:1)生成空白告警事務集,造成時間和空間資源的浪費,影響告警關聯規則挖掘效率;2)窗口寬度過小,同一故障產生的告警可能會被劃分到不同告警事務集,不能提取完整的關聯告警信息;3)窗口寬度過大,不同故障產生的告警可能會被劃分到同一告警事務集,降低告警關聯規則挖掘準確度。
因此,依據現網告警具有業務拓撲相關性,基于業務拓撲進行告警聚類,將一條業務鏈路上的告警劃分到一個聚類簇,得到一組具有業務相關性的告警。再定義時間窗來確定這一組告警在時間上是否相關。設一組具有業務相關性的告警事務集中的告警發生時間為t1,t2,…,tn,其中ti-1≤ti(2 ≤i≤n),時間差Δt=ti-ti-1,時間窗口寬度為ΔT,在時間窗內發生的告警,即Δt≤ΔT,才認為具有時間相關性。由此得到既具有業務相關性又具有時間相關性的告警事務集,彌補了滑動時間窗口法的局限性。
光傳送網(Optical Transport Network,OTN)的一個主要特征就是網絡的層次化。論文基于此特點對告警事務集進行規則挖掘。光傳送網的每個層次之間彼此互為服務層和客戶層。一個告警事務集中,若告警A 和告警B 屬于同一業務路徑的不同層次,告警A 處于服務層,告警B 處于客戶層,告警A 的產生導致同時產生告警B,則告警A 是告警B的根告警。若告警A和告警B處于業務路徑的同一層次,則計算告警A 和告警B 的支持度和置信度,并定義后項置信度,確定根衍告警。支持度表示告警A 和告警B 在聚類簇S 中同時出現的概率。如果告警A 和告警B 同時出現的概率大,說明告警A和告警B總是相關的。置信度表示告警A出現在聚類簇S 中時,告警B 同時出現的條件概率。后項置信度表示告警B 出現在聚類簇S 中時,告警B 由告警A 引起的條件概率。置信度和后項置信度越高,說明告警A 和告警B 之間的關聯強度越大,告警A是告警B的根告警。
本文基于業務拓撲的告警聚類及關聯分析方法主要包含三個模塊:數據預處理模塊,數據聚類模塊,規則挖掘模塊。整體框架如圖1所示。

圖1 告警關聯分析系統整體架構
數據預處理模塊:從網管系統中導出的原始告警文件和原始拓撲文件需要進行數據預處理,篩除其中無效數據,并提取出下一步聚類要用到的關鍵字段。如告警數據中的告警ID(TypeId)、告警發生時間(Ocurrence Time)、網元(NeId)、單盤(Board-Id)、端口(PortKey)、業務ID(Business ID)信息;拓撲數據中每個拓撲節點的業務ID(Business ID)、對應的層次(Layer)、路由(Route)、客戶層和服務層(上下層)業務ID(ClientID,ServerID)。通過業務ID上下關聯能夠形成業務鏈路拓撲信息。預處理后的部分告警數據和拓撲數據實例如表1、表2所示。

表1 告警數據實例

表2 拓撲數據實例
數據聚類模塊:對預處理后的告警數據根據業務ID 進行聚類,并映射到相應的拓撲節點,形成業務鏈路相關的聚類簇。業務聚類簇按實際情況可分為:單業務單告警聚類簇,單業務多告警聚類簇,多業務多告警聚類簇。單業務單告警聚類簇中只包含單個業務ID 和單個告警,對這種“落單”告警無需進行關聯分析;單業務多告警聚類簇中包含單個業務ID 和多個告警,這多種告警一般發生在業務路徑的同一層次;多業務多告警聚類簇則包含多個業務ID 和多個告警,這多個告警可能發生在業務路徑的不同層次或同一層次。在后兩種業務聚類簇的基礎上再對簇內告警按時間窗寬度做細粒度聚類,得到具有時間相關性的細聚類簇。
規則挖掘模塊:細聚類簇中的告警根據其拓撲節點的層次對比得到根衍規則。同一業務路徑不同層次,則服務層告警為根告警客戶層告警為衍生告警;同一業務路徑同層次,則計算相應告警的支持度、置信度和后項置信度,再設定相應閾值得到同層次的根衍規則。
為驗證方法的可行性和有效性,本文以某地級市現網采集的告警和拓撲數據進行實驗驗證。在該地區采集24 小時339 個站點共14106 條告警數據,預處理后還有14106 條告警數據共659 種業務ID。原始網絡拓撲共67804 種拓撲節點,與告警數據相匹配的拓撲節點共657 種。缺失的兩種業務ID 可能是網管服務器未能及時獲取更新的拓撲信息造成的。
采用本文方法對告警數據進行業務相關性聚類,得到告警事務集532 個,去除單業務單告警聚類簇,再對業務相關聚類簇進行時間相關性細聚類后得到事務集150個,挖掘規則131條,部分強關聯告警規則如表3所示。

表3 告警關聯規則
以其中一個告警事務集為例,統計其中告警相互關聯下的置信度和后項置信度如表4 所示。該告警事務集有4 種告警,分析得到共8 種告警關聯規則。

表4 告警關聯示意
圖2 對比了采用傳統滑動時間窗口法和本文方法得到的告警事務集個數和關聯規則個數。

圖2 采用傳統滑動時間窗口法和本文方法得到的告警事務集和關聯規則對比圖
對比可知,由本文方法得到的告警事務集個數明顯少于傳統方法,同時可以挖掘出更多的關聯告警規則。而且如表3 挖掘出的告警規則經由通信專家鑒定基本符合實際情況,準確度較高。綜上所述,本文基于業務拓撲的告警聚類關聯分析方法,有效減少了告警事務集種類,提高了告警聚類的準確度,在實際工程應用中具有一定的可行性。
本文針對OTN 網絡告警具有的業務拓撲相關性,以業務分析為核心,提出基于業務拓撲的告警聚類關聯分析方法。該方法的基本思路是引入告警發生時對應的網絡拓撲結構和業務邏輯信息對告警進行聚類,再根據時間窗口閾值進行時間相關性的細粒度聚類,然后對每個細粒度聚類簇中的告警再基于告警發生層次進行根衍規則的挖掘。實驗結果證明,該方法更符合OTN 網絡自身的特點,有一定的可行性和優越性。下一步工作是將挖掘出的關聯規則進一步應用于光網絡故障溯源研究上,實現告警根因的智能化分析。