王曼
中移鐵通有限公司河北分公司 河北 石家莊 050000
隨著通信網絡的發展,各種業務和用戶量的不斷增加,致使集中監控平臺告警數量也在持續增長,如何從大量告警中篩選出根源告警,快速、準確的定位故障原因和影響業務情況,這給網管監控人員帶來極大挑戰。通過告警壓縮,不僅可以減少告警數量,同時有利于對網管監控人員快速故障定位,告警壓縮是建立在一定的告警關聯關系和處理規則基礎上的。本文以Cache告警為例,探索告警壓縮方法。
根據告警關聯關系,一個被分析的告警可能引發其他多種告警,告警相關性分析需要查找根源告警和其關聯告警,進行壓縮規則輸出。告警關聯關系主要分為三類:
規則描述:如果告警A和告警B為同專業內同批次發生的告警,告警A的產生導致同時產生告警B。那么告警A與告警B為主次關聯關系,告警A為主要告警,告警B為次要告警。集中監控人員只需要對主告警原因進行排查。
規則舉例:告警A Cache設備吞吐速率高于上線告警(主要告警),告警B Cache設備回源速率高于上線告警(次要告警)。設備吞吐速率高于上線告警和設備回源速率高于上線告警均由單個設備流量超過閾值產生,且超過部分會自動分配到其他設備上。如果同一節點內設備同時出現這兩個告警,屬于主次關聯關系。
規則描述:如果同一節點或設備在某一時間段反復出現告警A,若告警A滿足閾值觸發條件,則對告警A進行壓縮,衍生出一條新的告警。集中監控人員只需要查看衍生告警即可。
規則舉例:告警A Cache設備服務流量達到門限告警(同一節點內設備反復出現),衍生告警:Cache設備服務流量達到門限告警(同節點設備告警超過XX次/時)。Cache設備服務流量達到門限告警,產生原因為單個設備流量超過閾值,超過部分會自動分配到其他設備。如果分組內設備反復出現此告警,屬于閾值觸發,滿足觸發條件,輸出衍生告警。
規則描述:如果告警A和告警B之間因果關系不明顯,但根據資源拓撲信息存在某種程度上潛在的因果關系,將此類告警合并衍生出一條新的告警。集中監控人員只需要查看衍生告警即可。
規則舉例:告警A 設備離線告警(MLB設備),告警B 設備離線告警(Web Cache設備),告警C 設備離線告警(SLB-Cache設備),衍生告警:設備離線告警(設備=IP X.X.X.X)。同一網元MLB、Web Cache、SLB-Cache,同時報設備離線告警,則該臺服務器故障,合并衍生出一條設備離線告警[1]。
告警處理規則是在對告警相關性進行分析的基礎上,結合告警關聯關系,制定出的一系列壓縮規則。規則的制定需要對大量的告警進行分析,并結合豐富的維護經驗,在不影響業務的基礎上,確保告警的真實有效性。在此過程中,對于閾值的選取一定要合適,過小會削弱告警壓縮的效果,致使衍生告警冗余,原始告警消除的效果不夠理想;過大會影響告警準確率,忽略本來有效的原始告警。
下圖以分析的Cache告警為例,列舉部分壓縮規則。

表1 閾值觸發、同源關聯壓縮規則舉例
從集中監控平臺查看Cache設備每月產生上萬條告警,其中cache設備服務流量超限告警占比較高。壓縮前,此類告警當月出現了6790條,通過對此類告警實施表1中制定的壓縮規則,過濾后當月呈現在監控界面上的衍生告警僅100條,極大凈化了告警界面,減少了監控人員的清除告警工作量,壓縮效率達98%。

圖1 告警壓縮效果示意
根據告警的關聯關系和告警相關性規則對集中監控平臺中的告警進行壓縮,可以有效減少告警中的冗余信息,有利于告警的快速定位,提高網絡故障處理效率。