朱永慶1,黃新宇,唐 宏1,陳江山,程 康,包德偉
(1.中國電信股份有限公司廣東研究院,廣州 510630;2.華為技術有限公司南京研究所,南京 210012)
隨著網絡連接數和網絡數據的快速增長,網絡中的異常和非受控性變化不可避免地會越來越多。網絡設備或子網的一個短暫的異常或故障(如路由協議心跳丟失、硬件電壓下降)在引起網絡的大規模故障之前可能不會被察覺到,因為從大量的網絡監視數據中很難發現這些微小的異常行為記錄。因此,網絡的管理如基礎設施保障、服務分配、性能監視也越來越困難。由于這些問題的存在,自動化和智能化的網絡故障診斷技術也因此得到了廣大研究者的關注。這些技術致力于提供快速的網絡故障診斷和故障恢復方法,而這些技術也往往依賴于大量的網絡系統數據。通常情況下,系統信息記錄了網絡運行的各種狀態,這些信息由事件數據(如系統log文件、配置文件)和度量數據(如關鍵性能指標數據和網絡性能數據)兩類數據組成。近年來,大數據分析和機器學習技術被廣泛應用到網絡管理領域來解決故障診斷問題。文獻[1-2]基于系統log和配置文件,利用數據挖掘算法來檢測網絡和設備的異常。文獻[3]利用統計學習算法來分析關鍵性能指標(Key Performance Index,KPI)數據和性能數據以檢測網絡的異常。文獻[4]則討論了數據關聯分析技術,這種方法可以分析事件數據和度量數據在故障發生時間上的關系。然而,這些技術或是……