999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的蜂窩網絡故障管理框架及方法綜述

2022-12-31 00:00:00雷澤臨蘇儉郭偉
計算機應用研究 2022年12期

收稿日期:2022-04-12;修回日期:2022-06-09" 基金項目:國家重點研發計劃資助項目(2020YFB1807700)

作者簡介:雷澤臨(1998-),女,四川成都人,碩士研究生,主要研究方向為6G網絡、故障管理、機器學習;蘇儉(1972-),女(通信作者),黑龍江雞西人,副教授,碩士,主要研究方向為6G網絡、軟件定義網絡、智能網絡管理等(jsu@uestc.edu.cn);郭偉(1964-),男,四川達州人,教授,博導,碩士,主要研究方向為無線與移動通信系統、智能通信網絡與信息處理、智能網絡管理等.

摘 要:網絡故障管理旨在檢測、識別和糾正網絡中發生的錯誤狀況,為用戶獲得可靠穩定的網絡服務提供保障,近年來,如何利用機器學習方法進行蜂窩網絡故障管理引起了廣泛關注。首先介紹了蜂窩網絡故障管理的研究背景,明確網絡故障管理的流程和功能;接著介紹現有蜂窩網絡故障管理框架;隨后對現有機器學習在蜂窩網絡故障管理中的方法研究進行評述,從故障管理周期入手,分別對實現故障檢測、故障診斷以及故障預測的機器學習方法展開介紹、總結和對比分析,為相關領域的研究提供參考。

關鍵詞:蜂窩網絡;機器學習;故障管理;故障檢測;故障診斷;故障預測

中圖分類號:TP306.3; TN929.5"" 文獻標志碼:A""" 文章編號:1001-3695(2022)12-001-3521-13

doi:"" 10.19734/j.issn.1001-3695.2022.04.0217

Survey of cellular network fault management framework and

methods based on machine learning

Lei Zelin, Su Jian, Guo Wei

(National Key Laboratory of Science amp; Technology on Communications, University of Electronic Science amp; Technology of China, Chengdu 611731, China)

Abstract:

Network fault management aims to detect, identify and correct error conditions occurring in the network, providing users with reliable and stable network services. Recently, the utilization of machine learning methods for network fault mana-gement has attracted widespread attention. In this regard, this paper first introduced the research background of cellular network fault management and explained the process and function of network fault management, and then introduced the existing cellular network fault management frameworks. Subsequently, this paper reviewed the existing research on machine learning methods in cellular network fault management. Referring to the fault management lifecycle, this paper introduced, summarized and compared the machine learning methods for fault detection, fault diagnosis and fault prediction for the purpose of providing reference for research in related fields.

Key words:cellular network; machine learning; fault management; fault detection; fault diagnosis; fault prediction

0 引言

隨著用戶對高效穩定網絡需求的日益增長,未來5G甚至6G系統將變得更加復雜,給當今網絡管理方式帶來了巨大的挑戰。5G網絡將為更多連接設備提供大量網絡服務,為支持不斷增長的服務種類和服務數量,其網絡架構應具備更多的靈活性、可重構性和可編程性[1]。為此,運營商通過在5G網絡中引入軟件定義網絡(software defined network,SDN)、網絡功能虛擬化(network functions virtualization,NFV)、云計算等新架構及技術減少對硬件的依賴,實現新業務的快速部署,以滿足用戶對業務的多樣化需求[2]。然而,這些技術在增加網絡系統結構復雜性的同時也使網絡管理維護更加困難,網絡故障的發生概率將隨之增大,影響網絡服務的提供,無法滿足當前人們對網絡的依賴性和高需求。

傳統的人工和半自動故障管理中,處理故障需要人工干預,導致故障處理結果易受人為影響且耗時較長,同時需要中斷運行中的網絡,降低了系統的服務質量(quality of service,QoS)和終端用戶的體驗(quality of experience,QoE)。自組織網絡(self-organized network,SON)的出現簡化了移動無線接入的規劃、配置、管理、優化和恢復過程[3]。SON功能劃分為自配置、自優化和自愈合三個部分,其中,自配置的目的是通過網絡自動參數配置取代傳統人工配置過程;自優化是在網絡初始自配置完成后對系統參數進行自動優化;自愈合與故障管理密切相關,負責對故障進行自動處理。

在已經部署的4G網絡中,自愈合功能尚未得到實質性部署,這些任務仍是通過運維人員手動監控網絡參數,分析網絡性能以查找故障,并提供所需的故障排除。

5G及未來6G網絡龐大的數據量及復雜的網絡架構導致網絡管理需要對大量復雜的異構數據進行分析,才能使網絡提供的服務有效滿足其QoS要求。機器學習(machine learning,ML)作為網絡管理自動化的推動者,已被考慮用于網絡運行和管理的各種功能的自動化,如資源管理、按需和自適應網絡配置、服務創建和協調、故障管理、安全、移動性管理、用戶體驗提升和政策的動態調整等方面[4]。對故障管理而言,機器學習技術具有感知、挖掘、預測和推理的能力,有能力在短時間內分析大量網絡狀態數據,學習調整系統以適應不斷變化的網絡環境,以合理的準確性對未來故障進行預測,并提出主動的解決方案[5]。

鑒于故障管理是當今蜂窩網絡管理過程中的一個重要組成部分,且當前蜂窩網絡故障管理框架和方法種類繁多,有必要對其進行總結和分析,以此為故障管理方案研究提供啟發和思考。本文將現有蜂窩網絡故障管理相關綜述文獻進行了整理與對比,如表1所示。

文獻[6]綜述了至2010年為止的自組織技術在蜂窩網絡中的應用,其中關于網絡自愈合的討論主要側重于蜂窩小區的中斷故障檢測和補償方法。文獻[7, 8]對不同的ML技術進行了比較,廣泛討論了ML在自組織網絡中的應用,文獻[8]還介紹了不同學習方式的ML技術該如何應用到故障管理過程中,為故障管理的ML技術選擇提供指導。文獻[6~8]關注SON整體功能的實現,其研究重點并非網絡故障管理。文獻[9]則從實際操作的角度,深入研究每種ML技術在特定蜂窩網絡故障管理活動中的應用,比較每種方法的具體優點和局限性。結合當前5G及下一代網絡的發展趨勢,文獻[10, 11]進一步對網絡故障管理的新方法進行討論。其中,文獻[10]關注虛擬化網絡環境中的故障管理,針對網絡功能虛擬化為故障管理所帶來的新要求對相關故障管理方案進行分析,提出網絡故障管理雖然因為虛擬化面臨新的挑戰,但其管理效率及性能也有所提升。盡管文獻[11]介紹了故障自動管理在5G網絡中的實現,其核心重點仍是提供對5G網絡相關SON機制的深入理解,故障管理只作為自愈合功能中的一部分內容提及,并未強調ML技術在其中的應用。

本文首先詳細介紹了網絡故障管理流程,引入網絡管理周期的概念,接著介紹現有網絡故障管理框架設計,然后對蜂窩網絡故障管理中的機器學習技術分類及發展進行了全面分析,并根據網絡故障管理周期對周期中各步驟涉及的相關機器學習方法進行系統的總結和比較。本文關注5G網絡中網絡故障管理面臨的新挑戰,期望通過對基于機器學習的網絡故障管理研究現狀的梳理,為后續研究提供可借鑒的思路。

1 網絡故障管理周期

網絡故障管理的主要任務是檢測、識別和糾正網絡中發生的錯誤狀況。故障往往表現為網絡無法正常提供服務,確定該情況發生的原因也屬于網絡故障管理的范疇。故障管理可視為一個循環過程,即管理系統在連續的循環周期內運行以尋找錯誤狀況。一般情況下,故障管理周期包括故障檢測、故障診斷(或稱為故障定位)和故障解決三個步驟。首先,故障管理系統通過故障檢測檢查網絡,發現一個或多個影響網絡性能的故障;接下來診斷故障的來源,這一步需要確定故障在網絡上的物理位置,并確定故障的原因;最后,故障管理系統執行相應的操作,嘗試解決或減輕網絡故障。此外,還可能存在故障補償的過程,在識別和解決故障時,負責故障補償的子系統將并行工作以保證良好服務的維護。故障補償的目的在于將故障造成的服務惡化影響降至最低,其具體措施并不會修復故障,且往往涉及一些與故障單元相鄰單元的重新配置。

故障預測是近年來網絡故障管理領域新提出的一種重要設計思想,其目的是通過預測網絡故障和建立預先解決程序來防止網絡故障,以盡量減少故障的負面影響[12]。網絡故障將帶來經濟損失和安全問題,提前預測網絡故障可以使工作人員做好修復故障的準備,減少網絡故障造成的損失[13]。

圖1總結了一個網絡故障管理周期的流程。

2 故障管理框架

故障管理框架一般由相互作用的模塊組成,每個模塊都有其特定的功能,盡管每個具體的故障管理框架可能關注不同的方面,其基本思路依然分為故障檢測、故障診斷及故障解決三個主要部分。這里對幾種不同的故障管理框架設計及其側重點進行介紹,關注故障管理框架與新技術的整合,如SDN/NFV[14]、大數據[15]等。

2.1 軟件化5G網絡主動自愈框架

文獻[14]針對5G背景下的SDN和NFV設計提出了一個解決軟件化5G網絡中故障的主動自愈框架。框架設計者認為一個主動的自愈框架不應在故障發生后再采取行動,而應通過分析服務參數和網元性能預測未來的故障,并在服務故障發生之前進行恢復操作,從而防止服務中斷。該自愈框架主要側重于對SDN管理平面進行設計,具體架構如圖2所示。管理平面由檢測、診斷和恢復三個模塊組成的控制環路構成,每個控制環路負責從對應平面檢索癥狀,并將檢索結果與來自其他平面的癥狀相聯系。傳感器(sensor)負責接收來自被管網元的信息,并通過效應器(effector)對其進行操作。

該自愈框架通過在管理平面中嵌入基于貝葉斯網絡的故障診斷模塊實現SDN各平面的故障診斷,并提供SDN網絡故障自愈以及與NFV基礎設施合作兩種功能,通過升級、擴展或遷移底層虛擬網絡功能(virtual network function,VNF)來避免網絡服務中斷。該方案深入分析NFV的弱點和挑戰,通過主動自愈框架解決了SDN和NFV的漏洞。

2.2 基于大數據的主動SON框架

文獻[15]提出一種基于大數據的主動SON框架。該框架主要受游戲人工智能引擎設計思想啟發,游戲中的AI(artificial intelligent)引擎通常采用啟發式分析從而始終領先對手。該框架采用類似策略,使用多元線性回歸模型對數據集進行訓練,實現關鍵性能指標(key performance indicator,KPI)趨勢的預測,使網絡自動化算法能夠始終在網絡服務質量下降之前運行,從而在故障發生前對其進行預測及處理。

該框架使用的數據集由計數器、無線參數、服務KPI、資源KPI和物理站點參數組成,運行中涉及大量異構數據,因此引入大數據方法對其進行分析。該框架主要包括數據歸約、基于啟發式分析的概率預測和統計根因分析三個模塊,具體框架及數據處理流程如圖3所示。

除了對網絡中的故障進行概率預測外,該框架還針對歷史 操作支持系統(operation support systems,OSS)日志中包含的大量關于網絡故障的專家知識及各故障對應的優化或補償策略,通過啟發式分析獲得相關故障特征,并對比當前故障與歷史故障信息,根據歷史故障處理策略給出優化或補償建議。該框架的優勢在于其具有可擴展性和可編程性,并通過實驗證明其能夠滿足5G網絡管理在速度、容量及安全性方面的要求。

2.3 SELFNET

歐盟H2020 SELFNET項目正在設計一個自動網絡管理框架,能夠在5G移動網絡基礎設施中提供SON功能[16],該框架可以極大地降低運營成本,同時自動檢測和緩解一系列目前仍由網絡管理員手動處理的常見網絡問題,從而改善用戶體驗。通過探索新型技術,如SDN、NFV、SON、云計算、人工智能和QoE等技術和下一代網絡的整合,SELFNET將提供一個可擴展、可延伸的智能網絡管理系統。該框架將協助網絡運維人員執行重要的管理任務,如自動部署SDN/NFV應用程序、提供自動化的網絡監控和網絡維護、通過自主的故障預測措施緩解現有或潛在的網絡問題等,提供針對分布式網絡攻擊的自我保護能力、針對網絡故障的自我修復能力以及動態提高網絡性能和用戶QoE的自我優化功能[17]。

SELFNET的設計側重于自保護、自愈合和自優化三個主要的網絡管理問題,并根據NFV和SDN的概念提出了基礎設施層、虛擬化網絡層、SON控制層、SON自治層、NFV編排和管理層以及接入層六層架構。基礎設施層由物理和虛擬子層構成,將控制平面與數據平面解耦,向SDN架構演變;SON控制層能夠從整個系統收集數據并執行指令;SON自治層由監測器、編排器和自動管理器三個模塊組成,監測器提取與網絡行為有關的特征,并將其發送給自動管理器以決定應采取何種行動,編排器負責組織協調物理或虛擬資源并管理執行器,從而執行自動管理器決定的行動;NFV編排與管理層根據歐洲電信標準協會(European Telecommunications Standards Institute,ETSI)規定的NFV管理與編排(management and orchestration,MANO)架構[18]設計,負責通過VNF管理器協調和管理虛擬網絡功能。

一系列實驗已證明SELFNET能夠用于自動故障管理,文獻[19~22]在支持邊緣計算技術(mobile edge computing,MEC)的5G網絡測試平臺上測試了SELFNET對流量擁塞問題的檢測準確率。實驗結果表明,在合理的網絡特征數量下,系統可以達到非常高的擁塞檢測精度,證明了SELFNET在網絡智能管理中應用的可行性。

2.4 LUMEN

針對5G網絡虛擬化環境(network virtualization environments,NVE)中的故障管理問題,文獻[23]引入了一個名為LUMEN的全局故障管理框架。該框架由四個平面構成:

a)源平面。負責從不同的實體和分布位置收集所有類型的數據。

b)匯聚平面。由于收集的數據來源各不相同,數據的格式也有所不同,需要由匯聚平面統一數據格式并進行數據組織;此外,匯聚平面還對數據進行過濾,濾除不重要的信息。

c)提取平面。這一平面的工作高度依賴于決策過程,提取的數據取決于診斷過程中使用的推理引擎和決策方法。

d)決策平面。決策是LUMEN故障管理框架中的最后一步,也是最重要的一步。決策平面通過一種或多種推理方法和診斷方法(如貝葉斯網絡及其他ML方法等)建立有依據的猜測,通過前三個平面以統一有組織的方式提供的必要信息實現實時、快速和有效的決策過程。

該研究還引入了三個網絡故障案例以介紹該框架針對不同需求的故障管理過程:a)使用ML方法對日志進行故障預測;b)通過收集實時的VNF指標檢測違反服務等級協議(ser-vice level agreement,SLA)的情況;c)使用貝葉斯網絡對動態多租戶環境進行故障根因分析。具體的案例研究如圖4所示。

LUMEN的優勢在于其基于開源解決方案設計,可以輕松地與其他現有的自動管理模型集成。該框架包括一套規范的故障管理步驟,并為監控所有類型的NVE(如SDN、NFV等)提供了新的視角,但其決策模塊仍不完善,需要進一步對其進行研究,如重新改進貝葉斯網絡技術,以實現對NVE中的故障網絡組件的查找等。

2.5 大數據驅動異常自動檢測與性能預測框架

文獻[24]提出了一個大數據驅動的移動網絡異常自動檢測與性能預測框架,如圖5所示。該框架綜合利用無線接入網絡各種數據源并輔以外部數據源對移動網絡異常進行檢測,并自動分析和預測KPI。

該框架采用的移動網絡數據源主要包括性能管理(performance management,PM)數據、配置管理(configuration management,CM)數據和存儲管理(inventory management,IM)數據。其中,PM數據是由以較高粒度定期收集的不同KPI測量值而產生的大量時間序列構成,該框架主要針對無線資源控制(radio source control,RRC)連接請求成功率、切換成功率(handover success rate,HOSR)、下行鏈路(downlink,DL)流量及吞吐量這四個具有代表性的KPI進行性能監控,并將其用于ML預測算法的輸入;CM數據是由無線接入網配置參數組成,如無線基站/小區編號、頻帶、鄰居關系等;IM數據包含與位置和存儲項目相關的信息,如設備(如基站、天線類型等)、服務和其他基礎設施等。

外部數據源主要關注的是用戶移動速度,移動用戶的移動模式和速度等移動特性對于從用戶角度預測網絡性能非常重要。

該框架的核心在于預測考慮的KPI將如何演變,如預測何時以及在哪個小區中可能出現異常行為,從而提供一個網絡狀態的動態模式。首先借鑒了工業大數據中的特征提取方法[25],通過特征提取過程對時間序列數據進行有效還原,提取的新特征用于訓練一個集成學習方法,并使用AdaBoost回歸器進行預測,對每個KPI都使用歷史數據擬合模型預測下一個值。該框架基于聚類的KPI匯總分析和異常檢測以及特征提取和時間序列預測模型的使用,能夠有效地分析網絡數據,有助于識別可能的異常行為。故障管理相關框架如表2所示。

3 基于機器學習的網絡故障管理方法概述

傳統網絡故障管理要求網絡運維人員對整個網絡及其設備和在網絡中運行的所有應用程序有一個全面的了解。隨著需要配置的參數以及需要監測和優化的設備數量呈爆炸式增長,這一要求顯然不切實際,傳統的管理方式已無法處理如此大量的任務和數據。近年來,基于機器學習的網絡故障管理已經成為網絡自動管理的一個重要研究方向。蜂窩網絡故障管理中采用的機器學習方法主要基于監督學習或無監督學習。監督學習,顧名思義,需要一個監督者來訓練系統,監督者負責告訴系統每個輸入對應的預期輸出,即監督者標記給定的輸入數據;系統根據有標簽的數據集進行訓練學習,從而找到輸入與和輸出之間的函數關系。與之相反,無監督學習主要應用于預期輸出未知的情況,由于缺乏監督者為其提供指導,即缺乏有標簽的數據集,系統只能通過對樣本數據的分析進行學習。

此外,基于深度學習(deep learning,DL)的方法也被引入故障檢測、診斷、解決及故障預測等過程中,從而解決上述5G及下一代網絡故障管理所帶來的挑戰并改善其功能。深度學習是一種基于人工神經網絡(artificial neural networks,ANN)的機器學習方法,其學習過程可以是有監督、半監督或無監督的。與其他基于繁復的規則設計,且只能解決特定問題的ML方法不同,通過使用ANN學習和識別抽象模式[26],DL方法可以成功地處理大量數據以解決多種故障。深度學習方法的主要優勢就在于其提供了復雜問題的解決方案[27]。針對通信系統和網絡中不斷增長的流量,采用DL模型分析是目前故障管理中常用且有效的方案[28]。圖6展示了用于網絡故障管理研究的主要ML技術的分類及各分類中相應的技術。

如表3所示,目前基于機器學習的故障管理方法涉及的故障主要包括硬件故障、軟件故障及小區中斷故障。硬件故障主要集中在自動檢測板卡故障方面[29];軟件故障主要是由于版本或配置問題出現的故障[30];小區中斷故障指的是一個或多個蜂窩小區(如基站的所有扇區)無法使用或無法運行,導致服務覆蓋率的損失,具體表現為用戶網絡質量低下。“睡眠小區”是小區中斷故障中特有的一個關鍵問題,即射頻傳輸鏈路中的故障導致用戶遭遇服務中斷,但運維人員卻無法通過告警或指標得知。本文重點關注故障檢測、故障診斷、故障預測工作,故障解決方案的具體實施通常與實際網絡關系密切,不同問題的解決方法差異較大,這里不作為本文討論的重點。

4 基于機器學習的故障檢測技術

在傳統網絡性能監控中,網絡狀態的監控通常基于對KPI的評估,運維人員使用告警數據和性能指標數據來確定網絡的狀態。告警是故障的外在表現,包含關于系統健康和運行的重要信息,然而即使告警提供了關于故障源及故障類型的寶貴線索,一些故障可能是部分可觀察到的或不可觀察到的。由于大多數故障是無法直接觀察到的,故障管理系統必須從收到的告警信息中推斷出故障的存在,所以有必要采用故障關聯和推理技術。檢測故障行為的另一種方法是收集網絡性能指標,該指標以一種定量和定性的方式來驗證網絡服務所需的能力并衡量其下降情況。在故障檢測過程中,檢測模塊持續收集指標信息,并將其與可接受的質量水平進行比較,一旦測量到指標下降或違反SLA,就立即向系統報告。

4.1 基于監督學習的故障檢測方法

近年來,研究人員對蜂窩網絡故障檢測,尤其是小區中斷的檢測進行了大量研究。小區中斷是蜂窩網絡中的嚴重故障,會使用戶體驗到質量極差的服務,甚至根本無法提供服務。傳統的故障檢測方法主要是通過長期的系統性能分析或用戶投訴后進行人工排查,相當浪費時間和精力[31]。為解決人工模式的缺陷,在4G及5G蜂窩網絡背景下,研究人員對監督學習方法在小區中斷檢測[32~34]中的應用進行了大量探索。

小區中斷檢測通常采用基于分類的方法實現,研究人員通過采集KPI指標信息作為特征數據,其對應標簽為是否發生故障,再利用不同的機器學習算法對樣本進行訓練,使其能夠區分正常和異常數據,最終實現對故障的自動檢測。

文獻[32]通過最小化路測(minimization of drive-test,MDT)報告中的KPI測量值監控網絡狀態,首先采用多維縮放方法對MDT指標進行預處理,再利用基于支持向量機(SVM)的ML算法檢測及定位異常的網絡行為。但基于KPI評估的方法導致KPI統計概況或閾值通常無法隨實際網絡變化更新,從而不能準確分析移動網絡的全部動態。例如,蜂窩小區的吞吐量如果超出了可接受的數值范圍,則可能會被判定為異常或故障[35],然而低吞吐量并不一定代表小區出現了故障,夜間時段同樣會出現低吞吐量的情況。

為使故障檢測不受預先定義的KPI閾值約束,文獻[33]將異常檢測和基于案例推理算法相結合,提出了一種利用數據挖掘進行異常檢測和統計分析的小區中斷檢測系統,該系統主要由基于數據挖掘的異常分析實體和基于認知恢復的分析實體兩部分構成。檢測的KPI指標包括參考信號接收功率(re-ference signal receiving power,RSRP)和無線鏈路故障(radio link failures,RLF),通過MDT功能收集到測量日志中。基于數據挖掘的異常分析實體將用戶收集的測量日志作為輸入,然后利用K-最近鄰(K-nearest neighborhood,KNN)算法計算異常離群值,對所有KPI指標進行分析,并采用歐氏距離作為訓練數據集和測試數據集中各個數據點之間的相異性測度,最后輸出測試數據集中的每個數據點的異常分數,具有較大異常分數的點則被確認為故障。

此外,在超密集的蜂窩網絡中,由于缺乏部署和報告能力有限,可能沒有KPI告警信息或性能下降信息報告給網絡操作和管理系統(network operation and management,OAM)。針對上述問題,文獻[34]在部分KPI信息可用前提下,利用機器學習的優勢設計了一種針對超密集小蜂窩網絡的自愈合方案,提出基于支持向量數據描述(support vector data description,SVDD)的小區中斷檢測算法。SVDD算法受SVM算法啟發,源于尋找一個包含所有目標數據(即正常KPI)的最小體積球體(球體指由小區內的正常KPI組成的領域)的思想[36],其中,目標函數描述的球體特征是中心和半徑Φ,根據收集到的部分KPI數據樣本,通過最小化Φ2將小區中斷檢測問題轉換為找到一個最佳球體。小區中斷檢測通過SVDD算法獲得網絡的正常區域,然后測試新的MDT KPI是否落在最佳正常區域內,若未落入正常區域則檢測出小區中斷。該算法在只有部分基站KPI信息可用情況下也可有效地檢測小區中斷。

4.2 基于無監督學習的故障檢測方法

無監督學習方法也可以應用于故障檢測。文獻[37]通過隱馬爾可夫模型(hidden Markov model,HMM)[38]來估計5G異構網絡(heterogeneous network,HetNet)中的小區中斷情況,HMM的核心結構是包含系統狀態的馬爾可夫鏈,不同狀態之間通過狀態轉換概率聯系。

將基站狀態定義為S={S1,S2,S3,S4}四種,分別代表服務正常、下降、部分中斷和完全中斷四種狀態。該算法計算基站處于各狀態的概率,若S4的概率最高,則假定基站處于完全中斷狀態并向系統發出告警。小區中斷檢測問題映射為如圖7所示的HMM,并將其定義為λ=(A,B,π)。其中A={aij}為狀態轉換矩陣,aij表示小區從狀態Si轉換到Sj的概率,其計算為

aij=P(qt=Sj|qt-1=St)(1)

其中:qt代表t時刻基站的狀態。矩陣B={bj(vm)}為輸出觀測概率矩陣,V={v1,v2,…,vM}代表了所有可能的觀測結果,M為訓練階段定義的觀測符號總數,ot表示時刻t觀測到的用戶設備數據,bj(vm)表示基站狀態處于Si狀態下用戶設備觀測值為vm的概率,其計算公式為

bj(vm)=P(ot=vm|qt=Sj)(2)

其中:π={πi}為初始狀態分布,πi=P(q1=Si),由于在正常運行的網絡中基站應處于正常狀態S1,所以初始狀態為π={1,0,0,0}。

在訓練階段,服務器記錄用戶設備報告的KPI,包括服務小區s的RSRP、參考信號接收質量(reference signal received quality,RSRQ)及其最佳相鄰小區n的RSRP和RSRQ,表示為Xi={RSRPsi,RSRQsi,RSRPni,RSRQni}輸入算法,以獲得A、B和π。值得注意的是,圖7中顯示的基站狀態對運維人員來說并不直接可見,但可以從某一時刻用戶報告的測量數據集和矩陣B中進行推斷和分析。這些測量值存儲在一個包含L個觀測序列的數組中,每個序列長度為T,T值越高,運行所需的時間就越長。該算法接收觀測序列數組并在每個周期中處理一個觀測序列,并從V={v1,v2,…,vM}選取Xi的標簽;然后將標記的測量值與之前的T-1個測量值一起包含到觀察序列中,并與A、B和π一起作為輸入計算基站處于Si狀態的概率。每次用戶設備報告其測量結果時,服務器都會運行這一過程,從而實現對基站的故障檢測。該方案提出了結合多種基站狀態分析實現高效小區中斷檢測,具有較高的準確率。

大多數文獻提出的小區中斷檢測方案均收集了MDT報告的測量值[32~34,37],如RSRP、信噪比(signal to interference plus noise ratio,SINR)等。然而,HetNet中小基站所服務的用戶設備可以切換到宏基站并保持RSRP和SINR正常,因此很難通過MDT測量來檢測小基站的中斷。為解決超密集的小蜂窩場景中小基站的故障檢測問題,文獻[39]提出了一個基于切換統計的小區中斷檢測架構,該架構結合數據挖掘方法,可以在空間和時間上處理連續的切換統計數據,并利用局部離群因子(local outlier factor,LOF)算法提高基于切換統計數據的檢測性能。該方案假設當故障發生時,該小區所服務的所有用戶都必須轉移到其鄰近的小區,從而導致HetNet中發生大量切換。研究人員通過數據挖掘的方法檢測相鄰小區不斷增加的切換,并在雙層蜂窩異構網絡中采用基于LOF的方法進行檢測。該系統框架采用了數據采集、預處理、數據挖掘和中斷檢測四步法,如圖8所示。

通常情況下,中斷檢測的方法是基于MDT測量,數據由用戶產生,而文獻[39]則測量小區傳入切換(incoming handover,inHO),測量數據由基站報告;在完成數據采集工作后,系統通過數據處理提取與每個時間數據對應的特征向量。

傳統LOF檢測是一種無監督的異常檢測算法,其作為一種以密度為基礎的離群點檢測方法得以廣泛使用[40]。該算法將集合中整體分布情況較為均勻一致的點視做正常點,將相對孤立的點視做異常點,樣本與其相鄰樣本之間的差異越大,分配的離群因子分數越高。LOF算法首先計算小區p、k的距離,記為dk(p),k距離表示在該距離范圍內,小區p有k-1個近鄰點;由此得到每個與小區p的距離小于k距離的小區集合,記為Ndk(p)(p),然后計算LOFk(p),計算公式如下:

LOFk(p)=∑o∈Ndk(p)(p)lrdk(p)lrdk(o)|Ndk(p)(p)|(3)

lrdk(p)的計算方法如下:

lrdk(p)=1/(∑o∈Ndk(p)(p)reach_distk(p,o)|Ndk(p)(p)|)(4)

其中:reach_distk(p,o)表示小區p相對于小區o的可達距離,定義為小區o的k距離和小區o、p之間距離的最大值,即

reach_distk(p,o)=max{dk(o),d(o,p)}(5)

為了評估系統的性能,文獻[39]設計網絡模擬器進行一系列的測試。仿真結果顯示,與使用MDT測量的架構相比,該系統在檢測小區中斷方面更加有效。

4.3 基于半監督學習的故障檢測方法

半監督學習實質上是監督學習與無監督學習相結合的一種學習方法,適用于有少量標記數據和大量未標記數據的情況,通常在無法獲取完整的標記數據或獲取完整標記數據所需代價較大時使用。基于以上特點,文獻[41]利用半監督學習從大量的暗數據(大數據)中進行推理,根據從真實蜂窩網絡的呼叫詳細記錄(call detail records,CDR)中提取的用戶活動信息來檢測蜂窩網絡故障。該算法本質上是基于模型的,它假設數據服從高斯分布,其參數為均值和方差,即x~N(μ,σ2)[42],在統計(概率分布)模型[43]中,正常數據位于高概率區域,異常數據位于低概率區域。通過數據與模型的擬合程度來評估未標記的數據,與正常情況具有顯著不同的數據則被標記為故障[44]。

CDR數據集主要用于客戶服務部門的計費,但從未被OAM部門利用過。該算法將CDR數據集分割為訓練集、交叉驗證集和測試集,訓練集用于觀察正常的網絡行為,從而學習得到高斯模型;通過計算每個訓練數據的概率密度估計p(x(i)train)將高斯模型擬合到訓練集上,其計算公式如下:

p(x(i))=nj=1 12πσjexp(-(x(i)j-μj)22σ2j)(6)

其中:x(i)為樣本;j為指標的特征;n為特征總數,由于該算法所用數據集是一維的,即包含單條用戶活動,所以j和n等于1。

該算法的最終目的是識別概率較低的異常數據,其閾值ε由交叉驗證集{(x(1)CV,y(1)CV),…,(x(m)CV,y(m)CV)}選擇,交叉驗證集中的數據為標記數據,其中的異常樣本對應著實際網絡過去發生的故障,y為樣本對應標簽,y=1表示樣本數據正常,而y=0則對應異常數據,共m個樣本。根據式(6)計算交叉驗證集中的樣本數據所對應的概率密度p(x(i)CV),根據p(x(i)CV)及y進行迭代運算,由此計算精確率precision及召回率recall,從而計算得分F1用于對模型性能進行衡量,其表示為

F1=2×precision×recallprecision+recall(7)

選取F1得分最高時對應的判定閾值作為ε,從而使得在該閾值下算法的性能最佳,判定效果最好。

該方法不依賴于任何KPI,而是基于核心網絡生成的用戶特定數據。基于KPI的故障檢測[32~34,37]往往以MDT報告的測量樣本來收集數據信息,消耗大量的網絡和用戶資源,且所獲得的故障位置信息的有效性也存在問題,因為并不是所有MDT測量樣本提供的位置信息都足夠精確,足以指向采樣樣本的確切位置[45]。實驗結果顯示該方法在測試和訓練集中都成功地追蹤到了異常的網絡行為,證明了其在故障檢測方面的有效性,也表明了該方法可以提高網絡的性能,從而降低運營成本。

4.4 基于深度學習的故障檢測方法

蜂窩網絡故障數據集往往是不平衡的,即正常樣本遠多于故障樣本,例如,一個用于故障檢測的數據集通常由1%的故障樣本和99%的正常樣本組成。當存在不平衡的輸入數據時,傳統的分類算法(如SVM和KNN)可能會產生分類偏差[46],導致多數類的分類效果好,而少數類的分類效果較差[47]。

考慮到數據的不平衡性,文獻[48]將對抗自編碼(adversarial auto-encoder,AAE)與SVM相結合,使用AAE將不平衡樣本轉換為平衡樣本,設計了一個睡眠小區檢測系統,使用AAE為故障樣本進行數據擴充,提高了睡眠小區不平衡數據的分類性能。AAE基于生成對抗網絡(generative adversarial networks,GAN)[49]思想設計,由一個自編碼器(autoencoder,AE)[50]和一個判別器D組成,通過將隱變量與先驗分布進行匹配,AAE可以將傳統AE轉換為生成模型。AE包含一個編碼器和一個解碼器,其中,編碼器將高維空間中的向量X壓縮成低維向量Z,映射到隱空間,Z中包含的變量即為隱變量z,然后通過解碼器將低維向量Z解壓重構出X。隱變量z的分布q(z)如下:

q(z)=∫xq(z|x)pd(x)dx(8)

其中:pd(x)為數據分布;q(z|x)為AE中的解碼模型。

在AAE中,編碼器類似于GAN中的生成器G,產生代表輸入數據特征的隱變量z。利用GAN的思想,AAE中引入判別器D,通過對抗網絡進行有效的變分推理來確定生成故障樣本的質量。生成器G和判別器D的訓練過程可以表示為以下最小—最大對抗問題:

minG maxD Ex~q(z|x)[log D(z)]+Ez~p(z)[log(1-D(G(z)))](9)

AAE強制編碼器最小化log(1-D(G(z)))以生成近似真實樣本的新故障樣本,而判別器盡可能正確區分生成的故障樣本和真實故障樣本。當模型的訓練變得穩定時,使用AAE為故障數據生成更多的故障樣本,從而將不平衡的睡眠小區數據轉換為平衡數據。實驗結果表明,使用AAE平衡數據集后再利用SVM進行故障檢測性能明顯優于直接使用SVM對原有數據集進行檢測。

經典的GAN算法采用Jensen-Shannon散度對生成樣本進行評估,但JS散度在某些地方是不可用的。為了克服這一缺點,研究人員提出用Wasserstein距離代替JS散度,從而提出了WGAN[51]以及具有梯度懲罰的WGAN(WGAN with gradient penalty,WGAN-GP)[52]算法。朱曉榮等人[53]采用WGAN-GP產生模擬異構無線網絡數據,從而獲得大量可用于網絡故障檢測模型訓練的數據集,該方案首先從異構無線網絡環境中采集不同網絡狀態下的KPI數據,并將其作為GAN的輸入,從而得到不同網絡狀態下的有標記模擬數據;接著,采用XGBoost算法對GAN產生的模擬數據集與原始數據集進行降維;最后,利用XGBoost算法對處理好的數據進行訓練,實現網絡故障的檢測與診斷。

4.5 小結

以上介紹了基于機器學習的蜂窩網絡故障檢測技術,其總結及對比分析如表4所示。從中可以看出,監督學習的方法[32~34]在蜂窩網絡故障檢測中的應用最為廣泛,但其缺點也較為明顯:監督學習方法需要大量KPI指標數據及其對應標簽,而在蜂窩網絡中獲取完整標簽數據所需代價較大甚至無法獲取完整的標簽數據。盡管文獻[34]實現了部分KPI信息可用情況下的檢測小區中斷,其仍然沒有擺脫標簽數據的限制。因此,研究人員對引入無監督學習[37, 39]和半監督學習[41]方法進行一系列探索,以解決蜂窩網絡中獲取故障對應標簽較困難的問題,這也是蜂窩網絡故障檢測的研究重心。

此外在蜂窩網絡采集的樣本中,故障樣本量遠遠少于正常樣本量,將嚴重影響故障類的分類效果。因此,需引入GAN、AAE等數據增強方法[48,53]生成故障樣本,以解決樣本分布不平衡問題,這一問題也是提升蜂窩網絡故障檢測性能的重要研究課題。

5 基于機器學習的故障診斷技術

故障診斷的目的主要是通過根因分析(root cause analysis,RCA)盡可能消除蜂窩網絡故障發生的根本原因來最大化其投資回報率(return on investment,ROI)。在蜂窩網絡中,各種KPI不斷被系統報告,正確對KPI變化進行RCA可以在一定程度上發現性能問題和硬件故障[9]。故障分類是根因分析的重要過程,也是研究人員的重點工作,如文獻[54]提出的移動通信無線網絡的統一部署和故障診斷方案中應用樹狀分類算法對故障原因進行分類等。

一些早期的故障診斷工作主要是基于統計模型完成的,如從網絡拓撲結構中提取網元預期正常行并為其建模[55],根據模糊邏輯建立規則模型[56, 57]等。與傳統的規則庫方法不同的是,蜂窩網絡設計的復雜性直接增加了規則庫設計的復雜性,而ML技術受蜂窩網絡底層設計的影響較小。近年來,蜂窩網絡的故障診斷主要依靠ML來完成[58],通過學習歷史數據找到故障診斷規則,擺脫對專家知識和經驗的依賴,使診斷過程更加客觀、合理。

盡管RCA在網絡運營中是一項常見且反復出現的任務,目前蜂窩網絡研究界普遍缺乏故障案例的樣本數據集及與之相關的RCA結果,這一現狀嚴重影響和制約了網絡故障管理的發展。

5.1 基于貝葉斯網絡的故障診斷

貝葉斯網絡是目前使用的大多數網絡故障診斷方法的基礎[59~61],其基本思想是將事件、條件和度量等系統特性建模為貝葉斯網絡中的節點,并將它們的依賴關系表示為條件概率,在依賴模型中使用概率推理來獲得最可能的錯誤根因。

文獻[62]提出了一種基于貝葉斯網絡的故障根源自動診斷算法,該算法使用樸素貝葉斯分類器(naive Bayes classifier,NBC)對故障類型進行診斷,并利用帕累托分析對故障優先級進行排序,判斷修復何種故障對恢復網絡性能作用最大,最終觸發SON功能模塊,按優先級進行故障恢復,其具體架構如圖9所示。NBC是一種基于貝葉斯定理的概率分類器,作為一種概率模型,它適用于處理缺失或不確定的數據和高維輸入,如蜂窩網絡特征。例如,假設RSRP KPI直接影響蜂窩網絡中小區的覆蓋范圍,那么利用貝葉斯定理可以使用小區的RSRP KPI值,通過服務區域中記錄的原因和癥狀之間的數學概率相關性更準確地評估最終小區覆蓋問題的概率。

NBC可以實現在不完整的數據下工作,并且能夠處理具有復雜概率組合的大型數據集,但NBC的主要缺點是其直接假設用于建立分類模型的特征之間是獨立的,這在現實中通常是不真實的。盡管如此,NBC在各種需要高性能和大數據集準確性的應用中仍產生了非常成功的結果[63,64],對其成功的一個可能的解釋是,NBC不需要非常準確的概率便可發揮作用。這些概率在大多數真實使用情況下較難進行計算,而對于基于NBC的診斷,只要分類器能夠根據給定的代表性概率找到MAP假設就足以完成目標。盡管貝葉斯網絡被廣泛應用,但總體上在高維數據表現不佳,非常依賴于先驗知識和數據的分布選擇模型[65]。

5.2 基于馬爾可夫邏輯網絡的故障診斷

針對故障日志分析,Ciocarlie等人[66]引入語義分析的方法,使用分層Dirichlet過程[67]進行聚類分析,并使用馬爾可夫邏輯網絡(Markov logic networks,MLN)[68]進行故障分類。該算法分為兩步:a)利用主題建模[69]來檢測一組實體(即小區)的故障;b)使用MLN邏輯網絡診斷故障,MLN依賴于概率規則來區分不同的原因。首先手動建立網絡,然后系統從基于極大似然估計的訓練數據集中學習權重,實現利用范圍內所有小區/網絡的KPI測量值自動識別不同的網絡狀態,并利用系統的固有知識自動將網絡狀態分為正常或異常,進一步確定性能下降的最可能解釋。

系統能夠在配置參數變化的情況下自動判斷網絡的狀態,以及配置參數變化是否對網絡性能產生負面影響。未來計劃是將該框架擴展到更多的SON用例中,進一步與故障排除相結合,并探索可以在診斷過程中使用的其他類型的數據。

5.3 基于邏輯回歸的故障診斷

同樣針對故障日志分析研究,與重點關注根因分析的故障診斷[62,66]不同,文獻[70]的目標是從故障的歷史日志和相關的操作員操作中自動學習觸發故障處理操作的管理策略和規則。該系統由數據驅動,其輸入來自大量的日志,這些日志記錄了網絡操作員在網絡中采取的行動以及高維測量時間序列數據,這些數據記錄了在執行這些行動時網絡中存在的條件。該策略學習方法完整的自動化周期如圖10所示,首先從關鍵KPI滾動時間序列中的異常中檢測到癥狀,并與異常時間窗口內發生的成功操作相關聯;然后根據這些數據訓練邏輯回歸分類器,并根據所需的動作對新癥狀進行分類。對于這種方法來說,關鍵是根據后續結果選擇成功的運維人員干預措施,在某些情況下,可能需要專家對歷史日志進行審查以確定哪些是歷史日志。

盡管該文獻使用蜂窩網絡作為一個用例說明其系統的設計和評估目的,但該框架和策略的核心設計原則更普遍地適用于其他類型的由物理或虛擬網絡功能(網元)組成的網絡和分布式系統。

5.4 基于Boosting算法的故障診斷

Wang等人[71]首次提出利用分類器的多樣性,將集成學習用于故障診斷,并采用綜合少數過采樣技術(synthetic minority over-sampling technique,SMOTE)合成兩個相鄰的樣本來生成新的故障類樣本以對不平衡的數據集進行重新采樣。集成學習使用一系列學習者進行學習,并使用特定的融合規則集成各種結果,以獲得比單個學習者更好的性能。文獻[71]引入Ada-Boost算法設計故障診斷系統并按順序生成不同的基分類器,其中基分類器的精度影響后續分類器的生成。AdaBoost是一種迭代的集合學習算法,其分類器是線性生成的,通過增加錯誤分類數據的權重改變樣本的分布,引導分類器關注那些難以分類的樣本。首先,它給所有的訓練樣本分配相等的權重Dt=(w1,w2,…,wN),wi=1/N,其中t是第t次迭代,N是樣本總數。從訓練數據集M和權重向量Dt中,該算法根據基礎學習算法訓練基分類器ht:X→Y,X={KPI1,KPI2,KPI3,…,class}為樣本數據,Y為其對應故障分類結果。該算法測量ht的錯誤率,通過增加錯誤分類樣本的權重來獲得更新的權重向量Dt+1,其計算公式如下:

Dt+1=DteαtZt" ht=class table

Dte-αtZt ht≠class table(10)

其中:Zt為歸一化因子,αt的計算公式如下:

αt=12ln(1-εtεt)(11)

其中:εt為上一次迭代中生成的基分類器的錯誤率。接下來,該算法從訓練數據集和新獲得的Dt+1中獲得下一個基分類器,這樣重復T次,最終的分類器由T個基分類器組合而成。

該方案與SVM、KNN和反向傳播(back propagation,BP)神經網絡三種分類方法進行了性能比較。在不同樣本數下,基于AdaBoost算法的精度均優于其他三種算法。此外,盡管隨著訓練樣本的增加,這四種算法的精度都會提高,但AdaBoost可以在少量訓練樣本的情況下訓練出更準確的分類器。

5.5 基于SOM的故障診斷

與采用貝葉斯網絡[62~64]、回歸模型[70]、集成學習[71]等監督式方法不同,文獻[72]提出了一種基于SOM的無監督長期演進網絡(long term evolution,LTE)RCA工具,根據小區的行為對其狀態進行分類,進而確定故障原因。SOM由人工神經元組成,每個神經元都有一個特定的權重向量W=[WKPI1,WKPI2,…,WKPIM]∈Euclid ExtraaBpM,其維度M由輸入向量中的KPI數量決定。這些權重向量通過無監督的訓練過程被更新,以確定最符合輸入數據行為的權重向量值。從根本上說,訓練過程取決于訓練數據和連接神經元的鄰域函數,該函數負責識別獲勝神經元或最佳匹配單元,并更新其權重向量及其所有鄰接神經元的權重向量。

SOM方法的最大優點是能夠處理高維數據,并將其降至較低的維數(如2維),便于對最終診斷結果的解釋和理解。此外,該系統可以直接處理原始數據,而不需要導致信息丟失的離散化方法。

5.6 基于DBSCAN的故障診斷

同樣采用無監督方法,文獻[73]提出將基于密度的空間聚類(density based spatial clustering of applications with noise,DBSCAN)用于發現網絡故障的根本原因或網絡配置異常。

該算法需要找出哪個配置變化、故障或RAN程序故障導致了特定KPI的下降,首先將特定時間段的性能管理(perfor-mance management,PM)、故障管理(fault management,FM)和配置管理(configuration management,CM)數據值作為行向量構成矩陣M,設M的第v列mv中某一KPI高于或低于某個絕對閾值,即為異常KPI;選取mv與M中任意另一列mi構成二維數據集,并在該數據集上使用DBSCAN算法遍歷各元素;遍歷后,若每個元素正常則輸出0,若異常則輸出1,最終生成二進制矩陣Mb;Mb中的第v列mbv對應mv,研究mbv與其他列的相關性。然而相關性并不意味著因果關系,還需要人工進行進一步判斷,最終得到M中的另一列是引起第v列KPI異常的根本原因。

該方案受數據量影響較大,當數據量太少時,該方案無法構建密度區域,無法正確檢測異常情況,準確率很低;隨著數據量的增加,密度區域形成的可能性更大,該算法的準確率也隨之提高。

5.7 基于BP的故障診斷

近年來,由于神經網絡具有記憶、推理、并行、自學等優點,使其在推理復雜的數據關系時非常有優勢,被研究人員引入到網絡故障分類中并引發廣泛關注。

在神經網絡的實際應用中,許多網絡模型使用BP網絡及其變體[74~76],如文獻[77]提出的基于BP神經網絡的故障診斷方法,該方法可以根據正常的網絡運行數據發現異常情況,并確定異常情況的故障類型。異常檢測采用動態閾值否定選擇算法完成,只需要學習網絡的正常工作狀態數據就可以生成檢測異常的檢測器。此外,因為閾值是動態變化的,所以提高了異常檢測的準確率[78]。故障類型診斷采用決策樹組合分類器算法實現,從歷史故障數據中學習并提供診斷模型,通過其診斷模型來判斷異常情況,然后對網絡異常數據進行故障類型的劃分。該方法提出了故障診斷的有效思路,但結果的準確性有待提高。

文獻[79]將BP神經網絡與SOM相結合,并采用粒子群優化算法(particle swarm optimization,PSO)[80]優化SOM-BP神經網絡的權值和閾值,從而提出了一種不需要大量標記數據的故障診斷方法。通過將監督學習和非監督學習結合,該方案減少了對標記數據的需求,避免了目前由于故障樣本不足而無法進行自動操作和維護的情況,以適應日益復雜的通信網絡場景。該方案設計的故障診斷模型如圖11所示。

該方案首先對數據進行預處理,將與故障相關的KPI數據輸入SOM網絡;接著,將SOM網絡的獲勝神經元作為BP網絡的輸入進行決策融合;最終建立SOM-BP串聯神經網絡模型并給出診斷結果。SOM-BP網絡在傳統的三層BP網絡基礎上增加了一個SOM競爭層,其主要思想是通過SOM網絡的無監督學習特性對未標記的KPI數據進行聚類,從而完成對樣本的初步分類,并對聚類結果進行標記,從而減輕BP網絡的識別壓力。SOM競爭層得到的聚類信息下一步轉移到BP隱藏層,在BP網絡下進行訓練,實現精確的故障診斷。實驗結果表明,該算法故障診斷準確率達到99.08%,大大提高了網絡操作的效率和準確性。與傳統方法相比,該方法降低了標記數據的高昂成本,更適合進一步推廣使用。

5.8 基于CNN的故障診斷

卷積神經網絡(CNN)同樣是故障診斷領域中采用的熱門神經網絡模型。文獻[81]使用有監督的機器學習系統對檢測到的故障進行分類,使用CNN和隨機森林來測試故障分類,開發了一個在不斷變化的環境下區分正常和異常操作的框架,避免了不必要的故障告警。基站的某些故障會導致RSRP讀數和基站周圍可識別的電磁輻射模式發生明顯變化,因此利用用戶在一定時間段內報告的RSRP來檢測基站中的操作異常,一旦檢測到異常操作,該方案使用用戶報告的RSRP來構建覆蓋一組基站的特定區域的熱圖。由于RSRP讀數受噪聲影響,直接使用瞬時RSRP讀數來檢測潛在故障可能會因為噪聲而產生過多誤報,該設計考慮了處理性能下降的檢測以及進行故障識別兩個階段。首先檢測潛在的性能問題,然后利用機器學習模型對故障進行分類,實現故障的自動診斷;利用RSRP熱圖圖像,運維人員始終能夠獲取服務區域內用戶發送和接收的功率水平,且當檢測到服務質量下降時,運維人員能夠利用該系統自動確定網絡質量下降的確切位置。實驗測試了CNN和隨機森林兩種用于故障分類的機器學習模型,測試表明,與CNN相比,隨機森林能夠處理RSRP讀數中存在的噪聲,當呈現嘈雜的圖像時,CNN難以識別感興趣的區域,無法準確地對故障進行分類。

5.9 小結

以上介紹了基于機器學習的故障診斷技術,其總結及對比分析如表5所示。在蜂窩網絡故障診斷中,現有研究思想主要是采用ML方法學習歷史數據,找到故障診斷規則以擺脫對專家知識和經驗的依賴,從而使診斷過程更加客觀合理。

貝葉斯網絡是目前大多數故障診斷方法的基礎[59~62],但其有在高維數據中表現不佳的缺點。無監督學習方法SOM和DBSCAN雖然能夠處理高維數據,但無監督學習的共同問題是需要專家知識對模型進行調整。基于深度學習的方法[77,79,81]同樣是蜂窩網絡故障診斷的熱門方法,此類方法關注現有的不同神經網絡架構在蜂窩網絡故障分類中的應用效果。特別地,文獻[74]將BP神經網絡與SOM相結合,通過監督學習和非監督學習的結合減少了對標記數據的需求,避免了目前由于故障樣本不足而無法進行自動操作和維護的情況。盡管研究人員對基于機器學習的蜂窩網絡故障診斷進行了大量探索,優化診斷精度和算法復雜度仍是研究的重點。

6 基于機器學習的故障預測技術

目前蜂窩網絡故障管理的研究主要集中在故障發生后對其進行檢測與診斷上,而對于故障預測的研究較少,通常預測網絡或特定設備發生下一次故障前的剩余時間[82],或預測何時有故障告警發出[83~85]。故障預測使運維人員能夠在故障發生前采取主動行動從而降低故障恢復所需時間,以便在用戶經歷故障服務之前進行操作。

在大多數使用日志數據的研究中,人們使用傳統的數據挖掘方法[86,87]。Farooq等人[82]側重于開發一個通用分析模型,該模型假設故障發生及恢復時間為指數分布,基于連續時間馬爾可夫鏈(continuous time Markov chain,CTMC)建立,包含各種故障案例,如軟件/硬件故障或SON功能沖突導致的錯誤配置等。依靠該數學模型,研究人員提出了一個故障預測框架,根據過去的故障數據庫估計模型所需相應參數,并利用機器學習工具預測故障的發生,具體工作流程如圖12所示。

該框架能夠預測故障首次發生的預期時間和基站的長期可靠性行為,并發現通過減少基站的故障檢測和恢復時間可以大幅提高網絡可靠性。未來計劃是將模型擴展為故障發生和恢復時間的非指數分布,并通過學習從實際網絡收集的以往故障日志開發有效估計該模型參數的方法。

文獻[82,86,87]都取得了較好的預測效果,但對于不斷增加的數據集,使用傳統的數據挖掘方法費時費力。為探究網絡故障預測的最佳ML方法,文獻[83]采用線性回歸、指數回歸、支持向量機回歸(support vector regression,SVR)、線性SVR、高斯核SVR、ANN、帶自編碼器的深度神經網絡(deep neural network,DNN)七種不同預測技術分析網絡的實際數據,以預測網絡的故障發生時間。該研究分析基于美國一家移動運營商一個月的故障時序數據,利用CTMC建立故障模型以提供對時序數據的瞬態分析,討論各種算法的預測效果。根據實驗結果得出以下結論:與其他技術相比,帶自編碼器的DNN故障預測有效性明顯較高,具有一定研究價值。此外,線性模型的表現比非線性模型差,表明故障相關數據并不遵循線性趨勢,而是更加復雜。

在比較各算法的基礎上,文獻[84]首次提出研究不同的提前預測時間是如何影響ML模型的預測精度的。該文獻選擇決策樹、隨機森林、支持向量機分類(support vector classification,SVC)、線性SVC、多層感知器神經網絡(multilayer perceptron neural network,MLP-NN)以及XGBoost六種常見的ML分類模型對蜂窩基站中的故障發生時間進行預測。首先,研究所選的機器學習算法模型用于故障預測的可行性;接著選用預測表現最好的模型,研究不同的提前預測時間如何影響該模型的預測性能,并采用ROC曲線下面積(area under the ROC curve,AUC)[88]作為算法預測效果的衡量指標。在選用的六種算法中,隨機森林訓練的模型預測表現明顯優于其他算法,因而選用隨機森林進行下一步研究。實驗結果顯示,提前10 min~3 h進行預測,AUC指標下降相當均勻,但3 h后預測性能出現明顯下降。該研究證明,開發預警系統來預測蜂窩基站中即將出現的故障實際上是可能的,但仍需要進一步對其進行優化和探索。

長短期記憶(long short-term memory,LSTM)網絡也被用于NFV中的故障預測,文獻[88]提出了一種基于深度學習的方法來預測虛擬網絡的故障,該DL模型使得LSTM網絡能夠發現網絡歷史數據的長期特征,從而較早地預測故障。虛擬化網絡整體而言是一個分布式的平行系統,鏈接和節點之間存在復雜的關聯,其服務到達是隨機的,而差異率是非線性的。為更好地預測網絡故障,該方案考慮時間維度上復雜的數據相關性,以更好地描述網絡狀態,并提出DL模型可以發現鏈接和節點之間的復雜關聯性,挖掘深層次的特征。該系統采用由LSTM和softmax層組成的DL模型,LSTM層通過特征學習從帶有時間信息的原始網絡數據中提取深度特征,而softmax層借助LSTM層的深度特征計算每個類別的可能性并完成多分類任務。softmax層的輸出如下:

hθ(xi)=p(yi=1|xi;θ)

p(yi=2|xi;θ)p(yi=k|xi;θ)=

1∑kj=1eθTjxieθT1xieθT2xieθTkxi(12)

其中:k為故障類型的數量;xi是第i個網絡樣本數據的特征向量;yi是其對應的故障標簽;θ是需要訓練的softmax層參數。

根據過去一段時間內網絡參數的變化,LSTM神經網絡能夠學習網絡狀態的長期依賴信息。這種方法關注前一段時間的參數信息和下一個時期的故障標簽,降低了建模過程的復雜性,通過在故障發生前進行預警,該系統保證了網絡的服務質量,以便服務提供者有足夠的時間為網絡故障做好準備。

故障數據樣本少的問題是基于機器學習的蜂窩網絡故障預測面臨的另一大難點,Zhuang等人[89]提出,由于擁塞或設備故障,網絡監控數據經常出現空數據,并且因為不同的制造商給出了不同的性能度量而導致數據沒有規范化,使得網絡監控數據非常雜亂,必須對數據進行清理,否則網絡故障預測性能將不令人滿意,甚至清理數據也不會產生更好的結果,因為通常沒有足夠的數據來充分訓練模型。所以,研究人員試圖基于預處理真實數據生成相干數據,基于50 000個告警和10 000 000個性能樣本對其數據進行清理和預處理后,留下58個告警序列數據,使用GAN模型生成更多數據并相應地訓練模型。與其他數據增強方法相比,該方案準確率高達99.9%,性能提高了2.2%。然而,數據擴充的一個常見問題是很難確定訓練和測試數據之間的重疊,因此很難確定最終重疊導致的性能提高部分。該方案可以在前面提到的幾種ML方法的基礎上進行進一步測試,從而驗證其結果的普遍性。

與文獻[89]類似,賈珺等人[90]采用改進的GAN模型WGAN-GP生成故障樣本,并在此基礎上進一步提出了基于記憶的特征生成卷積神經網絡(memory based feature generation by CNN,M-FGCNN)。該方案針對網絡故障告警樣本進行研究,首先通過WGAN-GP生成故障樣本,再利用MLP和CNN加強故障特征間的交互生成新的告警特征,最后將新告警特征與原始特征一同輸入深度神經網絡中進行故障預測。此外,該方案在模型的嵌入矩陣中加入了記憶向量,增強了模型對上一輪訓練輸出的記憶性,使模型訓練具有一定的傳遞性,提高了模型的性能。

表6總結了本章提到的基于機器學習的蜂窩網絡故障預測方法。當前研究主要集中在對機器學習方法應用于網絡故障研究的可行性探究上[83,84],或探索神經網絡模型的應用[85]。此外,故障數據樣本少的問題同樣極大地影響了蜂窩網絡故障預測效果。盡管研究人員采用GAN解決這一問題[89,90],但數據生成導致的訓練和測試數據之間重疊的問題仍未得到解決。

總體而言,當前基于機器學習的蜂窩網絡故障預測研究相對較少,未來仍有很大研究潛力。近年來,基于機器學習的故障預測方法在其他領域中也逐漸引起關注,如Khalil等人[91]采用主成分分析進行數據降維后再利用CNN對電路硬件故障進行預測;Guo等人[92]將相關特征(relevant features,RelieF)算法的特征選擇作用與softmax的分類能力相結合,構建一種RelieF-softmax故障預測模型;Srivastava等人[93]將SVM與高斯回歸相結合,實現配電網故障位置預測;Chen等人[94]利用聚類方法,結合自監督學習機制預測多域光網絡故障;Ruan等人[95]提出一種新的學習算法——遞歸梯度下降,并在LSTM的基礎上提出一種名為累計不確定性減少網絡(cumulative uncertainty reduction network,CURNet)的深度學習模型用于預測工廠中的無線傳感器故障等。蜂窩網絡故障預測也可以結合蜂窩網絡自身故障特點,借鑒和學習其他領域中的最新成果,進一步探索蜂窩網絡中的機器學習故障預測方法。

7 研究展望

本文首先介紹了網絡故障管理研究的相關背景和技術基礎,之后從網絡故障管理周期出發,討論了網絡故障管理框架及基于機器學習的網絡故障管理的各種技術方法,分別介紹了基于機器學習的故障管理方法在故障檢測、故障診斷與故障預測中的實際應用。從本文的調查中可以看出,機器學習技術在網絡故障管理方面發揮了巨大的作用,是當前蜂窩網絡故障管理研究的熱點問題。目前,基于機器學習的蜂窩網絡故障管理的研究還存在一定問題未解決。本文從三個方面對未來可能的研究方向進行詳細闡述:

a)蜂窩網絡體系架構的變化及其特點。隨著未來5G甚至6G系統的不斷發展,網絡架構及技術將變得更加復雜。蜂窩網絡故障管理系統需要在復雜度方面保持領先增長,特別是在故障診斷領域,需要對更多更復雜的故障進行處理,以應對不斷復雜化的網絡,且需要比現在更豐富的故障數據來源。

網絡彈性化、虛擬化和軟件化也對蜂窩網絡故障管理提出了新要求。網絡虛擬化將導致提供網絡服務的功能實體和底層物理網元的關系變得動態,且網絡自愈功能的設計需要與網絡中的彈性功能相協調,需要能夠處理損害其彈性功能有效性的故障,因而進一步提升了網絡故障管理的難度。

b)實際網絡環境中ML方案的實施。研究人員需要確保一個在有代表性的模擬環境中訓練的模型可以應用于特定的網絡位置,并將重新訓練的成本降到最低。此外,機器學習方案的可解釋性一直是研究的難點問題。研究人員需要對機器學習技術進行開發,使機器學習特別是深度學習系統能夠對其提出的建議進行解釋。

c)缺乏用于蜂窩網絡故障管理的通用共享數據庫。開發深度神經網絡方面取得進展的另一關鍵因素是存在非常大的、有代表性的數據集,如MNIST手寫數字圖像數據庫[96],以及其他行業特定的數據庫等。這些數據庫是公開的,可用于訓練和評估候選ML技術。未來,研究人員可著手創建一個行業范圍的5G故障數據庫,以促進基于ML的蜂窩網絡故障管理方法發展。缺乏用于蜂窩網絡故障管理的通用共享數據庫導致的另一個問題是無法對不同方法進行有效比較。研究人員迫切需要引入一個或多個公共數據集,并根據幾個常見的預測指標建立性能基準。由于蜂窩異構網絡模型的復雜性,需要一個跨越多個不同網絡的足夠大的數據庫,以覆蓋大多數故障和故障情況。

機器學習模型能夠深入揭示網絡環境所承載的信息,對復雜的網絡事件作出更準確的決策。然而,機器學習與蜂窩網絡故障管理的結合還處于探索階段,仍存在許多問題和不足。在未來的工作中,可針對上述挑戰及問題進行進一步的研究,從而更好地支持機器學習與蜂窩網絡故障管理的應用融合,提升網絡管理的智能化。

8 結束語

近年來,機器學習技術在網絡故障管理方面的作用得以深入研究,并被廣泛應用于故障管理的不同過程中。本文圍繞網絡故障管理周期展開,介紹了網絡故障管理的典型框架并從故障檢測、故障診斷及故障預測三個方面詳細闡述了機器學習技術在網絡故障自動管理中的研究進展,對比分析了典型方案,并總結歸納了蜂窩網絡不斷發展背景下其故障管理面臨的挑戰及研究方向。

本文目的是調查和分析用于蜂窩網絡故障管理中的各種機器學習方法,并討論了相關技術方法的適用性,在為不同網絡的特定故障管理活動選擇機器學習方法時,這些分析和討論結果可以作為參考意見。基于機器學習的蜂窩網絡故障管理技術目前仍然是十分活躍的研究方向,未來會有更多的技術和研究成果出現,綜述的內容也會進行不斷地更新和擴展。

參考文獻:

[1]Andrews J G,Buzzi S,Choi W,et al. What will 5G be? [J]. IEEE Journal on Selected Areas in Communications,2014,32(6): 1065-1082.

[2]Cherrared S,Imadali S,Fabre E,et al. SFC self-modeling and active diagnosis [J]. IEEE Trans on Network and Service Management,2021,18(3): 2515-2530.

[3]Nisa F,Haryadi S. Simulation of the fault management with self hea-ling mechanism (case study: LTE network in Banda Aceh area) [C]// Proc of the 10th International Conference on Telecommunication Systems Services and Applications. Piscataway,NJ: IEEE Press,2016: 1-6.

[4]Li Rongpeng,Zhao Zhifeng,Zhou Xuan,et al. Intelligent 5G: when cellular networks meet artificial intelligence [J]. IEEE Wireless Communications,2017,24(5): 175-183.

[5]Kafle V P,Fukushima Y,Martinez-Julia P,et al. Consideration on automation of 5G network slicing with machine learning [C]// Proc of ITU Kaleidoscope: Machine Learning for a 5G Future. Piscataway,NJ: IEEE Press,2018: 1-8.

[6]Aliu O G,Imran A,Imran M A,et al. A survey of self-organization in future cellular networks [J]. IEEE Communications Surveys amp; Tutorials,2013,15(1): 336-361.

[7]Klaine P V,Imran M A,Onireti O,et al. A survey of machine learning techniques applied to self-organizing cellular networks [J]. IEEE Communications Surveys amp; Tutorials,2017,19(4): 2392-2431.

[8]Klaine P V,Onireti O,Souza R D,et al. The role and applications of machine learning in future self-organizing cellular networks [M]// Next-Generation Wireless Networks Meet Advanced Machine Learning Applications. Hershey,PA: IGI Global,2018: 1494-1516.

[9]Mulvey D,Foh C H,Imran M A,et al. Cell fault management using machine learning techniques [J]. IEEE Access,2019,7: 124514-124539.

[10]Cherrared S,Imadali S,Fabre E. A survey of fault management in network virtualization environments: challenges and solutions [J]. IEEE Trans on Network and Service Management,2019,16(4): 1537-1551.

[11]Fourati H,Maaloul R,Chaari L,et al. Comprehensive survey on self-organizing cellular network approaches applied to 5G networks [J]. Computer Networks,2021,199(11): 108435.

[12]Mahmoud A,Amin S,Amir T. Deep learning for network traffic monitoring and analysis (NTMA): a survey [J]. Computer Communications,2021,170(3): 19-41.

[13]Vichare N M,Pecht M G. Prognostics and health management of electronic [J]. IEEE Trans on Components and Packaging Technologies,2006,29(1): 222-229.

[14]Sánchez J,Yahia I G B,Crespi N,et al. Softwarized 5G networks resiliency with self-healing [C]// Proc of the 1st International Confe-rence on 5G for Ubiquitous Connectivity. Piscataway,NJ: IEEE Press,2014: 229-233.

[15]Keshavamurthy B,Ashraf M. Conceptual design of proactive SONs based on the big data framework for 5G cellular networks: a novel machine learning perspective facilitating a shift in the SON paradigm [C]// Proc of International Conference System Modeling amp; Advancement in Research Trends. Piscataway,NJ:IEEE Press,2016:298-304.

[16]Neves P,Calé R,Costa M R. The SELFNET approach for autonomic management in an NFV/SDN networking paradigm [J]. Internatio-nal Journal of Distributed Sensor Networks,2016,12(2): 2897479.

[17]Nightingale J,Wang Qi,Calero J M A. QoE-driven,energy-aware video adaptation in 5G networks: the SELFNET self-optimization use case [J]. International Journal of Distributed Sensor Networks,2016,12(1): 7829305.

[18]ETSI. ETSI GR NFV-REL 011 V4. 1. 1 [S/OL]. (2020-11-01). https://www.etsi.org/standards#Pre-defined.

[19]Jiang Wei,Strufe M,Schotten D H. Autonomic network management for software-defined and virtualized 5G systems [C]// Proc of the 23th European Wireless Conference. Piscataway,NJ: IEEE Press,2017: 1-6.

[20]Jiang Wei,Strufe M,Schotten D H. Intelligent network management for 5G systems: the SELFNET approach [C]// Proc of European Conference on Networks and Communications. Piscataway,NJ: IEEE Press,2017: 1-5.

[21]Jiang Wei,Strufe M,Schotten D H. A SON decision-making framework for intelligent management in 5G mobile networks [C]// Proc of the 3rd IEEE International Conference on Computer and Communications. Piscataway,NJ: IEEE Press,2017: 1158-1162.

[22]Jiang Wei,Strufe M,Schotten D H. Experimental results for artificial intelligence-based self-organized 5G networks [C]// Proc of the 28th IEEE Annual International Symposium on Personal,Indoor,and Mobile Radio Communications. Piscataway,NJ: IEEE Press,2017:1-6.

[23]Cherrared S,Imadali S,Fabre E,et al. LUMEN: a global fault ma-nagement framework for network virtualization environments [C]// Proc of the 21st Conference on Innovation in Clouds,Internet and Networks and Workshops. Piscataway,NJ: IEEE Press,2018: 1-8.

[24]Moysen J,Ahmed F,García-Lozano M,et al. Big data-driven automated anomaly detection and performance forecasting in mobile networks [C]// Proc of IEEE Globecom Workshops. Piscataway,NJ: IEEE Press,2020: 1-5.

[25]Christ M,Kempa-Liehr A W,Feindt M. Distributed and parallel time series feature extraction for industrial big data applications [EB/OL]. (2017-05-19) [2021-10-15]. https://arxiv.org/pdf/1610.07717.pdf.

[26]Kato N,Fadlullah Z M,Mao Bomin,et al. The deep learning vision for heterogeneous network traffic control: proposal,challenges,and future perspective [J]. IEEE Wireless Communications,2016,24(3): 146-153.

[27]Wang Mowei,Cui Yong,Wang Xin,et al. Machine learning for networking: workflow,advances and opportunities [J]. IEEE Network,2018,32(2): 92-99.

[28]Fan Saite,Zhang Xinmin,Song Zhihuan. Imbalanced sample selection with deep reinforcement learning for fault diagnosis [J]. IEEE Trans on Industrial Informatics,2022,18(4): 2518-2527.

[29]Hmlinen S,Sanneck H,Sartori C. LTE self-organising networks (SON): network management automation for operational efficiency [M]. Hoboken,NJ: John Wiley amp; Sons Ltd.,2012: 235-266.

[30]Moysen J,Giupponi L. From 4G to 5G: self-organized network-management meets machine learning [J]. Computer Communications,2018,129(9): 248-268.

[31]Amirijoo M,Jorguseski L,Kurner T,et al. Cell outage management in LTE networks [C]// Proc of the 6th International Symposium on Wireless Communication Systems. Piscataway,NJ: IEEE Press,2009: 600-604.

[32]Zoha A,Saeed A,Imran A,et al. Data-driven analytics for automated cell outage detection in self-organizing networks [C]// Proc of the 11th International Conference on the Design of Reliable Communication Networks. Piscataway,NJ: IEEE Press,2015: 203-210.

[33]Fedor C,Ilmari R,Vilho R,et al. Cognitive self-healing system for future mobile networks [C]// Proc of International Wireless Communications and Mobile Computing Conference. Piscataway,NJ: IEEE Press,2015: 628-633.

[34]Qin Meng,Yang Qinghai,Cheng Nan,et al. Machine learning aided context-aware self-healing management for ultra-dense networks with QoS provisions [J]. IEEE Trans on Vehicular Technology,2018,67(12): 12339-12351.

[35]Asghar M Z,Hmlainen S,Ristaniemi T. Self-healing framework for LTE networks [C]// Proc of the 17th Computer Aided Modeling and Design of Communication Links and Networks. Piscataway,NJ: IEEE Press,2012: 159-161.

[36]Lee K,Kim D,Lee K H,et al. Density-induced support vector data description [J]. IEEE Trans on Neural Networks,2007,18(1): 284-289.

[37]Alias M,Saxena N,Roy A. Efficient cell outage detection in 5G HetNets using hidden Markov model [J]. IEEE Communications Letters,2016,20(3): 562-565.

[38]Rabiner L. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE,1989,77(2): 257-286.

[39]Zhang Tao,Feng Lei,Yu Peng,et al. A handover statistics based approach for cell outage detection in self-organized heterogeneous networks[C]// Proc of IFIP/IEEE Symposium on Integrated Network and Service Management. Piscataway,NJ:IEEE Press,2017:628-631.

[40]白鵬翔,張清華,段富. 網絡故障診斷研究中一種優化的否定選擇算法 [J]. 計算機應用研究,2015,32(10): 3131-3133,3137. (Bai Pengxiang,Zhang Qinghua,Duan Fu. Optimized negative selection algorithm on research of fault diagnosis of network [J]. Application Research of Computers,2015,32(10): 3131-3133,3137.)

[41]Hussain B,Du Qinghe,Ren Pinyi. Semi-supervised learning based big data-driven anomaly detection in mobile wireless networks [J]. China Communications,2018,15(4): 41-57.

[42]Bishop C M. Pattern recognition and machine learning [M]. New York: Springer,2012.

[43]Chandola V,Banerjee A,Kumar V. Anomaly detection: a survey [J]. ACM Computing Surveys,2009,41(3): article No. 15.

[44]Zhang Yang,Meratnia N,Havinga P. Outlier detection techniques for wireless sensor networks: a survey [J]. IEEE Communications Surveys amp; Tutorials,2010,12(2): 159-170.

[45]Hapsari W A,Umesh A,Iwamura M,et al. Minimization of drive tests solution in 3GPP [J]. IEEE Communications Magazine,2012,50(6): 28-36.

[46]He Haibo,Garcia E A. Learning from imbalanced data [J]. IEEE Trans on Knowledge and Data Engineering,2009,21(9):1263-1284.

[47]Sun Mengyun,Qian Hongyan,Zhu Kun,et al. Ensemble learning and SMOTE based fault diagnosis system in self-organizing cellular networks [C]// Proc of IEEE Global Communications Conference. Piscataway,NJ: IEEE Press,2017: 1-6.

[48]Zhang Tao,Zhu Kun,Niyato D. Detection of sleeping cells in self-organizing cellular networks: an adversarial auto-encoder method [J]. IEEE Trans on Cognitive Communications and Networking,2021,7(3): 739-751.

[49]Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial nets [C]// Proc of the 27th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2014: 2672-2680.

[50]Makhzani A,Shlens J,Jaitly N,et al. Adversarial auto-encoders [EB/OL]. (2016-05-25). https://arxiv.org/pdf/1511.05644.pdf.

[51]Liu Huidong,Gu Xianfeng,Samaras D.Wasserstein GAN with quadratic transport cost [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 4832-4841.

[52]Gulrajani I,Ahmed F,Arjovsky M,et al. Improved training of Wasserstein GANs [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 5769-5779.

[53]朱曉榮,張佩佩. 基于GAN的異構無線網絡故障檢測與診斷算法 [J]. 通信學報,2020,41(8): 110-119. (Zhu Xiaorong,Zhang Peipei. Fault detection and diagnosis method for heterogeneous wireless network based on GAN [J]. Journal on Communications,2020,41(8): 110-119.)

[54]Rao A. Deploying and troubleshooting wireless networks for mobile unified communications [J]. What’s New in Electronics,2016,36(3): 48.

[55]Frohlich P,Nejdl W,Jobmann K,et al. Model-based alarm correlation in cellular phone networks [C]// Proc of the 5th International Symposium on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems. Piscataway,NJ:IEEE Press,1997:197-204.

[56]Khatib E J,Barco R,Gómez-Andrades,A,et al. Diagnosis based on genetic fuzzy algorithms for LTE self-healing[J]. IEEE Trans on Vehicular Technology,2016,65(3): 1639-1651.

[57]Gómez-Andrades A,Muoz P,Khatib E J,et al. Methodology for the design and evaluation of self-healing LTE networks [J]. IEEE Trans on Vehicular Technology,2016,65(8): 6468-6486.

[58]Wang Jidong,Fang Kaijie,Pang Wenjie,et al. Wind power interval prediction based on improved PSO and BP neural network [J]. Journal of Electrical Engineering amp; Technology,2017,12(3): 989-995.

[59]Barco R,Nielsen L,Guerrero R,et al. Automated troubleshooting of a mobile communication network using Bayesian networks [C]// Proc of the 4th International Workshop on Mobile and Wireless Communications Network. Piscataway,NJ: IEEE Press,2002: 606-610.

[60]Barco R,Wille V,Diez L. System for automated diagnosis in cellular networks based on performance indicators [J]. European Trans on Telecommunications,2005,16(5): 399-409.

[61]蔣勇,趙作鵬. 多屬性加權模糊貝葉斯的復雜網絡故障自修復技術 [J]. 計算機應用研究,2015,32(8): 2378-2381. (Jiang Yong,Zhao Zuopeng. Complex network fault self-repair mechanism with multi-attribute weighted fuzzy Bayesian [J]. Application Research of Computers,2015,32(8): 2378-2381.)

[62]Mfula H,Nurminen J K. Adaptive root cause analysis for self-healing in 5G networks [C]// Proc of International Conference on High Performance Computing amp; Simulation. Piscataway,NJ: IEEE Press,2017: 136-143.

[63]Lee B H. Using Bayes belief networks in industrial FMEA modeling and analysis [C]// Proc of Annual Reliability and Maintainability Symposium. Piscataway,NJ: IEEE Press,2001: 7-15.

[64]Iacoboaiea O,Sayrac B,Jemaa B S,et al. SON conflict diagnosis in heterogeneous networks [C]// Proc of the 26th IEEE Annual International Symposium on Personal,Indoor,and Mobile Radio Communications. Piscataway,NJ: IEEE Press,2015: 1459-1463.

[65]Bennacer L,Amirat Y,Chibani A,et al. Self-diagnosis technique for virtual private networks combining Bayesian networks and case-based reasoning [J]. IEEE Trans on Automation Science and Engineering,2014,12(1): 354-366.

[66]Ciocarlie G F,Connolly C,Cheng C C,et al. Anomaly detection and diagnosis for automatic radio network verification [C]// Proc of the 6th International Conference on Mobile Networks and Management. Cham: Springer,2014: 163-176.

[67]Teh Y W,Jordan M I,Beal M J,et al. Hierarchical Dirichlet processes [J]. Journal of the American Statistical Association,2006,101(476): 1566-1581.

[68]Richardson M,Domingos P. Markov logic networks [J]. Machine Learning,2006,62(1-2): 107-136.

[69]Steyvers M,Griffiths T. Probabilistic topic models [M]Landauer T K,McNamara D S,Dennis S,et al. // Handbook of Latent Semantic Analysis. [S. l.] : Psychology Press,2007: 439-460.

[70]Deb S,Ge Zhihui,Isukapalli S,et al. AESOP: automatic policy lear-ning for predicting and mitigating network service impairments[C]// Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:ACM Press,2017:1783-1792.

[71]Wang Yueping,Zhu Kun,Sun Mengyun,et al. An ensemble learning approach for fault diagnosis in self-organizing heterogeneous networks [J]. IEEE Access,2019,7: 125662-125675.

[72]Gómez A A,Muoz P,Serrano I,et al. Automatic root cause analysis for LTE networks based on unsupervised techniques [J]. IEEE Trans on Vehicular Technology,2016,65(4): 2369-2386.

[73]Mismar F B,Hoydis J. Unsupervised learning in next-generation networks: real-time performance self-diagnosis [J]. IEEE Communications Letters,2021,25(10): 3330-3334.

[74]Wu Bing,Han Shaojun,Xiao Jin,et al. Error compensation based on BP neural network for airborne laser ranging [J]. Optik,2016,127(8): 4083-4088.

[75]呂晶,謝潤成,周文,等. LM-BP神經網絡在泥頁巖地層橫波波速擬合中的應用[J]. 中國石油大學學報:自然科學版,2017,41(3): 75-83. (Lyu Jing,Xie Runcheng,Zhou Wen,et al. Application of LM-BP neural network in simulation of shear wave velocity of shale formation [J]. Journal of China University of Petroleum: Edition of Natural Science,2017,41(3): 75-83.)

[76]Liu Tianhua,Yin Shoulin. An improved particle swarm optimization algorithm used for BP neural network and multimedia course-ware evaluation [J]. Multimedia Tools amp; Applications,2017,76(9): 11961-11974.

[77]Shao Shuying. Communication fault diagnosis algorithm based on BP neural network [C]// Proc of the 3rd International Conference on Intelligent Control,Measurement and Signal Processing and Intelligent Oil Field. Piscataway,NJ: IEEE Press,2021: 239-243.

[78]Li Junke,Guo Bing,Shen Yan,et al. A modeling approach for energy saving based on GA-BP neural network [J]. Journal of Electrical Engineering and Technology,2016,11(5): 1289-1298.

[79]Wang Yilin,Ruan Yuqi,Tang Yuliang. Intelligent fault diagnosis method for mobile cellular networks [C]// Proc of IEEE Globecom Workshops. Piscataway,NJ: IEEE Press,2021: 1-6.

[80]Shahreza M L,Moazzami D,Moshiri B,et al. Anomaly detection using a self-organizing map and particle swarm optimization [J]. Scientia Iranica,2011,18(6): 1460-1468.

[81]Porch J B,Foh C H,Farooq H,et al. Machine learning approach for automatic fault detection and diagnosis in cellular networks [C]// Proc of IEEE International Black Sea Conference on Communications and Networking. Piscataway,NJ: IEEE Press,2020: 1-5.

[82]Farooq H,Parwez M S,Imran A. Continuous time Markov chain based reliability analysis for future cellular networks [C]// Proc of IEEE Global Communications Conference. Piscataway,NJ:IEEE Press,2015:1-6.

[83]Kumar Y,Farooq H,Imran A. Fault prediction and reliability analysis in a real cellular network [C]// Proc of the 13th International Wireless Communications and Mobile Computing Conference. Piscataway,NJ: IEEE Press,2017: 1090-1095.

[84]Boldt M,Ickin S,Borg A,et al. Alarm prediction in cellular base stations using data-driven methods [J]. IEEE Trans on Network and Service Management,2021,18(2): 1925-1933.

[85]Zhang Lei,Zhu Xiaorong,Zhao Su,et al. A novel virtual network fault diagnosis method based on long short-term memory neural networks [C]// Proc of the 86th IEEE Vehicular Technology Conference. Piscataway,NJ: IEEE Press,2017: 1-5.

[86]Guan Qiang,Zhang Ziming,Fu Song. Ensemble of Bayesian predictors and decision trees for proactive failure management in cloud computing systems[J]. Journal of Communications,2012,7(1):52-61.

[87]Sonoda M,Watanabe Y,Matsumoto Y. Prediction of failure occurrence time based on system log message pattern learning [C]// Proc of IEEE Network Operations and Management Symposium. Pisca-taway,NJ: IEEE Press,2012: 578-581.

[88]Fawcett T. An introduction to ROC analysis [J]. Pattern Recognition Letters,2006,27(8): 861-874.

[89]Zhuang Haotao,Zhao Yongli,Yu Xiaosong,et al. Machine-learning-based alarm prediction with GANs-based self-optimizing data augmentation in large-scale optical transport networks [C]// Proc of International Conference on Computing,Networking and Communications. Piscataway,NJ: IEEE Press,2020: 294-298.

[90]賈珺,馮春燕,夏海輪,等. 基于樣本均衡與特征交互的通信網絡故障預測方法 [J]. 北京郵電大學學報,2021,44(6): 59-66. (Jia Jun,Feng Chunyan,Xia Hailun,et al. Communication networks fault prediction method based on sample equalization and feature interaction [J]. Journal of Beijing University of Posts amp; Telecommunications,2021,44(6): 59-66.)

[91]Khalil K,Eldash O,Kumar A,et al. Machine learning-based approach for hardware faults prediction [J]. IEEE Trans on Circuits and Systems I: Regular Papers,2020,67(11): 3880-3892.

[92]Guo Tao,Zhang Hong,Xiao Lin,et al. A fault prediction method of distribution network based on the improved RelieF-softmax algorithm [C]// Proc of China International Conference on Electricity Distribution. Piscataway,NJ: IEEE Press,2021: 148-152.

[93]Srivastava A,Parida S K. A robust fault detection and location prediction module using support vector machine and Gaussian process regression for AC Microgrid [J]. IEEE Trans on Industry Applications,2021,58(1): 930-939.

[94]Chen Xiaoliang,Liu Cheyu,Proietti R,et al. On cooperative fault management in multi-domain optical networks using hybrid learning [J]. IEEE Journal of Selected Topics in Quantum Electronics,2022,28(4): 3700209.

[95]Ruan Hang,Dorneanu B,Arellano-Garcia H,et al. Deep learning-based fault prediction in wireless sensor network embedded cyber-physical systems for industrial processes [J]. IEEE Access,2022,10: 10867-10879.

[96]Deng Li. The MNIST database of handwritten digit images for machine learning research [best of the web] [J]. IEEE Signal Processing Magazine,2012,29(6): 141-142.

主站蜘蛛池模板: 国产亚洲视频播放9000| 亚洲va在线∨a天堂va欧美va| 亚洲成人在线免费| 欧美综合区自拍亚洲综合天堂| 9啪在线视频| 亚洲人成影院在线观看| AV天堂资源福利在线观看| 久久婷婷五月综合色一区二区| 亚洲天堂啪啪| 亚洲无码高清视频在线观看| 国产国产人在线成免费视频狼人色| 深夜福利视频一区二区| 亚洲国产欧美自拍| 无码中文字幕乱码免费2| 亚洲三级片在线看| 免费国产福利| a毛片在线播放| 男人天堂伊人网| 免费人成在线观看视频色| 欧美A级V片在线观看| 精品国产美女福到在线不卡f| 成·人免费午夜无码视频在线观看 | 国产爽妇精品| 992tv国产人成在线观看| 免费在线一区| 中文字幕1区2区| 欧美亚洲日韩中文| 亚洲日本www| 伊人久热这里只有精品视频99| 无码啪啪精品天堂浪潮av| 91精品国产综合久久香蕉922| 久久国语对白| 国产精品思思热在线| 91啪在线| a国产精品| 欧美精品aⅴ在线视频| 国模私拍一区二区| 亚洲综合婷婷激情| www中文字幕在线观看| 国产精品美女在线| 欧美a级在线| 欧美日韩精品一区二区在线线| 成人福利一区二区视频在线| 亚洲天堂视频在线播放| 日韩天堂网| 欧美在线视频不卡第一页| 国产精品9| 亚洲人成网18禁| 在线免费无码视频| 67194亚洲无码| 99在线观看精品视频| 最新日韩AV网址在线观看| a亚洲视频| 又大又硬又爽免费视频| 亚洲毛片一级带毛片基地| 久久精品国产在热久久2019| 波多野结衣在线se| 色亚洲成人| 亚洲视频免费在线看| 手机永久AV在线播放| julia中文字幕久久亚洲| 欧美一级高清视频在线播放| 天堂在线亚洲| 18禁黄无遮挡免费动漫网站| 97免费在线观看视频| 天堂亚洲网| 狠狠亚洲五月天| 中文字幕不卡免费高清视频| 中文字幕乱码中文乱码51精品| 亚洲乱码视频| 美女被躁出白浆视频播放| 欧洲日本亚洲中文字幕| 久久国产高潮流白浆免费观看| www中文字幕在线观看| 香蕉视频在线观看www| 久久国产精品麻豆系列| 国产精品亚洲精品爽爽| 巨熟乳波霸若妻中文观看免费| 亚洲色欲色欲www网| 国产AV无码专区亚洲A∨毛片| 欧美性猛交xxxx乱大交极品| 香蕉国产精品视频|