王樹叢
(中國移動通信集團河北有限公司,河北 石家莊 050035)
人工智能是計算機學科的一個分支,是20世紀70年代以來世界3大尖端技術之一,尤其在近30年來獲得了迅速的發展,在很多學科領域都得到了廣泛應用,并取得了豐碩的成果。人工智能已逐步成為一個獨立的分支,無論在理論和實踐上都已自成系統[1]。人工智能是指人造的機器或系統能夠實現的智能化,是與人類和其他動物表現的人類智能和自然智能相對的概念,與神經網絡有緊密淵源[2]。
隨著全球5G技術標準的加速完善,網絡解決方案及終端產品逐漸成熟,全球5G規模商用深入開展,5G網絡部署的步伐正在全球范圍內加快。5G網絡與4G網絡相比可提供更高帶寬、更廣連接以及更低時延,具備特有的三大應用場景eMBB、mMTC及uRLLC[3,4],可以賦能4K/8K視頻傳送、自動駕駛、遠程醫療、工控制造、智慧城市以及智能交通等垂直行業。為提供面向垂直行業的服務能力,5G網絡將引入新的架構和特性,如圖1所示,主要體現在以下方面[5,6]。一是基于服務的柔性網絡,引入SBA服務化架構,實現網絡功能云化和服務切片化。二是網元重組為服務模塊,計算與存儲分離、控制面網元與用戶數據面網元分離、多終端接入、控制面與用戶面分離,按需引入邊緣計算。

圖1 5G網絡架構及特性概覽
5G 時代隨著移動通信網絡虛擬化和云化轉型,由于SDN、容器、大數據、物聯網(Internet of Things,IoT)等技術的融入以及行業應用的個性化定制和多樣化發展,使得電信網絡的運營與運維也將面臨前所未有的挑戰,網絡運維和業務支撐保障也將顛覆依靠專家經驗為主的傳統運營運維模式,網絡運營運維挑戰和網絡的先進性之間正逐漸形成差距,自動化和智能化的網絡運營能力將成為5G時代電信網絡運營的剛需[7]。
AI技術在解決海量數據分析、跨領域特性挖掘、動態策略生成與管理以及智能化自管理等方面具備天然優勢,將賦予5G時代網絡運營運維新的模式和能力,可有效應對上述運維挑戰[8,9]。本文將針對5G組網架構下復雜的故障管理場景進行分析,提供一種基于人工智能的5G網絡故障管理模型。
相對于傳統的通信網故障管理,5G網絡故障管理新增了告警跨層跨域關聯、故障根因分析以及故障預測等[10,11]。
告警關聯是指在窗口時間內將具有相關性的一組告警關聯在一起,從而支撐告警定位分析和告警壓縮。對于關聯告警可進行故障準確定位,告警跨層關聯涉及VNF、虛擬化層以及硬件資源三層告警關聯。告警跨域關聯是指將5G無線、傳輸以及核心網等不同網絡域間在窗口時間內具有相關性的一組告警關聯在一起,主要用于業務端到端故障的根因分析。
通過對跨層關聯和跨域關聯后的告警進行根因分析(Root Cause Analysis,RCA)規則比對匹配,得出這些告警的根源。根因分析的準確性很大程度上依賴于RCA規則庫的準確性和完整性。
通過對大量歷史告警和事件的分析,積累故障處理經驗庫,通過數據提取整合形成告警和故障的影響模型曲線圖。對于由小告警引起的串聯性或并發性故障提前做到預測。
借助AI技術,通過機器學習來實現各類告警原始數據的收集、分析及加工,轉換為運維友好的信息或操作策略,實現告警跨層跨域關聯、告警壓縮、故障根因分析以及故障預測等故障管理場景,從而實現網絡故障自愈或輔助人工進行故障處理。
本模型共包括5G網絡功能與網絡資源層、5G網絡故障數據采集層以及AI故障管理模塊層3層,各部分介紹如下。
5G網絡功能與網絡資源層為標準的5G網絡,包括5G網絡的基礎設施和網元功能等資源,為用戶提供業務服務能力,是故障管理的對象。5G網絡故障數據采集層主要由管理5G無線、承載以及核心網等各域網元管理單元組成,可以面向運維,以標準化RESTFULL API接口提供5G網絡的故障通知消息和性能統計等數據。AI故障管理模塊層為AI故障管理核心處理層,主要由數據池、AI學習平臺、AI引擎、策略引擎、自動化編排以及監控呈現界面等模塊構成。
數據池用于存儲從5G網絡故障數據采集層各數據源采集的原始告警、性能及資源數據,這些數據是基于AI進行故障管理的源數據。AI引擎是進行故障數據加工的驅動和關鍵進程,根據策略算法調度各模塊按照既定流程進行運轉。AI學習平臺通過分析源數據,根據設定的算法進行學習,提煉出告警關聯規則、根因分析規則以及告警壓縮規則等故障管理策略,并將這些策略輸出到策略引擎。策略引擎用來存儲AI學習平臺梳理的策略或人工導入的策略,并運用這些策略輸出處理后的結果。監控呈現界面用于向運維監控人員呈現故障管理結果,或將相關結果輸出到其他網管系統。自動化編排模塊與NFVO相連,主要用于故障管理的故障自愈場景,如根據AI故障分析的結果向NFVO發起虛機的遷移、重生及VNF生命周期的管理流程。
監控呈現界面即5G網管系統告警監控界面,AI故障管理系統可以通過API接口與監控平臺相連,呈現故障管理流程。
5G網絡向故障管理中心開放北向網管接口,采用REST Full等協議進行告警和日志等消息采集,分析加工處理,提煉并匹配規則,輸出到顯示界面,派發處理工單,人工輔助分析更新規則庫,迭代完善分析規則,提升故障管理準確度。具體處理流程如圖2所示。

圖2 AI故障管理模型內部結構及故障管理流程圖
AI故障管理層通過數據采集進程從NFVO等5G網絡管理單元獲取5G網絡的性能、資源及告警數據,將采集的性能和告警數據進行數據分析,根據策略引擎提供的告警關聯規則、故障根因分析規則以及告警壓縮規則對告警進行加工匹配既有規則,輸出故障處理解決方案。AI運維引擎根據解決方案自動執行自愈或彈性策略,觸發自愈或彈性伸縮等故障恢復操作。該恢復操作由自動化編排引擎下發給NFVO等網絡管理單元進行執行,并向監控平臺反饋處理結果。
故障預測管理中,AI引擎根據采集到的告警監控和資源配置等數據進行學習、異常檢測和定位,將預測結果、止損措施以及規避建議等內容輸出給運維專家,由運維專家啟動相關預案提前干預止損。有一小部分告警需更換硬件等機房現場解決,將這部分告警會直接派發工單到運維部門,由人工進行閉環。
5G時代,復雜的業務場景將帶來對服務等級協議(Service-Level Agreement,SLA)的差異化需求,如高帶寬、大連接、超高可靠性以及低時延等,此外還包括與之配套的網絡管理的復雜性等。融合了5G、AI、大數據以及IoT等新技術的移動通信網絡將逐漸成為數字社會發展和經濟增長的智能中樞,推進社會步入萬物智能互聯的新時代。