[李清亮]
隨著移動通信網絡制式從2G、3G 到4G,再到現在的5G,移動通信技術的更新換代與移動互聯網用戶及終端多樣化需求的劇增相互影響,網絡的業務承載能力以及網絡平臺服務能力的要求更是逐步攀升。因此,網絡運行數據的維度、體量以及實時性要求也隨之迫切,而來自網絡運行健康狀態、用戶測量反饋、系統參數配置優化等方面的監測、透視能力也亟需解決。在過去網絡運行數據體量還比較小的2G、3G 時代,數據處理思路經歷下載、入庫、解壓、運算、輸出等單步驟進行;但到了4G 網絡時,運行數據量則每小時以T 級產生,已經開始存在數據下載速度慢、處理效率低容易造成數據丟失、時效性差等問題;到5G 時代數據量更是以P 級的體量產生,且5G 系統部署將控制面與業務面分離、空口技術更新升級,現有技術手段已經不能完全滿足信息的提取分析及運維優化需求,由于系統運行數據要求更加完整、準確和及時,那么必須打破傳統技術手段,從數據采集源頭到問題預警找到新的解決辦法。
為制定基于多維數據的移動通信網絡運行信息透視方案,本項目總體研究路線必須包括數據實時采集解析技術、網絡運行信息深度檢測技術、智能監控模型算法三個方面。
詳細研究路線圖如圖1 所示。

圖1 基于多維大數據的移動通信網絡運行信息透視技術研究路線
其中數據實時采集解析技術的主要內容是基于文件索引數據庫技術、持續輪詢技術、智能最優調度算法、健康度檢測算法、時間多維匯聚梯度算法;網絡運行信息深度檢測技術的主要內容是對海量信息進行升維和降維的技術;智能監控模型算法的主要內容是梯度擴散的KNN 監控算法模型的設計。
(1)解決海量數據下載時延過長的技術瓶頸
5G 網絡用戶測量數據、運維數據、配置數據以及設備種類多等,后臺生成海量的大數據需要采集下載,數據處理量比以往2G、3G、4G 網絡增加成千上萬倍,導致數據下載時延過長,起碼多1~2 天,因此必須引入新的技術和方法才能有效解決。
(2)提高海量數據解析結果的完整性和準確性
5G 網絡業務特性、場景化應用等產生的海量信息對大數據采集和解析的完整性、準確性和一致性的要求極高,數據分析才能可靠和滿足需求。
(3)解決海量數據無法實時匯聚和無法高效運行的技術難題
網絡服務存儲的數據信息量龐大,按日常統計分析需求,要進行分鐘、小時、天、周、月粒度等多維度的準實時匯總,數據庫存在信息量巨大導致無法高效運行的技術瓶頸。
(4)深度檢測與智能呈現網絡運行現狀和網絡服務質量
優化現有數據檢測能力,深度檢測與智能呈現網絡運行現狀和網絡服務質量。
(5)建立監控對象業務算法模型,智能動態預警網絡問題
建立監控對象業務模型,以用戶數據、測量數據、網絡指標、網絡配置等數據為基礎實現智能動態預警網絡問題。
(1)基于文件索引數據庫技術和持續輪詢技術
基于文件索引數據庫技術和持續輪詢技術實現文件準實時同步,解決海量數據下載時延過長的技術瓶頸。
傳統數據的下載方式是等待數據完全生成完畢,然后批量下載文件到本地,造成下載延遲嚴重,且下載過程長時間占用服務器帶寬。針對時延和帶寬問題,加入本地文件索引數據庫、持續輪詢方式對生成的文件進行循環的不重復下載,實現了準實時同步,可以解決海量數據下載時間延時過長的技術難題。
(2)智能最優調度算法和健康度檢測算法
應用智能最優調度算法和健康度檢測算法,提高海量數據解析結果的完整性和準確性。
5G 網絡業務特性、場景化應用等產生的海量信息對大數據采集和解析的完整性、準確性和一致性的要求極高,數據分析才能可靠和滿足需求。利用分布式的master-slaver模型結合FTP 的長時間執行的特點,設計任務生成器和任務執行器,并通過被動的輪詢方式實現生成器和執行器中的任務信息同步,在任務的調度中加入基于下載器的任務數量的均衡算法,實現任務生成器與任務執行器最優調度,并能穩定執行計算。
在master-slaver 模型的文件下載任務系統中,由于是分布式的多機器執行,且執行的任務是長時的,故容易因為網絡的不穩定性而造成任務生成器與任務執行器之間的任務信息不同步。針對長時任務同步問題,設計了服務器的健康度統計算法,通過對服務器的健康度統計,任務生成器智能的判斷任務執行器是否具備任務執行能力而優化任務的發布,有效的實現網絡容錯,提高數據準確性。
(3)時間多維匯聚梯度算法
基于時間多維匯聚梯度算法,解決海量數據無法實時匯聚和無法高效運行的技術難題。
網絡服務存儲的數據信息量龐大,按日常統計分析需求,要進行分鐘、小時、天、周、月粒度等多維度的準實時匯總,數據庫存在信息量巨大導致無法高效運行的技術瓶頸。
為了減少數據庫運行壓力并且滿足多種時間粒度的準實時匯總,設計基于時間多維匯聚梯隊算法,對目標指標進行分解得到多個中間過程,使大時間粒度的指標計算從大量基礎數據匯總成可通過小數據量的多個小時間粒度的中間過程數據匯聚,解決數據庫的運算壓力。
(4)對海量信息進行升維和降維
結合SVD降維、高維映射、隨機森林等各種算法精髓,對海量信息利用升維和降維的技術手段,實現同一數據多維度分析智能展示和過濾數據傾斜的檢測能力,深度檢測與智能呈現網絡運行現狀和網絡服務質量。
例如:我們很難將隨機分布在桌面的紅色和藍色的點按區域區分出來,但是通過高維映射的手段,我們設法將所有的點映射到三維空間,這樣我們可以設法找到一個超平面將紅色和藍色的點按區域完美區分出來,如圖2 所示。我們將這種思路應用到海量的網絡運行產生的數據分析中,就能夠突破以往數據分析的極限,實現同一數據多維度分析智能展示和過濾數據傾斜的檢測能力,深度檢測與智能呈現網絡運行現狀和網絡服務質量。

圖2 基于高維映射將紅點和藍點按區域完美區分示意圖
(5)梯度擴散的KNN 監控算法模型
建立監控對象業務模型,以用戶數據、測量數據、網絡指標、網絡配置等數據的眾數為中心生成梯度擴散的KNN 監控算法模型,實現智能動態預警網絡問題。
例如:如圖3 所示,通過長期歷史數據的挖掘,我們可以按15 分鐘粒度建立監控對象的業務模型。

圖3 基于15 分鐘粒度建立監控對象的業務模型
然后通過實時采集解析該對象15 分鐘粒度的指標,與該對象的業務模型進行對比,如圖4 所示,基于時間梯度擴散的某對象業務實時監控對比圖所示,可以發現從3:30:00 開始,該網元指標呈現明顯波動,系統可以實時做出預警。

圖4 基于時間梯度擴散的某對象業務實時監控對比圖
(6)系統平臺研制
在對多維數據準確、完整、實時的采集、解析、入庫方案研究的基礎上,再通過深度學習的方法建立網絡話務模型。在此基礎上,通過系統開發可以實現基于多維大數據的移動通信網絡運行信息透視系統,移動通信網絡運行信息透視系統邏輯架構圖如圖5 所示。

圖5 移動通信網絡運行信息透視系統邏輯架構圖
移動通信網絡運行信息透視系統物理架構圖如圖6所示。

圖6 移動通信網絡運行信息透視系統物理架構圖
移動通信網絡運行信息透視系統選擇成熟的開源軟件作為基礎,文件系統、數據庫均為分布式架構;
CephFS分布式文件系統提供多機器的數據共享能力,更方便的實現數據采集器、數據解析器、數據入庫程序的數據共享。
采集器采用微服務技術實現對采集器、數據解析器、數據入庫程序的分布式部署,具備消息隊列、注冊中心、feign 等輔助功能。
zabbix 實現對集群的可視化監控、數據采集器、數據解析器采用python 語言自主研發,支持分布式、多線程,能穩定并發執行計算。
本文研究采用大數據、智能算法等新一代信息技術,對網絡運行信息透視技術進行新的研究與應用。研究成果可以突破現有系統平臺發展瓶頸,以低成本,快速、直觀地發現網絡的問題,把網絡優化水平提升到更高的層次,打造服務新業態,促進產業升級轉型。