許保德+巫江濤


隨著移動互聯網數據業務的快速發展,以及電信網絡結構的演變,傳統的網絡問題分析方法已經不能適應當前服務環境和網絡環境,需要轉變思路。大數據技術提供了分布式并行處理大數據量的機制,能夠快速處理海量的數據,為運營商以用戶感知為中心分析和定界定位問題提供了技術基礎。
定界定位的基本思路
每個運營商都在不定時產生著不同的業務數據,當業務出現問題,就需要排查原因。傳統的問題定界定位方法一般是按照網絡設備的上下級關系逐級查找指標差的占比,例如從全網到核心網網元,然后分析與核心網網元交互的無線側小區的指標,希望能夠找出明顯劣化的點,找到劣化點后,再鉆取出異常的原始話單和原始信令,分析出原因。
這種金字塔式的分析方法存在以下弊端:
分析問題的入口是頂層的指標,而該指標是大量樣本綜合計算的結果,對少量的異常問題不夠敏感;
自頂向下的分析方法很大程度上依賴于孤立點的存在,當指標之間差距不明顯時,該方法往往失靈;
4G網絡具有扁平化、資源池化等特點,網絡設備的上下級關系不再明顯,也更加復雜,分析時很難再逐級查找問題;
只呈現指標的異常,還需要消耗較大的人力進行定界定位分析,才能找到問題。
而基于大數據分析,以用戶感知為中心的定界定位方法采取了一種新的定界定位技術,和傳統的方法相對應,稱之為倒立金字塔分析法。該方法直接將用戶話單的異常情況定界定位到劣質點,并給出根本原因,由根因推導出需要優化的網元。
該方法從最底層的原始話單入手,對于系統采集到的每一條原始的話單,判斷該話單是否有異常。如果有異常,存在什么樣的異常?會對哪些關鍵指標、哪些業務產生影響?產生該異常的原因是什么?經過這樣的分析,我們就可以找到所有的異常話單,以及問題的原因。
數據的采集和處理過程
無線側的數據是與基站對接數據,不需要探針,異廠家基站可以采用相關公有或私有的接口協商對接。核心網的控制面、用戶面數據通過探針采集,不受廠家設備不同的限制。將采集后的數據都輸出給大數據平臺,進行數據關聯、清洗、統計處理。圖1是數據采集示意圖。
大數據平臺采集到數據后首先將核心網的話單與無線關聯,關聯后生成端到端的話單進行保存。然后按照上面的分析思路進行分析。
鑒于一次業務的異常同時在不同環節都會存在問題,因此需要在每個環節逐一判斷。
首先判斷無線指標情況,如果存在異常,無線側計數加一。
然后在核心網或互聯網側定界,首先判斷互聯網DNS/SP節點的問題,主要分析DNS、TCP、GET的交互過程情況,以及忙閑時的變化情況,如果存在異常計數加一。
再判斷核心網側SGW、MME等網元的全天指標情況,以及忙閑時的變化情況,如果存在異常計數加一。
最后再往終端定界,首先定時維護更新一個異常終端信息,異常終端是由一定周期內連續性指標差等特征判斷出來,如果能夠與異常終端信息表匹配上,終端側定界計數加一。
如果以上過程都找不到問題的節點,就定界到其他問題。
我們在此基礎上再對異常話單做統計計算,就能得到多維度的統計結果。例如統計出不同環節的問題占比,每個環節的原因占比,統計出每個網元或區域問題波及的用戶數、波及的問題話單數量,將問題的嚴重程度進行量化,并為判斷是否是有價值的問題區域提供參照。
應用效果舉例
從某省份大數據平臺提取的影響用戶感知的異常話單原因分布占比如圖2所示。可以看出,無線側和互聯網側原因占比較大。
無線側占比較高,查看定位的結果主要是弱覆蓋區域導致。互聯網占比較高的原因,定位到的結果主要是一些國外SP距離較遠,以及國內部分其他運營商的SP網絡傳輸存在丟包、負荷高。終端的情況主要是小米等。
手機的問題占比較高。從用戶的消費群體來看,小米手機使用者數量較多,其中大部分消費人群是青年人,根據對小米手機的使用流量業務統計發現,即時通信、網頁類業務占比55%左右,而視頻、下載等消耗流量較大的業務相對較少,占比10%左右,其他類別占比35%。
由于即時通信、網頁類單次業務一般流量和時間都較小,測量到的速率類指標一般不高。核心網側問題較少,相對比較穩定,在忙時有時會有負荷問題。該定界定位結果為該省運營商各個部門進行派單、問題處理提供了數據依據。
端到端自動定界定位技術是網絡問題分析自動化、網優自動化、網優無人化大趨勢中的基礎核心技術之一。中興通訊憑借30多年的網絡優化技術積累及精品網交付經驗,擁有絕對領先的網絡問題分析算法和數量龐大的問題經驗庫。
隨著大數據技術及人工智能技術的迅速發展,中興通訊將在未來更高效地協助運營商保障和提升用戶的業務體驗。