向九松 張鳳 劉菁 左興宇
摘要:分析了當前IPRAN網絡的運營現狀和運維需求,介紹了目前主流網絡質量監測的技術和方法,在此基礎上提出了基于多維度數據分析的網絡質量監測方案,幫助運營商提升運維效率、提高業務感知、獲得競爭優勢。
關鍵詞:業務感知;SQM;IP FPM;秒級監控;資源樹
1 引言
近年來中國移動互聯網基礎設施建設成就斐然,4G基站規模激增,抖音、拼多多等現象級的應用層出不窮,VOLTE語音逐步開始規模商用,物聯網進入了快速發展部署階段,各家運營商也在積極進行5G試點。與此同時,移動互聯網用戶總量增長放緩,提速降費后數據流量成倍增長但利潤率卻逐步下滑,各運營商之間的競爭日益激烈,運營商被內容服務商管道化的趨勢也日趨明顯。所有這些變化均對運營商的IPRAN承載網絡提出了越來越高的要求,在封閉網絡體系架構下只需關注網絡設備本身而不注重客戶感知、不關注應用質量的傳統運維模式正面臨著巨大的挑戰。
2 需求分析
IP RAN通過引入MPLS、二層偽線、端到端BFD、FRR等技術,實現IP網絡由業務網絡向綜合承載網絡的轉變,但由于IP本身盡力而為的特點,傳統網絡的運維機制、指標體系、監測手段等與不斷攀升的移動承載需求相比仍然存在較大的差距,亟需引入一套可視、可管、可分析、可溯源的網絡質量監測方法,提供先于用戶發現、解決和優化業務感知問題的手段,促進提升移動互聯網用戶的業務感知。當前的移動互聯網業務態勢要求網絡質量監測系統應該具備如下功能:
2.1 針對不同業務場景構建不同的網絡質量指標體系
IPRAN作為一個綜合承載網絡,承載了LTE上網、VOLTE語音、政企專線、5G等多種業務,不同業務對于移動承載網的要求各不相同,僅以5G uRLLC典型應用工業控制以及窄帶物聯網為例,工業控制業務對時延有著極為苛刻的要求,一般要求十毫秒級別,可靠性要求接近100%;窄帶物聯網對時延、丟包并不敏感,但是對終端低能耗有較高的要求。只有實施差異化的質量指標體系,方能滿足差異化的業務保障需求。
2.2 解決KPI指標與用戶真實業務感知不匹配的問題
運營商需要解決“網元好≠端到端質量好,均值好≠局部地區好,測試好≠單用戶好,統計好≠感受好”的評估難題,建立用戶感知指標體系,推動以網絡KPI(Key Performance Indicator)為核心的運維模式向圍繞用戶感知KQI(Key Quality Indicator)的新型運維模式轉變。
2.3 實現網絡故障、用戶投訴的快速分析定位
在集約化運維的大趨勢下,運維人員面臨設備多、工作量大、隱患難以排查等困難。移動網業務又面臨網元類型雜、設備數量多的問題,如何快速掌握網絡運行狀態,提前、精準、定向的進行網絡排障和優化也是運維工作中亟需解決的問題。
2.4 提前發現業務感知下降、挖掘網絡潛在隱患
據統計98%擁有負面體驗的客戶會選擇不投訴,且50%的沉默客戶會直接轉網,因此,運營商需要將由客戶投訴為導向的服務模式變為由KQI為導向的服務模式,在大量用戶覺察有負面體驗之前發現業務感知下降,排查潛在的問題,并及時解決。
2.5 支撐差異化的運維
為減緩運營商被逐漸管道化的趨勢,運營商需主動與內容服務商進行合作,共建共盈感知系統,網絡質量監測系統可以針對合作方的應用和客戶進行差異化的監測和保障。
3 網絡質量監測技術概述
目前主流的網絡性能監測方法主要有主動測量、被動測量、網絡性能采集、關聯數據分析等等。
3.1 主動測量
是指運用內置或者外置探針將探測數據包放入網絡中,觀察該數據包的行為和到達時間,統計網絡層管道的SLA指標。該方法適合端到端的網絡性能測量,主要被用作測試延遲、丟包率、帶寬以及其他端到端的路徑特征檢測,但無法監測實際業務感知。常見技術包括PING/TRACE、Y.1564、Y.1731、RFC2544等等。
3.2 被動測量
一般用于業務級的測量,由承載網設備感知實際的業務流量,測量出每條業務流的SLA指標,無需插入獨立的測量報文。常見技術包括IP FPM、DPI測量等等。
3.3 網絡性能采集
運用傳統的網管手段或專用工具進行關鍵運維指標的采集,例如端口CRC、收光功率、各類資源利用率等。
3.4 關聯數據分析
運用大數據手段關聯周邊各類系統采集的數據,進行信息整合并挖掘潛在的問題。
4 方案介紹
4.1 總體系統架構
IPRAN網絡質量監測系統按照功能可分為數據采集與適配模塊、指標模型設計模塊、感知分析模塊、問題定位模塊、前端展示模塊、IT接口適配模塊等,具體架構如圖一所示:
4.2 部署實施
4.2.1 基于設備自身SQM(Service Quality Management)的端到端業務撥測
目前IPRAN設備均自帶交付測量技術,如Y.1731、RFC2544等等,通過這些技術可以模擬基站或政企專線業務進行時延、抖動、吞吐量、丟包率等性能的在線測量。在省中心選擇一個業務相對空閑的BB對,各地市可選取若干A/U設備,并配置A/U設備到省中心B設備的模擬基站或專線業務。通過網管系統定期發起SQM測試,并實時分析測試數據,驗證網絡的性能指標。
4.2.2 基站和IPRAN設備的輪詢PING測
在核心網側部署探測服務器,模擬核心網對全網基站、城域ER、匯聚ER、B設備、A設備進行輪詢PING測,獲得承載網各個層次設備的時延、丟包、抖動數據,并將實測結果與網絡資源樹進行關聯,實時反映承載網絡的運行質量。
4.2.3 秒級監控
目前常規流量監測是分鐘級別,如cacti、傳統網管等,通過采集兩個時段的差值再除以時間差得到監測結果,所以會產生“消峰填谷”的誤差。在秒級峰值監控功能下,端口實際的利用率遠高于傳統手段監控到的流量峰值,通過現網實測二者最高差值接近30%。在現網部署秒級監控策略,可為網絡擴容和流量分析提供更為精準的基礎數據,進一步優化指標。
4.2.4 IP FPM
IP FPM(Flow Performance Monitor)檢測是一種對實際業務流進行直接測量,獲取網絡的丟包統計、業務路徑時延等性能指標的測量方法。在基站源端進行數據的染色,并通過網管進行實時統計計數,在核心網側根據染色特征進行數據識別和采集,從而得到端到端的網絡性能指標。
參考文獻
[1]馬嘯威 曹維華 李文云 賀曉. 移動互聯網業務感知質量優化方法及系統[J]. 廣東通信技術2017.2
(作者單位:江蘇電信省操作維護中心)