文/陳彧嫻,中國聯合網絡通信有限公司廣東省分公司
LTE IP承載網質量監控體系建立探討
文/陳彧嫻,中國聯合網絡通信有限公司廣東省分公司
隨著LTE到來,我們已經邁進了4G時代,目前XX本地承載網已完成LTE網絡承載的部署,本文在分析LTE IP承載網現狀及監控存在問題的基礎上,論述了IP承載網網絡質量監控需求、IP承載網網絡監控系統應用與維護部署。
承載網;LTE;網絡質量;質量監控
網絡質量監控體系主要面向IP網絡的網絡質量監控,可有效地運用于多廠商設備構成的復雜網絡環境。IP網絡管理者通過探針測試服務器提供測試樣例,根據拓撲結構和測試需求部署網絡質量監控系統,可不間斷地進行IP網絡性能監測,并對存在的性能問題做深度的故障檢測??赏ㄟ^網絡質量監測系統提取的網絡各條鏈路的性能數據形成IP網絡性能和質量報表,使網絡運營者能實時地掌握IP網絡的性能和發展趨勢,并為網絡規劃和業務擴展提供客觀依據[1]。
本文結合現網監控的實際情況,提出利用探針系統結合網管系統,做到實時、貼近用戶感知的質量監控。
IP承載網原來承載著2G/3G移動網絡的語音、數據及增值業務。IP承載網網絡性能質量的優劣,將直接影響著交換系統語音及移動數據業務的質量,進而影響到最終用戶的滿意度。
4G業務流程,LTE與3G的區別在于,取消了RNC,因此需要MME來判斷CS域與PS域的業務。CS域的業務需要CSFB技術,回落到現網的MSC,MGW,PS域業務將流向S-GW,P-GW。這每一步的過程,都需要經過承載網。而HSS、DRA、Ud接口的改造,都需要接通過承載網來承載。同時,隨著LTE的演進,IP承載網的接入需求越來越多,業務量也在不斷增長。
LTE網絡架構主要由無線側和核心網側兩部分構成。無線側eNodeB除具有原Node B功能外,還承擔RNC的大部分功能;核心網側主要包括4種功能實體:MME、SGW(Serving Gateway,服務網關)、PGW(PDN Gateway,分組數據網網關)和HSS(Home Subscrib?er Server,歸屬簽在承載時延需求方面,不僅要滿足LTE的呼通率、服務質量以及S1邏輯連接的承載延時要求:2~20ms,而且要滿足用戶業務的小區切換需求以及X2連接的承載延時要求:10~20ms。LTE網絡除了頻率同步要求外,還需要時間同步,精度要求為±1.5μs。每個eN o d e B與核心網元之間接口為S1接口,包括:S1-U接口,連接e N o d e B和S GW,用于承載用戶面數據;S1-MME接口,連接eNodeB和MME,用于承載控制面數據。LTE引入SGW-pool和MME-pool功能,單個基站的S1接口可以歸屬到多個MME、SGW。同時LTE引入X2接口,X2接口為相鄰eNodeB間的邏輯接口,支持UE在不同eNodeB間漫游時,業務流可以在eNo?deB間直接交換,降低轉發時延。
承載網就像一條條看不見的管道,連接著各個網元,各個系統。網絡質量直接影響用戶感知,承載網的網絡質量變得越來越重要。
而據統計,電信業務由承載網承載后,80%的大面積的嚴重業務異常均來自于承載網故障。因此對承載網網絡質量監控顯得越來越重要。關鍵在于做到以下三點:
(1)對IP承載網出現的故障做到預防性發現。要在造成嚴重通信中斷或故障前發現并排除故障,對承載MGW、MSC Server、MME、HSS、SGW、PGW的IP承載網鏈路必須進行嚴密監控。
(2)對IP承載網網絡性能及可能發生的性能下降進行不間斷的監控。IP承載網的性能下降,特別是時延、丟包、抖動指標的變化,將會造成用戶語音質量下降或瞬斷,是語音IP化后的重點監控目標。一旦發現承載網質量下降,需立刻定位故障點并予以排除。
(3)提高IP承載網故障定位和檢測速度。軟交換網絡的大容量特點,決定了IP承載網故障會對業務成大面積的影響,因此故障定位速度對解決問題的及時性至關重要。
由于承載網使用的是固定的路由器,沒有配套的廠家的監控終端,主要依賴專業的網管廠家開發網管接口,實時采集設備的信息對設備進行監控。因此存在以下問題:
目前網絡硬件故障的發現只能通過在設備上show,或者由設備廠商給網管系統開發商提供的MIB,由網管系統讀取日志通過MIB來解析而呈現,有些告警無法呈現,并且在發生了故障之后才發現漏洞。據統計,IP路由器48%的硬件故障告警無法呈現,
軟交換SCTP信令檢測機制中斷13.50 s會影響業務,低于13.50 s閃斷連續出現將造成接通率下降,當丟包率為2%~7%時承載網網管系統未能檢測異常,而業務側M3UA連接已中斷或擁塞。目前是依靠網絡本身的BFD機制進行智能倒換。
傳輸造成的丟包,路由器設備端無告警設備故障導致的丟包,設備無告警綜合網管系統只涉及設備級管理,網絡時延、丟包及抖動等網絡性能和業務性能無有效的監控手段,小包的丟包依靠設備上部署的BFD,但是大包丟包暫時無法檢測。
IP網絡的靈活路由使得業務路徑不可見,IP網絡故障點難以準確定位。故障涉及核心網、承載網、傳輸等專業,處理故障時需高度的全程全網組織才能及時完成搶通,在沒有明確故障提示和整網性能狀態不可見的情況下,只能通過逐點PING、Traceroute、查看日志、抓包、嘗試倒換等人工操作來進行故障處理。
互聯鏈路多,如果以人工手段去ping測,ping測到每條鏈路的間隔較長,不利于主動發現故障。也無法實時監控到。
基于LTE對網絡承載的高要求,以及激烈的市場競爭的挑戰,必須建立一套完善的質量監控體系,提高用戶感知。下文對質量監控體系提出設想。IP承載網質量監測系統架構IP承載網網絡質量監控體系架構圖如下:由服務器、測試探針分別下掛在CS域和PS域網絡設備下,定時以點對點方式對網絡設備進行測試。示意見圖1。

由上圖所示,在網絡中部署探針,一方面對整個IP承載網基礎網絡性能和故障進行端到端的7×24小時監測,另一方面采用仿真測試手段,對IP承載網各類信令及媒體流量、分組數據流量進行仿真,模擬用戶體驗,以幫助維護人員對故障位置、嚴重性及層面進行快速定位和分析。包括以下基本功能:
(1)PING性能。實時監測任意2個測試代理節點間的PING業務性能(包括時延、丟包率、吞吐量及抖動情況)。當時延、丟包率、吞吐量及抖動達到一定閾值時將產生告警,并傳送到相應的網管平臺。
(2)網絡吞吐量。實時監測任意2個測試代理節點間的網絡吞吐量。當吞吐量達到一定閾值時將產生告警,并傳送到相應的網管平臺。
(3)網絡抖動。實時監測任意2個測試代理節點間的網絡抖動。當網絡抖動達到一定閾值時將產生告警,并傳送到相應的網管平臺。
(4)多協議路由跟蹤。支持TCP、UDP及ICMP等多協議路由跟蹤,測試任意2個網絡節點間的丟包率、時延、吞吐量及抖動等。
(5)度量指標標準化。各種協議測試測量指標(包括時延、丟包率、吞吐量及抖動等)
(6)仿真樣例可編輯。由于業務的種類日新月異,仿真的樣例需要根據業務的種類進行實時的調整[2]。
在探針和服務器以及網管系統能夠實現端到端業務監控功能之后,更需要的完善的維護體系對出現的問題出現及時的處理。因此,需要有配套的網管系統。配套的網管系統對監控系統所監控到的問題進行及時處理。系統與監控人員聯動如圖2.

圖2 系統與運維聯動圖
由上圖所示,網絡質量監控系統,主要是利用所部署的探針對業務進行實時端到端監控,同時將信息匯總上報到承載網網管系統,后臺運維監控人員根據承載網網管系統的信息進行處理。
將網絡質量監控與實時監控進行聯合,以便及時發現問題,避免由于監控手段的不足,造成業務中斷卻無法及時發現,無法快速響應的情況出現。提高響應速度有利于客戶滿意度的提升,雖然承載網只是一個中間的傳輸通道,但是這也是一個重要的、影響網絡質量的通道,從用戶角度出發,從業務的實際出發,來研究如何保證網絡質量、提高維護和服務水平,是我們需要在實踐中不斷總結和思考的問題。
[1]劉令凱.IP網絡質量監測系統在網絡中的應用.
[2]張連營,翁頤,陳仲華.IP網絡質量檢測方法分析.