黃 旭,成夢虹,成芝言
(中國移動通信集團設計院有限公司,北京 100080)
網絡質量一直是運營商重點關注的指標,主要影響因素包括網絡鏈路擁塞、時延和丟包等。目前常采用因特網包探索器(Packet Internet Groper,PING)、路由追蹤(Traceroute)和遠程包探索(Remote Packet Internet Groper,RPING)等方法完成網絡質量的主動探測[1],利用簡單網絡管理協議(Simple Network Management Protocol,SNMP)采集鏈路流量實現鏈路擁塞監控。但現有主動發起的探測及監控方法都不具備時效性,往往是故障或質差發生后的問題查詢手段。
隨著用戶業務的多元化、網絡架構的復雜化和邊緣化[2],現有探測方法和監控手段已無法滿足運營商對網絡質量提升的要求,更無法支撐行業重點客戶的服務級別協議(Service Level Agreement,SLA)保障需求?,F有網絡目前沒有一套完整的、有效的網絡整體質量和用戶業務質量監測方案。為解決這一問題,本文結合隨流檢測(In-situ Flow Information Telemetry,IFIT)、雙向測量(Twamp)、高速采集(Telemetry)和數據流分析(Flow)等技術,提出了基于IP網絡質量的監測方案設計,采用統一架構實現網際互連協議(Internet Protocol,IP)網絡不同維度的質量監測。最終,結合不同場景的人工智能(Artificial Intelligence,AI)預測完成整體網絡及客戶業務的質差預警,利用運維方法及流程設計實現網絡質量提升的目標。
以設備層、協議層、采集層、應用層和分析層設計方案架構,統一部署Twamp、IFIT和Netflow等協議/技術,完成網絡設備時延和丟包等性能數據封包。利用Telemetry+SNMP完成性能和流量等數據的采集,結合網絡時延、丟包率和鏈路利用率等質差分析方法及AI預測方法,最終完成網絡整體質量及行業重點客戶的端到端業務質量提升。
(1)網絡整體質量監測:采用Twamp技術代替現有PING和Traceroute等技術,完成網絡全鏈路質量監測,實現全網質量透明化。
(2)大客戶業務質量監測:利用IFIT+Flow技術完成用戶的業務質量保障,實現特定業務的端到端故障定界,填補時效性業務監測能力的空白。
(3)采用Telemetry技術協同SNMP共同完成流量采集與統計,針對時效性強的性能數據通過Telemetry完成亞秒級采集,傳統流量數據采用SNMP分鐘粒度采集,完成流量擁塞統計,支撐網絡運維。
圖1所示為網絡質量監測方案架構及應用。質量監測方案通過不同技術的結合應用部署,采用整體架構設計完成網絡整體質量和大客戶業務質量的監測,結合AI預測實現鏈路和業務質差預警,從而達到網絡質量監測自動化和智能化的目的,最終網絡質量提升。

圖1 網絡質量監測方案架構及應用
2.1.1 Twamp網絡監測能力
Twamp是一種用于IP鏈路的性能測量技術,可以在正反兩個方向統計網絡雙向時延和抖動[3]。Twamp屬于主動探測技術,能較好地反映網絡質量整體情況,如亞秒級反饋鏈路雙向時延、丟包和抖動等質量數據。相比傳統以及現在常用的傳輸控制協議(Transmission Control Protocol,TCP)/網際IP提供的PING和Traceroute等服務,Twamp更具時效性和準確性。
2.1.2 應用部署
圖2所示為Twamp與現有技術應用對比。選取已部署探針監測的城域網絡進行Twamp現網部署[4],實測并對比兩種技術應用下寬帶接入服務器(Broadband Remote Access Server,BRAS)至城域網絡核心層設備(Metropolis Backbone,MB)之間的鏈路質量數據。

圖2 Twamp與現有技術應用對比
(1) Twamp應用:只需設備開啟相關服務,數據將自動上報。
數據包訪問路徑:BRAS1或BRAS2至MB(雙向)。
時延計算:舉例BRAS1和MB鏈路時延。設BRAS1發包時間戳為T1,MB收包時間戳為T2,MB發包時間戳為T3,BRAS1收報時間戳為T4,則單向時延=T2-T1和T4-T3,雙向(往返)時延=(T4-T1)-(T3-T2)。
丟包率計算:丟包率=(收到的返回包數目)/(發出的包數目)。
(2) 現有探針應用:需路由器設備下掛探針服務器,Sever下發PING和Trace等指令后探針執行。
數據包訪問路徑:Sever下發指令至探針,探針發出檢測報文至BRAS,BRAS發包至MB(雙向)。
時延計算:舉例:BRAS1和MB鏈路時延。設Sever指令下發時間為T1,探針讀取指令時間為T2,探針執行指令并發包至BRAS1時間為T3,BRAS1發包至MB時間為T4,探針只支持雙向時延計算,雙向(往返)時延=2(T1+T2+T3+T4)。
丟包率計算:丟包率=(收到的返回包數目)/(發出的包數目)。
表1所示為Twamp與傳統探針監測數據對比。數據結果說明Twamp網絡性能質量探測比探針更精準,避免了探針系統自身的指令下發時間和讀取時間,以及Sever、探針和BRAS間的鏈路性能數據疊加。從為期一周的性能測試結果來看,Twamp亞秒級監測的平均時延為1.0 ms,探針分鐘級監測平均時延為1.5 ms,相差0.5 ms,可以判定,多出的時延是探針網絡的自身時延。探針系統的實際網絡性能監測結果=網絡性能質量+探針系統質量,且圖2中探針的丟包數據是探針本身宕機導致,因此數據真實度較低。而Twamp監測時延及丟包以數據報文的時間戳和實際報文數量為準,數據真實度較高,能實時保障鏈路真實質量。同時,在部署上更具靈活性,除分析服務器外,無需額外部署服務器,減少了成本投入及維護投入。

表1 Twamp與傳統探針監測數據對比(監控時間:2021/5/4-2021/5/11)
針對行業大客戶的業務保障,現有網絡多采用服務質量(Quality of Service,Qos)、隧道綁定和網絡策略等方法[5],但諸多應用也只停留在業務保障層,無法做到業務質量精準監測。
現有手段根據業務穿越的網元節點逐跳PING測,但無法保證業務質量的時效性和準確性,多數都是問題排障時的查詢和復現手段。因此可采用IFIT逐流監測技術完成大客戶業務端到端的質量監測,實現SLA等級較高業務的保障支撐及故障定界。
2.2.1 IFIT業務隨流監測
IFIT是一種基于真實業務流的隨路測量技術,具備真實業務流的端到端及逐跳SLA(丟包、流量、時延和抖動等)測量能力,可快速感知網絡相關故障,并進行精準定界和排障。IFIT屬于被動監測技術,可做到業務質量隨流精準測量,其基于RFC 8321,是一種對實際業務流進行特征標記(染色)的隨流監測技術,支持丟包及時延染色,可測量獲得包數、字節數和時戳3個原始數據[6]。因此,其在保證丟包數量真實性的同時,根據包中的時間戳也保證了時延數據準確性,IFIT當前支持的監測周期有10 s、30 s、1 min和5 min。
圖3所示為報文染色,進入端(Ingress)按照一定周期i對被監測流的標記字段進行交替染色,統計本周期的染色報文數量Tx;出端(Egress)按照Ingress相同的周期,統計本周期特征業務流染色報文數量Rx。同時,在Ingress和Egress進行時延染色,記錄報文入口時間戳T1和T3,報文出口時間戳T2和T4。計算業務流在周期i的丟包數及雙向時延分別為
IFIT主要通過報文頭部的染色封裝,根據同一個數據包隨業務流進出設備后的染色報文統計完成時延和丟包的精準計算。

圖3 報文染色[6]
2.2.2 應用部署
選取某省網、城域網和省內互聯網數據中心(Internet Data Center,IDC)聯合部署測試,流量訪問路徑:訪問用戶→BRAS→MB→省網絡核心層(Province Backbone,PB)→IDC內部服務器,在BRAS、MB和PB設備上開啟IFIT服務及逐跳監測功能。模擬兩個訪問用戶為SLA保障專線,并通過網絡策略劃分兩個用戶的訪問路徑。對比不同鏈路相同業務的數據監測結果,驗證IFIT端到端業務監測能力。
圖4所示為IFIT應用部署。兩條SLA專線以不同路徑同時完成網絡測速和視頻文件訪問。

圖4 IFIT應用部署
表2 所示為用戶性能監控數據對比。用戶1端到端訪問總時延為15.083 ms,丟包率為1.92%;用戶2端到端訪問總時延為10.187 ms,丟包率為0。經過對比,用戶1訪問視頻文件首幀訪問時間較長,卡頓率較高,視頻播放成功率較低,業務感知較差。通過IFIT業務逐跳監測數據,可短時間內判斷影響業務質量的故障發生在2021/5/11 08∶56∶01的BRAS節點至MB1節點。登錄BRAS設備查詢與MB1互聯端口,發現互聯端口循環冗余校驗(Cyclic Redundancy Check,CRC)誤碼率增長較快,MB1設備無異常。經查詢故障是由BRAS與MB1之間的光傳送網(Optical Transport Network,OTN)鏈路光衰導致,OTN更換業務波道后業務質量恢復。

表2 用戶性能監控數據對比(選取時間:2021/5/11 08∶56∶01~09∶13∶44)
目前現有網絡沒有客戶業務實時監測技術,只限于Qos等質量保障,無法真實反饋用戶業務質量。同時,網絡結構復雜也導致用戶質差時無法快速定界問題。因此可通過IFIT部署及應用實現行業為大客戶業務的質量分析和故障定界,有效支撐大客戶業務運營及運維工作。
方案中提出的Twamp和IFIT等技術對時效性要求較高,采集粒度較小,因此細粒度的數據采集通過Telemetry完成高效采集,保障整體網絡及業務質量時效性。傳統SNMP技術部署在網絡整體流量采集中,用于鏈路擁塞管控。
兩種采集方式聯合部署可實現大客戶業務的實時質量監測和全網鏈路擁塞質量監控,通過Telemetry+SNMP兩種采集方式的結合部署完成網絡整體到具體用戶業務的雙重質量保障。
設備開啟Netflow功能完成鏈路中明細路由、流量大小及流量方向等數據獲取,實現流量精細化調度[7],快速恢復質差業務,提升網絡質量優化效率。以方案中提出的網絡整體質量監測和大客戶業務質量監測結果為調度觸發事件,結合鏈路流量擁塞占比和鏈路性能指標完成質差業務調度,實現業務質量優化。
圖5所示為網絡質量提升方案部署。網絡在部署Twamp和IFIT后實時監測網絡及業務質量,發現被監測網絡視頻業務的IFIT時延偏大并伴隨丟包,同時Twamp鏈路監測時延和丟包數據也出現劣化。開啟Netflow流量明細分析,進行流量調度,優先保障網絡視頻高價值業務質量。

圖5 網絡質量提升方案部署
網絡質量優化流程:
(1) IFIT監測大客戶業務質量,Twamp監測網絡鏈路質量;
(2) 分析網絡整體鏈路質量及端到端業務質量監測數據,完成故障定界;
(3) 開啟Netflow流量分析,獲取鏈路中各業務明細路由,按Flow比例還原SLA保障用戶流量大??;
(4) 評估流量調度后是否會對現有鏈路造成流量擁塞;
(5) 下發策略,完成調度;
(6) Netflow分析調度后的鏈路,通過流量明細、流量大小驗證調度是否成功;
(7) IFIT、Twamp繼續監測網絡及業務質量,保障網絡質量,支撐網路運維。
通過以上調度流程,成功地將鏈路1中的網絡視頻業務流量調度至鏈路2,調度成功后業務監測顯示數據時延降低,丟包率為0,業務質量恢復,業務調度前后數據對比如表3所示。

表3 業務調度前后數據對比
網絡質量監測目的是降低網絡故障發生率及用戶投訴數量,從而提升網絡及業務質量。因此,AI預警從故障和業務投訴出發,設定觸發條件為時延、丟包和流量擁塞。
(1)故障類場景:鏈路down、端口閃斷、CRC誤碼率高和端口光衰等。
(2)業務類場景:業務訪問緩沖問題、業務卡頓問題和業務掉線問題等。
考慮包粒度的質量數據量級較大,采用短周期預測方法,結合10周歷史數據計算結果完成預測。
(1) 故障類建模:獲取告警信息/設備告警日志,通過相同時間和相同節點的鏈路/端口大量網絡質量數據完成計算建模,輸出各類故障對應的不同條件基線值,如某一時間點鏈路down,查詢此時間點前后鏈路時延/丟包率,完成基線值計算。
(2) 業務類建模:獲取不同業務投訴時間,通過時間段內網絡質量數據完成建模計算,輸出各類業務質差投訴對應的不同條件基線值,如晚忙時用戶投訴業務卡頓,查詢該時段網元端口流量擁塞情況/時延,完成基線計算。
通過觸發故障和業務投訴的各類條件基線計算實現網絡質差預警功能[8],部署后結合運維手段,實現網絡質差自動發現自動處理的能力。
為驗證監測方案的整體應用效果,選取具備傳統探針的省內網絡環境,部署本文的監測方案。設備監控范圍包括PB路由器2臺,MB路由器2臺,BRAS接入服務器8臺。BRAS與MB互聯采用10 Gbit/s端口4上聯,MB與PB互聯采用100 Gbit/s端口4上聯,MB與MB、PB與PB間均采用100 Gbit/s端口雙互聯。如圖6所示,本方案服務器部署在省核心設備PB處,通過堆疊交換機完成采集、存儲和分析等監測服務器主備接入;傳統探針服務器下掛在BRAS接入服務器下,與用戶接入網同層級。

圖6 方案部署拓撲
表4所示為網絡性能監控粒度對比,表中的數據是本方案與傳統探針部署在相同網絡環境中各指標的監測粒度對比,由表可知,本文方案部署后,網絡監測粒度變的更小、更精準。其中,監測周期最小粒度為秒級,比傳統監控周期縮小一個量級,可實時感知網絡變化情況。同時,傳統的聚合鏈路監測基于固定的Hash算法做選路,相同流量大概率通過固定端口/鏈路轉發,導致監測結果與網絡實際質量情況不符。通過本方案監控可實現網絡鏈路最小集監控,共計44條全量物理鏈路,遠超傳統探針的10條聚合鏈路監控數量。路徑監測也由傳統的點到點演進為所有節點間逐跳監測的形式,可滿足網絡全鏈路監控需求及網絡自動駕駛演進要求。

表4 網絡性能監控粒度對比
表5所示為網絡性能指標監測數據對比情況(天),表中監測數據最小更新粒度是傳統探針的1/60,由于探針本身需要處理時延,因此時延的監測數據往往大于本方案的時延監測結果,天粒度的平均時延對比相差0.5~0.7 ms。由丟包數據對比也可發現,探針的監測周期粒度較大,加上服務器相關命令處理時長,導致網絡丟包時探針無法及時監控此部分間隔數據。抽取某天丟包數據對比,BRAS-MB鏈路傳統探針少監控丟包數67個,MB-PB鏈路傳統探針少監控丟包數38個。因此,傳統探針監測數據中時延增加和丟包數量較小情況多為數據不真實導致,此類不符合業務邏輯的現象也為網絡故障處理增加了難度。

表5 網絡性能指標監測數據對比情況(天)
方案部署前本省網不具備大客戶業務質量精準監測能力,傳統的監測手段均為模擬監測,在探針系統預置客戶經常訪問的目的地址,設定監測時間間隔,完成粗粒度的業務質量監測。此方案只能模擬監測用戶到目的地址端到端間長鏈路數據質量,無法根據網絡情況判定省內節點設備間的業務質量情況。因此,傳統監測方式中業務的路徑、時效性和質量情況等都不足以支撐用戶業務質量精準分析。
表6所示為大客戶業務質量監測能力對比(周),表中數據是針對159條互聯網專線客戶業務的監測數據統計。數據結果不僅包括BRAS-MB和MB-PB鏈路間的業務性能指標評估,同時具備節點設備間不同業務路徑逐跳質量監測能力,可實時反饋用戶業務質量變化情況,解決方案部署前省內網絡無法精準監測大客戶業務質量的難題。

表6 大客戶業務質量監測能力對比(周)
方案部署后,某BRAS-MB鏈路上的客戶視訊專線出現監測預警,詳情如表7所示,3條鏈路中承載4個大客戶業務,客戶C的BRAS-MB業務鏈路時延為13.70 ms,明顯高于其他客戶業務,同時伴隨業務丟包,丟包率達5%。而MB-PB上行鏈路數據無異常,因此判定故障出現在BRAS與MB互聯端口或互聯鏈路上。手動開啟質量優化功能,自動計算業務流量、業務明細及鏈路流量占比,選擇流量占比小且調度后不超限的鏈路下發調度策略,客戶專線業務最終調度至BRAS的GE1/0/2后業務質量恢復正常。運維人員登錄BRAS和MB兩臺設備,發現BRAS的GE1/0/1端口光衰導致客戶業務時延突增且出現丟包,現場更換光模塊后網絡質量恢復。

表7 大客戶業務質量波動情況
正常情況下,業務丟包率達5%以上大概率是因為整體鏈路質差導致,但未收到相關預警。因此,查看Twamp整體鏈路質量監測模塊,發現此條鏈路也有質差數據出現,但未超過閾值,因此未上報鏈路質差消息。專家分析此客戶業務屬于視訊專業業務,碼流較大丟包較明顯,考慮網絡整體質量,為防止再次出現類似現象,將全網整體Twamp質差上報閾值調低。
圖7所示為互聯網質量投訴工單前后對比。投訴工單部署后每月平均投訴量減少349單,投訴量環比下降57.5%。通過整套方案的應用及部署,本省的省網及多個城域網在兩個月內通過Twamp監測功能優化質差鏈路67條(其中AI智能預警44條)、IFIT監測保障SLA級別專線375條、Netflow支撐流量調度10.2 G/天,初步統計近兩個月節約人工成本300人天。

圖7 互聯網質量投訴工單前后對比
與傳統監測方案不同,IP網絡質量監測方案將Twamp、IFIT、Telemetry和Netflow等技術做整合,在統一框架下利用不同技術的部署、采集和應用,共同完成網絡整體性能質量和行業大客戶端到端業務性能質量的監測。結合AI預警完成網絡整體鏈路質量、用戶業務質量和流量擁塞占比等多維度質量預測,最終實現網絡精細化管理及質量提升。本文設計的質量監測方案在數據時效性、真實性和可靠性等方面均具備較強能力,可逐步替代現有探針監測技術。同時,隨著云網融合發展,本文提出的重點業務實時監測能力優勢將更加突出。