


摘要:IP層的OAM技術中,雙向主動測量協議(TWAMP)通過主動向網絡注入測量報文,并根據對測量報文進行采集分析來實現任意2個具備IP可達性網絡節點之間的網絡層性能監測。文章首先分析了TWAMP測量方案在實際運營部署時存在的主要問題和挑戰,然后針對網絡的運維管理日益智能化的網絡發展趨勢下,需要對網絡運行狀況進行連續實時主動監測的新需求進行了相關分析。基于此,文章提出了一種面向互聯網遙測架構的硬探針TWAMP網絡監控系統,以此實現IP傳送網的性能監測改進,為實現更實時可靠的智能運營提供有力支撐。
關鍵詞:IP性能監測;雙向主動測量協議;網絡遙測;模型驅動遙測;硬探針
中圖分類號:TN915" 文獻標志碼:A
0 引言
隨著網絡和應用的演進,在網絡上進行多業務承載時,運營商希望能有更完善的運維管理 (Operation Administration and Management, OAM) 方法對網絡的性能進行監測,以在業務開通前以及業務運行過程中對網絡的運行狀況及故障進行及時的評估和監測。
隨著5G和數智化時代用戶業務類型的日益豐富,運營商傳送網絡的承載需求也在相應提高。網絡的OAM是一個分層分段的綜合管理架構,在不同的傳輸技術中可以包含特定層次的相應OAM技術。IP層的OAM技術中,針對任意2個具備IP地址且路由可達的網絡節點之間的IP性能監測(IP Performance Monitor, IPPM)方法需要能夠持續監測IP層的端到端的報文傳輸時延、抖動及丟包率等網絡性能信息[1]。
1 雙向主動運維協議方案的問題和挑戰
雙向主動測量協議(Two-Way Active Measurement Protocol,TWAMP)是一種通過在指定的IP節點之間主動發送雙向IP探測報文來檢測網絡指定IP端點間IP層網絡性能的網絡運維管理方法[2]。雙向主動測量協議通過主動向網絡注入測量報文,并根據對測量報文進行采集分析來實現任意2個具備IP可達性網絡節點之間的網絡層性能監測。運營商在部署IP層業務之前以及在網絡實際運營時都可以通過TWAMP方法,在需要監測的任意2個IP節點上進行TWAMP測量。在通過定義測量端點的IP地址、傳輸層端口號、報文IP優先級定義了測試會話(Test Session)之后,TWAMP通過其Session Sender模塊向網絡中注入帶時戳和序列號的IP測量報文發向測量對端端點。TWAMP的測量對端端點作為會話報文的反射器(Session Reflector)將報文打上相應接收時戳反射回Session Sender。根據測試會話報文中攜帶的信息,TWAMP能夠完成任意2個具備IP可達性的網絡節點之間的IPPM性能監測,并將測量數據上報給服務器端的性能管理系統。
國際互聯網工程任務組(The Internet Engineering Task Force, IETF)的RFC 5357標準中定義了TWAMP測量方法的架構、流程和測量報文格式。然而,已有TWAMP標準沒有定義完成測量后形成的測量結果數據如何以合理的、標準化的方法傳輸給服務器端的性能管理系統數據采集器(Collector)。現有TWAMP測量結果采集方法仍然將TWAMP測量數據作為常規網絡設備的性能監測(Performance Monitor,PM)對象進行采集。例如,通過類似對網絡設備端口15 min流量統計PM數據進行輪詢的類似方法,由Collector定期通過一問一答的方式輪詢網絡設備的TWAMP測量結果數據,或者在網絡出現故障需要密集主動連續測量網絡IP層性能時通過各設備廠商私有的網管數據采集方法來實現秒級主動上報。
2 網絡遙測架構
在IP網絡日益復雜、網絡的運維管理日益智能化的網絡發展趨勢下,需要對網絡運行狀況進行連續實時的主動監測。網絡遙測(Telemetry)是一種通過服務器側Collector訂閱需要采集的網絡測量數據集(探針Probes或傳感器Sensors),網絡節點連續主動實時推送測量數據的網絡監測框架[3]。通過對網絡設備的可監測測量數據進行數據模型抽象和結構化編碼,服務器側的智能運維系統能夠自動對測量數據進行大數據分析等人工智能處理,進而實現感知網絡。網絡遙測方法是一種面向網管智能化的網絡全方位性能監測框架。基于網絡遙測框架,將TWAMP測量以硬件探針的方式在數據平面進行亞秒級實時測量和秒級主動推送,可以有效提升IPPM的測量效率和數據分析效率,為網絡感知智能運維提供有力支撐。
2.1 IP承載網中的網絡遙測
網絡遙測為網絡的實時感知提供了新的框架。網絡遙測可以訂閱的網絡感知數據涵蓋了網絡的管理、控制和數據平面。新一代網絡遙測架構涵蓋數據源、數據訂閱、數據生成等多個組件。數據訂閱需要定義可以從原始數據源組合和派生的自定義數據,數據生成利用適度的網絡內計算來產生所需的數據。
以基于L3 VPN的移動回傳IP城域網的南向接口(South Bound Interface, SBI)為例。如圖1所示,典型的IP承載網SBI可分為4種主要接口類型:控制接口、配置管理接口、告警/性能和維護管理接口。除用作性能管理接口之外,網絡遙測還可擴展實現OAM測量等功能。
2.2 網元網絡遙測
本文實現的IP網絡性能監測系統中,運行在網元側的遙測代理軟件模塊可以配置為遙測協議的服務器或客戶端。本文實現的網元遙測方案如圖2所示。設備網元上的遙測代理(Telemetry Agent)系統負責收集網元的性能/統計數據和狀態數據并將其推送到收集器。遙測Agent主要包括以下子模塊:
(1)Policy。
配置管理子模塊,可設置遙測參數,包括采集器的IP/端口、訂閱規則(決定推送哪些數據)、采樣周期、傳輸協議和編碼方式等。
(2)Encode and Transport。
Encode and Transport對采集到的數據進行編碼和發送。
(3)Data。
網元設備中的傳感器采集的數據。這些數據可能來自網元數據平面、控制平面或管理平面,可以實時反映網元設備的運行狀態。
(4)Sensor data buffer。
Sensor data buffer用于接收來自網元傳感器的遙測數據記錄。已上報給采集器的遙測數據記錄由遙測代理動態刪除。遙測傳感器數據緩沖區可以通過內存、文件或數據庫來實現。
3 基于網絡遙測的雙向主動測量方案
3.1 TWAMP遙測系統架構
針對傳統TWAMP測量方法在數據處理和采集上報等實踐應用中存在的問題,本文采用硬件TWAMP探針設計,基于網絡遙測架構實現了一種模型驅動的硬件加速TWAMP遙測系統,如圖3所示。
模型驅動的硬件加速TWAMP遙測系統中,TWAMP數據探針模塊采集部署于TWAMP協議Session Sender從其測量對端TWAMP Session Reflector返回的攜帶了原始IPPM測量信息的原始數據。
系統的數據生成模塊對TWAMP數據探針模塊的TWAMP測量結果數據進行如下處理和編碼:
(1)利用TWAMP原始測量結果計算出IP OAM的IPPM測量參數,包括平均時延、最小時延、最大時延、平均抖動、最小抖動、最大抖動、平均丟包率、最小丟包率、最大丟包率等。對RFC 5357標準定義的原始測量數據進行IPPM參數計算并形成結構化的TWAMP IPPM數據模型。TWAMP IPPM結構化數據模型形成一棵邏輯TWAMP探針采樣子樹,掛接在網絡設備Telemetry采樣樹設備探針采樣數據模型樹的OAM相關節點下。
(2)根據數據訂閱模塊的設置,數據生成模塊可以對TWAMP測量分析結果數據進行取樣并只對取樣結果進行上報。
(3)將IPPM測量結果按照TWAMP IPPM YANG數據模型規定的數據格式進行編碼,并按照數據采集模塊的訂閱要求,以利于大規模并發數據采集的占用最少量測試數據傳送帶寬和CPU處理能力的數據格式進行測量結果編碼。例如,采用二進制的序列化方法對TWAMP測量結果進行編碼。二進制編碼方法可以降低TWAMP測量結果傳輸對網絡帶寬和CPU處理性能的要求,同時維護對不同廠家數據采集模塊軟件的兼容性。
圖3中,數據訂閱模塊對需要采集的TWAMP測量信息、傳輸協議和傳輸通道進行設定。數據采集模塊可以通過數據訂閱模塊對TWAMP測量信息采集事件觸發標準進行設定。這一設定是基于TWAMP數據模型的。例如,數據采集模塊可以通過數據訂閱模塊指定訂閱平均丟包率大于10-5的TWAMP實時測量結果。數據訂閱模塊可以支持多種測量結果數據傳輸通道。
數據發行模塊對數據生成模塊根據TWAMP IPPM YANG模型完成編碼后的測量結果數據在數據訂閱模塊指定的傳輸通道上向數據采集模塊進行連續、實時、主動的推送上傳。
本文系統中,數據采集模塊用于通過數據訂閱模塊發起對TWAMP測量結果的訂閱,同時用于接收數據發行模塊推送的TWAMP實時測量結果。數據采集模塊部署于云端,可以與OMC管控軟件同機部署,也可以獨立部署。數據采集模塊采集的TWAMP Telemetry數據可以供更上層運維支持系統(Operation and Support System,OSS)及OMC控制器系統的數據分析模塊進行智能分析。這一智能分析可以形成交互模型,即根據網絡智能分析結果,OSSamp;Controller的相關應用可以自動形成并下發網絡優化配置方案,并通過數據采集模塊調用數據訂閱模塊來調整訂閱的TWAMP測量數據并分析網絡調優的效果,從而形成閉環控制。
3.2 基于硬探針的TWAMP測量
本文在基于ASIC架構的IP城域路由器(IPRAN Router)上實現了數據平面硬件加速的TWAMP硬探針,能夠以亞秒級的周期發起TWAMP測試。本文研究通過在硬件數據平面增加TWAMP硬件加速協處理器的方式,實現TWAMP測試數據的亞秒級發送和解析。
首先,在接收方向,在網元路由器(以下簡稱“網元”)的ASIC數據平面OAM模塊設置基于TCAM的流量識別功能,識別預定義的TWAMP報文并Trap到TWAMP硬件加速協處理器去做結果測量和上報處理。對于每個TWAMP流,TWAMP硬件加速協處理器根據配置的報文offset識別出報文中的序列號、時戳等信息,自動計算出收包總數、丟包總數、報文時延 (累計、最小、最大)、抖動。對每一個TWAMP流而言,TWAMP硬件加速協處理器定期計算、更新和向網元CPU上報TWAMP的測試結果。
同時,在發送方向,TWAMP硬件加速協處理器的發包子模塊可以構造報文頭在報文的任意指定位置為特定流填寫序列號、時戳和計數器之后,向網元ASIC數據平面進行常規發送。
3.3 模型驅動的TWAMP遙測
網絡遙測架構的一個重要組件是結構化的探針數據集,模型驅動的遙測(Model-Driven Telemetry,MDT)。網絡設備上的數據可以通過數據模型進行描述,保證運維中心(OMC)管控系統與設備之間的正確交互。在MDT中,模型驅動是用戶或OMC可以指定模型路徑來訂閱設備需要推送的數據集。在網元上,數據也是按照這個模型描述發送的。
在MDT架構中,采樣數據源來自網元的轉發面、控制面和管理面。數據根據YANG模型中描述的結構進行組織,以GPB、XML或JSON格式編碼,并發送到收集器和分析器使用gRPC、TCP或UDP進行處理。網元設備中的遙測代理可以抽象為3層:數據模型層、編碼層和傳輸層。
供應商和組織為網絡設備數據定義不同的 YANG 模型。為了實現來自不同供應商的網元和OMC的互操作,發送的遙測數據應按照標準YANG模型進行組織。
Google 遠程過程調用(gRPC)協議是一個在傳輸層 HTTP/2 協議上運行的高性能通用 RPC 框架。使用相同.proto文件的網元和采集器可以建立gRPC連接。gRPC連接建立后,可以通過gRPC通道傳輸各種語言編碼的數據。
本文系統遙測的TWAMP數據根據 YANG 模型中描述的結構進行組織,以 Google Protocol Buffers (GPB)格式編碼,并使用 Google 遠程過程調用 (gRPC)發送到收集器。在采用GPB編碼方式的情況下,本文實現的TWAMP數據模型定義在twamp.proto中。
4 基于TWAMP的微突發檢測案例
網絡微突發(Micro Burst)故障是網絡中發生的小規模、短暫的故障,其持續時間通常在幾ms到幾s之間。網絡微突發故障可能導致網絡中斷、數據丟失或導致網絡安全威脅,從而影響用戶的隱私和財產安全。通常,網絡微突發故障的規模很小,故障持續時間短,因此檢測難度很大[5]。
4.1 微突發TWAMP測試數據
為驗證硬探針TWAMP遙測系統的有效性,本研究工作使用10 ms級別的TWAMP測量報文發送周期和秒級的網絡遙測推送發行周期對潛在問題的IP連接進行微突發故障檢測,對系統識別的有效性和準確性進行測試。針對目標網絡,對IP報文丟包微突發故障進行TWAMP主動測量,基于網絡Telemetry的秒級實時監控采集數據進行故障檢測、故障關聯、根因分析和網絡調優。
首先,根據被監控網絡的微突發故障涉及網絡范圍,安裝TWAMP硬件探針,啟動對指定IP網絡節點間的網絡主動監測。根據故障檢測要求和TWAMP的Telemetry YANG數據模型,調整訂閱的TWAMP測量結果參數集、閾值及數據發行接口類型。TWAMP硬探針啟動后,本文系統的網絡設備TWAMP的Session Sender模塊處理來自遠端Session Reflector的TWAMP主動測量報文。設置數據訂閱,對TWAMP探針的原始測量數據進行IPPM分析計算和Telemetry的發行格式編碼。數據發行模塊對TWAMP丟包率測量結果進行實時主動的上報發行。
然后,通過在被測IP網絡使用儀表以burst方式注入持續時間很短的高優先級背景流量,例如在GE接口上以線速注入50 000個報文的高優先級burst報文,造成監測IPPM的TWAMP test session由于GE接口擁塞而形成微突發。
4.2 微突發TWAMP測試結果
基于TWAMP測試數據集,本文系統數據采集模塊對來自多個網絡設備的TWAMP訂閱數據進行采集匯總,完成數據解碼,提取需要的丟包率監測信息,發送給數據分析模塊。數據分析模塊通過智能分析對來自多個網絡設備的實時TWAMP監測數據進行故障關聯性及根因分析。OSS/Controller分析結果可以向網絡下發調優配置命令。通過長期網絡監測,云端模塊可以推理分析微突發故障是否已經消除;若需要,則繼續進行下一輪網絡調優和TWAMP網絡Telemetry監測。
本文研究工作對TWAMP探針測量結果的主動Telemetry推送的發行時間間隔可以達到秒級。測試結果表明,這種實時主動的IPPM秒級上報監控能夠有效檢測出IP網絡中的微突發故障,有助于實現網絡的感知。
5 結語
綜上所述,本文監測系統的IP網元TWAMP數據生成模塊將TWAMP測量得到的原始數據進行網絡設備節點本地的統計分析計算,并按照模型驅動遙測的結構化數據模型進行測量結果組織,有利于智能運維的云端分析軟件進行智能的自動分析處理。
目前,本文IP網絡性能監測系統的研究以TWAMP的網絡遙測架構建立為主,為運營商提供了全面的網絡狀態和性能信息。隨著云端智能的逐漸加強,TWAMP遙測能夠為下一代數智化網絡提供智能決策支持。基于IP網絡性能監測的實時遙測數據,運營商可以做出更加智能的決策,如容量升級、網絡配置調整、故障預測等。這有利于實現基于網絡大數據分析的智能閉環感知網絡,有助于提高運營商的決策效率和網絡運營的整體質量。
參考文獻
[1]胡治國,田春岐,杜亮,等.IP網絡性能測量研究現狀和進展[J].軟件學報,2017(1):105-134.
[2]張夏穎,田耕.IP RAN下TWAMP測量功能的研究與實現[J].網絡新媒體技術,2019(6):25-30.
[3]代天成,張笑.網絡遙測技術及其在網絡自動化運維中的應用[J].無線互聯科技,2023(7):91-93.
[4]KUMAR A, KOLHE J, GHEMAWAT S, et al. IETF draft-kumar-rtgwg-grpc-protocol-00 [EB/OL]. (2016-07-08)[2024-01-10].https://datatracker.ietf.org/doc/html/draft-kumar-rtgwg-grpc-protocol-00.
[5]NEWMAN D.高性能數據中心的10項基本基準測試(續一)[J].電信網技術,2012(12):64-72.
Research on IP network telemetry system based on model-driven two-way active measurement protocol method
Abstract: "In the OAM technology at the IP layer, the Two-Way Active Measurement Protocol (TWAMP) implements network layer performance monitoring between any two network nodes with IP reachability by actively injecting measurement packets into the network and collecting and analyzing the measurement packets. The article first analyzes the main problems and challenges existing in the actual operation and deployment of TWAMP measurement, and then addresses the new demand for continuous and real-time active monitoring of network operating conditions under the increasingly intelligent network development trend of network operation and maintenance management. Based on this, this article proposes a hardware accelerated TWAMP network monitoring system oriented to the network telemetry architecture to achieve performance monitoring improvement of the IP transport network and provide solid support for achieving more real-time and reliable intelligent OAM.
Key words: IP performance monitoring; two-way active measurement protocol; network telemetry; model-driven telemetry; hardware accelerated probe