季海峰 姚 程
1.中國移動通信集團江蘇有限公司;2.中國移動通信集團江蘇有限公司南京分公司
TM Forum自動駕駛網絡旨在面向消費者和垂直行業客戶提供全自動、零等待、零接觸、零故障的創新網絡服務與ICT業務,打造自服務、自修復、自優化的通信網絡,為通信網絡運維數智化轉型明晰了目標架構和實現路徑。自動駕駛網絡分級框架將網絡自治化能力劃分為“L0人工運營維護、L1輔助運營維護、L2部分自動駕駛網絡、L3有條件自動駕駛網絡、L4高級自動駕駛網絡、L5完全自動駕駛網絡”六個級別。參考TM自動駕駛網絡理念,規劃網絡運維數智化轉型,加大自動化、智能化能力建設,以期實現2025年網絡運維自治水平達到L4的整體目標。
參考TM Forum自動駕駛網絡層次化架構,結合生產實踐,中國移動提出“四層三閉環”的內部實踐目標框架,如圖1所示。通過分層次構建體系化能力,實現全場景網絡自治。

圖1 自動駕駛網絡目標框架
根據客戶規模、業務類型、運維流程、合作伙伴等方面的多重差異,中國移動建立統一的能力評估體系,以評促建,全面開展自治能力量化評估。如圖2所示,分三步驅動能力水平從當前狀態到目標級別進行迭代提升。

圖2 自動駕駛網絡迭代閉環
面對在2025年力爭達到自動駕駛網絡L4的整體目標,中國移動對網絡自治能力建設進行了全方位的思考、適用性探索與初步應用實踐。在傳輸網專業分別根據不同的技術領域定義各自的能力等級。基于TM Forum自動駕駛網絡分級框架的指導原則,結合網絡運維管理評估實際需求,從指導IT系統實現角度,定義如下分級代際特征:(1)級別0:線下人工實現;(2)級別1:人工實現,線上記錄;(3)級別2:自動實現,程序固化專家規則;(4)級別3:自動實現,規則與功能解耦,可按需靈活配置;(5)級別4:自動實現,規則結合AI,可持續學習、快速迭代;(6)級別5:自動實現,規則順應變化自動迭代。
將分級代際特征應用于核心能力集,細化得到每個核心能力集的場景化自治能力分級細則,提出基于“封頂就高”“加權平均”等聚合原則的量化評估模型,從最細粒度的核心能力量化評估結果,可按需聚合得到各場景、各專業、各業務自動化水平的綜合量化得分的層次化分級評估體系,為全面評估當前能力、多維度綜合分析水平差異、精準識別共性能力短板,提供有力支撐。
按照中國移動自動駕駛網絡框架3D模型的重點運維場景所明確的內容,傳輸網基于“6-11-37”場景的能力定義能力等級。6個一級場景域,包括:規劃、建設、維護、優化、運營、資源管理;11個二級核心場景,包括:網絡規劃、設計部署、監控排障、巡檢、測試、網絡分析、網絡優化、業務開通、網絡投訴、資源變更管理、資源數據管理;結合傳輸網絡專業和業務類別的特點,將二級運維場景進一步分解為37項運維核心能力集,作為場景化評估對象。
根據當前摸底的能力現狀和傳輸網各層次的評級目標需要滿足如下要求。
(1)需求預測
L2:SNMP采集、Netconf配置。
L3:Telemetry海量數據上報、采集和分析。
(2)規劃與仿真
L2:Netconf設備自動配置,IGP/BGP協議(鄰居、協議狀態、路由),SNMP采集接口/隧道/業務流量,BGP-LS采集網絡拓撲。
L3:采集SR-TP隧道逐跳數據,支持500K隧道逐跳數據采集;What-if網絡故障仿真,支持5大場景的自動規劃,界面可以自動生成報表;容量預測、容量規劃能力。
(1)網絡設計
L1:提供網絡設計管理功能,人工在該管理界面可對網絡進行規劃,并支持輸出網絡規劃結果。
L2:提供網絡設計模板管理功能,基于人工設計的網絡案例建立歷史項目案例庫,并將歷史案例轉換為設計模板供下次網絡設計選擇使用。
L3:提供網絡設計模板聯想功能,能夠根據輸入參數自動聯想案例庫中最優方案、最優參數,輔助進行網絡設計工作。
L4:提供網絡設計結果自動導入部署系統功能,網絡規劃結果輸出后,通過標準接口導入給部署系統,完成設計到部署的過程。
(2)集成部署
L2:Netconf設備自動配置,SNMP管理。
L3:網元自動發現,免下站開通調測。
L4:系統對接,自動獲取設計結果,自動部署。
(3)開局配置
L2:基于SSH/Telnet/Netconf配置接口、IGP、BGP、QOS等配置。
L3:基于L2能力提供相關調測功能。
L4:運營商可編程的模式生成配置,遠程配置自動化,系統自動根據設計結果遠程對空配置設備執行配置下發。
(4)網絡與業務測試:見“運維-測試”。
3.3.1 監控排障
(1)故障與隱患識別
L2:SNMP性能采集(接口統計、隧道統計、CPU、內存和光模塊硬件狀態)、BGP-LS拓撲收集和隧道狀態上報。
L3:支持設備異常KPI分析上報;日志異常識別能力;In-band OAM隨流檢測,基于L2VPN/L3VPN業務流量,預測未來的流量,識別隱患。
L4:全量KPI異常分析,多模態數據關聯分析能力;對系統資源的智能預測;配置異常識別與分析。
(2)定位與影響分析
L1:人工部署和升級,人工手工添加網元納管。
L2:Netconf設備自動配置,SNMP管理。
L3:網元自動發現,免下站開通調測。
L4:系統對接,自動獲取設計結果,自動部署。
(3)開局配置
L2:TWAMP、Ping、Tracert。
L3:In-band OAM逐跳上報和自動故障聚類;海量KPI數據采集,用于故障根因分析。
L4:網絡故障模型AI自學習;關鍵業務保障分析,檢測到業務質差,系統對網絡進行調優,快速恢復業務。
(4)故障處理
L2:應急路由調整,人工通過系統修改路由配置。
L3:IGP、BGP、FRR做路由收斂和業務切換,SR-TP做業務路徑調優;設備支持表項回刷、芯片復位、單板復位等自愈恢復能力;OMC支持系統自動調整業務路由(通斷和質差),亞秒級收斂。
(5)場景化監控
L2:SNMP流量采集能力、告警和日志上報能力;TWAMP鏈路時延檢測能力;OMC支持基于模板的監控,流量采集和監控能力。
L3:In-band OAM隨流檢測能力,OMC dashboard實時數據可視和GIS聯動。
3.3.2 巡檢
(1)故障與隱患識別
L2:設備支持巡檢工具通過SSH/Telnet的方式采集設備信息,并通過規則對采集信息進行判斷,識別設備硬件、配置存在的故障或隱患。
L3:支持設備異常KPI分析上報;OMC支持數據可視。
L4:全量KPI異常分析,多模態數據關聯分析能力;對系統資源的智能預測。
(2)現場巡檢
L2:SNMP采集,Ping/Trace連通性檢測。包含電源、風扇、溫度信息上報,OMC描繪設備面板圖。
L3:設備支持巡檢工具通過SSH/Telnet的方式采集線路相關信息,包括線路光功率、誤碼等。OMC支持報表查看。
3.3.3 測試
(1)網絡測試和業務測試
L1:Ping/Trace能力檢測鏈路丟包、時延,SNMP采集接口流量、協議狀態、設備異常告警等。
L2:設備告警上報,Ping/Trace能力檢測業務地址的丟包、時延、路徑。
L3:支持設備異常KPI分析上報;In-band OAM隨流檢測能力。
L4:全量KPI異常分析,多模態數據關聯分析能力。
3.3.4 網絡分析
(1)數據采集
L1:支持工具通過SSH/Telnet登錄設備,執行數據采集命令。
L2:支持SNMP采集接口流量。
L3:Telemetry上報和采集。
(2)數據處理
L2:網絡側多維報表,分析網絡采集數據,生成多維度報表。
L3:網絡實時可視化,對網絡狀態實時感知和呈現,網絡流量可視化,網絡異常/故障可視化。
(3)數據分析
L2:性能采集閾值告警,基于制定規則的性能閾值,15分鐘級感知;TWAMP業務質量監控。
L3:In-band OAM業務質量監控;性能多維分析;對網絡狀態實時感知和呈現,網絡流量可視化,網絡異常/故障可視化。
3.3.5 網絡優化
(1)方案制定
L2:通過系統自動配置SR-TP重路由策略,手工調整網絡流量。
L3:SR-TP隧道基于質量流量自動重優化調優,通過系統自動重優化調優,包含時延和帶寬。
(2)仿真驗證
L2:人工通過工具調路由。
L3:基于SR-TP流量分析,進行網絡SR-TP自動重優化調優通過協議級下發;SR-TP、MTN交叉時延/帶寬約束算路。
L4:SR-TP動態調整網絡,下發前可在線仿真。
(3)資源變更:見“資源變更管理”。
(4)數據分析
L2:支持對于優化后的網絡質量信息匯總展示,包括流量、時延、丟包、告警等信息。
L3:提供網絡路徑調優前后對比。
3.3.6 業務開通
(1)開通流程調度:見“資源變更管理-資源調度流程”。
(2)資源勘查
L2:基于SNMP、LAD或Telemetry進行數據采集。
L3:基于BGP LS、PCEP協議,實時對帶寬/時延可視,三層路由拓撲可視,基于帶寬和時延因子預評估選路。
L4:基于預評估結果,對網絡資源池化分配,并進行預占用,包含網絡鏈路帶寬、時延。
(3)資源變更
L2:業務自動開通,通過OMC北向接口與OB域打通業務自動開通,復雜接口,需要感知網絡細節(網絡視角)。
L3:業務自動開通,通過簡化接口,無需要感知網絡細節(業務視角);在線自動調速(BOD/BC、Qos)。
L4:開放可編程,運營商具備在線可編程定義業務發放能力。
(4)業務測試:見“測試-網絡測試和業務測試”。
3.3.7 網絡投訴
(1)投訴預警預測
L2:配置查詢和分析。
L3:實時Topo,網絡建模。
L4:基于AI模型在線訓練,自動更新,自動識別和分析。
(2)投訴定位
L2:連通性檢測,Trace定界。
L3:業務檢測,In-band OAM隨流逐跳檢測。
L4:基于AI的故障定位定界。
(3)故障處理:見“運維-故障處理”。
3.4.1 資源變更管理
(1)資源調度流程
L2:OMC北向接口,根據上層規則下發配置。
(2)變更設計
L2:網絡基礎狀態收集。
L3:實時狀態收集。
(3)硬件操作流程
L2:遠程配置界面,板位圖可視化。
(4)軟件升級
L2:設備軟件升級工具,用戶逐臺升級。
L3:設備軟件自動升級,批量升級。
(5)網絡數據配置
L2:FTP大包加載,Netconf配置收集,命令行采集設備流量、鄰居、路由等信息用于升級前后結果比對;支持Ping/Trace檢查對比升級前后網絡狀態。
(6)網絡測試:見“測試-網絡測試和業務測試”。
3.4.2 資源數據管理
(1)資源數據同步程
L2:SNMP北向上報。
L3:REST北向接口采集資源,實時變更通知。
(2)數據核查
L3:北向接口采集資源,實時變更通知;與資管系統在線分配資源。
L4:資源預分配,實時資管。
(3)資源拓撲
L3:北向接口采集資源,實時變更通知。
對于傳輸網來說,2022年網絡自動駕駛已達到L2級,2025年網絡自動駕駛需演進到L4級,在此目標的牽引下,本文結合業務場景,展望了傳輸網的發展方向,識別和分析了傳輸網的差距,明確了傳輸網各層次的演進目標。針對后續提升各層次的自動駕駛網絡水平,本文提供了具體的可落地的措施與目標,希望在后續的推進過程中,逐漸明晰網絡自動駕駛水平L4級別的能力要求,與其他專業取長補短,不斷更新傳輸網的能力要求。