何璐璐 杜智超 嵇 聰 章 勇 劉 璐
1 中國移動通信集團云南有限公司 昆明 650228
2 中國移動通信集團設計院有限公司重慶分公司 重慶 401121
在運營商傳統網絡運維中,因智慧維護演進路線及自智分級評估不明確,較難對無線網絡運維域中各項核心能力、子場景進行有效評價,導致出現實際工作目標不清晰、資源投放精準性不高等問題,嚴重影響網絡運維的效率和成本。針對現有維護域的工作模式,在TM Forum自動駕駛網絡分級框架的指導原則下,依據集團自智能力分級細則,并結合省內智慧網絡運維管理的實際需求出發,亟需構建智慧維護平臺,由被動處理問題改為積極預防問題,從而提高整體資源的利用率和維護效率,實現2025年L4的整體智能水平。
TM Forum自動駕駛網絡旨在面向消費者和垂直行業客戶提供全自動、零等待、零接觸、零故障的創新網絡服務與ICT業務,打造自服務、自修復、自優化的通信網絡,為通信網絡運維數智化轉型明晰了目標架構和實現路徑[1]。自智網絡目標框架如圖1所示。

圖1 自智網絡目標框架
結合自動化基礎理論和通信網絡特征,完成分級方法標準制定,基本形成產業共識,并在網絡運維層面,已進一步細化形成相對完善的分級評估體系,開展規模評估驗證,如圖2所示。分級評估體系的制定過程包括以下四個方面:1)流程抽象:基于自動化/智能化基礎理論,抽象出網絡管控通用工作流程;2)確定原則:以“系統”替代“人工”完成工作流程的自主程度作為智能化水平評判基本原則;3)制定方法:根據各流程的需求優先級和產業成熟度,制定其在分級方法中的演進順序、代際特征;4)評估量化:對單點應用/任務流程分別評估確定級別,對評估范圍整體進行綜合量化統計。

圖2 自智網絡分級方法和代際特征
其中圖2中自智網絡等級L0-L5具體內容如下。
L0:全流程人工完成。
L1:輔助人工,在執行和感知環節實現線上采集(記錄),提高工作效率。
L2:自主執行,依賴人工預定義的固化規則輔助感知和分析過程。
L3:自主感知,根據人工配置/編排的規則(規則解耦),輔助分析/決策。
L4:自主分析/決策,根據用戶意圖需求自動生成規則/策略(規則注智)。
L5:全流程智能化,具備完全意圖管理能力,實現自動演進。
以某省為例,2021年底省內運維域中共涉及6個自智網絡核心能力,共有42個子場景,其中絕大部分處于L2水平,即基于固定規則的輔助分析階段,整體評級約為2.2,如圖3所示,與L3(網絡自主感知)近期目標及L4(網絡自主分析/決策)中遠期目標仍有較大差距,亟需通過建設智慧維護平臺滿足目前集團現有自智網絡維護域演進需求,以及契合省內實際生產維護“降本增效”的發展需要。

圖3 自智網絡能力評估結果
為實現提升智慧維護網絡的自智水平目標,通過智慧維護平臺的設計與實現,在故障識別、隱患識別、定界定位、處理方案關聯、故障處理、指令巡檢等六大核心能力方面進行重點研究。智慧維護平臺技術架構主要包括原始數據采集、數據ETL(Extract-Transform-Load)、數據存儲和后臺業務處理、業務處理控制、業務展現層5個部分,如圖4所示。

圖4 端到端運維軟件架構
其中原始數據可通過北向平臺、EOMS工單系統、代維資產管理系統、動環檢測系統及外部相關API接口數據(地理天氣數據信息)進行采集。按照通用數據ETL處理方式,將數據從來源端經過抽取(Extract)、交互轉換(Transform)、加載(Load)至目的端,從數據源抽取出所需的數據,經過數據清洗,最終依據預先定義好的數據倉庫模型,將數據加載到數據倉庫并存儲至Hadoop集群中,通過AI平臺算法及功能(聚類算法、常規分類算法、異常檢測算法、深度置信網絡、堆疊自動編碼器、循環神經網絡等[2-3])結合專家知識庫進行智能任務調度及后臺業務處理。業務處理控制主要細化各模塊功能,通過相關業務邏輯中間件實現模塊功能。業務展現層基于前端公共模塊相關技術對站點畫像、區域畫像、隱患管理、地理化分析等進行界面化呈現。
智慧維護平臺功能架構主要由兩大部分組成:網絡運營中心NOC(Network Operation Center)和現場外線,如圖5所示。

圖5 智慧維護平臺功能架構
NOC是實現遠程實時監控服務運營和檢測設備狀況的網絡化中心,主要涉及運維設計、運維監控、故障分析、診斷測試等幾大功能模塊,可結合運營商EOMS(Electric Operation Maintenance System)電子運維系統進行任務工單派發,將NOC嵌入現有運維流程可提高相關技術、流程、組織及管理效率,進而提升網絡與服務的穩定性與可預見性。其中運維監控、故障分析、診斷測試等模塊主要提升維護域中故障識別、隱患識別、定界定位、處理方案關聯等自智網絡核心能力。
現場外線主要是承載、處理、閉環EMOS電子運維系統所派發任務工單,包括現場維護人員的任務調度、資源調度及部分指令巡檢無法解決的,需要最終現場進行排障巡檢。
3.1.1 運維設計功能
運維設計功能主要包括兩部分功能設計:運維規則設計與AI輔助規則設計,主要應對自智網絡L3評級標準要求,即將經驗規則從系統中解耦,系統支持圖形化界面自主配置故障識別特征和識別模板,系統基于規則自動關聯跨域故障、隱患,識別網絡故障事件或隱患事件,并按照解耦的規則自動定界定位故障原因,生成結構化處理方案,當規則需要調整時,只需二次配置。
其中運維規則設計主要來源于運營商長期積累的相關運維經驗,制定分析規則、診斷規則、派發規則、調度規則、激活規則等,將上述規則應用于可視化設計分析中,為自動化運維提供快速設計能力[4]。
AI輔助規則設計則是由傳統技術專家進行專業設計轉變為通過AI技術輔助進行根因規則設計。將相關網元類型、告警類型、告警信息、告警碼、位置信息等作為輸入項,通過神經網絡相關算法最終輸出AI輔助規則[5-6]。
3.1.2 運維監控功能
通過對數據源、數據表等分析進行場景監控設計,可視化呈現多系統、多界面的監控。
場景運維監控可對網絡全景監控,也可選擇性針對主題監控,定制適合實際需求的個性化監控功能。將之前被動運維、基本無故障預測轉變為隱患故障可預測及規避。
3.1.3 故障分析功能
通過部署RCA(Root Cause Analysis)根因分析規則挖掘工具,根據算法學習出固有規律,形成規則放入RCA中進行告警根因查看和告警抑制壓減。
再結合性能指標、參數配置、相關變更情況、問題日志等進行多源關聯分析,從而對故障進一步確認,提高故障分析的準確性及效率性。
3.1.4 診斷測試功能
診斷測試功能主要包含人工診斷指令及自動診斷腳本兩部分。
首先通過人工診斷指令下發至網元管理系統(Element Management System,EMS),再由EMS反饋診斷結果至人工診斷指令部分;自動診斷腳本可批量生成指令,再由EMS反饋上報相關診斷報告,將診斷結果或診斷報告中異常問題自動創建維護工單并指派現場處理,交由現場工單管理,進行后續流程處理。
3.1.5 工單派發功能
工單關聯RCA的關聯規則,進行根故障派單、子故障合并派單,綜合考慮網絡拓撲、運維經驗等信息,例如同一基站下所有小區退服,則合并為一個業務工單,從源頭減少派單量,提高故障解決效率,如圖6所示。

圖6 工單派發功能
T1為告警消除最大量時間點,T2為關聯指派時間點,T3為告警派發最長時限,通過分析歷史告警,給出最佳關聯時間點閾值,減少消除告警的無效派單量,通過關聯減少派單總量,提升運維效率,通過動態設置派單時間閾值,追加合并派單,減少無效派單、重復派單。
3.2.1 故障單處理
集中故障告警平臺針對告警監控進行結果輸出,在創建TT(Trouble Ticket)工單之前,需要等待一定告警清除時間,避免相關工單追回。當系統收到TT的告警清除消息后,可以自動關閉TT單和相對應的WO(Work Order)單,如圖7所示。

圖7 故障單處理
通過運維經驗和對歷史工單進行機器學習、挖掘工單相關性規則,啟動策略歸并重復工單,去除無效工單。
3.2.2 任務及資源調度
對于外部系統派發的TT單,在某些應用場景下,不需要相關分析處理,可以直接派發至外場工程師處進行解決。對于這種應用場景,系統提供TT單自動受理并派發子單的功能。當系統接收到TT單時,自動以系統超級用戶來受理TT單,然后進行處理,在處理該步驟時可自動選擇生成WO單,并生成子單。智能調度主要是將任務通過AI調度引擎進行工單計劃制訂、位置及路線規劃、員工能力及工具需求分析,把任務與資源相結合達到最佳匹配效果。通過人員調度、資源調度、路徑規劃等可實現工單“零”時間指派、合理安排人員工作任務量,提升派單準確率、提升平均工單響應時長及資源使用效率。
3.2.3 自動巡檢管理
自動巡檢管理主要涉及巡檢配置管理、巡檢規則管理、巡檢任務列表、指令適配/執行及自動輸出巡檢報告功能,如圖8、圖9所示。

圖9 自動巡檢流程
巡檢配置管理包括基礎數據配置管理、設備網元配置管理、任務/方案管理及門限/通知管理。
巡檢規則管理的功能是制定相關巡檢規則(專業網信息、作業計劃等)以及配置解析規則。
巡檢任務列表可對巡檢計劃定義接口、巡檢定時任務,以及查看巡檢任務列表。
指令適配及執行由自動巡檢功能發現維護類問題,通過模板初始化規則及指令創建規則生成巡檢測試工單,再與指令模板進行匹配映射創建巡檢任務,指令執行后將指令結果反饋閉環輸出巡檢報告。
系統可將相關維護要求結合站點資產信息進行綜合呈現;歷史數據包含告警次數、故障處理次數、站點話務量、數據量等信息;地理位置、區域、地形特征(高山、平原、河岸、洼地等)、耐候性;氣象機構輸出的相關天氣數據,共同制定動態巡檢計劃,聚焦故障高發站點,主動預防歷史故障重發,減少維護資源的浪費。
3.2.4 隱患管理
隱患管理主要針對異常項目生成智能巡檢告警,自動完成對告警信息的分析,自動生成維護作業計劃告警工單,維護人員根據隱患工單來處理隱患問題[7]。
在巡檢設備上(鐵塔、基站等),放置NFC(Near Field Communication)標簽,通過近距離無線通訊技術,巡檢人員按照路線的設置,依次到每個地點進行巡檢并自動顯示巡檢內容。
4.1.1 站點健康度評估
基于站點設備種類、性能情況,結合站點環境、停電情況、備電時長、站點歷史故障等信息建立站點健康度評估指標體系,并設定告警閾值自動觸發維護工單有效預警,降低站點告警故障。
4.1.2 區域可視化
采用多種代維指標和站點客觀運行指標,可以實現區域綜合可視化,以區域為對象,提供整體指標統計分析,主要提升運維質量監控能力。
4.1.3 站點維護成本分析
通過對歷史故障維護數據包括維護人員、車輛、油機、故障發生頻率等信息提供站點維護成本數據,為過程成本量化、站點維護預算及后續投標成本核算提供數據支撐。
4.1.4 制定站點維護計劃
基于站點重要級別、歷史故障信息、天氣狀況等制定維護計劃,對維護備件提供預測管理并減少站點故障率,降低單站維護成本。
4.2.1 GIS資產全景圖
以維護網格為基礎單元,對資源信息(人員、車輛、站點、油機)進行實時位置展示,工單關聯、軌跡回放,實時了解資源狀況,方便調度管理。
4.2.2 板卡板件全量監控
通過對現網板卡板件的入網時長、現網設備的返修總數/比例統計,按省市縣的地理維度、廠家維度、板卡板件的類型維度進行全量監控,對存在硬件隱患、頻繁老化返修等問題設備構建“機歷卡”“病例庫”,監控中心可全面掌握板卡板件的資源使用及健康度情況。
4.2.3 人員效率指標分析
對人員工單效率指標進行統計分析,包括上站任務詳細信息及工作時長信息,對車輛效率指標分析,包括上站里程、規劃里程分析,發現人員運維效率短板進行改進,提升效率,如表1所示。

表1 效率指標總體統計數據
智慧維護平臺在提升自智網絡水平評級方面,由L2.2提升至L3.0,有效提高了維護域內各項工作的管理能力,以及主動預防性運維及快速應急處理能力。隨著實際應用的進一步深入,將繼續完善智慧維護系統的技術架構演進,并將核心能力應用深度嵌入問題識別、問題分析、問題處理、問題質檢等實際生產環節,達到助力網絡運營降本增效的目的。