吳威
摘要:文章針對傳統家庭寬帶網絡運維過程中存在的自動化程度低、重復工作占比高、功能割裂等問題,提出如何采取家庭寬帶全過程問題主動感知、自檢查自治閉環體系,并融入IT化自執行手段,打造一站式質量自運維能力,實現對家寬問題的自識別、自定位、自處理、自執行,從被動等待客戶投訴的被動運維轉變為主動識別、發現、解決問題的主動運維,大幅增強家寬網絡異常識別和分析能力,為家寬網絡質量精細化智能運維提供參考。
關鍵詞:家庭寬帶;網絡質量;主動感知;智能運維
doi:10.3969/J.ISSN.1672-7274.2024.04.020
中圖分類號:TN 919.8? ? ? ? ? 文獻標志碼:B? ? ? ? ? ? 文章編碼:1672-7274(2024)04-00-04
Research and Practice on Intelligent Operation and Maintenance of Home Broadband Quality Based on Problem Proactive Perception
WU Wei
(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou 510000, China)
Abstract: This article addresses the problems of low automation, high proportion of repetitive work, and functional fragmentation in the operation and maintenance process of traditional home broadband networks. It proposes how to adopt an active perception and self inspection autonomous closed-loop system for the entire process of home broadband problems, and integrate IT based self execution methods to create a one-stop quality self operation and maintenance capability, achieving self identification, self positioning, self processing, and self execution of home broadband problems, Transforming from passive operation and maintenance waiting for customer complaints to active operation and maintenance identifying, discovering, and solving problems, significantly enhancing the ability to identify and analyze anomalies in the home wide network, and providing reference for the refined and intelligent operation and maintenance of home wide network quality.
Keywords: home broadband; network quality; active perception; intelligent operation and maintenance
隨著千兆寬帶、高清/4K視頻、云游戲等新業務應用越來越普及,家庭寬帶裝機量大幅提升[1],家庭寬帶網絡的運維及管理面臨越來越大的挑戰和壓力,傳統的家庭寬帶網絡運維主要依托專家經驗進行人工操作[2],在提升網絡質量保證用戶感知體驗及網絡精細化運維方面存在以下痛點。
(1)用戶感知體驗管理主要基于投訴驅動,網絡問題主要由用戶發現,運維管理被動地依賴用戶投訴及網管告警,缺乏提前預判網絡瓶頸和潛在問題的手段。
(2)家寬網絡有海量的網絡數據,傳統的運維方式未能充分挖掘數據價值,缺乏提前預測網絡異常或隱患問題的能力,并且發現的問題未能及時提供根本原因分析結果,無法先于用戶發現并解決問題。
(3)在日常的運維工作中,低效、重復性的操作占比高,主要依賴運維人員經驗積累和對工作的熟悉程度,缺少自動化的處理能力,運維效率較低。同時運維人員主要工作置身于各類運維流程中,無暇聚焦更為關鍵的管理、流程和規則設計等工作,人員高階價值未能有效體現。
(4)家寬流程長、專業多、用戶終端雜、網元數量多、業務涉及面廣,跨部門跨專業且各個數據的側重點有所不同,系統或功能模塊互相割裂,未能形成全流程的運維聚合,缺乏整體運維整合手段。
1? ?家寬全過程問題的主動感知體系
針對以上問題,可從底層CMNET網(IDC、CDN、Cache)、城域網(NRAS、SR、BNG)、接入網(ONU、分光器、OLT、SW)和用戶側(家庭網關、機頂盒、電腦)等全域多數據進行關聯融合,構建全過程問題的主動感知體系,從過往的被動管理轉變為主動識別、發現、解決問題的主動運維。同時上層融入IT化自執行手段,進行全流程聚合輸出,提供自動化手段,全程無需人工干預,形成一站式質量自運維能力,如圖1所示。
1.1 家寬全過程問題主動感知識別技術
從家庭側網絡、接入側網絡、城域網側到業務云端共計構建了31個問題感知識別規則,其中家庭側問題感知包含了網關/機頂盒性能、Wi-Fi干擾、弱信號、速率協商、質差路由器、STB性能及負荷、端口速率協商等9項問題感知能力,接入網問題感知包含了OLT/PON端口鏈路質差、分光不均、光功異常、掉線、小區聚合、告警分類聚類等8項問題感知能力,城域網問題識別包含了網元負荷、端口利用率、誤碼、質差用戶網元聚合、端口鏈路負載、告警分類聚類等8項問題感知能力,業務端問題識別包含了網外流量、質差頻道/CDN地址、質差出口、高投出口、業務感知、網速不穩定等6項問題感知能力,這31個問題感知識別規則涵蓋用戶端到端全流程感知問題主動識別,可大幅增強網絡異常識別和分析能力。同時依托上述問題感知識別技術,建立如圖2所示的質差性能管理流程,對質差問題進行二次聚合分析后通過工單派發輸出至一線處理修復[3],并對處理情況進行最終的效果驗證,實現了從感知評估—問題識別發現—處理閉環的全過程管理。
1.2 速率問題自定位技術
針對家庭側影響速率高發問題,建立速率問題自發現自定位能力。基于家寬用戶速率全過程節點,依托多數據深度關聯分析,核查遍歷所有影響環節(見圖3),識別存在的問題并定位原因,直接輸出問題結論,為一線運維提供精準處理指引,具體核查規則如下。
(1)檢查用戶AAA速率:通過與BOSS系統開通速率數據進行比對,檢查下發的速率是否與簽約速率一致,如不一致則可判定為數據配置錯誤。
(2)檢查用戶GPON通道速率:通過與BOSS系統開通速率數據進行比對,檢查GPON通道速率是否與簽約速率一致,如不一致則可判定為用戶GPON通道數據錯誤。
(3)檢查IHGU下連端口速率:運用軟探針采集的端口速率及光貓設備信息數據,分步驟判斷核查:一是核查光貓LAN1口支撐最大速率,如為百兆口,則判定光貓無千兆口;二是核查LAN1口是否在用,如無在用,則判定為錯接光貓百兆口;三是核查下掛路由器WAN口支撐速率,通過爬蟲技術爬取路由器產品信息進行WAN口速率核查,如路由器支持速率低,則判定為WAN口速率不支持。
通過全過程節點遍歷,對識別出根因問題,制定輸出對應處理指引,具體如表1如示。
1.3 質差終端性能問題自處理技術
從過往投訴、滿意度分析發現,終端(光貓、機頂盒等)長期運行(超過14天)不重啟,可能導致運行內存、CPU占用高等問題,進而引起用戶使用異常。針對此問題,通過構建質差終端性能問題自發現遠程自處理技術進行解決,具體業務流程見圖4。該技術方案基于軟探針每天采集終端質量信息[4],通過采集到的運行時長、CPU和內存等信息進行綜合計算,標記質差終端,輸出目標清單,在遠程進行批量重啟操作,并對重啟后的終端進行最終的質量后評估,本技術提供遠程低成本主動發現、優化手段,有效提升用戶寬帶業務質量。
1.4 自執行實現技術
基于以上對問題的自識別、自定位、自處理機制,在上層通過IT手段融入自執行技術,借助Chrome內核,基于Chrome Headless模式,通過爬蟲進行自動化動作命令控制,實現全流程運維內容的整合并自動化輸出。實現技術內容如下。
(1)定制:根據問題感知數據及實際運維需求,可靈活的定制運維內容。
(2)實現:借助Chrome內核,基于Chrome Headless模式,通過爬蟲進行自動化動作命令控制,實現元素交互,控制Chrome自動加載。其主要技術特點為:在不打開瀏覽器GUI的情況,通過Chrome內核支持的性能,在Chrome Headless模式下完成運維內容渲染輸出,同時借助Chrome Headless運行Web自動化,編寫爬蟲進行自動化動作命令控制,加快執行時間[5]。
(3)執行:通過爬蟲發起請求至chrome后臺加載頁面,完成渲染,再通過爬蟲模擬實現運維內容自動導出。其主要技術特點為:基于Selenium庫,與頁面元素進行交互,爬蟲發起請求至chrome后臺加載頁面,完成渲染,再通過爬蟲模擬實現運維內容自動輸出,最終實現自執行。
(4)輸出:調用API郵件接口實現分析內容自動發送至對應業務處理部門。
2? ?實踐應用成效
(1)實現從投訴驅動的被動維護到可預測性的主動維護。建立了全過程問題主動感知—自檢查自智閉環體系,從被動等待客戶投訴的被動運維轉變為主動識別、發現、解決問題的主動運維,大幅增強網絡異常識別和分析能力。
(2)實現從人工操作到系統自動執行。通過建立家寬網絡質量運維自動執行能力,實現質量分析自智閉環及作業的自動化,替代了傳統工作任務中低效、重復性的人工操作部分,運維人員由過去“在流程中”(In the Loop)轉變成“在流程之上”(On the Loop),釋放運維專家精力,使其聚焦于更為關鍵的管理、流程和規則等更高價值的設計工作上。
(3)根據實際生產或業務發展需要可靈活配置調整,直觀可視化規范化輸出,直接賦能一線生產。一是運維內容模板化、任務化、自動化,運維內容能以規范化方式自動輸出,避免人為方式固有的不嚴密性帶來分析上的疏漏;二是高度貼合生產,根據業務區域日常分析作業、數據報表、報告等進行整合固化開發,減輕日常繁重的人工例行工作;三是成果輸出報告實現內容數據及問題的直觀呈現,運維人員無需二次分析,只需具備基礎的專業知識即可執行問題的處理,高效解決問題。
(4)各類指標均有明顯提升,如表2所示。基于問題主動感知能力,精準定位質差并整治問題隱患,整體質差用戶畫像評分提升2.57%,實際上網使用感知(以自動重啟后TCP平均時延為例)提升22.92%,質差網元下帶投訴下降53%。
3? ?結束語
基于問題主動感知的家寬質量智能運維體系,涵蓋了用戶運營數據分析、投訴及熱點分析、網元告警分析、容量鏈路負荷分析、電視質量分析、質差用戶派單修復跟蹤等能力,強化了自智網絡在家寬網絡質量運維和客戶滿意度提升中的應用,豐富了家寬網絡智能運維場景,有效地提升了家寬運維智能化水平,實現了“IT換人”降本增效的目的,為家寬網絡質量精細化智能運維提供了較好的實踐參考。■
參考文獻
[1] 吳博,李連源,李建坤,等.家寬室內網絡質量問題研究[J].通信世界,2023(6):39-41.
[2] 常鐵一.家寬網絡運維和優化手段探討[J].通訊世界,2020,27(7):53-54.
[3] 王鋮岑,何均均,王江舟.基于AI畫像的家寬用戶多維健康體系研究[J].江蘇通信,2022,38(3):87-91.
[4] 笑杰,梁童,方波,等.基于用戶感知的家寬端到端質量分析方案研究[J].電信工程技術與標準化,2023,36(4):35-39.
[5] 楊健,陳偉.基于Python的三種網絡爬蟲技術研究[J].軟件工程,2023,26(2):24-27,19.