張小強 曾強 謝崇斌 賴材棟

摘要:如何智能化、敏捷化的開展內容分發網絡(CDN,Content Delivery Network)質量監測分析優化,是陜西移動當前面臨的重要挑戰。本課題提出基于流式數據計算框架對用戶訪問日志、設備運行數據、網絡鏈路性能數據、平臺性能質量大數據進行實時大數據納管,并基于機器學習算法對CDN運行指標進行異常檢測與根因智能定位,解決運營支撐時效性差、準確率低的問題。該成果已在陜西移動現網部署實踐,CDN運營支撐效率明顯提升。
關鍵詞:CDN;流式處理;機器學習;異常檢測;根因智能定位
引言
陜西移動CDN通過多級分布式組網方式,具備Tbps級CDN業務分發能力。但隨著設備數量的指數級上升,跨專業、跨地域的協同運維支撐能力面臨巨大挑戰,也對陜西移動的CDN運維支撐能力提出更高要求。
CDN運維支撐能力現狀
陜西移動CDN目前主要通過傳統的數據網管系統進行設備納管、告警監控工作,基于互聯網探針撥測,收集業務下載速率、首包時延、成功率等指標監測判定CDN業務質量,存在CDN業務全流程運營時效性差、準確率低、協同性不足等問題。
CDN異常檢測整體架構
針對陜西移動CDN運營支撐痛點,需要構建CDN全景質量畫像體系,快速鎖定告警根因,準確定位問題點,提升工作效率。通過評估設計,需搭建大數據平臺,構建采集CDN質量性能數據、指標關聯訓練、異常檢測及根因分析四大關鍵核心能力。
2.1 質量大數據采集入庫能力
全量采集CDN業務日志、服務器性能、路由器/交換機屬性、網絡鏈路數據等四大模塊質量數據,為構建CDN全景質量運行畫像提供全維度數據支撐。
2.2 海量數據實時關聯壓縮能力
以CDN業務日志為例,全天日志達到TB級,指標的實時計算與關聯分析的存儲壓力較大。隨著指標采集粒度、維度不同,檢測分析復雜度對算力提出了極大要求。
2.3 端到端異常檢測能力
CDN業務多樣性、動態性特性對異常檢測準確度要求較高,需通過積累的樣本數據反復進行訓練,才可以獲得良好的異常檢測性能,滿足業務異常的快速檢測要求。
2.4 告警智能根因分析能力
CDN需要快速對業務質差指標進行根因定位,解決傳統根因分析需各專業運維專家協同核查處置效率低、時間成本高的問題。
關鍵能力的創新實踐
3.1 基于ELK的質量性能大數據采集模塊部署
利用開源ELK架構,搭建CDN全量性能大數據庫。基于Filebeat、Metricbeat、Snmpbeat、Heartbeat四個組件,實時采集用戶訪問日志、主機性能日志、網絡性能、撥測數據。通過私有協議發送到實時消息隊列的規范化處理后,進行臨時性數據保存。對相應的性能數據進行適配采集,實現采集組件與大數據屬性的最佳適配。實時流處理框架如圖1所示:
3.2 基于實時流處理的數據關聯壓縮創新實踐
針對上述四大維度性能數據,采用實時流處理框架,基于滑動時間窗口,對不同維度、時間粒度的各類指標時間序列的同步實時計算,最終保留關聯壓縮的指標數據,大幅壓縮智能異常檢測處理的數據量,提升實時流處理性能。
選取消息隊列組件對上報的海量信息進行中間處理,確保滿足海量數據不同顆粒度的匹配準確度及時效性要求。通過實時數據關聯壓縮流處理模塊,系統對不同對象、不同維度的原始數據進行關聯計算和實時數據壓縮,極大減少了后續處理模塊的數據計算壓力。
3.3 CDN端到端異常智能檢測應用創新
傳統異常檢測方法需要預先具備明確的異常模式,若異常模型判斷標準準確性不足,易使檢測效果較差。本課題采用機器學習與深度學習混合的算法模型,既滿足指標監測快速部署要求,又可提升指標動態性對檢測準確性要求。
3.4 CDN告警智能根因定位運維創新
利用對指標數據更細維度的挖掘與分析,通過時序數據相關性算法獲取指標波動產生的因果關系,并計算可能是根因的概率,通過機器學習的方式快速給出質差資源的關聯指標及可能根因概率,極大提升了問題定位的時效性和準確性。
實踐效果
4.1 數據壓縮能力提升
該成果在CDN現網試點,實時采集數據量峰值為12萬條/s,數據壓縮后,指標流速峰值變為239條/s,壓縮比超100倍。隨著設備數量增加,數據壓縮比最高可達到120倍,壓縮效果顯著。
4.2 異常指標檢測能力提升
由于采用了基于機器學習和深度學習的聯合檢測機制,隨著指標歷史數據的積累,指標檢測進入到長時間跨度異常檢測模塊,準確率得到顯著提升,再通過專家對異常點進行標注確認,經過深度學習異常檢測,反周期性異常指標也得到了精準檢測,最終異常檢出率從64.3%提升至97.7%。
4.3 故障處理效率提升
成果實施后,CDN異常監測處理時長從1.2小時降低至14分鐘,故障處理時長降低82%,人均效率提升40%,極大提升工作效率.。
結論
該成果已在陜西移動CDN平臺進行試運行,可顯著降低異常檢測、根因分析算力的要求,降低檢測成本。同時具備較高準確率,也改變了傳統故障排查模式,大幅提升運營效率。由于目前仍處于少量設備鏈路的接入試點,面對全省設備的納管接入,該解決方案將面臨更大數據處理能力挑戰。
參考文獻
[1] Chandola V,Banerjee A, and Kumar V.Anomaly detection: A survey. ACM Computing Survey, 41(3): 1-58,20095
[2] Gandhimathi L,Murugaboopathi G. A novel hybrid intrusion detection using flow-based anomaly detection and cross-layer features in wireless sensor network.Automatic Control and Computer Sciences, 54(1):62-69,2020
[3] Feng F, Liu x and Yong B.? Anomaly detection in ad-hoc networks based on deep learning model:A plug and play device. Ad Hoc Networks,84: 82-89, 2019