[劉光 郭楊運 張尚恩]
關于提升公眾客戶寬帶業務使用體驗、增強用戶感知的工作,雖然已在全省范圍的光貓內部署了QOE(體驗質量Quality of Experience,下同)感知探針,每周會定期撥測并統計用戶的網頁、視頻、游戲感知得分,用于在各地市維度、與其他運營商維度進行比較,但統計結果對于網絡優化不具有針對性優化意見,只是一個客觀的撥測結論,無法直接指導分公司進行網絡優化。此外,QOE 探針只有在路由型光modem(俗稱“光貓”)上才能進行網頁、視頻、游戲的感知撥測;對于橋接型光貓,QOE 探針只能進行連通性撥測,這大大限制了QOE 探針的使用能力。
現狀中發現了以下問題。
(1)提升用戶感知體驗需求迫切,卻沒有高效的手段迅速定位導致用戶感知體驗差的主要原因,無法快速優化網絡。
(2)缺少主動維護手段,更多的是待用戶報障后進行用戶側網絡排查。
(3)雖有定期進行QOE 撥測,其數據價值未得以充分利用,目前僅停留在撥測結果統計匯總階段。
(4)QOE 撥測的適用范圍不夠廣,僅能針對路由型光貓進行感知類撥測,橋接型光貓無法獲知用戶感知情況。
(1)以QOE 感知數據中質差撥測數據為基礎,拓展出更多維度。以每周的QOE 撥測數據為基礎,定義QOE 撥測得分低于80 分的為質差ONU;基于端到端的分析方式,從質差ONU(光網絡單元,即光MODEM,俗稱光貓)一端向上關聯,查找質差ONU 撥測時間點的ONU-OLT 之間鏈路利用率、收發光衰等情況,再向上關聯OLT-MSE(MSE 即多業務邊緣路由器)之間鏈路利用率情況、收發光衰情況、CRC 誤碼情況。
(2)除了上述設備類的客觀指標外,還關聯了每周的熱點用戶投訴數據,增加主動申訴的用戶為切入點,進行關聯分析。
(1)終端質差率匯總。統計本周內每一款終端型號的QOE 質差測試記錄數以及QOE 測試總數,二者相除可得到每一款終端型號的質差率,然后過濾掉統計結果中本周QOE 測試總數小于100 的終端(此類終端因測試樣本較少,質差率不夠準確)。
處理建議:光MODEM 自動測試系統(俗稱“貓墻”)測試質差終端是否確實存在使用問題,如貓墻測試無問題,需要QOE 檢查探針是否有問題。排除兩者問題之后,確認是終端質差問題。
(2)OLT-ONU PON 口出方向擁塞鏈路分析。關聯質差ONU 測試記錄發生時間對應的OLT PON 口的鏈路出方向流量情況,結合該鏈路的帶寬,統計該鏈路的利用率。定義鏈路利用率大于60%為擁塞,統計本周內連接質差ONU 的OLT 的PON 口,在QOE 質差記錄撥測時間時出流量擁塞鏈路清單。
處理建議:檢查鏈路帶寬利用率,對超過50%帶寬利用率的進行鏈路擴容。
(3)OLT-ONU PON 口發光光衰分析。關聯質差ONU 測試記錄發生時間對應的OLT PON 口及對端端口的收發光功率情況,計算PON 口收發光光衰。定義光衰>30 dB 算作光衰較大,統計本周內連接質差ONU 的OLT的PON 口,在QOE 質差記錄撥測時間時PON 口發光衰較大清單。
處理建議:檢查鏈路光衰情況,優化鏈路光衰。
(4)OLT 質差率匯總。統計本周內每一臺OLT 下掛的ONU 中出現的QOE 質差測試記錄數以下掛ONU 的所有QOE 測試總數,可得到每一臺OLT 的質差率,然后過濾掉統計結果中本周QOE 測試總數小于100 的OLT(此類OLT 因測試樣本較少,質差率不夠準確)。
處理建議:重點檢查該OLT 本周內是否存在如下情況:硬件告警、上聯鏈路擁塞、上聯鏈路CRC 大量誤碼增長、上聯鏈路收光較低。
(5)既是寬帶業務抱怨熱點OLT 又是質差ONU 集中OLT 匯總。匯總每周的10 000 號投訴工單,統計出抱怨集中的OLT,并查找此OLT 是否出現在質差OLT 清單中,從而達到從業務和網絡兩個維度聚焦隱患OLT 的目的。
(6)OLT-MSE 上聯口入方向擁塞鏈路分析。關聯質差ONU 測試記錄發生時間對應的OLT 上聯MSE 的鏈路入方向流量情況,結合該鏈路的帶寬,統計該鏈路的利用率。定義鏈路利用率大于60%為擁塞,統計本周內質差ONU 測試記錄對應OLT 上聯鏈路擁塞次數。
處理建議:檢查鏈路帶寬利用率,進行鏈路擴容。
(7)OLT-MSE 上聯口收CRC 大量誤碼增長分析。關聯質差ONU 的上聯OLT,Aniss 每小時定期采集OLT上聯口的CRC 誤碼情況,對比前后小時CRC 變化情況。若CRC 誤碼增長值超過100 則記一次CRC 增加,統計本周內質差ONU 測試記錄對應OLT 上聯鏈路CRC 誤碼增長次數,然后過濾掉統計結果中CRC 誤碼增長次數<3 的記錄。
處理建議:檢查鏈路質量,優化鏈路質量。
(8)OLT-MSE 上聯口既發生多次擁塞,又發生多次誤碼增長匯總。統計本周內質差ONU 測試記錄對應OLT 上聯鏈路中既發生多次擁塞,又發生多次誤碼增長的鏈路。
處理建議:檢查鏈路帶寬利用率以及鏈路質量,進行鏈路擴容及優化鏈路質量。
(9)MSE 質差率匯總。統計本周內每一臺MSE 下掛的ONU 中出現的QOE 質差測試記錄數以及下掛ONU 的所有QOE 測試總數,二者相除可得到每一臺MSE 的質差率,然后過濾掉統計結果中本周QOE 測試總數小于500 的MSE(此類MSE 因測試樣本較少,質差率不夠準確)。
處理建議:重點檢查該MSE 本周內是否存在如下情況:硬件告警、上聯鏈路擁塞、上聯鏈路CRC 大量誤碼增長、上聯鏈路收光較低。
(1)對于已關聯出多個維度的QOE 測試數據,進行標簽化處理。設定QOE 撥測得分小于80 分的為質差ONU,打上標簽1,對于80 分以上的撥測記錄打上標簽0。
(2)進行數據質量分析及預處理,由于Aniss(接入網綜合管理系統)采集數據時存在個別事件采集失敗,會產生一些缺失值和異常值(特征缺失異常分析統計結果如圖1 所示),因此需要進行數據質量分析,并將缺失值和異常值處理掉后得到連續特征值,如圖2 所示。

圖1 各特征缺失值比例

圖2 連續型特征分布圖
(3)進行特征工程,包括特征選擇,非數值型特征進行one hot 處理,比如光貓所屬廠家、設備類型、軟件版本等離散型特征,如圖3 所示。

圖3 各特征之間的相關性,用于特征選擇
(4)進行數據集劃分,將原始數據劃分成訓練集、驗證集和測試集。
(5)進行模型選擇,分別使用決策樹、隨機森林數、lightgbm、xgboost 等分類算法進行訓練,用混淆矩陣(如圖4 所示)來評估模型的準確性,最后選擇訓練得分最高的模型。

圖4 混淆矩陣
(6)使用網格搜索GridSearchCV 的方法對剛才選出的模型進行參數調優,選出最優的參數。
(7)使用調參后的模型對測試集進預測,評估模型。
通過對QOE 撥測數據的維度拓展,關聯接入層網管對于接入層設備的性能采集數據,加以深度挖掘,聚焦QOE 質差ONU 用戶的撥測記錄,精準定位到導致這些質差撥測數據的隱患點,提供給分公司用于網絡優化的明確指導意見,先于用戶發現故障點,并及早排除隱患。此外,結合機器學習相關手段,可以進行橋接型光貓的QOE 撥測結果預測,大大加大了QOE 撥測的范圍,使橋接型光貓的感知測試成為可能。這樣就將維護的手段由指標驅動的被動維護模式轉換為以用戶感知為導向的主動維護模型,同時達到了提升了用戶感知體驗的目的。