張霖
摘 要目前基于監督學習的LTE質差樣本都是通過人工標記形成,由于工作人員對LTE質差的理解存在較大差異,因此LTE質差樣本存在很大的主觀性和錯誤性。論文中通過對LTE質差樣本的數據表現進行計算分析,能夠過濾LTE質差樣本中數據表現趨勢與標簽明顯不符合的訓練樣本,避免監督學習算法對大量錯誤LTE質差樣本進行訓練,提高監督學習的算法準確率。
【關鍵詞】LTE 監督學習 樣本 自動修正
1 引言
隨著人工智能的興起,以及數據挖掘不斷發展和應用,目前移動網絡優化中心在LTE質差的分析方向,引入了監督學習神經網絡算法來進行主要根因定位,該方案能夠將LTE質差小區的根因進行矩陣化,通過概率神經網絡(PNN)進行矩陣自學習,輸出質差小區的主要根因,形成LTE質差小區根因分析的動態經驗矩陣。
但是,目前監督學習概率神經網絡(PNN)的訓練樣本,是通過現有LTE質差小區采用人工的方式針對覆蓋、干擾、容量、參數等4大類47個小類根因進行人工分析,按照47個小類的指標進行分析,給出最有可能的小類根因,并打上相應標簽,然后提供給監督學習概率神經網絡(PNN)作為訓練樣本。由于通過人工標記標簽,在對質差主要根因判斷時與工作人員的經驗水平和能力相關,非常依賴于工作人員對小類根因熟悉程度,因此人工標記形成的LTE質差樣本標簽,存在很大的主觀性和錯誤性。
基于上述背景,本文通過對LTE質差樣本的數據表現進行計算分析,能夠過濾LTE質差樣本中數據表現趨勢與標簽明顯不符合的訓練樣本,避免監督學習算法對大量錯誤LTE質差樣本進行訓練,提高監督學習的算法準確率。
2 LTE質差樣本的自動修正方法
先把LTE質差樣本按人工標記的主要根因標簽進行分類,然后把每類的主要根因標簽樣本數據,按圖1步驟進行處理。
2.1 人工標記訓練樣本
由于LTE質差樣本比較多,而且維度較廣,本實驗只取了部分案例數據,如表1所示:目前LTE質差樣本有8個根因,分別為StatCause001-StatCause008,通過人工對質差樣本進行主要根因標記,工作人員根據自己的能力和經驗,標記了主要根因是StatCause001的7個樣本。
2.2 訓練樣本矩陣化處理
其中行表示LTE質差樣本根因維度,列表示樣本數。本矩陣是通過對LTE質差樣本數據進行預處理后,進行矩陣轉置,方便分析各個樣本在根因維度的趨勢表現情況。
2.3 訓練樣本數據趨勢分析
根據LTE質差樣本矩陣,繪制樣本根因數據趨勢圖,如圖3。
其中,每一條線都代表一個樣本,橫坐標標識樣本根因,縱坐標標識樣本根因值,總的來說就是分析下每個樣本在各個根因維度上的趨勢表現情況。
2.4 計算樣本軌跡相似度
常用軌跡相似度計算方法:
歐式距離:最常見的距離度量,衡量的是多維空間中各個點之間的絕對距離,又稱之為歐幾里得度量,它定義于歐幾里得空間中,如點 X=(x1,…,xn) 和 Y=(y1,…,yn) 之間的距離,因為計算是基于各維度特征的絕對數值,所以歐氏度量需要保證各維度指標在相同的刻度級別,具體公式如下:
向量夾角余弦:余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個樣本間的差異。相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,而不是距離或長度上,具體公式如下:
皮爾森相關系數:皮爾森相關系數也稱皮爾森積矩相關系數,是一種線性相關系數,用來反映兩個變量線性相關程度的統計量。相關系數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強,具體公式如下:
其中E是數學期望,cov表示協方差
本論文通過以上三種常用軌跡相似度計算了主要根因是StatCause001的7個LTE質差小區樣本,把每個樣本作為一個向量,然后初步設定基準向量為1,最后把每個樣本向量分別與基準向量作軌跡相似度計算,分別得到表2結果。
從軌跡相似度計算結果可以看出,歐式距離的區分度最小,基本不能反饋出樣本的差異性;向量夾角余弦表現稍微好點,樣本1、2和其他樣本有差異,但是表現的不是太明顯;而皮爾森系數表現的最好,能夠較明顯的區分出樣本1、2和其他樣本的差異性。
經過三種算法的結果比較,本提案最終采用皮爾森相關系數作為樣本之間軌跡相似度計算方法,然后存儲每個樣本的軌跡相似度值,以作下一步分析處理。
2.5 訓練樣本離散點處理
從第三步計算LTE質差小區樣本矩陣向量的相似度之后,獲取每個樣本軌跡相似度值,然后對樣本軌跡相似度進行異樣點離散點處理,如圖4所示。
從圖4中可以可看出,樣本的25%分位值為3.477,而樣本0和1的軌跡相似度值都分布在25%分位值以下,而其他樣本都分布在25%分位值以上。由此可知樣本0和1偏離了大眾LTE質差小區樣本軌跡,可以打上偏離標識。
2.6 自動修正訓練樣本
本提案經過以上的算法流程步驟處理后,能夠得到被標記為偏離標識的樣本是樣本1、2,這樣就能過濾錯誤樣本,自動修正LTE質差小區樣本,最終只拿樣本3-7的5個LTE質差樣本進行監督學習算法模型訓練,提高模型準確率。見表3。
3 應用模型準確率對比
3.1 數據源情況
目前應用數據取自分析平臺,截止到2017.07.10日,LTE質差小區問題記錄為50737條,其中人工標記主要根因樣本為6918條,問題的觸發類型共有47個維度,主要根因有StatCause001-StatCause075,共75個根因維度。列出前十的問題觸發類型源數據,具體情況如表3所示。
3.2 樣本自動修正后
經過LTE質差樣本的自動修正方法處理后,共去除過濾了其中錯誤樣本513條記錄,共涉及21個觸發模型,過濾樣本占比為7.42%。見表4。
3.3 模型準確率對比
總體來說,經過LTE質差樣本的自動修正方法處理后,總樣本過濾了513條記錄,占比7.42%,概率神經網絡(PNN)算法訓練和測試集都按9:1比例進行,本次應用針對現有PNN模型,以及自動修正LTE質差樣本后的PNN模型準確率進行相關對比,具體結果如表5所示。
從模型準確率對比結果中可以看出,修正LTE質差樣本后,雖然總樣本比例下降了7.42%,但是概率神經網絡(PNN)算法模型的準確率提升了8.87%,效果還是很明顯的。
4 結束語
本文針對監督學習的人工標記樣本中存在的主觀性和錯誤性,以及工作人員經驗水平和能力的局限性,通過對LTE質差樣本進行的矩陣化處理、數據趨勢分析、樣本軌跡相似度計算、離散點處理,能夠過濾LTE質差樣本中數據表現趨勢與標簽明顯不符合的訓練樣本,達到自動修正LTE質差樣本的目的,避免監督學習算法對大量錯誤LTE質差樣本進行訓練,提高監督學習的算法準確率。
總的來說,只要是需要通過人工標記樣本來進行監督學習的算法模型,都可以通過本論文的自動修正方法處理,過濾明顯有錯誤的標記樣本,提高訓練樣本的質量,進而提高監督學習的模型準確率。
參考文獻
[1]王希.基于概率神經網絡(PNN)的LTE質差小區分析方法[J].數字通信世界,2017,(02):2-5.
[2]徐樹良,王俊紅.結合無監督學習的數據流分類算法[J].模式識別與人工智能,2016,29(07):3-7.
[3]任維雅,李國輝.面向監督學習的稀疏平滑嶺回歸方法[J].國防科技大學學報,2015(06):8-15.
[4]郭忠華,王建東,孫英杰,張在林.LTE網絡中CQI質差優化分析思路[J].山東通信技術,2016,36(4):5-10.
[5]卓松華.VoLTE無線感知丟包與質差小區問題研究[J].廣東通信技術,2017,37(02):5-15.
[6]李學貴,許少華,李娜,于文韜.一種基于多示例學習的動態樣本集半監督聚類算法[J]. 化工自動化及儀表,2016,43(11):14-20.
[7]李宇峰,黃圣君,周志華.一種基于正則化的半監督多標記學習方法[J].計算機研究與發展,2012,49(06):10-13.
作者單位
中國電信股份有限公司貴州分公司 貴州省貴陽市 550025