許鴻奎李鑫邵星姜彤彤宮淑蘭
(1.山東建筑大學 信息與電氣工程學院,山東 濟南250101;2.山東省智能建筑技術重點實驗室,山東 濟南250101)
隨著移動通信網絡的發展,第2、3、4代移動通信技術網絡并存,第5代移動通信技術也在逐漸擴大商用的規模,網絡形態變得更加復雜。這種情況下,多網并存導致的無線網絡頻段分配緊張以及系統互干擾增強等問題日益嚴重,上行干擾成為了亟待解決的焦點問題。長期演進LTE(Long Term Evolution)網絡中的上行干擾會造成切換成功率低、業務速率下降,嚴重影響了用戶的體驗。現有的干擾排查方法是依靠網絡優化工作人員根據路測結果或者網管中的指標等發現干擾,結合話務報告干擾分析的嚴重級別和干擾存在的時間,到現場利用掃頻設備觀察底噪曲線的變化情況,從而確定干擾類型。雖然這種方法能夠對小區的受干擾情況進行精準定位,但是其主要依賴優秀工作人員的經驗判斷,效率較低,不適合大面積推廣。
科研工作者們在移動通信網絡的上行干擾自動化識別方面進行了深入的研究。翁文迪[1]根據分時長期演進TD-LTE(Time Division-Long Term Evolution)F頻段上行干擾的產生機理分析了相應的波形特征,并結合共站址信息,提出了使用異系統干擾識別算法對小區進行干擾檢測,為后續的排查工作提供了理論基礎。孫黎明[2]利用同類波形特征提出了基于逆向傳播BP(Back Propagation)神經網絡的自動干擾排查算法。但是,研究人員忽略了實際上行干擾數據中存在不平衡的問題,其會導致機器學習算法的錯分率上升[3]。針對此問題,詹皓粵[4]通過主成分分析PCA(Principal Component Analysis)與偏度特性相結合,降維提取了物理資源模塊PRB(Physical Resource Block)數據,實現了對分類模型的性能優化。通過改變特征提取方法,雖然能夠在一定程度上改善模型性能,但是特征失去了可解釋性,并且丟失部分的信息。
目前,上行干擾自動化識別的研究主要針對TD-LTE 1800 MHz頻段,而對頻分雙工—長期演進FDD-LTE(Frequency Division Duplexing-Long Term Evolution)系統的上行干擾分析較少。經過分析發現,FDD-LTE 900 MHz頻段的上行干擾問題較為嚴重,極大地影響了用戶的業務體驗,因此,對其研究已經刻不容緩[5]。文章提出了基于加權隨機森林的上行干擾分類方法,可以有效地解決FDD-LTE網絡中上行干擾數據存在不平衡的問題,是提高上行干擾分類準確率的有效方法,在實現智能化網絡優化中具有重要的研究意義。
在移動通信網絡中,系統間的上行干擾可以分為雜散干擾、阻塞干擾、互調干擾和外部干擾[6]。文章主要針對中國移動900 MHz FDD-LTE(889~909 MHz/934~954 MHz頻段)進行上行干擾分析。
雜散干擾是指其他通信系統存在非線性工作器件,其在工作頻段外產生無用的信號輻射導致FDDLTE系統接收到無用信號,形成對有用信號的同頻干擾。受干擾小區在受到雜散干擾時,干擾波形呈現滾降特性,頻點前端的干擾功率值隨著PRB頻點的增加而降低。根據我國網絡頻譜劃分情況可知,電信850 MHz FDD-LTE在系統間隔離度非常小的情況下,會存在雜散干擾。
互調干擾是由于天饋系統相關器件存在非線性問題導致設備在發射信號時形成了互調產物,其頻率在FDD-LTE系統信號接收器的接收范圍內會使信號接收器的信噪比下降,造成服務質量的下降。受干擾小區在受到互調干擾時,主要體現在干擾波形有多個突起,且突起處連續的PRB頻點數不超過4個,如圖1(a)所示。根據頻譜劃分可知,聯通GSM 900 MHz的上行頻段為909~915MHz,2f1-f2的互調產物恰好落于移動900 MHz FDD-LTE的頻段范圍內,產生互調干擾。
阻塞干擾是由于FDD-LTE系統的接收設備接收到帶外強的干擾信號,使接收設備鏈路的有源器件達到飽和狀態并產生失真,受干擾系統接收設備靈敏度下降,無法接收到有用信號。阻塞干擾的波形圖主要表現在每個頻點的干擾功率均有一定程度的提升,一般>5 dBm即為阻塞干擾,如圖1(b)所示。電信850 MHz FDD-LTE基站設備系統隔離度不足是造成移動900 MHz FDD-LTE阻塞干擾的最大原因,而私裝直放站也是導致阻塞干擾的重要因素。
所有移動通信系統之外的干擾源引起的干擾統稱為外部干擾。主要的外部干擾源有信號屏蔽器和信號干擾裝置等。建網初期,對GSM 900 MHz頻段干擾排查不徹底也會造成嚴重的外部干擾。此類干擾在波形圖上主要表現為受干擾處會呈現一個尖峰 突起,如圖1(c)所示。

圖1 上行干擾波形圖
決策樹是一種樹形結構的機器學習算法[7],由根節點、非葉子節點和葉子節點組成,其結構如圖2所示。

圖2 決策樹結構圖
決策樹為遞歸結構,由根節點自上而下進行數據訓練和預測,根據不同的相似度計算標準,將數據中具有一定相似度的子集劃分出來,產生多個分支,到達決策樹的葉子節點則停止劃分。葉子節點根據最大樹深度或者最小葉子數進行設置,1個葉子節點代表數據的1個分類結果。決策樹根據特征劃分依據的不同,可以分為基于信息熵、信息增益、信息增益率和基尼不純度的決策樹。假設數據量為N的訓練樣本集合D可以分為K個類別,則其建立不同決策樹的信息熵H(D)、信息增益g(D,a)、信息增益率gR(D,a)和基尼不純度Gini(D)由式(1)~(4)表示為


式中nk為第k個類別的數量;v為樣本集根據特征a劃分的子集數量,取值范圍為[1,V]。
隨機森林是以決策樹為基礎的一種集成學習算法[8]。其隨機生成多個不相關的決策樹,每個決策樹各自獨立地進行學習和預測,通過投票的方式將這些預測合成單預測,得票最多的類別即模型預測結果,其結果優于決策樹。
假設輸入為訓練樣本集合D,決策樹的迭代次數為M次,隨機森林的生成步驟為
(1)對樣本訓練集進行第m次采樣,其中m為整數,取值范圍為[1,M]。隨機采集n次,得到含有n個樣本的訓練集Dm;
(2)在決策樹進行節點劃分時,全部n個輸入變量不完全參與節點分裂,而是隨機抽取k(k≤n)個隨機特征變量,k的取值一般為2 log2n+1,將k個特征中最佳的特征作為節點進行分裂,訓練得到第m個使用分類與回歸樹CART(Classification and Regression Trees)算法生成的決策樹Gm;
(3)CART決策樹基于基尼不純度進行特征劃分,當基尼不純度越小時,代表不純度越小,其特征越好,最終生成M棵CART決策樹形成隨機森林;
(4)通過計算投票數決定數據屬于哪一類,隨機森林算法流程如圖3所示。
決策樹算法計算速度快便于理解,但是容易過擬合,并且在處理不平衡數據時,特征劃分會傾向選擇數值更多的特征。隨機森林與決策樹算法相比,準確率高且不容易過擬合,但是在不平衡數據集中,少數類的分類準確率依然不高。針對不平衡數據集的分類問題,文章提出了采用加權隨機森林[9]提升較少類分類準確率的方法。

圖3 隨機森林算法流程圖
機器學習算法為了最小化整體錯誤率會忽略數量較少類的分類情況,在訓練時容易形成有利于多數類分類的模型。為了改善此情況,加權隨機森林遵循了代價敏感學習的思想,通過賦予較少類更大的權重來增大較少類的影響,平衡樣本之間的關系可以使生成的模型更加適合不平衡數據,提高少數類分類結果的正確率[10]。
類權重主要體現在:(1)在決策樹的生長過程中,采用加權基尼不純度GI的減少量Δgi尋找最優的劃分特征,其值越大,代表不純度越小,分離效果越好,計算式由式(5)和(6)表示為


式中K為總類別數;J為未分離的節點處的樣本集,其中JL為分離的左側節點樣本集,JR為分離的右側節點樣本集;ni為節點內的各類樣本數;Wi為分配給每類的類權重值。
(2)在葉子節點處確定類別時,通過結合每棵決策樹的加權投票來確定最終分類結果c,由式(7)[11]表示為

進行二分類權重設置時,可以設定多數類的類權重值為1,對較少類的類權重值從小到大設置并依次進行實驗,直到錯分率急劇增加,確定錯分率最小時的值為較少類的類權重。分類時,若遍歷所有的類權重,工作量將過于龐大,一般選擇具有代表性的權值進行實驗。研究表明:以樣本值的比例或者錯分值的比例為依據設置類權重比較合適,但是較少類過大的類權重會使整體或者其他類的錯分率升高,導致性能下降,所以通常選擇2或3作為錯分數多或樣本數少的類的權重,不需設置過大的權重[11]。
傳統的網絡優化只能通過路測[12]、定點測試來獲得用戶的感知信息,而路測和定點測試只能對交通主干道和重點場所進行測試,所獲得的采樣點數據相對較少。測量報告MR(Measurement Report)是手機上報的數據,其地點、時間的限制很少,可以獲得豐富的數據點信息,而MR數據應用在網絡優化方面則可以更加全面、準確地得到分析結果。
MR數據分為統計數據MRS(Measurement Report Statistics)和樣本數據MRO(Measurement Report Original)。MRO數據是海量原始數據經過數據的分發、整合、處理、匯總為報表,用于開發上層應用[13]。FDD-LTE系統將MRO數據中25個PRB上的信號干擾電平作為網絡管理的上行干擾指標。文章采用某地區MRO數據中PRB0~PRB24的15 min上行平均干擾電平作為樣本,共1 268條數據,部分原始數據見表1。

表1 部分原始數據表 單位:dBm
根據定點測試中干擾門限不應>-110 dBm,設定干擾閾值為-110 dBm;由于平均每PRB抬高>5 dBm為阻塞干擾,設定阻塞閾值為-105 dBm。根據上述規則,并結合上行干擾波形圖,對數據進行特征提取,見表2。

表2 干擾特征說明表
為了探究加權隨機森林在FDD-LTE上行干擾分類的表現情況,文章設計了對比實驗,整體實驗流程如圖4所示。

圖4 整體流程圖
實驗步驟如下:
(1)根據上行干擾波形圖,對FDD-LTE上行干擾數據進行標注,并提取統計干擾特征,得到標注后的干擾特征數據集;
(2)采用分層抽樣將干擾特征數據集分為訓練集和測試集,根據訓練集建立決策樹分類器、隨機森林分類器和加權隨機森林分類器;
(3)利用測試集測試分類器的穩定性和準確性,并根據測試結果得到每類分類器最合適的參數,對比分析分類結果。
樣本集根據上行干擾電平波形圖進行判斷和標記,得到互調干擾、阻塞干擾、外部干擾和無干擾依次為62、106、216、884個。對樣本集進行隨機分層抽樣,分別在多數類和少數類中抽取大約2/3的樣本組合作為訓練集用于構建分類器模型,剩余樣本作為測試集測試分類器性能。樣本集數據情況見表3。

表3 樣本集數據表 單位:個
當隨機森林中決策樹的棵數較少時,其性能較差、分類誤差大。當決策樹的棵數盡量大時,能夠確保決策樹的多樣性,從而提高分類的準確率,但是棵數過多會降低隨機森林運行速度、加長運行時間[14]。為了確定隨機森林中決策樹的棵數與干擾分類正確率之間的關系,根據不同的決策樹棵數分別建立隨機森林模型,決策樹棵數與分類正確率之間的關系曲線如圖5所示。

圖5 決策樹棵數與分類正確率關系圖
由圖5可知,隨著決策樹棵數的增加,正確率整體呈上升趨勢,當決策樹的棵數為900時,分類的正確率最高。因此,隨機森林中決策樹的棵數設定為900。
加權隨機森林雖然能夠在一定程度上提高不平衡數據中較少類的分類準確率,但是設置合適的類權重非常重要,權值設置不當會降低整體分類正確率。為了設置最合適的權值,設定最小葉子數為3,決策樹棵數為900,選擇不同的權值進行實驗,選擇袋外錯誤率最小的一組權值作為加權隨機森林的參數最為合理。每次實驗的袋外錯誤率見表4。

表4 不同權值下加權隨機森林的袋外錯誤率表 單位:%
由表4可知,第1組設置為原始權值,第2組設置為每類樣本數量的反比,其余權值根據錯分率的大小排序,對其設置2~4的權值進行實驗,當權值設置為2∶1∶1∶1時,較少類的分類錯誤率最小,因此設定其為加權隨機森林的權值。
實驗使用相同的訓練集構建不同的分類器,并在相同測試集中進行樣本預測,分別對決策樹、隨機森林和加權隨機森林3種分類器進行測試,得到的分類結果見表5。

表5 不同分類器的正確率表
由表5可知,隨機森林較決策樹分類正確率提高了1.66%,運行時間是決策樹運行時間的1/2,但是由于較少類總數量少,錯分代價大,隨機森林分類情況并不理想,互調干擾分類正確率僅有65.22%。加權隨機森林與隨機森林相比,互調干擾分類正確率提高了8.69%,外部干擾分類正確率提高了1.74%,證明了加權隨機森林可以提高較少類的分類正確率。
為了全面直觀地反映每一類分類器的分類效果,每個分類器分類結果的混淆矩陣[15]如圖6所示,其中互調干擾、阻塞干擾、外部干擾和無干擾分別標記為1、2、3和4。

圖6 不同分類器的混淆矩陣圖
混淆矩陣的每1行之和表示該類別的真實樣本數量,每1列之和表示被預測為該類別的樣本數量,其清晰地顯示出每一類的錯分情況。由圖6(a)可知,第1行數據中,正確預測為互調干擾的樣本有14個,錯誤預測為阻塞干擾和外部干擾的樣本分別有2、7個。通過對每個分類器的分類結果比較發現,加權隨機森林與決策樹相比,互調干擾、阻塞干擾和外部干擾正確分類的個數均增多了3個,無干擾正確分類的個數增多了1個;加權隨機森林與隨機森林相比,互調干擾正確分類的個數增多了2個,外部干擾正確分類的個數增多了1個。
綜上所述,在不平衡的FDD-LTE上行干擾數據的分類中,加權隨機森林較少類的分類正確個數有所增加,分類性能優于決策樹和隨機森林,說明加權隨機森林能夠有效地解決FDD-LTE上行干擾數據不平衡的問題,改善較少類分類準確度較低的現象,而且運行速度快,分類準確率高,能夠較好地實現FDD-LTE上行干擾的智能化分類。
文章針對FDD-LTE上行干擾分類問題建立了一種基于加權隨機森林的上行干擾分類模型,對比分析了決策樹、隨機森林和加權隨機森林3種分類器的分類結果,得到以下結論:
(1)加權隨機森林根據數據較少類的數量或者錯分率,設置合適的權值能夠提高較少類分類的準確率。當權值設置為2∶1∶1∶1時,較少類的分類錯誤率最小,其互調干擾和阻塞干擾的分類正確率分別達到73.91%和96.67%。
(2)與決策樹和隨機森林相比,加權隨機森林在不平衡的FDD-LTE上行干擾數據處理中具有最好的分類效果。決策樹和隨機森林的分類正確率分別為93.85%和95.51%,加權隨機森林的分類正確率達到了96.22%,而運行時間僅有0.98 s。