李 煒,王少軒
(1.陜西國防工業(yè)職業(yè)技術(shù)學院電子信息學院,西安 710300;2.加泰羅尼亞理工大學計算機學院,巴塞羅那 08034)
隨著LTE技術(shù)的廣泛應(yīng)用,為了給用戶提供優(yōu)質(zhì)服務(wù),電信運營商面臨著處理大量網(wǎng)絡(luò)數(shù)據(jù)的需要。如何快速準確分析不同小區(qū)的狀態(tài)、評估小區(qū)的性能,已成為運營商首要關(guān)注的問題[1]。通常,4G/LTE蜂窩小區(qū)網(wǎng)絡(luò)性能可以用多個不同的特征來表征,數(shù)據(jù)挖掘分析技術(shù)為蜂窩小區(qū)大型數(shù)據(jù)集的監(jiān)控和獲取提供了可能。其中,聚類作為一種處理大型數(shù)據(jù)集的常用方法,被廣泛應(yīng)用在工業(yè)、農(nóng)業(yè)、經(jīng)濟等領(lǐng)域[2],相關(guān)研究也不斷被提出。Barthel提出利用自動圖像分類和基于SOM模型的半自動圖像語義生成來改進圖像檢索[3]。Schreck等人提出了一種基于SOM的二維屬性值抽象空間的軌跡數(shù)據(jù)可視化聚類分析方法[4],基于SOM通過選擇兩個相關(guān)的特征(即上行噪聲和幀錯誤率)來尋找相似的行為單元,從而使移動運營商的優(yōu)化任務(wù)更具成本效益。Savazzi等人提出了一種基于聚類算法的下行空間濾波新方法[5],用于UMTS-FDD蜂窩網(wǎng)絡(luò),使用kmeans算法,盡管成功地對用戶進行了分組,但聚類偏差較大,簡單網(wǎng)絡(luò)場景計算時間超過1小時。由于該法僅使用k-means方法,在聚類處理前必須確定聚類數(shù)k,當k值不足時,便不能用于分類數(shù)據(jù)[6-8]。當輸入數(shù)據(jù)來自未知的概率分布時,很難為k選擇一個合適的值。
基于上述背景,本研究嘗試使用SOM算法來分析LTE無線接入網(wǎng)的性能,并根據(jù)無線接入網(wǎng)中的參數(shù)將不同的LTE小區(qū)劃分為不同的簇,以此來區(qū)分流量較大和流量較小的小區(qū),以助于網(wǎng)絡(luò)優(yōu)化人員更好地進行網(wǎng)絡(luò)頻譜資源優(yōu)化、改善用戶體驗。
聚類是根據(jù)數(shù)據(jù)之間的相似度將數(shù)據(jù)分成相應(yīng)的類,以此用來查看數(shù)據(jù)中類似的模式,是一個將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。好的聚類方法可以產(chǎn)生高質(zhì)量的聚類結(jié)果,所形成的簇也具有高的內(nèi)部相異性。然而,對于未標記數(shù)據(jù),聚類存在一定的難度。目前,沒有特定標準的方法來判定未標記聚類的好壞;對于大量未標記數(shù)據(jù)需要人為干預(yù)才能完成適當?shù)木垲悺?/p>
SOM(Self Organizing Maps,自組織映射)是人工智能神經(jīng)網(wǎng)絡(luò)中的一種無監(jiān)督學習神經(jīng)網(wǎng)絡(luò)模型,一般用于將高維輸入數(shù)據(jù)表示在低維空間中,通常是將數(shù)據(jù)投影到二維神經(jīng)元網(wǎng)格中。
自組織映射不同于其他人工神經(jīng)網(wǎng)絡(luò)之處在于,其采用競爭學習而不是錯誤校正學習,且使用鄰域函數(shù)來保持輸入空間的拓撲屬性。模型可以分為輸入層和競爭層兩部分,如圖1所示。輸入層的輸入神經(jīng)元數(shù)量由輸入網(wǎng)絡(luò)中輸入數(shù)據(jù)特征的數(shù)量決定。

圖1 SOM網(wǎng)絡(luò)拓撲結(jié)構(gòu)
基于此模型,本研究將輸入數(shù)據(jù)設(shè)置為不同的特征,并將這些特征作為訓練數(shù)據(jù)集;同時選取整個小區(qū)的7種特征。
對于輸入數(shù)據(jù),將其設(shè)置為一個n維向量,可表示為X=[x1,x2,...,xn]T。進而可將輸入向量設(shè)置為一個7×62的矩陣,表示含有62個單元格的靜態(tài)數(shù)據(jù)和7個特征數(shù)據(jù)。
競爭層是由神經(jīng)元按一定方式排列的二維節(jié)點矩陣,它主要用于聚類和高維降維可視化。SOM模型的競爭層為二維網(wǎng)格,網(wǎng)格大小設(shè)為p個節(jié)點,記為Y=[y1,y2,...,yn]T。通常,神經(jīng)元選取越多,模擬的性能就越好,但對于很多神經(jīng)元來說典型的選擇方案可通過來計算。其中s為競爭層的神經(jīng)元數(shù)量,N為輸入樣本,即LTE小區(qū)的特征。輸入層的每個節(jié)點與第j個競爭層神經(jīng)元之間的連接記錄則為Wj=[wj1,xj2,...,xjn]T,其中j=1,2,…,p。
訓練過程最終要在競爭層輸出。在這一輸出層中,贏得競爭的神經(jīng)元將設(shè)置為1,其余節(jié)點沒有輸出將被設(shè)置為0。競爭的原則是:權(quán)向量神經(jīng)元wq當中,距離最接近當前輸入X的即為競爭的獲勝者。可以記為:

SOM訓練算法在執(zhí)行之初,先給競爭層中每個神經(jīng)元的每個權(quán)值向量wi賦一個初值,然后對模型進行反復(fù)的訓練。在每個訓練步驟中,從輸入數(shù)據(jù)集中隨機選擇一個樣本向量Xi。通過計算原型神經(jīng)元與Xi之間的距離,得到最優(yōu)匹配單元,即最接近Xi的權(quán)向量,匹配單元根據(jù)歐氏距離計算,公式如下:

最優(yōu)匹配單元及其拓撲鄰域被移動到更接近輸入向量的位置。此時神經(jīng)元原型向量更新規(guī)則為:

其中,t是時間;ρ(t)是學習速率,范圍為0~1;hci(t)是鄰域神經(jīng)元,通常是一個高斯函數(shù)。
設(shè)t=t+1,重復(fù)公式(2)和(3)的運算,直到網(wǎng)絡(luò)收斂為止。
基于上述流程,即可應(yīng)用SOM算法來訓練、分析移動通信RAN數(shù)據(jù)。
首先要經(jīng)過多次路測分析得到一系列數(shù)據(jù),計算其平均值。在僅考慮下行情況的前提下,選取:平均信道質(zhì)量指標、數(shù)據(jù)流量、下行平均吞吐量、下行最大吞吐量、PRB(物理資源塊)使用量、各小區(qū)內(nèi)部eNB延遲和RRC丟包率共七種典型特征,用作聚類單元的輸入特征向量。
按照分析目標考慮,關(guān)注重點在于SOM訓練的數(shù)據(jù),故此在MATLAB工具箱中建立一個包含16個map神經(jīng)元的自組織映射,并利用特征數(shù)據(jù)矩陣進行訓練;將待檢測的競爭神經(jīng)元的輸出位置與輸入特征數(shù)據(jù)的輸出位置做比較,輸出位置越相似,其特征越相似;至此,只需計算出基于這兩種輸出位置的歐氏距離,距離較近的將被劃分為同一簇。
對于SOM訓練,與每個神經(jīng)元相關(guān)的權(quán)值向量會運動而成為一組輸入向量中心。拓撲中相鄰的神經(jīng)元在輸入空間中也會相互靠近,因此可在網(wǎng)絡(luò)拓撲的二維中實現(xiàn)高維輸入空間的可視化。MATLAB仿真結(jié)果如圖2所示。

圖2 SOM拓撲仿真圖
圖中每個六邊形代表一個神經(jīng)元,網(wǎng)格是4×4的,因此有16個神經(jīng)元。每個輸入向量有7個特征,所以輸入空間是7維的。權(quán)重向量(聚類中心)屬于這個空間。
對SOM領(lǐng)域權(quán)值距離的仿真結(jié)果如圖3所示。圖中,正六邊形代表神經(jīng)元,相鄰神經(jīng)元之間以直線連接。存在連線的區(qū)域以不同顏色標識神經(jīng)元之間的距離。較深顏色代表較大距離,較淺顏色代表較小距離。從中心區(qū)域到左上區(qū)域有一段暗色線段。SOM網(wǎng)絡(luò)將輸入數(shù)據(jù)聚為兩個不同的組。

圖3 SOM領(lǐng)域權(quán)值距離仿真
為了將輸入向量劃分為不同的簇,使用SOM權(quán)值平面來可視化SOM拓撲結(jié)構(gòu),仿真結(jié)果如圖4所示。圖中顯示了輸入向量的每個元素的權(quán)重平面,它們是連接每個輸入到每個神經(jīng)元的權(quán)重的可視化,顏色越深代表權(quán)重越大。如果兩個輸入的連接模式非常相似,即可認為輸入是高度相關(guān)的。在本例中,輸入2與5,輸入3與4,輸入6與7,都有非常相似的連接,它們之間有很高的相關(guān)性。以輸入2和5為例,兩者分別用來表示下行鏈路的數(shù)據(jù)流量和物理資源塊使用量。在這兩張圖中,顏色的變化極為相似,都是從左下角到右上角顏色變暗,即是說左下角的PRB使用率和數(shù)據(jù)流量都低于右上方的區(qū)域。同樣情況也適用于輸入3(下行鏈路的平均吞吐量)和輸入4(下行鏈路的最大吞吐量)。
對于輸入6(內(nèi)部eNB延遲)和輸入7(RRC丟包率),性能幾乎相反,即隨著下行鏈路中PRB使用率和數(shù)據(jù)流量的增加,RRC丟包率和eNB延遲會降低,表明這四個特征具有很高的相關(guān)性。
剩下的輸入1(信道質(zhì)量指標)顏色變化不規(guī)則,表明其性能與其他六個權(quán)重輸入皆不相關(guān)。

圖4 不同特征的權(quán)重圖
圖5顯示了神經(jīng)元在拓撲中的位置,并表示了與每個神經(jīng)元相關(guān)的訓練數(shù)據(jù)的數(shù)量。

圖5 測試數(shù)據(jù)在SOM拓撲上的分布
分析一個時間序列數(shù)據(jù),與單個數(shù)據(jù)點不同,需要計算給定數(shù)據(jù)序列在每個數(shù)據(jù)簇中出現(xiàn)的頻率或“命中”數(shù)量。一段時間內(nèi)包含這些比例或“點擊率”的矢量稱為點擊率直方圖,描述一段時間內(nèi)小區(qū)行為的特征,隨后用于將小區(qū)聚類為行為類似的組。
與任何神經(jīng)元相關(guān)的最大命中數(shù)是11。因此,該集群中有11個輸入向量。另外可發(fā)現(xiàn),“命中”在拓撲中的分布與圖5中權(quán)重的分布相似。例如,命中11次的神經(jīng)元(又稱小區(qū))具有數(shù)據(jù)量大、同時使用PRB的特點,并且它們的掉話率很低。相鄰的神經(jīng)元(即歐氏距離更近)也有類似的表現(xiàn),例如命中4和6的神經(jīng)元。與之相反的是左下角命中1的神經(jīng)元,其均值和最大吞吐量較低;此外,與命中11次的神經(jīng)元相比,它的掉話率更高。
通過上述實驗表明利用SOM模型可以有效預(yù)測區(qū)分小區(qū)類型,幫助移動運營商節(jié)約成本,實現(xiàn)頻譜資源的優(yōu)化配置。
本研究應(yīng)對的是LTE網(wǎng)絡(luò)中不斷增長的終端接入和高基站密度的挑戰(zhàn),利用大數(shù)據(jù)分析刻畫了網(wǎng)絡(luò)性能和終端體驗。所建立的SOM神經(jīng)網(wǎng)絡(luò)模型成功地對LTE小區(qū)進行了聚類。實驗證明了SOM用于小區(qū)聚類并發(fā)現(xiàn)相似行為小區(qū)的可能性,將有助于移動運營商節(jié)省更多的運營成本。在網(wǎng)絡(luò)優(yōu)化中使用大數(shù)據(jù)分析和挖掘,意味著可以通過一種高度可伸縮的方法來進行網(wǎng)絡(luò)性能調(diào)優(yōu)。利用大數(shù)據(jù)確定感興趣的區(qū)域,對網(wǎng)絡(luò)運營而言也具有極高的商業(yè)和實用價值。