朱金榮,李 揚,鄧小穎,孫 燦
(揚州大學物理科學與技術學院,江蘇 揚州225002)
隨著5G網絡逐步發展,隨之而來的網絡規劃和基站鋪設問題逐漸被重視。為得到城市各小區內網絡干擾和通信速率等重要指標,需要采集大量的工程數據模型及實際平均信號接收功率(Reference Signal Receiving Power,RSRP)擬合出無線傳播模型。傳統經驗模型都是基于經驗數據同時結合不同的場景,修正公式中的環境因子獲得特定的擬合公式,其典型代表是Cost 231-Hata模型[1]。這類模型的參數易得,模型操作難度低,但未考慮城區中的建筑物阻擋、地貌環境以及街道分布等因素的影響,因而精確度并不十分理想。
近年來,機器學習驅動的數據挖掘技術獲得了長足的進步,其高實時性以及低復雜度使得其與無線通信的結合成為了可能。針對存在的問題,提出基于大數據的移動信號傳播模型。數據包括基站的工程參數數據,地圖數據以及真實測得的信號功率值。數據覆蓋面廣,因素考慮全面。對數據進行充分挖掘,研究影響標簽的重要因素,模型采用16層的神經網絡進行仿真計算,深度足夠滿足數據內在的復雜映射關系。實驗結果表明,建立的模型能有效適應各種場景環境,精確度優于傳統經驗模型。
移動基站發射的信號是以電磁波的形式在空間中傳播的,發射機發射的無線信號,經信道傳輸后到達接收機的天線信號功率表達式如式(1)所示[2]

(1)
其中,r(t)為接收機接收到的信號,Pr為接收端的功率(dBm)。接收端的信號功率值與傳播損耗的關系如式(2)所示。
PL=Pt-Pr
(2)
式中PL為信號在傳播過程中產生的損耗(dBm),Pt為基站發射功率,Pr是接收端的信號功率值(RSRP)。因而研究信號的傳播模型的實質是計算不同場景下的信號傳播過程中產生的損耗值。
信號在傳播時受多種因素的影響,使得電磁波在從發射機到達接收機的過程中不是沿單一的路徑傳播,而存在多重信號衰減稱為信號的傳播損耗:由陰影效應引起的損耗,由傳輸距離引起的路徑損耗,由多徑傳播引起的損耗等[3]。每條信號的傳播過程具有唯一性,原則上說,一個地區對應一個特定的傳播模型。
總數據集共包含4000個小區的csv文件,每個文件代表一個小區的數據,每個小區有其對應的基站。為了便于處理,將小區的平面圖劃分為5m*5m的柵格,每個柵格的數據就生成一個樣本。每個單個樣本用17個屬性和一個標簽值來描述。屬性包括:小區編號,基站所在位置坐標,基站所在位置海拔高度,基站天線的有效高度,基站周圍建筑物類型,接收點柵格所在位置坐標,柵格周圍建筑群高度以及地物類型。樣本的標簽值為每個柵格實際測得的平均信號功率值。
將數據集分為訓練集和測試集兩部分,將訓練集數據進行特征構建,采用機器學習方法搭建模型,基于訓練數據計算得到RSRP的預測值,利用梯度下降法迭代參數更新網絡參數和權重。最后將訓練集數據輸入,得到模型的精度評估。因此整個建模過程是基于大數據的回歸預測分析。系統的全部流程如圖1所示。

圖1 系統流程圖
數據的精細程度會直接影響模型的好壞,因此對4000個小區的共1200萬條大數據進行預處理。
樣本中多處屬性是由文本文字描述,且不可丟棄,如地物類型屬性中海洋、湖泊、濕地等屬于非結構化數據,后期難以進行數據挖取特征的工作[4]。此類地形特征數共19個,選用5位二進制對其進行編碼,如表1所示。

表1 地貌類型數據編碼
數據清洗包括刪除錯誤值,剔除重復值,填補缺失值。刪除錯誤值主要針對邏輯上有
錯誤的數據,減少不必要的干擾[5]。剔除重復值可以減少模型的計算量,降低成本。填補缺失值的方法包括均值填補和中值填補,實驗證明,采用中值填補的方式更利于最終模型的性能。
方差過濾,同一列屬性的數據中,如果方差為0,則認為這組數據的波動幅度為0,即該屬性對最終模型沒有意義,可以舍去。
數據的無量綱化,構建數據的特征前,需要對其進行無量綱化處理,主要是解決不同量綱屬性對后期輸入模型的過程中產生的差異性。實驗證明,在機器學習中,數據的無量綱化會使得神經網絡中的代價函數會以球形輪廓的方式呈現,更便于求得最小值,提升模型的運算速度[6]。
特征工程主要是將原始樣本的屬性整合或刪除,找到最能代表標簽值的一個或多個特征,避免將所有17個屬性都輸入模型進行訓練的情況。
在自由空間中,即傳播過程無環境因素影響,產生的損耗如式(3)所示[7]
PL=32.44+20logd+20logf
(3)
可知信號傳播的損耗PL與發射頻率f以及傳播距離d的對應log值成線性關系。
圖2是小區的三維場景在二維平面的投影,根據電磁波傳播理論,發射機與接收機的相對高度在很大程度上決定了信號的傳播路徑。

圖2 發射機與接收機的幾何圖形
由圖2計算得Δhv的公式如(4)式所示
tan(θMD+θED+h0)
(4)
其中:hb為發射機高度(m),hc為發射機站點所在海拔高度(m),h0為接收位置海拔高度(m)。
此外根據無線通信理論總結出以下皆為影響信號衰減因素:發射機的有效高度(hb)、接收機天線的有效高度(hr)、發射與接收天線所在地的地物類型、發射機周圍建筑物的高度(hd)以及柵格所在建筑物的高度(he)。
特征選擇是從原始數據中挑選出對模型搭建有益處的屬性,一方面為了消除冗余,避免最初的17個屬性全部輸入網絡的結果;另一方面挑選出能夠代表標簽值的特征,優化模型訓練過程[8]。
針對單個小區具體分析數據特征與RSRP值的關系,4000個小區共1200萬條數據,采用Person相關法兩兩計算相關性,計算公式如式(5)所示

(5)
其中x和y是需要求其相關性的兩個變量,n為樣本數。運用以上公式將特征進行相關性分析降序排列得出的結果如表2所示。

表2 特征的相關性排序
表中數值大小表明相關程度的高度,數值正負表明正負相關。鏈路距離(d)與信號線相對高度Δhv.的相關性接近于1,因此選擇舍去其一,保留鏈路距離d的特征。最終選擇相關性最大的前7個特征,包括柵格海拔高度,柵格建筑物高度,柵格所在地物類型,基站載波頻率,發射機所在柵格地物類型以及基站的海拔高度作為模型的輸入。
考慮到模型輸入的數據量大,且自變量與因變量之間的映射關系復雜,選擇了深度神經網絡(Deep Neural Network,DNN)建立有監督的回歸模型。
DNN也稱多層感知機,比單層感知機具有更多的參數,更強的刻畫能力,可以用于描述更加復雜的問題。網絡總共包括輸入層、隱藏層和輸出層。輸入層為上文總結出的7個特征:鏈路距離,接收信號位置海拔高度,柵格建筑物高度,柵格所在地物類型等,因此神經網絡的輸入層節點數為7。隱藏層是每個特征所占的權重(w)加上偏置(b),增加隱藏層數可以優化網絡訓練,但也極易出現“過擬合”的情形,綜合網絡性能考慮,采用了16層結構的神經網絡[9]。隱藏層的節點數,要在具備處理信息能力的同時降低計算量,在此采用經驗公式來確定數目。

(6)
其中a表示輸入層的節點數,n表示當前輸入層的節點數,n表示輸入層的節點數,c為置于1-10之間的常數。因為輸入節點即為上文構造的特征數,則式(0)中的a即為特征工程中的維度m,式(6)演變為式(7)。

(7)
輸出層節點數為1,即為待測數據輸入網絡求解出的預測RSRP值。完整的深度神經網絡結構如圖3所示。

圖3 深度神經網絡結構圖
DNN網絡的每一層都是全連接的,其每層的原理都是線性的,如式(8)所示。為了增加網非線性,使得每次的計算結果得以保留加上一個激活函數σ(z)如式(9)所示。
z=∑wixi+b
(8)

(9)
在Linux系統下運用Python語言,搭建DNN網絡,參數設置為:隱含層節點數25,學習率(learning rate)0.001,迭代次數10000,訓練集參數(training set)設置為100,批處理參數(batch size)設置200。在完成數據清洗和特征工程的步驟以及神經網絡的初步構建以后,將樣本數據集劃分為8:2訓練集與測試集的比例輸入模型進行訓練。
訓練過程中通過梯度下降算法實現對權重(w)、偏置(b)的調整,可以加快模型收斂速度,提高算法的準確度[10]。原理如式(10)所示。

(10)
其中w是當前權重,?為學習率,loss成本函數,wnew是通過梯度下降法更新后的權重。loss函數不斷收斂到達一個閾值時表明神經網絡訓練完成。
在移動通信的領域內,良好的弱覆蓋率(Poor coverage recognition rate,PCRR)是保障網絡質量的前提。在本模型中的弱覆蓋判決門限定義為RSRP值低于-103dBm。當前LTE的覆蓋考核指標的公式如式(11)所示。

(11)
定義學習函數為預測值與實際值之間的均方誤差根函數(Root Mean Square Error,MSE),具體計算公式如式(12)所示。

(12)
其中P(i)為樣本數據的實測值,(i)為經模型計算所得預測值,N為樣本個數。將20%數據即800個小區用于檢測模型,以小區為數據輸入單位進行模型測試。選取某小區200個樣本數據進行預測值與真實值的對比如圖4所示。

圖4 200組數據的真實值與預測值擬合情況
本文將特征構建、皮爾森相關性分析和深度神經網絡相結合對移動信號的傳播損耗進行建模仿真,得出以下結論:
1)將各個特征進行相關性分析,得到發射點與接收點的鏈路距離,接收點海拔高度以及建筑物高度三個因素為影響信號傳播的主要因素,接收點所在地物類型,發射機載波頻率,發射機所在柵格地物類型以及基站的海拔高度等為次要因素。
2)由5.2節可以看出,模型計算出的RSRP預測值表現出與真實值相似的跟隨性,測試集輸入的最終均方根得分為9.87,相比于傳統cost-231Hata模型誤差在12左右有了一定的提高;每個小區的網絡覆蓋率都達到閾值標準,小區平均覆蓋率為98.24%,表明該神經網絡模型的準確度較高,預測效果相對較好。
但本文將所有的特征類型籠統地輸入網絡擬合,沒有針對性地深入處理,下一步計劃融合其它算法采用集成學習的方式建立更高精度的模型。