呂亞平,賈向東,2,路 藝,葉佩文
(1.西北師范大學 計算機科學與工程學院,蘭州 730070; 2.南京郵電大學 江蘇省無線通信重點實驗室,南京 210003)
據調查顯示,在歐洲20%~40%的移動通話發生于室內,在美國為40%~50%,在中國則高達60%,同時,超過50%的語音服務和70%的數據流量服務發生于室內[1]。近年來出現的家庭基站技術,在增加無線網絡容量、解決室內覆蓋問題以及從宏基站上卸載流量等方面具有較大優勢[2]。隨著5G時代的到來以及智能終端設備的爆炸式增長,現有的室內無線通信網絡已經很難滿足移動用戶對各種數據服務的需求。因此,如何提高室內無線網絡的容量,為室內移動用戶提供更好的數據服務變得十分重要。
室內無線通信是無線通信中不可或缺的一部分,目前室內無線通信的主要實現方式有家庭基站和WiFi 2種。在國外,室內通信使用家庭基站比較多,而在國內,室內通信大多使用WiFi,家庭基站更多用于商用。商用區域內家庭基站是處理室內無線網絡容量和覆蓋的重要技術,與WiFi相比,家庭基站在授權的頻段內能提供較好的語音服務質量,并且更簡單實用,有較好的安全性能。此外,其還具有功耗少、電池壽命長、不需要WiFi雙模手機或其他設備等優點,同時還具有服務等同性,即支持多種服務在家庭基站上無縫工作。
為解決室內無線網絡的容量問題,眾多研究人員從不同角度對家庭基站進行了研究與分析。文獻[3]提出一種功率控制和覆蓋(Power Control and Coverage,PCC)算法,以增加網絡效用和降低能量消耗,并建立了PPC算法對最優解的收斂性,但該算法在移動用戶密集區域不一定適用。文獻[4]提出帶寬-功率模型來減少移動用戶使用的帶寬總和,并最大限度地降低噪聲對傳輸速率的影響,但該算法并未考慮家庭基站密集部署的情況。文獻[5-6]研究了雙層毫微微蜂窩網絡中的全雙工通信,通過博弈理論共同考慮上下行優化問題,但沒有考慮用戶的移動性和用戶密集聚集的情況。文獻[7]使用Q學習算法來最大化宏小區和毫微微小區的網絡容量。文獻[8]通過減少干擾和平衡數據下載這兩方面來最大化網絡容量。文獻[9]根據干擾和服務因素,調整主要家庭基站的傳輸功率,執行基于概率的資源分配算法,以安排每個家庭基站的傳輸時間和頻率,進一步增強整體頻譜重用。這樣可以有效地避免相鄰家庭基站之間的干擾,從而更好地滿足服務質量連接,以提高網絡的吞吐量。
盡管目前深度學習在無線通信領域尚處于初步探索階段,但是已有眾多學者對其進行研究并取得一些成果,文獻[10]使用深度學習算法解決了狀態空間連續與動作空間連續的問題,文獻[11]使用深度學習算法達到了能效優化的目的,文獻[12]使用深度強化學習有效地降低了用戶的任務執行總時延,文獻[13]使用強化學習算法解決了窄帶物聯網實時優化的問題。
受文獻[7]和深度學習算法的啟發,本文建立一個在辦公區域密集部署家庭基站的系統模型,基于深度Q學習(Deep Q Learning,DQL)算法對家庭基站的下行鏈路功率分配方法進行設計,使其能夠自適應網絡變化,從而提高室內無線通信網絡的吞吐量。
圖1為在辦公區域密集部署家庭基站的一個系統模型。該系統模型借用文獻[14]的路徑損耗模型。在該系統模型中,考慮家庭基站的下行傳輸。假設有N個家庭基站,M個移動用戶;家庭基站的空間物理位置遵循空間位置強度為λ(λ=3/4×30/1003π)的泊松點過程;用戶隨機分布在該辦公區域內;所有的家庭基站共享頻譜帶寬;一個移動用戶只能與一個基站進行連接。考慮到實際情況,該網絡模型中移動用戶受到的干擾來自所有的家庭基站,如圖1中實線箭頭所示。

圖1 辦公區域家庭基站密集部署的網絡模型Fig.1 Network model of intensive deployment of home base stations in office area
假設n={1,2,…,i,…,N}表示家庭基站的集合,m={1,2,…,j,…,M}表示辦公區域內用戶的集合。基站i與移動用戶m通信時,受到的干擾信號為:
(1)
其中:Di,m表示移動用戶m是否接入基站i,如果Di,m=0,則表示移動用戶m成功接入基站i,反之則沒有;Pi,m表示移動用戶m與基站i通信時,基站i的發射功率;G表示移動用戶與基站通信時的鏈路增益。G由下式所得:
(2)
其中,hn,m、Zn,m、φ分別是基站n與移動用戶m通信時的多徑衰落、陰影衰落以及路徑損耗因子,而γn,m則代表基站n和移動用戶m兩者之間的距離。
假設移動用戶與基站通信時接收的高斯白噪聲的方差δ2是固定值,且信道狀況已知,則系統的信號與干擾加噪聲比(SINR)可表示為:
(3)
由香農公式可得系統的總吞吐量C為:
(4)
其中,B是家庭基站的帶寬。
根據最大化網絡吞吐量這一優化目標,家庭基站的發射功率必須不大于其最大發射功率,則目標優化問題可表述如下:
(5)
約束條件為:
Pn,m≤Pmax
?n∈{1,2,…,i,…,N}, ?m∈{1,2,…,j,…,M}
(6)
其中,Pmax是家庭基站的最大發射功率。
深度學習具有較強的感知能力,但是缺乏一定的決策能力;而強化學習具有決策能力,但是難以解決感知問題[15]。深度強化學習可以把深度學習的感知能力和強化學習的決策能力結合起來[16],優勢互補,通過不斷地試錯,與環境進行交互,最大化累積獎賞從而獲得最優策略[17]。因此,本文使用同時具備感知能力和決策能力的深度Q學習算法來解決家庭基站的下行鏈路功率分配問題 。
DQL算法是Q學習算法的一種變體,其利用深度卷積神經網絡估計值函數、經驗回放進行學習,并且設置了目標網絡來獨立處理時間差分算法中的時間差(Time Difference,TD)。圖2展示了本文基于深度Q學習的功率分配算法框架。

圖2 基于深度Q學習的功率分配算法框架Fig.2 Framework of power allocation algorithm based on deep Q learning
如圖2所示,該框架包含回放記憶單元、當前值網絡、目標值網絡、環境和DQL誤差函數五大模塊。回放記憶單元存放經驗回放,經驗回放是指在代理與環境交互過程中,經驗會以(s,a,r,s′)的形式存放在回放記憶單元中,每次訓練會從回放記憶單元中隨機抽取一批數據進行訓練,可以在一定程度上消除樣本之間的相關性。DQL中使用兩個值網絡:一個網絡是當前值網絡,與環境交互,并且不斷更新;另一個網絡是目標值網絡,它既不與環境交互,也不在每個時間步進行更新,而是每隔一定時間步才會更新,每次更新都把當前值網絡參數直接賦值給它。s是算法的觀測,a表示在觀測s下執行的動作,r表示動作a執行后得到的獎罰[18],s′為執行動作a后的觀測值,a′為在觀測值s′下執行的動作,θ表示網絡的權重和偏置,θ-為θ的賦值。
本文所采用的深度Q學習算法是基于與環境不斷實時交互的多代理(代理、狀態、動作、獎勵)算法。對多代理功能定義如下:
代理人:基站n,1≤n≤N。
狀態:sn={Mn,Pn},Mn表示連接到基站n的移動用戶數量,Pn表示基站n的發射功率。
動作:an={n,ΔPn},n表示基站,ΔPn表示基站n的發射功率調整值。
獎勵函數:
(7)
當用戶m與基站n連接時,rn,m表示對基站n的獎勵,Cn,m表示基站n的吞吐量。每個代理經過不斷的迭代學習來更新行為狀態值函數,迭代式如下:
θt+1=θt+α[r+βa′maxQ(s′,a′;θ-)-
Q(s,a;θ)]Q(s,a;θ)
(8)
其中,α∈[0,1]是學習率,β∈(0,1)是折扣因子,Q(s,a;θ)是誤差函數梯度。
深度神經網絡(Deep Neural Network,DNN)是一種深度學習模型,擁有較高的準確度[19]。如圖3所示,本文設計的DNN由輸入層、2層隱藏層、輸出層構成,并將DQN作為動作狀態值函數Q(s,a;q)。

圖3 DNN網絡的基本架構Fig.3 Basic architecture of DNN network
在該深度神經網絡中,輸入層數據為[M1,M2,…,Mi,…MN,P1,1,P1,2,…Pi,j,…,Pn,m],隱藏層是為了優化網絡的非線性,提高網絡的擬合能力,輸出層數據為基站n發射功率的調整值。為防止過擬合,隱藏層隨機丟棄一些節點。深度神經網絡的損失函數如下:
L=r+βa′maxQ(s′,a′;θ-)-Q(s,a;θ)
(9)
對家庭基站的下行鏈路功率控制算法進行仿真與數值分析[20]。仿真參數設置如表1所示,其中的多徑衰落和陰影衰落使用文獻[14]所采用的參數值,分別服從指數分布和對數正態分布。

表1 仿真參數Table 1 Simulation parameters
分別使用貪婪算法、Q學習算法和DQL算法得到辦公區域網絡的總吞吐量C與迭代更新次數之間的關系,如圖4所示。可以看出,Q學習算法和DQL算法的網絡總吞吐量遠大于貪婪算法,并且DQL算法的網絡總吞吐量優于Q學習算法。

圖4 3種算法的網絡吞吐量的比較Fig.4 Comparison of network throughput of three algorithms
圖5對比了Q學習算法和DQL算法的收斂速度。可以看出,隨著更新迭代次數的增加,DQL算法的收斂速度逐漸加快,且始終優于Q學習算法。這是因為對于每次迭代以及用戶的移動,Q學習算法需要重新計算網絡總吞吐量和收斂。雖然DQL算法也存在波動,但相較于Q學習算法是更穩定的。此外,隨著深度神經網絡的不斷強化,深度Q學習算法顯著地提高了網絡總吞吐量。

圖5 Q學習算法和DQL算法的收斂速度對比Fig.5 Comparison of convergence rates between Q learning algorithm and Deep Q learning algorithm
為提高在辦公區域密集部署的家庭基站網絡的無線通信質量,本文提出基于深度Q學習算法的網絡模型,用以對家庭基站的下行鏈路進行功率分配,最大化系統吞吐量。仿真實驗表明,與貪婪算法和Q學習算法相比,DQL算法具有更高的網絡吞吐量和更快的收斂速度,驗證了本文模型的有效性。下一步將在不影響用戶服務質量的前提下,基于深度Q學習算法研究宏基站覆蓋下家庭基站的下行鏈路發射功率問題。