鄭冰原,孫彥贊,吳雅婷,王 濤,方 勇
(1.上海大學上海先進通信與數據科學研究院,上海 200444;2.上海大學特種光纖與光接入網重點實驗室,上海 200444;3.上海大學特種光纖與先進通信國際合作聯合實驗室,上海 200444)
隨著智能終端數量的急劇增加和網絡流量的指數級增長,目前蜂窩網絡對網絡容量和用戶速率的需求面臨著巨大挑戰。超密集異構網絡[1]作為5G移動通信的關鍵技術之一,可有效提高網絡覆蓋率和網絡容量。由于基站的密集部署將會產生嚴重的干擾和能耗問題,從而導致網絡性能下降[2],致使用戶網絡服務質量(Quality of Service,QoS)無法得到有效保障。
超密集網絡中的資源分配策略會影響網絡性能和用戶體驗,針對異構網絡和超密集網絡中的資源分配問題已有廣泛研究。文獻[3-4]利用隨機幾何分析系統能效(Energy Efficient,EE)與基站(Base Stations,BSs)密度之間的關系。文獻[5]提出利用聯合功率控制和用戶調度的策略對網絡能效進行優化。文獻[6]提出了基于分簇的高能效資源管理方案,并闡述了資源分配和功率分配分階段優化方法可實現能效優化。文獻[7]通過聯合考慮功率分配及負載感知來優化網絡能效。文獻[8]考慮了用戶QoS 需求并對網絡能效進行分析。上述研究主要是通過傳統的優化算法對網絡能效進行優化。而在超密集網絡中,基站數量的增加使得上述算法的復雜度將會急劇增大。為降低算法的計算復雜度,基于強化學習的無線資源分配策略受到了廣泛關注。
文獻[9-11]表明,無模型強化學習框架可用來解決無線網絡中的動態資源分配問題。文獻[12]利用強化學習框架對網絡的功率分配進行優化,在提升網絡容量的同時保障了用戶QoS。然而在超密集網絡中,網絡規模龐大且結構復雜,基于Q-學習的資源分配算法存在動作狀態空間的爆炸問題,使得基于Q-學習的資源分配算法收斂緩慢且難以找到最優解。而深度強化學習(Deep Reinforcement Learning,DRL)作為一種新興工具可有效克服上述問題。利用DRL 進行資源分配具有允許網絡實體學習和構建關于通信和網絡環境的知識、提供自主決策以及學習速度快等優點。因此,DRL 適合解決超密集網絡中具有較大狀態和動作空間的復雜資源管理優化分配問題。在目前基于DRL 的無線通信網絡資源管理研究中,多數采用的是深度Q-學習網絡(Deep Q-learning Network,DQN)。DQN 是一種新的DRL算法[13],其通過將RL 與深度神經網絡相結合[14]來解決Q-學習的局限性。文獻[15]在多小區網絡中利用深度強化學習框架對基站功率進行控制,實現了網絡容量的優化。文獻[16]采用DQN 優化小型基站的ON/OFF 策略,以有效提高能源效率。文獻[17]闡述了基于DQN 的頻譜資源分配,以實現網絡能效和頻譜效率的平衡。在超密集網絡中,基于DRL 框架對網絡能效進行優化時多數是通過對單一資源控制而實現的,且很少考慮滿足用戶的QoS 需求。因此,本文研究基于DRL 的資源分配和功率控制聯合優化問題,并考慮用戶的QoS 需求,以實現網絡能效的進一步提升。
本文考慮由一個宏基站和N個毫微基站(Femto Base Station,FBS)組成的超密集異構網絡下行鏈路場景,如圖1 所示。宏基站作為整個網絡的信息中心可收集整個網絡的信息,并決定整個網絡的資源塊分配和功率控制策略。宏基站和各個毫微基站之間共享整個頻率資源。同一時刻,每個用戶設備(User Equipment,UE)只能與一個基站相關聯,而宏用戶之間及各個毫微基站內用戶之間使用正交頻譜資源。宏用戶設備(Macro User Equipment,MUE)與毫微用戶設備(Femto User Equipment,FUE)之間及不同毫微基站下的毫微用戶之間均可使用相同的頻譜資源。

圖1 超密集網絡場景示意圖Fig.1 Schematic diagram of ultra-dense network scenario
在超密集異構網絡中,FBS 的集合可表示為A={1,2,…,N}。在每個時隙t,用戶設備隨機出現,并基于信號強度與相應的基站進行關聯。為方便表示,將字母m 和s 作為下標,分別表示對應的宏基站和毫微基站。網絡的總用戶集合可表示為,其中分別表示宏基站用戶集合和總的毫微基站用戶集合。整個頻譜資源被分為L個資源塊(Resource Block,RB),而總資源塊可表示為B={1,2,…,L}。兩層網絡及毫微基站之間共享所有資源塊,同時每個資源塊只能分配給一個用戶。宏基站和各毫微基站的最大發射功率可分別表示為Ptm和。由于宏基站和毫微基站共享頻譜資源,宏用戶(MUE)會受到毫微基站的干擾,因此在時隙t內,MUEk在資源塊l上的信干噪比(Signal to Interference plus Noise Ratio,SINR)可表示為:

同理,毫微用戶會受到宏基站和毫微基站的干擾。在時隙t內,與毫微基站i關聯的毫微用戶k在資源塊l上的SINR 可表示為:

因此通過香農公式可得到在資源塊l上MUE 和FUE 的速率為:

其中,W表示用戶帶寬。二進制指示變量表示資源塊l是否通過宏基站分配給UEk,如果為1 表示分配,否則不分配。同理,表示資源塊l是否通過毫微基站i分配給UEk。本文分別定義為宏用戶和毫微用戶的RB 分配集合。因此,與宏基站和毫微基站i關聯的用戶速率可分別表示為:

總的系統容量可表示為:

每個基站的功率包括發射功率和電路固定運行功率兩個部分。本文定義毫微基站的發射功率集合為,在下行鏈路傳輸中,總功耗可定義為:

其中,Pm,c和Pf,c表示宏基站和毫微基站的電路固定運行功率。
在時隙t內,能效可表示為[18]:

根據文獻[19],用戶k的流量延遲可定義為傳輸用戶數據所需時間。基站的延遲可定義為服務用戶的流量延遲之和。如果UE 的數據要求為Mbit,則毫微基站i在時隙t內的總流量延遲為:

在時隙t內,總的時間延遲可定義為:

為聯合優化網絡能源效率及用戶服務質量,效用函數可定義為:

同時考慮能源效率和QoS,其中,ε是為了平衡能效和時延的參數。本文的優化目標是在保證用戶QoS 需求的前提下,實現能源效率最大化,則聯合優化問題可表示為:

其中,C1,C2,C6 約束表示一個RB 只能分配給一個用戶,C3,C4 表示基站的發射功率為正值,C5 表示基站總的發射功率約束。該問題是一個非凸的多目標優化問題,且為NP-Hard 問題,利用傳統的求解方法存在算法復雜度較高的問題。
上述UDN 場景下的聯合資源分配問題可表示為馬爾科夫決策過程(Markov Decision Processes,MDP)。采用強化學習技術可有效解決MDP 問題,然而超密集網絡規模龐大且拓撲結構復雜,使得算法的計算復雜度難以控制。DRL 作為強化學習的升級,網絡實體經過不斷交互可學習和構建關于網絡環境的知識,并進行自主決策,同時DNN 的引入可大幅提高學習速度,在具有較大狀態和動作空間的優化問題求解上有顯著優勢。因此,本文提出基于DRL 的聯合資源分配框架以優化網絡能效。本節首先給出了強化學習的基本要素,并分別定義了聯合資源分配和功率控制的狀態、動作空間以及回報函數。其次提出了集中式的DRL 算法以解決上述聯合資源分配和功率控制的優化問題。
在強化學習問題中,智能體(代理)基于策略選擇動作與環境進行交互。強化學習框架中有狀態空間、動作和回報3 個要素。針對本文考慮的超密集異構網絡以宏基站作為智能體,定義了基于強化學習框架的狀態空間、動作和回報。具體描述如下:
1)狀態空間:動作的選擇由智能體決定,因此智能體需要整個網絡信息。為了保證用戶的QoS,同時優化網絡能效,智能體需要獲取網絡中用戶的QoS 需求、時延、占用RB 及各個基站功率等信息。則在時隙t內,智能體的狀態可表示為:

2)動作空間:為聯合優化資源分配和功率控制,智能體需要決定每個用戶的RB 分配情況和毫微基站的發射功率。同時為了減少動作空間的大小,對基站的發射功率進行離散化并分為S個等級。因此,在時隙t內,智能體的動作可表示為:

動作空間隨基站的增加呈指數級增長,動作空間的爆炸將是一個重要且困難的問題。每個動作都影響一個狀態,這意味著狀態空間的數量也很大。
3)回報函數:回報獎勵代表框架的目標。為優化網絡能效并同時保證用戶的QoS,本文將優化問題式(13)作為最終優化目標。因此,回報函數可定義為:

智能體的目標是學習一個選擇策略π,基于當前的狀態st選擇下一個動作at=π(st),并得到即時回報rt,然后得到下一個狀態st+1,持續該過程以得到最大預期累積回報。本文定義累積折扣獎勵Vπ(st,at)為:

其中,λ為折扣因子,η(t|s=st,a=at)為在狀態st執行相應動作at的即時回報。
強化學習的目標是通過在線訓練找到最優選擇策略π*,對于任意的選擇策略π都滿足>Vπ(st,at)。在強化學習中,最典型的算法是Q-學習。Q-學習是解決馬爾科夫過程的經典方法[20]。在Q-學習中,內部維護一個值函數可表示為Q(st,at),其代表在狀態st執行動作at的累積折扣獎勵。智能體通過與環境相交互,利用反饋信息不斷在線訓練更新值函數,最終得到最優策略。根據貝爾曼方程,Q值的更新過程可表示為:

其中,α為學習率。
在超密集異構網絡中,由于基站密集部署且網絡環境更加復雜,使得狀態、動作空間大小隨基站數量呈指數級增加,很難通過查找Q值表的方式找到最優策略。為解決在復雜環境下Q-學習狀態空間較大的問題,將深度神經網絡引入到RL 框架中以形成深度強化學習。DQN 是DRL 中較為經典的方法。通過RL 在線學習和DNN 網絡的線下訓練,可有效解決狀態空間爆炸問題。在DQN 中,通過強化學習技術產生訓練數據,再利用DNN 線下訓練擬合出最佳值函數Q(st,at)。對于主深度神經網絡輸出Q值可表示為Q(st,at|θ),其中,θ為主神經網絡參數。智能體基于神經網絡輸出的Q值選擇相應的動作,最優選擇策略可表示為:

其中,Q*(st,at|θ)是通過DNN 逼近的最佳Q值。為使Q(st,at|θ)更為穩定,需要對目標Q值進行誤差計算。逼近的目標Q值可定義為:


在線學習階段中為了防止目標策略陷入局部最優,本文在該階段引入ε-貪婪策略進行動作的選擇。這將存在1-ξ的概率可根據式(19)選擇動作at和有ξ的概率隨機選擇動作。在初始階段,智能體通過收集網絡環境信息,得到當前網絡的狀態st。根據ε-貪婪策略選擇動作at,該動作決定了網絡中用戶的RB分配及功率分配情況,執行動作即實施具體的資源和功率分配,并得到即時獎勵rt,同時網絡轉變為下一個狀態st+1。接下來將經驗向量(st,at,rt,st+1)存儲到經驗池中,并通過不斷交互產生線下訓練數據。
在線下訓練階段,利用DNN 對在線學習產生的數據進行訓練,并擬合出最佳值函數。當使用非線性函數逼近器時,強化學習算法得到的平均報酬可能不穩定甚至是發散的。這是因為一個小的Q值變化可能會顯著影響政策。因此,數據分布和Q值與目標值之間的相關性是多種多樣的。為解決該問題,本文引入了經驗重放和目標Q網絡這2 種機制。
1)固定目標Q網絡。在訓練過程中Q值會發生偏移。因此,如果使用一組不斷變化的值來更新主深度神經網絡,那么值估計可能會失控,這將導致算法不穩定。為解決該問題,本文使用目標Q網絡頻繁而緩慢地更新主深度神經網絡的值。即在訓練時只訓練主深度神經網絡,經過多次在線訓練后將主深度神經網絡的參數更新到目標Q網絡中。該做法會使得目標與估計Q值間的相關性顯著降低,有效提高算法的穩定性。
2)經驗重放策略。在線下訓練階段中,為使學習更加穩定,本文引入了經驗重放策略。該算法首先初始化回放經驗D,即經驗池。智能體通過與環境交互產生經驗向量(st,at,rt,st+1)并存入經驗池。其次,算法隨機選取樣本,即從經驗池中隨機抽取小批量的樣本到DNN 中進行訓練。經過訓練的DNN獲得的Q值將用于獲得新的經驗,即這種機制允許DNN 通過使用新舊經驗更有效地訓練網絡。此外,通過使用經驗重放可有效轉換獨立和恒等分布,從而消除觀測之間的相關性。當經驗池中有足夠多的數據時,從經驗池中隨機抽取批量數據進行DNN 網絡訓練,并定時更新神經網絡參數θ。
本文所提基于DQN 的聯合資源和功率分配算法流程如算法1 所示。
算法1基于DQN 的聯合資源和功率分配算法

本節對所提算法進行仿真分析,以驗證本文算法在保證用戶QoS 的前提下,在降低網絡干擾和優化UDHN 能源效率方面的有效性。在實驗選擇的場景中,毫微基站和宏用戶都均勻地部署在覆蓋區域。為了簡化分析,本文設置一個毫微基站關聯一個用戶,同時將毫微基站的發射功率進行離散化處理,并分為3 個等級,可取值為p={20,25,30}。深度神經網絡使用包含3 個隱藏層的反饋神經網絡,第1 層包含400 個神經元,第2 層包含800 個神經元,第3 層包含300 個神經元。本文利用瑞利衰落來模擬基站和用戶之間的信道以及路徑損失模型,其他仿真參數如表1 所示。

表1 仿真參數設置Table 1 Simulation parameters setting
為更好地分析本文所提DQN 算法的性能,實驗將DQN 算法與最優能效枚舉算法、基于Q-學習算法及兩階段算法[6]這3 種算法進行對比。圖2 給出了當用戶速率需求M分別為0.1、0.5、1.0 時,本文所提DQN 算法的網絡能效隨基站密度的變化情況。從圖2 可以看出,當用戶速率需求一定時,隨著基站密度的增大,網絡能效逐漸減小。當基站密度一定時,隨著用戶速率需求的增大,網絡需要更高的發射功率滿足用戶需求,網絡能效呈下降趨勢。因此,本文所提DQN 算法可以根據用戶QoS 動態調整網絡狀態,優化網絡能效。

圖2 不同用戶速率需求下網絡的總能效Fig.2 Total energy efficiency of the network under different user rate requirements
網絡的總能效隨基站密度變化如圖3 所示,此時用戶的速率需求為0.5M。從圖中可知,隨著網絡中毫微基站的密度增大,所有算法的網絡整體能效都呈下降趨勢。這是由于隨著毫微基站數量的增加,網絡干擾和能耗更加嚴重,導致網絡性能下降。與典型的Q-學習算法及兩階段算法相比,所提DQN算法具有更好的能效,與最優的能效遍歷算法比較接近。這是由于在兩階段算法中,將RB 分配和功率控制分為兩步分別優化,然而RB 分配階段雖然避免了一部分網絡干擾,但進行功率控制時,RB 分配策略已經確定,制約著整體性能的提升。隨著基站密度的增大,對網絡性能影響越大。在DQN 中,智能體不斷與環境交互,將RB 的分配策略以及相應的功率分配策略同時作為網絡動作優化網絡性能,綜合考慮了RB 分配和功率分配的相互影響。智能體通過不斷嘗試與探索,逐步找到最佳的選擇策略。同時,智能體經過DNN 的訓練后可根據網絡環境變化自適應調整網絡的資源分配策略。因此,相較于Q-學習和兩階段算法,本文算法具有更好的網絡性能。由于DQN 算法中加入用戶QoS 約束,且隨著基站密度的增加網絡中干擾加劇,并且需要更高的發射功率以保證用戶速率,因此隨著基站密度減小,本文所提DQN 算法與枚舉算法的差距逐漸減小。

圖3 4 種算法在不同基站密度下的總能效Fig.3 Total energy efficiency of four algorithms under different base station densities
當用戶速率需求為0.5M 時,網絡中用戶總時延隨基站密度變化如圖4 所示。從圖4 可以看出,本文所提DQN 算法相比其他算法具有更好的總用戶時延性能。隨著基站密度的增加,網絡中用戶基數增大,網絡干擾加劇,且總的用戶時延逐漸增大。由于枚舉算法以最優能效為優化目標,基站密度增加會導致個別用戶速率下降,導致整個網絡總時延增大,因此枚舉算法的時延會更大。而本文所提DQN 算法將用戶總時延作為回報函數的一部分,通過將RB分配和功率分配策略作為執行動作對RB 和功率進行聯合優化,可有效降低網絡干擾,保證用戶速率。結合圖3 和圖4 可知,DQN 算法在提升網絡能效的同時,可有效保證用戶的QoS。

圖4 4 種算法在不同基站密度下的用戶總時延Fig.4 Total user delay of four algorithms under different base station density
本文所提DQN 和Q-學習算法的迭代收斂曲線如圖5 所示。從圖5 可以看出,算法在經過近100 次迭代后逐漸收斂,且在前50 次迭代中,DQN 算法的表現比Q-學習算法差。這是因為在前50 次迭代中,Q-學習算法可從開始的反饋中學習,而DQN 算法只是隨機選擇動作并將反饋信息存儲在回放經驗池中。而在100 次迭代后,DQN 和Q-學習算法都趨于穩定,且DQN 算法的性能比Q-學習算法好。與典型的Q-學習算法相比,本文所提DQN 算法不僅收斂更快,而且具有更好的性能指標。

圖5 2 種算法的迭代收斂曲線Fig.5 Iterative convergence curves of two algorithms
為降低超密集異構網絡的同層和跨層干擾,并提高網絡的能效,本文聯合考慮用戶QoS,提出聯合RB 分配和功率控制的優化問題。針對傳統算法復雜度較高的問題,引入DQN 框架并定義了優化網絡能效和確保用戶QoS 的獎勵函數。仿真結果表明,與典型Q-學習算法、兩階段算法及枚舉算法相比,本文所提DQN 算法可有效保證用戶的QoS,且性能更優。下一步將研究基于多智能體的分布式資源管理問題,利用多智能協作減小網絡干擾,進一步提升網絡能效。