鄧丹昊,王朝煒,江帆,王衛東
(1.北京郵電大學電子工程學院,北京 100876;2.西安郵電大學通信與信息工程學院,陜西 西安 710121)
大規模多輸入多輸出(multiple-input multiple-output,MIMO)是 6G 的核心技術之一,具有大量天線的基站為占用相同時頻資源的多個用戶提供服務,進一步提高了頻譜效率、能量效率以及可靠性[1-3]。根據天線陣列的部署情況,可以將大規模 MIMO系統定義為集中式或分布式。在分布式大規模 MIMO系統中,天線陣列被多個不同位置的接入點(access point,AP)所取代,這些接入點自由分布在整個通信區域內。因此,分布式系統可以利用空間多樣性對抗陰影衰落,與集中式系統相比具有更高的覆蓋率。最近,文獻[4]提出了一種新的分布式系統:無蜂窩大規模MIMO。該系統沒有小區和小區邊緣的概念,而是由一組分布式AP通過時分雙工模式,協同地服務于覆蓋范圍內的所有活動用戶。AP接收和傳輸的信號由中央處理器(central processing unit,CPU)采集、轉發與處理。無蜂窩系統可以緩解小區間干擾對傳統架構中用戶的影響[5],從而提高系統性能。但是無蜂窩大規模MIMO也帶來了嚴重的多用戶干擾[6-7]、不完美全局信道狀態信息[8]、復雜的資源分配[8]等挑戰。例如,針對地面高速移動的用戶,無蜂窩大規模 MIMO需要頻繁地分配導頻資源檢測當前的信道狀態信息,因此會造成大量的資源消耗以及信息時延。
不需要部署固定基礎設施就可以為地面用戶提供通信服務,無人機輔助通信技術被認為是一種很有發展前景的技術[9-11],從而廣泛應用于覆蓋增強、無線中繼和信息傳播等方面[12-15]。盡管學術界對此高度重視,但無人機輔助通信仍有許多問題亟待解決,如無人機在高動態環境下的軌跡部署等。針對用戶高速移動場景,基于用戶軌跡預測,提前設計無人機軌跡,可以減少無人機的響應時間,從而為用戶提供更高質量的服務[16]。文獻[16]采用回聲狀態網絡(echo state network,ESN)預測用戶位置,提出了一種多智能體Q-learning算法設計無人機軌跡。文獻[17]提出了一種基于異步并行計算的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法對無人機軌跡進行優化。文獻[18]構建了短期精確預測與長期粗預測相結合的框架,并采用滾動優化方法獲取無人機航跡。
本文針對無蜂窩大規模MIMO網絡,首先區分網絡中的低速和高速用戶,分別構建無蜂窩通信架構和無人機輔助通信架構,兩種架構以時分復用的方式交替進行通信服務。在無人機輔助通信架構中,本文將無人機軌跡設計建模為序列決策問題,并進一步轉化為馬爾可夫決策過程(Markov decision process,MDP),基于深度強化學習(deep reinforcement learning,DRL)算法,提出一種無人機軌跡預測及資源管理方案。
本文討論的無人機輔助無蜂窩大規模 MIMO網絡如圖1所示,系統包含M個AP、K個用戶、N架無人機,以及一個CPU。每個AP配置L根天線,而用戶和無人機則配置單根天線。CPU通過不斷發送導頻信號檢測用戶的信道狀態信息,據此進行各類資源分配。由于地面用戶的高速移動會改變用戶與AP間的路徑損失,從而影響信道狀態信息,CPU需要頻繁地為高速用戶分配導頻資源。因此,K個用戶根據移動速率劃分為Kl個低速用戶和Kh個高速用戶,其中K=Kl+Kh。本文提出一種雙系統架構,其中由M個AP和CPU組成的無蜂窩系統服務Kl個低速用戶,由N架無人機組成的無人機輔助通信系統則服務Kh個高速用戶。兩系統通過時分復用模式交替進行通信服務,同時 AP與無人機占用不同的頻段避免系統間干擾。

圖1 無人機輔助無蜂窩大規模MIMO網絡
首先,CPU計算針對Kl個低速用戶的波束成形信號,并通過量化前傳鏈路進行信號壓縮。之后,CPU將壓縮后的信號轉發到每個AP。AP端的接收信號可以表示為:

其中,wm,kl(t) ∈ CL×1表示用戶kl與APm間的波束成形矩陣,skl(t)表示用戶kl的下行期望信號,該信號滿足為APm受到的壓縮噪聲。各個 AP將所接收的信號通過無線鏈路轉發給所有的低速用戶,因此,用戶kl的接收信號可以表示為:

其中,hm,kl(t)表示用戶kl與 APm間的信道狀態信息矩陣,nkl表示用戶kl受到的加性白高斯噪聲(additive white Gaussian noise,AWGN)。用戶kl的可達速率為:

所有低速用戶的總和速率可以表示為:

假設每個無人機通過時分復用服務不同的用戶,同時所有無人機共享相同的頻段。為簡單起見,無人機飛行時長T被劃分為I個時長相等的時隙點。在實際應用中,空對地信道主要以視距(line of sight,LoS)鏈路為主。因此,無人機n與高速用戶kh之間的信道增益遵循自由空間路徑損失模型,可以表示為:

其中,β0表示表示參考距離d=1 m時的信道功率增益,qn[i]表示無人機n在時隙i的笛卡爾坐標,ukh[i]則表示用戶kh在時隙i的笛卡爾坐標。當無人機n服務用戶kh時,該用戶的信干噪比(signal to interference plus noise ratio,SINR)為:

其中,pn[i]為無人機n在時隙i的發送功率,為高速用戶kh受到的AWGN功率。因此,用戶kh在時隙i的可達速率為:


為了有效地提升系統內 AP和無人機的協作性能,本文的目標是構建一個基于無人機軌跡設計和用戶調度的總和速率最大化問題,該問題的數學表達式為:

無人機軌跡設計問題屬于序列決策問題,該類問題通常需要聯合求解數千個優化變量,且變量間存在極強的相關性[19]。因此,本文將問題(10)建模為MDP并利用DRL算法進行求解。
MDP由4個部分組成,分別為狀態s、動作a、獎勵r和動作選擇策略π。具體來說,智能體從系統中獲得當前的狀態s,并根據動作選擇策略π決定當前動作a。在智能體執行動作a后,系統會轉變為下一狀態s′,并通過反饋獎勵r體現該狀態-動作對的可行性和最優性。本文將地面CPU作為智能體來確定無人機的軌跡和用戶調度。式(10)中的狀態、動作和獎勵分別如下。
? 狀態:系統狀態包含所有影響高速用戶軌跡預測和優化問題式(10)的變量。用戶軌跡預測與用戶當前位置、速度和加速度有關,分別表示為、和,其中,速度和加速度可以由過去3個時隙的位置推導。此外,優化問題式(10)還與無人機的當前位置qn[i]以及當前的時隙i相關。
? 動作:無人機軌跡設計和用戶調度方案的動作包括兩個部分。假設無人機在每個時隙內以固定的速度飛行,其下一時刻位置僅取決于當前的飛行方向dkl(i);同時,用戶調度可以用αn,kh[i]表示。
? 獎勵:獎勵函數的目標是在滿足約束(8)和約束(9)的前提下,最大化系統總和速率。因此,獎勵函數被定義為:

其中,ξr(i)和ξc(i)為0-1指示器,一方面,本文設置負獎勵懲罰違反式(8)、式(9)的任何動作,并利用ξc(i)=1輔助判別;另一方面,當且僅當所有無人機到達目的地時,即ξr(i)=1時,當前動作被賦予正向獎勵。值得注意的是,無人機的軌跡設計需要在下一時刻得到反饋,因此狀態-動作對與獎勵值存在時間上的不對應性。同時,由于用戶處于高速移動狀態,當前時刻的用戶位置與下一時刻存在較大差異,需要根據下一時刻的用戶位置與無人機位置進行計算。
DRL的核心目標是通過不斷與環境交互,學習到最優的動作選擇策略π*。深度Q網絡(deepQ-network,DQN)算法采用Q函數Qπ(s,a)表示在狀態s處采取動作a的潛在價值:

其中,γ∈ ( 0,1]為折扣因子,R(s,a)是在狀態s處采取動作a的即時獎勵,s′和a′分別為下一時刻的狀態和動作。理論上,最優的動作a*應該具有最大的潛在價值。因此,可以根據Q函數尋找當前的最優動作:

DQN通常采用兩個深度神經網絡(deep neural network,DNN)搭建Q函數。其中,第一個DNN承擔Q函數的作用,被稱為主網絡,網絡輸入為當前的狀態s,輸出為所有動作的Q值Q(s,a;θ)。第二個DNN用于更新主網絡權重θ,被稱為目標網絡,且目標網絡的架構與主網絡相同。DQN采用經驗回放機制更新權重。具體來說,智能體將所經歷的樣本(s,a,r,s′)存儲到經驗池中,當存儲樣本達到最小容量時,智能體隨機采樣小批量的樣本計算目標Q值:

其中,(sj,aj,rj,sj+1)為第j個采樣樣本,θ′表示目標網絡的權重,Q′(s,a;θ′)為目標網絡的輸出Q值。本文利用隨機梯度下降(stochastic gradient descent,SGD)法更新主網絡的權重θ。更新的目標是使主網絡輸出Q值與目標Q值之間的時序差分誤差(temporal-difference error,TD error)最小,因此損失函數被定義為:

其中,B為采樣的樣本總數。損失函數式(15)相對于權重θ的梯度為:

對于目標網絡,其權重更新不需要獨立的損失函數與梯度,而是每Nt步更新為主網絡的權重θ→θ′。
為了同步實現高速用戶的軌跡預測和資源優化,本文在DQN的輸入層和全連接層之間插入了一個長短期記憶(long short-term memory,LSTM)層,將DQN發展為深度循環Q網絡(deep recurrentQ-network,DRQN)。其中,LSTM 層負責用戶軌跡預測,而全連接層根據輸入狀態和預測結果決定當前最優動作。
具體的算法流程如下。
步驟1初始化主網絡、目標網絡、記憶池、高速用戶位置和移動方式、低速用戶位置和移動方式。
步驟2初始化無人機的起始位置并生成初始狀態s(0)。
步驟3根據ε-greedy策略選擇當前動作a(i)。
步驟4執行動作a(i),獲得當前獎勵r(i)和下一狀態s(i+1)。
步驟5計算目標Q值,更新主網絡和目標網絡。
步驟6重復步驟3~步驟5,直到無人機抵達目的地。
步驟7重復步驟2~步驟6,直到訓練步數滿足要求。
在仿真中,系統為1 km×1 km的正方形區域,包含100個AP、80個低速用戶、5~10個高速用戶、2架無人機和一個CPU。無人機的飛行高度為100 m,最大飛行速度為20 m/s,最大發送功率為30 dBm。高速用戶的最大移動速度為10 m/s。AP的最大發送功率為30 dBm。無蜂窩大規模MIMO系統進行通信服務時,AP為其覆蓋范圍內的所有用戶平均分配、發送功率。AP與低速用戶之間的信道狀態信息綜合考慮路徑損失、陰影衰落等因素,具體的參數參考文獻[20]。無人機輔助通信系統與無蜂窩大規模 MIMO的通信時間占比為1:1。DRQN算法采用4層網絡結構,學習率為0.000 5,折扣因子設定為0.9,經過600個周期的訓練獲得最終的動作選擇策略。
本文所提基于DRQN的無人機軌跡設計和用戶調度方案的收斂性能如圖2所示。具體而言,DQRN的收斂性由損失函數和系統性能兩方面決定。損失函數可以表示DRQN內部神經網絡的訓練程度。理論上,損失函數會隨著訓練的不斷進行而下降,最終趨于平穩;然而僅利用損失函數表征方案的收斂性是不充分的,這是因為神經網絡的收斂并不能保證所提方案收斂到最優策略,依舊存在方案收斂到局部最優的可能性。系統性能則表示DRQN方案是否有穩定的輸出結果。隨著訓練的進行,系統性能會不斷上升直至穩定。同樣,由于無法確定是否有更優性能,方案的收斂性不能僅利用系統性能曲線表征,因此,本文同時考慮損失函數和系統性能,利用兩者的訓練曲線說明方案的收斂性。可以看出,兩條曲線在經歷400個周期訓練后基本穩定,可以認為方案已經收斂。

圖2 基于DRQN的無人機軌跡設計和用戶調度方案的收斂性能
不同的高速移動用戶數量下,不同方案的復雜度對比如圖3所示。本文采用平均運行時間表征方案復雜度。仿真結果顯示,所提出的 DRQN方案與其他方案相比,復雜度顯著降低。這是因為DRQN中的神經網絡能夠有效地處理狀態-動作空間。對于Q-learning方案和貪婪方案,隨著用戶數的提升,兩種方案需要面對的狀態、動作數均呈指數增長。相應地,兩種方案需要更多的時間遍歷所有可能的動作,因此方案復雜度以較快的速度上升。為了得到與DRQN方案相似的性能,DQN方案的算法主體采用4層網絡,且網絡各層均為全連接層;然而,全連接層數的增加以及神經元數的增長不僅會帶來性能的提升,也會使得方案的復雜度升高。

圖3 不同的高速移動用戶數量下,不同方案的復雜度對比
不同高速用戶數下的系統總和頻譜利用率對比如圖4所示,所提DRQN方案的性能略高于貪婪方案,且明顯優于其他3種方案。隨著用戶數的增長,DRQN方案的優勢也隨之增加。對于高速移動用戶,計算系統總和速率R所需要的用戶位置信息并不在系統狀態中,而是需要根據系統狀態進行預測。DRQN中的LSTM層能夠準確預測當前狀態s和下一狀態s′對應的用戶位置,并將完整信息傳遞給相鄰的全連接層,從而促使方案獲得更佳的動作選擇策略。循環神經網絡(recurrent neural network,RNN)+DRL方案雖然能夠有效預測當前狀態s對應的用戶位置,但是序列決策問題不僅需要當前的完整狀態,還需要下一時刻的完整狀態;也就是說,僅提供當前時刻的預測信息不足以支撐后續的DRL網絡進行準確預測,因此,該對比方案的性能相較所提方案有所降低。此外,DQN算法僅由全連接層構成,無法預測高速用戶的移動軌跡,只能根據當前時刻的用戶位置信息進行動作選擇,因此會造成一定的性能降低。與圖3中的原因相同,Q-learning方案無法處理巨大的狀態-動作空間,有限的學習經驗使得其性能顯著降低。

圖4 不同高速用戶數下的系統總和頻譜利用率對比
不同高速用戶軌跡數下的系統總和頻譜利用率如圖5所示。假設高速用戶沿著固定的軌跡移動,但每隔一段時間會更換移動軌跡。與圖4相似,所提DRQN方案性能略優于貪婪方案。同時,隨著可選軌跡的增多,高速用戶的軌跡預測難度也不斷提升,使得RNN+DRL方案、DQN方案和Q-learning方案逐步失去自身的算法優勢。
本文針對無人機輔助無蜂窩大規模MIMO網絡,提出了一種雙系統架構,將用戶劃分為低速用戶和高速用戶,無蜂窩大規模MIMO系統服務低速用戶,無人機輔助通信系統服務高速用戶,針對系統總和速率最大化目標,構建了基于高速用戶軌跡預測的無人機軌跡設計和用戶調度問題。本文進一步將問題轉化為MDP,并提出一種DRQN方案解決序列決策優化問題,其中的 LSTM 層預測高速用戶移動軌跡,全連接層學習最優動作選擇策略。仿真結果表明,所提DRQN方案相較于傳統的RNN+DRL方案、DQN方案、Q-learning方案和貪婪方案,具有顯著的性能提升。在今后的工作中,筆者將研究無人機在三維坐標下的飛行模式,通過精準的軌跡設計提升系統的通信能力。