危 維,付 澍,屈毓錛
(1.重慶大學 微電子與通信工程學院,重慶 400044;2.南京航空航天大學 電子信息工程學院,江蘇 南京 211106)
在21世紀初,美軍在公布的無人系統路線圖中指出無人機在未來對于全球信息的重要性,以及無人機自組網將會是未來無人作戰的發展方向,無人機自組網的概念就此提出[1]。隨著第五代移動網絡(5G)于2020年開始投入商用,第六代移動網絡(6G)逐漸成為全球各國著力部署的方向,并被寄望于實現萬物互聯無時無刻、無處不在的效果[2]。然而,目前由于傳統地面基站的鋪設難度及成本問題,很難實現諸如山地、湖泊、沙漠等偏遠地域的網絡全覆蓋。此外,面對移動通信數據量的不斷劇增,傳統地面基站難以支持突發的熱點流量需求,例如大型國際活動、災害場景下的應急通信等。傳統的地面基站已很難滿足6G無線通信網絡全覆蓋的要求,非陸地網絡成為構建空天地海一體化、全覆蓋網絡的有效補充。而無人機[3](Unmanned Aerial Vehicle,UAV)以其固有的靈活性、機動性、資源可搭載性[4]等特點,被認為是未來無線網絡中不可或缺的組成部分。
近年來,無人機技術步入了快速發展階段,在物流、農林植保、巡檢救援等領域均已發揮重要作用。由于無人機自身體積較小,造價相對便宜,對使用環境要求較低,可廣泛應用于各領域。而隨著無人機應用場景的不斷擴大,對無人機的智能化要求也隨之不斷提高。
受到無人機懸停高度、其與地面用戶的最小仰角和無人機自身能耗限制等因素的影響,單個無人機的服務覆蓋范圍、飛行距離及其可搭載的資源均受到限制,難以同時滿足大量用戶的異構需求。為解決此問題,無人機集群的概念被引入。無人機群由眾多小型無人機組成,有望提供高度協作和智能化的作業,無人機集群將無人機在無線通信領域的應用進一步推進[5]。但當無人機集群執行大規模任務時,不同的環境及任務對無人機的性能及要求也不相同,任務的規劃分配存在挑戰[6],應用場景及需求的不斷擴大也對無人機的智能化提出了更高的要求。
大數據時代,許多復雜優化問題已無法通過傳統的優化方法在短時間內求得最優解或近優解[7],而隨著計算機算法、算力日益強大,人工智能(Artificial Intelligence,AI)已成為高效解決眾多優化問題的主流,并在如圖像處理、自然語言識別和電子游戲等領域廣泛應用[8-11]。人工智能與機器學習技術將與6G無線通信網絡高效融合以實現更好地網絡管理與自動化。通過機器學習(Machine Learning,ML)技術,人工智能可以在無人機集群協同的應用中提供實用且有競爭力的性能來馴服其網絡規劃和優化的復雜性,從而實現無人機集群智能自組網并基于此完成無人機群的協同應用,助力“網聯天空”的實現。其中,強化學習(Reinforcement Learning,RL)在訓練過程中無需大量已存在標簽的數據,而是在與環境不斷的交互中獲取數據并從以往的經驗中學習進而做出最佳的決策。在實際應用場景中,機器所面臨的環境往往是復雜且未知的,強化學習在與環境的交互中學習,這一特性能使機器良好地學習并適應陌生環境,在面臨不同環境時均能做出使系統增益最大的最優策略。此外,在機器學習的算法中,深度學習(Deep Learning,DL)可利用深度神經網絡的結構完成對數據的訓練和預測,具有強感知能力。將強化學習與深度學習結合便形成了深度強化學習(Deep Reinforcement Learning,DRL)。DRL同時具備強化學習的決策能力與深度學習的感知能力,在解決高維度的復雜問題上擁有巨大潛力[12]。
無人機集群協同工作結合智能算法將成為6G實現萬物互聯目標的重要技術。為了提高無人機集群協同的能量效率,本文將考慮無人機集群為突發熱點流量需求的用戶提供服務的場景,按照服務過程對無人機集群用戶調度及路徑規劃、多無人機三維懸停位置部署和無人機網絡智能管控架構三方面的高能效無人機集群協同應用的模型和原理進行介紹。
隨著經濟快速發展,我國國際地位不斷提升,國民生活及娛樂方式也越發豐富,如舉辦冬奧會等國際大型賽事、假期出行旅游人次大幅增加等情況,在局部地區產生了突發的大量熱點流量需求,給傳統地面基站帶來巨大的負荷壓力,用戶的網絡體驗難以得到保障。在此情況下,無人機可憑借其靈活移動性及資源的可搭載性,搭載微型基站作為空中基站部署[13],有效補充現有地面蜂窩系統,響應突發熱點流量的需求。
如圖1所示,無人機群在接收到為某一突發熱點流量需求的區域用戶提供網絡服務的任務后,系統將先對每一架無人機進行用戶分配調度與路徑規劃,接著各無人機根據規劃的路徑飛到各自的目標用戶簇上空。當無人機為目標區域提供下行數據服務時,無人機基站的三維懸停位置將直接影響到其服務覆蓋范圍及用戶信道質量,因此需在考慮相鄰用戶簇間干擾的情況下,以最大化系統吞吐量為目標聯合優化各無人機的最佳三維懸停位置。當無人機飛到目標區域并懸停在最佳三維懸停點后,將為其對應的目標用戶提供下行數據服務。由于各無人機可搭載的資源有限,可能出現無人機未搭載部分目標用戶需求的網絡數據的情況,為解決此問題,無人機間可通過無人機通信鏈路進行數據共享傳輸,從而在該區域用戶上空形成無人機通信網絡。

圖1 無人機集群為突發熱點流量需求用戶提供服務示意圖Fig.1 Schematic diagram of UAV cluster providing services for users with sudden hot traffic demands
在實際情況中,突發熱點流量需求的用戶數量較多且需求呈現異構性,由于系統成本原因,有限數量的無人機可能無法同時覆蓋所有用戶的突發需求,因此需要對無人機服務的用戶或區域進行選擇和劃分。
在Fu等人[14]提出的無人機自組網架構中,考慮無人機組網被重新安排多次,在每一次安排中,基于無人機的無線網絡只能為系統中的部分用戶提供服務。在此情況下,首先基于用戶的業務優先級對用戶進行選擇,使無人機群在能量限制下優先服務業務優先級高的用戶,提高系統能量效率。

用戶調度完成后,無人機群需要飛到相應的用戶簇上空。無人機的飛行路徑將直接影響其能耗,若飛行路徑過長將會導致無人機消耗大量能量用于飛行而非服務用戶,甚至出現能量無法支撐其到達用戶簇或返航的情況。因此,需要對無人機群的飛行路徑進行合理有效的優化和規劃,以提高系統能量效率。
路徑規劃算法大致分為精確算法、啟發式算法以及智能優化算法三類[17]。相對于智能優化算法,精確方法及啟發式算法屬于傳統路徑規劃算法,常見的傳統路徑規劃算法主要有人工勢場法[18]、A*算法[19]等。傳統方法在解決路徑規劃問題時存在很多局限,精確算法可以通過不斷搜索最終得到問題的最優解,但效率低且受限于問題的規模,當目標函數和約束條件較為復雜時,精確方法很難給出有效解。啟發式算法相較于精確算法在面臨復雜、規模較大問題時可更高效率地搜索到結果,但易陷入局部最優。鑒于此,越來越多的研究利用智能優化算法求解無人機集群路徑規劃,其中應用最廣泛的三種方法分別是蟻群算法、粒子群算法、遺傳算法[20]。
蟻群算法(Ant Clony Optimization,ACO)是一種仿生算法[21],根據長時間內蟻群在較短路徑上積累的信息素濃度較高的原理來尋找最短路徑。蟻群算法最早被用于解決旅行商問題(Traveling Salesman Problem,TSP)并取得了較好效果,但其性能受信息素的更新模型影響,缺乏有效的更新模型,易使種群喪失多樣性而陷入局部最優。
粒子群優化(Particle Swarm Optimization,PSO)算法[22]源于對鳥群捕食行為的研究,其核心思想是利用群體中的個體對信息的共享使整個群體的運動在問題求解空間中產生從無序到有序的演化過程,從而獲得問題的可行解。PSO無需復雜的參數調節,前期收斂速度快,但后期收斂速度慢,精度不高。
遺傳算法(Genetic Algorithm,GA)源于達爾文的進化論[23],模擬了物競天擇、適者生存的自然選擇規律,通過物種遺傳、交叉、變異進化出問題的最優解。算法的優勢在于不受問題領域限制,應用廣泛,但存在易早熟、陷入局部最優解的問題。
在前文提及的用戶調度及無人路徑規劃中,其思想是先根據用戶業務優先級對無人機群服務的用戶簇進行確定和選擇,然后再對無人機飛向目標用戶簇的路徑最小化問題進行求解。
若不將用戶選擇與路徑規劃分離,而是對用戶簇選擇及無人機飛行路徑進行共同優化,即在無人機能量限制下輸出選擇服務的用戶及無人機飛行路徑,使系統收益最大而無人機飛行距離最短,一個用戶帶來的收益即該用戶被無人機服務的優先級,例如數據量等。因此,無人機為用戶提供服務的路徑優化問題實際上是背包問題(Knapsack Problem,KP)和旅行商問題的組合,定義為一個定向問題[24](Orienteering Problem,OP)。定向問題即頂點選擇和確定選定頂點之間最短哈密頓路徑的組合問題,已被Gloden證明了是一類經典的NP-hard問題[25]。
基于RNN的指針網絡(Pointer Network,PN)由Sequence-to-Sequence 模型和Attention 模型結合改進得到,適宜于變長序列收集,被廣泛應用于解決組合優化問題,此處可有效地遷移到解決無人機為用戶服務的路徑規劃問題中來[26]。
圖2展示了基于指針網絡的無人機路徑規劃,主要由指針網絡和無人機飛行服務場景兩部分組成,無人機根據指針網絡的輸出確定要服務的用戶簇節點及服務順序。

圖2 基于指針網絡的無人機路徑規劃示意圖Fig.2 Schematic diagram of UAV path planning based on pointer network
如圖2所示,指針網絡主要包括一個編碼器和一個解碼器,分別由多層具有學習了不同時間間隙數據間聯系特征的長短期記憶網絡(Long Short-Term Memory,LSTM)組成。假設Einputs=Ij(j=1,2,…,n)為編碼器不同時序的輸入序列,(e1,e2,…,en)和(d1,d2,…,dm)分別為編碼器和解碼器不同時序的隱藏層狀態。將輸入序列Einputs經過n+1步輸入到編碼器中,得到每一步輸入對應的編碼器部分的網絡隱藏層狀態ej,當輸入序列輸入完畢后,將得到的隱藏層狀態集合Encoder=(e1,e2,…,en)編碼得到中間相量后輸入解碼器,得到解碼器部分的隱藏層狀態Decoder=(d1,d2,…,dn)。對于解碼過程,每一步解碼根據ei及dj計算輸入序列對當前輸出的影響,將計算結果經過softmax歸一化處理后得到注意力矩陣并選擇矩陣中數值最大的指針作為輸出,該指針的具體值即為輸入序列中某元素的索引值。將指針網絡應用到對無人機飛行軌跡的規劃中,為了實現高能效的系統目標,將用戶簇中心坐標集合與其為系統帶來的收益值集合作為輸入序列進入編碼器,而在解碼時依次將注意力矩陣中數值最大的指針作為輸出,指針的具體值即為用戶簇節點的索引值。根據輸出的索引值及其輸出的先后順序可確定無人機要服務的用戶節點及服務順序,即無人機的飛行軌跡。基于以上描述,針對本文場景,指針網絡模型具體的輸入輸出為:
輸入:Dcoords={(x0,y0),(x1,y1),…,(xn,yn)}表示無人機起始位置坐標Dbp=(x0,y0)和待服務地面用戶簇的中心位置坐標Dcoords={(x1,y1),(x2,y2),…,(xn,yn)}的集合。令無人機在起始點處的收益為R0=0,收益集合為Rreward={R0,R1,…,Rn},具體的收益可根據系統目標進行合理設計。位置坐標集合Dcoords和收益集合Rreward將共同組成指針網絡的輸入Einputs={(x0,y0,R0),(x1,y1,R1),…,(xn,yn,Rn)}。
輸出:指針網絡的輸出為Doutputs={D0,D1,…,Dm},即無人機對地面用戶簇服務的順序,其中,Dm為對應輸入Einputs中的元素索引值,m為無人機為其提供服務的地面用戶簇數量。
如前文所述,在無人機飛出之前,需對無人機群要服務的用戶進行調度。當無人機群飛到為其調度的用戶簇上空時,無人機群的三維懸停位置[27-28]將直接影響其覆蓋范圍內所有用戶的信道質量乃至系統吞吐量,從而影響到系統的能量效率,因此無人機群的三維懸停位置需要進行精心設計與優化。
對于單個用戶,當環境參數確定時,基于概率LoS/NLoS混合模型的空對地信道增益可以通過滿足無人機和用戶間的最佳仰角達到最大。然而,當多架無人機為多個用戶簇服務時,無法同時滿足無人機與每個用戶間都形成最佳仰角,且存在相鄰用戶簇間的無線干擾,多無人機的三維懸停位置優化問題將變得復雜。在面對有大量參數的復雜優化問題時,人工智能算法具有很大優勢,可將其構建為多智能體深度強化學習[29]問題進行求解。但在多智能體強化學習中,每一個智能體的決策會對其他智能體帶來環境的改變,即訓練時環境不平穩。多智能體學習主要包含三種方式:
① 集中式學習:系統被視為一個整體并利用單智能體算法來學習,解決了環境的非平穩問題。集中式學習要求智能體之間能夠保持通信,使系統具備全局視角,對于無通信、大規模動作空間的問題不適用。
② 分散式學習:各智能體獨立地訓練各自的策略后獨立地執行,沒有考慮智能體間的交互與影響。分散式學習忽略了環境的不穩定性,只適用于少數簡單的環境。
③ 集中式學習,分散式執行:是集中式學習與分散式學習的結合。智能體之間存在交互和通信,在訓練時具備全局視角、共享信息,高效地學習全局策略,但訓練完畢后各智能體獨立分散地執行決策。
本節將主要介紹利用集中式學習中的近端策略優化(Proximal Policy Optimization,PPO)算法和集中式學習、分散式執行中的多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法來解決多無人機三維懸停位置的優化問題。

采用概率視距路徑損耗模型來對空對地信道進行建模并表示出無人機基站k和地面用戶u之間的信道增益后,可以得到考慮了干擾的無人機基站k和地面用戶u的數據率Rk,u,進而,最大化系統吞吐量的多無人機基站三維部署問題,可轉變為對所有ρk,uRk,u求和并求最大值的優化問題。
PPO算法是對梯度策略(Policy Gradient,PG)算法的改進[31]。在PG算法中,若更新步長過大,則會導致學習到的策略不斷波動難以收斂,若更新步長過小,會消耗大量的時間成本,PPO的提出即是為了解決PG算法中更新步長難以確定的問題。在PPO的Actor-Critic網絡中,Critic網絡估計狀態值函數且其優化目標仍然是最小化均方誤差損失函數。而PPO中的Actor網絡與標準的策略梯度算法不同,PPO基于重要性采樣(Importance Sampling)的思想,在每次更新策略時利用舊策略πθold采集的軌跡數據以及相應的優勢函數,對策略πθold進行優化,但為了避免新策略與舊策略相差太大,PPO對代理目標(Surrogate Objective Function)加上了約束,得到了截斷代理目標。截斷代理目標引入了用來控制信任域大小的超參數ε,保障新策略不會偏離舊策略太多,超參數ε越大,智能體策略更新的信任域越大,更加偏向于探索;反之,策略更新的信任域越小,智能體學習越謹慎,PPO原理如圖3所示。

圖3 基于PPO的多無人機基站三維懸停位置部署Fig.3 3D Hovering position deployment of multi-UAV base stations based on PPO
使用PPO算法對多無人機三維懸停位置部署問題求解,設計馬爾可夫決策過程[32]的狀態空間、動作空間、獎勵函數如下:

② 動作空間:動作空間包含各無人機基站在下一個時間步的三維位置q′k,?k∈K。則動作空間表示為A={q′1,q′2,…,q′K},且與狀態空間維度相同,為(3×K)個維度。
③ 獎勵函數:為了使系統吞吐量最大化且防止無人機基站間的碰撞,獎勵函數包含t時刻吞吐量Ct及無人機基站間距離的懲罰項ξt。如果存在任意兩無人機基站的距離小于一定數值將會受到懲罰,相距越近,懲罰值越大,則時間步t的獎勵函數rt可表示為如下形式:rt=αCt-βξt,α、β為用來調整獎勵中各項到合適數量級的正數。
基于對馬爾可夫決策過程的建模,智能體可以執行動作獲取獎勵值并完成狀態轉移。PPO算法中智能體每收集一定時間步的狀態轉移軌跡,則對Actor和Critic網絡的參數進行一輪更新。當訓練完成后,即可得到最大化系統吞吐量的多無人機基站三維部署,提高系統能量效率。
MADDPG屬于集中式學習、分散式執行的多智能體強化學習方法,可被用來有效地優化多無人機三維懸停位置[33]。MADDPG是一種基于Actor-Critic框架的算法,其目標是從與環境交互的經驗中學習最優聯合策略,使得智能體累積聯合獎勵最大。MADDPG結構示意如圖4所示,在環境中一共有K個無人機出行執行任務,即K個智能體。各智能體均采用DDPG算法框架,由估計Actor-Critic網絡與目標Actor-Critic網絡組成。其中Actor網絡實現從狀態到行動的映射,Critic網絡對行為者輸出的行動進行評分[34]。

圖4 基于MADDPG的多無人機基站三維懸停位置部署Fig.4 3D Hovering position deployment of multi-UAV base stations based on MADDPG
建立多智能體的MADDPG算法,需要確定三個要素,即環境空間、動作空間、獎勵函數,具體設計與上節中基于PPO機制的馬爾可夫決策過程相同。在集中式學習中,每個智能體的Critic網絡中需要考慮其他智能體的狀態和動作。一旦訓練完成,每個智能體只需要根據自己的狀態來執行動作。以無人機k為例,在t時刻無人機k當前的狀態為st,Actor網絡輸出一個動作at,即無人機位移到的下一個位置,從環境中獲得一個關于吞吐量的獎勵rt。通過執行行動at,無人機k轉移到下一個狀態st+1,相應的元組(st,at,rt,st+1)被作為經驗存儲在經驗回放池中。估計網絡將從經驗回放池采樣經驗,通過小批量梯度下降法進行訓練,目標網絡通過復制評估網絡中的參數來更新。
當無人機群到達并懸停在最佳三維懸停位置處之后,無人機群需要對用戶提供相應服務。由于無人機可搭載資源的有限性及用戶需求的異構性,可能出現單個無人機并未搭載其對應的部分用戶需求的情況。為保證無人機集群更高效節能地為用戶提供服務,需要搭建無人機網絡[35],提出無人機網絡智能管控架構如圖5所示。無人機間可通過專用信道相互連接共享資源,形成資源池。另外,由于無人機數量有限,即使形成了共享資源池,其計算能力和資源也是有限的。在此情況下,無人機可與地面基站相連,將計算任務在基站與無人機網絡間進行權衡或從基站處獲取缺乏的目標資源。若無人機與基站間的距離較遠且存在非視距信道,可借助衛星作為中繼,實現基站與無人機間的信息中繼傳輸。

圖5 無人機網絡智能管控架構Fig.5 UAV network intelligent management and control architecture
與此同時,在無人機群結束一次服務后開始下一次服務前,存在一段無人機群的配置時延,進行無人機群的調度和飛行。在配置時延期間,每個用戶的業務優先級將會被更新,用戶將業務優先級廣播給附近的無人機,任意的無人機可以通過專用通道與附近的無人機連接。這樣的連接可以合并附近的無人機計算資源,并使無人機群能根據業務優先級確定無人機群的下一個盤旋位置和覆蓋范圍。當部分無人機距離較遠無法直接通過專用通道相連時,為了擴展用戶的業務優先級信息,無人機可向基站傳輸覆蓋其用戶的業務優先級信息后由基站將收到的信息廣播給系統中的其他無人機。當無人機與基站距離較遠時,衛星可作為中繼。
對于無人機群的路徑規劃問題,本文介紹的指針網絡為無人機的路徑規劃提供了一個很好的解決方案,但仍然存在一些挑戰。首先,在使用無線充電器緩解無人機群能源短缺問題的情況下,在為無人機群的飛行軌跡實施指針網絡之前,應研究充電器的位置。這種規劃涉及復雜的因素,如平均用戶分布、地理條件、無人機的最大可用能量等。其次,在指針網絡中應考慮無人機群之間的避障問題。
對于多無人機基站的三維懸停位置部署,除了DRL本身具有的低樣本利用率和復雜的獎勵函數設計問題外,在無人機群三維部署中的應用仍然存在一些挑戰。例如,網絡的高動態性,尤其是用戶的流動性,導致無人機群的靜態部署會失去最佳效果。因此,要求動態部署無人機群,以便無人機群能夠根據用戶的位置和業務需求實時調整其三維懸停位置,從而保持最佳性能。
在一次服務周期中,無人機需要在配置時延內完成調度及飛行,在服務時延內為用戶提供服務。無人機的服務時延越大,可使用于無線傳輸的能耗越小,但過大的服務時延會導致無人機在服務完用戶后的時間浪費。此外,在最大容忍時延的限制下,服務時延的增大會導致服務周期的減少,這將導致被服務的用戶數量及需求減少。相反,服務時延減少會使服務周期數增加,則無人機群可以向更多用戶提供服務,但在最大容忍時延內的總服務時間將減少,系統的吞吐量和能量效率將會降低。因此,在無人機能量支持的最大活動時延約束下,需對配置時延及服務時延進行權衡以使系統能效最大化。在未來的工作中,可以采用一些人工智能算法對配置時延和服務時延進行優化,如強化學習等。
無人機集群協同執行任務可打破地面環境、自然條件等的約束,作為地面網絡的有效補充,能高效及時地完成復雜及突發任務,是未來無人機應用的重要發展方向,也是實現6G愿景中網絡一體化的重要技術。本文考慮無人機集群為突發熱點流量需求區域的用戶提供服務的場景,按照服務過程將無人機集群協同服務依次分解為無人機集群用戶調度及路徑規劃、多無人機三維懸停位置部署及無人機網絡智能管控架構三方面的應用。為提高系統能量效率,在各應用中進行了模型構建并提出了相應的智能優化算法。最后,本文指出了無人機集群智能自組網協同應用中面臨的挑戰和未來研究方向,希望為后續研究提供參考,推動無人機集群智能自組網協同工作的進一步發展。