夏景明,劉玉風,談玲
(1.南京信息工程大學人工智能學院,江蘇 南京 210044;2.南京信息工程大學江蘇省大氣環境與裝備技術協同創新中心,江蘇 南京 210044;3.南京信息工程大學軟件學院,江蘇 南京 210044;4.南京信息工程大學計算機學院、網絡空間安全學院,江蘇 南京 210044)
無人機(UAV,unmanned aerial vehicle)具有體積小、價格低和移動性強等特點,其作為空中移動用戶在移動邊緣計算中的優勢明顯[1-3]。然而,當面對復雜且時間敏感的計算任務時,無人機自身的計算資源和處理能力明顯不足。為了應對上述挑戰,無人機可與配備移動邊緣計算(MEC,mobile edge computing)服務器的地面基站[4-6(]GBS,ground base station)進行協作,以提高自身計算性能。目前,通過UAV 和配備MEC 服務器的GBS 協作完成計算任務方面已有較多研究。例如,文獻[7]研究了無人機的飛行軌跡以及卸載調度問題,并利用連續凸逼近(SCA,successive convex approximation)方法和迭代算法實現了計算任務處理時間最小化的目標。文獻[8]在綜合考慮能量和時間約束的基礎上,在GBS 和相鄰無人機之間選擇最佳協作對象卸載計算任務,并應用密集算法進行實驗。文獻[9-10]通過對無人機軌跡、計算任務分配和傳輸功率的綜合考慮,應用SCA 方法對初始問題進行一系列轉化,實現了蜂窩連接的無人機MEC 網絡總能量消耗最小化的目標。文獻[11]針對蜂窩連接的多無人機MEC 場景,重點考慮地面基站的能量約束和資源約束,對無人機的總能量消耗進行優化,同樣應用了SCA 方法對原始問題進行有效求解。
災害救援與應急保障是無人機網絡的主要應用場景之一。文獻[7-11]均采用靜態算法解決目標問題,并未考慮實際場景中因自然災害造成部分GBS 損壞或因地理位置的缺陷導致GBS 建設困難的情形。如何在GBS 缺失的情況下盡快完成無人機計算任務還需要進一步研究。對此,文獻[12]提出了一個兩層無人機的體系結構,其中,低空平臺無人機向配備MEC 服務器的高空平臺無人機卸載計算任務,并應用多領導者多追隨者的Stackelberg模型進行求解。但該模型中攜帶計算任務的低空平臺無人機的位置是預先設定的,沒有涉及其機動性,實際場景往往不符合此條件。另外,高空平臺無人機的計算資源有限,難以應對計算任務量的快速增加。針對該問題,文獻[13]將MEC 服務器部署在計算資源更加豐富的高空氣球(HAB,high-altitude balloon)上。當MEC 支持的HAB 接收到無人機的計算任務時,可獨立進行高效處理,而無須傳輸到遠程GBS 或云端,以此降低傳輸時延。此外,考慮到無人機與HAB 之間有更強、更可靠的視距連接,在移動邊緣計算中可充分利用HAB 的分布式計算資源來提高計算性能。這對于GBS 損壞而無法高效處理無人機的計算任務而言是一個重大突破。本文由此受到啟發,將高空氣球引入本文模型中來協助無人機進行任務卸載,旨在解決由無人機自身資源限制帶來的計算能力不足等問題,達到負載均衡的效果。
考慮到多無人機的移動性和自然環境的時變性,如何在蜂窩連接的無人機網絡中捕獲各種設備的位置信息,充分利用計算資源制定卸載策略也是值得探討的問題。數字孿生(DT,digital twins)技術可通過創建虛擬模型等手段來表示物理網絡中的真實對象,并實時監控網絡狀態,進而為用戶提供感知數據并最終做出準確及時的卸載決策,滿足實際的智能需求[14-16]。鑒于DT 的技術優勢,一些研究將其與MEC 相結合構建了數字孿生邊緣網絡(DITEN,digital twins edge network),能夠實現卸載模塊與實時環境的頻繁交互,查詢各個邊緣服務器的運行狀態,從而有效提高任務卸載效率并節約系統資源。例如,文獻[16]為解決多地面移動用戶能量消耗最小化問題,構建了整個網絡的DITEN,并應用雙深度Q 網絡(DDQN,double deep Q-network)實現了多地面移動用戶與多無人機的關聯。文獻[17]研究了移動用戶端智能卸載任務到協作移動邊緣服務器的問題,并建立了以降低功耗和時間開銷為目標的數學優化模型,最終采用決策樹算法和DDQN 算法進行高效求解。然而,文獻[16-17]均未涉及無人機的軌跡連續問題,也未考慮計算任務的拆分情況,而在攜帶大量時延敏感型計算任務的無人機應用中,因自身資源有限,無人機的高效任務處理將成為挑戰,此時飛行軌跡優化和計算任務拆分策略將變得至關重要。本文將針對這類時延敏感型應用進行著重討論,從無人機的飛行路線設計和計算任務卸載比例方面入手,研究飛行軌跡優化算法,旨在實現無人機計算任務的高效處理。
基于以上討論,本文構建一個由DT 輔助的多無人機和多高空氣球組成的兩層MEC 模型。該模型引入多只配備MEC 服務器的高空氣球協助無人機完成計算任務,應用DT 技術在高空氣球搭建無人機的數字孿生網絡,重現無人機物理實體的實際運行狀況,通過聯合優化UAV-HAB 關聯、無人機的飛行軌跡、無人機的計算頻率和計算任務卸載比例來實現全部無人機總能量消耗最小化的目標。
本文的主要貢獻如下。
1) 構建一個由DT 輔助的多無人機和多高空氣球組成的兩層MEC 模型,并提出一種基于任務量比例的任務劃分策略來管理任務的計算和分配,在時延、速度的約束下,從能量消耗最小化的角度提出一個針對UAV-HAB 關聯、無人機軌跡、無人機的計算頻率和計算任務卸載比例的聯合優化問題。
2) 考慮到所提出優化問題的復雜性和非線性,任務卸載采用時分多址技術,在連續的時隙中,高空氣球與無人機之間始終存在對應關系,由此將UAV-HAB 關聯的二元整數變量松弛為連續變量,并應用深度強化學習中的DDQN 算法求解,實現無人機與高空氣球間的有效關聯,完成無人機卸載決策的制定。
3) 針對無人機軌跡優化問題的非凸性,提出一種基于BCD 的迭代優化算法,將所有優化變量劃分為UAV-HAB 關聯、無人機飛行軌跡、無人機計算頻率和計算任務卸載比例3 個模塊,并應用連續凸逼近算法來解決無人機飛行軌跡模塊中的非凸問題。BCD 算法在顯著降低復雜度的前提下實現了近似最優解。
考慮到實際場景中多無人機的移動性和自然環境的時變性特點,本文設計了一個基于DT 輔助的MEC 支持的多無人機網絡,分為物理實體網絡和數字孿生網絡,如圖1 所示。其中,編號為k,k∈K= {1,2,…,K}的無人機和編號為m,m∈M={1,2,…,M}的配備MEC 服務器的高空氣球共同構成物理實體網絡。高空氣球采用均勻部署,對無人機通信區域全覆蓋。無人機與高空氣球以及高空氣球之間均通過無線方式進行通信,主要依靠安裝在高空氣球上的通信模塊來完成,利用時分多址技術完成任務處理。所有物理實體的數字孿生體和無線通信環境等共同構成數字孿生網絡。物理實體網絡中的無人機和高空氣球通過實時信道將自身運行狀態和計算資源情況等發送到數字孿生網絡,數字孿生網絡便根據物理實體網絡的數據構建真實世界的虛擬模型,在該模型中,無人機的數字孿生體借助其實體傳送過來的參數等信息,有效評估多無人機系統能量消耗,輔助其進行最佳決策的制定。此時無人機只需執行其數字孿生體發送過來的指令,這種方式可以節省自身尋找最佳卸載節點的能量消耗和時延。

圖1 基于DT 輔助的MEC 支持的多無人機網絡
在給定的時間周期T內,多架無人機分別從初始位置飛行到終止位置,在飛行過程中還需要完成自身隨機產生的計算任務。這里,本文應用時分多址技術,將時間周期T均分為N份,每個時隙n,n∈N={1,2,…,N}的時長為δ[n],滿足T=Nδ[n]。
假設無人機k在時隙n攜帶的計算任務量大小為Dk[n](Dk[n] ≥ 0),其中,無人機k計算部分任務,比例為ρk[n],并將剩余任務以1 -ρk[n]的比例卸載給配備MEC 服務器的HAB,由HAB 提供遠程計算協助。顯然,0 ≤ρk[n] ≤ 1,ρk[n]=0表示在時隙n,無人機k將所有計算任務卸載到HAB;ρk[n]=1表示在時隙n,無人機k在本地完成所有計算任務。由于計算結果的大小一般遠遠小于任務輸入的大小,因此可以忽略HAB 返回計算結果給無人機的時間[7]。在三維笛卡兒坐標系中,無人機k在時隙n的飛行高度為Hk,水平位置坐標為
高空氣球m的懸停高度為Hm,水平位置坐標為
在時隙n,無人機k與高空氣球m之間的距離可以表示為
與文獻[18-20]相似,考慮視距鏈路和自由空間路徑損失模型。因此,無人機k和高空氣球m之間的信道功率增益可以表示為
其中,β0表示參考距離為1 m 的信道功率增益[21]。
本文系統所利用的時分多址技術限制了無人機的計算卸載過程[22],即無人機最多與一個HAB進行通信。設為UAVk與HABm之間關聯的二元整數變量,該變量表示UAVk是否被HABm服務。如果,表示HABm接收UAVk的計算任務,否則表示不接收。因此,需滿足以下條件,即
式(5)表示在任意時隙n,UAVk只能將計算任務卸載給一個HAB。
另外,無人機k的軌跡Lk[n]受速度vk[n]和最小安全距離等的約束,即
其中,Lk,I表示無人機k的初始位置,Lk,F表示無人機k的終止位置,dmin表示無人機間最小安全距離。定義無人機k在時隙n計算卸載時的發射功率為p k,m[n]。假設每架無人機的發射功率已知,則在時隙n,UAVk和HABm的傳輸速率表示為
其中,B表示系統帶寬,σ2表示高斯白噪聲[23]。
本文考慮了一種特定類型的數字孿生體,即無人機。由于數字孿生技術在重現物理實體的實際運行情況時會消耗大量計算資源,因此本文模型中所有無人機的數字孿生體將在配備MEC 服務器的高空氣球中建立。高空氣球可以存儲每個無人機實體的原始數據,并監視網絡的實時運行狀態。無人機的數字孿生體是無人機實體的數字副本,它不斷地與無人機實體通過實時信道進行交互,并根據實際的網絡拓撲結構、任務請求等進行自我更新。需要注意的是,數字孿生體不能完全反映無人機的狀態,并且可能與無人機的真實狀態值存在估計誤差。故在本文模型中,用表示在時隙n,無人機k與其數字孿生體之間計算頻率的估計誤差,其可正可負,本文假設其為正值。根據上述定義,在時隙n,無人機k的數字孿生體構建如下
無人機k的能量消耗包括本地計算能量消耗、傳輸能量消耗和飛行能量消耗。在時隙n,無人機k的本地計算能量消耗表示為
其中,Kk表示無人機k芯片結構的預設參數值,C k[n] 表示無人機k完成1 bit 計算任務所需要的CPU 周期數。
在時隙n,無人機k一方面會進行部分計算任務的卸載,另一方面會與高空氣球m保持持續交流和數據傳輸,其中的數據包含計算任務的相關信息和數字孿生體的相關參數等,故在整個時隙n中,無人機k的傳輸能量消耗表示為
則在時隙n,無人機k的飛行能量消耗表示為
其中,P[v k[n]]表示無人機k在時隙n的飛行功耗,表示為
其中,P0表示懸停狀態下無人機k的翼型功率,Utip表示轉子葉尖轉速,Pi表示懸停狀態下無人機k的誘導功率,V0表示前進飛行時感應轉子的平均速度,d0表示機身阻力比,ε表示空氣密度,s表示轉子壓實度,M0表示轉子盤面積。
在時隙n,無人機k執行計算任務所需的估計時間為
由于數字孿生體和實體之間的數據交互存在時延誤差,故無人機的數字孿生體有時不能準確反映無人機實體的真實狀態,但真實計算時延和數字孿生估計時延之間的誤差可以提前獲得。則在時隙n,無人機k的真實計算時延與其數字孿生體估計時延之間的計算時延間隙表示為[24]
則在時隙n,無人機k本地計算實際消耗的時間為
系統參數及其含義如表1 所示。

表1 系統參數及其含義
其中,約束C1表示無人機k與高空氣球m之間的關聯變量是一個二元整數變量;約束C2表示在任意時隙n,無人機k只能將計算任務卸載給一個高空氣球進行處理;約束C3表示在時隙n,無人機k的速度不能超過最大飛行速度;約束C4表示無人機k的初始位置和終止位置;約束C5表示無人機k在時隙n的軌跡約束;約束C6表示在時隙n,為防止碰撞,兩架無人機之間的最小安全距離設置;約束C7表示在時隙n,無人機k的數字孿生體對真實計算頻率估計值的大小設置,保證其不超過無人機的數字孿生體對真實最大計算頻率的估計值;約束C8表示在時隙n,無人機k完成計算任務消耗的時間不能超過其能容忍的最大時延上限;約束C9表示在時隙n,無人機k卸載任務比例的范圍限制;約束C10表示在時隙n,無人機k上行鏈路傳輸的總比特數需滿足的條件。
從約束條件中可以很容易地觀察到,約束C1和C2中的UAV-HAB關聯變量涉及二元整數變量和目標函數,約束C6和約束C10與優化變量ρ和L存在高度耦合性。因此,優化問題P1 是一個非凸混合整數非線性規劃問題,而傳統的凸優化技術無法解決該問題。本文將原始問題P1 分解為3 個更易于處理的子問題,即UAV-HAB 關聯子問題、UAV 軌跡子問題、計算任務卸載比例和計算資源分配子問題。本文設計了一種基于深度強化學習和交替迭代的算法來得到原始問題的收斂次優解。
由于P1 的非線性,直接求解不現實。本文通過求解以下3 個子問題獲得原問題P1 的最優解,算法流程如圖2 所示。首先在給定可行{F,L,ρ}下優化{A},應用DDQN 算法求解;然后在給定可行{A,F,ρ}下優化{L},因其存在的非凸結構,故應用SCA 技術進行優化;最后在給定可行{A,L} 下優化{F,ρ},應用優化工具CVX 有效解決。本節分別給出以上3 個子問題的求解過程。

圖2 算法流程
由于動態網絡環境和系統要求,在計算卸載中,采用智能方法來實現更好的卸載決策至關重要。本節首先闡述深度強化學習的4 個關鍵元素,然后利用DDQN 算法對未知環境進行探索,優化UAV-HAB 關聯變量,不僅解決了深度Q 網絡估計過高的問題,而且解決了UAV 位置變化導致的狀態-動作對大量增加的問題。
深度強化學習的4 個關鍵要素為智能體和環境、狀態、動作和獎勵[24],本文具體的系統模型如下。
智能體和環境。在本文提出的數字孿生技術輔助多無人機計算任務卸載模型中,環境中的智能體的目標是最大化其未來的潛在回報。因此,與其他強化學習方法不同,本文模型通過定義與能量成本負相關的獎勵,將最小的能量消耗總和轉化為最大的獎勵。
狀態。系統狀態由以下幾個部分組成
其中,Lk[n] 表示無人機k在時隙n的位置,Dk[n]表示無人機k在時隙n生成的計算任務比特數,Tk[n] 表示無人機k在時隙n完成計算任務能容忍的最大時延,Lm表示高空氣球m的位置。智能體在執行一個動作后將從一個狀態轉換到另一個特定的狀態。
動作。綜合提出的網絡模型,行動包括
獎勵。智能體在執行每一個可能的動作后,在特定狀態下獲得獎勵。在某種意義上,獎勵函數應該與目標函數相關聯。然而,本文的目標函數是最小化系統的總能量消耗,強化學習的目標是最大化獎勵。因此,獎勵的價值應該與目標函數呈負相關,故將即時獎勵定義為
其中,v表示懲罰項。
給定多無人機的實時位置、多無人機的傳輸功率、多無人機的計算任務卸載比例和計算資源分配,則關于UAV-HAB 關聯的優化問題可以構建為
其中,π*表示{A} 的最優策略。
為了解決問題P1.1,本文使用帶有經驗重放的優化算法DDQN 來獲得最優策略。DDQN 不是在目標網絡里面直接搜索最大Q值的動作,而是先在預測網絡中找出最大Q值對應的動作,即
其中,φ1表示預測網絡的參數,φ2表示目標網絡的參數。然后利用選取出來的動作在目標網絡中計算目標Q值,即
其中,ω表示折扣因子。
損失函數為
其中,P表示在記憶庫D中抽取的樣本數量。
DDQN 算法框架如圖3 所示,基于DDQN 算法的流程如算法1 所示。

圖3 DDQN 算法框架
算法1基于DDQN 算法的流程
當UAV-HAB 關聯、多無人機的計算任務卸載比例和計算容量分配給定時,可以得到如下優化問題
除了目標函數、約束C6和C10,其他約束均存在凸結構。因此,不能直接應用標準凸優化方法來解決。針對目標函數,首先引入松弛變量{φk[n]},將的原表達式轉換為
問題P1.3 具有凸結構,可以使用標準凸優化方法有效解決。
當UAV-HAB 關聯和無人機的軌跡給定時,得到如下優化問題
問題P1.4 是一個標準的線性規劃問題,可以使用優化工具 CVX 來有效解決。聯合優化LSAV-HAV 關聯、無人機軌跡、無人機計算資源分配和計算任務卸載比例的算法如算法2 所示。
算法2聯合優化LSAV-HAV 關聯、無人機軌跡、無人機計算資源分配和計算任務卸載比例的算法
定義r=0,初始化K,M,Hk,Hm,β0,vmax,dmin,Lk,I,Lk,F,B,ξ,網絡參數φ1和φ2
1) 在給定的F,L,ρ下,應用算法1 解決問題P1.1,得到最優策略π*;
2) 循環
3) 應用SCA 技術解決問題P1.3,得到無人機軌跡Lr;
4) 應用優化工具CVX 解決問題P1.4,得到無人機計算資源分配和計算任務卸載比例
5)r=r+1;
6) 直到相鄰目標函數值之間的絕對值之差小于閾值ξ;
7) 輸出UAV-HAV 的關聯A、無人機軌跡L、無人機計算資源分配F和計算任務卸載比例ρ。
為解決問題P1.1,采用DDQN 算法。然而,神經網絡的計算復雜度受許多因素的影響,如數據的大小、模型的復雜性和整體算法框架。神經網絡的復雜性分析是一個非常復雜的問題,很少有研究涉及這一問題。為了簡化這個問題,本文關注生成最優動作的計算復雜性。在每次迭代中,DDQN 中的每個智能體遍歷所有動作,尋找Q值最大的最優動作。在本文模型中,每個時隙有K個無人機,每個無人機可以從M+1 個動作中選擇一個。因此,相應的計算復雜度為O(NK(M+1))。解決問題P1.3 的求解復雜度為O(N(K(K- 1)+KM))。因此,算法2總的計算復雜度為O(NK(M+1) +EN(K(K-1)+KM)),其中,E為外部迭代次數。
圖4 給出了不同學習率下DDQN 算法的收斂性。從圖4 可知,DDQN 算法的獎勵值隨著迭代次數的增加達到收斂;學習率越高,DDQN 的收斂速度越快。另外,隨著學習率的增加,得到局部最優解而不是全局最優解的可能性變大。因此,需要根據具體情況選擇合適的學習率。

圖4 不同學習率下DDQN 算法的收斂性
本文使用Python3.7 和TensorFlow 框架對多無人機空中用戶計算任務卸載方案進行了仿真,考慮兩架無人機和3個配備MEC服務器的高空氣球分布在1 000 m×1 000 m 區域中。其中,兩架無人機的飛行高度統一設置為Hk= 500m,3 個高空氣球的懸停高度統一設置為2 500 m。任意時隙下,無人機k的發射功率為p k,m[n]=2 W,所有無人機的最大飛行速度為vmax= 30 m/s。其他參數設置如表2 所示。為了評估本文算法,本文設計實驗方案如下。

表2 參數設置
1) 為了說明本文算法較其他算法的優越性,本文分別給出無卸載方案、深度Q 網絡方案和本文算法對多無人機能量消耗最優化的仿真實驗結果。
2) 為了體現DT 對能量消耗最優化的影響,本文設計了有DT 輔助和無DT 輔助的對比實驗方案,進一步證明了DT 輔助方案(本文算法)的有效性和優越性。
3) 為了評估無人機任務卸載比例對其飛行軌跡、能量消耗的性能影響,本文分別給出不同計算任務卸載比例下的無人機軌跡仿真圖像和無人機計算任務占比對其能量消耗影響的仿真實驗結果,進一步說明本文算法在降低無人機能量消耗方面的有效性。
4 種對比方案如下。
1) 無卸載方案。計算任務都由無人機執行,優化無人機的軌跡和計算資源分配。
2) 深度Q 網絡方案。無人機的計算任務卸載到哪一個高空氣球端由深度Q 網絡優化。
3) 無DT 輔助的方案。整個系統沒有應用數字孿生技術,即在處理無人機攜帶的計算任務時需要額外的數據交互。
4) 本文算法。無人機部分比例計算任務在本地計算,部分比例計算任務可以卸載到配備MEC服務器的高空氣球計算。
圖5 給出了不同時間周期T對所有無人機能量消耗的影響。從圖5 可知,隨著時間周期T的增加,所有方案下的系統能量消耗都呈上升趨勢。其中,無卸載方案下的系統能量消耗最大,而其他方案實現了更小的能量消耗。這是由于其他方案下的HAB 可作為一個輔助計算平臺,與無人機協作完成攜帶任務。此外,本文算法也優于深度Q 網絡方案,這可以解釋為深度Q 網絡方案使用相同的值來選擇和評價一個動作,但本文算法克服了該缺點,進一步提高了目標Q值。

圖5 不同時間周期T 對所有無人機能量消耗的影響
圖6給出了不同計算任務量對所有無人機能量消耗的影響。從圖6可知,隨著計算任務量的增加,無人機能量消耗越來越大。其中,本文算法總是比其他方案表現出更好的性能,而且隨著每架無人機計算任務量的增加,這種優勢變得越來越明顯。

圖6 不同計算任務量對所有無人機能量消耗的影響
圖7 給出了不同計算頻率對所有無人機能量消耗的影響。從圖7 可知,無人機的能量消耗隨著計算頻率的增加而增加。其原因是基于本地計算頻率表達式,無人機本地計算的能量消耗與計算頻率呈正相關,故當無人機的計算頻率增加時,無人機的能量消耗也隨之增加。無卸載方案、深度Q 網絡方案能量消耗較大,本文算法的能量消耗較小。

圖7 不同計算頻率對所有無人機能量消耗的影響
圖8 給出了有無DT 輔助下不同計算任務量對所有無人機能量消耗的影響。從圖8 可知,有DT輔助方案的系統能量消耗明顯小于無DT 輔助方案。其原因是每個無人機的狀態都存儲在DT 中,在尋找卸載點時不需要額外的數據交互,進而減少了系統的能量消耗,節省了數據傳輸的時間。

圖8 有無DT 輔助下不同計算任務量對所有無人機能量消耗的影響
圖9 給出了時間周期T= 100 s時,不同計算任務卸載比例下的無人機軌跡。無人機1 的初始水平位置和終止水平位置分別設定為L1[0]=(-5 00,-2 25)和L1[N]= (500,-2 25),無人機2的初始水平位置和終止水平位置分別設定為L2[0]=(-5 00,225)和L2[N]= (500,225),3 個配備MEC 服務器的高空氣球水平位置坐標分別設置為L1=(- 300,0)、L2= (0,0)和L3= (300,0)。從圖9 可知,依據本文算法優化所得的無人機軌跡曲線變化幅度較小,并且無人機傾向于靠近配備MEC 服務器的高空氣球,這意味著更多的計算任務會卸載到高空氣球進行處理,而無人機用于本地計算的能量消耗會減少。另一個觀察結果是,在計算任務全部卸載的情況下,無人機無限靠近配備MEC 服務器的高空氣球,但無人機能量總消耗明顯大于本文算法。

圖9 時間周期T=100 s 時,不同計算任務卸載比例下的無人機軌跡
圖10 給出了無人機計算任務占比對所有無人機能量消耗的影響。從圖10 可知,無論是本文算法還是深度Q 網絡方案,無人機的總能量消耗總是隨著無人機計算任務占比的增加而增加。其原因是基于本地計算頻率表達式,無人機本地計算能量消耗與無人機計算任務占比呈正相關,即當無人機的計算任務占比增加時,無人機的能量消耗也隨之增加。另外,可以明顯觀察到,本文算法相較深度Q 網絡方案在減少能量消耗方面一直保持較大優勢。

圖10 無人機計算任務占比對所有無人機能量消耗的影響
本文搭建了一種數字孿生技術輔助下的移動邊緣計算蜂窩連接多無人機網絡模型,引入多只配備MEC 服務器的高空氣球協助無人機完成計算任務,并研究了多無人機軌跡優化和資源分配方案。以多無人機的總能量消耗最小化為目標,通過聯合優化UAV-HAB 關聯、無人機飛行軌跡、計算頻率分配和計算任務卸載比例,實現了多無人機任務的高效處理。在制定卸載決策時,借助DDQN 算法處理UAV-HAB 關聯存在的二元整數問題,實現了無人機與高空氣球間的有效關聯,并采用連續凸逼近技術解決無人機飛行軌跡存在的非凸問題。仿真結果表明,本文算法在執行無人機計算任務時能量消耗降低了30%,優于其他對比算法。下一步將在本文的基礎上考慮無人機計算任務卸載過程中的三維軌跡優化和發射功率分配。該類優化問題中的優化變量間存在高度耦合性和復雜性,這也是未來工作的重點和難點。