999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

空地網絡資源分配與無人機基站動態部署算法

2024-04-25 00:00:00張尚偉和思夢
西安交通大學學報 2024年3期
關鍵詞:無人機

摘要:為解決空地網絡中地面設備數量變化引起的用戶體驗質量無法滿足的問題,提出了一種智能網絡資源分配與多無人機基站動態部署方案。首先,考慮用戶體驗質量和無人機、地面設備能量約束,以最小化系統總能耗為目標進行問題建模;其次,將多無人機的動態部署問題轉化成具有連續動作集的馬爾可夫決策過程,并根據優化目標設計了基于能耗懲罰的獎勵函數;然后,采用基于確定性策略梯度的深度強化學習算法求解此問題;最后,通過仿真和對比實驗驗證所提方案的有效性和優越性。實驗結果表明:對于海量用戶場景,所提算法比深度強化學習和演員-評論家算法有更好的收斂性和更高的累積獎勵,與單無人機和傳統地面基站部署方案相比,所提方案系統的能耗降低約30%~40%,用戶服務質量滿意度提升約50%~60%。

關鍵詞:無人機;資源分配;動態部署;強化學習算法

中圖分類號:TN929.5 文獻標志碼:A

DOI:10.7652/xjtuxb202403016 文章編號:0253-987X(2024)03-0172-11

Resource Allocation and Dynamic Deployment Algorithm for Unmanned

Aerial Vehicle Enabled Base Stations in Air-Ground Networks

Abstract:To address the problem of unsatisfactory user experience quality caused by the fluctuation of ground device quantity in an air-ground network, a solution for intelligent network resource allocation and dynamic deployment of base stations with multiple unmanned aerial vehicles (UAVs) is proposed. Firstly, considering user experience quality and the energy constraints of UAVs and ground devices, the problem is modeled with the objective of minimizing the total system energy consumption. Secondly, the dynamic deployment of multiple UAVs is transformed into a Markov decision process (MDP) with a continuous action set, and a reward function based on energy penalty is designed according to the optimization objective. Thirdly, a deep reinforcement learning algorithm based on deep deterministic policy gradient (DDPG) is used to solve this problem. Lastly, the effectiveness and superiority of the proposed solution are verified through simulation and comparative experiment. Experimental results show that, for scenarios with a massive number of users, the proposed algorithm exhibits better convergence and higher cumulative rewards compared to deep reinforcement learning and actor-critic algorithms. In comparison to single UAV and traditional ground base station deployment solutions, the proposed solution reduces energy consumption by approximately 30% to 40%, and improves user satisfaction with service quality by around 50% to 60%.

Keywords:unmanned aerial vehicle; resource allocation; dynamic deployment; reinforcement learning algorithm

近年來,無人機(UAV)由于其高機動性、高靈活性、易維護性和易操縱性受到各行業的廣泛關注。具有高算力的服務器可被安裝在無人機上,作為通信基站、中繼節點或邊緣計算節點為目標區域內的設備提供通信、存儲和計算等服務。與傳統地面方案相比,無人機的優勢主要體現在部署速度快、成本低、可擴展性強等方面,在未來空天地一體化網絡、工業互聯網、車聯網、智慧城市、智慧農業等新興物聯網應用及行業領域具有廣闊的應用前景。雖然無人機輔助移動邊緣計算在優化網絡性能、降低傳輸時延、增加網絡容量等方面有著巨大的優勢和潛力,但存在設備能量受限、空地鏈路特征復雜、視距鏈路干擾強、信道質量差異大等問題[1]。這些因素使得利用無人機建立大覆蓋范圍、高速率、低能耗的移動邊緣計算網絡仍面臨著很大的技術挑戰。

針對上述問題,研究人員近年來從無人機軌跡規劃及動態部署角度開展了深入研究,并針對用戶服務質量、系統性能及能耗等方面給出了眾多高效的解決方案。根據應用場景和無人機在其中扮演的角色,相關研究可歸為兩類:一類借助地面網絡,無人機被部署為空中用戶設備來執行相應任務[2];另一類無人機攜帶移動邊緣計算服務設備,作為空地通信系統中的空中基站或者移動中繼,為地面設備提供相應的通信、計算服務[3]。其中,第二類應用場景中無人機軌跡規劃和動態部署優化研究主要以能耗、時延、用戶服務質量(QoS)及用戶體驗質量為目標展開,也是本文研究重點。

在以能耗最小化為目標的工作中,Wang等[4]為實現最小化系統能耗,并保證所有無人機之間的地理公平性、負載公平性,提出多無人機軌跡規劃問題,并給出了低復雜度的卸載決策方案求解此問題。Shen等[5]在大規模機器類型通信場景中,由無人機負責高效采集數據,由于設備能量有限,提出了以最大化能量效率為目標的無人機軌跡規劃問題,采用基于貪心算法的動態規劃算法解決此問題。Zhu等[6]提出了一種多無人機輔助的無線傳感器網絡,其中集群無人機負責從各個節點采集數據并將數據傳輸給頭無人機;為了最小化系統能耗,提出無人機軌跡規劃問題,并采用基于深度神經網絡的強化學習算法解決此問題。

在以時延最小化為目標的研究中,Tan等[7]考慮5G蜂窩中的延遲敏感社交AR服務,建立基于多無人機的數據采集模型,并提出以最小化處理和傳輸時延為目標的多無人機巡航軌跡控制問題。隨后,提出自組織協同方案并利用連續凸優化算法解決此問題。Zhan等[8]提出無人機輔助物聯網通信框架,在物聯網設備任務和資源約束下,提出以最小化任務完成時間為目標優化計算卸載、資源分配、無人機軌跡的問題,并將路徑規劃問題轉化為離散的非凸等價問題,利用交替優化算法求解此問題。

在以滿足用戶服務質量為目標的研究中,Huang等[9]考慮應急信息快速收集和可靠傳輸的現實需求,提出了以最大化用戶服務質量為目標的無人機路徑規劃問題;通過聯合優化無人機和用戶設備的位置、傳輸功率,最大程度地提高了上行和下行數據傳輸的可靠性;通過最大限度地提高每個無人機的加速度,在最短的時間內遍歷所有的路徑點。

綜上可知,現有研究大多針對無人機移動邊緣計算下的數據采集、應急通信、物聯網計算等場景,給出了路徑規劃和動態部署的解決方案,能夠有效減少能量消耗、降低服務延遲、提高用戶服務質量和用戶體驗質量、擴大網絡覆蓋范圍。然而,現有研究部分采用貪心策略求解路徑規劃問題,此類策略可能獲得局部最優解;部分采用凸優化方法,該方法具有一定的局限性,難以解決非凸優化問題。另外,凸優化算法的收斂結果與初始值設定密切相關,不同的初始值可能會求得不同的解。此外,在海量地面設備多無人機的場景中,現有的研究工作較少考慮聯網設備動態變化這一實際場景。因此,本文研究熱點區域地面設備數量可變場景中的多無人機動態部署問題,考慮用戶體驗質量、設備能量、無人機能量等因素,以最小化系統總能耗為目標進行問題建模;將多無人機動態部署問題轉化為馬爾可夫決策過程,并采用基于確定性策略梯度的深度強化學習(DDPG)算法求解問題。

1 系統模型

本文考慮部署無人機為海量地面用戶設備提供通信和計算服務的場景。無人機可以靈活且快速移動到需要覆蓋的區域,尤其適用于城市中的高密度用戶區域。在緊急情況或大型活動等場景中,借助無人機可以隨時應對人群聚集和網絡擁堵,解決了傳統基站部署成本高、建設周期長的問題。其次,無人機可以部署到較高的空中位置,向高層建筑物提供更廣泛的信號覆蓋范圍,能夠從一定程度上克服信號遮擋問題,彌補傳統地面網絡在部署時受地形因素影響的局限性[10]。此外,無人機可以搭載各種傳感器,在城市管理規劃、環境保護監測以及交通管理等應用中,為大量的高密度物聯網終端提供實時的數據采集、處理以及計算等服務[11]。

如圖1所示,假設場景中存在N個地面用戶設備,其計算能力無法滿足當前任務計算需求,需將任務卸載到無人機上的邊緣服務器中。在系統中的基站端部署一個虛擬管理系統與無人機進行信息交換以控制網絡資源分配,并進一步協調無人機基站的動態部署[12]。當設備數量增加時,通過新增無人機(飛行高度H保持不變,飛行速度為V)來滿足設備需求;當聯網設備數量降低時,可在滿足服務質量的條件下適當減少部署無人機的數量。

將整個系統服務提供時間分成多個時隙,假設在第t個時隙,第m架(m≤χ)無人機被啟動加入到該系統中,無人機的水平位置可以表示為

式中:xUAVm(t)表示無人機的橫坐標;yUAVm(t)表示無人機的縱坐標;χ為無人機最多部署數量。由于覆蓋范圍有限,無人機在當前位置服務完所有的設備后,需要重新調整位置繼續服務其他用戶。給定無人機的運動方向θ、飛行距離dfly及第t時隙的位置,其在第t+1時隙的懸停位置為

式中:dfly(t)為無人機移動距離,dfly(t)∈[JB([]dmin,dmax[JB)]];θ為運動方向,θ∈[JB([]0,2π[JB)]];dmax為一個時隙最大飛行距離。

對于動態增加的地面設備數量,設定每過一段時間加入一定數量設備,那么在服務時間為Γ時,設備數量為NΓ。地面設備一旦進入到目標服務區域,其位置保持不變,那么任一設備n的位置可表示為

對于任務卸載策略,本文考慮地面設備采用全卸載的策略將數據卸載至無人機服務器上[13]。

1.1 非正交多址接入(NOMA)通信模型

在任一時隙t,假設無人機m懸停在位置lUAVm(t)與地面設備n建立連接,則它們之間的距離為

dm,n(t)=(H2+(xUAVm(t)-xDn)2+(tUAVm(t)-yDn)2)-2(4)

對于空地信道(A2G)模型,本文同時考慮大尺度路徑損耗和小尺度的瑞利衰落因素[14]。在第t個時隙,無人機m與設備n之間平均路徑損耗表示為

Lm,n(t)=PLoSm,nLLoS(t)+(1-PLoSm,n)LNLoS(t)(5)

式中:LLoS和LNLoS分別是視距和非視距鏈路的路徑損耗;PLoSm,n是無人機與設備之間的空地視距鏈路的概率。LLoS、LNLoS、PLoSm,n分別表示為

其中,fd是載波頻率,c是光速,ηLoS和ηNLoS是平均附加損耗,此值取決于環境因素,(90-θm,n)是設備到無人機的仰角,α和β取決于環境的常數值(如城市、郊區、農村等[15])。

結合式(5),在第t個時隙,無人機m與地面設備n之間的信道增益為

為提高頻譜利用率和系統覆蓋率,采用功率域NOMA技術。在任一時刻,將信道條件差異較大的兩個設備構成一個NOMA組[16]。在任一NOMA組中,信道條件較好的用戶n以及信道條件較差的用戶n′的上行數據傳輸速率可分別表示為[17]

式中:Bn表示無人機給地面設備劃分的子信道帶寬;Ptr是地面設備的發射功率;σ2為零加性高斯白噪聲功率;r∈[JB({]0,1[JB)}]是上行鏈路頻譜復用指標,當r=1時,表示設備k復用當前設備通信信道而產生同頻干擾。

1.2 時延與能耗模型

將任務到達至計算完成的時長定義為用戶等待延遲,若超過閾值τ,則認為需求未被滿足。設無人機m在第t-1時隙完成對當前設備服務后,需在第t時隙重新調整位置以服務其余設備,其飛行時間為

式中:‖·‖表示兩點之間的歐幾里得距離,表示無人機m在第t個時隙的飛行距離。考慮到信道質量,假設在第t個時隙地面設備嘗試和距離最近的無人機通信,關聯的設備集合記為Ω。

無人機m與所關聯用戶設備n之間的任務傳輸時間可表示為

式中:am,n是地面設備n卸載到無人機m的任務數據量。在時隙t,地面設備n上傳任務耗費時長為

在該時隙,無人機m計算與之關聯的地面設備上的卸載任務的時長為

考慮到無人機移動性,未被服務設備的等待時延為無人機飛行時長和服務其他設備的時長總和。因此,在時隙t,地面設備n的等待時間可以表示為

在整個工作周期中,設備總等待時延表示為

則無人機的一個工作周期總時長可以表示為

在能耗方面,本文考慮系統總能耗包括無人機飛行能耗、任務計算能耗、所有地面設備的發射能耗。在任意時隙t,相應的能耗分別表示為

式中:Pf為無人機飛行功率;C為邊緣計算服務器計算1bit需要的CPU轉數;γc為有效電容開關;fc為邊緣計算服務器CPU頻率。對于上行通信,設定所有設備的發射功率相同,且保持恒定。在第t個時隙,無人機的剩余電量可以表示為

b(t)=b(t-1)-Efly(t)-Ecomm(t)(19)

式中:無人機的初始電量設置為b(0)=B。

1.3 問題定義

一般地,基于地面基站的組網方式在通信、冷卻、數據存儲、計算、監控管理以及檢查維護等方面需要大量地消耗電力[18],而基于無人機組網方案的能耗主要用于通信、計算和保持飛行方面,通常來說要低于基站的能耗。在實際應用中,無人機由于受到自身能源限制導致其在空中飛行時間非常有限。為此,本文的目標是在用戶體驗質量的約束下,進行多無人機動態部署以最小化系統總能耗。基于此目標以及上述對系統的通信建模、時延與能耗建模,將問題描述為

式中:Λ為無人機部署方案;X和Y表示目標區域邊長;xm,n(t)表示第t時隙地面設備n與無人機m之間是否存在關聯,若xm,n(t)=0表示在此時隙設備n與無人機m沒有關聯;xm,n(t)=1則表示存在關聯;Sm(t)表示在第t時隙與無人機m關聯的地面設備數量;χ表示可部署無人機最大數量;τ表示用戶最大等待時間,若等待時間超過此值,表示未能滿足用戶需求(不好的體驗質量);Qt表示在第t時隙滿足用戶需求的設備數量;ψ是滿足用戶需求的最小設備比例;C1和C2為防止無人機飛出目標區域邊界的約束條件;C5表示啟動無人機的數量不能超過預期數量;C7表示滿足用戶體驗質量需要符合的條件;C8表示不能超過無人機總電量。

2 算法設計

2.1 多無人機動態部署方案

當目標區域聯網設備數量增加后,無人機將動態調整懸停位置,具體的部署方案如算法1所示。

算法1 多無人機動態部署算法

輸入 已激活用戶設備總數量NΓ

輸出 無人機最優動態部署策略Λ

1 初始化i=0;

2 while ilt;5 do

3" 激活i/5個用戶設備;

4" 無人機服務時間ts=0;

5" 根據信道質量進行無人機與地面設備的關聯

以及用戶NOMA分組;

6" 根據最優部署策略Λ進行位置部署;

7" ts=ts+Dtime;

9"" 啟動新無人機服務用戶設備;

10" 無人機服務時間ts=0;

11" 根據信道質量進行無人機與地面設備的

關聯以及用戶NOMA分組;

12" 根據算法2求得最優部署策略Λ,并

對無人機進行部署;

13" ts=ts+Dtime;

14 end while

15 i=i+1;

16end while

2.2 用戶關聯和NOMA分組方法

本文根據信道質量進行無人機與地面設備的通信關聯。對于任意無人機m和設備n,考慮到通信雙方的距離是刻畫空地信道質量的關鍵因素,可根據式(4)計算它們之間的距離dm,n(t),如果滿足條件dm,n(t)lt;r和dm,n(t)lt;dm,k(t),則無人機m與設備n可以建立通信關聯。對于空地NOMA用戶分組問題,在第t個時隙,給定與無人機m關聯的設備集合Ω,首先根據式(7)計算集合Ω中2K個設備信道增益cm,n(t),并對設備信道增益排序:cm,1(t)…≤cm,K(t)≤…≤cm,2K(t);隨后,為了使得配對設備之間有著相對均勻的信道增益差值,采取均勻信道增益差異配對算法,即將集合Ω中2K個設備分為強用戶集和弱用戶集,弱用戶集為Ω′,Ω′=[JB({]1,2,…,K[JB)}];強用戶集為Ω″,其中Ω″=[JB({]K+1,K+2,…,2K[JB)}];將強用戶集中最大信道增益的用戶設備與弱用戶集中最大信道增益的用戶設備配對,依此類推,最終分配方案可以表示為

2.3 基于確定性策略梯度的深度強化學習算法

考慮到無人機在當前時隙的狀態只與上一個時隙的狀態有關,可認為無人機的狀態集具有馬爾可夫特性。將控制多個無人機的虛擬管理系統視為一個智能體,多無人機的動態部署問題轉化成成一個連續狀態空間、連續動作空間的馬爾可夫決策過程[19]。首先,無人機向虛擬管理系統發送各自覆蓋范圍內的網絡信息(如信道狀態信息、地面激活用戶數量及服務請求、無人機計算能力和剩余能量等)。隨后,將此初始狀態輸入神經網絡中進行訓練。訓練結束后,虛擬管理系統將結果傳遞給無人機,以協調多個無人機之間的動態部署。下面定義馬爾可夫過程四元組(S,A,P,R),其中S表示狀態集,A表示動作集,P表示轉移概率,R表示獎勵函數。四元組(S,A,P,R):無人機在每個時隙t選擇飛向另一個位置與其當前位置、電量、剩余等待服務的設備數量Nr以及剩余等待服務設備的位置集L有關,針對該問題的馬爾可夫決策過程的狀態集合定義為

在t+1時隙的位置部署由此時隙無人機的運動方向θ與運動方向dfly決定,因而馬爾可夫決策過程的動作集合描述[20]為

A=[JB({]at|at=[JB({]θ(t),dfly(t)[JB)}][JB)}]

θ(t)∈[JB([]0,2π[JB)]],dfly(t)∈[JB([]dmin,dmax[JB)]]

(23)

將無人機與地面設備總能耗最小化轉化為馬爾可夫決策決策過程的最大化累積獎勵。系統的獎勵函數需要結合無人機處理用戶設備的正獎勵與無人機能耗帶來的負獎勵。若正獎勵與負獎勵的數量級相差太多,會導致訓練結果出現局部最優,因而采用Sigmoid函數定義系統的正向獎勵,使得正獎勵的值處于0~1之間。正向獎勵可表示為

為達到最小化系統總能耗目標,負獎勵被定義為無人機和設備總能耗,結合式(16)~式(18),在第t個時隙獎勵函數被定義為

rt=ξt-φ1(Ecomm(t)+Eup(t)+Efly(t))(25)

式中:φ1是系統能量消耗權重因子;η和β是調節正向獎勵函數系數,不同值對應不同的系統正向獎勵影響;Nserver(t)表示多架無人機服務設備總數量。針對本研究場景中無人機連續動作空間的動態部署,擬采用基于策略梯度的強化學習算法解決此問題。

如圖2所示,DDPG算法在傳統的強化學習算法中加入經驗回放池,將馬爾可夫決策過程中出現的四元組(S,A,P,R)放到一個先入先出的數據結構中存儲起來。在之后的學習過程中,隨機從經驗回放池中抽取數據更新深度神經網絡的參數[21]。同時,DDPG算法用卷積神經網絡(CNN)來逼近價值函數,預測網絡與目標網絡使用相同的卷積神經網絡,將當前狀態st輸入到預測網絡中,并根據當前預測網絡的參數輸出預測值Q(st,at;θ),將下一個狀態st輸入到目標網絡中,找到下一個狀態的狀態動作對對應的最大值以及此動作的及時獎勵rt+1,并從目標網絡輸出當前狀態動作對的目標值。

DDPG算法的訓練過程為[22]:在每個時隙t,由虛擬管理系統觀測并收集到當前環境的狀態st,之后演員網絡在一次訓練之后由狀態st會輸出動作at=μ(st;θμ)。執行過此動作后會產生新狀態st+1及獎勵rt+1,并將四元組放在經驗回放池中。當經驗回放池中的樣本數量足夠多時,從中取出K個樣本數據,輸入到演員網絡和評論家網絡中進行卷積神經網絡參數的訓練。在更新參數時,評論家網絡會通過Adam優化器計算在線網絡的梯度,通過評論家在線網絡獲得目標值Q。接著根據此梯度更新評論家在線網絡的策略參數θμ,隨后計算演員網絡中的在線網絡梯度,并根據此梯度更新演員在線網絡策略參數θv以及演員目標網絡參數θv′。最后更新演員目標網絡中的參數θμ′。至此,本回合內的一次訓練過程結束,轉移至下一個狀態繼續更新參數,直到終止狀態。評論家在線網絡與評論家目標網絡之間的損失函數L(θv)的定義如下

式中:θμ′是演員目標網絡的策略參數;Q′是評論家目標網絡;θv′是評論家目標網絡的策略參數;ρ是衰減因子。在線策略網絡更新方式為鏈式法則,此算法找到最優解的標準就是判斷損失函數的導數是否趨于平穩。結合式(22),L(θv)的導數為

另外,無論是在演員網絡還是在評論家網絡中,在線網絡的參數通過式(28)更新,而目標網絡的參數更新方式均采用軟更新的方式

式中:φ是更新速率,φ∈[0,1];←表示網絡參數迭代更新過程,指示當前迭代中的參數更新由前一輪迭代中的參數計算得來。基于確定性策略梯度的深度強化學習算法具體流程見算法2。

算法2 基于確定性策略梯度的深度強化學習算法

輸入:更新速率τ、衰減速率ρ、評論家在線網絡參數θv、演員在線網絡參數θμ、訓練回合數Ni、訓練步長Nj、評論家網絡學習率αcirtic、演員網絡學習率αactor、經驗回放池大小Bm、樣本數據大小Bn

輸出:無人機最優動態部署策略Λ

1 for i=0 to Ni do

2" 初始化無人機飛行環境;

3" 獲得初始化狀態s;

4" for j=0 to Nj do

5"" 狀態歸一化得到st;

6"" 根據狀態st得到動作at;

7"" 獲得及時獎勵rt+1,并轉移到st+1;

8"" if 經驗回放池未滿 then

9""" "將(st,at,rt+1,st+1)存儲到經驗池;

10" else

11"" 隨機采取2K個樣本;

12"" 計算評論家目標網絡中的Q值;

13"" 根據式(26)計算評論家網絡中的目標網絡與在線網絡的損失函數;

14"" 根據式(27)計算評論家網絡中的損失函數梯度;

15"" 更新演員在線網絡的參數θμ;

16"" 根據式(35)更新參數θv′、θμ′;

17" end if

18 end for

19end for

3 仿真與結果分析

3.1 實驗參數設置

本文針對部署無人機為海量地面設備服務的典型場景進行仿真實驗,地面用戶設備隨機分布在邊長為l的正方形目標區域中。考慮設備數量可變性,設定每隔一定時間在目標區域有新的設備請求邊緣計算服務。本文所用深度強化學習神經網絡基于TensorFlow1.13.0框架搭建,采用2張3層的卷積神經網絡擬合基于確定性策略梯度算法中演員網絡和評論家網絡,每層網絡的神經元為100。仿真參數設定如表1所示[23-24]。

此外,為評估和驗證提出的基于DDPG算法的無人機部署方案的性能,與以下幾種對比方案進行對比:單無人機巡航動態部署方案,即部署單無人機按規劃好的路線服務地面設備;多人機DQN動態部署方案,即采用深度強化學習算法優化多無人機部署;多無人機AC動態部署方案,即采用演員-評論家(AC)算法動態部署無人機;多無人機DDPG動態部署方案,即采用基于確定性策略梯度的深度強化學習算法自主動態部署無人機服務地面設備。

3.2 部署結果和算法收斂性分析

圖3為激活20%設備的情況下,DDPG方案與單無人機方案的無人機軌跡對比。可以看出,由于用戶設備數量較少,采用一架無人機即可滿足設備的服務質量,而基于DDPG部署方案的無人機在尋找懸停位置時,會考慮用戶設備的位置,懸停在用戶設備較為密集的區域;當設備激活比例達到60%時,單無人機無法滿足設備的服務質量要求,新增無人機2進入目標區域,如圖4所示。由圖4可見:無人機2從(400,400)位置出發與無人機1同時為用戶設備提供服務;當無人機1從位置2飛向位置3時,無人機2會向遠離無人機1的位置飛行;當無人機1從位置4飛向位置5時,無人機2同樣也會遠離無人機1。這是因為無人機間存在著干擾,從而影響設備與無人機之間的傳輸功率,在經過多輪訓練后,生成優化的多無人機飛行軌跡,在保證用戶服務體驗質量的同時,達到系統能耗最小化的目標。

圖5展示了設備激活比例從20%到100%過程中的無人機動態部署軌跡,圖中數字表示時隙。當地面激活比例由20%增加到8%時,部署無人機1,軌跡線見綠色線條。當設備激活比例增加為80%時,部署2架無人機為地面設備提供服務,軌跡線為藍色線條。在第19個時隙,無人機2從目標區域右上角加入系統,此時無人機1和無人機2同時進行位置部署優化為用戶設備提供服務。當設備100%激活時,在第29個時隙,兩架無人機無法為地面500個用戶設備提供服務,因此新增部署第3架無人機3(軌跡線為紅色線條)由區域右下角起飛進入目標區域提供服務。

圖6顯示在相同網絡參數下DDPG算法、DQN算法和AC算法的訓練性能對比。可以看到,AC算法無法達到收斂狀態,因為在該算法中演員網絡和評論家網絡存在同時更新的問題,演員網絡的動作選擇取決于評論家網絡中的價值函數,但評論家網絡較難收斂;DDPG算法和DQN算法的累積獎勵都隨著回合數的增加而增加,這是由于其均由目標網絡和在線網絡組成,可減少不同迭代生成數據之間的關聯找到最優策略。此外,DQN算法相比于DDPG算法收斂得更快,但DDPG算法收斂時獲得的累積獎勵為20,而DQN算法收斂時獲得的累積獎勵為-22。這是由于DQN算法是基于值函數的強化學習算法,不僅動作空間有限,而且容易陷入局部最優。

3.3 系統能耗分析

圖7為不同部署方案的系統能耗隨用戶設備增加的變化趨勢。可以看出,當用戶設備激活20%、40%時,基于DDPG的單無人機和多無人機方案總能耗相差不大,這是因為在用戶設備數量較少時,兩種方案均部署單無人機服務地面用戶。當用戶設備增加到60%時,單無人機DDPG動態部署方案的系統總能耗陡增,這是因為單個無人機在服務目標區域時,會在多個位置進行懸停,移動的次數較多,會消耗大量的無人機能量。當用戶設備激活達到100%時,采用多無人機DDPG動態部署方案相比單無人機方案能耗降低約30%,由此體現出多無人機DDPG動態部署方案的優越性。

圖8對比了在不同用戶設備數量下無人機采用正交多址接入(OMA)和NOMA技術的系統總能耗。可以看到,系統總能耗隨著用戶設備激活比例增加而顯著提高,采用NOMA技術的系統總能耗低于采用OMA技術的能耗。當用戶設備激活20%、40%時系統能耗差距較小,這是因為一方面,在設備數量較少時NOMA技術優勢體現不明顯;另一方面,通過DDPG算法優化了無人機的部署方案,使得系統總能耗最小。隨著用戶設備的大量增加(激活比例高于60%),采用基于NOMA技術和DDPG算法的動態部署方案在能耗方面的優勢較為顯著。當激活比例達到100%時,采用NOMA技術的系統總能耗相較于OMA系統降低約40%,進一步說明本文提出的優化部署算法同時適用于OMA和NOMA系統。

3.4 用戶體驗質量滿意度分析

圖9是基于傳統地面基站網絡和DDPG算法動態部署多無人機方案在用戶服務質量滿意度方面的對比結果。部署基站方案中地面基站與用戶設備通信模型和參數見文獻[25],部署的基站數量與本文方案所需的無人機數量保持一致。在相同條件(發射功率、頻譜資源)下,基于地面基站方案在覆蓋范圍上低于無人機部署方案,這是由于基于DDPG算法的無人機能夠靈活移動到最優部署位置以確保服務到大部分用戶。當用戶設備激活20%時,部署一架無人機可以達到用戶設備100%的滿意度,而采用傳統的基站服務設備用戶滿意度僅30%,大部分用戶未得到滿意服務。當用戶數量繼續增多時,本文方案較傳統基站方案在用戶服務質量滿意度上最大提升60%。圖10為不同算法用戶體驗滿意度的比較結果。可以看出,在設備激活比例為20%時,采用單無人機方案、多無人機DQN動態部署方案、多無人機DDPG[HJ2mm]動態部署方案均可獲得較好用戶體驗質量,而AC算法無法收斂,難以滿足用戶體驗質量要求;隨著用戶數量的增加(激活比例超過40%),采用優化單無人機飛行軌跡的方案難以滿足用戶需求;當地面設備激活比例增加到60%后,采用多無人機DQN動態部署方案難以獲得較好的用戶體驗質量;當設備激活比例增加到100%時,所提方案用戶服務質量滿意度較單無人機場景提高約50%。

4 結 論

(1)在訓練階段,采用DDPG算法和DQN算法較AC算法有更好的收斂性,其中DDPG算法可以在復雜的交互環境中取得更高的累積獎勵。

(2)在系統能耗方面,當用戶設備激活低于40%時,單無人機、多無人機DDPG部署方案系統的總能耗相當;當設備激活超過60%時,采用多無人機DDPG方案較傳統單無人機方案能耗降低約30%,若進一步采用NOMA技術,能耗可降低約40%。

(3)在用戶體驗質量方面,當設備激活低于20%時,采用單無人機方案、多無人機DQN和DDPG部署方案均可滿足用戶需求;當激活高于60%時,多無人機DDPG方案能夠取得最好效果,較單無人機和傳統地面基站方案分別提高約50%和60%。

參考文獻:

[1]陳新穎, 盛敏, 李博, 等. 面向6G的無人機通信綜述 [J]. 電子與信息學報, 2022, 44(3): 781-789.

CHEN Xinying, SHENG Min, LI Bo, et al. Survey on unmanned aerial vehicle communications for 6G [J]. Journal of Electronics amp; Information Technology, 2022, 44(3): 781-789.

[2]薛德鑫, 單濤, 徐寧駿, 等. 軍用作戰無人機未來發展研究 [J]. 指揮控制與仿真, 2022, 44(6): 1-6.

XUE Dexin, SHAN Tao, XU Ningjun, et al. Research on the future development of military combat UAV [J]. Command Control amp; Simulation,2022, 44(6): 1-6.

[3]ZHANG Shangwei, LIU Jiajia, ZHU Yajie, et al. Joint computation offloading and trajectory design for aerial computing [J]. IEEE Wireless Communications, 2021, 28(5): 88-94.

[4]WANG Liang, WANG Kezhi, PAN Cunhua, et al. Multi-agent deep reinforcement learning-based trajectory planning for multi-UAV assisted mobile edge computing [J]. IEEE Transactions on Cognitive Communications and Networking, 2021, 7(1): 73-84.

[5]SHEN Lingfeng, WANG Ning, ZHANG Di, et al. Energy-aware dynamic trajectory planning for UAV-enabled data collection in mMTC networks [J]. IEEE Transactions on Green Communications and Networking, 2022, 6(4): 1957-1971.

[6]ZHU Botao, BEDEER E, NGUYEN H H, et al. UAV trajectory planning in wireless sensor networks for energy consumption minimization by deep reinforcement learning [J]. IEEE Transactions on Vehicular Technology, 2021, 70(9): 9540-9554.

[7]TAN Zhenjie, QU Hua, ZHAO Jihong, et al. UAV-aided edge/fog computing in smart IoT community for social augmented reality [J]. IEEE Internet of Things Journal, 2020, 7(6): 4872-4884.

[8]ZHAN Cheng, HU Han, SUI Xiufeng, et al. Completion time and energy optimization in the UAV-enabled mobile-edge computing system [J]. IEEE Internet of Things Journal, 2020, 7(8): 7808-7822.

[9]HUANG Zhengrui, CHEN Chongcheng, PAN Miaoxin. Multiobjective UAV path planning for emergency information collection and transmission [J]. IEEE Internet of Things Journal, 2020, 7(8): 6993-7009.

[10]ZHU Lipeng, ZHANG Jun, XIAO Zhenyu, et al. 3-D beamforming for flexible coverage in millimeter-wave UAV communications [J]. IEEE Wireless Communications Letters, 2019, 8(3): 837-840.

[11]CHENG Nan, WU Shen, WANG Xiucheng, et al. AI for UAV-assisted IoT applications: a comprehensive review [J]. IEEE Internet of Things Journal, 2023, 10(16): 14438-14461.

[12]LIU Yi, XIE Shengli, ZHANG Yan. Cooperative offloading and resource management for UAV-enabled mobile edge computing in power IoT system [J]. IEEE Transactions on Vehicular Technology, 2020, 69(10): 12229-12239.

[13]夏景明, 劉玉風, 談玲. 基于蜂窩網絡的多無人機能量消耗最優化算法研究 [J]. 通信學報, 2023, 44(2): 185-197.

XIA Jingming, LIU Yufeng, TAN Ling. Research on multi-UAV energy consumption optimization algorithm for cellular-connected network [J]. Journal on Communications, 2023, 44(2): 185-197.

[14]BOR-YALINIZ R I, EL-KEYI A, YANIKOMEROGLU H. Efficient 3-D placement of an aerial base station in next generation cellular networks [C]//2016 IEEE International Conference on Communications (ICC). Piscataway, NJ, USA: IEEE, 2016: 1-5.

[15]BITHAS P S, NIKOLAIDIS V, KANATAS A G, et al. UAV-to-ground communications: channel modeling and UAV selection [J]. IEEE Transactions on Communications, 2020, 68(8): 5135-5144.

[16]CELIK A, RADAYDEH R M, AL-QAHTANI F S, et al. Resource allocation and cluster formation for imperfect NOMA in DL/UL decoupled HetNets [C]//2017 IEEE Globecom Workshops (GC Wkshps). Piscataway, NJ, USA: IEEE, 2017: 1-6.

[17]NA Zhenyu, LIU Yue, SHI Jingcheng, et al. UAV-supported clustered NOMA for 6G-enabled internet of things: trajectory planning and resource allocation [J]. IEEE Internet of Things Journal, 2021, 8(20): 15041-15048.

[18]SHINKUMA R, KISHI N, OTA K, et al. Smarter base station sleeping for greener cellular networks [J]. IEEE Network, 2021, 35(6): 98-103.

[19]ANDREAE J H. STELLA: a scheme for a learning machine [J]. IFAC Proceedings Volumes, 1963, 1(2): 497-502.

[20]WANG Yunpeng, FANG Weiwei, DING Yi, et al. Computation offloading optimization for UAV-assisted mobile edge computing: a deep deterministic policy gradient approach [J]. Wireless Networks, 2021, 27(4): 2991-3006.

[21]FAN Jianqing, WANG Zhaoran, XIE Yuchen, et al. A theoretical analysis of deep Q-learning [C]//Proceedings of the 2nd Conference on Learning for Dynamics and Control. Chia Laguna Resort, Sardinia, Italy: PMLR, 2020: 486-489.

[22]TAN Fuxiao, YAN Pengfei, GUAN Xinping. Deep reinforcement learning: from Q-learning to deep Q-[JP+4]learning [C]//Proceedings of the 24th International [LL]Conference on Neural Information Processing. Cham: Springer International Publishing, 2017: 475-483.

[23]LIU Qian, SHI Long, SUN Linlin, et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning [J]. IEEE Transactions on Vehicular Technology, 2020, 69(5): 5723-5728.

[24]WANG Liang, WANG Kezhi, PAN Cunhua, et al. Deep reinforcement learning based dynamic trajectory control for UAV-assisted mobile edge computing [J]. IEEE Transactions on Mobile Computing, 2022, 21(10): 3536-3550.

[25]ZHANG Shangwei, WANG Xiao, SHI Zhenjiang, et al. Reinforcement learning based RSS-threshold optimization for D2D-Aided HTC/MTC in dense NOMA systems [J]. IEEE Transactions on Wireless Communications, 2023, 22(10): 6489-6503.

猜你喜歡
無人機
基于蟻群算法的一種無人機二維航跡規劃方法研究
無人機動態跟蹤展示系統設計
無人機配送的障礙性因素分析
無人機在海上人命救助中的應用
植保無人機操作規程及注意事項
高職院校新開設無人機專業的探討
人間(2016年26期)2016-11-03 17:52:40
利用無人機進行航測工作的方式方法
一種適用于輸電線路跨線牽引無人機的飛行方案設計
科技視界(2016年22期)2016-10-18 14:30:27
淺析無人機技術在我國的發展前景
企業導報(2016年9期)2016-05-26 20:58:26
主站蜘蛛池模板: 无码高清专区| 日韩av在线直播| 91免费精品国偷自产在线在线| 亚洲午夜18| 久久婷婷国产综合尤物精品| 成人福利在线免费观看| 99激情网| 伊大人香蕉久久网欧美| 91麻豆精品国产高清在线| 日韩国产亚洲一区二区在线观看| 国产成人夜色91| 日韩在线网址| 久久精品波多野结衣| 精品一区二区三区无码视频无码| yjizz国产在线视频网| 国产成人久久综合一区| 呦女精品网站| 亚洲全网成人资源在线观看| 青草视频免费在线观看| 免费观看成人久久网免费观看| 国产成年无码AⅤ片在线| 国产精品原创不卡在线| 国产成人综合久久精品尤物| 国产中文一区a级毛片视频| 老司机精品99在线播放| 久久五月视频| 免费看av在线网站网址| 青青草原偷拍视频| 亚洲,国产,日韩,综合一区| 国产视频入口| 日本黄色不卡视频| 天天激情综合| 996免费视频国产在线播放| 国产电话自拍伊人| 国产精品黄色片| 欧美日韩亚洲国产主播第一区| 欧美性精品不卡在线观看| 国产中文一区二区苍井空| 国产精品xxx| 亚洲综合精品第一页| 欧美a级在线| 九色综合视频网| 国产成人艳妇AA视频在线| 国产欧美日韩另类| 亚洲最大福利视频网| 国产成人高清在线精品| 99视频在线看| 国产女人水多毛片18| 亚洲综合色婷婷中文字幕| 亚洲综合天堂网| 亚洲天堂网视频| 91黄色在线观看| 午夜精品区| 色综合久久久久8天国| 久久综合亚洲鲁鲁九月天| 国产内射一区亚洲| 成人一级黄色毛片| 成年人免费国产视频| 欧美天堂久久| 久久久久久久久18禁秘| 午夜精品福利影院| 国产精品男人的天堂| 57pao国产成视频免费播放| 色欲综合久久中文字幕网| 911亚洲精品| av在线手机播放| 国产杨幂丝袜av在线播放| 欧美日韩免费观看| 呦视频在线一区二区三区| 国产精品99在线观看| 亚洲精品大秀视频| 国产一区二区三区精品久久呦| 欧美精品H在线播放| 在线精品欧美日韩| 98精品全国免费观看视频| 国产熟睡乱子伦视频网站| 67194亚洲无码| 日本高清有码人妻| 永久天堂网Av| 国产成人AV大片大片在线播放 | 亚洲毛片一级带毛片基地| 99久久精品国产精品亚洲|