關鍵詞:無人機通信控制;公平性指數;深度強化學習;混合動作空間中圖分類號:TP183 文獻標志碼:A 文章編號:1001-3695(2025)08-027-2452-08doi:10.19734/j.issn.1001-3695.2024.12.0498
Reinforcement learning-based approach for maximizing service fairness in emergency drone networks in disaster areas
LiHuaicheng,Peng Jian?,HuangWen,ShenQunli,Liao Sirui ( 61oo65,China)
Abstract:Existing methodsfor unmanned aerial vehicle (UAV)-based emergency communication services in disaster areas optimizenetwork performanceunderglobalenvironmental information.However,thesemethodssuferfromlownetworking eficiencyandunbalancedresourcealocation,which hinderthe maintenancestablecommunication services indynamicdisaster environments.As aresult,some users may not receivetimelyrescue.This paper addresed the problem maximizing UAV communication quality.The method modeled the problem as a POMDP and designed a deep reinforcement learning-based approach tooptimize UAV path planning andresource alocation.The methodused network throughput astheservicequalitymetricandJain’sfairnessindexasthebalancingcriterion.Itdevelopedareward functionmechanismbasedonobjectivedecoupling,and constructeda parameterized deep graph reinforcement learning network toachieve joint optimization UAV trajectoryplanningandresource allcation.Extensivecomparativeexperiments wereconductedunder16dferent simulationconditions.The proposed method significantlyoutperformed four baselinemethods,improving the fairness index by 9.6% and demonstrating effectiveness across multiple performance metrics.
Key words:UAV communication control;fairness index;deep reinforcement learning;hybrid action space
0 引言
無人機通過搭載通信模塊,作為空中基站為地面用戶提供臨時通信服務已經得到了廣泛的應用,這對搭建災區救援的應急網絡是一項有前景的技術[1,2]。當災難發生時,首要任務是及時發現并撤離受災人員至安全地帶。然而,災害通常會破壞地面基礎設施,例如,2023年9月的“丹尼爾”颶風造成利比亞大規模的基礎設施和道路損壞,導致交通堵塞、停電和通信中斷[3]。無人機憑借高靈活、易于部署等獨有優勢,成為災區救援研究中的熱點。無人機在高空作業平臺利用衛星通信技術,可以為受災用戶提供應急通信服務[4,5]
目前,已經存在大量關于部署無人機以提供應急通信服務的研究[6~8]。一些研究[9~11]在給定災區環境下,對網絡性能進行了優化。但是,這些研究為受災用戶提供的通信服務質量(qualityservice,QoS)不平衡,例如用戶長時間不被服務、通信質量差異過大等,都會導致部分受災群眾無法及時獲得救援。同時,這些研究忽略了災區環境的動態性和獲取信息的局限性,災區的特性導致其往往無法獲得全局環境信息,無法投人到真實災區應用中[12-14]。文獻[9]假設已知全局受災用戶的位置和信息來劃分用戶類型,設計了按需通信的無人機彈性通信架構,將無人機作為可快速部署的蜂窩基站部署到災區協助救援。通過設計無人機與設備關聯的匹配博弈方法,確定無人機部署位置和通信信道分配方案,最大化網絡吞吐量。文獻[10]在災區服務請求確定的條件下部署無人機,設計了一種無線網狀無人機集群架構協助數據收集,通過無線網狀路由保持集群內部通信,并通過廣域通信與控制中心通信。他們提出一種基于圖的完全分布式啟發式方法優化無人機群的移動路徑,最小化移動開銷。文獻[11]研究已知任務目標位置條件下,延遲敏感型場景中的無人機應急通信問題,通過移動無人機自組網絡,提高通信效率并減少整體任務延遲。他們提出一種任務管理和路由算法,從整體優化的角度最小化總任務延遲。
還有一些研究探索了如何為用戶提供均衡通信服務[15]如從注重服務時間公平性角度來最小化最大延遲[16],從注重數據傳輸公平性角度來最大化最小吞吐量等,這些研究從多個角度優化服務質量的公平性問題,但仍忽視了災區中信息的動態性和獲取信息的局限性,所提方法依賴于環境的全局信息,難以直接應用于災區緊急救援任務。文獻[5]設計了結合無人機通信技術和D2D技術的災區應急通信模式,其中的邊緣用戶和中心用戶通過D2D技術依靠無人機基站接入網絡,無人機則通過衛星保持通信連接。他們基于凸優化和次模函數理論提出一種近似算法,根據用戶位置優化無人機部署與資源分配方案,最大化用戶通信服務的公平程度。文獻[16]利用無線電的解碼能力,將信號分割為多個獨立流,實現用戶通信資源的動態分配。他們關注由用戶能量有限、用戶剩余能量不足而導致的服務不公平問題,根據用戶位置和能量限制,聯合優化無人機高度、帶寬分配、發射功率和分配系數,最小化最大傳輸延遲。文獻[17]基于用戶分布和吞吐量情況,為用戶設計了與時間相關的時變權重,依照服務間隔來提高時變權重,量化網絡公平性。他們設計了多智能體無人機基站的分布式控制算法,通過優化無人機軌跡,實現網絡加權吞吐量最大化。
在部分災區信息已知的條件下,還有極少一部分研究探索了無人機動態的組網方式,以提高個用戶通信質量的公平程度。文獻[18]從用戶數據傳輸速率的角度設計公平指標,量化網絡的公平性,研究無人機群在用戶和信道信息未知、不可交換信息的條件下的軌跡和資源分配問題。他們通過提出一種分布式學習框架訓練無人機群,實現公平性指標的最大化。然而該研究假定無人機僅能根據自身觀測信息決策,未利用無人機群動態組網時的觀測信息。文獻[19]研究無人機在未知目標區域的通信覆蓋,關注在局部觀測條件下的無人機軌跡優化問題,設計了基于覆蓋范圍、能量效率、網絡公平性的綜合指標衡量網絡公平性,并提出一種新型網絡處理無人機局部觀測信息,通過啟發式的獎勵函數實現指標最大化。但是,該研究僅優化了無人機軌跡,未考慮到資源分配問題。此外,采用單一動作空間和綜合指標設計無法保障覆蓋范圍內用戶資源分配的服務質量,限制了網絡服務質量公平性的提升。
針對災區無人機應急組網中的部分觀測條件和服務質量,本文研究了基于部分觀測信息的用戶公平通信組網問題。本文兼顧通信質量和單次服務時長,使用吞吐量衡量用戶的服務質量,并利用吞吐量的Jain’s公平性指數表征用戶獲得通信服務的公平程度;通過優化無人機軌跡和資源分配方案來實現最大化通信質量的公平指數,以使得各用戶在保證最低通信質量的條件下,避免出現部分用戶長時間不被服務的現象。本文將無人機動作和資源分配過程建模為部分觀測的馬爾可夫決策過程,利用深度強化學習與環境的強交互性和強自適應性,有效地捕獲動態和不完全的災區信息;設計基于部分觀測信息的獎勵函數;為提升決策細粒度、擴展無人機感知野,基于PDQN模型,本文提出了一種參數化深度圖強化學習網絡(pa-rameterizeddeepgraphnetwork,PDGN),引人圖注意力機制處理無人機鄰居信息,并采用參數化的方法優化混合動作空間決策,最大化用戶獲得的通信服務質量的公平程度。本文在多個不同實驗環境下與多個算法進行了對比實驗,結果表明,本文方法在多次實驗中,公平性平均提升了 9.6% 。同時,在不同條件災區環境的對比中,如在不同規模的無人機群中,相比次優算法的公平性指標領先 5.3%~11.1% ,能量利用效率增加了 4.7%~5.8% ,并有效減少了用戶單次服務間隔。
1系統建模與問題描述
1.1系統模型
假設一個地區正在受到自然災害,例如地震或洪水,這里的地面基礎通信設施已經被破壞,受災人員無法發送信息至救援隊伍[20],如圖1所示。這片區域被視為三維歐幾里德空間,根據文獻[21],人類在空間內的流動分布符合齊普夫定律( Zipf) ,假設有 z 名受災用戶依照 Zipf 分布分散于這片受災區域內,用 G={g1,g2,…,gz} 表示用戶集合。
受災區域中,有 n 架無人機等待為地面用戶提供應急通信,記 U={u1,u2,…,un} 表示為服務在該區域的無人機集合。一般來說,無人機集中停放在固定的倉庫,假設每架無人機 ui ( 1?i?n )處于相同的初始位置,在同一飛行高度 h 為地面用戶提供服務,無人機的位置信息可以通過GPS實時獲取。飛行高度過高或過低,會導致無人機與地面設備距離增加或障礙物遮擋概率增大,造成通信信道質量的下降;根據現有的研究[22],無人機的最優高度可測算為 h=300m? ,每架無人機通常配備有通信設備,比如衛星通信模塊、WiFi模塊等以執行任務[23]。假設任務執行的總時間為T,執行過程被劃分為若干個相等的時隙,長度為 ts ,無人機在每個時隙中針對具體情況為地面用戶提供通信服務,如分配帶寬或者調整飛行速度。
圖1災區中動態部署無人機群提供通信服務 Fig.1Dynamic deployment droneswarms toprovide communications in the disaster areas
1.2 信道模型
無人機為覆蓋范圍內的用戶提供服務的方式通常為時分多址通信技術,可在同一時隙內為多名用戶提供通信服務。本文采用與文獻[23]中相似的無人機用戶通信信道模型,令PLi,j 和 PNi,j 分別代表時隙 Φt 內無人機 ui 與地面用戶 gj 之間信道的視距(line sight,LoS)概率和非視距(non line sight,NLoS)概率。根據空對地信道模型得到 PLi,j 表示為
其中: a 和 b 是環境決定的經驗參數,由文獻[22]通過數據擬合確定不同環境下 Ψa 和 b 的具體數值; θi,j 表示無人機與地面用戶之間的仰角,單位為弧度。NLoS 概率可被計算為 PNi,j= 1-PLi,j 。視距鏈路和非視距鏈路的平均信道增益記為 Li,j 和NLi,j ,表示為
其中 表示無線電頻率; di,j 表示無人機 ui 與用戶 gj 間的距離; c 表示光速; ξLoS?ξNLoS 分別表示視距鏈路和非視距鏈路的平均陰影衰減。根據文獻[24],無人機 ui 與用戶 gj 在時隙 χt 內通信的平均路徑損耗表示為 Li,j=PLi,j?Li,j+PNi,j?NLi,j° 更進一步地,無人機與用戶通信信道的信噪比可計算為
其中: ?Pu 表示無人機基站發射功率; gu 表示基站天線增益; Pn 表示高斯白噪聲功率。假設 Cov(ui) 代表無人機通信范圍 Rcov 內的用戶集合, Bmax 表示每架無人機可供分配的帶寬上限,無人機在時隙 Ψt 為用戶分配的帶寬額度占總額度的比例為 xi,j ,覆蓋范圍內的用戶分配帶寬比例滿足 gj∈Cov(ui) ( 0?xi,j? 1),其余用戶為 0 。根據式(4)計算無人機 ui 與用戶 gj 的平均數據傳輸速率 Ci,j 為
Ci,j=xi,j?Bmaxlog2(1+SNRi,j)
1.3 能耗模型
旋翼無人機依靠垂直起降、續航時間更長等特性,更適合作為應急通信網絡的載體,因此,本文采用旋翼無人機作為研究對象[25]。根據文獻[19],旋翼無人機能耗主要由通信能耗及推進能耗兩部分構成,其中,通信能耗相比后者小三個數量級,可以忽略[19]。為更貼近現實,文獻[26]提出了基于速度調度的旋翼無人機功耗模型,無人機勻速飛行時的功耗可表示為
其中, vit 是無人機在時隙 χt 的速度,其他參數為無人機結構決定的常數; P1,P2 和 v0 表示無人機懸停時的葉片剖面功率、誘導功率和平均轉子誘導速度; κ 表示無人機推重比; Uup 表示無人機的葉片線速度; d0 和 s 分別表示機身阻力比和轉子實度 ;ρ 和 A 分別表示空氣密度和轉子盤面積。文獻26通過真實無人機實驗確認上述參數的具體取值。此外,設無人機的最大速度為 vmax ,時隙切換時,無人機會進行速度調度并產生變速能耗,因此最終的無人機能耗計算由飛行能耗和變速能耗組成,公式可表示為
其中: 表示無人機平均加速度的常數。
1.4 問題描述
一組無人機在某個受到災害的區域內飛行,完成應急通信組網。無人機觀測范圍為 Robs ,通信范圍為 Rcom ,碰撞避免范圍為 Rcol 。有 z 名受災用戶依照 Zipf 分布隨機分散在區域內[5],等待無人機提供通信服務。由于災難的突發性,無人機對區域內受災用戶信息未知,無人機通過動態組網獲取觀測信息,滿足 的相鄰無人機 ui 與 ui′ 可交換各自的觀測信息輔助決策。同時,為避免無人機碰撞,移動后距離di,i′?Rcol 的相鄰無人機需要重新進行部署決策。假設無人機初始能量為 Emax ,根據式(7),無人機 χt 時刻的剩余能量正計算為
每架無人機配備無線基站和衛星通信模塊,具備應急通信服務提供能力。當無人機提供通信服務時,覆蓋范圍內的用戶根據分配的帶寬進行數據傳輸,獲取到救災信息,與外界聯絡。χt 時刻用戶的數據總吞吐量可計算為
為考慮用戶的救援需求,保證用戶獲得有效服務。本文利
用吞吐量衡量服務質量,引人Jain’s公平指數來量化無人機服務質量的公平性。根據式(9),無人機服務質量可表示為
最后,本文目標是通過聯合優化無人機群軌跡、速度調度以及覆蓋范圍內用戶的帶寬資源分配比例,最大限度地提高Jain's公平指數。在數學上本文任務執行時的問題表述如下:
該問題被稱為服務質量公平性最大化問題。上述問題的目標函數是非凸非凹函數,且第五條約束也不具有凸性質,所以該問題難以被求解,此外,無人機軌跡、速度調度和用戶帶寬資源分配比例這三組優化變量之間具有極強的耦合性,傳統的問題分解或擬凸方案,無法有效獲得效果良好的可行解。
2基于PDGN的無人機網絡服務公平性最大化方案
為獲取無人機的速度調度與資源分配方案,本章將服務質量公平性最大化問題建模為部分觀測條件下的混合動作空間馬爾可夫決策過程。在此基礎上,提出了一種新型參數化深度圖神經網絡(PDGN),用于提取觀測信息,耦合無人機的速度調度與資源分配動作方案。PDGN提供了針對混合動作空間的決策機制,有效解決了混合動作空間與部分觀測條件下的建模與優化問題。
2.1馬爾可夫決策過程
2.1.1 觀測空間
在自然災害發生的區域中,受災用戶根據 Zipf 分布隨機分布在災區,無人機群通過觀測執行速度調度與資源分配方案。無人機的觀測內容包括兩部分:無人機狀態向量 oUAV ,該向量長度為 lUAV ,編碼了無人機的橫縱坐標、速度、方向及剩余能量等狀態信息;觀測范圍內用戶的吞吐向量 σP0I ,由于相同坐標下的無人機觀測的范圍內用戶坐標信息是重復的,無人機的坐標隱含了用戶坐標的信息。為減少觀測空間的大小,觀測內容僅保留用戶吞吐量信息以提升算法的計算效率。
此外,無人機觀測范圍內的用戶數目隨著位置動態變化。為保證觀測向量的維度一致性,用戶吞吐向量 σoPOI 被補充為固定長度 lPOI ,該長度根據 Zipf 分布和無人機的觀測范圍計算得出,等價于單架無人機能夠觀測到的最大用戶數目。最終,將無人機狀態向量 oUAV 與觀測用戶狀態向量 拼接,形成觀測空間 oi ,長度為 lUAV+lP0I ,表示為
其中: 表示拼接運算。
2.1.2 動作空間
任務執行過程中,無人機通過速度調度前往服務點,再依據資源分配方案為地面用戶提供通信服務。不同的速度調度方案影響懸停時無人機覆蓋范圍內的用戶狀態,導致資源分配方案的變化。因此,速度調度與資源分配是相互關聯的動作,速度調度會對資源分配的選擇產生影響。由于時間片長度較小的特點,相比資源分配比例,速度和方向對目標函數的影響相對較弱。此外,較小的動作空間有助于算法的快速收斂。因此,本文合理地簡化速度和方向的調度,將其定義為有限維度的離散動作以加速算法的收斂;而分配比例因對性能有更大影響力,仍定義為連續動作,以細粒度優化地面用戶的動態通信服務。
本文假定無人機具有相同的動作空間 A ,如圖2所示,問題的動作空間是包含離散動作和連續動作的混合動作空間,由速度調度和寬資源分配兩部分組成,表示如下:
A={(k,xk)|xk∈Xforallk∈K}
其中: k 代表選擇的離散動作,表示速度調度的方案; xk 代表選擇的連續動作,表示資源分配的方案; κ 是離散動作集合,包含K 種離散動作 ;X 是連續動作集合,表示采取速度方案 k 后的連續動作集合,可用長度為 lk 的向量進行描述。
本文將無人機飛行的二維平面劃分為八個方向(正北、正東、正南、正西及其對角方向),每個方向提供兩種速度值,如圖2俯視圖所示。圖2中的每個箭頭代表一種速度調度動作,包括原地懸停在內,共有17種,離散動作集合 κ 的大小為17。
圖2供應急通信的無人機的動作空間
在帶寬資源分配時需要考慮每個用戶的分配比例,高維的動作空間導致無人機探索困難、決策復雜。因數據傳輸速率與距離相關,本文根據與無人機中心投影位置的距離相似性,將用戶分批優化,按區域進行資源分配。當無人機執行動作 k 抵達服務點后,覆蓋范圍被劃分為四個用戶數目大致相等的區域,劃分依據為用戶到無人機中心投影的距離,如圖2正視圖。因此,離散動作 k 對應的連續動作集x可以用長度為4的向量表示。假定該向量為 ,其元素滿足以下條件:
本文的動作空間 A 為包含離散動作和連續動作的混合動作空間。其中,離散動作為包含17種用于速度調度的動作,連續動作用于量化帶寬資源分配,可以用長度為4的向量描述,該向量的每個元素表示對應區域的分配比例。
2.1.3基于部分觀測的獎勵函數
本文用Jain's公平性指數衡量服務質量,計算該指數需要每個用戶的狀態信息。然而,在執行災區通信任務時,無人機僅能獲取觀測范圍內的用戶信息,無法直接使用Jain’s公平性指數作為獎勵函數。因此,本節設計了一種基于局部信息的獎勵函數,用于擬合Jain’s公平性指數。用戶在無人機行動后產生的獎勵和總獎勵可由以下公式計算:
其中: p 是超參數; G 是災區用戶集合; Tjt 是截止到 χt 時刻用戶gj 的累計吞吐量。記 γ 為折扣因子,累計折扣獎勵表示為
2.2參數化深度圖強化學習神經網絡
本節將介紹設計的參數化深度圖強化學習神經網絡PDGN,所提模型用于解決無人機服務公平性最大化問題的兩個要點:一方面,無人機往往因為局部信息決策而導致決策不完善;另一方面,無人機的速度調度和資源分配組成的混合動作空間需聯合優化,決策復雜性提高。
如圖3所示,PDGN包含觀測模塊和決策兩個模塊。因為圖注意力機制可以提高無人機感知野,適合處理無人機動態組網下的相鄰無人機觀測特征的加權聚合。PDGN在觀測模塊中引人圖注意力機制聚合鄰居信息特征。同時,參數化的強化學習網絡適合解決高細粒度的混合動作空間決策。因此,本文在決策模塊中采用參數化的方法聯合優化離散動作和連續動作,提高策略質量,使智能體能在復雜環境中高效行動。
圖3PDGN模型的學習推理過程 Fig.3Learning and reasoning process the PDGN
2.2.1 觀測模塊
觀測模塊使用多層感知機作為編碼器,對無人機在 χt 時刻的觀測向量 ?t 編碼,編碼器的輸入為觀測向量,輸出為嵌入eit ,可表示為
et=ENC(ot)
接著將無人機群建模為拓撲圖,無人機視作節點,嵌入 et 視為節點特征信息,可通信的相鄰無人機之間表示具有連接的邊,鄰接矩陣定義為 Dt 。PDGN采用圖注意力網絡聚合無人機與鄰居節點信息,無人機 ui 的鄰居節點集合定義為 NUAV(ui) ,對于節點 uj∈NUAV(Ωui) ,加權后的特征信息 αij 表示為
其中: αij 是無人機 ui 與 uj 的注意力系數; W 是學習到的線性變換矩陣; η 是可學習的權重向量; σ 是非線性激活函數。為穩定提升注意力表達效果,模塊采用多頭注意力機制,每個節點通過多個注意力頭聚合信息,學習注意力權重分布[27]。
其中: αijm 和 Wm 是第 m 個注意力頭的注意力系數和線性變換矩陣; sit 是注意力頭拼接的結果。令 s 表示觀測模塊的網絡,網絡的輸入與輸出可以表示為
sit=S(ot,Dt)
同時,由于單層GAT的每個節點聚合直接鄰居特征,無法捕捉更遠的節點信息,所以模塊采用兩個GAT疊加提取兩跳鄰居節點信息[28]。觀測模塊輸出聚合后的狀態向量 s 到決策模塊,進行下一步的策略學習。
2.2.2決策模塊
獲得聚合鄰居信息的狀態向量后,PDGN采用決策模塊確定無人機的離散-連續動作的耦合方案。根據動作價值函數定義動作空間的表達式(13),本文動作空間 A 下的動作價值函數可表示為 Q (s,k,xk) s∈S,k∈K,xk∈K 假定無人機在 χt 時刻選擇的離散動作為 kt ,耦合對應的連續動作為 xkt ,參考經典貝爾曼方程,本文的貝爾曼方程被更新為
在上述公式中,無人機的連續動作 xk 是與離散動作 k 相關聯的動作,在計算動作價值前,需要先對 ?k∈K 計算 xk= argma xxk∈xQ(st+1,k,xk) ,得到每個離散動作 k 耦合的連續動作 xk* ,再選擇使得價值最大的 。
參考PDQN模型的思路[29],當Q方法固定時,將計算連續參數上界的 argmaxxk∈χQ(st+1,k,xk) 視為由無人機狀態到連續參數的函數映射 貝爾曼方程更改為
Q(st,kt,xkt)=Ert,st+1[rt+γmaxk∈KQ(st+1,k,xkQ(st+1))∣s=st]
PDGN使用 網絡近似式(23)中的動作價值函數Q(s,k,xk) ,并通過ParamQ Ξ(Λ?Λ;θ) 網絡近似函數與動作參數之間的映射關系 xkQ
如圖3所示。
在處理混合動作空間時,決策模塊采用與以往相同的處理形式[29],分別處理離散動作和連續動作來形成有效決策。最終,決策模塊由四個網絡組成:ParamQ網絡、目標ParamQ網絡、Q網絡和目標Q網絡。其中, ParamQ 網絡將狀態和離散動作映射到連續參數中,生成每種離散動作對應的連續參數列表。Q網絡通過狀態和連續參數估計動作價值,選擇離散動作,并確定對應連續參數值為離散-連續動作的耦合方案。設置的目標網絡用于減小模型更新的波動性,穩定目標值計算過程。
PDGN將觀測特征模塊輸出的狀態向量 st 作為Param Q網絡輸人。ParamQ網絡由三層網絡構成,輸出層通過Tanh函數將其結果放縮到[-1,1],最終的輸出向量如下:
其中: :Xk 代表ParamQ網絡; xt 是連續參數列表,包含每個離散動作對應的連續動作。例如 xt 中的一段向量 [xi1,…,xilk] 代表第 i 個離散動作耦合的連續動作。隨后,將 xt 與 st 拼接,形成新的輸入向量,輸入到Q網絡進一步計算,Q網絡由三層網絡構成,輸出的結果表示為
qt=Q(st,xt;ω)=[q1,…,qK]
其中: qt 是長度為 K 的向量; ω 為網絡參數。最終, qt 中元素的最大值索引 kt=argmaxi{qi} 作為離散動作,從 xt 中截取的連續參數 xkt 作為連續動作,得到策略的離散-連續動作方案。
PDGN采用梯度下降最小化貝爾曼誤差學習網絡參數。假設在第 χt 步中,Q網絡和ParamQ網絡的參數分別為 ωt 和θt ,結合多步時序差分算法,差分目標可以計算為
在 ω 固定時,通過對 Q(s,k,xk(s;θ);ω) 最大化來計算 θ 本節定義兩個損失函數,表示為
根據式(21)(27)和(28),PDGN模型無人機每步獲取元組 (ot,Dt,kt,xkt,rt,ot+1,Dt+1) 作為經驗存儲在經驗回放池中。每步中,無人機獲取觀測量,通過PDGN得到速度調度與資源分配動作的耦合方案,采用 σε 貪婪策略權衡開發和利用,執行動作并獲取獎勵以及下一個觀測狀態,最終將經驗存儲于經驗回放池。網絡訓練時,模型從經驗回放池中隨機抽樣數據,計算損失函數來更新模型參數,算法具體流程如下:
算法1基于PDGN的無人機速度調度、資源分配優化算法
輸入:無人機初始位置和初始化的用戶坐標。
輸出:無人機的速度、資源分配方式。
超參數:ParamQ網絡參數 ω ,學習率 lrP;Q 網絡參數 θ ,學習率lrQ ;貪婪策略概率 ε
隨機初始化 ParamQ,Q 網絡參數,經驗回放池D和總時間步 T
for回合1→最大訓練回合 do 初始化無人機和用戶狀態for時間步 t=1 →最大時間步 do :T←T+1 for智能體 σσoittDit ←當前環境的智能體觀測量、無人機鄰接矩陣k,xk ←在 ε 貪婪策略下基于PDGN獲取決策智能體執行離散動作 k 和連續動作 xk rit. 智能體獲得的獎勵oit+1 Dit+1 ←新環境的智能體觀測量、無人機鄰接矩陣end for存儲樣本 (ot,Dt,kt,xkt,rt,ot+1,Dt+1) 到經驗回放池 D if時間步滿足間隔then:從 D 中取出經驗,根據式(27)和(28)計算損失函數根據損失函數更新PDGNendifend for根據總時間步 T 更新 ε 大小if T 滿足目標網絡更新間隔then:更新目標網絡Q和ParamQend if
end for
3仿真實驗
本章采用仿真實驗驗證PDGN算法在災區無人機應急通信服務公平性最大化問題的可行性和有效性,并與近年對比算法比較多種實驗環境下的性能指標。實驗使用Python3.9.19軟件平臺的Pytorch2.3.1框架,運行環境為Windows11系統,硬件環境包含:Inteli5-12600KFCPU3.70GHz,32GB。
本章實驗的對比方法包含基于凸優化和次模函數的方法(無人機最大效用(MaxUtility)部署算法[5])、基于深度強化學習的方法(基于多智能體深度強化學習的分布式無人機基站控制算法(MADRL-based distributed UAV-BSs control approach,MAUC)[17])基于軟深度循環圖網絡(st deep recurrent graphnetwork,SDRGN)的多無人機部署算法[19]和基于Stein變分推斷的最大熵強化學習(Stein st actor aritic,S2AC)算法[30]。實驗中涉及參數的具體數值如表1所示。
表1仿真參數設置
Tab.1Simulation parameter seting
3.1 實驗設置
本節實驗的評價指標是Jain’s公平性指數、能量效率、平均服務斷開時間。Jain’s公平性指數用于評估不同用戶接受的網絡服務是否公平,數值為0~1,且越接近1代表網絡中的用戶得到越公平的服務。能量效率用無人機單位能量的吞吐量衡量,表示算法的效益,值為每花費1單位無人機能量,網絡得到的吞吐量。平均服務斷開時間衡量了用戶對通信服務的滿意程度,用戶斷開通信服務時間越長,用戶越不滿意。
為評估提出的三個指標,本文通過實驗進行驗證。以1000名用戶,3架無人機的仿真環境為例,讓智能體進行4000回合的訓練,并進行100次測試。每次訓練過程中,記錄智能體的每回合獎勵值,取得回合的多次訓練均值,并繪制強化學習算法的獎勵曲線。如圖4所示,其中,陰影部分為獎勵的95% 置信區間,實線為獎勵均值。從曲線看出,四種方法在3500回合后均達到收斂,MAUC相較其他三種算法有更快的收斂速度,這是由于其模型結構相對簡單。雖然本文方法收斂速度慢,但最終獎勵高于MAUC。
圖4各模型訓練時的每回合獎勵變化曲線
圖5記錄了各算法在測試時的用戶吞吐量概率分布區間以及公平性。實驗還模擬了全局用戶信息已知的環境,并記錄在全局觀測條件下PDGN算法的測試結果,以對比部分觀測條件下各算法的表現,如圖5的F-PDGN標簽所示。圖5(a)展示了各算法的用戶吞吐量概率分布曲線,曲線陡升幅度越大,代表用戶吞吐量越集中;陡升區域越接近中心,代表分布越均勻。在部分觀測條件下的對比中,PDGN的曲線上升趨勢最明顯,用戶吞吐量主要分布在 300~600 ,接近中心位置,代表吞吐量接近平均值,無人機的通信服務公平性較高。同時,PDGN與F-PDGN的曲線陡升幅度相近,說明在部分觀測條件下,PDGN算法能充分利用信息,減少因全局信息缺失而導致的決策誤差。圖5(b)展示了100次實驗的公平性指標分布,其中分布點越密集,算法效果越穩定。圖中紅線表示公平性指標的平均值,紅線高度反映算法性能(見電子版)。與其他算法相比,PDGN的公平性指標分布更集中,穩定性更高。公平性均值方面,PDGN的指標顯著優于其他三種方法,相比次優的S2AC方法提升了 9.6% ,相比于全局觀測條件下的算法僅降低了 3.1% 。這些結果表明,PDGN算法在部分觀測條件下仍能有效保證用戶服務的公平性和系統的穩定性。
圖5網絡的用戶平均吞吐量概率分布與公平性指標分布 Fig.5Probabilitydistribution average throughput and fairness indexin user network
3.2 性能指標對比與分析
實驗模擬了不同數量無人機對網絡公平性、能量效率、平均服務斷開時間的影響。如圖6所示,當無人機數量從2增加到10時,單架無人機到達最佳服務點的平均位移減少,使其能提供更長時間的通信服務,能量利用效率提升。隨著無人機數量增加,無人機群覆蓋的用戶數目增加,顯著降低服務斷開時間并提高公平性。在五種算法的對比中,PDGN充分利用了相鄰無人機觀測信息聯合優化速度調度與資源分配方案。當無人機數量增加,PDGN對局部信息獲取的精準性提升,在不同數量無人機下均表現優異。如當無人機數量為2時,PDGN的公平性值為 79.1% ,相較于S2AC的公平性值 75.1% 提升了5.3% ,能量利用效率為0.646,相較于S2AC的0.617提高了4.7% ;當數量增加到10時,PDGN相較次優的SDRGN算法在公平性上提高了 11.1% ,能量效率提高了 5.8% ,并將服務斷開時間減少了0.81單位時間。S2AC適合處理單智能體決策,在少數量無人機下的表現略優于SDRGN,如數量為2時,S2AC公平性相較于SDRGN提升 1.2% ;隨著無人機數量提升,無人機組網信息交互頻率提高,SDRGN憑借圖注意力機制聚合相鄰無人機信息,拓展無人機視野,能獲得更好的效果。MaxUtil-ity為基于凸優化的近似算法,在每個時間片中使用凸優化迭代,僅能達到次優效果,因此在實驗中的各項指標上表現較差。同時,由于同一用戶在任意時刻只能由一架無人機提供服務,當無人機數量超過閾值(例如8架),指標的提升趨于平緩,性能接近飽和。
(c)不同無人機數量下的用戶服務斷開時間
圖6不同無人機數量下的網絡公平性-無人機能量效率-服務延遲Fig.6Fairness-energy efficiency-service delayunderdifferentnumbers drones
如圖7所示,實驗分析了不同用戶密度對網絡公平性、能量效率和服務斷開時間的影響。橫坐標表示每平方千米內的用戶數目。隨著用戶密度增加,單位時間內覆蓋用戶數上升,網絡公平性、能量效率和服務斷開時間顯著提升。與S2AC、MAUC和MaxUtility相比,PDGN和SDRGN都通過圖注意力機制有效聚合局部觀測信息特征,在低用戶密度環境中實現更精準的決策。相比SDRGN,PDGN進一步設計資源分配和速度調度的耦合機制,并利用混合動作空間學習執行更高細粒度的資源分配,在高用戶密度環境中獲得優異表現。以用戶密度為1000的仿真為例,PDGN的公平性達到了 93.1% ,分別較上述算法提升了 9.1% 、11. 8% 、 13.3% 和 40.5% ,能量效率為0.66,提升了 4.9% 5.8%.7.1% 和 38.6% 。服務斷開時間在用戶密度為1000時,PDGN相較次優算法減少0.34單位時間;在用戶密度為800時,減少0.56單位時間,體現了PDGN在速度調度與資源分配聯合優化以及局部信息特征聚合方面的顯著優勢。
圖7不同用戶密度的網絡公平性-無人機能量效率-服務延遲
Fig.7Fairness-energy efficiency-servicedelayunder different user densit
如圖8所示,驗證各算法在不同初始能量條件下的穩定性,實驗模擬了不同初始能量對無人機網絡公平性、能量效率和服務斷開時間的影響。當無人機能量從18萬增加到30萬時,五種算法均根據能量變化調整部署和資源分配策略,各項指標在一定范圍內波動。在相同能量水平下,PDGN憑借對局部信息的高效聚合和混合動作空間的學習能力,在各項指標上均表現出顯著優勢。以各算法在不同能量下的公平性指標波動幅度為例,PDGN在不同能量下的公平性指數最高為83.3% ,最低為 81.7% ,波動幅度為( 83.3%-81.7%)1 81.7%=1.9% ,小于其他算法在公平性指標上的最小波動幅度 4.5% 。在不同能量下PDGN的能量效率幅度為 2.1% ,平均延遲的波動范圍為0.26,也均小于其他算法的最小波動幅度 3.8% 和波動范圍0.57。該實驗結果表明,PDGN能夠在能量變化中動態調整決策,顯著提升了算法的穩定性和收斂性,這一優勢得益于PDGN在策略上更高的細粒度以及對相鄰無人機信息的高效聚合,從而具備更強的抗干擾能力。
4結束語
無人機成為災區應急救援研究中的熱點,但現有的大部分文獻忽視了對服務質量公平程度的平衡,同時基于全局信息的研究難以直接應用于無人機的災區救援任務中。
本文針對部分觀測條件下的服務質量公平性最大化問題,提出了一種基于混合動作空間的無人機控制方法,以提升公平性指標為優化目標。通過設計觀測空間、動作空間和獎勵函數,將問題建模為部分觀測的馬爾可夫決策過程。同時,本文提出了一種PDGN模型,用于聚合相鄰無人機的觀測信息,并耦合無人機的速度調度與資源分配動作方案。仿真實驗結果表明,PDGN在不同實驗條件下均具有良好的收斂性,其在公平性指標、能量效率和服務斷開時間的表現均優于現有算法。
未來工作中,患者將進一步研究如何在動態用戶環境下擴展本文模型,并改進模型以適應更復雜的用戶分布特性。
參考文獻:
[1]李夢麗,王霄,米德昌,等.災害場景下基于MADRL的信息收 集無人機部署與節點能效優化[J].計算機應用研究,2024,41 (7):2118-2125.(Li Mengli,WangXiao,MiDechang,etal. MADRL-based UAV deployment and node efficiency optimization for information collection in disaster scenarios [J]. Application Research s,2024,41(7):2118-2125.)
[2]Rong Cancan,Duan Xiaoyu,Chen Mengmeng,et al.Critical review recent development wireless power transfer technology for unmanned aerial vehicles[J].IEEEAccess,2023,11:132982- 133003.
[3]澎湃新聞網.2023年全國十大自然災害發布[EB/OL].(2024- 01-20)[2025-02-08]. https://www.thepaper.cn/newsDetail_ forward_26081603.
[4]LiuHaishi,TsangYP,LeeCKM,etal.Internet UAVs to automate search and rescue missions in post-disaster for smart cities [C]//Proc IEEE Intellgent Vehicles Symposium.Piscataway,NJ: IEEE Press,2024:614-619.
[5]Shen Qunli,Peng Jian,Xu Wenzheng,et al.Fair communications in UAV networks for rescue applications [J]. IEEE Internet Things Journal,2023,10(23):21013-21025.
[6]WangLeiyu,Zhang Haixia,Guo Shuaishuai,et al.Deployment and association multiple UAVs in UAV-assisted cellular networks with the knowledge statistical user position[J]. IEEE Trans on Wireless Communications,2022,21(8):6553-6567.
[7]李智灝,李俊杰,崔苗,等.空地協同移動邊緣計算系統的資源 分配和軌跡優化[J].計算機應用研究,2024,41(12):3807- 3813.(Li Zhihao,Li Junjie,Cui Miao,etal.Resource allocation and trajectory optimization for air-ground cooperative mobileedge computing systems[J]. Application Research s, 2024,41(12):3807-3813.)
[8]米德昌,王霄,李夢麗,等.災害應急場景下基于多智能體深度 強化學習的任務卸載策略[J].計算機應用研究,2023,40 (12):3766-3771,3777.(Mi Dechang,Wang Xiao,Li Mengli,et al.Multi-intelligence deep reinforcement learning-based task floading strategy for disaster emergency scenarios [J]. Application Research s,2023,40(12):3766-3771,3777.)
[9]Ali K,Nguyen H X,Vien Q T,et al.Deployment drone-based small cells for public safety communication system[J]. IEEE Systems Journal,2020,14(2):2882-2891.
[10]Kurt A,Saputro N,Akkaya K,et al.Distributed connectivity maintenance inswarm drones during post-disaster transportation applications[J]. IEEE Trans on Intellgent Transportation Systems, 2021,22(9): 6061-6073.
[11] Bartolini N,Coletta A,Maselli G,et al. TaMaRA:a task management and routing algorithm for FANETs [J]. IEEE Trans on Mobile Computing,2024,23(5):4930-4942.
[12]Chen Gong,Zhai XB,Li Congduan.Joint optimization trajectory and user association via reinforcement learning for UAV-aided data collection in wireless networks[J]. IEEE Trans on WirelessCommunications,2023,22(5):3128-3143.
[13]Han Zihao,Zhou Ting,Xu Tianheng,et al.Joint user association and deployment optimization for delay-minimized UAV-aided MEC networks[J]. IEEEWireless Communications Letters,2023,12 (10):1791-1795.
[14]Liu Xin,Durrani TS.Joint multi-UAVdeploymentsforair-ground integrated networks [J]. IEEE Aerospace and Electronic Systems Magazine,2022,37(12):4-12.
[15]Lin Na,Liu Yuheng,Zhao Liang,et al.An adaptive UAV deployment scheme for emergency networking[J]. IEEE Trans on Wireless Communications,2022,21(4):2383-2398.
[16] Song Shaoqian,Hu Fengye,Ling Zhuang,et al. Max-Min fairness CR-RSMA-based UAV relay-assisted emergency communication network with limited user energy[J].IEEE Internet Things Journal,2024,11(13): 23998-24012.
[17]Qin Zhenquan,Liu Zhonghao,Han Guangjie,et al.Distributed UAV-BSstrajectory optimization foruser-level fair communication Trans on Vehicular Technology,2021,70(12):12290-12301.
[18]Yin Sixing,YuFR.Resource allocation and trajectory design in UAV-aided cellular networks based on multiagent reinforcement learning[J].IEEE Internet ThingsJournal,2022,9(4):2933- 2943.
[19]Ye Zhenhui,Wang Ke,Chen Yining,et al.Multi-UAV navigation forpartially observable communication coverage by graph reinforcement learning[J]. IEEE Trans on Mobile Computing,2023,22 (7):4056-4069.
[20]Wu Di,Sun Xiang,Ansari N. An FSO-based drone asisted mobile access network for emergency communications[J].IEEE Trans on Network Science and Engineering,2020,7(3):1597-1606.
[21]Fan Chao,Huang Junxuan,Yang Dan,et al.Modeling POI transitionnetwork human mobility[C]//Proc International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery.Piscataway,NJ: IEEE Press,2016:364-367.
[22]Al-Hourani A,Kandeepan S,Lardner S. Optimal LAP altitude for maximum coverage [J]. IEEEWireless Communications Letters, 2014,3(6) : 569-572.
[23]Wang Yinlu,Chen Ming,Pan Cunhua,et al.Joint optimization UAV trajectory and sensor uploading powers for UAV-assted data collection in wirelesssensor networks[J]. IEEE Internet Things Joumal,2022,9(13):11214-11226.
[24] Xu Wenzheng,Sun Yueying, Zou Rui,et al. Throughput maximization UAV networks[J]. IEEE/ACM Trans on Networking, 2022,30(2):881-895.
[25]Yu Hongyang,Cao Tianyang,Zhou Shuangbo,et al.Research and application UAV-based high-altitude base station in air-heaven network[C]//Proc the4th International Conferenceon Neural Networks,Information and Communication. Piscataway,NJ: IEEE Press, 2024:1770-1775.
[26]Yan Hua,Chen Yunfei,Yang Shuanghua.New energy consumption model for rotary-wing UAV propulsion [J]. IEEE Wireless CommunicationsLetters,2021,10(9):2009-2012.
[27]Velickovic P,Cucurull G,Casanova A,etal.Graph attention networks[EB/OL].(2017-10-301)[2025-02-08].https://arxiv. org/abs/1710.10903v3.
[28]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learming for image recognition[C]//Proc IEEE Conference on Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016:770-778.
[29] Xiong Jiechao,Wang Qing,Yang Zhuoran,et al.Parametrized deep q-networks learning:reinforcement learning with discrete-continuous hybrid action space[EB/OL].(2018-10-10)[2025-02-08]. https://arxiv.org/abs/1810.06394.
[30]Messaoud S, Mokeddem B, Xue Z,et al. S2AC: energy-based reinforcement learning with stein st actor critic[EB/OL].(2024-05- 02)[2025-02-08]. https://arxiv.org/abs/2405.00987.
[31]Xu Wenzheng,Xiao Tao,Zhang Junqi,etal.Minimizing the deployment cost UAVs for delay-sensitive data collection in IoT networks [J].IEEE/ACM Trans on Networking,2022,30(2):812-825.
收稿日期:2024-12-20;修回日期:2025-02-12 基金項目:國家自然科學基金資助項目(82474394);四川省重點研發計劃資助項目(2023YFG0112,2023YFG0115);四川省省級工業發展資金產業基礎攻關任務項目(2023JB06);四川大學自貢市合作項目(2022CDZG-6)
作者簡介:李槐城(2000—),男,福建泉州人,碩士,主要研究方向為無人機路徑規劃、無人機應急通信、強化學習;彭艦(1970—),男,(通信作者),四川成都人,教授,博導,博士,主要研究方向為人工智能、大數據挖掘、物聯網通信(jianpeng@ scu.edu.cn);黃文(1992—),男,四川遂寧人,助理研究員,博士,主要研究方向為離散對數困難問題高效求解算法、拆分隱私;沈群力(1998—),男,四川樂山人,博士研究生,主要研究方向為無人機組網、近似算法;廖思睿(2000—),男,四川成都人,碩士,主要研究方向為人工智能、強化學習.