強化學習無人機通信系統中的信息年齡優化

2022-03-30 04:18:18李新民尹寶林魏李莉張曉強

電子科技大學學報 2022年2期

李新民，尹寶林，魏李莉，張曉強

(西南科技大學信息工程學院四川綿陽 621000)

無人機空中基站具有部署靈活、自主可控和低成本的優點，能夠滿足未來6G 移動通信系統的廣覆蓋、低時延、大連接和智能化部署的需求[1]，因此無人機通信技術成為構建未來6G 移動通信系統的關鍵技術之一。

目前，無人機通信系統中性能分析和軌跡設計成為研究熱點[2-3]。無人機軌跡不僅影響通信鏈路質量，還影響無人機能耗，因此針對不同場景和需求設計有效的飛行軌跡成為無人機通信網絡中的重要研究工作[4-5]。文獻[6]在單個無人機和兩個地面用戶組成的無線能量傳輸系統中，通過優化無人機飛行軌跡以提升地面用戶接收能量。文獻[7]考慮了一種圓形飛行軌跡的無人機信息采集系統，基于二分法和循環迭代法優化無人機飛行軌跡，分別得到最小化系統能耗和地面用戶能耗的飛行方案。然而多無人機集群通信系統中，多無人機軌跡優化和干擾控制是現有研究的工作難點。文獻[8]通過聯合優化通信鏈路的帶寬和無人機飛行軌跡，實現最大化地面用戶速率性能。文獻[9]針對上行兩用戶干擾信道的無人機通信系統，通過分析無人機位置和地面用戶功率對速率性能的影響，獲得發送功率閉式和無人機位置的范圍，實現無人機通信和速率最優。針對通信系統智能化需求，文獻[10] 提出一種深度強化學習方法優化無人機飛行軌跡以實現最大化傳輸速率性能。文獻[11] 提出了一種新的基于門控循環單元和自編碼器的深度學習算法，實現無人機軌跡預測和姿態評估，保證無人機通信系統的可靠性。總體而言，當前研究主要以提升無人機通信速率、降低能耗和增強可靠性等性能需求為主，忽略了信息新鮮度的性能需求。

在6G 系統的實時性需求場景下，系統獲取的新鮮信息才能被有效使用[12-13]。為滿足6G 通信系統多方位設計需求，信息新鮮度優化成為移動通信系統中亟需解決的問題。在文獻[14] 中，信息年齡(age of information, AoI)首先被用來表征信息新鮮度，具體定義為數據包從源節點生成，并到達目的節點所經歷的時間。文獻[15] 在局域網絡中基于不同調度策略驗證了信息年齡表征的信息新鮮度性能。文獻[16] 在信息年齡約束下優化傳感器的動作，從而最小化傳感器網絡發射功率。文獻[17]在單用戶衰落信道中，考慮AoI 需求提出了基于動態規劃的功率優化策略。文獻[18] 提出了有效信息年齡的概念，分析了系統吞吐量與平均有效信息年齡的關系。然而，上述所提信息年齡優化方法不適用于能耗約束下的無人機通信系統中的信息年齡優化研究。

本文針對無人機通信系統中信息新鮮度的性能需求，首先基于信息年齡建模單無人機通信系統的信息新鮮度，并形成能耗約束下的最小化信息年齡的優化問題。針對復雜的非凸優化問題提出基于強化學習的無人機軌跡優化方法，該方法將構建與信息年齡相關的獎勵函數以實現智能化無人機軌跡決策。

1 系統模型和問題形成

1.1 無人機能耗建模

定義傳輸帶寬為B，因此在t時刻無人機接收第n個用戶的數據速率為：

1.2 AoI 建模

式中， ?n是一個二進制數，當?n=1時，表示第n個地面用戶與無人機基站間數據包的傳輸已經完成，?n=0表示還未傳輸完成。在有限觀察時間內，AoI 變化趨勢如圖1 所示，其中τ1=1。在 μ1時刻用戶開始向無人機發送數據包，若數據包未發送完成，AoI 會持續增加，直到 μ2時發送完畢，并在μ3時開始服務下一個用戶。

圖1 AoI 的變化趨勢

式中，能耗約束表示無人機的剩余能量不小于無人機的最低工作能量。由于能耗約束十分復雜，且離散優化目標與通信速率相關，因此該非凸優化問題通常難以求得最優解。

2 基于Q-Learning 的AoI 優化方案

為求解上述復雜AoI 優化問題，實現無人機飛行軌跡自主決策，本文采用Q-Learning 算法通過獎勵策略設計無人機飛行軌跡。Q-Learning 是一個無模型的強化學習算法，也可以被看作是異步動態規劃方法。它為智能體與環境的信息交互提供經驗以提升在有限馬爾可夫模型＜S,A,P,R,γ ＞中獲取最佳動作決策的學習能力。該馬爾可夫模型具有有限的狀態空間S、動作空間A、狀態轉移概率P、獎勵函數R以及折扣因子 γ，折扣因子用于表征處于當前狀態下未來獎勵的重要程度。定義 α為學習率，決定新經驗值與歷史經驗值的利用程度。定義貪婪系數? ∈(0,1)以平衡算法探索和利用關系，無人機將基于?-greedy策略選擇動作。

1) 狀態空間：無人機在服務用戶過程中，狀態空間僅由無人機位置決定，無人機的飛行高度恒定為H，將無人機在子幀u的位置坐標b(u)=(x(μ),y(μ),H)作為無人機的狀態，從而構建了無人機的狀態空間s(μ)∈S={b(μ)}。

2) 動作空間：動作空間為無人機在服務過程中可執行動作的集合，無人機的飛行高度恒定。受限于無人機的計算能力和能量，本文考慮在子幀μ可執行的動作包括東、南、西、北、東北、東南、西北、西南8 個典型動作，從而構成無人機的動作空間，a(μ)∈A={′E′,′S′,′W′,′N′,′EN′,′ES′,′WN′,′WS′}。高維動作空間將導致訓練次數增加，也會增加計算時間，消耗無人機有限能量。而本文所提典型動作空間可為高維動作空間研究提供基礎。無人機的動作空間為當無人機在任意狀態下，可通過執行動作空間中的任意動作到達下一個狀態。

3) 獎勵規則：為使無人機能夠自主求解最佳路徑，將無人機所采集每個用戶AoI 經過一定的運算規則后將計算結果作為獎勵反饋給無人機，無人機可根據該獎勵決策是否在該狀態下執行該動作。通過多次訓練使無人機在每個狀態下都能選取長期收益最大的動作，即獲得最佳動作策略。定義 Φ和λ ∈[0,1]為獎勵相關的參數，以保證獎勵與AoI 之間為負相關， ωn表示當前服務用戶最后時刻的τn值，則無人機服務第n個用戶的獎勵Ψn為：

3 仿真結果與分析

為驗證本文方案性能的優越性，將貪婪方案與隨機方案作為基準方案，在不同參數配置下驗證所提方案。為減少數據包重傳帶來額外的能量開銷，考慮無人機飛至用戶的正上方才開始數據接收。無人機成功接收所有數據包或者停止服務后，不再計算AoI。仿真平臺為Python3.9，CPU 為Intel i5-5350U@ 1.80 GHz，詳細仿真參數如表1 所示。φn為第n個用戶的其他路損，則LoS 路損和NLoS 路損分別表示為：

表1 仿真參數

在單個無人機數據收集場景下，基于Q-Learning算法訓練無人機多次后的飛行軌跡如圖2 所示。無人機收集每個用戶的信息后，根據設計的獎勵機制向無人機反饋獎勵，然后更新剩余能量Er和Q表，從而自主決策無人機飛行軌跡。

圖2 無人機飛行軌跡

圖3 仿真了用戶發射功率與平均AoI 的關系。仿真表明隨著發射功率增加平均AoI 呈現下降趨勢，意味著平均AoI 與用戶發射功率負相關。當發射功率增大時，接收端信噪比增大增加了通信速率，因此傳輸數據包所占子幀數減少，從而使得系統AoI 減小。與基準方案相比，在相同發射功率下，本文無人機軌跡設計方案能夠降低信息平均AoI，具體地，發射功率p=20 dBm時，相較于隨機方案和貪婪方案，本文方案平均AoI 減少16.13%以上。

圖3 發射功率與AoI 的關系

圖4 仿真了無人機服務半徑與AoI 之間關系，不難發現無人機服務半徑增加，飛行時間變長，系統AoI 快速增加。通過與基準方案對比發現：在相同服務半徑情況下，所提無人機軌跡設計方案能夠有效降低系統AoI。特別地，在Ru=300 m時，相較于隨機方案，本文方案的平均AoI 降低20.40%，相較于貪婪方案，本文方案的平均AoI降低15.26%。

圖4 無人機服務半徑與AoI 的關系

圖5 仿真了3 種方案下信息年齡與訓練次數的關系。在固定信道下訓練無人機Nr次，本文方案AoI 結果隨著訓練輪次增加而逐漸降低，表明此方案能夠實現無人機自主決策飛行軌跡，提高信息新鮮度。與基準方案相比，此方案具有更優的收斂性：相比于隨機方案，能提升無人機通信系統21.82%的信息新鮮度性能，相比于貪婪方案，提高了8.51%的信息新鮮度性能。

圖5 信息年齡與訓練次數的關系

4 結束語

本文基于信息年齡建模無人機通信系統的信息新鮮度并形成能耗約束下的最小化信息年齡的優化問題，提出了基于強化學習的無人機軌跡優化方法，構建與信息年齡相關的獎勵函數，使無人機自適應地改進飛行軌跡設計策略。仿真結果表明，此方案與基準方案相比，能有效提高系統的信息新鮮度，同時，所提無人機軌跡設計方案具有更優的收斂性。此研究工作為無人機集群通信系統中增強信息新鮮度提供了優化方法。

本文的研究得到了西南科技大學博士基金(18zx7142, 19zx7123)的支持，在此表示感謝！