無人機群場景下邊端協同計算卸載技術

2024-06-01 10:24:02黃子祥張新有邢煥來馮力

計算機應用研究 2024年5期

黃子祥張新有邢煥來馮力

摘要：當今全球頻繁出現自然災害，針對一種無人機協同下的應急救災計算卸載場景，提出一種帶有協調器的邊-端架構。綜合考慮場景中的時延、能耗與無人機之間的負載均衡作為系統總代價，采用改進的深度強化學習算法APPO（advanced proximal policy optimization），以最小化系統總代價為目標進行卸載優化。任務的部分卸載相比二進制卸載可以更大程度上降低系統的總代價，APPO算法針對不同的任務情況可以找到合適的卸載比例與無人機進行卸載。仿真與實驗結果表明，該算法與全本地處理相比，系統總代價降低了約50%，與較先進的A2C相比，系統總代價降低了約14%。展現了所提策略在該場景下的優越性。

關鍵詞：邊緣計算；深度強化學習；邊端協同；無人機協同；計算卸載

中圖分類號：TP311 文獻標志碼：A?文章編號：1001-3695（2024）05-033-1515-06

doi：10.19734/j.issn.1001-3695.2023.08.0418

Research on edge to end collaborative computing offloading technology

in unmanned aircraft cluster scenarios

Abstract：This paper proposed a coordinated edge-to-edge architecture for an emergency response scenario assisted by unmanned aerial vehicles（UAVs）， taking into consideration the frequent occurrence of natural disasters globally. The architecture incorporated a coordinator and aimed to minimize the overall system cost by considering factors such as latency， energy consumption， and loaded balancing among UAVs. And it utilized an improved deep reinforcement learning algorithm called advanced proximal policy optimization（APPO） to optimize the offloading process. Compared to binary offloading， partial offloading of tasks could effectively reduce the overall system cost. The APPO algorithm enabled users to determine suitable offloading ratios and allocate tasks to UAVs based on different task scenarios. Simulation and experimental results demonstrate a reduction of approximately 50% in the overall system cost compared to full local processing， and about 14% compared to the advanced A2C algorithm， showing the superiority of the proposed strategy in this specific scenario.

Key words：edge computing; deep reinforcement learning; edge to end collaboration; UAV collaboration; calculate uninstallation

0 引言

隨著AI應用場景的不斷普及，計算密集型任務逐漸增長，這些對計算能力有著高要求的新興應用只能依賴于高級的計算卸載和改進的基礎設施［1］。MCC（mobile cloud computing）擁有豐富的資源以及龐大的計算能力，以往用戶通常將某些計算密集型任務傳輸給云端進行處理，但會導致傳輸的過程中時延較大且不穩定，所以云計算的適用場景有限。對于實時性要求較高的任務，如輔助/自動駕駛、應急救災、戰場通信與偵察、人臉識別等，而單純的MCC已經難以應對這種新的挑戰。

隨著MEC這一新范式的出現［2］，不僅彌補了終端計算能力不足的問題，與云計算相比還擁有較低的延遲以滿足時延敏感型任務的計算需求。MEC在靠近用戶端部署大量的邊緣服務器，將任務下沉到網絡邊緣側的邊緣服務器進行處理。與MCC相比，MEC服務器距離用戶更近，使得傳輸的成本降低，其強大的計算能力能滿足大多數應用場景。計算卸載是MEC的關鍵技術，如何綜合考慮任務復雜性、能耗、距離等因素設計出高效可靠的卸載方案是非常重要的。

由于無人機群具有靈活性更高、覆蓋面更廣、實時性更好等優點，其可被用于日益復雜的戰場環境與當今全球頻繁出現的自然災害中。無人機可以輕松進入原本難以到達的受災地區以及危險的軍事區域，攜帶MEC服務器的無人機可提供通信及信息處理功能，為幸存用戶或救災人員提供計算服務。由于災害場景的復雜性、信息的多樣性以及信息處理的實時性要求，對MEC之間的協同處理能力提出了更高的要求。

在人工智能技術發展過程中，強化學習（reinforcement learning，RL）方法也開始應用到計算卸載中來解決實際問題，并取得了較大的成功。近年來OpenAI公司公布的PPO（proximal policy optimization）算法在自動駕駛、機器人控制等領域取得了非凡的成就，該算法高效穩定、適用范圍廣泛并可用于處理連續動作空間，因此本文將多因素優化及改進的PPO算法應用于本文的計算卸載模型中。本文的主要工作包括：

a）提出一種帶有協調器的邊-端架構，根據實際需求建立了災害場景下的無人機協同計算任務卸載模型。

b）采用改進的深度強化學習方法APPO以最小化延遲、能耗與負載均衡值的加權和為目標來優化卸載決策。卸載不再是簡單的二進制卸載，而是可以進行部分卸載。并根據場景與需求詳細定義了狀態空間、動作空間和獎勵函數。

c）進行了實驗驗證。仿真結果表明，這種計算卸載方案不僅可以在實現負載均衡的前提下有效地降低此場景下的時延與能耗，還擁有較高的平均任務成功率。

1 相關工作

當前計算卸載技術的研究已經成為邊緣計算中的熱點問題，但是不同的場景對于不同的計算卸載方案產生的效果不同，要根據實際情況選擇不同的卸載方案。在第六代（6G）網絡的背景下，無人機輔助卸載逐漸進入研究人員的視野。其中大部分研究優化的內容與時延、能耗或者無人機軌跡有關。

在有關無人機場景中針對時延這一問題，文獻［3］提出了一種新型的無人機輔助邊緣計算框架HOTSPOT，根據用戶分布的時變熱點將無人機定位在三維空間中，并提供相應的邊緣計算卸載輔助以達到低延遲的要求，最后仿真證明了可行性。為了解決在沒有無人機的地區快速調度其他地區的無人機為物聯網設備提供卸載這一問題，文獻［4］提出了一種在無人機輔助下的空中計算系統中基于信任的主動通知任務卸載（TANTO）方案，但是該方案只考慮了單無人機的卸載問題。

由于當今社會低碳節能的倡導以及物聯網設備的電池容量有限，能耗也開始成為衡量系統優劣的重要指標。文獻［5］提出了一種無人機計算通信智能卸載方案以降低能耗。首先選擇一些數據量較大的節點作為任務收集節點（TGN），TGN收集左側節點的所有任務。這樣無人機只飛行TGN進行卸載就可以節省能源。但該方案同樣沒有考慮多無人機協同問題。文獻［6］通過一種基于多智能體軟行為者-批評者（MASAC）優化無人機群的任務劃分和功率分配策略，最后通過大量的實驗證明其降低了無人機群任務執行的能量消耗。但此方案未考慮無人機之間的負載均衡。

部分研究人員還對無人機運動軌跡進行了優化，以便快速響應用戶請求與避障。例如，文獻［7］以最小化時延為目標，提出了一種潛在的博弈組合多智能體深度確定性策略梯度（MADDPG）方法來優化無人機群的軌跡進行避障。但其沒有考慮系統的節能問題。文獻［8］研究了支持無人機的MEC網絡，使用基于塊坐標下降法的迭代算法共同優化無人機的軌跡、通信和計算資源分配以及物聯網設備的任務卸載決策。經過測試，該方法有效降低了物聯網設備的總能耗，但此場景下未考慮時延與負載均衡并且也只有一架無人機進行工作。

此外，文獻［9］以最小化時延與無人機利用率為目標，使用無人機群進行災后救援，具體來說是將計算任務卸載問題轉換為雙邊匹配問題，然后開發了一種迭代算法，將每架無人機與最適合卸載的地面車輛相匹配。大量的仿真表明該方案可以有效地提高無人機的利用率，降低平均時延。但是該方案未考慮災區地面用戶能耗有限，也未考慮無人機之間的負載均衡問題，且任務只能進行二進制卸載。

總的來說，以往的大部分研究都是單無人機在城市小區、校園、智慧交通方面的卸載方案優化，很少在救災應急場景下開展研究，而快速有效的災后救援對災后恢復非常重要。并且在選擇卸載的方式時，往往選擇二進制卸載，即全在本地執行或者全部卸載到無人機的MEC服務器執行，這對于性能的提升有很大的局限性［10］。綜合上述問題，本文考慮構建地震災區下無人機群相互協同的計算卸載模型，其中任務的部分卸載如圖1所示，并借鑒以往的研究將時延與能耗作為考慮因素，最后結合無人機的負載均衡進行優化。

2 系統模型

2.1 網絡模型

如圖2所示，本文假設某地區發生地質災害，地面通信設備、基站均受到不同程度的損壞，有關部門第一時間采用應急方案。指揮中心通過一臺具有大運載能力和計算能力的母無人機，攜帶M個帶有MEC與邊緣協調器的子無人機{1，2，…，M}飛往災區，無人機群在災區上空放飛，為地面N個用戶設備{1，2，…，N}提供通信及計算服務。

假設子無人機均飛行在某高度下的多個最優位置，而母無人機距離災區較遠，極端情況下當所有子無人機均出現故障時，所有任務將傳輸至母無人機處理。用戶設備則隨機分布在地面。本文不考慮上述極端情況與無人機群的最優路徑問題。用戶把任務傳輸至無人機，協調器通過智能算法將每個需要卸載的任務合適地分配到無人機的MEC服務器上執行，每個MEC服務器擁有一個隊列，按照先來先服務進行卸載處理。假設時間τ被分為若干個時隙{t1，t2，…，tn}。用戶設備UE在每個時隙均會產生一個計算密集型任務。每個任務可以用一個三元組Rn={Dn，Cn，Tn}表示。其中：Dn表示該任務數據量的大?。籆n表示完成該任務所需要的CPU周期數；Tn表示該任務的最大容忍延遲。

地面用戶N的位置可以用（xi，yi，0）表示，帶有MEC服務器的無人機的位置則可以用（Xu，Yu，H）表示。本文考慮每個時隙中用戶設備與無人機進行數據傳輸時的相對位置不變，用戶設備與無人機之間的信道增益gn可以表示為

其中：β0表示參考距離為1 m時的信道功率增益；dk表示用戶設備與無人機之間的距離。

由于用戶設備的計算能力有限，某些計算密集型任務需要卸載到無人機上的MEC服務器上執行，這樣就產生了數據的上傳與下載。根據香農公式并結合該場景下［10］，用戶設備與無人機之間通信速率為

其中：W表示用戶設備與無人機之間的通信帶寬；pn為傳輸功率；N0是噪聲功率；gn表示上文中用戶設備與無人機之間的信道增益。

2.2 計算模型

2.2.1 時延模型

當任務需要卸載執行時，系統會選擇將任務卸載到當前最優的無人機上進行處理。任務卸載到無人機上時，需要考慮數據傳輸的代價。詳細來說，計算卸載要考慮圖3中任務的上傳、排隊、卸載及返回時延。根據文獻［11］，由于無人機的MEC服務器處理完返回的數據通常非常小，所以本文忽略其下載數據的時延。而數據把任務傳輸至無人機所需要的時間成本為

其中：p為卸載到某無人機的比例。而該卸載部分在無人機上的處理時延為

其中：frn為該無人機攜帶的MEC的計算能力。本文考慮的是一個任意比例卸載的模型，即有1-p比例仍在本地執行，則其未卸載部分的本地執行時間為

可以得出，在任意比例卸載時，總時延為

Trn=max{（Ttra+Texe），Trln}（6）

而某些數據量較小的任務可以直接被分配到本地設備執行而不用上傳至無人機進行處理，所以僅本地處理只有處理任務的時間，用Tln表示：

其中：fln表示用戶設備UE的CPU頻率。一般來說其計算能力越強，fln越大，所處理任務的時間就越短。

2.2.2 能耗模型

在傳輸任務的過程中不僅消耗時間，還會產生能耗［12］。在部分卸載模型中，僅有部分任務上傳至無人機，另一部分則留在本地執行。在本地部分任務卸載所產生的能耗為

Erln=k（1-p）Cn（8）

其中：k為CPU每輪所需要消耗的能量，通常k取

k=10-27（fln）2（9）

而另一部分在無人機邊緣側執行卸載，所產生的能耗有一部分是傳輸數據時產生的，可以表示為

Erpn=PnTtra（10）

其中：Pn為用戶設備的發射功率。特殊地，當p=0時為僅在本地處理，能耗記為Eln。

Eln=kCn（11）

即可得出部分卸載時，用戶設備總的能量消耗為

Ern=Erln+Erpn（12）

2.2.3 負載均衡模型

一般情況下，任務傾向于卸載到計算能力最大的服務器上執行。這將導致眾多任務向某一資源較為豐富的無人機發出卸載請求，而資源相對較少的無人機經常處于空閑狀態，不利于無人機之間進行協同工作。而負載均衡通過最佳化資源使用、最大化吞吐率等方法，可以很好地解決這一問題。

2.3 問題模型

為了使系統的總時延、總能耗與無人機負載均衡值的加權最小，本文參考文獻［13］，將三者加權為Wn表示系統總代價。

Wn=λ×Trn+β×Ern+γLB（16）

其中：λ與β為權重因子，兩者之和為1。通常情況下，負載均衡值LB相對較小，為了平衡三者之間的大小關系，可把γ設置在（1，2）。在本文中，救災應急場景下時延是重中之重，即可將λ設置的值大于β。因此，問題P可以表示為

并且需要滿足

s.t． C1：frn≤F

C2：Trn≤Tn

C3：p∈［0，1］（18）

對于C1，式中F表示無人機的最大CPU頻率，含義為無人機分配給任務的CPU頻率不超過該無人機的最大CPU頻率。在C2中，體現了每個任務執行時間不能超過其最大容忍時延。C3說明卸載的比例范圍應該處于0～1。上述求解問題實際上是一個NP-hard問題，并且本文考慮的卸載與以往的二進制卸載不同，這使得求解變得更加復雜。本文考慮引入強化學習來求解該問題，得到該問題的一個近似最優解。

3 改進APPO的計算卸載算法

3.1 MDP設計

用戶設備將任務卸載到無人機的這一過程可以理解為一個馬爾可夫決策過程（Markov decision process，MDP），MDP的目標是最大化智能體agent在整個序列中所獲得的獎勵總和。在下文中，闡述了針對上述問題最重要的三個元素，即狀態空間、動作空間、獎勵函數。

a）狀態空間。狀態空間中描述了agent所處的狀態，結合MEC環境，本文考慮的狀態如下：定義在時隙t的狀態s（t）={Dn，Cn，Tn，frn，rn，Loadn}，狀態中Dn、Cn、Tn、frn、rn均已經在上文中解釋，此處不再贅述，Loadn則表示無人機的MEC當前的工作負載。

b）動作空間。在計算卸載中，動作對應相應的卸載決策，本文的動作需要描述卸載的比例與目標無人機，可將動作空間定義為A={p1，…，pN，G1，…，GN}。其中：pi代表第i個用戶卸載的比例；Gi表示第i個用戶卸載的無人機對象。

c）獎勵函數。在強化學習中，agent執行某個動作后，環境會給出相應的獎勵reward。一般來說，獎勵函數與目標函數關系緊密，在文獻［14，15］中直接把時延能耗作為獎勵函數。本文需要最小化系統總代價，因此得出獎勵函數應該與目標函數呈負相關。

在實際卸載中，agent根據當前的狀態選擇相應的動作即卸載比例，得到下一個狀態，此時環境給出進行此動作對應的獎勵，在進行上述訓練后最終得到一個最優策略。針對本文地面用戶進行卸載所選擇的子無人機{1，2，…，M}對象是離散的，而任務的卸載比例p∈［0，1］，其動作空間是連續的問題。考慮到PPO算法在無須任何環境的先驗知識前提下，也能學習到較好的卸載策略，且該算法既適用于離散動作空間又可以處理連續動作。因此使用改進的APPO算法來解決本文問題。

3.2 APPO算法設計

傳統PPO算法使用策略梯度方法進行訓練，其關鍵思想是通過觀察遵循策略獲得的執行軌跡來估計期望總獎勵的梯度。策略梯度的計算如下：

其中：Aπθ（st，at）為優勢函數，其計算為

Aπθ（st，at）=Q（s，a）-V（s）（21）

其中：Q（s，a）表示在狀態s下采取動作a的價值；V（s）表示在狀態s下所有動作的平均價值。優勢函數用于評估在某個狀態下采取某個動作相對于平均回報的優劣程度。優勢函數的值越大，表示采取該動作的優勢越大。傳統PPO算法還加入了重要性采樣，其策略梯度略有不同。

本文將πθ（at|st）/πθ′（at|st）記為r（θ），其含義為當前策略的行動概率πθ（at|st）與上一個策略的行動概率πθ′（at|st）的比值。在PPO中，要求新舊兩個策略不能相差太大，是為了保證策略更新的安全性和穩定性［16］。

針對本文所提出的邊端卸載場景，將PPO算法改進為APPO算法以便適用于當前工作需要。

a）如若某無人機的綜合負載頻繁變化且幅度較大，則不利于實現多無人機之間的負載均衡。通過使用剪切函數來限制策略更新的幅度，其目標函數表示如下：

當優勢函數Aπθ（st，at）＞0時，要增加該動作出現的概率；當優勢函數Aπθ（st，at）＜0時，要減小該動作出現的概率，并把r（θ）控制在（1-ε，1+ε）。此舉可以避免策略更新過于激進，利于實現多無人機的負載均衡。

b）本文采取線性衰減的方式處理學習率α，可以加速模型的收斂速度。在訓練初期，較大的學習率可以幫助模型快速收斂，而在訓練后期，較小的學習率可以避免過擬合，從而提高模型的泛化能力。并在動作輸出時采用Beta分布采樣，將動作控制在［0，1］，避免了Gaussian分布的無界性。

c）本文在計算狀態值函數時采用V-trace方法，可以更加準確地估計其值并作為critic網絡的更新目標。

APPO算法架構如圖4所示，包括actor網絡與critic網絡。actor網絡的輸入為狀態，輸出為動作概率分布參數（對于連續動作空間而言）。在critic網絡中，輸入為狀態st，輸出為狀態的價值。首先將當前的狀態st輸入到actor網絡得到均值mu與方差sigma，將構建的正態分布隨機抽樣一個動作at，執行動作at后得到一個環境給的獎勵reward，狀態更新為s′t。得到一批數據后用critic網絡計算每個動作的價值V（e）、優勢函數Aπθ（st，at）、策略損失函數（actor損失函數）。critic網絡的損失函數為

loss=（V（e）-vtrace） 2（25）

其中：V（e）是critic網絡估計的回報；vtrace是真實回報。再采用梯度下降法更新critic網絡。更新網絡時要避免新舊網絡差距太大。重復以上步驟，直到策略收斂或達到一定的迭代次數，最終，輸出最優的策略。

算法1 APPO算法

4 仿真與結果分析

4.1 仿真場景

為驗證本文算法在上述建立的邊-端架構場景下的時延、能耗與負載均衡值的優越性，進行仿真實驗。本場景中假設地面用戶設備隨機分布在200×200 m2的正方形區域，無人機的飛行高度固定為30 m。實驗結果均為重復多次實驗的均值。MEC環境部分參數配置如表1所示。

選擇以下幾種算法與本文算法進行結果對比分析：

a）DQN。基于Q-learning算法的DQN是強化學習中最經典的算法之一，DQN算法使用神經網絡來近似Q值函數，以解決狀態空間過大的強化學習問題。

b）A2C算法。A2C算法是一種基于策略的強化學習算法。它結合了演員評論算法和優勢函數，用于學習策略以最大化預期獎勵。

c）隨機卸載執行。對任務隨機選擇本地處理或卸載到無人機進行處理。

d）全部本地執行。任務全部留在用戶本地處理，不進行卸載。由于該算法不涉及無人機，實驗中負載均衡值取0。

4.2 仿真結果及分析

強化學習中需要考慮的是如何使獎勵最大化，圖5為本文算法在20個設備下進行900余回合迭代的結果。該結果表明，在訓練200回合時，該模型已經趨于收斂，獎勵值在-11上下波動。在與環境的交互中，agent通過不斷地學習來調整策略，該策略能夠使得在當前的狀態下作出動作得到最大化的累計獎勵。加入探索可以幫助算法更好地學習到環境的動態變化，從而提高算法的適應性和泛化能力。

圖6展示了在不同數量的用戶設備下，各類算法的系統總代價變化情況。由于設備數量增加，所有算法的總代價均有不用程度的上升。本地處理的總代價增加最多，這是因為本地處理的能耗消耗較高，導致總代價上升迅速。其他涉及MEC的算法總代價增加主要因為無人機的MEC服務器數量與處理能力有限，隨著設備的不斷接入，MEC服務器平均分配給每個設備的資源減少，導致了處理時間的增加。在地面用戶數量相對較多，如35時，APPO算法的系統總代價相比其他算法優勢顯著，與全本地處理相比降低了約50%，與DQN算法相比降低了約17%，與較為高效的A2C算法相比降低了約14%。

帶寬對計算卸載也有著一定的影響。在地面設備數量為20時，隨著帶寬的增加，四類算法的總能耗（焦耳）變化如圖7所示。在帶寬的增加過程中，本地處理的能耗保持穩定，這是因為本地處理沒有涉及到任務的傳輸與下載。帶寬增加后任務卸載時的傳輸時間減小，任務的傳輸能耗也隨之減小。由于除本地處理外的其他算法傳輸任務成本減小，越來越多的任務選擇傳輸到無人機進行卸載，所以總能耗有所降低。

圖8研究了任務所需CPU周期數對系統總代價的影響。在任務所需CPU周期數Cn的增加過程中，四類算法的總代價都變化明顯。當任務復雜度較小時，本地處理的負擔較小。但當任務復雜度增加時，本地處理難以應對龐大的計算量，從而使得系統總代價迅速上升。APPO算法雖然波動明顯，但也是符合理論依據的，其他因素不變的情況下，Cn的增加無疑會直接影響到任務的執行時間。在上述仿真中，當Cn=4 GHz時，APPO仍能保持最低的總代價，與全本地處理相比降低了約60%，與DQN相比降低了約13%，與A2C相比降低了約9%。

無人機中的MEC服務器的相關性能指標對于計算卸載效率有著重要的影響。本文主要考慮無人機的處理能力，無人機處理能力直接影響到處理任務的時延。當Cn=2.4 GHz時，根據圖9，在無人機的MEC處理能力提高的過程中，A2C、DQN、RAMEC、APPO的總時延逐漸減小，本地處理與無人機無關所以時延保持不變。在MEC服務器的處理能力變化過程中，APPO對比其他算法始終保持優勢。

實現無人機之間的負載均衡是本文的目標之一，負載均衡使得各個無人機在處理任務時相對公平，提高了無人機之間的協同處理能力。本文使用負載均衡值LB來衡量負載均衡情況，其值越小代表負載均衡效果越好。在圖10中，Cn不斷增加導致各無人機中的負載增加，該場景下迫切需要一個高效的算法來解決負載均衡問題。A2C算法沒有APPO算法中的重要性采樣，導致其動作的隨機性相對增大而不利于各個無人機的負載均衡。APPO算法在各個任務復雜度下的LB均小于0.2，不僅驗證了γ取值范圍的可行性，也證明了APPO算法在負載均衡方面的有效性。

救災場景下，在截止時間內完成任務直接關系著待救援人民的生命安全。表2中，給出Cn=1.3 GHz時，各算法在不同地面用戶數量下的平均任務成功率。如表2所示，三類強化學習算法的平均任務成功率均在90%以上，展現了強化學習處理卸載請求的高性能。隨著用戶數量增多，APPO算法始終能作出良好的卸載決策，其任務完成的比例均保持在97%以上，可以較好地處理應急卸載請求。

5 結束語

本文以地震救災場景下的無人機協同輔助卸載為背景，創新地提出了一種帶有邊緣協調器的邊-端架構，以最小化系統總代價為目標，并采用改進深度強化學習算法進行任務的部分卸載。最后進行大量的仿真實驗，結果表明，與其他四類算法比較，本文算法在多種場景中表現最優，有效降低了系統總代價，從而驗證了本文算法的可行性與優越性。在下一步工作中，將著重對于無人機協同的最優路徑規劃的卸載問題進行研究。

參考文獻：

［1］Chen Min， Hao Yixue. Task offloading for mobile edge computing in software defined ultra-dense network［J］. IEEE Journal On Selec-ted Areas In Communications， 2018，36（3）： 587-597.

［2］Pavel M， Zdenek B. Mobile edge computing： a survey on architecture and computation offloading［J］. IEEE Communications Surveys and Tutorials， 2017，19（3）： 1628-1656.

［3］Liao Zhuofan， Ma Yinbao， Huang Jiawei， et al. HOTSPOT： a UAV-assisted dynamic mobility-aware offloading for mobile-edge computing in 3D space［J］. IEEE Trans On Vehicular Technology， 2021，8（13）： 10940-10952.

［4］Jing Bai， Zeng Zhiwen， Wang Tian， et al. TANTO： an effective trust-based unmanned aerial vehicle computing system for the Internet of Things［J］. IEEE Internet of Things Journal， 2023，10（7）： 5644-5661.

［5］Liu Run， Liu Anfeng， Qu Zhenzhe， et al. An UAV-enabled intel-ligent connected transportation system with 6G communications for Internet of Vehicles［J］. IEEE Trans on Intelligent Transportation Systems， 2023， 24（2）： 2045-2059.

［6］Cheng Zhipeng， Liwang Minghui， Ning Chen， et al. Deep reinforcement learning-based joint task and energy offloading in UAV-aided 6G intelligent edge networks［J］. Computer Communications， 2022，192： 234-244.

［7］Gao Ang， Qi Qang， Wei Liang， et al. Game combined multi-agent reinforcement learning approach for UAV assisted offloading［J］. IEEE Trans on Vehicular Technology， 2021， 70（12）： 12888-12901.

［8］Li Wentao， Zhao Mingxiong， Wu Yuhui， et al. Collaborative offloa-ding for UAV-enabled time-sensitive MEC networks［J］. EURASIP Journal on Wireless Communications and Networking， 2021， 2021（1）： article No.1.

［9］Wang Yutao， Chen Weiwei， Luan T H， et al. Task offloading for post-disaster rescue in unmanned aerial vehicles networks［J］. IEEE/ACM Trans On Networking， 2022，30：1525-1539.

［10］王錦，張新有. 基于DQN的無人駕駛任務卸載策略［J］. 計算機應用研究， 2022，39（9）： 2738-2744. （Wang Jin， Zhang Xinyou. DQN based unmanned driving task offloading strategy［J］. Application Research of Computers， 2022，39（9）： 2738-2744.）

［11］Mao Yuyi， Zhang Jun， Letaief K B. Dynamic computation offloading for mobile-edge computing with energy harvesting devices［J］. IEEE Journal on Selected Areas in Communications， 2016，34（12）： 3590-3605.

［12］姚維，黃俊. 移動邊緣計算中的無人機群協同任務卸載策略研究［J］. 重慶郵電大學學報：自然科學版， 2022，34（3）： 507-514. （Yao Wei， Huang Jun. Research on the cooperative task unloading strategy of UAV clusters in mobile edge computing［J］. Journal of Chongqing University of Posts and Telecommunications： Natural Science Edition， 2022，34（3）： 507-514.）

［13］盧海峰，顧春華，羅飛，等. 基于深度強化學習的移動邊緣計算任務卸載研究［J］. 計算機研究與發展， 2020，57（7）： 1539-1554. （Lu Haifeng， Gu Chunhua， Luo Fei， et al. Research on task unloading of mobile edge computing based on deep reinforcement learning［J］. Computer Research and Development， 2020，57（7）： 1539-1554.）

［14］Huang Liang， Feng Xu， Zhang Cheng， et al. Deep reinforcement learning-based joint task offloading and bandwidth allocation for multi-user mobile edge computing［J］. Digital Communications & Networks， 2018， 251： 33-42.

［15］Abegaz M S， Gordon O B， Stephen A， et al. Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks： a deep reinforcement learning approach［J］. IEEE Internet of Things Journal， 2021，8（15）： 12203-12218.

［16］Watkins C J C H. Learning from delayed rewards［J］. Robotics & Autonomous Systems， 1995，15（4）： 233-235.

［17］Espeholt L， Soyer H， Munos R， et al. IMPALA： scalable distributed Deep-RL with importance weighted actor-learner architectures［C］//Proc of the 35th International Conference on Machine Learning. ［S.l.］： PMLR， 2018： 1407-1416.

［18］Li Ji， Gao Hui， Lyu Tiejun， et al. Deep reinforcement learning based computation offloading and resource allocation for MEC［C］//Proc of IEEE Wireless Communications and Networking Conference. Pisca-taway， NJ： IEEE Press， 2018.

［19］Schulman J， Wolski F， Dhariwal P， et al. Proximal policy optimization algorithms［EB/OL］. （2017-07-20）. https：//arxiv.org/abs/1707.06347.

［20］Zhu Xiaoyu， Luo Yueyi， Liu Anfeng， et al. A deep reinforcement learning-based resource management game in vehicular edge computing［J］. IEEE Trans on Intelligent Transportation Systems， 2022， 23（3）： 2422-2433.

［21］袁昕旺，謝智東，譚信. 無人機邊緣計算中的資源管理優化研究綜述［J］. 計算機科學， 2022，49（11）： 234-241. （Yuan Xinwang， Xie Zhidong， Tan Xin. Overview of research on resource management optimization in UAV edge computing［J］. Computer Science， 2022， 49（11）： 234-241.）

［22］楊天，田霖，孫茜，等. 移動邊緣計算中基于用戶體驗的計算卸載方案［J］. 計算機工程， 2020，46（10）： 33-40. （Yang Tian， Tian Lin， Sun Qian， et al. User experience based computing unloading scheme in mobile edge computing［J］. Computer Enginee-ring， 2020， 46（10）： 33-40.）

［23］Wang Heng， Zhang Haijun， Liu Xiangnan， et al. Joint UAV placement optimization， resource allocation， and computation offloading for THz band： a DRL approach［J］. IEEE Trans on Wireless Communications， 2023， 22（7）： 4890-4900.

［24］陳玉平，劉波，林偉偉，等. 云邊協同綜述［J］. 計算機科學， 2021，48（3）： 259-268. （Chen Yuping， Liu Bo， Lin Weiwei， et al. Overview of cloud edge collaboration［J］. Computer Science， 2021， 48（3）： 259-268.）

［25］Gong Xiaoyu， Yu Jiayu， Lu Shuai， et al. Actor-critic with familiarity-based trajectory experience replay［J］. Information Sciences， 2022， 582： 633-647.

［26］于晶，魯凌云，李翔. 車聯網中基于DDQN的邊云協作任務卸載機制［J］. 計算機工程， 2022，48（12）： 156-164. （Yu Jing， Lu Lingyun， Li Xiang. DDQN based edge cloud collaborative task offloading mechanism in the Internet of Vehicles［J］. Computer Engineering， 2022，48（12）： 156-164.）

［27］Ning Zhaolong， Dong Peiran， Kong Xiangjie， et al. A cooperative partial computation offloading scheme for mobile edge computing enabled Internet of Things［J］. IEEE Internet of Things Journal， 2019， 6（3）： 4804-4814.

［28］Qin Langtian， Lu Hancheng， Wu Feng. When the user-centric network meets mobile edge computing： challenges and optimization［J］. IEEE Communications Magazine， 2023，61（1）： 114-120.

［29］王凌，吳楚格，范文慧. 邊緣計算資源分配與任務調度優化綜述［J］. 系統仿真學報， 2021，33（3）： 509-520. （Wang Ling， Wu Chuge， Fan Wenhui. Overview of edge computing resource allocation and task scheduling optimization［J］. Journal of System Simulation， 2021，33（3）： 509-520.）

［30］盛津芳，滕瀟雨，李偉民，等. 移動邊緣計算中基于改進拍賣模型的計算卸載策略［J］. 計算機應用研究， 2020，37（6）： 1688-1692. （Sheng Jinfang， Teng Xiaoyu， Li Weimin， et al. Computing unloading strategy based on improved auction model in mobile edge computing［J］. Application Research of Computers， 2020， 37（6）： 1688-1692.）

［31］賈覲，暴占彪. 改進GA的邊緣計算任務卸載與資源分配策略［J］. 計算機工程與設計， 2021，42（11）： 3009-3017. （Jia Jin， Bao Zhanbiao. Task unloading and resource allocation strategy of improved GA for edge computing［J］. Computer Engineering and Design， 2021， 42（11）： 3009-3017.）

計算機應用研究2024年5期

計算機應用研究的其它文章: 異策略模仿-強化學習序列推薦算法; 基于高頻車站及時間窗的立體軌道交通系統智能調度算法; 基于Spark Streaming的海量GPS數據實時地圖匹配算法; 面向車聯網的聯邦學習模型定制框架及算法改進; 基于區塊鏈和親友節點的電子健康記錄安全共享方案; 融合背景上下文特征的視覺情感識別與預測方法