無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的視頻任務(wù)卸載算法

2025-04-30 00:00:00胡文杰盧先領(lǐng)

計(jì)算機(jī)應(yīng)用研究 2025年4期

摘要：無(wú)人機(jī)（unmanned aerial vehicles，UAV）在未來(lái)通信網(wǎng)絡(luò)中的集成備受關(guān)注，在軍事偵察、火災(zāi)監(jiān)控等諸多應(yīng)用中發(fā)揮著至關(guān)重要的作用。針對(duì)此類場(chǎng)景中對(duì)視頻傳輸?shù)蜁r(shí)延和高體驗(yàn)質(zhì)量（quality of experience，QoE）的需求，提出了一種無(wú)人機(jī)輔助的移動(dòng)邊緣計(jì)算（mobile edge computing，MEC）視頻任務(wù)卸載算法。首先，為滿足低時(shí)延需求，無(wú)人機(jī)作為MEC服務(wù)器對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)碼，并作為中繼將視頻數(shù)據(jù)轉(zhuǎn)發(fā)到地面基站。其次，通過(guò)聯(lián)合優(yōu)化設(shè)備關(guān)聯(lián)、傳輸功率、轉(zhuǎn)碼策略以及無(wú)人機(jī)飛行軌跡，構(gòu)建最大化系統(tǒng)效益的模型。最后，提出一種基于柔性動(dòng)作-評(píng)價(jià)（soft actor-critic，SAC）的深度強(qiáng)化學(xué)習(xí)算法作出聯(lián)合決策。仿真實(shí)驗(yàn)結(jié)果表明，與其他基線算法相比，所提算法能有效降低系統(tǒng)時(shí)延并保證視頻任務(wù)品質(zhì)，并具有良好的收斂性。

關(guān)鍵詞：無(wú)人機(jī)；移動(dòng)邊緣計(jì)算；視頻傳輸；任務(wù)卸載；深度強(qiáng)化學(xué)習(xí)

中圖分類號(hào)：TP393"" 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2025）04-022-1128-07

doi： 10.19734/j.issn.1001-3695.2024.09.0293

Video task offloading algorithm in UAV-assisted mobile edge computing

Hu Wenjie， Lu Xianling

（School of Internet of Things Engineering， Jiangnan University， Wuxi Jiangsu 214122， China）

Abstract：The integration of unmanned aerial vehicles（UAV） in future communication networks has received great attention， and it plays an essential role in many applications， such as military reconnaissance， fire monitoring， etc. Aiming at the requirement of low latency and high quality of experience （QoE） of video transmission in these scenarios， this paper proposed UAV-assisted mobile edge computing （MEC） video task offloading algorithm. Firstly， to meet the low latency requirements， UAV acted as the MEC server to transcode videos and served as relays to forward the transcoded videos to ground base stations. Additionally， it constructed a system utility maximization model by jointly optimizing device association， transmission power， transcoding strategy， and UAV flight trajectory. It solved the optimization problem using deep reinforcement learning， and proposed a soft actor-critic （SAC） -based algorithm. Simulation results demonstrate that the SAC-based optimization algorithm effectively reduces system latency while ensuring video task quality， while exhibiting good convergence properties.

Key words：unmanned aerial vehicle（UAV）; mobile edge computing（MEC）; video transmission; task offloading; deep reinforcement learning（DRL）

0 引言

近年來(lái)，頻繁發(fā)生的森林火災(zāi)給傳統(tǒng)的環(huán)境監(jiān)測(cè)方法帶來(lái)了嚴(yán)峻挑戰(zhàn)，特別是在森林深部區(qū)域的火情監(jiān)測(cè)方面[1]。隨著火災(zāi)強(qiáng)度的增加和火勢(shì)蔓延速度的加快，傳統(tǒng)的監(jiān)測(cè)手段難以滿足應(yīng)對(duì)突發(fā)火情的需求。因此，如何實(shí)現(xiàn)對(duì)危險(xiǎn)區(qū)域的動(dòng)態(tài)監(jiān)測(cè)，獲取實(shí)時(shí)且全面的全景圖像，已成為災(zāi)害治理人員在滅火和災(zāi)后恢復(fù)工作中面臨的重要問(wèn)題。

由于軍事偵察、森林火災(zāi)監(jiān)控等場(chǎng)景遠(yuǎn)離可用的通信設(shè)施，確保與地面基站進(jìn)行有效、穩(wěn)定的通信至關(guān)重要。此外，為了更好地適應(yīng)移動(dòng)設(shè)備的動(dòng)態(tài)特性，需要采取視頻流動(dòng)態(tài)轉(zhuǎn)碼策略，這是一項(xiàng)計(jì)算密集型任務(wù)，移動(dòng)邊緣計(jì)算（MEC）通過(guò)實(shí)時(shí)了解用戶的信道狀態(tài)信息，為用戶提供更優(yōu)質(zhì)的低延遲視頻轉(zhuǎn)碼服務(wù)。

然而，由于通信條件差和MEC環(huán)境不穩(wěn)定，在偏遠(yuǎn)地區(qū)執(zhí)行密集任務(wù)非常具有挑戰(zhàn)性[2]。同時(shí)，有限的計(jì)算和存儲(chǔ)資源對(duì)MEC服務(wù)器保證滿意的用戶體驗(yàn)帶來(lái)了巨大挑戰(zhàn)。為了解決這些問(wèn)題，靈活的邊緣服務(wù)器位置部署必不可少。UAV輔助的MEC由于其獨(dú)特特性可以有效應(yīng)對(duì)這些挑戰(zhàn)[3]。

無(wú)人機(jī)（UAV）在為物聯(lián)網(wǎng)設(shè)備提供通信和邊緣計(jì)算服務(wù)方面變得越來(lái)越重要，尤其是在快速部署和災(zāi)難服務(wù)恢復(fù)方面[4]。UAV由于其靈活性、高機(jī)動(dòng)性和靈活部署等特點(diǎn)，在無(wú)線網(wǎng)絡(luò)中得到了廣泛的研究[5]。已有許多關(guān)于MEC以及UAV輔助MEC的研究。文獻(xiàn)[6]研究了6G通信場(chǎng)景下UAV協(xié)同車載邊緣網(wǎng)絡(luò)任務(wù)卸載策略，文獻(xiàn)[7]提出了一種帶計(jì)算設(shè)施的UAV，用于為受損基站覆蓋范圍內(nèi)的用戶提供服務(wù)，目的是優(yōu)化能量消耗和用戶延遲的總加權(quán)成本。文獻(xiàn)[8]提出聯(lián)合優(yōu)化通信區(qū)域劃分和軌跡優(yōu)化方法，以降低UAV的能耗并實(shí)現(xiàn)負(fù)載均衡。文獻(xiàn)[9]設(shè)計(jì)了一個(gè)資源分配和軌跡設(shè)計(jì)框架，并提出了一種三階段迭代算法來(lái)優(yōu)化UAV的波束形成矢量、資源分配和軌跡，以實(shí)現(xiàn)系統(tǒng)能量最小化。文獻(xiàn)[10]最小化了邊緣物聯(lián)網(wǎng)網(wǎng)絡(luò)中用戶的平均任務(wù)執(zhí)行時(shí)間。

但隨著環(huán)境復(fù)雜性的增加，傳統(tǒng)算法的計(jì)算時(shí)間可能會(huì)呈指數(shù)級(jí)增長(zhǎng)。為了克服傳統(tǒng)算法的不足，深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning，DRL）算法已被廣泛應(yīng)用于UAV輔助MEC系統(tǒng)領(lǐng)域。在無(wú)人機(jī)輔助的MEC系統(tǒng)中，DRL可用于訓(xùn)練智能體，以學(xué)習(xí)復(fù)雜的決策任務(wù)，通過(guò)與環(huán)境的交互，在路徑規(guī)劃、終端調(diào)度和數(shù)據(jù)處理方面優(yōu)化無(wú)人機(jī)[11]。文獻(xiàn)[12]將DRL算法應(yīng)用于MEC領(lǐng)域，并在傳統(tǒng)算法的基礎(chǔ)上提出了一種改進(jìn)的強(qiáng)化學(xué)習(xí)算法，用于解決計(jì)算卸載和資源分配問(wèn)題。文獻(xiàn)[13]提出了一種多智能體深度強(qiáng)化學(xué)習(xí)算法，以解決UAV輔助通信中的頻譜資源、計(jì)算資源和緩存資源的聯(lián)合管理問(wèn)題。對(duì)于UAV軌跡優(yōu)化問(wèn)題，文獻(xiàn)[14]提出了一個(gè)序列到序列的指針網(wǎng)絡(luò)模型，將UAV位置和地面設(shè)備的聚類輸入到模型中，并使用行動(dòng)者-批評(píng)家網(wǎng)絡(luò)對(duì)模型進(jìn)行訓(xùn)練，以獲得UAV的最優(yōu)軌跡。文獻(xiàn)[15]提出一種雙層深度強(qiáng)化學(xué)習(xí)框架以最小化系統(tǒng)的時(shí)延和能耗。通過(guò)上下層的聯(lián)合優(yōu)化來(lái)解決無(wú)人機(jī)的飛行控制和系統(tǒng)的資源分配問(wèn)題。

以上工作能夠進(jìn)行實(shí)時(shí)的資源分配或軌跡優(yōu)化，但沒(méi)有同時(shí)考慮設(shè)備移動(dòng)性和視頻任務(wù)服務(wù)質(zhì)量。因此，本文針對(duì)森林火情救災(zāi)監(jiān)測(cè)場(chǎng)景，考慮終端監(jiān)控設(shè)備隨機(jī)移動(dòng)性研究了無(wú)人機(jī)的終端設(shè)備關(guān)聯(lián)、資源分配、軌跡優(yōu)化和轉(zhuǎn)碼策略以降低系統(tǒng)時(shí)延并保證視頻任務(wù)服務(wù)質(zhì)量。本文的主要研究工作包括以下幾點(diǎn)：

a）提出了一種用于支持監(jiān)控視頻流服務(wù)的UAV輔助MEC系統(tǒng)，目的是降低整個(gè)系統(tǒng)的時(shí)延并保證視頻任務(wù)體驗(yàn)質(zhì)量。該系統(tǒng)考慮在無(wú)人機(jī)能耗限制下，通過(guò)聯(lián)合優(yōu)化用戶設(shè)備關(guān)聯(lián)、功率分配、視頻轉(zhuǎn)碼策略和無(wú)人機(jī)的飛行軌跡來(lái)降低整個(gè)系統(tǒng)的時(shí)延并保證視頻服務(wù)的質(zhì)量。

b）為解決所提出的問(wèn)題，將問(wèn)題建模成馬爾可夫決策過(guò)程（Markov decision process，MDP），并提出一種基于深度強(qiáng)化學(xué)習(xí)的算法SAC-UNCO進(jìn)行聯(lián)合決策。

c）根據(jù)仿真實(shí)驗(yàn)，對(duì)比其他基線強(qiáng)化學(xué)習(xí)算法，本文算法在降低系統(tǒng)時(shí)延和保證視頻質(zhì)量方面優(yōu)于其他算法。

1 模型與問(wèn)題描述

1.1 系統(tǒng)架構(gòu)描述

本文研究了一個(gè)基于MEC的UAV輔助視頻傳輸系統(tǒng)，圖1顯示了該場(chǎng)景的系統(tǒng)架構(gòu)。該系統(tǒng)包括M個(gè)具有監(jiān)控?cái)z像功能的移動(dòng)設(shè)備（mobile device，MD），一臺(tái)配備MEC服務(wù)器的UAV和一個(gè)地面基站（ground base station，GBS）。該系統(tǒng)的目標(biāo)是通過(guò)MD完成特殊場(chǎng)景的視頻采集任務(wù)并將視頻數(shù)據(jù)發(fā)送給UAV進(jìn)行視頻轉(zhuǎn)碼，最后傳輸?shù)紾BS。本文假設(shè)這種場(chǎng)景可能發(fā)生在森林火災(zāi)預(yù)警監(jiān)測(cè)、環(huán)境保護(hù)監(jiān)測(cè)場(chǎng)景中，這些場(chǎng)景需要對(duì)核心區(qū)域進(jìn)行實(shí)時(shí)拍攝，以便進(jìn)行下一步工作。UAV為該系統(tǒng)中的MD（m∈{1，2，…，M}）提供通信和視頻轉(zhuǎn)碼處理服務(wù)。假定無(wú)人機(jī)飛行于固定高度H，UAV以時(shí)分多址方式（time division multiple access，TDMA）向所有MD提供服務(wù)。整個(gè)服務(wù)周期SC被劃分為T(mén)個(gè)等長(zhǎng)時(shí)隙t∈{1，2，…，T}。所有視頻傳輸和轉(zhuǎn)碼任務(wù)都需要在任務(wù)處理周期內(nèi)完成。UAV在每一個(gè)時(shí)隙中僅為一個(gè)MD提供服務(wù)[16]，am（t）表示UAV是否向MDm提供服務(wù)。每個(gè)時(shí)隙的任務(wù)包括：a）MD與UAV之間的監(jiān)控視頻數(shù)據(jù)傳輸;b）UAV對(duì)采集到的視頻數(shù)據(jù)轉(zhuǎn)碼;c）UAV與GBS之間的視頻數(shù)據(jù)傳輸。

2 算法設(shè)計(jì)

2.1 MDP建模

無(wú)人機(jī)輔助MEC系統(tǒng)的實(shí)際部署環(huán)境復(fù)雜多變，很多環(huán)境變量無(wú)法提前獲取。因此，在與環(huán)境互動(dòng)的同時(shí)作出即時(shí)決策具有重要意義。深度強(qiáng)化學(xué)習(xí)克服了復(fù)雜環(huán)境的限制，顯著加快了訓(xùn)練速度。同時(shí)，根據(jù)所提系統(tǒng)建模出的優(yōu)化問(wèn)題是一個(gè)動(dòng)態(tài)優(yōu)化問(wèn)題，它要求在滿足約束條件的情況下對(duì)目標(biāo)進(jìn)行優(yōu)化。傳統(tǒng)的資源分配方法，如靜態(tài)優(yōu)化和博弈論，很難解決這個(gè)問(wèn)題，因?yàn)樗鼈冊(cè)噲D通過(guò)最大化當(dāng)前狀態(tài)下的即時(shí)獎(jiǎng)勵(lì)來(lái)找出接近最優(yōu)的策略。而深度強(qiáng)化學(xué)習(xí)算法則通過(guò)探索學(xué)習(xí)的方法找到一段動(dòng)態(tài)過(guò)程中的最優(yōu)策略。深度強(qiáng)化學(xué)習(xí)已被證實(shí)是解決此類問(wèn)題的有效方法[19]。因此，提出一種基于DRL的聯(lián)合優(yōu)化算法，使用深度強(qiáng)化學(xué)習(xí)算法的關(guān)鍵點(diǎn)是將問(wèn)題表述為馬爾可夫決策過(guò)程。

在每個(gè)時(shí)隙開(kāi)始時(shí)，智能體（agent）觀察環(huán)境狀態(tài)，然后作出相應(yīng)動(dòng)作。根據(jù)作出的相應(yīng)動(dòng)作，算法得到相應(yīng)獎(jiǎng)勵(lì)。

馬爾可夫決策過(guò)程中的關(guān)鍵要素包括狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)，以下給出具體說(shuō)明：

a）狀態(tài)空間：在該無(wú)人機(jī)輔助邊緣計(jì)算系統(tǒng)中。時(shí)隙t的狀態(tài)空間表示為st={L（t），U（t），bm（t），bb（t），T（t），Tr（t），E（t）}，其中：L（t）={l1（t），l2（t），…，lM（t）}表示被服務(wù)的用戶設(shè)備位置；U（t）表示無(wú)人機(jī)位置；bm（t）={b1（t），b2（t），…，bM（t）}表示MDm與UAV之間的障礙物遮擋情況。bb（t）表示UAV與GBS之間的障礙物遮擋情況。T（t）={T1（t），T2（t），…，TM（t）}表示移動(dòng)設(shè)備m在時(shí)隙t生成的需要轉(zhuǎn)碼的視頻數(shù)據(jù)；Dr（t）表示剩余視頻轉(zhuǎn)碼任務(wù)大小；E（t）表示UAV當(dāng)前電量。

b）動(dòng)作空間：在本文中，agent選擇的動(dòng)作包括選定服務(wù)MD、UAV飛行角度和速度、MD傳輸功率、UAV傳輸功率以及視頻任務(wù)目標(biāo)轉(zhuǎn)碼率。時(shí)隙t的動(dòng)作空間可以表示為at={m（t），θ（t），v（t），Pm（t），Puav（t），cm（t）}，其中m（t）∈［0，M］表示無(wú)人機(jī)在時(shí)隙t時(shí)服務(wù)的用戶設(shè)備，若m（t）=0，m=1；m（t）≠0，m=「m（t），「·表示向上取整；θ（t）表示飛行角度，v（t）表示飛行速度，pm（t）和puav（t）分別表示用戶設(shè)備m和UAV的數(shù)據(jù)傳輸功率，cm（t）表示目標(biāo)視頻碼率。以上動(dòng)作需遵循問(wèn)題定義給出的約束，通過(guò)優(yōu)化以上六個(gè)動(dòng)作變量，最小化系統(tǒng)時(shí)延并保證視頻服務(wù)質(zhì)量。

2.3 算法實(shí)現(xiàn)與描述

agent需要快速收集信息并作出決策，因此采用具有強(qiáng)大計(jì)算資源和通信能力的無(wú)人機(jī)作為agent[20]。部署前對(duì)SAC-UNCO算法進(jìn)行訓(xùn)練，直到其收斂。訓(xùn)練過(guò)程開(kāi)始時(shí)，網(wǎng)絡(luò)參數(shù)隨機(jī)初始化。無(wú)人機(jī)以固定的間隔更新SAC-UNCO的網(wǎng)絡(luò)參數(shù)。在訓(xùn)練過(guò)程中，每完成一個(gè)episode，即處理完所有視頻任務(wù)后，記錄回報(bào)，這是該episode的累計(jì)獎(jiǎng)勵(lì)。之后，由無(wú)人機(jī)攜帶訓(xùn)練好的算法服務(wù)用戶設(shè)備。SAC-UNCO算法的訓(xùn)練過(guò)程如算法1所示。

算法1 SAC-UNCO算法

輸入：系統(tǒng)環(huán)境狀態(tài)；無(wú)人機(jī)信息；移動(dòng)設(shè)備信息；最大episode數(shù)量Emax；批次樣本大小b；最大時(shí)隙數(shù)T。

輸出：策略網(wǎng)絡(luò)參數(shù)θ；Q值網(wǎng)絡(luò)參數(shù)β1和β2。

1分別初始化網(wǎng)絡(luò)參數(shù)θ、β1=β1、β2=β2

2初始化經(jīng)驗(yàn)回放池D

3 for each episode=1 to Emax do

4 重置環(huán)境參數(shù)并獲取初始狀態(tài)s0

5 for slot t=1 to T do

6" 根據(jù)當(dāng)前狀態(tài)st由策略網(wǎng)絡(luò)選擇動(dòng)作at

7" 執(zhí)行動(dòng)作at，獲取下一狀態(tài)st+1和獎(jiǎng)勵(lì)r（t）

8" 如果回放池未滿，存儲(chǔ)經(jīng)驗(yàn)元組（st，at，rt，st+1）至回放池D

9" 如果回放池已滿，更新回放池D

10 end for

12 if it’s time for an update then

13" 從回放池D中隨機(jī)采樣批次大小b的經(jīng)驗(yàn)樣本（st，at，rt，"" st+1）

14" 通過(guò)式（32）（33）更新Q值網(wǎng)絡(luò)參數(shù)β1和β2

15" 通過(guò)式（37）（38）更新策略網(wǎng)絡(luò)參數(shù)θ

16" 通過(guò)式（40）（41）更新溫度系數(shù)α

17" 通過(guò)式（31）對(duì)目標(biāo)Q值網(wǎng)絡(luò)參數(shù)β1和β2進(jìn)行軟更新

18 end if

19 end for

3 仿真實(shí)驗(yàn)與結(jié)果分析

3.1 仿真環(huán)境及參數(shù)設(shè)置

本文在Windows 11 系統(tǒng)下采用Python 3.9和PyTorch框架建立了一個(gè)仿真模擬環(huán)境，算法的訓(xùn)練在NVIDIA GeForce RTX 3050 GPU上進(jìn)行。設(shè)置了一臺(tái)掛載MEC服務(wù)器的UAV和4個(gè)MD隨機(jī)分布在一個(gè)200 m × 200 m的正方形區(qū)域，GBS的位置固定在［0，0，0］T處。在每個(gè)時(shí)隙中，無(wú)人機(jī)選擇其中一個(gè)移動(dòng)設(shè)備接收其過(guò)去拍攝的部分視頻監(jiān)控?cái)?shù)據(jù)進(jìn)行轉(zhuǎn)碼壓縮，并傳輸?shù)紾BS以供進(jìn)一步分析。策略網(wǎng)絡(luò)的學(xué)習(xí)率λθ=0.000 2，Q值網(wǎng)絡(luò)的學(xué)習(xí)率λβ=0.000 2，溫度系數(shù)α的學(xué)習(xí)率λα=0.000 2，折扣因子γ=0.001，隱藏層的神經(jīng)元數(shù)量為256。

實(shí)驗(yàn)中的仿真參數(shù)主要參考文獻(xiàn)[18，21]，仿真參數(shù)如表1所示。

3.2 算法收斂性分析

為了評(píng)估超參數(shù)對(duì)所提算法性能的影響，本文驗(yàn)證了三種學(xué)習(xí)率對(duì)算法收斂性和穩(wěn)定性的影響。從圖3中可以看出，當(dāng)學(xué)習(xí)率設(shè)定為0.000 2時(shí)，曲線在300個(gè)episode以后收斂至最優(yōu)值，并在收斂后達(dá)到穩(wěn)定狀態(tài)。然而，當(dāng)學(xué)習(xí)率為0.02時(shí)，曲線波動(dòng)較大，收斂后的系統(tǒng)效用較低。此外，當(dāng)學(xué)習(xí)率為0.000 002時(shí)，曲線波動(dòng)非常不穩(wěn)定，難以收斂到穩(wěn)定狀態(tài)。根據(jù)以上曲線可得出結(jié)論，當(dāng)學(xué)習(xí)率過(guò)小時(shí)，算法需要更多訓(xùn)練輪次來(lái)達(dá)到收斂狀態(tài)，甚至難以收斂，當(dāng)學(xué)習(xí)率過(guò)大時(shí)，曲線只能收斂到一個(gè)次優(yōu)值，導(dǎo)致訓(xùn)練不穩(wěn)定。

3.3 對(duì)比實(shí)驗(yàn)性能分析

為了驗(yàn)證所提算法的優(yōu)越性和穩(wěn)定性，將本文算法與其他三種基線算法進(jìn)行比較。

a）基于隨機(jī)算法的方案（RANDOM）。該算法中，agent隨機(jī)作出用戶關(guān)聯(lián)、無(wú)人機(jī)飛行、功率分配、目標(biāo)轉(zhuǎn)碼率的決策，這些決策滿足問(wèn)題給出的約束。

b）基于DDPG算法的方案（DDPG）。DDPG算法是一種確定性策略的深度強(qiáng)化學(xué)習(xí)算法，其中策略網(wǎng)絡(luò)和Q值網(wǎng)絡(luò)分別采用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)進(jìn)行近似，以實(shí)現(xiàn)連續(xù)動(dòng)作空間的策略優(yōu)化。通過(guò)引入經(jīng)驗(yàn)回放緩沖區(qū)和目標(biāo)網(wǎng)絡(luò)，DDPG算法能夠穩(wěn)定地訓(xùn)練，并通過(guò)軟更新策略避免策略收斂過(guò)程中的不穩(wěn)定性。

c）基于TD3算法的方案（TD3）。TD3算法在DDPG算法的基礎(chǔ)上對(duì)Q值目標(biāo)網(wǎng)絡(luò)和Q值網(wǎng)絡(luò)采用兩個(gè)網(wǎng)絡(luò)來(lái)近似，以避免高估Q值問(wèn)題。

圖4展示了在視頻任務(wù)大小為400 Mb時(shí)，四種算法的收斂情況和系統(tǒng)效益。通過(guò)觀察，隨著迭代次數(shù)的增加，DDPG、TD3、SAC-UNCO算法均能收斂，RANDOM算法無(wú)法收斂且它的系統(tǒng)效益在一個(gè)小范圍內(nèi)波動(dòng)。在算法收斂后，DDPG得到的系統(tǒng)效益為461.23，TD3得到的系統(tǒng)效益為464.53，SAC-UNCO得到的系統(tǒng)效益為490.43，SAC-UNCO相較于DDPG和TD3系統(tǒng)效益分別提高了6.33%和5.58%。

圖5和6展示了四種算法在不同視頻任務(wù)總量下的任務(wù)完成時(shí)間和視頻服務(wù)質(zhì)量的性能對(duì)比，視頻任務(wù)總量控制在300～500 Mb。隨著任務(wù)總量的增加，系統(tǒng)完成視頻任務(wù)處理的總時(shí)延和服務(wù)質(zhì)量呈現(xiàn)逐步上升的趨勢(shì)。此外，隨著任務(wù)總量的增加，SAC-UNCO算法的時(shí)延增長(zhǎng)速度低于其他算法，服務(wù)質(zhì)量增長(zhǎng)速度高于其他算法。在相同的任務(wù)總量下，SAC-UNCO算法始終表現(xiàn)出最優(yōu)的性能，在視頻任務(wù)大小為400 Mb時(shí)，SAC-UNCO算法的系統(tǒng)時(shí)延相較于TD3、DDPG和RANDOM算法分別降低9.27%、13.72%和36.53%，視頻服務(wù)質(zhì)量分別提高7.03%、11.49%和46.85%。這意味著SAC-UNCO算法在處理不同規(guī)模任務(wù)時(shí)，能夠更高效地作出決策，保持較低的時(shí)延和優(yōu)質(zhì)的服務(wù)質(zhì)量。

圖7和8展示了四種算法在不同信道帶寬條件下的任務(wù)完成時(shí)間和視頻服務(wù)質(zhì)量的性能對(duì)比，系統(tǒng)帶寬控制在0.8～1.2 MHz。如圖7所示，隨著系統(tǒng)帶寬的增加，系統(tǒng)完成視頻任務(wù)處理的總時(shí)延呈現(xiàn)快速下降的趨勢(shì)，說(shuō)明信道條件對(duì)于系統(tǒng)的性能影響很大。在信道帶寬為1 MHz時(shí)，SAC-UNCO算法的系統(tǒng)時(shí)延相較于TD3、DDPG和RANDOM算法分別降低11.07%、14.01%和36.47%。在相同的帶寬條件下，SAC-UNCO算法始終表現(xiàn)出最優(yōu)的性能，保持最低的時(shí)延，尤其在低帶寬條件下，所提算法與各算法之間的性能差異較大。因此所提算法在信道資源有限的情況下能保證優(yōu)良的性能，為系統(tǒng)帶來(lái)更好的整體性能。如圖8所示，SAC-UNCO算法在相同帶寬條件下相較于其他算法保持了最高的服務(wù)質(zhì)量，在信道帶寬為1 MHz時(shí)，SAC-UNCO算法的視頻服務(wù)質(zhì)量相較于TD3、DDPG和RANDOM算法分別提高了11.5%、18.09%和47.5%。隨著系統(tǒng)帶寬的增加，系統(tǒng)的視頻服務(wù)質(zhì)量大幅升高，帶寬條件對(duì)視頻任務(wù)服務(wù)質(zhì)量的影響極大，在低帶寬條件下，各算法傾向于選擇更低的目標(biāo)碼率以壓縮視頻任務(wù)數(shù)據(jù)大小，提高系統(tǒng)性能，這大幅犧牲了視頻質(zhì)量，導(dǎo)致指標(biāo)在低帶寬條件下極低。

圖9和10比較了四種算法在不同飛行高度下的任務(wù)完成時(shí)間和視頻服務(wù)質(zhì)量的性能對(duì)比，飛行高度控制在80～120 m。SAC-UNCO算法在相同無(wú)人機(jī)飛行高度下顯示出最優(yōu)的性能，在飛行高度為100 m時(shí)，SAC-UNCO算法的系統(tǒng)時(shí)延相較于TD3、DDPG和RANDOM算法分別降低7.43%、13.32%和35.67%。視頻服務(wù)質(zhì)量分別提高7.75%、11.40%和44.55%。隨著無(wú)人機(jī)飛行高度增加，系統(tǒng)時(shí)延逐漸上升，服務(wù)質(zhì)量逐漸下降，其原因是飛行高度的增加使無(wú)人機(jī)與地面設(shè)備的距離增大，增大了視頻數(shù)據(jù)傳輸時(shí)延，算法傾向于選擇更低的目標(biāo)視頻碼率，導(dǎo)致服務(wù)質(zhì)量下降。

4 結(jié)束語(yǔ)

本文重點(diǎn)針對(duì)面向視頻傳輸任務(wù)的無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算系統(tǒng)卸載問(wèn)題。通過(guò)聯(lián)合優(yōu)化用戶設(shè)備關(guān)聯(lián)、無(wú)人機(jī)軌跡、視頻任務(wù)轉(zhuǎn)碼率、傳輸功率，實(shí)現(xiàn)整個(gè)時(shí)間段內(nèi)的系統(tǒng)效益最大化。實(shí)驗(yàn)結(jié)果表明，本文的SAC-UNCO算法在降低系統(tǒng)時(shí)延和保證視頻質(zhì)量具有一定優(yōu)勢(shì)，并在性能穩(wěn)定性上也體現(xiàn)出較好的優(yōu)勢(shì)。在未來(lái)的研究中，將會(huì)考慮多無(wú)人機(jī)在復(fù)雜環(huán)境下的視頻任務(wù)卸載問(wèn)題。

參考文獻(xiàn)：

[1]

Burhanuddin L A， Liu Xiaonan， Deng Yanshan，et al. QoE optimization for live video streaming in UAV-to-UAV communications via deep reinforcement learning [J]. IEEE Trans on Vehicular Technology， 2022， 71 （5）： 5358-5370.

[2]Chen Quan， Zhu Hai， Yang Lei，et al. Edge computing assisted autonomous flight for UAV： synergies between vision and communications [J]. IEEE Communications Magazine， 2021， 59 （1）： 28-33.

[3]Zhang Jiao， Zhou Li， Tang Qi， et al. Stochastic computation offloa-ding and trajectory scheduling for UAV-assisted mobile edge computing [J]. IEEE Internet of Things Journal， 2019， 6 （2）： 3688-3699.

[4]Zhang Liang， Jabbari B， Ansari N. Deep reinforcement learning driven UAV-assisted edge computing [J]. IEEE Internet of Things Journal， 2022， 9 （24）： 25449-25459.

[5]Chen Yujia， Huang Dayu. Joint trajectory design and BS association for cellular-connected UAV： an imitation-augmented deep reinforcement learning approach [J]. IEEE Internet of Things Journal， 2022， 9 （4）： 2843-2858.

[6]胡峰，谷海洋，林軍. 無(wú)人機(jī)協(xié)同車載邊緣網(wǎng)絡(luò)中任務(wù)卸載策略 [J]. 系統(tǒng)仿真學(xué)報(bào)， 2023， 35 （11）： 2373-2384. （Hu Feng， Gu Haiyang， Lin Jun. UAV-enabled task offloading strategy for vehicular edge computing networks [J]. Journal of System Simulation， 2023， 35 （11）： 2373-2384.）

[7]Zhang Kaiyuan， Gui Xiaolin， Ren Dewang，et al. Energy-latency tradeoff for computation offloading in UAV-assisted multiaccess edge computing system [J]. IEEE Internet of Things Journal， 2021， 8 （8）： 6709-6719.

[8]Wang Di， Tian Jie，Zhang Haixia， et al. Task offloading and trajectory scheduling for UAV-enabled MEC networks： an optimal transport theory perspective [J]. IEEE Wireless Communications Letters， 2022， 11 （1）： 150-154.

[9]Liu Boyang， Wan Yiyao， Zhou Fuhui，et al. Resource allocation and trajectory design for MISO UAV-assisted MEC networks [J]. IEEE Trans on Vehicular Technology， 2022， 71 （5）： 4933-4948.

[10]Yao Jingjing， Ansari N. Task allocation in fog-aided mobile IoT by Lyapunov online reinforcement learning [J]. IEEE Trans on Green Communications and Networking， 2020， 4 （2）： 556-565.

[11]Wang Yunpeng， Fang Weiwei， Ding Yi，et al. Computation offloading optimization for UAV-assisted mobile edge computing： a deep deterministic policy gradient approach [J]. Wireless Networks， 2021， 27 （4）： 2991-3006.

[12]Chen Juan， Xing Huanlai， Xiao Zhiwen，et al. A DRL agent for jointly optimizing computation offloading and resource allocation in MEC [J]. IEEE Internet of Things Journal， 2021， 8 （24）： 17508-17524.

[13]Peng Haixai， Shen Xuemin. Multi-agent reinforcement learning based resource management in MEC-and UAV-assisted vehicular networks [J]. IEEE Journal on Selected Areas in Communications， 2021， 39 （1）： 131-141.

[14]Zhu Botao， Bedeer E， Nguyen H H ，et al. UAV trajectory planning in wireless sensor networks for energy consumption minimization by deep reinforcement learning [J]. IEEE Trans on Vehicular Technology， 2021， 70 （9）： 9540-9554.

[15]陳釗，龔本燦. 無(wú)人機(jī)輔助的雙層深度強(qiáng)化學(xué)習(xí)任務(wù)卸載算法 [J]. 計(jì)算機(jī)應(yīng)用研究， 2024， 41 （2）： 426-431. （Chen Zhao， Gong Bencan. UAV-assisted two-layer deep reinforcement learning algorithm for task offloading [J]. Application Research of Compu-ters， 2024， 41 （2）： 426-431.）

[16]Xiong Jingyu， Guo Hongzhi， Liu Jiajia. Task offloading in UAV-aided edge computing： bit allocation and trajectory optimization [J]. IEEE Communications Letters， 2019， 23 （3）： 538-541.

[17]Zhang Guangchi， Ou Xiaoqi， Cui Miao，et al. Cooperative UAV en-abled relaying systems： joint trajectory and transmit power optimization [J]. IEEE Trans on Green Communications and Networking， 2022， 6 （1）： 543-557.

[18]Miao Jiansong， Bai Shanling， Mumtaz S，et al. Utility-oriented optimization for video streaming in UAV-aided MEC network： a DRL approach [J]. IEEE Trans on Green Communications and Networking， 2024， 8 （2）： 878-889.

[19]李校林，江雨桑. 無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的任務(wù)卸載算法 [J]. 計(jì)算機(jī)應(yīng)用， 2023， 43 （6）： 1893-1899. （Li Xiaolin， Jiang Yusang. Task offloading algorithm for UAV-assisted mobile edge computing [J]. Journal of Computer Applications， 2023， 43 （6）： 1893-1899.）

[20]Zhou Xiaoyi， Huang Liang， Ye Tong，et al. Computation bits maximization in UAV-assisted MEC networks with fairness constraint [J]. IEEE Internet of Things Journal， 2022， 9 （21）： 20997-21009.

[21]嵇介曲，朱琨，易暢言，等. 多無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的任務(wù)卸載和軌跡優(yōu)化 [J]. 物聯(lián)網(wǎng)學(xué)報(bào)， 2021， 5 （1）： 27-35. （Ji Jiequ， Zhu Kun， Yi Changyan， et al. Joint task offloading and trajectory optimization for multi-UAV assisted mobile edge computing [J]. Chinese Journal on Internet of Things， 2021， 5 （1）： 27-35.）