999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的視頻任務(wù)卸載算法

2025-04-30 00:00:00胡文杰盧先領(lǐng)
關(guān)鍵詞:無(wú)人機(jī)

摘 要:無(wú)人機(jī)(unmanned aerial vehicles,UAV)在未來(lái)通信網(wǎng)絡(luò)中的集成備受關(guān)注,在軍事偵察、火災(zāi)監(jiān)控等諸多應(yīng)用中發(fā)揮著至關(guān)重要的作用。針對(duì)此類場(chǎng)景中對(duì)視頻傳輸?shù)蜁r(shí)延和高體驗(yàn)質(zhì)量(quality of experience,QoE)的需求,提出了一種無(wú)人機(jī)輔助的移動(dòng)邊緣計(jì)算(mobile edge computing,MEC)視頻任務(wù)卸載算法。首先,為滿足低時(shí)延需求,無(wú)人機(jī)作為MEC服務(wù)器對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)碼,并作為中繼將視頻數(shù)據(jù)轉(zhuǎn)發(fā)到地面基站。其次,通過(guò)聯(lián)合優(yōu)化設(shè)備關(guān)聯(lián)、傳輸功率、轉(zhuǎn)碼策略以及無(wú)人機(jī)飛行軌跡,構(gòu)建最大化系統(tǒng)效益的模型。最后,提出一種基于柔性動(dòng)作-評(píng)價(jià)(soft actor-critic,SAC)的深度強(qiáng)化學(xué)習(xí)算法作出聯(lián)合決策。仿真實(shí)驗(yàn)結(jié)果表明,與其他基線算法相比,所提算法能有效降低系統(tǒng)時(shí)延并保證視頻任務(wù)品質(zhì),并具有良好的收斂性。

關(guān)鍵詞:無(wú)人機(jī);移動(dòng)邊緣計(jì)算;視頻傳輸;任務(wù)卸載;深度強(qiáng)化學(xué)習(xí)

中圖分類號(hào):TP393"" 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2025)04-022-1128-07

doi: 10.19734/j.issn.1001-3695.2024.09.0293

Video task offloading algorithm in UAV-assisted mobile edge computing

Hu Wenjie, Lu Xianling

(School of Internet of Things Engineering, Jiangnan University, Wuxi Jiangsu 214122, China)

Abstract:The integration of unmanned aerial vehicles(UAV) in future communication networks has received great attention, and it plays an essential role in many applications, such as military reconnaissance, fire monitoring, etc. Aiming at the requirement of low latency and high quality of experience (QoE) of video transmission in these scenarios, this paper proposed UAV-assisted mobile edge computing (MEC) video task offloading algorithm. Firstly, to meet the low latency requirements, UAV acted as the MEC server to transcode videos and served as relays to forward the transcoded videos to ground base stations. Additionally, it constructed a system utility maximization model by jointly optimizing device association, transmission power, transcoding strategy, and UAV flight trajectory. It solved the optimization problem using deep reinforcement learning, and proposed a soft actor-critic (SAC) -based algorithm. Simulation results demonstrate that the SAC-based optimization algorithm effectively reduces system latency while ensuring video task quality, while exhibiting good convergence properties.

Key words:unmanned aerial vehicle(UAV); mobile edge computing(MEC); video transmission; task offloading; deep reinforcement learning(DRL)

0 引言

近年來(lái),頻繁發(fā)生的森林火災(zāi)給傳統(tǒng)的環(huán)境監(jiān)測(cè)方法帶來(lái)了嚴(yán)峻挑戰(zhàn),特別是在森林深部區(qū)域的火情監(jiān)測(cè)方面[1]。隨著火災(zāi)強(qiáng)度的增加和火勢(shì)蔓延速度的加快,傳統(tǒng)的監(jiān)測(cè)手段難以滿足應(yīng)對(duì)突發(fā)火情的需求。因此,如何實(shí)現(xiàn)對(duì)危險(xiǎn)區(qū)域的動(dòng)態(tài)監(jiān)測(cè),獲取實(shí)時(shí)且全面的全景圖像,已成為災(zāi)害治理人員在滅火和災(zāi)后恢復(fù)工作中面臨的重要問(wèn)題。

由于軍事偵察、森林火災(zāi)監(jiān)控等場(chǎng)景遠(yuǎn)離可用的通信設(shè)施,確保與地面基站進(jìn)行有效、穩(wěn)定的通信至關(guān)重要。此外,為了更好地適應(yīng)移動(dòng)設(shè)備的動(dòng)態(tài)特性,需要采取視頻流動(dòng)態(tài)轉(zhuǎn)碼策略,這是一項(xiàng)計(jì)算密集型任務(wù),移動(dòng)邊緣計(jì)算(MEC)通過(guò)實(shí)時(shí)了解用戶的信道狀態(tài)信息,為用戶提供更優(yōu)質(zhì)的低延遲視頻轉(zhuǎn)碼服務(wù)。

然而,由于通信條件差和MEC環(huán)境不穩(wěn)定,在偏遠(yuǎn)地區(qū)執(zhí)行密集任務(wù)非常具有挑戰(zhàn)性[2]。同時(shí),有限的計(jì)算和存儲(chǔ)資源對(duì)MEC服務(wù)器保證滿意的用戶體驗(yàn)帶來(lái)了巨大挑戰(zhàn)。為了解決這些問(wèn)題,靈活的邊緣服務(wù)器位置部署必不可少。UAV輔助的MEC由于其獨(dú)特特性可以有效應(yīng)對(duì)這些挑戰(zhàn)[3]。

無(wú)人機(jī)(UAV)在為物聯(lián)網(wǎng)設(shè)備提供通信和邊緣計(jì)算服務(wù)方面變得越來(lái)越重要,尤其是在快速部署和災(zāi)難服務(wù)恢復(fù)方面[4]。UAV由于其靈活性、高機(jī)動(dòng)性和靈活部署等特點(diǎn),在無(wú)線網(wǎng)絡(luò)中得到了廣泛的研究[5]。已有許多關(guān)于MEC以及UAV輔助MEC的研究。文獻(xiàn)[6]研究了6G通信場(chǎng)景下UAV協(xié)同車載邊緣網(wǎng)絡(luò)任務(wù)卸載策略,文獻(xiàn)[7]提出了一種帶計(jì)算設(shè)施的UAV,用于為受損基站覆蓋范圍內(nèi)的用戶提供服務(wù),目的是優(yōu)化能量消耗和用戶延遲的總加權(quán)成本。文獻(xiàn)[8]提出聯(lián)合優(yōu)化通信區(qū)域劃分和軌跡優(yōu)化方法,以降低UAV的能耗并實(shí)現(xiàn)負(fù)載均衡。文獻(xiàn)[9]設(shè)計(jì)了一個(gè)資源分配和軌跡設(shè)計(jì)框架,并提出了一種三階段迭代算法來(lái)優(yōu)化UAV的波束形成矢量、資源分配和軌跡,以實(shí)現(xiàn)系統(tǒng)能量最小化。文獻(xiàn)[10]最小化了邊緣物聯(lián)網(wǎng)網(wǎng)絡(luò)中用戶的平均任務(wù)執(zhí)行時(shí)間。

但隨著環(huán)境復(fù)雜性的增加,傳統(tǒng)算法的計(jì)算時(shí)間可能會(huì)呈指數(shù)級(jí)增長(zhǎng)。為了克服傳統(tǒng)算法的不足,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)算法已被廣泛應(yīng)用于UAV輔助MEC系統(tǒng)領(lǐng)域。在無(wú)人機(jī)輔助的MEC系統(tǒng)中,DRL可用于訓(xùn)練智能體,以學(xué)習(xí)復(fù)雜的決策任務(wù),通過(guò)與環(huán)境的交互,在路徑規(guī)劃、終端調(diào)度和數(shù)據(jù)處理方面優(yōu)化無(wú)人機(jī)[11]。文獻(xiàn)[12]將DRL算法應(yīng)用于MEC領(lǐng)域,并在傳統(tǒng)算法的基礎(chǔ)上提出了一種改進(jìn)的強(qiáng)化學(xué)習(xí)算法,用于解決計(jì)算卸載和資源分配問(wèn)題。文獻(xiàn)[13]提出了一種多智能體深度強(qiáng)化學(xué)習(xí)算法,以解決UAV輔助通信中的頻譜資源、計(jì)算資源和緩存資源的聯(lián)合管理問(wèn)題。對(duì)于UAV軌跡優(yōu)化問(wèn)題,文獻(xiàn)[14]提出了一個(gè)序列到序列的指針網(wǎng)絡(luò)模型,將UAV位置和地面設(shè)備的聚類輸入到模型中,并使用行動(dòng)者-批評(píng)家網(wǎng)絡(luò)對(duì)模型進(jìn)行訓(xùn)練,以獲得UAV的最優(yōu)軌跡。文獻(xiàn)[15]提出一種雙層深度強(qiáng)化學(xué)習(xí)框架以最小化系統(tǒng)的時(shí)延和能耗。通過(guò)上下層的聯(lián)合優(yōu)化來(lái)解決無(wú)人機(jī)的飛行控制和系統(tǒng)的資源分配問(wèn)題。

以上工作能夠進(jìn)行實(shí)時(shí)的資源分配或軌跡優(yōu)化,但沒(méi)有同時(shí)考慮設(shè)備移動(dòng)性和視頻任務(wù)服務(wù)質(zhì)量。因此,本文針對(duì)森林火情救災(zāi)監(jiān)測(cè)場(chǎng)景,考慮終端監(jiān)控設(shè)備隨機(jī)移動(dòng)性研究了無(wú)人機(jī)的終端設(shè)備關(guān)聯(lián)、資源分配、軌跡優(yōu)化和轉(zhuǎn)碼策略以降低系統(tǒng)時(shí)延并保證視頻任務(wù)服務(wù)質(zhì)量。本文的主要研究工作包括以下幾點(diǎn):

a)提出了一種用于支持監(jiān)控視頻流服務(wù)的UAV輔助MEC系統(tǒng),目的是降低整個(gè)系統(tǒng)的時(shí)延并保證視頻任務(wù)體驗(yàn)質(zhì)量。該系統(tǒng)考慮在無(wú)人機(jī)能耗限制下,通過(guò)聯(lián)合優(yōu)化用戶設(shè)備關(guān)聯(lián)、功率分配、視頻轉(zhuǎn)碼策略和無(wú)人機(jī)的飛行軌跡來(lái)降低整個(gè)系統(tǒng)的時(shí)延并保證視頻服務(wù)的質(zhì)量。

b)為解決所提出的問(wèn)題,將問(wèn)題建模成馬爾可夫決策過(guò)程(Markov decision process,MDP),并提出一種基于深度強(qiáng)化學(xué)習(xí)的算法SAC-UNCO進(jìn)行聯(lián)合決策。

c)根據(jù)仿真實(shí)驗(yàn),對(duì)比其他基線強(qiáng)化學(xué)習(xí)算法,本文算法在降低系統(tǒng)時(shí)延和保證視頻質(zhì)量方面優(yōu)于其他算法。

1 模型與問(wèn)題描述

1.1 系統(tǒng)架構(gòu)描述

本文研究了一個(gè)基于MEC的UAV輔助視頻傳輸系統(tǒng),圖1顯示了該場(chǎng)景的系統(tǒng)架構(gòu)。該系統(tǒng)包括M個(gè)具有監(jiān)控?cái)z像功能的移動(dòng)設(shè)備(mobile device,MD),一臺(tái)配備MEC服務(wù)器的UAV和一個(gè)地面基站(ground base station,GBS)。該系統(tǒng)的目標(biāo)是通過(guò)MD完成特殊場(chǎng)景的視頻采集任務(wù)并將視頻數(shù)據(jù)發(fā)送給UAV進(jìn)行視頻轉(zhuǎn)碼,最后傳輸?shù)紾BS。本文假設(shè)這種場(chǎng)景可能發(fā)生在森林火災(zāi)預(yù)警監(jiān)測(cè)、環(huán)境保護(hù)監(jiān)測(cè)場(chǎng)景中,這些場(chǎng)景需要對(duì)核心區(qū)域進(jìn)行實(shí)時(shí)拍攝,以便進(jìn)行下一步工作。UAV為該系統(tǒng)中的MD(m∈{1,2,…,M})提供通信和視頻轉(zhuǎn)碼處理服務(wù)。假定無(wú)人機(jī)飛行于固定高度H,UAV以時(shí)分多址方式(time division multiple access,TDMA)向所有MD提供服務(wù)。整個(gè)服務(wù)周期SC被劃分為T(mén)個(gè)等長(zhǎng)時(shí)隙t∈{1,2,…,T}。所有視頻傳輸和轉(zhuǎn)碼任務(wù)都需要在任務(wù)處理周期內(nèi)完成。UAV在每一個(gè)時(shí)隙中僅為一個(gè)MD提供服務(wù)[16],am(t)表示UAV是否向MDm提供服務(wù)。每個(gè)時(shí)隙的任務(wù)包括:a)MD與UAV之間的監(jiān)控視頻數(shù)據(jù)傳輸;b)UAV對(duì)采集到的視頻數(shù)據(jù)轉(zhuǎn)碼;c)UAV與GBS之間的視頻數(shù)據(jù)傳輸。

2 算法設(shè)計(jì)

2.1 MDP建模

無(wú)人機(jī)輔助MEC系統(tǒng)的實(shí)際部署環(huán)境復(fù)雜多變,很多環(huán)境變量無(wú)法提前獲取。因此,在與環(huán)境互動(dòng)的同時(shí)作出即時(shí)決策具有重要意義。深度強(qiáng)化學(xué)習(xí)克服了復(fù)雜環(huán)境的限制,顯著加快了訓(xùn)練速度。同時(shí),根據(jù)所提系統(tǒng)建模出的優(yōu)化問(wèn)題是一個(gè)動(dòng)態(tài)優(yōu)化問(wèn)題,它要求在滿足約束條件的情況下對(duì)目標(biāo)進(jìn)行優(yōu)化。傳統(tǒng)的資源分配方法,如靜態(tài)優(yōu)化和博弈論,很難解決這個(gè)問(wèn)題,因?yàn)樗鼈冊(cè)噲D通過(guò)最大化當(dāng)前狀態(tài)下的即時(shí)獎(jiǎng)勵(lì)來(lái)找出接近最優(yōu)的策略。而深度強(qiáng)化學(xué)習(xí)算法則通過(guò)探索學(xué)習(xí)的方法找到一段動(dòng)態(tài)過(guò)程中的最優(yōu)策略。深度強(qiáng)化學(xué)習(xí)已被證實(shí)是解決此類問(wèn)題的有效方法[19]。因此,提出一種基于DRL的聯(lián)合優(yōu)化算法,使用深度強(qiáng)化學(xué)習(xí)算法的關(guān)鍵點(diǎn)是將問(wèn)題表述為馬爾可夫決策過(guò)程。

在每個(gè)時(shí)隙開(kāi)始時(shí),智能體(agent)觀察環(huán)境狀態(tài),然后作出相應(yīng)動(dòng)作。根據(jù)作出的相應(yīng)動(dòng)作,算法得到相應(yīng)獎(jiǎng)勵(lì)。

馬爾可夫決策過(guò)程中的關(guān)鍵要素包括狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),以下給出具體說(shuō)明:

a)狀態(tài)空間:在該無(wú)人機(jī)輔助邊緣計(jì)算系統(tǒng)中。時(shí)隙t的狀態(tài)空間表示為st={L(t),U(t),bm(t),bb(t),T(t),Tr(t),E(t)},其中:L(t)={l1(t),l2(t),…,lM(t)}表示被服務(wù)的用戶設(shè)備位置;U(t)表示無(wú)人機(jī)位置;bm(t)={b1(t),b2(t),…,bM(t)}表示MDm與UAV之間的障礙物遮擋情況。bb(t)表示UAV與GBS之間的障礙物遮擋情況。T(t)={T1(t),T2(t),…,TM(t)}表示移動(dòng)設(shè)備m在時(shí)隙t生成的需要轉(zhuǎn)碼的視頻數(shù)據(jù);Dr(t)表示剩余視頻轉(zhuǎn)碼任務(wù)大小;E(t)表示UAV當(dāng)前電量。

b)動(dòng)作空間:在本文中,agent選擇的動(dòng)作包括選定服務(wù)MD、UAV飛行角度和速度、MD傳輸功率、UAV傳輸功率以及視頻任務(wù)目標(biāo)轉(zhuǎn)碼率。時(shí)隙t的動(dòng)作空間可以表示為at={m(t),θ(t),v(t),Pm(t),Puav(t),cm(t)},其中m(t)∈[0,M]表示無(wú)人機(jī)在時(shí)隙t時(shí)服務(wù)的用戶設(shè)備,若m(t)=0,m=1;m(t)≠0,m=「m(t),「·表示向上取整;θ(t)表示飛行角度,v(t)表示飛行速度,pm(t)和puav(t)分別表示用戶設(shè)備m和UAV的數(shù)據(jù)傳輸功率,cm(t)表示目標(biāo)視頻碼率。以上動(dòng)作需遵循問(wèn)題定義給出的約束,通過(guò)優(yōu)化以上六個(gè)動(dòng)作變量,最小化系統(tǒng)時(shí)延并保證視頻服務(wù)質(zhì)量。

2.3 算法實(shí)現(xiàn)與描述

agent需要快速收集信息并作出決策,因此采用具有強(qiáng)大計(jì)算資源和通信能力的無(wú)人機(jī)作為agent[20]。部署前對(duì)SAC-UNCO算法進(jìn)行訓(xùn)練,直到其收斂。訓(xùn)練過(guò)程開(kāi)始時(shí),網(wǎng)絡(luò)參數(shù)隨機(jī)初始化。無(wú)人機(jī)以固定的間隔更新SAC-UNCO的網(wǎng)絡(luò)參數(shù)。在訓(xùn)練過(guò)程中,每完成一個(gè)episode,即處理完所有視頻任務(wù)后,記錄回報(bào),這是該episode的累計(jì)獎(jiǎng)勵(lì)。之后,由無(wú)人機(jī)攜帶訓(xùn)練好的算法服務(wù)用戶設(shè)備。SAC-UNCO算法的訓(xùn)練過(guò)程如算法1所示。

算法1 SAC-UNCO算法

輸入:系統(tǒng)環(huán)境狀態(tài);無(wú)人機(jī)信息;移動(dòng)設(shè)備信息;最大episode數(shù)量Emax;批次樣本大小b;最大時(shí)隙數(shù)T。

輸出:策略網(wǎng)絡(luò)參數(shù)θ;Q值網(wǎng)絡(luò)參數(shù)β1和β2。

1分別初始化網(wǎng)絡(luò)參數(shù)θ、β1=β1、β2=β2

2初始化經(jīng)驗(yàn)回放池D

3 for each episode=1 to Emax do

4 重置環(huán)境參數(shù)并獲取初始狀態(tài)s0

5 for slot t=1 to T do

6" 根據(jù)當(dāng)前狀態(tài)st由策略網(wǎng)絡(luò)選擇動(dòng)作at

7" 執(zhí)行動(dòng)作at,獲取下一狀態(tài)st+1和獎(jiǎng)勵(lì)r(t)

8" 如果回放池未滿,存儲(chǔ)經(jīng)驗(yàn)元組(st,at,rt,st+1)至回放池D

9" 如果回放池已滿,更新回放池D

10 end for

12 if it’s time for an update then

13" 從回放池D中隨機(jī)采樣批次大小b的經(jīng)驗(yàn)樣本(st,at,rt,"" st+1)

14" 通過(guò)式(32)(33)更新Q值網(wǎng)絡(luò)參數(shù)β1和β2

15" 通過(guò)式(37)(38)更新策略網(wǎng)絡(luò)參數(shù)θ

16" 通過(guò)式(40)(41)更新溫度系數(shù)α

17" 通過(guò)式(31)對(duì)目標(biāo)Q值網(wǎng)絡(luò)參數(shù)β1和β2進(jìn)行軟更新

18 end if

19 end for

3 仿真實(shí)驗(yàn)與結(jié)果分析

3.1 仿真環(huán)境及參數(shù)設(shè)置

本文在Windows 11 系統(tǒng)下采用Python 3.9和PyTorch框架建立了一個(gè)仿真模擬環(huán)境,算法的訓(xùn)練在NVIDIA GeForce RTX 3050 GPU上進(jìn)行。設(shè)置了一臺(tái)掛載MEC服務(wù)器的UAV和4個(gè)MD隨機(jī)分布在一個(gè)200 m × 200 m的正方形區(qū)域,GBS的位置固定在[0,0,0]T處。在每個(gè)時(shí)隙中,無(wú)人機(jī)選擇其中一個(gè)移動(dòng)設(shè)備接收其過(guò)去拍攝的部分視頻監(jiān)控?cái)?shù)據(jù)進(jìn)行轉(zhuǎn)碼壓縮,并傳輸?shù)紾BS以供進(jìn)一步分析。策略網(wǎng)絡(luò)的學(xué)習(xí)率λθ=0.000 2,Q值網(wǎng)絡(luò)的學(xué)習(xí)率λβ=0.000 2,溫度系數(shù)α的學(xué)習(xí)率λα=0.000 2,折扣因子γ=0.001,隱藏層的神經(jīng)元數(shù)量為256。

實(shí)驗(yàn)中的仿真參數(shù)主要參考文獻(xiàn)[18,21],仿真參數(shù)如表1所示。

3.2 算法收斂性分析

為了評(píng)估超參數(shù)對(duì)所提算法性能的影響,本文驗(yàn)證了三種學(xué)習(xí)率對(duì)算法收斂性和穩(wěn)定性的影響。從圖3中可以看出,當(dāng)學(xué)習(xí)率設(shè)定為0.000 2時(shí),曲線在300個(gè)episode以后收斂至最優(yōu)值,并在收斂后達(dá)到穩(wěn)定狀態(tài)。然而,當(dāng)學(xué)習(xí)率為0.02時(shí),曲線波動(dòng)較大,收斂后的系統(tǒng)效用較低。此外,當(dāng)學(xué)習(xí)率為0.000 002時(shí),曲線波動(dòng)非常不穩(wěn)定,難以收斂到穩(wěn)定狀態(tài)。根據(jù)以上曲線可得出結(jié)論,當(dāng)學(xué)習(xí)率過(guò)小時(shí),算法需要更多訓(xùn)練輪次來(lái)達(dá)到收斂狀態(tài),甚至難以收斂,當(dāng)學(xué)習(xí)率過(guò)大時(shí),曲線只能收斂到一個(gè)次優(yōu)值,導(dǎo)致訓(xùn)練不穩(wěn)定。

3.3 對(duì)比實(shí)驗(yàn)性能分析

為了驗(yàn)證所提算法的優(yōu)越性和穩(wěn)定性,將本文算法與其他三種基線算法進(jìn)行比較。

a)基于隨機(jī)算法的方案(RANDOM)。該算法中,agent隨機(jī)作出用戶關(guān)聯(lián)、無(wú)人機(jī)飛行、功率分配、目標(biāo)轉(zhuǎn)碼率的決策,這些決策滿足問(wèn)題給出的約束。

b)基于DDPG算法的方案(DDPG)。DDPG算法是一種確定性策略的深度強(qiáng)化學(xué)習(xí)算法,其中策略網(wǎng)絡(luò)和Q值網(wǎng)絡(luò)分別采用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)進(jìn)行近似,以實(shí)現(xiàn)連續(xù)動(dòng)作空間的策略優(yōu)化。通過(guò)引入經(jīng)驗(yàn)回放緩沖區(qū)和目標(biāo)網(wǎng)絡(luò),DDPG算法能夠穩(wěn)定地訓(xùn)練,并通過(guò)軟更新策略避免策略收斂過(guò)程中的不穩(wěn)定性。

c)基于TD3算法的方案(TD3)。TD3算法在DDPG算法的基礎(chǔ)上對(duì)Q值目標(biāo)網(wǎng)絡(luò)和Q值網(wǎng)絡(luò)采用兩個(gè)網(wǎng)絡(luò)來(lái)近似,以避免高估Q值問(wèn)題。

圖4展示了在視頻任務(wù)大小為400 Mb時(shí),四種算法的收斂情況和系統(tǒng)效益。通過(guò)觀察,隨著迭代次數(shù)的增加,DDPG、TD3、SAC-UNCO算法均能收斂,RANDOM算法無(wú)法收斂且它的系統(tǒng)效益在一個(gè)小范圍內(nèi)波動(dòng)。在算法收斂后,DDPG得到的系統(tǒng)效益為461.23,TD3得到的系統(tǒng)效益為464.53,SAC-UNCO得到的系統(tǒng)效益為490.43,SAC-UNCO相較于DDPG和TD3系統(tǒng)效益分別提高了6.33%和5.58%。

圖5和6展示了四種算法在不同視頻任務(wù)總量下的任務(wù)完成時(shí)間和視頻服務(wù)質(zhì)量的性能對(duì)比,視頻任務(wù)總量控制在300~500 Mb。隨著任務(wù)總量的增加,系統(tǒng)完成視頻任務(wù)處理的總時(shí)延和服務(wù)質(zhì)量呈現(xiàn)逐步上升的趨勢(shì)。此外,隨著任務(wù)總量的增加,SAC-UNCO算法的時(shí)延增長(zhǎng)速度低于其他算法,服務(wù)質(zhì)量增長(zhǎng)速度高于其他算法。在相同的任務(wù)總量下,SAC-UNCO算法始終表現(xiàn)出最優(yōu)的性能,在視頻任務(wù)大小為400 Mb時(shí),SAC-UNCO算法的系統(tǒng)時(shí)延相較于TD3、DDPG和RANDOM算法分別降低9.27%、13.72%和36.53%,視頻服務(wù)質(zhì)量分別提高7.03%、11.49%和46.85%。這意味著SAC-UNCO算法在處理不同規(guī)模任務(wù)時(shí),能夠更高效地作出決策,保持較低的時(shí)延和優(yōu)質(zhì)的服務(wù)質(zhì)量。

圖7和8展示了四種算法在不同信道帶寬條件下的任務(wù)完成時(shí)間和視頻服務(wù)質(zhì)量的性能對(duì)比,系統(tǒng)帶寬控制在0.8~1.2 MHz。如圖7所示,隨著系統(tǒng)帶寬的增加,系統(tǒng)完成視頻任務(wù)處理的總時(shí)延呈現(xiàn)快速下降的趨勢(shì),說(shuō)明信道條件對(duì)于系統(tǒng)的性能影響很大。在信道帶寬為1 MHz時(shí),SAC-UNCO算法的系統(tǒng)時(shí)延相較于TD3、DDPG和RANDOM算法分別降低11.07%、14.01%和36.47%。在相同的帶寬條件下,SAC-UNCO算法始終表現(xiàn)出最優(yōu)的性能,保持最低的時(shí)延,尤其在低帶寬條件下,所提算法與各算法之間的性能差異較大。因此所提算法在信道資源有限的情況下能保證優(yōu)良的性能,為系統(tǒng)帶來(lái)更好的整體性能。如圖8所示,SAC-UNCO算法在相同帶寬條件下相較于其他算法保持了最高的服務(wù)質(zhì)量,在信道帶寬為1 MHz時(shí),SAC-UNCO算法的視頻服務(wù)質(zhì)量相較于TD3、DDPG和RANDOM算法分別提高了11.5%、18.09%和47.5%。隨著系統(tǒng)帶寬的增加,系統(tǒng)的視頻服務(wù)質(zhì)量大幅升高, 帶寬條件對(duì)視頻任務(wù)服務(wù)質(zhì)量的影響極大,在低帶寬條件下,各算法傾向于選擇更低的目標(biāo)碼率以壓縮視頻任務(wù)數(shù)據(jù)大小,提高系統(tǒng)性能,這大幅犧牲了視頻質(zhì)量,導(dǎo)致指標(biāo)在低帶寬條件下極低。

圖9和10比較了四種算法在不同飛行高度下的任務(wù)完成時(shí)間和視頻服務(wù)質(zhì)量的性能對(duì)比,飛行高度控制在80~120 m。SAC-UNCO算法在相同無(wú)人機(jī)飛行高度下顯示出最優(yōu)的性能,在飛行高度為100 m時(shí),SAC-UNCO算法的系統(tǒng)時(shí)延相較于TD3、DDPG和RANDOM算法分別降低7.43%、13.32%和35.67%。視頻服務(wù)質(zhì)量分別提高7.75%、11.40%和44.55%。隨著無(wú)人機(jī)飛行高度增加,系統(tǒng)時(shí)延逐漸上升,服務(wù)質(zhì)量逐漸下降,其原因是飛行高度的增加使無(wú)人機(jī)與地面設(shè)備的距離增大,增大了視頻數(shù)據(jù)傳輸時(shí)延,算法傾向于選擇更低的目標(biāo)視頻碼率,導(dǎo)致服務(wù)質(zhì)量下降。

4 結(jié)束語(yǔ)

本文重點(diǎn)針對(duì)面向視頻傳輸任務(wù)的無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算系統(tǒng)卸載問(wèn)題。通過(guò)聯(lián)合優(yōu)化用戶設(shè)備關(guān)聯(lián)、無(wú)人機(jī)軌跡、視頻任務(wù)轉(zhuǎn)碼率、傳輸功率,實(shí)現(xiàn)整個(gè)時(shí)間段內(nèi)的系統(tǒng)效益最大化。實(shí)驗(yàn)結(jié)果表明,本文的SAC-UNCO算法在降低系統(tǒng)時(shí)延和保證視頻質(zhì)量具有一定優(yōu)勢(shì),并在性能穩(wěn)定性上也體現(xiàn)出較好的優(yōu)勢(shì)。在未來(lái)的研究中,將會(huì)考慮多無(wú)人機(jī)在復(fù)雜環(huán)境下的視頻任務(wù)卸載問(wèn)題。

參考文獻(xiàn):

[1]

Burhanuddin L A, Liu Xiaonan, Deng Yanshan,et al. QoE optimization for live video streaming in UAV-to-UAV communications via deep reinforcement learning [J]. IEEE Trans on Vehicular Technology, 2022, 71 (5): 5358-5370.

[2]Chen Quan, Zhu Hai, Yang Lei,et al. Edge computing assisted autonomous flight for UAV: synergies between vision and communications [J]. IEEE Communications Magazine, 2021, 59 (1): 28-33.

[3]Zhang Jiao, Zhou Li, Tang Qi, et al. Stochastic computation offloa-ding and trajectory scheduling for UAV-assisted mobile edge computing [J]. IEEE Internet of Things Journal, 2019, 6 (2): 3688-3699.

[4]Zhang Liang, Jabbari B, Ansari N. Deep reinforcement learning driven UAV-assisted edge computing [J]. IEEE Internet of Things Journal, 2022, 9 (24): 25449-25459.

[5]Chen Yujia, Huang Dayu. Joint trajectory design and BS association for cellular-connected UAV: an imitation-augmented deep reinforcement learning approach [J]. IEEE Internet of Things Journal, 2022, 9 (4): 2843-2858.

[6]胡峰, 谷海洋, 林軍. 無(wú)人機(jī)協(xié)同車載邊緣網(wǎng)絡(luò)中任務(wù)卸載策略 [J]. 系統(tǒng)仿真學(xué)報(bào), 2023, 35 (11): 2373-2384. (Hu Feng, Gu Haiyang, Lin Jun. UAV-enabled task offloading strategy for vehicular edge computing networks [J]. Journal of System Simulation, 2023, 35 (11): 2373-2384.)

[7]Zhang Kaiyuan, Gui Xiaolin, Ren Dewang,et al. Energy-latency tradeoff for computation offloading in UAV-assisted multiaccess edge computing system [J]. IEEE Internet of Things Journal, 2021, 8 (8): 6709-6719.

[8]Wang Di, Tian Jie,Zhang Haixia, et al. Task offloading and trajectory scheduling for UAV-enabled MEC networks: an optimal transport theory perspective [J]. IEEE Wireless Communications Letters, 2022, 11 (1): 150-154.

[9]Liu Boyang, Wan Yiyao, Zhou Fuhui,et al. Resource allocation and trajectory design for MISO UAV-assisted MEC networks [J]. IEEE Trans on Vehicular Technology, 2022, 71 (5): 4933-4948.

[10]Yao Jingjing, Ansari N. Task allocation in fog-aided mobile IoT by Lyapunov online reinforcement learning [J]. IEEE Trans on Green Communications and Networking, 2020, 4 (2): 556-565.

[11]Wang Yunpeng, Fang Weiwei, Ding Yi,et al. Computation offloading optimization for UAV-assisted mobile edge computing: a deep deterministic policy gradient approach [J]. Wireless Networks, 2021, 27 (4): 2991-3006.

[12]Chen Juan, Xing Huanlai, Xiao Zhiwen,et al. A DRL agent for jointly optimizing computation offloading and resource allocation in MEC [J]. IEEE Internet of Things Journal, 2021, 8 (24): 17508-17524.

[13]Peng Haixai, Shen Xuemin. Multi-agent reinforcement learning based resource management in MEC-and UAV-assisted vehicular networks [J]. IEEE Journal on Selected Areas in Communications, 2021, 39 (1): 131-141.

[14]Zhu Botao, Bedeer E, Nguyen H H ,et al. UAV trajectory planning in wireless sensor networks for energy consumption minimization by deep reinforcement learning [J]. IEEE Trans on Vehicular Technology, 2021, 70 (9): 9540-9554.

[15]陳釗, 龔本燦. 無(wú)人機(jī)輔助的雙層深度強(qiáng)化學(xué)習(xí)任務(wù)卸載算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41 (2): 426-431. (Chen Zhao, Gong Bencan. UAV-assisted two-layer deep reinforcement learning algorithm for task offloading [J]. Application Research of Compu-ters, 2024, 41 (2): 426-431.)

[16]Xiong Jingyu, Guo Hongzhi, Liu Jiajia. Task offloading in UAV-aided edge computing: bit allocation and trajectory optimization [J]. IEEE Communications Letters, 2019, 23 (3): 538-541.

[17]Zhang Guangchi, Ou Xiaoqi, Cui Miao,et al. Cooperative UAV en-abled relaying systems: joint trajectory and transmit power optimization [J]. IEEE Trans on Green Communications and Networking, 2022, 6 (1): 543-557.

[18]Miao Jiansong, Bai Shanling, Mumtaz S,et al. Utility-oriented optimization for video streaming in UAV-aided MEC network: a DRL approach [J]. IEEE Trans on Green Communications and Networking, 2024, 8 (2): 878-889.

[19]李校林, 江雨桑. 無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的任務(wù)卸載算法 [J]. 計(jì)算機(jī)應(yīng)用, 2023, 43 (6): 1893-1899. (Li Xiaolin, Jiang Yusang. Task offloading algorithm for UAV-assisted mobile edge computing [J]. Journal of Computer Applications, 2023, 43 (6): 1893-1899.)

[20]Zhou Xiaoyi, Huang Liang, Ye Tong,et al. Computation bits maximization in UAV-assisted MEC networks with fairness constraint [J]. IEEE Internet of Things Journal, 2022, 9 (21): 20997-21009.

[21]嵇介曲, 朱琨, 易暢言, 等. 多無(wú)人機(jī)輔助移動(dòng)邊緣計(jì)算中的任務(wù)卸載和軌跡優(yōu)化 [J]. 物聯(lián)網(wǎng)學(xué)報(bào), 2021, 5 (1): 27-35. (Ji Jiequ, Zhu Kun, Yi Changyan, et al. Joint task offloading and trajectory optimization for multi-UAV assisted mobile edge computing [J]. Chinese Journal on Internet of Things, 2021, 5 (1): 27-35.)

猜你喜歡
無(wú)人機(jī)
基于蟻群算法的一種無(wú)人機(jī)二維航跡規(guī)劃方法研究
無(wú)人機(jī)動(dòng)態(tài)跟蹤展示系統(tǒng)設(shè)計(jì)
無(wú)人機(jī)配送的障礙性因素分析
無(wú)人機(jī)在海上人命救助中的應(yīng)用
植保無(wú)人機(jī)操作規(guī)程及注意事項(xiàng)
高職院校新開(kāi)設(shè)無(wú)人機(jī)專業(yè)的探討
人間(2016年26期)2016-11-03 17:52:40
利用無(wú)人機(jī)進(jìn)行航測(cè)工作的方式方法
一種適用于輸電線路跨線牽引無(wú)人機(jī)的飛行方案設(shè)計(jì)
科技視界(2016年22期)2016-10-18 14:30:27
淺析無(wú)人機(jī)技術(shù)在我國(guó)的發(fā)展前景
主站蜘蛛池模板: 日韩最新中文字幕| 999在线免费视频| 欧美成人免费午夜全| 国产在线一区二区视频| 国产一区二区三区免费观看| www亚洲天堂| 国产在线观看第二页| 九九视频免费看| 91丝袜在线观看| 精品欧美日韩国产日漫一区不卡| 精品少妇人妻一区二区| 夜夜操狠狠操| 国产原创演绎剧情有字幕的| 国产高清不卡视频| 91口爆吞精国产对白第三集| 国产成人免费| 在线观看免费人成视频色快速| 国产成人精品亚洲77美色| 全裸无码专区| 99热国产这里只有精品无卡顿"| 午夜a级毛片| 亚洲欧美成aⅴ人在线观看| 欧美一区二区自偷自拍视频| 少妇精品网站| 国产在线观看99| 欧美日韩成人在线观看| 精品亚洲麻豆1区2区3区| 毛片一级在线| 国产欧美视频在线观看| 色综合中文字幕| 国产成人超碰无码| 99久久精品免费看国产免费软件| 国产日韩精品欧美一区喷| 成人免费黄色小视频| 99re精彩视频| 99久久精品无码专区免费| 亚洲欧洲AV一区二区三区| 黑人巨大精品欧美一区二区区| 538精品在线观看| 88av在线看| 92精品国产自产在线观看| 成年人视频一区二区| 国产欧美成人不卡视频| 亚洲国产成人超福利久久精品| 高清久久精品亚洲日韩Av| 日韩免费视频播播| 91福利在线观看视频| 毛片网站在线看| 又爽又大又光又色的午夜视频| 激情午夜婷婷| 亚洲成人77777| 日韩av电影一区二区三区四区| 国产成人免费视频精品一区二区| 不卡午夜视频| 91视频精品| 不卡无码h在线观看| 找国产毛片看| 青青操国产视频| 亚洲欧美在线综合一区二区三区 | 亚洲一本大道在线| 国产丝袜第一页| 亚洲第一在线播放| 国产欧美精品一区二区| 欧美激情第一区| 日本精品影院| av免费在线观看美女叉开腿| 欧美专区在线观看| 内射人妻无码色AV天堂| 国产不卡国语在线| 91精品啪在线观看国产60岁 | 亚洲va视频| 国产成人精品一区二区三区| 国产成人久久777777| 中文字幕第4页| 国产情精品嫩草影院88av| 色婷婷在线影院| 91外围女在线观看| 亚洲欧美自拍中文| 四虎成人在线视频| 国产白浆视频| 欧美自拍另类欧美综合图区| 香蕉eeww99国产精选播放|