趙潤暉,文 紅,侯文靜
(電子科技大學(xué),四川 成都 611731)
隨著第六代無線移動網(wǎng)絡(luò)的飛速發(fā)展,接入物聯(lián)網(wǎng)的智能設(shè)備急劇增加,并衍生出更多應(yīng)用場景。面對萬物互聯(lián)產(chǎn)生的海量數(shù)據(jù),在云計(jì)算、邊緣計(jì)算、人工智能、區(qū)塊鏈等技術(shù)的發(fā)展中,迫切需要一種新的方案來解決現(xiàn)有無線網(wǎng)絡(luò)因多維網(wǎng)絡(luò)資源、異構(gòu)網(wǎng)絡(luò)設(shè)備和復(fù)雜時變網(wǎng)絡(luò)結(jié)構(gòu)并存而無法滿足終端設(shè)備對超低時延、高可靠性和低功耗的需求[1-2]。邊緣計(jì)算架構(gòu)被認(rèn)為是一種很有前景的解決方案。利用就近布置的邊緣設(shè)備以分布式方式調(diào)度通信資源,與邊緣云、核心云、終端設(shè)備合作,提供可靠、高效的通信分發(fā)服務(wù)。為了保證通信資源在分配過程中的安全、可靠和高效協(xié)作,本文將人工智能融入邊緣計(jì)算架構(gòu)中,提出了邊緣智能架構(gòu)。然后,針對不同時延的任務(wù),提出了邊緣協(xié)同任務(wù)分層處理策略,設(shè)計(jì)了分布式近端策略優(yōu)化深度強(qiáng)化學(xué)習(xí)方法。通過聯(lián)合優(yōu)化計(jì)算通信資源分配,使網(wǎng)絡(luò)資源使用成本最小化,任務(wù)數(shù)量最大化[3]。本文提出了一種多代理深度確定性策略梯度(MADDPG),通過分層卸載和資源分配的聯(lián)合優(yōu)化,實(shí)現(xiàn)處理效率最大化。仿真結(jié)果表明,與DDPG相比,提出的MADDPG算法提高了系統(tǒng)效率,降低了成本。
首先,邊緣設(shè)備采集終端設(shè)備的狀態(tài)信息。根據(jù)不同類型任務(wù)的不同處理需求,建立邊緣系統(tǒng)主導(dǎo)下的聯(lián)合任務(wù)時延約束和多維資源管理模型,建立不同任務(wù)處理方式的成本模型和效率模型,建立任務(wù)處理方式的效率函數(shù)模型和資源分配決策模型。最后,以任務(wù)執(zhí)行總時間最小為目標(biāo),在邊緣云中執(zhí)行基于深度強(qiáng)化學(xué)習(xí)的聯(lián)合任務(wù)卸載和資源分配算法,得到任務(wù)處理方法和資源分配策略[4]。當(dāng)在邊緣云和核心云中執(zhí)行計(jì)算任務(wù)時,根據(jù)無線資源分配策略,將任務(wù)處理結(jié)果發(fā)送到邊緣云和核心云,然后轉(zhuǎn)發(fā)到相應(yīng)的終端設(shè)備[5]。
本文主要考慮了核心云、邊緣云、終端設(shè)備這幾個關(guān)鍵部分的協(xié)同計(jì)算任務(wù)場景。首先,中心云服務(wù)器部署在遠(yuǎn)端云上,邊緣計(jì)算服務(wù)器部署在網(wǎng)絡(luò)邊緣側(cè),增加中間層部署在虛擬網(wǎng)絡(luò)空間的邊緣側(cè),作為邊緣云中的智能代理,從邊緣云和核心云中獲取協(xié)同任務(wù),轉(zhuǎn)發(fā)給終端設(shè)備。邊緣云集群可以表示為K={1,2,…,k},每個邊緣云可用的頻譜資源k∈K,可以表示為每個終端設(shè)備集群可以表示為N={1,2,…,N},每個終端設(shè)備i∈N,在時隙t中產(chǎn)生的計(jì)算密集型任務(wù)表示為Di(t)={si(t),ωi(t),τi(t)},其中si(t)、ωi(t)、τi(t)分別代表任務(wù)所需的計(jì)算資源量、數(shù)據(jù)大小和最大可容忍延遲。對于每個終端設(shè)備來說,其計(jì)算密集型的任務(wù)可以卸載到邊緣云,并通過邊緣云卸載到相鄰的邊緣云和更遠(yuǎn)的核心云[6]。因此,選擇合適的任務(wù)卸載策略對系統(tǒng)的性能有著至關(guān)重要的影響。對于終端設(shè)備上的計(jì)算任務(wù),終端設(shè)備的計(jì)算資源是有限的,難以滿足其對超低延遲、高可靠性、低功耗服務(wù)的需求。邊緣計(jì)算將云計(jì)算的計(jì)算和存儲資源擴(kuò)展到網(wǎng)絡(luò)邊緣,通過計(jì)算卸載來滿足任務(wù)需求。因此,在邊緣計(jì)算下,針對時延敏感、計(jì)算密集的任務(wù),設(shè)計(jì)一種邊緣協(xié)同計(jì)算處理方法,包括將任務(wù)卸載到邊緣云,通過邊緣云進(jìn)一步將任務(wù)卸載到相鄰的邊緣云,以及將任務(wù)卸載到核心云進(jìn)行處理。對于使用邊緣協(xié)同處理執(zhí)行的任務(wù),μi,c,μi,k,μi,k,h∈{0,1}表示終端設(shè)備任務(wù)選擇了哪種邊緣協(xié)同處理策略。其中,μi,c=1代表任務(wù)轉(zhuǎn)移到云服務(wù)器處理,μi,k=1代表終端設(shè)備選擇所屬的邊緣云卸載任務(wù)。μi,k,h=1代表終端設(shè)備選擇的那個邊緣云將終端用戶i∈N的任務(wù)轉(zhuǎn)移到邊緣云h上。
本文提出了不同任務(wù)執(zhí)行模式下的通信、成本和效率模型,以推導(dǎo)出不同場景下相關(guān)問題的解決方案。


不同任務(wù)處理方式的成本與處理的時間和能耗有關(guān)。
任務(wù)卸載到邊緣云,邊緣云任務(wù)執(zhí)行延遲可以表示為:

任務(wù)卸載到鄰近的邊緣云:邊緣云到相鄰邊緣云的執(zhí)行任務(wù)延遲,表示為:

對于時間容忍度高的任務(wù),可以選擇直接卸載到云服務(wù)器上進(jìn)行處理,云服務(wù)器任務(wù)的執(zhí)行延遲可以用以下方式表示:

這里忽略了任務(wù)在云上的執(zhí)行時間,這是因?yàn)樵朴凶銐虻挠?jì)算和存儲資源。
能耗可表示為:

參考大量的文獻(xiàn),設(shè)備計(jì)算返回的處理結(jié)果相對較小,因此忽略了將處理結(jié)果返回給每個設(shè)備所需的時間和能耗[7]。

執(zhí)行設(shè)備i產(chǎn)生的任務(wù)總成本為:

為了提高邊緣計(jì)算網(wǎng)絡(luò)的性能,使得網(wǎng)絡(luò)在降低系統(tǒng)處理成本的同時盡可能處理更多的任務(wù)。本文使用了任務(wù)處理成本和任務(wù)完成數(shù)量這兩個因素來構(gòu)造系統(tǒng)的總的處理效率:

聯(lián)合不同任務(wù)處理方式以及多維資源約束條件下,以系統(tǒng)總的處理效率最大化為目標(biāo)的問題如下:

C1表示卸載決策變量,C2表示終端設(shè)備的任務(wù)執(zhí)行模式,只能選擇邊緣云、相鄰邊緣云和核心云中的一種。C3和C4表示終端與邊緣云之間、邊緣云與邊緣云之間的通信通道必須分配給一個終端,并且在每個調(diào)度周期內(nèi)只能分配給一個終端。約束條件C5表示任務(wù)需要在截止日期內(nèi)完成。
上述優(yōu)化問題的主要目標(biāo)是降低系統(tǒng)處理成本。用傳統(tǒng)的優(yōu)化方法很難快速解決優(yōu)化問題。故采用深度強(qiáng)化學(xué)習(xí)的方法來解決所提出的任務(wù)分層卸載和資源分配問題。
根據(jù)強(qiáng)化學(xué)習(xí)的主要思想,可以將上述優(yōu)化問題建模為馬爾科夫決策過程(Markov Decision Process,MDP),描述通信資源分配決策過程,通過多代理深度確定性策略梯度(MADDPG)方法對模型進(jìn)行訓(xùn)練[8]。
MADDPG本質(zhì)上也是一種DDPG算法,訓(xùn)練的是一個全局的Critic和一個Actor,需要每個代理的局部信息,并允許每個代理有自己的獎勵函數(shù),因此它可以用于合作或?qū)剐匀蝿?wù)。而且因?yàn)樗怯蒁DPG算法衍生出來的,所以行動空間可以是連續(xù)的。
接下來,本文將介紹Markov決策過程的狀態(tài)空間、動作空間和獎勵函數(shù)。
在這里可以將邊緣云k∈K上的系統(tǒng)狀態(tài)空間定義為s(t),并將觀測狀態(tài)空間定義為其中,新的中間層在邊緣云k上的終端設(shè)備任務(wù)在其管轄的時間t采集時,表示為如果終端不受邊緣云管轄,則Di,k(t)=0。因此,由邊緣集群K組成的觀測狀態(tài)空間定義為代表邊緣云k在時隙t時刻可用的頻譜資源。
對于邊緣云k,這里將其作用定義為ak(t)=(φi,k(t),φi,h,k(t),φi,c,k(t)),總的作用空間可定義為a(t)=(a1(t),…,aK(t))。φi,k(t)=1表示任務(wù)在邊緣云中處理,反之φi,k(t)=0。φi,c,k(t)=1指邊緣云k收集終端i的任務(wù)請求,并將任務(wù)分配到云服務(wù)器上執(zhí)行,反之φi,c,k(t)=0。
每個邊緣云都可以被看作一個代理。因此,根據(jù)約束條件和目標(biāo)函數(shù)設(shè)置獎勵可以得到代表每個邊緣云k的失敗懲罰。
本文設(shè)計(jì)了用于解決JHORA問題的MADDPG算法。圖1給出了本文提出的MADDPG算法的偽代碼,具體描述如下:


本節(jié)將介紹仿真結(jié)果,驗(yàn)證提出的基于MADDPG的任務(wù)分層卸載和資源管理方案。在假設(shè)的仿真場景中,系統(tǒng)中有1個核心云和3個邊緣云,其覆蓋范圍下隨機(jī)分布100~200個終端設(shè)備。本節(jié)比較的算法如下。單代理深度確定性策略梯度(DDPG),由一個代理集中管理系統(tǒng)中所有終端設(shè)備及其對應(yīng)的邊緣云和核心云的狀態(tài)信息,即狀態(tài)空間。
圖2中顯示了MADDPG和DDPG算法下各代理的平均獎勵。隨著訓(xùn)練集數(shù)量的增加,獎勵逐漸上升,最終保持穩(wěn)定的正獎勵。具體來說,集數(shù)為50 000,保存率為1 000。隨著訓(xùn)練集數(shù)/保存率的增加,MADDPG算法的平均獎勵總是高于DDPG算法,最終得到穩(wěn)定的獎勵。原因是提出的MADDPG算法可以充分利用邊緣計(jì)算網(wǎng)絡(luò)的特點(diǎn),更好地實(shí)現(xiàn)分層任務(wù)卸載和資源分配策略。而DDPG算法對所有中間層只有一個目標(biāo)和評價網(wǎng)絡(luò)。

圖2 在MADDPG和DDPG算法下每個Agent的平均獎勵
本文提出了一種基于多代理深度確定性策略梯度(MADDPG)的邊緣智能架構(gòu)。通過對通信資源分配的聯(lián)合優(yōu)化計(jì)算,使網(wǎng)絡(luò)資源使用成本最小化,任務(wù)數(shù)量最大化。相比于傳統(tǒng)的DDPG算法,實(shí)驗(yàn)結(jié)果表明MADDPG算法的性能要優(yōu)于DDPG。