蘇志凱,楊 健,馬鵬飛
(中國電子科技集團公司第五十四研究所,河北 石家莊 050081)
近年來,隨著網(wǎng)絡流量的不斷增加和移動終端設備的指數(shù)性增長,第五代通信網(wǎng)絡(5G)中的大量新型應用業(yè)務如虛擬現(xiàn)實、自動駕駛、智慧醫(yī)療以及智慧工廠等爆發(fā)性增長[1]。此類業(yè)務具有高吞吐量、高帶寬、低時延的業(yè)務需求特性,需要消耗大量的無線網(wǎng)絡資源,而現(xiàn)有的移動終端計算能力和電池能量受限,無法滿足新型業(yè)務如工業(yè)物聯(lián)網(wǎng)和電子醫(yī)療等時延敏感的業(yè)務需求,對5G無線網(wǎng)絡中的通信資源、計算資源以及存儲資源等提出嚴峻挑戰(zhàn)。
現(xiàn)有的新型業(yè)務可為計算密集型和時延敏感型兩類[2]。其中,計算密集型具有高帶寬和高吞吐量的特性,如虛擬現(xiàn)實;而時延敏感型具有低延時的特性,如自動駕駛。面向上述業(yè)務,具有強大計算能力的云計算可以將移動終端的計算任務傳輸?shù)皆贫朔掌鬟M行計算,從而為資源受限的移動終端提供充足的計算資源。然而,由于移動終端距離云端服務器距離較遠,導致傳輸時延大,傳輸能耗高。多接入移動邊緣計算作為5G無線網(wǎng)絡的新型技術(shù),將云端的服務能力下沉到網(wǎng)絡邊緣,智能移動終端可以卸載計算任務到位于網(wǎng)絡邊緣的服務器上,滿足低能耗和低延時的業(yè)務需求。
其中,計算卸載問題是移動邊緣計算的關(guān)鍵問題,根據(jù)用戶移動終端的電池容量和計算能力等情景信息,選擇合適的MEC服務器進行高效地任務卸載,從而保證網(wǎng)絡延時性能,減少能量消耗。文獻[2]考慮不同接入技術(shù)的約束特性,提出了基于非正交多址接入技術(shù)的MEC任務卸載策略。文獻[3]中考慮到不同的業(yè)務服務質(zhì)量(Quality of Service,QoS)約束,基于博弈理論提出了一種可以保證強延時邊界的卸載策略。在文獻[4]中,考慮到用戶移動終端的資源受限,提出了基于馬爾科夫決策的時延最優(yōu)卸載策略。文獻[5]基于斯塔克爾伯格博弈理論,提出了一種基于價格的分布式MEC任務卸載算法,從而使得用戶可以自主決策。文獻[6]中考慮到智能移動終端的電池容量特性和業(yè)務時延特性,提出了基于能量和時延約束下計算資源和通信資源的聯(lián)合優(yōu)化卸載算法。此外,在文獻[7]中,考慮超密無線網(wǎng)絡場景,提出了一種高能效的MEC任務卸載算法,通過最優(yōu)化卸載決策變量和功率帶寬分配,從而最小化能量開銷。
現(xiàn)有的MEC任務卸載研究中,假設MEC的計算能力和存儲能力已知,基于單一MEC服務器的研究場景,以時延最優(yōu)或能量最優(yōu)為目標,進行計算任務的卸載決策。然而,隨著5G網(wǎng)絡中基站部署的密集化,大量的MEC服務器將部署在距離用戶移動終端較近的基站或者接入點(Acess Point,AP)點上。例如,自主駕駛的車聯(lián)網(wǎng)場景中,大量的MEC服務器部署在路側(cè)智能設備(Road Side Unit,RSU)及基站上,為自主駕駛的時延敏感業(yè)務提供低延時、高可靠的計算服務需求。不同MEC服務器的計算能力和存儲能力各不相同,因此用戶側(cè)的移動終端需要根據(jù)業(yè)務特性和網(wǎng)絡環(huán)境等情景信息,自主決策選擇最優(yōu)的MEC服務器接入策略,從而保證網(wǎng)絡延時的同時降低網(wǎng)絡能耗,實現(xiàn)高能效的MEC服務器任務卸載策略。
假設在5G無線網(wǎng)絡場景中包含U個用戶,M個基站,每個基站包含一個MEC服務器(為簡化描述,基站和MEC服務器統(tǒng)一用M表示)。假設系統(tǒng)總帶寬為B,系統(tǒng)帶寬中假定一共有K個子載波。在t時刻,假設用戶只能接入一個基站,且最多只有一個用戶可以接入子載波。因此:

用戶終端i與基站m在k資源塊上的信干噪比為:

用戶到基站的傳輸速率為:

MEC網(wǎng)絡架構(gòu)模型如圖1所示。

圖1 MEC網(wǎng)絡架構(gòu)模型
對于時延敏感業(yè)務,假設數(shù)據(jù)包的到達率符合到達速率為λds的泊松分布且數(shù)據(jù)包的固定長度為Lds,為保障時延敏感業(yè)務的QoS約束,因此基于有效帶寬理論,定義具有傳輸時延界的有效寬帶為:

式中,W(θv)為有效帶寬,θv為用戶終端的QoS指數(shù),Z(t)表示在時間(0,t)時間內(nèi)達到的數(shù)據(jù)包數(shù)目,E(·)表示數(shù)學期望。傳輸時延的違反概率為:

式中,Dv表示用戶到基站的時延,Dmax表示延時界,ζ表示違反概率的最大時延邊界,Lds表示數(shù)據(jù)包的固定長度。為了保障違反概率的時延邊界,系統(tǒng)的最小傳輸概率應該等于系統(tǒng)有效帶寬,即:


式中,bi表示用戶側(cè)任務的計算負載,可以通過離線測量獲得。
對于用戶的計算任務而言,任務數(shù)據(jù)處理的總時延開銷包含數(shù)據(jù)傳輸時間、數(shù)據(jù)等待時間以及MEC服務器計算時間,表示為:

在實際系統(tǒng)中,網(wǎng)絡的全局信息很難獲得,因此在本文中的優(yōu)化問題P中,基于隨機賭博機模型,設計了基于學習驅(qū)動的自主卸載決策算法,用戶移動終端i根據(jù)自身的電池容量和計算任務時延需求自主選擇MEC服務器進行任務卸載[8]。在MAB模型中包含N個賭博臂和一個玩家進行多輪次的選擇,玩家每次選擇其中的一個賭博臂并收到對應獎勵回報,且玩家在選擇該臂之后只能獲取該臂獎勵值,每個賭博臂的獎勵值服務某種未知的特定分布且相互獨立。玩家通過探索與利用學習不同賭博臂的獎勵分布,經(jīng)過J輪游戲后,玩家的優(yōu)化目標為最大化獎勵回報的期望值。在學習過程中,玩家主要采用利用策略和探索策略兩種策略,其中利用策略每次選擇到目前為止已知獎勵值最高的賭博臂作為最優(yōu)臂;探索策略中玩家嘗試探索其他未知的可能可以獲得更高獎勵值的賭博臂。因此,玩家需要在探索策略和利用策略進行合理地選擇利用從而獲取最大化獎勵值[9]。
本文提出了學習驅(qū)動的MEC-MAB自主決策卸載算法,用戶移動終端i作為玩家,MEC服務器m作為賭博臂。如果用戶i選擇接入MEC服務器m,則對應的獲得隨機獎勵值Qi,m。其中,各個MEC服務器的獎勵值服從均值π=[π1,π2,…,πm] 的特定分布且相互獨立。πm表示為MEC服務器m的真實獎勵值[10]。由于用戶不能一直選擇到最高真實值的服務器,因此定義后悔值Rj為經(jīng)過j次選擇后,實際獲得的獎勵值與期望獲得的最大獎勵值間的差值為:


本文采用Thompson-Sampling算法,將MAB模型中的每個選擇MEC服務器的獎勵值概率看作一個Beta(α,β)分布,則選擇MEC服務器行為的獎勵值分布概率函數(shù)為:

其中,對Beta分布的參數(shù)更新規(guī)則為:

在本文的MEC-MAB算法中,隨著在MEC服務器選擇觀測結(jié)果的增加,Beta分布的置信區(qū)間就越來越窄,從而使得用戶選擇可以獲得最大獎勵值的最優(yōu)MEC服務器。具體算法流程如下所示[11]。
初始化時,用戶移動終端觀測自己的電池狀態(tài)和計算任務的QoS等情景信息,并設定t=0和γ=0。當(t≤T)時,t時刻,用戶移動終端進行MEC服務器選擇行為的獎勵估值滿足W(m)~Beta(αm,βm)。用戶選擇獎勵值最大的MEC服務器arg maxmW(m)→MECt,網(wǎng)絡應用此次選擇接入行為并觀測相應的回報值rt,參數(shù)更新 (α1,β1)+(rt, 1-rt)→ (α1,β1)。
本文對上述基于學習驅(qū)動的MEC任務自主決策卸載策略進行了仿真驗證,假設用戶個數(shù)為10。其中用戶移動終端計算任務量服從泊松分布,路徑損耗指數(shù)為2。MEC服務器節(jié)點數(shù)(基站數(shù))分別為3、5以及10時,仿真后悔值與迭代次數(shù)的變化關(guān)系如圖2所示。在不同的MEC服務器數(shù)目下,網(wǎng)絡后悔值都可以在短時間內(nèi)收斂。隨著MEC服務器數(shù)目的增多算法收斂速度逐漸變慢,但是整體收斂較快,因此說明了本文所提出的MEC-MAB自主決策卸載策略具有良好的收斂性能。

圖2 后悔值與迭代次數(shù)的變化關(guān)系
本文對所提的MEC-MAB算法和經(jīng)典的e-greedy貪婪算法進行性能對比。圖3描述了不同算法的后悔值隨著迭代次數(shù)的性能變化情況。從圖3中可以看出,概率e越小,表示純探索階段越短,在所有MEC接入動作中均等的進行選擇,從而出現(xiàn)選擇動作時出現(xiàn)獎勵值最差的情況。本文提出的MEC-MAB算法與貪婪算法相比較而言,可以獲得更小的后悔值,即獲得的累計獎勵值最大,從而性能更優(yōu)[12]。

圖3 算法性能對比分析
為滿足5G網(wǎng)絡中新型應用服務高吞吐量、低延時以及高能效的性能需求。本文在沒有MEC服務器計算和存儲能力以及信道狀態(tài)等先驗信息的情景下,自主選擇最優(yōu)的MEC服務器進行任務卸載,所提出的卸載策略可以在保證用戶延時的同時最小化能量消耗。最后,通過仿真驗證了本文所提算法的良好性能。