基于SAC的多服務移動邊緣計算中任務卸載和資源配置算法

2023-01-01 00:00:00彭姿馀王高才農望

計算機應用研究 2023年5期

摘要：多服務移動邊緣計算網絡環境中的不同服務的緩存要求、受歡迎程度、計算要求以及從用戶傳輸到邊緣服務器的數據量是隨時間變化的。如何在資源有限的邊緣服務器中調整總服務類型的緩存子集，并確定任務卸載目的地和資源分配決策，以獲得最佳的系統整體性能是一個具有挑戰性的問題。為了解決這一難題，首先將優化問題轉換為馬爾可夫決策過程，然后提出了一種基于軟演員—評論家（softactor-critic，SAC）的深度強化學習算法來同時確定服務緩存和任務卸載的離散決策以及上下帶寬和計算資源的連續分配決策。算法采用了將多個連續動作輸出轉換為離散的動作選擇的有效技巧，以應對連續—離散混合行動空間所帶來的關鍵設計挑戰，提高算法決策的準確性。此外，算法集成了一個高效的獎勵函數，增加輔助獎勵項來提高資源利用率。廣泛的數值結果表明，與其他基線算法相比，提出的算法在有地減少任務的長期平均完成延遲的同時也具有良好的穩定性。

關鍵詞：移動邊緣計算；服務緩存；任務卸載；資源分配

中圖分類號：TP301.6文獻標志碼：A

文章編號：1001-3695（2023）05-033-1497-07

doi：10.19734/j.issn.1001-3695.2022.08.0443

0引言

移動邊緣計算（mobileedgecomputing，MEC）[1]已被廣泛應用于不同的場景[2～4]，旨在為用戶提供更好的服務質量（qualityofservice，QoS）。然而，隨著支持5G應用的增長，不斷增加的處理具有不同服務要求的任務的需求給邊緣網絡帶來了巨大的壓力。多服務移動邊緣計算（multiple-servicesmobileedgecomputing，MSs-MEC）是一種新型的移動邊緣計算網絡環境，它結合了服務緩存技術和MEC，能自適應調整每個時隙的服務緩存決策，使部署在用戶側的邊緣服務器能夠靈活處理屬于不同服務類型的任務，提高服務器資源的利用率。

與傳統的云計算相比，MEC通過將任務卸載到與用戶距離相近的邊緣服務器來提升用戶設備性能。為了減少任務卸載延遲，文獻[5]研究了由支持多種無線接入技術的異構邊緣服務器組成的MEC系統，通過馬爾可夫決策過程找到最佳卸載位置。文獻[6]提出了一種基于深度強化學習的無模型在線動態計算卸載方案，將區塊鏈授權的移動邊緣計算中的數據挖掘和數據處理等任務卸載問題建模為馬爾可夫決策過程，使系統的長期卸載性能最大化。文獻[7]將混合光纖無線網絡引入邊緣計算，以解決MEC網絡單一接入方式帶來的高擁堵和高能耗問題。文獻[8]研究了衛星網絡邊緣計算的多低軌衛星計算卸載問題，利用拉格朗日乘子法和凸優化方法，獲得無線資源分配和卸載決策的最優策略。

盡管任務的卸載能保證用戶任務被順利執行，但突變的網絡環境、有限的設備能量等因素會極大地影響用戶的卸載體驗。因此，系統必須能夠合理利用用戶設備和邊緣服務器上的有限資源，針對不同的環境狀態對資源進行合理調控。例如，文獻[9]考慮了任務生成的動態性和連續性，提出了一種基于深度強化學習的資源管理方案，使平均任務延遲最小。文獻[10]提出了一種基于斯塔克爾伯格動態博弈的資源定價和交易方案，以優化邊緣計算站和無人機之間的資源分配，從而在無人機網絡中為用戶提供更高質量和更滿意的服務。文獻[11]開發了一個基于深度強化學習的協同計算卸載和資源分配框架，共同優化基于區塊鏈的移動邊緣計算系統中的卸載決策、功率分配、區塊大小和區塊間隔，以提高任務處理速度和交易吞吐量。文獻[12]研究了移動邊緣計算的區塊鏈資源分配問題，建立邊緣計算能耗遷移與資源分配聯合優化模型，并使用蟻群算法尋找最低能耗的資源分配解。

處在同一基站覆蓋范圍內的用戶會存在不同的計算需求，缺乏對不同類型任務的處理能力成為MEC限制任務卸載的優勢發揮的關鍵因素。為此，提出了將某類任務相關的代碼庫或數據庫緩存到服務器中來保證對應類型的任務能被執行的服務緩存技術。例如，為了解決MEC系統中的服務異質性、未知系統動態、空間需求耦合和分散協調等問題，文獻[13]提出了一種高效的在線算法來聯合優化動態服務緩存和任務卸載。文獻[14]研究了服務緩存和任務的依賴性卸載問題，并設計了一個基于凸優化的卸載方案，以降低任務完成成本。文獻[15]提出了一種基于正則化技術和李雅普諾夫優化理論的優化方案，共同優化服務緩存和計算卸載問題，以實現系統利潤最大化。為了優化具有異質任務請求、應用數據預存儲和基站協調的MEC系統中的計算卸載、服務緩存和資源分配問題，文獻[16]提出了一種高效的協同服務緩存和計算卸載算法，以最小化任務的平均執行時間。文獻[17]提出了一種基于半有限松弛方法和交替優化的高效近似算法，以最小化所有用戶的整體計算和延遲成本。

深度強化學習（deepreinforcementlearning，DRL）作為強化學習和高容量函數近似器的結合，已經成功地應用于廣泛的挑戰性領域，如路徑規劃和機器人控制。由于機器學習在函數逼近方面的突破，DRL算法可以利用神經網絡強大的感知和表征能力，準確識別狀態之間的差異[18]，準確地掌握問題的解空間。所以，采用深度強化學習來解決MEC中的優化問題是一種強有力的方法。例如，文獻[19]開發了一種基于深度Q-learning算法的車對車通信的新型分散資源分配機制，為傳輸找到最佳子頻段和功率水平。文獻[12]提出了一個在線深度強化學習方案，以尋找在時變的無線信道環境下的最佳的任務卸載決策和無線資源分配。

將DRL算法整合到MEC領域的大多數工作[21～23]主要集中在任務卸載或資源分配問題上，較少考慮到服務緩存、任務卸載以及資源分配的聯合決策問題。此外，在處理大規模連續—離散混合行動空間的問題上，傳統的DRL算法，如深度Q網絡[24]、深度確定性策略梯度[25]，僅關注離散或連續行動空間，無法處理混合動作空間的決策問題，且動作決策空間容易受到維度詛咒的影響。為此，本文結合將離散策略更新納入演員—評論家框架中的SAC算法，通過把部分連續動作輸出最大化作為其中離散的選擇動作，提出在異構服務、任務動態生成和有限資源約束條件下，同時考慮離散的緩存與卸載目的地選擇和連續的資源分配的服務緩存、任務卸載以及資源配置的算法（softactor-criticbasedalgorithmforservicecaching，taskoffloadingandresourceprovisioning，SACSTR），最小化任務平均完成時延的同時保證穩定的訓練過程。

3.2算法收斂性能分析

為了評估超參數對所提算法性能的影響，本文驗證了Adam優化器的學習率對算法收斂性和穩定性的影響。在實驗中，學習率分別被設定為3E-3、3E-4、3E-5和3E-6。從圖3可以看出，當學習率為3E-4時，曲線在3k個epoch后收斂到最優值，并在達到收斂后保持穩定狀態。然而，當學習率為3E-5或3E-6時，需要花費6k或7k個epoch才能達到收斂狀態。此外，當學習率為3E-3時，曲線變得非常不穩定，很難收斂到穩定狀態。由此可得出結論，曲線的最優值與學習率的大小不成正比，當算法中亞當優化器的學習率太小時，算法需要更多的訓練回合來達到收斂狀態，當學習率過大時，曲線不能收斂到一個較好的值，甚至會導致訓練不穩定。因為學習率是神經網絡的權重沿梯度方向的更新步驟的大小，當學習率太小時，神經網絡需要更多的學習回合來達到損失函數的最小值。相反，學習率越大，意味著權重變化越大，可能會跳過最優值而陷入局部最優情況，或者一路發散，使整個訓練過程不穩定。

3.3對比實驗

為了驗證本文算法的優越性和可靠性，將本文算法與其他三種服務緩存、任務卸載和資源分配的基線算法進行比較。

a）隨機方案（random）。該算法中，系統隨機地作出服務緩存、任務卸載和資源分配的決定，前提是算法的資源分配決定必須滿足分配總量不超過系統的可分配計算資源。

b）全云方案（cloud-only）。該算法中，所有的任務都被傳送到CC執行，系統在總帶寬的約束下隨機分配無線網絡帶寬資源。

c）基于TD3算法的方案（TD3）。TD3算法是一種確定性策略的深度強化學習算法，其中Q網絡目標和Q網絡都使用兩個網絡來近似以避免高估Q值問題。

本文分別從用戶數量、ES的存儲容量、ES的計算能力、無線網絡的頻譜效率、CC的計算速率以及從ES到CC的傳輸速率等角度來驗證每epoch的平均任務延遲。

為了驗證不同的用戶數對SACSTR、隨機、全云和TD3方案的每epoch平均延遲的影響，本文設置了用戶數以10為增量從20遞增到40的實驗。圖4顯示，隨著用戶數量的增加，所有算法的每epoch平均延遲都在增加。這是因為任務的處理需要系統中的各種資源，隨著用戶數量的增加，用戶之間對資源的競爭會加劇，在這種情況下，系統分配給用戶的資源會減少，從而增加任務的傳輸和處理延遲。此外，與其他三種基線算法相比，提出的SACSTR算法在不同的用戶數下實現了最低的任務延時。例如，與隨機和全云方案相比，SACSTR算法的每epoch平均延遲平均減少了72%和73%；與同樣是基于強化學習算法的TD3的方案相比，SACSTR每輪的平均延遲減少了42%。主要原因在于對于隨機和全云方案，由于必須滿足所分配的資源不能超過系統總資源的約束，每次可分配的資源范圍相對較小，這導致了較長的任務完成延遲。此外，在不同用戶數量的條件下，SACSTR算法比TD3方案更好，這是因為當競爭比較激烈時，基于隨機策略的SACSTR算法可以盡可能多地探索環境，從而使期望獎勵得到顯著提高。

圖5顯示，與其他基線算法相比，DOSR方案在不同的ES存儲容量下都具有更短的平均延遲，而且SACSTR、隨機和TD3方案的每epoch平均任務延遲隨著ES存儲容量的增加而減少。然而，全云方案的每epoch平均任務延遲不變，因為它將任務卸載到CC上執行，與ES的存儲容量無關。對于SACSTR方案，當ES的存儲容量小于400GB時，ES的緩存空間是影響任務處理延遲的關鍵因素，因為隨著ES存儲容量的增加，會有更多的任務卸載到ES。當ES的存儲容量大于400GB時，緩存容量將不再是影響任務處理延遲的最重要因素，即使存儲容量增加，任務處理延遲也不會有太大變化。為了測試ES的計算能力對每epoch平均延遲的影響，本文設置ES的計算能力從7增長到31MHz，增量為4MHz。如圖6所示，ES的計算能力越大，每epoch的平均任務延遲就越低。這是因為較大的計算能力意味著任務將獲得更多的計算資源，從而導致任務處理延遲降低。此外，隨著ES計算能力的增加，隨機和全云方案之間的曲線差距變得更大，其原因是隨著ES計算能力的增加，在ES中執行的任務的處理延遲減少，而ES計算能力的增加對CC中執行的任務的延遲沒有影響。同時，SACSTR方案的曲線變化比TD3方案大，這是因為SACSTR能在最小化任務時延的同時也追求更高的資源利用率，在面對不同計算能力的ES時，可以找到減少任務處理延遲的關鍵決策。

圖7驗證無線信道的頻譜效率從1.0增加到4.0bit/s/Hz，增量為1.0bit/s/Hz時任務執行時延的變化規律。圖7表明，當系統中其他資源不變時，無線網絡的頻譜效率越高，每epoch任務的平均延遲就越小。這是因為無線網絡的頻譜效率越高，意味著在單位時間內有更多的數據可以傳輸給ES，所以任務的傳輸延遲就越小。從圖7中可以看出，隨著無線網絡頻譜效率的提高，全云和隨機方案的平均任務延遲明顯減少。這是因為在這兩種算法中分配給任務的帶寬資源非常有限，此外，這兩種算法的決策不能根據任務的資源需求進行動態調整。相反，圖7中基于強化學習的方案在不同頻譜效率的條件下具有較小的平均任務延遲，而提出的方案由于其較強的隨機探索策略，能充分利用有限的無線帶寬資源，所以能實現更小的平均任務時延。

圖8比較了CC的計算速率對每epoch平均延遲的影響。由圖可知，CC的計算率越高，每epoch的平均任務延遲越短。此外，隨著CC計算率的提高，每epoch平均延遲的變化并不明顯，因為當任務被卸載到CC時，通信距離是影響任務平均延遲的一個重要因素。提出的算法使用聯合的緩存卸載決策同時將無效的動作，能根據任務延遲最小化優先選擇把任務卸載到ES上。與隨機、全云方案和基于TD3的方案相比，SACSTR每epoch的任務平均延遲分別減少了71.9%、74%和49%。

圖9評估了ES和CC之間的傳輸速率對每epoch平均延遲的影響。如圖9所示，ES和CC之間的傳輸速率越大，每epo-ch的平均任務延遲越短。這是因為傳輸延遲是任務平均延遲的重要組成部分，較大的傳輸速率導致ES和CC之間的傳輸延遲較小。但是，與TD3方案相比，提出的算法的任務平均時延受ES到CC的傳輸速率影響小，這是因為提出的算法通過將連續動作輸出轉為離散動作選擇能更恰當地選擇緩存和卸載的目的地。與隨機、全云和TD3方案相比，SACSTR算法的每epoch平均延遲平均分別減少了71%、73%和45%。

4結束語

本文研究了在具有各種服務請求、任務動態生成和有限資源的移動邊緣計算系統中的服務緩存、任務卸載和資源分配聯合優化問題。首先將該問題建模為T時間段內的優化問題。為了使長期平均任務延遲最小化，將優化問題轉換為MDP問題，然后提出了一個基于SAC算法的具有高維度的服務緩存、任務卸載和資源分配方案。該方案可以處理離散和連續的行動空間，在有效改善穩定性的同時，利用多目標獎勵函數來提高環境中的資源利用率并加速訓練收斂過程。最后，大量仿真結果顯示，與其他三種對比算法相比，提出的算法可顯著降低復雜環境條件下的任務平均延遲。在未來可將優化問題擴展到邊緣節點協作并保證安全來減少任務卸載的延遲或其他費用。

參考文獻：

［1］AbbasN，ZhangYan，TaherkordiA，etal.Mobileedgecomputing：asurvey[J].IEEEInternetofThingsJournal，2017，5（1）：450-465.

[2]ShiShu，GuptaV，HwuangM，etal.MobileVRonedgecloud：alatency-drivendesign[C]//Procofthe10thACMMultimediaSystemsConference.NewYork：ACMPress，2019：222-231.

[3]ZhangFangzhou.MEC-basedlatencyawareopticalcharacterrecognitionandrealtimeEnglishtranslationforsmartcities[J].InternetTechnologyLetters，2021，4（1）：e168.

[4]ZhangJun，LetaiefKB.MobileedgeintelligenceandcomputingfortheInternetofVehicles[J].ProceedingsoftheIEEE，2020，108（2）：246-261.

[5]YangGuisong，HouLing，HeXingyu，etal.OffloadingtimeoptimizationviaMarkovdecisionprocessinmobile-edgecomputing[J].IEEEInternetofThingsJournal，2020，8（4）：2483-2493.

[6]QiuXiaoyu，LiuLuobin，ChenWuhui，etal.Onlinedeepreinforcementlearningforcomputationoffloadinginblockchain-empoweredmobileedgecomputing[J].IEEETransonVehicularTechnology，2019，68（8）：8050-8062.

[7]GuoHongzhi，LiuJiajia.Collaborativecomputationoffloadingformultiaccessedgecomputingoverfiber-wirelessnetworks[J].IEEETransonVehicularTechnology，2018，67（5）：4514-4526.

[8]方海，高媛，趙揚，等.衛星邊緣計算中任務卸載與資源分配聯合優化算法[J/OL].小型微型計算機系統.[2022-10-30].DOI：10.20009/j.cnki.21-1106/TP.2021-0769.（FangHai，GaoYuan，ZhaoYang，etal.Jointoptimizationoftaskoffloadingandresourceallocationinsatelliteedgecomputing[J/OL].JournalofChineseComputerSystems.[2022-10-30].DOI：10.20009/j.cnki.21-1106/TP.2021-0769.）

[9]ChenYing，LiuZhiyong，ZhangYongchao，etal.Deepreinforcementlearning-baseddynamicresourcemanagementformobileedgecomputinginindustrialInternetofThings[J].IEEETransonIndustrialInformatics，2020，17（7）：4925-4934.

[10]XuHaitao，HuangWentao，ZhouYunhui，etal.Edgecomputingresourceallocationforunmannedaerialvehicleassistedmobilenetworkwithblockchainapplications[J].IEEETransonWirelessCommunications，2021，20（5）：3107-3121.

[11]FengJie，YuFR，PeiQingqi，etal.Cooperativecomputationoffloa-dingandresourceallocationforblockchain-enabledmobile-edgecomputing：adeepreinforcementlearningapproach[J].IEEEInternetofThingsJournal，2019，7（7）：6214-6228.

[12]李凡，王超.基于移動邊緣計算的區塊鏈資源分配算法仿真[J].計算機仿真，2022，39（9）：420-424.（LiFan，WangChao.Simulationofblockchainresourceallocationalgorithmbasedonmobileedgecomputing[J].ComputerSimulation，2022，39（9）：420-424.）

[13]XuJie，ChenLixing，ZhouPan.Jointservicecachingandtaskoffloa-dingformobileedgecomputingindensenetworks[C]//ProcofIEEEINFOCOM-IEEEConferenceonComputerCommunications.Pisca-taway，NJ：IEEEPress，2018：207-215.

[14]ZhaoGongming，XuHongli，ZhaoYangming，etal.Offloadingtaskswithdependencyandservicecachinginmobileedgecomputing[J].IEEETransonParallelandDistributedSystems，2021，32（11）：2777-2792.

[15]FanQingyang，LinJunyu，FengGuangsheng，etal.Jointserviceca-chingandcomputationoffloadingtomaximizesystemprofitsinmobileedge-cloudcomputing[C]//Procofthe16thInternationalConferenceonMobility，SensingandNetworking.Piscataway，NJ：IEEEPress，2020：244-251.

[16]ZhongShijie，GuoSongtao，YuHongyan，etal.Cooperativeservicecachingandcomputationoffloadinginmulti-accessedgecomputing[J].ComputerNetworks，2021，189：107916.

[17]ZhangGuanglin，ZhangShun，ZhangWenqian，etal.Jointserviceca-ching，computationoffloadingandresourceallocationinmobileedgecomputingsystems[J].IEEETransonWirelessCommunications，2021，20（8）：5288-5300.

[18]LiuQian，ShiLong，SunLinlin，etal.PathplanningforUAV-mountedmobileedgecomputingwithdeepreinforcementlearning[J].IEEETransonVehicularTechnology，2020，69（5）：5723-5728.

[19]LiuYi，YuHuimin，XieShengli，etal.Deepreinforcementlearningforoffloadingandresourceallocationinvehicleedgecomputingandnetworks[J].IEEETransonVehicularTechnology，2019，68（11）：11158-11168.

[20]HuangLiang，BiSuzhi，ZhangYJA.Deepreinforcementlearningforonlinecomputationoffloadinginwirelesspoweredmobile-edgecomputingnetworks[J].IEEETransonMobileComputing，2019，19（11）：2581-2593.

[21]WangZhongyu，LyuTiejun，ChangZheng.Computationoffloadingandresourceallocationbasedondistributeddeeplearningandsoftwaredefinedmobileedgecomputing[J].ComputerNetworks，2022，205：108732.

[22]SellamiB，HakiriA，YahiaSB，etal.Energy-awaretaskschedulingandoffloadingusingdeepreinforcementlearninginSDN-enabledIoTnetwork[J].ComputerNetworks，2022，210：108957.

[23]QuBin，BaiYan，ChuY，etal.ResourceallocationforMECsystemwithmulti-usersresourcecompetitionbasedondeepreinforcementlearningapproach[J].ComputerNetworks，2022，215：109181.

[24]MnihV，KavukcuogluK，SilverD，etal.PlayingAtariwithdeepreinforcementlearning[EB/OL].（2013）.https：//arxiv.org/abs/1312.5602.

[25]FujimotoS，HoofH，MegerD.Addressingfunctionapproximationerrorinactor-criticmethods[C]//ProcofInternationalConferenceonMachineLearning.2018：1587-1596.

計算機應用研究2023年5期

計算機應用研究的其它文章: 基于自適應聚合與深度優化的三維重建算法; 融合自適應圖卷積與Transformer序列模型的中文手語翻譯方法; 語義線特征輔助的動態SLAM; 基于SAU-NetDCGAN的天氣云圖生成方法; 面向部件分割的PointNet注意力加權特征聚合網絡; 基于雙分支通道空間依賴和非對稱權重共享卷積的目標檢測優化結構