基于深度強化學習的海洋移動邊緣計算卸載方法

2023-01-09 12:33:32蘇新孟蕾蕾周一青CELIMUGEWu

通信學報 2022年10期

蘇新，孟蕾蕾，周一青，CELIMUGE Wu

（1.河海大學物聯網工程學院，江蘇常州 231022；2.中國科學院計算技術研究所處理器芯片全國重點實驗室，北京 100190；3.中國科學院大學計算機科學與技術學院，北京 100190；4.日本電氣通信大學信息理工學，東京 182-8585）

0 引言

國家“十四五”規劃明確提出要積極拓展海洋經濟發展空間，協同推進海洋生態保護、海洋經濟發展和海洋權益維護，加快海洋強國建設。當前，國家正在加大開發利用海洋多樣化數字資源的基礎建設投入，構建具有自主核心技術的下一代海洋信息系統，圍繞海洋工程、資源、環境等領域攻克一批技術難題，突破海洋霸權強國的封鎖，使我國全天候、全自動的海洋觀監測活動穩扎深藍遠海[1]。

移動邊緣計算作為5G 關鍵技術之一，將其應用于下一代海洋信息系統有望提供各類海洋感知數據的實時處理能力，滿足高可靠、低時延海事應用的快速響應需求[2-3]。研究表明，基于移動邊緣計算的海洋信息實時處理性能相比傳統方式可以極大提高處理效率[4]。面向下一代海洋信息系統建設，該技術具有極高的研究意義和應用價值。

計算任務的有效卸載作為移動邊緣計算的核心功能，已在陸地蜂窩網和車聯網等應用場景下展開了深入研究和廣泛應用[5-6]。然而，與傳統陸地移動邊緣計算任務卸載不同，制定海洋環境下的計算任務卸載策略將會面臨全新的技術挑戰。

1) 海洋網絡節點離散、分布不均，計算能力與能耗敏感度存在差異，海洋網絡各節點之間的強異構特性為計算任務卸載優化帶來了復雜高維度的限制條件。

2) 復雜多樣化的海事應用會導致海洋網絡局部區域出現計算任務的超負荷處理，實現海洋網絡節點計算任務的最佳卸載與資源分配是保障海事應用服務性能的關鍵。

通過調研已有計算任務卸載方法，結合海洋環境下的計算任務卸載技術挑戰，以滿足高可靠、低時延的海事應用服務為目標，本文提出了基于深度強化學習的計算任務卸載方法，聯合優化海洋網絡節點卸載決策與資源分配，主要學術貢獻包括以下幾個方面。

1) 針對海洋節點強異構下的卸載問題，刻畫全新海洋信息系統下的計算任務卸載場景，利用海洋網絡節點的計算能力、傳輸能力、可分配存儲能力等多種異構特征屬性對海洋網絡節點進行歸類分層。

2) 提出面向下一代海洋信息系統的多節點卸載模型，以最小化海洋網絡節點計算任務執行時延為目標，利用人工智能與凸優化等手段，聯合優化海洋網絡節點計算任務卸載決策與資源分配問題，提升系統服務性能。

1 相關工作

歐洲電信標準化協會于2016 年將移動邊緣計算的概念擴展為多接入邊緣計算（MEC,multi-access edge computing），并擴大了其研究范圍，包括LTE、固定寬帶和Wi-Fi 技術的異構組網模式[7]。MEC 技術優勢主要體現在超低時延、高帶寬、高可靠性以及可擴展性等方面，可以輔助運營商靈活快速地向移動用戶和企業部署新的服務。MEC 可利用計算任務卸載實現系統分布式計算框架下的邊緣計算節點負載均衡，通過適配網絡節點計算能力和與其對應的數據負載，實現邊緣計算節點的同步處理，獲取最短的應用服務時延。

面向陸地蜂窩網絡，MEC 可以通過計算任務的卸載大幅降低網絡的回程流量、傳輸成本和數據泄露風險。文獻[8]研究了單服務器場景下的多用戶計算卸載問題，通過一種基于軟件定義網絡的Stackelberg 博弈模型，實現了任務最佳卸載。但是，文獻[8]中模型計算復雜度高，不適用于任務實時卸載的相關應用場景。文獻[9]面向任務實時卸載應用場景，將卸載問題轉化為二階錐規劃問題，并利用一種基于逐次凸逼近的算法進行迭代求解，降低了求解方法的復雜度。然而，文獻[9]尚未考慮邊緣計算節點的動態移動性，導致其適用性較弱。文獻[10]研究了MEC 系統中時延和能耗之間的基本權衡，提出了一種基于迭代啟發式的在線卸載算法，獲得了較好的服務性能。文獻[11]將計算卸載決策表示為有限時間的馬爾可夫決策過程，并采用動態規劃方法求解最優卸載決策，實現了最小化系統時延的目標。然而，文獻[11]未考慮能耗約束會導致用戶能耗過高。為同時滿足用戶對時延與能耗的要求，文獻[12]針對蜂窩網絡中邊緣網絡與中心云計算之間的協同卸載問題，提出了一種基于分解法和連續偽凸法的框架，并通過迭代算法降低了系統成本。

面向車聯網等時延敏感型應用，MEC 技術優勢主要體現在降低網絡時延、提高用戶的體驗質量。文獻[13]設計了一種基于預測卸載的傳輸機制，將任務提前傳輸至MEC 服務器，一旦車輛進入服務器覆蓋范圍便可立即響應，實現了降低車輛計算任務執行時延的目標。但是，文獻[13]忽略了節點負載均衡，導致部分服務器由于過載而限制其性能的提升。文獻[14]則將負載均衡與卸載相結合，研究了多用戶多服務器系統的資源分配問題，提升了系統性能。然而，文獻[14]假設車輛勻速移動，不符合實際車聯網的應用場景。針對車輛移動性問題，文獻[15]研究了車輛隨機移動場景下的MEC 系統性能，提出了相應的移動感知卸載機制，降低了系統運維成本。但文獻[15]采用了單跳的任務卸載方式，導致其系統模型對環境的適應性較弱。在此基礎上，文獻[16]研究了針對多跳車輛場景的有效聯合卸載，并制定了雙端優化問題，聯合優化了用戶端和服務端的服務成本。但是，文獻[16]僅考慮了正交多址應用場景下的車載MEC 系統，導致其系統模型過于單一。文獻[17]進一步考慮了正交多址和非正交多址2 種應用場景下的車載MEC 系統，提出了基于啟發式算法的任務卸載機制，獲得了系統最小化任務總執行時延。

移動邊緣計算卸載場景實際上存在動態、隨機、時變等特性，而上述面向陸地蜂窩網和車聯網的任務卸載方案的主要目的是得到更好的卸載決策，缺乏對實際場景下決策算法高實時性要求的考慮。隨著人工智能技術的興起，研究者逐步將其與移動邊緣計算技術進行有效結合，可以更好地解決動態、隨機、時變環境下的計算任務卸載優化問題。

文獻[18]研究了車聯網中的任務卸載和資源分配問題，并提出了一種基于Q-Learning 的任務卸載和資源分配算法，但是文獻[18]僅考慮了單一的MEC 系統。文獻[19]針對蜂窩網中的多個MEC 系統，提出了一種基于Q-Learning 的聯合通信和計算資源分配機制，優化了滿足能量約束條件下的任務處理時延，并通過仿真實驗驗證了所提方法具有較好的環境適應性。文獻[20]面向動態卸載場景，利用一種基于軟件定義網絡（SDN,software defined network）邊緣云的新型Q-Learning 優化框架制定卸載決策和資源分配，能夠快速適應梯度更新和樣本數量較少的全新通信環境。雖然文獻[18-20]利用Q-Learning 方法在特定場景下達到了較好的卸載效果，但是當優化問題的狀態和動作空間過大且高維連續時，存儲Q值的內存空間將呈指數級增長，在搜尋最優卸載決策時也會產生大量的時間開銷。為此，研究者利用深度學習技術解決了傳統強化學習存在狀態空間中的高維問題。文獻[21]考慮了一個包括陸基、車輛以及無人機的混合移動邊緣計算平臺，以最小化終端設備能耗為目標，提出了一種基于深度學習的混合在線卸載算法框架，但是每次僅限輸入一個設備信息，不適用于實際應用場景。文獻[22]研究了車輛-車輛（V2V,vehicle to vehicle）與車輛-基礎設施（V2I,vehicle to infrastructure）之間的聯合卸載問題，提出了一種多智能體深度強化學習框架，達到了同時滿足V2I 和V2V 鏈路時延要求的目標，但是該方法收斂速度較慢。文獻[23]考慮了多用戶和多服務器的MEC 場景中的任務卸載決策問題，提出了一種基于深度強化學習的在線卸載算法，解決了計算任務卸載時長的優化問題。

本文聚焦下一代海洋信息系統，面向多種海事應用并行、海洋網絡拓撲較大且快變等特性，提出基于深度強化學習的海洋移動邊緣計算卸載方法。截至目前，研究者針對海洋移動邊緣計算已經提出了若干計算任務卸載算法，在一定程度上滿足了海洋網絡低時延高可靠的應用服務需求。

文獻[24]分析了海洋通信時延和能耗之間的折中關系，提出了一種階段性聯合優化算法，在能量有限與時延敏感條件下優化了計算與通信資源的分配機制。文獻[25]提出了一種基于海洋網絡連通概率的邊緣計算節點選取方法，根據海洋近岸和遠岸的網絡節點密度差異，建立了基于近海和遠海場景的任務卸載模型，并分別利用遺傳算法和粒子群優化算法進行求解。文獻[26]利用混合整數非線性規劃分離優化目標，有效地分配傳輸功率并通過改進傳統人工魚群算法制定了卸載決策。然而，上述文獻均未充分考慮海洋網絡節點之間的強異構特性。同時，啟發式算法不僅在尋優時需要大量迭代，而且面對復雜卸載環境時算法計算能力會大幅下降，求解質量不能得到很好的保證。

表1 通過應用場景、系統模型、卸載算法、節點異構性、實現效率、適用規模等方面對上述文獻進行了對比與總結。由表1 可知，傳統MEC 卸載算法[8-17,24-26]計算復雜度較高，實現效率始終低于人工智能算法。基于強化學習的人工智能卸載算法[18-20]雖然能夠達到較高的卸載效率，但存在維數災難，只適用于小規模應用場景。基于深度強化學習的卸載算法[21-23]雖然能夠克服維數災難，但過于專注中心化的卸載策略，對新環境的適應性較弱。通過對比還可以發現目前針對海洋網絡MEC 研究仍然存在以下缺陷：對綜合考慮端-邊協同架構中的計算任務卸載和資源分配問題的研究較少，并且已有文獻尚未充分考慮海洋網絡節點之間的強異構特性；沒有對MEC 系統中的節點進行分層歸類，在高維度時收斂速度慢，無法滿足海洋監測網中低時延、高可靠的任務卸載需求，并且對快速變化的環境適應性較弱。

表1 MEC 卸載模型比較

2 海洋移動邊緣計算任務卸載

2.1 海洋網絡節點分層歸類

圖1 刻畫了基于海洋網絡的計算任務卸載模型。考慮到海洋網絡節點的強異構特性，需要依據海洋網絡節點特征屬性對其進行歸類分層，包括計算能力、可分配存儲能力、傳輸能力、節點位置以及節點移動速率；并且可將節點歸類劃分為強型層、中型層、弱型層和獨立層，分別用和表示，其中，m∈ {1,2,…,M}，n∈{1,2,…,N}，k∈ {1,2,…,K}，o∈ {1,2,…,O}。具體分層歸類策略如下。

圖1 基于海洋網絡的計算任務卸載模型

強型層節點移動速率相對緩慢穩定，計算能力和可分配存儲能力強、電量充沛，可有效快速地完成海量復雜的計算任務，主要由海岸基站和大型船舶等組成。中型層節點移動速率較快，計算能力和可分配存儲能力較強，電量較充足，可處理復雜度一般的海事任務，主要由柴油驅動的中型船舶組成。弱型層節點計算能力和可分配存儲能力弱，蓄電池電量受限，可處理普通的海事任務，主要由電力驅動的小型船舶以及海上浮標等組成。部分海上浮標可通過有線連接淺海區域水下機器人展開相關業務，因此將其視為一個節點整體。獨立層節點主要位于水下，通過水聲通信方式互聯。若進行大規模的數據卸載，會產生較大時延，因此本文不考慮水下卸載過程，水下任務只在本地處理，該層節點獨立于其他層的節點。

2.2 海洋移動邊緣計算卸載時延模型

當網絡中心節點根據卸載決策確定αI,αII,αIII、上行鏈路傳輸功率P以及相應的MEC服務器計算資源F時，執行完成所有節點的計算任務所需要的總時延為

其中，?k∈ (0,1]為權重因子，用于指定資源提供者對節點的偏好，滿足時延敏感性節點的需求[27]，?k的值可以根據計算任務的關鍵性來設置。

2.3 海洋移動邊緣計算卸載時延優化問題

式(9)的約束 C1表示任務執行方式為二進制卸載，約束 C2表示每個任務只能選擇一種執行方式，約束C3和C4表示節點的傳輸范圍限制，約束C5、C6、C7和 C8限定節點發送功率，約束 C9、C10、C11和 C12限定節點計算能力。

基于式(9)可知優化問題P1 是一個混合整數非線性規劃問題[28-29]。面向多種海事應用并行、網絡拓撲大而快變的海洋計算任務卸載場景，考慮海洋網絡獨有的節點強異構特性，優化問題P1 是一個大規模、高維度且具有諸多限制條件的復雜問題，即使能夠描述出這種海洋移動邊緣計算的卸載模型及問題，求解過程也會相當困難。為此，本文面向海洋移動邊緣計算任務卸載，設計了一種基于凸優化-深度強化學習的計算任務卸載策略，從而避免解決使用傳統方法難以求解的問題。

3 基于深度強化學習的計算任務卸載方法

優化問題P1 中P和F的最優值P*和F*是關于αI,αII,αIII的函數，因此問題P1 可以化簡為

其中，約束 C1～ C4中的αI,αII,αIII與約束 C5～ C12中的P、F相互解耦。式(10)的求解等效于求解如下的主優化問題P2。

其中，T*（αI,αII,αIII）是對應P和F的最優解函數，具體表達式為

上述問題的分解不會改變原問題的最優解，同時式(12)具有變量可分離的結構，即P和F所對應的目標函數和約束彼此解耦。因此，式(12)可以分解為2 類子優化問題，其中，F*為子優化問題P3的最優解，P*為子優化問題P4 的最優解。本文針對任意卸載決策（αI,αII,αIII），利用相關算法推導出F*和P*的具體表達式。

3.1 計算資源分配

式(15)約束為凸，目標函數記為 Γ(αI,F)，并且 Γ(αI,F)關于fk,m的二階導數可以表示為

由此可知，式(15)為凸優化問題，可以使用KKT（Karush-Kuhn-Tucker）條件進行求解，其對應的拉格朗日函數可以表示為

其中，v=［v1,… ,vM］為拉格朗日乘子。計算拉格朗日函數L（Γ（sI,F）,v）關于fk,m的一階導數為

將式(18)代入式(19)可以得到拉格朗日乘子的具體表達式為

最后，將式(21)代入式(19)，便可以得到式(15)的最優解為

3.2 數據傳輸功率分配

3.3 卸載決策生成

當確定P3 和P4 的最優解后，將其代入式(12)可以得到T*（αI,αII,αIII）的具體表達式為

將式(27)代入式(11)，進而主優化問題P2 可以更新為

通過分析可知式(28)為整數規劃問題。由于傳統算法求解整數規劃問題存在維數災難，本文針對上述優化問題提出一種基于深度強化學習并行計算在線卸載（OOPC-DRL,online offloading of parallel computing based on deep reinforcement learning）算法，可以規范高效地求解卸載策略，以最小化節點計算任務執行總時延。

OOPC-DRL 計算任務卸載策略架構如圖2 所示，從圖2 可知，OOPC-DRL 主要由生成卸載決策矩陣集、資源分配、生成最佳卸載決策矩陣和更新卸載經驗4 個階段交替完成。生成卸載決策矩陣集階段主要依賴于并行的深度神經網絡（DNN,deep neural network），DNN 根據當前時刻狀態實時生成Ω個卸載決策矩陣，并且通過經驗存儲器在線學習定期更新參數。其中，當前時刻狀態st包括海事應用任務數據量的大小Dk、節點的相關參數集合節點的相關參數集合，以及系統總帶寬、信道增益和背景噪聲功率。

圖2 OOPC-DRL 計算任務卸載策略架構

資源分配階段將生成卸載決策矩陣集階段所生成的決策矩陣分別代入子優化問題P3和P4求解其最優計算資源和數據傳輸功率，實現系統的最佳資源分配。生成最佳卸載決策矩陣階段將前2 個階段所產生的卸載決策矩陣集、最優計算資源和最優數據傳輸功率代入主優化問題P2，通過求解P2 生成最佳卸載決策矩陣。更新卸載經驗階段使用經驗回放機制[30]，將同一時刻的狀態與最佳卸載決策矩陣合并作為卸載經驗存儲于經驗存儲器中，并在訓練時隨機采樣作為訓練樣本。與使用整個數據樣本集相比，OOPC-DRL算法降低了更新復雜度；通過降低訓練樣本之間的相關性，加快了網絡收斂速度；重復使用歷史數據，減少了迭代更新方差。此時，可以使用Adam 隨機梯度下降優化算法更新DNN 中各網絡參數[31]，因此，平均交叉熵損失函數表示可以為

OOPC-DRL 算法具體表述如算法1 所示。

算法1OOPC-DRL 算法

輸入神經網絡參數θΩ，經驗存儲器B，當前狀態st

輸出卸載決策矩陣（αI,αII,αIII），計算資源F*，數據傳輸功率P*

初始化神經網絡參數θΩ～N(0,1)，經驗存儲器的大小

1) fort=1:T

2) 將當前時刻狀態st進行歸一化

3) DNN 根據歸一化的st產生Ω個候選動作矩陣，并存入候選動作矩陣集C

4) 代入資源分配子優化問題最優解，即式(22)、式(23)、式(26)，得出計算資源和數據傳輸功率最優解F*、P*

5)代入式(27)求解T*（st,αt）

8) if 經驗存儲器B的大小

9) 從經驗存儲器中隨機選取Ω批訓練數據樣本

10) 使用Adam 隨機梯度下降算法更新神經網絡參數θΩt

11) end if

12)t=t+1，進入下一狀態st+1

13) end for

14) 輸出（αI,αII,αIII），F*，P*

4 實驗結果分析與討論

基于海洋網絡的計算任務卸載模型，本節在Python3.6 和Tensorflow 2.0.0 環境下對 OOPC-DRL算法進行了仿真實驗。海洋網絡仿真場景主要由強型層、中型層以及弱型層節點構成。網絡環境下的計算任務卸載仿真參數如表2 所示。OOPC-DRL 算法中DNN 的相關設置參數參考文獻[32]，如表3 所示。

表2 網絡環境下的計算任務卸載仿真參數

表3 DNN 的相關設置參數

為了分析OOPC-DRL 算法的收斂性能，本文將增益定義為其中，分子是通過枚舉所有可行的卸載動作得到的最優解。

圖3 和圖4 分別展示了OOPC-DRL 算法的訓練損失函數曲線和增益曲線。其中，訓練損失隨著訓練步數的增加而降低，增益隨著訓練步數的增加而趨近于1。在訓練初始時，DNN 需要不斷探索動作，增益曲線會存在較大程度的波動。當訓練步數在2 000 步時，訓練損失和增益基本同時收斂；當訓練步數大于2 000 步時，訓練損失降低到0.04，增益收斂到0.98，這說明本文所提OOPC-DRL 算法可實現在有限訓練步數內的穩定收斂，且能快速收斂到最優解。

圖3 基于OOPC-DRL 算法的損失函數曲線

圖4 基于OOPC-DRL 算法的增益曲線

圖5 展示了DNN 數量對OOPC-DRL 算法收斂性能的影響。總體來看，隨著訓練步數的增加，增益逐漸收斂到1，且DNN 數量越多，收斂效果越明顯。然而，當只使用一個DNN 時，OOPC-DRL 算法無法從其自身生成的數據中獲取任何信息，并且無法收斂。因此，OOPC-DRL 算法至少需要2 個DNN。OOPC-DRL 算法的計算復雜度主要來自利用DNN 生成卸載決策矩陣階段，當DNN 數量增加時，增益曲線雖然有所改善，但是效果并不明顯，且算法的復雜度大幅度增加，因此，在設置DNN 數量時，需要權衡其性能和復雜度。所以，本文將DNN 數量設置為4。

圖5 DNN 數量對OOPC-DRL 算法收斂性能的影響

圖6 進一步說明了學習率對OOPC-DRL 算法收斂性能的影響。從圖6 可以看出，隨著訓練步數增加，OOPC-DRL 算法在不同學習率下的增益均逐漸提升。學習率越大，OOPC-DRL 算法的增益曲線收斂越快。然而，當學習率為0.1 時，增益值反而降低，這是由于學習率過高導致網絡陷入了局部最優的困局。相反，當學習率過低時（取值為0.000 1），算法收斂速度較慢，大約在訓練4 000 步后達到收斂。因此結合這一實際情況，本文在剩余的仿真實驗中將學習率設置為0.01。

圖6 學習率對OOPC-DRL 算法收斂性能的影響

為了驗證OOPC-DRL 算法有效性，本文將其與以下5 種現有策略進行對比。

1) 本地計算策略（簡稱Local 策略）。節點的全部計算任務均在本地處理，不進行卸載處理。

2) 基于資源分配的隨機卸載策略（簡稱Random策略）[33]。每當節點遇到新狀態時，隨機生成卸載動作，利用本文中的子問題優化方法分配計算資源。

3) 基于分組交叉學習的粒子群優化（GCL-PSO,group cross learning based particle swarm optimization）算法[25]。利用文獻[25]中的GCL-PSO 算法生成卸載動作，通過本文的子問題優化方法分配計算資源。

4) 基于變異操作的人工魚群算法（MO-AFSA,artificial fish swarm algorithm based on mutation operation）[26]。利用文獻[26]中的MO-AFSA 生成卸載動作，通過本文的子問題優化方法分配計算資源。

5) 枚舉（Enumerate）策略。對所有卸載決策進行窮舉搜索，并選擇最優卸載決策，但耗時過長，不能滿足在實際情況中的實時性。

圖7 展示了不同節點數量下各策略平均計算任務執行時延對比。從圖7 中可知，除Local 策略外，其他策略的平均計算任務執行時延總體變化趨勢均隨著節點數量的增大而增加。這是因為當系統中節點數量增大時，單個節點分配的帶寬和邊緣服務器分配的計算資源相應減少，計算任務卸載傳輸時延和處理時延增加，導致平均計算任務執行時延增加。然而，本文所提出的OOPC-DRL 算法平均計算任務執行時延表現最優。Local 策略計算任務處理時延只與節點的性能有關，并且每個節點的計算能力遠小于邊緣服務器節點。因此，Local 策略在不同節點數量下的平均計算任務執行時延最高。Random 策略具有很強的隨機性，在不同節點數量下的平均計算任務執行時延波動最大。由于尋優時容易陷入局部最優，MO-AFSA 和GCL-PSO 這2 種策略較OOPC-DRL 算法相比平均計算任務執行時延依次增加。通過以上對比可以看出，OOPC-DRL 算法平均計算任務執行時延接近具有最佳性能的Enumerate 策略，在降低節點平均計算任務執行時延方面具有較好的表現。

圖7 不同節點數量下各策略平均計算任務執行時延對比

圖8 展示了不同輸入數據下各策略平均計算任務執行時延對比。從圖8 中可以看出，隨著輸入數據的增大，除LOCAL 策略外，其他5 種策略的平均計算任務執行時延都有不同程度的增加，但是OOPC-DRL 算法相比其他策略表現更加優異，這是因為輸入數據的大小只影響節點的任務傳輸時延。Random 策略由于存在隨機性，其增加幅度最大，GCL-PSO 和MO-AFSA 策略容易陷入局部最優，尋優效果也不佳。OOPC-DRL 算法在不同輸入數據下的平均計算任務執行時延接近Enumerate 策略，表現依然最好。在輸入數據明顯增大時，OOPC-DRL 算法相較其他策略提升更明顯，再次說明該策略能夠更好地應對資源有限情況下的任務分配問題，即能夠在有限的資源情況下最小化系統時延。

圖8 不同輸入數據下各策略平均計算任務執行時延對比

圖9 展示了不同任務計算量下各策略平均計算任務執行時延對比。所有策略產生的平均計算任務執行時延均隨著節點任務計算量的增大而增加，而Enumerate 策略和OOPC-DRL 算法的平均計算任務執行時延的增加幅度明顯低于其他4 種策略。這是由于任務計算量增大時，節點需要花費更多的時間進行計算處理，而節點的計算能力最弱，故Local 策略的平均計算任務執行時延增加幅度最大。OOPC-DRL 算法的平均計算任務執行時延雖然隨著節點任務計算量的增大而增加，但是始終非常接近能夠產生最佳性能的Enumerate 策略，再次闡明了OOPC-DRL 算法在有限的資源情況下最小化系統時延的能力。

圖9 不同任務計算量下各策略平均計算任務執行時延對比

圖10 展示了不同計算能力下各策略平均計算任務執行時延對比（以固定輸入數據大小為20 MB，任務計算量的大小為40 GHz 為例）。仿真結果表明，除Local 策略之外，其他策略的平均計算任務執行時延總體均隨著邊緣服務器計算能力的增大而降低，提高了節點任務執行效率。其中，OOPC-DRL算法在不同邊緣服務器計算能力下的平均計算任務執行時延始終接近Enumerate 策略，均小于其他4 種策略，且隨著邊緣服務器計算能力越來越強，OOPC-DRL 與其他4 種策略的差距也越來越大。再次表明了本文所提算法隨著邊緣服務器計算能力的變化可以實時調整卸載策略，以確保系統具有更好的動態適應性。值得注意的是，Random 策略是隨機生成卸載動作的，仿真時會出現50 GHz 下對應的平均計算任務執行時延高于40 GHz 的情況。

圖10 不同計算能力下各策略平均計算任務執行時延對比

5 結束語

本文以最小化海洋網絡節點任務執行時延為目標，利用海洋網絡節點的強異構特征屬性對其進行歸類分層，并提出了一種基于深度強化學習的海洋網絡計算任務卸載策略。實驗結果表明，與傳統算法相比，本文所提出的OOPC-DRL 計算任務卸載算法能夠在海洋信息系統下有效地降低網絡節點的計算任務卸載時延，可以更好地滿足對實時性要求較高的海事應用服務需求，并且能夠在大規模任務流下保持海洋網絡的穩健性。未來研究工作將針對多維度的水上水下節點之間的任務卸載需求，深入分析并考慮排隊等待時延對節點任務卸載的影響。