基于混合深度強化學習的云制造云邊協同聯合卸載策略

2025-08-03 00:00:00張亞茹郭銀章

計算機應用研究 2025年6期

Joint offloading strategy for cloud manufacturing based on hybrid deep reinforcement learning in cloud-edge collaboration

Zhang Yaru，Guo Yinzhang? （Colegeof ComputerScienceamp;Technology，Taiyuan UniversityofScienceamp;Technology，TaiyuanO3o024，China）

Abstract：Toaddress theissueofreal-time perceptiondata frommanufacturingresources being dificult toprocess promptlyin acloud-edgecollaborative cloud manufacturingenvironment，considering uncertainfactors suchas the limited computingresources attheedge，dynamicallychanging network conditions，andtaskloads，thispaper proposedacloud-edgecolaborative jointoffloading strategybasedonmixed-baseddeepreinforcementlearning（M-DRL）.Firstly，thisstrategyestablishedajoint ffloadigmodelbycombiningdiscretemodeloffloadinginthecloudwithcontinuoustaskoffloadingattheedge.Secondly， this strategydefinedtheoptimizationproblemasaMDPtominimizethetotalcostofdelayandenergyconsumptionoveraperiod. Finally，thispaper used the M -DRL algorithm，which utilized an integrated exploration strategy of DDPG and DQNand introducedalongshort-termmemory network（LSTM）intothenetworkarchitecture，tosolvethisoptimizationproblem.Simulation results showthatcompared with some existing ofloadingalgorithms，the M-DRL method has goodconvergence and Stability， andsignificantlyreduces thetotalsystemcost.Itprovidesanefectivesolutionforthetimelyprocessingofmanufacturingresource perception data.

Keywords：cloudmanufacturing；cloud-edgecolaboration;jointofloading；LSTMreinforcementlearning；Markovdecision process（MDP）

0 引言

云制造作為一種新興的生產模式，以前所未有的速度改變著全球制造業的格局。它通過整合云計算、大數據、物聯網等先進技術，實現了制造資源的虛擬化、網絡化和智能化管理[1]。然而，隨著云制造環境下的制造資源實時感知數據呈指數級增長，傳統計算模式面臨著前所未有的挑戰。

在生產制造過程中積累的大量數據對于實時監控設備狀態、提升生產效率至關重要。在群智感知與協同的智能制造環境下，由于網絡傳輸延遲等原因，生產過程中的大量實時數據無法及時傳輸到云端進行處理。于是引入云邊端泛在協同算法來解決。邊緣計算部署在產生數據的設備端，能夠提供快速響應、實時服務、數據處理及安全保障等能力，它能有效地減輕云端的負載并降低延遲[2]。然而，邊緣計算的計算和存儲資源有限，在處理復雜任務時可能會遇到瓶頸。云計算提供了強大的計算和存儲資源，適合進行大規模數據處理和復雜算法的運行。然而，隨著越來越多的傳感器和智能設備被部署在工業環境中，數據的生成速率和規模急劇增加，尤其是數據從生成到決策直至執行的整個過程中的延遲問題，迫切需要在設備端處理實時性很高的數據，以滿足生產過程的需求。因此，面向智能化設備的云邊協作架構被提出[3]

在云制造云邊協作架構中，信息由下而上，再由上而下形成閉環[4]。但由于邊緣設備端和云的計算與通信資源有限，如果對這些資源的協調運用沒有形成閉環優化，就無法充分發揮云邊協作的優勢。近年來，關于計算卸載[5和模型協同推理[]的研究不少，且它們的優化目標通常是總延遲最小化[7]能耗最小化或者同時考慮延遲與能耗的最小化8，但未考慮在分開卸載的情況下，邊緣端和云端的決策缺乏全局視圖，可能導致各自優化的目標不一致，進而使得整個系統的性能下降。在云邊協同的復雜環境中，由于任務卸載決策涉及多個變量和動態環境特性，如網絡條件的變化、計算資源的可用性等，傳統基于規則或靜態優化的方法難以適應這種高度不確定性的場景。為此，研究人員采用強化學習處理非線性、非凸優化問題[9，使其自適應地應對環境變化。但僅用上述方法缺乏對歷史信息的有效利用，忽略時間依賴性和周期模式，可能導致決策不夠精準和前瞻性不足。

為解決云邊協作架構下存在的閉環優化與復雜環境下任務高效處理問題，本文開發了一種基于混合深度強化學習（M-DRL）的云制造云邊協同聯合卸載策略，分析云制造環境下制造資源閉環優化的關鍵因素，建立聯合優化系統模型。為了處理復雜任務問題，集成DQN和DDPG的探索策略，充分利用兩者的長處滿足系統需求，提高決策效率和靈活性。同時，在網絡架構中引入LSTM結構，有效地整合歷史信息與當前信息，面對復雜的狀態空間數據，使用記憶推理提取邊緣設備任務和環境信息，并通過觀察狀態空間和全面分析數據特征來進行有效的網絡學習，增強決策的準確性與適應性。

本文主要貢獻總結如下：

a）針對資源密集型任務與時間敏感型任務，建立云邊協同環境下由邊至云的計算卸載與由云至邊的模型（DNN）卸載聯合優化的系統模型，確保所有決策都在全局最優框架內進行。

b）以一段連續時隙內綜合時延、能耗的總成本為本文解決的優化目標建立問題模型，并建立相應的馬爾可夫決策過程，考慮長期效果的同時，動態調整決策。

c）集成改進的DDPG與DQN的混合強化學習方法，同時在網絡架構中引入LSTM，有效地處理復雜決策空間并捕捉數據中的時間依賴關系，輸出復合動作空間，最后驗證所提策略的有效性。

1相關工作

1.1計算卸載

隨著人工智能的發展，基于強化學習（RL）的無模型方法已被開發用于邊緣計算系統中的計算卸載[9]，與傳統基于啟發式的卸載算法（如粒子群優化（PSO）[10]和遺傳算法[1]）相比，經驗驅動的DRL不依賴于環境模型，特別是通過積累新的經驗，DRL可以不斷改進策略，快速適應環境變化[12]。Yan等人[13]提出了一種基于深度Q學習的設備級和邊緣級任務卸載聯合優化方法，實現了在任務延遲和能量消耗之間的良好平衡。Tong等人[14]在計算能力、資源和可靠性約束下的云邊緣協作環境中，提出了一種基于DQN的任務卸載和資源分配算法SLRTA。雖然基于DQN算法的任務卸載可以解決動態卸載問題，但任務卸載方法一般局限于局部計算和完全卸載，忽略了各種卸載類型。因此，Li等人[15]為解決多用戶環境下任務卸載的資源競爭問題，提出一種基于深度確定性策略梯度（DDPG）的雙層混合計算卸載方法，仿真結果顯示該方法實現了更高的任務平均獎勵和更低的平均延遲。Zhang等人[16]提出一種面向邊云協作的多智能體深度強化學習算法（MADRL），采用集中訓練、分散執行的方式，考慮智能體之間的關聯性并利用環境的整體狀態來訓練各個agent，通過學習形成一致的策略，從而在復雜的邊云協作環境中實現高效的協同工作。

然而，目前基于強化學習的方法主要考慮離散動作空間或連續動作空間。為處理離散-連續混合動作空間，Shang等人[17]采用了一種基于近端策略優化（PPO）的方法，并設計出動態掩碼機制，根據環境狀態和緩存決策生成的掩碼向量調整有效卸載動作的概率分布，從而聯合優化服務緩存和計算卸載決策。 Binh 等人[18]提出了一種基于演員-評論家架構的任務卸載方案（ ACTO-n ）。該方案設計了偽情節以模擬演員-評論家算法的工作機制，從而直接學習最優的任務卸載策略，能夠通過協作利用邊緣和云資源，最小化各任務在其質量基線（即容忍時間）內的總執行時間，并確保所有任務滿足其服務的軟期限。此外，文獻[19]提出一種分階決策的深度強化學習方法，該算法在時延、能耗等方面都表現出很好的優勢。

與此同時，隨著環境的日益復雜，將各種新興的神經網絡應用到強化學習領域已成為一個熱點。Chen等人[20]提出將一維卷積和長短期記憶網絡應用于DDPG來解決資源分配問題。Du等人[21]提出將長短期記憶網絡應用于DDPG，利用歷史狀態信息來近似當前的環境狀態信息，使得預測的動作更加準確，在道路規劃問題上取得了良好的效果。Gao等人[22]為了增強多個智能體之間的信息通信，在DDPG中引入長短期記憶網絡（LSTM）作為內部狀態預測器來提供更完整的環境狀態，并使用雙向循環神經網絡（BRNN）來學習和增強從智能體通信中獲得的特征，以解決任務卸載問題。

1.2 DNN卸載

在邊緣設備端上部署的深度學習DNN模型通常需要輕量級設計[23]，因為在資源受限的邊緣設備上難以完成復雜的DNN模型推理，研究人員嘗試將復雜的DNN模型劃分后卸載到不同的設備進行協同推理。Su等人[24]設計了一種基于深度確定性策略梯度的DNN分區和資源分配（DDPRA）算法，聯合優化DNN分區和計算資源分配，以最小化多種類型的深度學習任務的長期平均端到端延遲，同時保證能耗在其能源預算范圍內。Tian等人[25]通過聯合優化動態環境下的任務卸載、模型劃分和資源分配來減少DNN任務的長期平均端到端延遲，提出了一種基于強化學習的協同推理優化（RLCIO）算法，以減少代理的決策變量。Xue等人[26]設計了一種改進的雙決斗優先深度Q網絡（DDPQN）算法，旨在資源受限的本地-邊緣-云環境中優化大規模DNN模型的劃分與卸載，以實現低延遲、低能耗和低成本的目標。但大多數研究方法在高度動態變化的環境中對于不同類型的任務（如不同規模、結構和計算需求的DNN模型）可能缺乏一定的靈活性和支持。

考慮到上述問題，本文提出一種基于離散-連續混合動作空間的強化學習方法，能夠在動態變化的環境中最小化系統時延與能耗。

2云邊協同的聯合卸載模型

實現閉環優化以提升系統整體性能和資源利用率，云邊協同計算的核心在于實現數據的有效卸載和模型的合理分配應用。如圖1所示，涉及兩大部分：a）數據卸載，即將數據從邊緣端轉移到云端進行處理；b）模型卸載，即在邊緣端和云端之間分配機器學習模型的不同部分進行協同推理。這兩者的有效結合構成了云邊協同的聯合卸載機制。

數據卸載主要關注如何在保證數據安全和隱私的前提下，最大化地利用邊緣端和云端各自的優點。對于那些時效性強且敏感度高的數據，可以在邊緣端直接處理，以滿足低延時和保護隱私的需求。而對于那些需要大量計算資源或者歷史積累的數據，則更適合上傳至云端進行集中處理。

模型卸載則側重于如何將復雜的深度神經網絡（DNN）模型分解成不同的子任務，由邊緣端和云端共同完成。這種方法利用邊緣端的實時處理能力和云端的強大計算資源，實現高效的模型推理。通過調整DNN的層數和參數配置，確定哪些層適合在邊緣端運行，哪些層更適合在云端運行，以此平衡計算負載和通信成本。

圖1云邊協同聯合卸載模型Fig.1Cloud-edge collaborative joint offloading mode.

本章以最小化系統開銷為目的，對系統中存在的數據卸載以及模型卸載問題進行說明，并建立與其相關的系統模型。

2.1任務模型

在云邊協同計算環境中，任務卸載決策對于優化計算任務的處理至關重要。合理的任務卸載不僅可以提高系統的整體性能和效率，還可以減少網絡帶寬的占用，降低能耗，并確保實時響應。本文假設計算密集型任務的數據是細粒度的，即數據可以被劃分為任意大小的子集。處理任務的方式包括邊緣端處理、全卸載、部分卸載[27]。該任務卸載決策模型基于任務卸載比例 x 來描述任務卸載決策的結果。

其中：邊緣端計算即任務僅靠邊緣計算能力完成；完全卸載意味著類似于傳統的制造資源智能化管理，將終端收集的數據卸載到中心服務器進行處理；部分卸載即在邊緣端計算部分任務，其余部分卸載到云中心進行處理。

模型協同推理的卸載取決于DNN的層組成，即深度神經網絡內每層的數據和計算變化的細粒度。Kang等人[28]通過改變不同神經網絡層的可配置參數，測量每種配置的延遲與能耗，構建每種類型層的延遲與能耗預測模型，從而在不執行DNN的情況下估計DNN組成層的延遲與能耗，包括靜態配置和服務執行兩個階段。在靜態配置階段，從云數據庫中獲取DNN層頻譜的延遲與能耗預測模型，并將其存儲在相應的邊緣端。在服務執行階段，系統對DNN層進行類型分析，提取其配置，并使用存儲的預測模型來評估每個層在邊緣端和云中心的執行延遲與能耗。在此基礎上，考慮在動態變化的環境下每個候選分段點對應的服務延遲與能耗，選擇最優策略作為分段點的輸出，在邊緣端和云中心之間分配任務來執行DNN，盡可能多地在邊緣端處理實時應用。

2.2 通信模型

為了進一步在云中心處理與學習邊緣端卸載的計算任務，需要將來自邊緣端任務的輸入比特傳輸到云中心。假設邊緣服務器和云中心之間的無線信道在一個時隙內保持不變，但在不同時間槽間遵循獨立同分布。根據香農公式，邊緣設備 i∈N 與時隙 χ_t 云中心之間的傳輸速率可以表示為

其中： B 和 N₀ 分別表示通信帶寬和信道噪聲功率的頻譜密度；f_i^ed 是邊緣設備 i 的預定傳輸功率； h_i，c^t 表示從邊緣設備到云中心的信道功率增益[29]，受路徑損耗、陰影和小規模衰落等不可控因素的影響。此外，根據文獻[30]， ω_i（t）表示每個邊緣設備 i 的帶寬分配比。

2.3數據卸載的時延與能耗模型

在云邊協同的計算環境中，本文以邊緣端處理的計算任務為整體，可以在邊緣側進行數據實時處理，并將一部分數據卸載到云中心進行進一步處理。

在邊緣端的計算延遲為

其中： ??D_i（?_t）為第 χ_t 個時間段中終端設備傳輸到第 i 個邊緣端的任務數據大小： z 是計算每個位所需的CPU周期； C^ed 是邊緣端的計算能力。

能耗可以用式（4）表示。

其中 ?f₁ 為邊緣端計算所消耗的功率單位。

如果邊緣側的任務過載，數據比例為 x 的計算任務將卸載至云中心，則大小為 x×D_i（t）的計算任務的傳輸延遲為傳輸數據大小與傳輸速率的比值[31]

邊緣端到云中心的傳輸能耗為傳輸持續時間與傳輸功率的乘積：

云計算中心計算時延為

其中： C^c 是云中心的計算能力。

云中心通常配備有高性能的處理器，這些處理器在運行時會產生動態功耗，云計算中心處理邊緣端傳輸任務的能耗為

E_c^cal=σ（C^c）³x×D_i（t）×z

其中： σ 為云服務器的有效開關電容[14]，取決于處理器架構，以立方項更好地近似實際功耗特性。

因此，計算卸載到云中心的服務延遲包含計算任務從邊緣端傳輸到云中心的傳輸延遲與在云中心的處理延遲，即

同理，云中心的服務能耗為

2.4模型卸載的時延與能耗模型

對于模型協同推理任務的卸載問題，該模型共有 M 層，表示為 m={1，2，…，M} ，在延遲與能耗預測模型基礎上，每層的執行時延可表示為 t_edⁱ?t_c^i[32] ，能耗可表示為 e_edⁱ?e_cⁱ 。

邊緣端設備執行時延為

其中： m^′ 為模型劃分點。

同理，模型在邊緣端設備執行的能耗為

傳輸時延為當前劃分層的數據傳輸時延，表示為

傳輸能耗表示為

云服務器的計算時延為

云服務器的計算能耗為

因此，模型推理在云中心的服務延遲包含從邊緣端卸載到云中心的傳輸延遲與在云中心的處理延遲，即

同理，云中心的服務能耗為

2.5 目標函數

在云邊協同計算卸載中，同時關注任務卸載和模型卸載問題，以時延和能耗為系統總開銷，類似于文獻[31]建立以下目標函數。

其中： G 為系統開銷； λ₁（i）為時延權重； λ₂（i）為能量消耗權重;式（22）表示延遲和能量消耗的權值的線性和為 1：T_max 是當前任務的最大可容忍延遲；式（23）要求總計算延遲不能超過任務的最大容忍延遲； O（i）是任務是否被卸載的標志；式（24）表示任務所需的總計算資源不能超過邊緣端的最大計算容量。本文目標通過優化計算卸載和模型卸載使最小。

3基于混合深度強化學習的卸載策略

3.1馬爾可夫卸載決策模型

考慮到云邊協同計算環境中的復雜性和動態變化特性，采用強化學習的自適應決策機制來優化任務卸載策略。而強化學習基于馬爾可夫決策過程（MDP）框架，在應用強化學習算法之前，首先需將云邊協同卸載問題形式化為MDP模型。這包括定義狀態空間、動作空間以及獎勵函數，從而確保問題能夠在MDP框架內得到有效解決。云邊協同環境下各要素的詳細定義如下：

a）狀態空間。系統狀態由一系列特征組成，這些特征共同決定了系統的當前運行狀況，并為決策提供了必要的信息。對于 χ_t 時刻， N 個邊緣端設備、邊緣端設備狀態、云服務器狀態、DNN模型狀態、傳輸網絡狀態共同構成復合狀態空間向量，表示為

其中： ?_?D_t={D_1，t，D_2，t，…，D_N，t} 是邊緣設備產生的數據大小，直接影響任務的處理需求，即不同大小的數據需要不同的計算資源和時間來處理； F_t 是邊緣端的剩余計算資源，判斷該設備端是否有足夠的能力去處理新的任務，這是決定任務是否卸載的重要依據； C_t={C_t^ed，C_t^c} 是邊緣端與云計算中心的計算能力，反映系統整體的處理能力分布； M_t={M_t^num，M_t^data} 為模型的層數和模型層配置，影響任務的計算復雜度，進而影響模型卸載決策；任務在邊緣端和云中心之間卸載傳輸的時間與成本取決于在該時隙 Φ_t 時的網絡傳輸速率 B_t 。

在神經網絡訓練的過程中，如果輸入數據的數值范圍很大，這可能會減慢訓練進程。而且，不同任務類型的數據值范圍的顯著差異和不確定性可能會導致整個系統的不穩定性，影響其收斂性能。此處對狀態進行歸一化，式（25）可以進一步表示為

其中： D_sum 為當前參與卸載的數據之和； F_ed 為邊緣端的最大計算資源; M_sum 為參與卸載的模型總層數與模型輸出總數據。

b）動作空間。根據當前狀態，系統執行的動作旨在調整任務卸載策略，動作空間 A 包含了所有可能的操作選項。首先在多邊緣端設備的情況下選擇任務處理的邊緣設備，再決定任務是否卸載以及卸載比例。如完全在邊緣端處理、部分卸載至邊緣或云中心以及任務全部在云中心處理，每個動作 a∈A 對應特定的狀態轉移路徑，并影響后續的狀態演變。以分步的形式表示為

k_ta_t=（x_t，p_t）

其中： ?k_t 表示當前時隙 Φ_t 狀態下所服務的邊緣端設備； x_t 為第 χ_t 個時間槽中任務的卸載率； p_t 為模型最優劃分后選擇的卸載點。

c）獎勵。當智能體執行完當前動作后，環境會根據該動作的效果返回相應的獎勵值。本文以最小化系統綜合成本為目標，綜合成本越低代表動作越好，進而系統處理任務的整體性能越好，因此，根據優化目標式（21）設置綜合成本的負值作為獎勵，表示如下：

r_t=-G

由于本文的目標是在每個時間段內最大化回報，即獎勵隨著時間推移的積累，其可表示為

其中： γ 為折扣因子。

3.2混合卸載策略方法

對于現有的深度強化學習（DRL）算法來說，動作空間可以是離散的或是連續的。為了處理混合動作空間的需求，集成DQN和DDPG的混合深度強化學習算法，結合DQN的 ε greedy探索機制和DDPG的噪聲添加策略，使M-DRL能夠在探索與利用之間找到更好的平衡點。云制造環境中的任務往往具有明顯的時間序列特征，傳統的強化學習方法無法有效捕捉這些時間依賴關系。本文通過引入LSTM，不僅基于當前的狀態作出決策，還能夠考慮到過去的經驗教訓，增強決策的全面性和準確性。特別是在面對復雜的狀態空間時，LSTM可以幫助提取邊緣設備的任務和環境信息，提供更豐富的上下文支持。

基于DDPG提出了M-DRL方法以獲得系統最大化回報，DDPG常用于連續控制任務，且傳統的DDPG假設狀態之間的轉換是馬爾可夫性質的，即未來的狀態僅取決于當前狀態和采取的動作，而不依賴于過去的狀態。具體體現在策略網絡根據當前狀態輸出一個確定性的動作、價值網絡評估給定狀態下采取特定動作的價值以及從緩沖區采樣一批數據時，每一對狀態-動作對都被視為獨立的事件，樣本之間沒有時間上的順序關系等。而M-DRL方法輸出離散-連續復合動作，對云邊環境存在的不同類型數據進行歸一化處理，確保訓練過程的穩定性和收斂性。在策略網絡與價值網絡中都引入LSTM結構，打破原始的嚴格馬爾可夫性質，結合歷史信息和當前信息為系統作出更全面的決策。同時，合理設計LSTM的層數和參數，確保模型既能捕捉長期依賴關系，又不會因過于復雜而難以訓練或過擬合，如圖2所示。

圖2M-DRL的網絡結構Fig.2Network structure of M-DRL

在動作空間中設 a_x∈A_x 和 a_p∈A_p 分別表示連續作用和離散作用，其中 A_x 和 A_p 分別表示連續動作空間和離散動作空間。連續-離散的混合作用用一個 A=A_x∪A_p 表示。

類似于DDPG，critic網絡參數 θ 的更新是通過最小化TD誤差（temporaldifferenceerror）的平方來完成的。TD誤差定義為預測的 Q 值與目標 Q 值之間的差異。更新規則可以表示為

critic網絡更新規則：

θ←θ-β?_θE_{（s，a，r，s^′）～D}[（Q（s，a;θ）-（r+γQ（s^′，μ（s^′;ψ）;θ^′）））²]

其中 _：β 是學習率；是經驗回放緩沖區； γ 是折扣因子; Q（s^′

μ（s^′;ψ）;θ^′）是目標網絡的輸出； θ^′ 表示目標網絡的參數。

actor網絡參數的是通過最大化actor產生的動作在critic網絡下的期望回報來進行的，更新規則為

其中： α 是學習率 μ（s;ψ）是actor網絡輸出的動作 ;ρ_ψ 表示在給定策略下的狀態分布； abla_ψ 表示對參數 ψ 的梯度。在每個訓練步驟中，隨機選擇 N 個過渡樣本（s，a，r，s^′）形成一個小批量，然后輸入到critic網絡中更新 θ ；同時，也通過critic網絡反饋的信息來更新actor網絡的參數 ψ 。

在深度強化學習（DRL）中，探索與利用之間的平衡對于訓練出高效的決策代理至關重要。為了有效地訓練能夠處理混合離散連續動作空間的深度網絡，本文采用了一種特殊的探索策略，這一策略結合了DQN中的 ε -貪婪策略與OrnsteinUhlenbeck噪聲，用于增強DDPG算法中行為網絡輸出的動作，即在DDPG算法中，對于離散動作部分采用了 ε -貪婪策略來進行探索，而對于連續動作部分則添加了Ornstein-Uhlenbeck噪聲以增加探索的多樣性，以達到在探索新策略與利用已知最優策略之間取得良好平衡的目的。具體如式（33）所示。

其中 ?{μ_x（s）表示連續動作actor網絡對狀態 s 的輸出； η 是添加到連續動作上的OU噪聲； Q（s，a_p，μ_x（s）;ψ;θ）表示critic 網絡對于狀態 s 、離散動作和連續動作的 Q 值估計; max_{ap∈Ap（S）}Q（s a_p，μ_x（s）：ψ：θ）表示從離散動作空間中選取使 Q 值最大的動作;ε 控制著 ε -貪婪策略的探索與利用平衡;rand的取值在[0，1]。

最后，對評論者目標網絡和參與者目標網絡進行軟更新，表示為

其中： τlt;lt;1 。

具體的 M -DRL算法流程如算法1所示。

算法1 M -DRL

輸入：云邊協同計算環境參數、模型參數、時間插槽數 T 訓練回合

數episode。輸出：最優卸載決策（最小系統開銷、最優卸載比和模型卸載策

略）。a）使用隨機在線策略網絡權值 ψ 和在線Q網絡權值 θ 初始化參

與者和評論者網絡。b）復制 θ^′θ 和 ψ^′ψ 來初始化目標網絡。c）初始化緩沖區 d） for episode =1 to E （max_episode）doe）初始化一個進行行動探索的隨機過程。f）重置云邊計算環境的參數。g）獲取初始觀測狀態 h） for each時間槽 =1 to T doi）將狀態歸一化為 s j）引用DNN預測模型，根據當前狀態和探索噪聲執行動作。k）根據式（28）計算獎勵 r_t ，得到一個新的狀態＼$，并執行步驟i）。1）存儲到經驗重放緩沖區D。證 "{ D }"未滿then將其存儲到" else隨機替換里面的經驗。endifn）從回放緩沖區D中隨機采樣 N 個樣本作為一個小批訓練數據。0）通過LSTM 網絡處理。p）計算目標Q值。q）利用式（31）通過最小化TD誤差來更新評論者網絡權重。r）根據式（32）更新參與者網絡權重。s）通過式（34）軟更新目標網絡。t） end foru）end for

3.3算法復雜度分析

本文M-DRL的時間復雜度包含多個方面，如環境交互、狀態歸一化、算法中的各個組件（actor和critic網絡的構建與學習過程）以及LSTM結構引入后的計算開銷。與文獻[33]類似，影響算法時間復雜度的主要因素是M-DRL在每個時間步通過復雜的網絡計算來更新智能體的動作策略和值函數。

具體而言，主要計算量來自在actor和critic網絡中引入的兩層LSTM，則actor網絡復雜度與批處理大小 b 、序列長度（狀態空間維度） s 以及LSTM網絡兩層的神經元數量 h₁，h₂ 有關，為 O_actor=O（bs（h₁+h₂h₁）），其中 h₂1 ，LSTM第二層僅返回最終狀態的輸出，不保留序列信息。critic網絡的初始加入一個全連接層，將狀態和動作信息映射到一個共同的特征空間中，其復雜度為 O_critic=O（（s+a）l₁+bs（h₁+h₂h₁））），其中， a 為動作空間維度， l₁ 為全連接層的神經元數。targetactor和targetcritic網絡與主網絡結構相同，則 M -DRL算法復雜度為各網絡的復雜度之和，即 O_total=O（bsh₁（1+h₂）+（s+a）l₁）。

4實驗驗證與分析

4.1 仿真實驗設置

本文基于TensorFlow1.15.5環境模擬了云邊協同系統，算法訓練在RTX4090DGPU上運行。在云邊協同聯合卸載模型中，有 N 個邊緣端設備和一個云服務中心。在仿真中，邊緣端無法處理計算密集型任務時向云中心發送請求，此時調用智能卸載算法，卸載一部分數據到云中心進行分析或進行模型訓練。訓練好的模型會根據靜態部署在云端與邊緣端的模型時延與能耗預測算法，判斷該模型是否可以在邊緣端處理，以支持更多的實時應用需求，若邊緣端無法滿足推理需求，則云端將已訓練好的模型優化（模型劃分），將一部分邊緣端可承載的模型卸載到邊緣，以充分利用邊緣端設備，減少系統的總開銷。

本文根據文獻[31，34，35]對通信、計算能力、時延能耗權重等進行了相關參數設置，以確保實驗設置的合理性和科學性。不同于文獻[31]，考慮到目標應用場景中涉及復雜的數學計算和數據處理任務，本文選擇以GFLOP（十億次浮點運算每秒）為單位來衡量計算能力，所使用的主要仿真參數如表1所示。

4.2 實驗分析

4.2.1算法收斂性評估

對于M-DRL中重要的相關參數，通過多次實驗從多個候選參數中選擇出性能最好的參數，如表2所示。

表1仿真參數Tab.1Simulation parameters表2M-DRL相關參數Tab.2M-DRL related parameters

算法的收斂性如圖3所示，不帶LSTM的算法在初期較為平緩，在369周期后快速上升并顯示出較大的波動性。帶有LSTM的算法在整個過程中表現得更為平穩，這得益于LSTM在處理復雜的時間序列問題時，有效捕捉數據間的長期依賴關系，可以更準確地預測未來的值。

4.2.2算法性能分析與比較

為了驗證M-DRL的性能，在相同實驗環境下，將所提算法與基于DQN的任務卸載算法SLRTA[14]、雙層混合DDPG算法[15]以及基于策略的ACTO- ?n 算法[18]進行對比。圖4展示了四種算法在訓練過程中的整體回報變化情況。從圖中可以看出，隨著訓練周期（episode）的增加，算法的整體回報都有所波動，但各自的表現特點有所不同。SLRTA在初期階段表現良好，整體回報較好。然而，隨著訓練的進行，尤其是在大約320期以后，SLRTA的整體回報出現劣勢。DDPG在訓練過程中呈現了一定程度的波動，說明其在求解最優解的過程中存在不確定性。ACTO- ?n 初期累積回報較低，后期累積回報呈現較好的趨勢，但存在較大波動。

Fig.3Convergencecomparisonbetween algorithmswithand withoutLSTM圖4不同算法系統整體回報性能對比Fig.4Comparison of overall return performance acrossdifferent algorithmicsystems

相比之下，M-DRL在整個訓練過程中表現出了較好的穩定性。尤其在570期之后，M-DRL的系統開銷達到了較優狀態并且保持相對穩定，這表明M-DRL算法在應對復雜環境時具有更強的適應能力和優化效果。

4.2.3不同執行條件下的系統開銷評估

為了進一步檢驗M-DRL的性能，本節將其與邊緣端計算、云計算和隨機計算進行對比。隨機計算是指在[0，1]隨機選擇卸載率或執行任意模型的卸載方法。

如圖5所示，隨著執行次數的增加，邊緣計算、云計算和M-DRL的系統開銷保持穩定，但M-DRL的系統開銷始終低于單獨采用邊緣計算和云計算的方式，這是因為系統開銷的值與執行次數是無關的。M-DRL能夠在每次執行中找到最優的動作，即最佳的卸載比例和最有效的模型卸載策略，從而實現了整個系統的開銷最小化。相比之下，隨機計算的系統開銷波動較大，原因是每次執行中采用的卸載動作都是隨機的，缺乏確定性，因此不適合作為長期的卸載方案。

在進行上述分析后，后續實驗將不再關注隨機計算，對比算法包括邊緣端計算、云計算、獨立優化制造過程中的數據卸載與模型推理卸載（單個優化過程的局部視角），以及SLRTA、雙層混合DDPG與ACTO ?n 算法。

如圖6＼～8所示分別從任務復雜度、不同時延能耗比與不同網絡速率下（默認在計算相對密集環境下）對所提算法進行性能分析。為了簡單明了地描述處理任務的類型，以1/1、2/2、3/3 代表數據量大小與模型復雜度的程度，如圖6所示，分析不同任務復雜度下系統的開銷。

圖6不同任務復雜度系統開銷對比 Fig.6System overhead comparison for different task complexities

從圖6可以看到，隨著數據量與模型復雜度的增大，邊緣設備面臨處理瓶頸。數據處理與模型推理若都在云中心處理，相較于邊緣設備端有一定的改善情況，但數據傳輸的成本大幅增加，不能滿足低延遲需求。單獨優化借助于云邊協同的優勢，雖有一定的效果，但無法在有其他因素的情況下保證任務總是被分配到最合適的節點上執行。而聯合優化利用全局信息進行決策，避免局部最優導致的整體次優，動態調整任務分配策略，以適應不斷變化的環境和需求。SLRTA、雙層DDPG與ACTO- ?n 系統開銷保持相對穩定，但無法降至較優。

此外，從圖7可以看出，隨著權重比的改變，各種計算模式的系統開銷有所變化。M-DRL計算在所有時延能耗比條件下都表現出最低的系統開銷，這表明M-DRL在不同能源消耗場景下都能有效降低系統成本。相比之下，其他算法時延能耗比影響較大，其系統開銷偏高。

圖7不同時延能耗比下系統整體回報對比 Fig.7Comparison ofoverall system reward underdifferent latencyand energy consumption ratios

網絡速率在卸載中至關重要，因為它直接影響數據傳輸效率、能耗和任務響應時間，進而決定系統的整體性能。如圖8所示，將網絡速率設置為 1MB/s.2MB/s.3MB/s.4MB/s 和5MB/s ，在計算密集型任務下，隨著網絡速率的提高，云處理和云邊協同處理的效率會逐漸提高，而邊緣端處理的相對優勢會減弱，這是因為當網絡傳輸速率足夠高時，傳輸時延將不再是主要的時延來源。此時，計算時延在資源受限的邊緣端成為瓶頸。通過綜合數據分析，所提算法的系統總體平均開銷相比邊緣端處理、云中心處理分別降低 41.37% 一，30.87% ，相比于兩者分開優化降低 19.81% ，與SLRTA、雙層DDPG及ACTO- ?n 相比分別降低 34.58%.27.54%.17.0% 。綜上，M-DRL能輸出更好的決策動作，使系統性能保持最優。

圖8不同網絡速率下系統開銷對比Fig.8Comparison of system overhead under different network speeds

5結束語

本文以云制造環境下實時感知數據的處理為背景，考慮云邊協同架構下數據處理過程中存在的數據任務卸載與模型卸載問題，提出基于混合深度強化學習的云邊協同聯合卸載策略。該策略綜合考慮系統的時延與能耗，能夠根據處理任務特征和網絡狀態作出最優決策。仿真實驗結果表明，本文M-DRL的決策結果可以有效地降低系統開銷。未來的研究工作中，將繼續優化算法，使其理論模型能夠應用于實際的云制造環境中。

參考文獻：

[1].LiKai，Zhou Tao，LiuBohai.Internet-basedintelligentandsustainablemanufacturing：developmentsand challenges[J].The International Journal of AdvancedManufacturing Technology，2020， 108（5）：1767-1791.

[2]Deng Shuiguang，Zhao Hailiang，Fang Weijia，et al. Edge inteligence：the confluence of edge computing and artificial intelligence [J].IEEE Internetof ThingsJournal，2020，7（8）：7457-7469.

[3]Yang Chen，Lan Shulin，Wang Lihui，et al.Big data driven edgecloud collaboration architecture for cloud manufacturing：a software definedperspective[J].IEEEAccess，2020，8：45938-45950.

[4]Lou Ping，Liu Shiyu，Hu Jianmin，etal.Intelligent machine tool based on edge-cloud collaboration[J].IEEE Access，2020，8： 139953-139965.

[5]董裕民，張靜，謝昌佐，等．云邊端架構下邊緣智能計算關鍵問題綜述：計算優化與計算卸載［J]．電子與信息學報，2024，46 （3）：765-776.（Dong Yumin，Zhang Jing，Xie Changzuo，et al.A survey ofkey issues in edge intelligent computingunder cloud-edgeterminal architecture：computing optimization and computing offloading[J].Journal of Electronicsamp; Information Technology， 2024，46（3）：765-776.）

[6]謝人超，楊煜天，唐琴琴，等．低軌衛星網絡星載邊緣DNN推理策略[J].北京郵電大學學報，2023，46（2）：57-63，103.（Xie Renchao，YangYutian，TangQinqin，etal.On-boardedgeDNN inference strategies for LEO satellite networks[J].Journal of Beijing University of Postsand Telecommunications，2023，46（2）： 57- 63，103.）

[7]Xiao Surong，Liu Chubo，Li Kenli，et al.System delay optimization for mobile edge computing[J]. Future Generation Computer Systems，2020，109：17-28.

[8]Huynh LN T，Pham QV，Pham X Q，et al.Efficient computation offloading in multi-tier multi-access edge computing systems：a particle swarm optimization approach[J].Applied Sciences，2020，10 （1）： 203.

[9].Zabihi Z，Eftekhari Moghadam A M，Rezvani MH. Reinforcement learning methods for computation offloading：a systematic review[J]. ACM Computing Surveys，2023，56（1）：article No.17.

[10]Zhou Tianqing，Qin Dong，Nie Xuefang，et al.Energy-efficient computation offloading and resource management in ultradense heterogeneous networks[J].IEEE Trans on Vehicular Technology，2021， 70（12）：13101-13114.

[11] Zhu Anqing，Wen Youyun. Computing offloading strategy using improved genetic algorithm in mobile edge computing system[J]. Journal of Grid Computing，2021，19（3）：article No.38.

[12]Liu Jinshi，AhmedM，Mirza MA，et al.RL/DRL meets vehicular task offloading using edge and vehicular cloudlet：a survey [J]. IEEE Internet of Things Journal，2022，9（11）：8315-8338.

[13]Yan Peizhi，Choudhury S.Deep Q-learning enabled joint optimization of mobile edge computing multi-level task offloading[J].Computer Communications，2021，180： 271-283.

[14]Tong Zhao，Deng Xiaomei，Mei Jing，et al.Response time and energy consumption co-offloading with SLRTA algorithm incloud-edge collaborative computing[J]. Future Generation Computer Systems，2022，129： 64-76.

[15]Li Haofei，Chen Chen，Shan Hangguan，et al. Deep deterministic policy gradient-based algorithm for computation ofloading in IoV[J]. IEEETrans on Intelligent Transportation Systems，2024，25 （3）：2522-2533.

[16] Zhang Tianrong，Wu Fan，Chen Zeyu，et al. Optimization of edgecloud collaborative computing resource management for Internet of vehicles based on multiagent deep reinforcement learning[J].IEEE InternetofThingsJournal，2024，11（22）：36114-36126.

[17] Shang Ce，Huang Youliang，Sun Yan，et al. Joint computation offloading and service caching in mobile edge-cloud computing via deep reinforcement learning[J].IEEE Internet of Things Journal， 2024，11（24）：40331-40344.

[18]Binh TH，Son DB，Vo H，et al.Reinforcement learning for optimizing delay-sensitive task offloading in vehicular edge-cloud computing [J].IEEE Internet of Things Journal，2024，11（2）：2058-2069.

[19］郭曉東，郝思達，王麗芳．基于深度強化學習的車輛邊緣計算任務卸載方法[J]．計算機應用研究，2023，40（9）：2803-2807， 2814.（Guo Xiaodong， Hao Sida，Wang Lifang.Task offloading method based on deep reinforcement learning for vehicular edge computing[J]. Application Research of Computers，2023，40（9）： 2803-2807，2814.）

[20] Chen Juan，Wu Zongling.Dynamic computation ofloading with energy harvesting devices ： a graph-based dep reinforcementlearning approach [J].IEEE Communications Letters，2021，25（9）：2968-2972.

[21]Du Yiquan，Zhang Xiuguo，Cao Zhiying，et al.An optimized path planning method for coastal ships based on improved DDPG and DP 7765130.

[22]Gao Honghao，Wang Xuejie，Wei Wei，et al.Com-DDPG：taskoffloading based on multiagent reinforcement learning for informationcommunication-enhanced mobile edge computing in the Internet of Vehicles[J].IEEE Trans on Vehicular Technology，2024，73 （1）：348-361.

[23]Liao Jingxiao，Wei Shenglai，Xie Chenlong，et al.BearingPGA-Net： alightweight and deployable bearing fault diagnosis network via decoupled knowledge distillation and FPGA acceleration[J].IEEE Transon Instrumentation and Measurement，2023，73： 3506414.

[24]Su Yi，Fan Wenhao，Gao Li，et al. Joint DNN partition and resource allocation optimization for energy-constrained hierarchical edge-cloud systems[J].IEEE Trans on Vehicular Technology，2023，72 （3）： 3930-3944.

[25]Tian Jiangyu，Li Xin，Qin Xiaolin. Reinforcement learning based collaborative inference and task offloading optimization for cloud-edgeendsystems[C]//Proc of International Joint Conference on Neural Networks.Piscataway，NJ： IEEE Press，2024：1-8.

[26]Xue Min，Wu Huaming，Peng Guang，et al.DDPQN：an efficient DNN offloading strategy in local-edge-cloud collaborative environments[J]. IEEETrans on Services Computing，2022，15（2）：640-655.

[27］張依琳，梁玉珠，尹沐君，等．移動邊緣計算中計算卸載方案研究綜述［J]．計算機學報，2021，44（12）：2406-2430.（Zhang Yilin，Liang Yuzhu，Yin Mujun，et al. Survey on the methods of computation offloading in mobile edge computing[J]. Chinese Journal of Computers，2021，44（12）：2406-2430.）

[28]Kang Yiping，Hauswald J，Gao Cao，et al. Neurosurgeon[J].ACM SIGARCH Computer Architecture News，2017，45（1）： 615-629.

[29]Kai Caihong，LiHui，XuLei，etal.Energy-effcient device-todevice communications for green smart cities [J].IEEE Trans on Industrial Informatics，2018，14（4）：1542-1551.

[30]Lin Rongping，Zhou Zhijie，Luo Shan，et al.Distributed optimization for computation offloading in edge computing[J]. IEEE Trans on Wireless Communications，2020，19（12）：8179-8194.

[31]Ren Jinke，Yu Guanding，He Yinghui，et al.Collaborative cloud and edge computing for latency minimization[J]. IEEE Trans on Vehicular Technology，2019，68（5）：5031-5044.

[32]Wang Chuting，Guo Ruifeng，Yu Haoyu，et al.Task offloading in cloud-edge collaboration-based cyber physical machine tool[J].Robotics and Computer-Integrated Manufacturing，2023，79： 102439.

[33］黃毅，王文軒，崔允賀，等．基于Boosting優先經驗重放的協同計算卸載方法[J]．計算機應用研究，2025，42（3）：777-787. （Huang Yi，WangWenxuan，Cui Yunhe，et al.Co-computation offloading method based on Boosting prioritized empirical replay[J]. Application Research of Computers，2025，42（3）：777-787.）

[34]Hu Qiyu，Cai Yunlong，Yu Guanding，et al.Joint ofloading and trajectory design for UAV-enabled mobile edge computing systems [J].IEEE Internet of Things Journal，2019，6（2）：1879-1892.

[35]Zhang Jing，Du Jun，Shen Yuan，et al．Dynamic computation offloading with energy harvesting devices：a hybrid-decision-based deep reinforcement learning approach [J]. IEEE Internet of Things lnurnal 2020 7710）.0303.0317