DPC-DQRL：動態行為克隆約束的離線-在線雙Q值強化學習

2025-04-30 00:00:00閆雷鳴劉健朱永昕

計算機應用研究 2025年4期

摘要：離線-在線強化學習旨在使用少量在線微調來提高預訓練模型的性能。現有方法主要包括無約束微調與約束微調。前者往往由于分布偏移過大而導致嚴重的策略崩潰；后者由于保留離線約束導致性能提升緩慢，影響訓練效率。為了改善上述問題，可視化對比分析兩類方法的微調過程，發現不準確的Q值估計是影響性能的主要原因，并提出了一種動態策略約束的雙Q值強化學習算法（DPC-DQRL）。首先，該算法設計了遵循記憶遺忘規律的動態行為克隆約束，在微調過程中動態調整約束強度；其次，構建離線-在線雙Q值網絡，引入離線動作價值網絡參與Q值估計，提高微調過程中Q值的準確性。在Gym仿真平臺使用MuJoCo物理引擎進行了Halfcheetah、Hopper、Walker2D三個經典仿真任務，使用DPC-DQRL算法微調后性能比原預訓練模型分別提升47%、63%、20%，所有任務的平均歸一化得分比最優基線算法提升10%。實驗結果表明，DPC-DQRL在提升模型性能的同時保證了模型的穩定，與其他算法相比具有一定的優越性。

關鍵詞：深度強化學習；離線-在線強化學習；動態策略約束；Q值估計

中圖分類號：TP301.6"" 文獻標志碼：A""" 文章編號：1001-3695（2025）04-005-1003-08

doi： 10.19734/j.issn.1001-3695.2024.09.0338

DPC-DQRL： offline to online double Q value reinforcement learning with dynamic behavior cloning constraints

Yan Leiminga，b， Liu Jiana，b， Zhu Yongxina，b

（a.School of Computer Science amp; School of Cyber Science and Engineering， b. Engineering Research Center of Digital Forensics Ministry of Education， Nanjing University of Information Science amp; Technology， Nanjing 210044， China）

Abstract：Offline to online reinforcement learning focuses on improving the performance of pre-trained models through minimal online fine-tuning. Existing methods primarily adopt unconstrained or constrained fine-tuning. The unconstrained approach often results in severe policy collapse due to significant distribution shifts， while the constrained approach slows performance improvement because of strict offline constraints， reducing training efficiency. To address these limitations， this study identified inaccurate Q value estimation as a primary factor affecting performance through a comparative visualization of the fine-tuning processes of both approaches. To mitigate this issue， this paper proposed a dynamic policy-constrained double Q value reinforcement learning （DPC-DQRL） algorithm. The method incorporated a dynamic behavior cloning constraint based on a memory-forgetting mechanism， which dynamically adjusted constraint strength during fine-tuning. Furthermore， an offline-online double Q value network was constructed by integrating an offline action-value network into Q value estimation， enhancing Q value accuracy in the fine-tuning phase. Using the Gym simulation platform with the MuJoCo physics engine， DPC-DQRL was applied to fine-tune three classic tasks： Halfcheetah， Hopper， and Walker2D. The performance after fine-tuning improve by 47%， 63%， and 20%， respectively， compared to the original pre-trained model. The average normalized scores across all tasks show a 10% improvement over the optimal baseline algorithm. The experimental results demonstrate that DPC-DQRL enhances model performance while maintaining stability， showcasing significant advantages over other algorithms.

Key words：deep reinforcement learning; offline to online reinforcement learning; dynamic policy constraints; Q-value estimation

0 引言

深度強化學習（deep reinforcement learning，DRL）已經在任務調度［1］、信號控制［2］、推薦系統［3］等多個領域取得了顯著成功，成為解決各種復雜、不確定性決策問題的強大工具［4， 5］。然而，在標準設置中，策略需要通過與環境從零開始交互訓練，這往往需要耗費大量時間以收集樣本數據。在許多實際應用場景中，例如自動駕駛、機械臂控制，交互訓練的成本較高，并且交互訓練還可能伴隨一定的風險［6］。

離線強化學習（offline reinforcement learning， Offline RL）作為近期的熱點方向，旨在使用離線數據來學習策略，減少與環境的交互［7］。相較于標準設置，它有望從次優數據中學習并優化策略，具有較高的樣本效率。然而，由于策略學習完全依賴于離線數據，性能的優劣程度受到數據質量的影響［8］。

近年來，一些研究嘗試結合離線預訓練與在線微調，旨在連接離線和在線強化學習，這一方法被稱為離線-在線強化學習（offline to online reinforcement learning，O2O RL）。盡管這種訓練方式在計算機視覺和自然語言處理等領域取得了顯著成果，但在強化學習領域的早期探索中，暴露出了一系列負面現象［9］。通過離線預訓練初始化策略后直接進行在線微調，可能導致模型性能的不可恢復性下降，這主要是由“狀態-動作”分布偏移及算法切換引起的學習動態變化所導致的。目前，離線-在線強化學習的研究主要圍繞無約束微調和約束微調兩個方向展開。針對相關挑戰，研究者提出了多種應對方法，包括引入隱式策略約束［10］、篩選適用于在線微調的離線數據［11］、調整不同任務的策略約束權重［12］以及訓練更多在線策略［13］等。然而，這些方法通常難以兼顧效率與穩定性。約束微調方法性能提升緩慢，例如隱式策略約束方法通常需要100萬步在線微調才能實現顯著改進；無約束微調方法則未能有效解決性能下降的問題，微調過程中模型的性能波動較大。此外，許多離線-在線強化學習方法中施加了復雜的技術，如密度估計網絡［14］、集成網絡［15］和基于模型的方法［16］，導致復雜度增加，且適應性有限。

為了探究策略性能提升緩慢及在線微調不穩定的原因，本文從Q值估計的視角出發，通過實驗分析發現Q值的不準確估計是影響性能的關鍵因素。針對這一問題，提出了DPC-DQRL算法。首先，依據記憶遺忘規律，設計動態行為克隆約束項，調整約束強度，并通過重放學習的“記憶”方式緩解“遺忘”；其次，構建離線-在線雙Q值網絡，引入離線價值網絡協同決策，以降低時序差分誤差，提升訓練過程中模型的穩定性。實驗結果表明，DPC-DQRL在效率與穩定性方面優于基線算法，同時未增加額外的計算開銷。

本文的貢獻如下：a）對現有方法的微調過程進行了可視化分析，發現不準確的Q值估計是導致模型性能下降和不穩定的關鍵因素；b）針對Q值的不準確估計，提出了遵循記憶遺忘規律的動態行為克隆約束與離線-在線雙Q值網絡；c）在Gym仿真平臺使用MuJoCo物理引擎進行仿真實驗，結果表明，所提DPC-DQRL在Halfcheetah、Hopper、Walker2D任務中微調后性能提升顯著，所有任務的平均歸一化得分比最優基線算法提升10%。

1 相關工作

1.1 在線強化學習

在線強化學習通過與環境交互收集數據并優化策略。自Mnih等人［17］利用深度神經網絡逼近Q值函數，成功應用于Atari游戲后，深度強化學習算法不斷涌現。目前除雙延遲深度確定性策略梯度（twin delayed deep deterministic policy gradient，TD3）［18］、近端策略優化（proximal policy optimization，PPO）［19］、soft actor-critic［9］等經典算法，也有許多結合知識蒸餾、集成等設置的高效算法，如Chen等人［20］在提高更新數據比的基礎上，集成多個Q函數集合，實現了比基于模型的強化學習算法更好的性能。Aitchison等人［21］設計獨立的策略與Q網絡，通過多步累計回報限制負干擾，同時約束蒸餾過程保持建設性干擾，實現了比PPO更好的性能。李林等人［22］提出改進雙重深度 Q 網絡的主動學習語義分割模型，顯著減少樣本標注成本并有效地緩解了類別不平衡問題。

現有的在線強化學習算法通過在線交互訓練策略，展現出較好的性能與適應性。然而，巨大的在線交互需求使其難以應用于復雜的實際場景。

1.2 離線強化學習

離線強化學習專注于利用預先收集的數據進行策略優化。由于離線數據集未含蓋所有的“狀態-動作”組合，會加劇行為策略與要學習的最優策略之間的分布偏移，導致性能不佳。為緩解這一問題，通常采用顯式策略正則化［23］、隱式策略約束［24］和懲罰分布外動作［25］等方法對策略進行限制。目前已提出多種性能優異的算法，如Dayan等人［26］在策略更新中添加行為克隆項并規范化數據，性能與最先進的離線強化學習算法相當。Yang等人［27］引入擾動狀態的保守平滑技術，同時根據悲觀自舉主動低估它們的Q值以保持保守。Chen等人［28］通過學習優勢函數和狀態條件的潛變量空間，有效解決了多種模式數據分布的異質離線強化學習任務。

離線強化學習適用于數據獲取昂貴、危險或不可控的應用場景，通過充分利用已有數據，能夠顯著降低訓練成本和時間開銷。然而，離線強化學習面臨著分布偏移、數據質量依賴性等挑戰，在實際應用過程中，難以達到較好的效果。在線和離線強化學習中存在的問題促使離線-在線強化學習的研究。

1.3 離線-在線強化學習

現有的離線-在線強化學習算法根據在線設置的不同可分為無約束微調方法與約束微調方法兩類。

無約束微調強調去除在線階段的離線約束，促進策略探索，幫助模型有效改進。然而，早期的研究發現無約束微調初始階段容易出現嚴重的策略崩潰，在實際應用中是不可接受的。近期，一些研究團隊提出了有效的改進方案。Feng等人［29］發現策略崩潰源于無約束微調與傳統強化學習框架的不匹配，通過調整價值網絡與策略網絡的更新比率，確保了訓練的穩定性；Zhang等人［30］通過擾動值更新，防止早期策略選擇次優動作，同時增加Q值更新頻率，緩解從離線預訓練繼承的估計偏差。

約束微調是離線-在線強化學習的主流方法，為了避免策略崩潰，現有方法通常保留離線約束，對策略和Q值進行限制。文獻［31］考慮在線數據和離線數據之間的差異，并采用自適應更新方案，離線數據集采用悲觀更新策略，在線數據集采用樂觀更新策略。Kostrikov等人［32］提出了適用于離線與在線階段的隱式Q學習算法，通過加權行為克隆改進在線策略。Ball等人［33］通過修改網絡結構、調整采樣策略，使異策略強化學習算法能夠有效利用離線數據。Nakamoto等人［34］提出保守的離線初始化方法，對Q函數進行校準，避免初始遺忘并提高漸近性能。

盡管約束微調和無約束微調在許多任務中取得了一定成功，但微調過程中仍存在效率與穩定性的權衡問題。此外，為了提升性能，現有方法引入了更多超參數和集成設置，導致訓練緩慢的強化學習算法需要更長時間才能達到最佳性能。本文從Q值估計的角度，綜合兩種方法的優勢，提出了DPC-DQRL，通過動態行為克隆約束和離線-在線雙Q值網絡，改善Q值估計問題，實現了高效、穩定的微調。

2 離線-在線強化學習的效率與穩定性分析

離線-在線強化學習目前存在微調階段效率與穩定性權衡問題，為了說明這一問題，本文采用可視化約束微調與無約束微調兩種典型方法。使用TD3-BC（TD3 with behavior cloning）作為離線訓練方法，在Walker2D-medium、Hopper-medium、Halfcheetah-medium任務中執行100萬步策略更新后，將預訓練的策略接入在線環境，分別使用約束微調（在線階段使用TD3-BC算法）、無約束微調方法（在線階段使用TD3算法）進行25萬步在線微調，實驗結果如圖1所示。

圖1展示了在線微調過程中兩種方法的效率與穩定性。橫軸為訓練時間，縱軸為平均回報得分。實線表示算法5次獨立運行在各評估周期的平均性能，陰影區域表示5次運行的性能波動范圍。約束微調（Cons）方法由于保守的約束限制，策略優化效果較差，最終性能提升有限；無約束微調（Uncons）方法通過探索未知“狀態-動作”，獲得了優于Cons方法的性能，尤其在相對簡單的Halfcheetah任務中表現突出。然而，在微調過程中，Uncons方法波動較大，特別是在較難的Walker2D和Hopper任務中，微調前期出現顯著性能下降，且短期微調難以使策略穩定。因此，在微調階段策略探索新“狀態-動作”是提高性能的有效方式，但要考慮模型的穩定與收斂。

為了探究兩種方法在線微調中策略的穩定情況，定義策略的歸一化累計遺忘（normalized cumulative forget，NCF），量化微調過程中模型相對于初始性能的波動程度，公式如下：

NCF=∑Tt=0f（Rtlt;Rinit）×Rinit－RtRinit

（1）

其中：T表示微調的時長；Rt表示微調過程中t時刻策略的性能；Rinit表示預訓練策略的性能；f是一個指示函數，符合條件為1，否則為0。

圖2展示了兩種方法在微調階段的性能波動。在Halfcheetah、Hopper、Walker2D中，運行medium、medium-replay、medium-expert三種任務，縱坐標表示各任務中策略的平均波動程度，average代表9個任務的平均波動程度，數值越小表明微調過程中的模型越穩定。Uncons方法在三個任務中的平均性能波動是Cons方法的10.3倍。因此，添加約束條件能夠提高模型穩定性，但需權衡其對性能提升的影響。

為了探究模型性能的影響因素，在訓練中選取了兩種不同質量的策略，進行1 000步的策略評估，回報得分為5 010和3 346。在評估中，對每個“狀態-動作”對，通過動作價值網絡估算Q值，并與環境真實獎勵值及目標Q值進行比較，計算歸一化時序差分誤差（TD誤差）。強化學習采用時序差分法進行Q值的估計，TD誤差用于度量當前估計與經過一步更新后的新估計（Q target）之間的差異。通過最小化這一誤差，驅動Q值的更新。在 Q-learning 中，Q target 是基于下一狀態的最大預期 Q 值定義的：

Qtarget=rt+1+γmaxaQ（st+1，a）

（2）

其中：rt+1為下一時刻的環境獎勵；γ∈（0，1）為折扣因子；st+1為下一時刻狀態。TD誤差δ的公式為

δt=rt+1+γmaxaQ（st+1，a）－Q（st，at）

（3）

Q值更新規則如下：

Q（st，at）=Q（st，at）+αrt+1+γmaxaQ（st+1，a）－Q（st，at）（4）

其中：α為學習率。

圖3展示了兩個策略的TD誤差概率密度分布，橫軸為歸一化TD誤差，縱軸為核密度估計?；貓蟮梅譃? 010策略相較于3 346的策略，TD誤差分布整體偏向數值較小的左邊。這表明，得分3 346的網絡尚未很好地擬合Q值，導致對Q值估計不準確。因此，Q值估計的準確性是影響策略性能的關鍵因素。

為了探究Cons與Uncons兩類方法在訓練中Q值準確性的整體變化，每5 000步從在線重放緩沖區中隨機抽取1 000個“狀態-動作”對，計算歸一化TD誤差。圖4展示了微調過程中兩種方法的TD誤差變化，橫軸為訓練時間，縱軸為歸一化TD誤差。Cons方法由于限制了價值網絡權重的調整，TD誤差維持在0.1左右，但性能提升有限。Uncons方法鼓勵網絡更新，導致初期TD誤差波動大，最高達0.8，且下降緩慢，在25萬步時僅降至0.3左右。對比表明，Uncons方法Q值波動較大，主要是因為預訓練的價值網絡無法準確評估新“狀態-動作”；此外，在線強化學習采取的措施，如策略評估與改進的解耦，未能快速調整價值網絡以降低TD誤差。

現有的Q值估計問題可以概括為如下兩點：a）離線與在線數據存在分布偏移，繼承于預訓練的價值網絡在未充分訓練的情況下對新“狀態-動作”對的Q值估計存在較大偏差；b）標準在線強化學習對Q值估計不準確問題采取的措施在離線-在線強化學習中效果有限。

基于上述分析，本文從兩個方面對Q值估計問題進行改進：

對于問題a），提出動態策略約束的思想：在微調前期限制策略更新幅度，給予價值網絡充分的訓練時間，提高Q值估計的準確性；在價值網絡穩定后放松約束條件，給予策略優化空間，更好地權衡效率與穩定性。在約束設計上，借鑒認知科學領域記憶遺忘隨時間衰退負增長的特性，設計了動態衰減的行為克隆約束項；同時參考艾賓浩斯重放學習的記憶方式，在訓練過程中加入離線數據緩解遺忘。

對于問題b），依據現有的策略“評估-改進”框架進行優化，引入離線價值網絡，與在線價值網絡共同評估Q值，構建離線-在線雙Q值網絡。離線價值網絡保留了模型的初始評估性能，在微調前期參與決策，降低TD誤差；在線價值網絡隨微調不斷優化，從而提高Q值估計的準確性和整體模型性能。

3 動態行為克隆約束的離線-在線雙Q值強化學習

3.1 基于艾賓浩斯記憶遺忘規律的動態策略約束

在認知科學領域，記憶通常被劃分為短時記憶和長時記憶。如果短時記憶未能有效轉換為長時記憶，便會出現遺忘現象。遺忘的過程往往呈現出先快后慢的趨勢，特別是在剛剛記憶后的短時間內，遺忘最為迅速［35］。艾賓浩斯通過實驗發現，當人們學習新知識后，如果在一天內未制定鞏固計劃進行復習，約75%的知識會被遺忘。隨著時間的推移，遺忘的速度減緩，遺忘的數量也逐漸減少。

離線強化學習切換到在線強化學習的過程中，存在相似的遺忘規律。盡管兩者學習的是相同的任務，但由于離線數據集與在線環境的“狀態-動作”分布存在差異，以及算法切換的影響，單純通過離線強化學習方法預訓練與在線強化學習方法微調來訓練模型，會導致微調過程中網絡相關權重的快速更新，損害先前任務的表現。

為了避免離線-在線強化學習的策略崩潰，本文借鑒記憶遺忘規律，設計了非線性的策略約束項，動態地限制訓練過程中網絡相關權重的更新。在微調過程中，同時利用離線和在線數據，其中離線數據用于不斷鞏固先前獲取的知識，在線數據用于進一步探索和提升策略性能。具體來說，傳統的策略迭代通過最大化Q值期望實現，其策略梯度計算如下：

π=argmaxE（s，a）～D［Q（s，π（s））］

（5）

本文在最大化Q值的同時，添加了由強到弱的動態行為克隆約束，以限制策略的更新幅度。在訓練初期，對策略施加強約束有兩個主要優點：a）限制策略網絡權重的快速變化，通過離線數據再學習防止策略崩潰；b）使用在線數據訓練價值網絡，較為準確地估計Q值。隨著訓練的進行，逐步放松約束條件，鼓勵策略不斷探索和提升。策略梯度計算如下：

π=argmaxE（s，a）～D［λQ（s，π（s））－f（T）（π（s）－a）2］

（6）

其中：f（T）=11+log（T），T表示在線訓練時間；D表示數據集。

3.2 強化Q值估計：離線-在線雙Q值網絡

在線強化學習采用時序差分法對Q值進行估計，存在Q值估計不準確的問題。盡管現有的在線強化學習算法已將策略的評估與改進解耦，在一定程度上緩解了這一問題。然而，離線-在線強化學習中，由于存在分布偏移和算法切換等原因，僅依賴在線方法無法有效抑制波動現象，從而影響算法的收斂和最終性能。為了改善這一問題并進一步增強微調的穩定性，設計了離線-在線雙Q值網絡，如圖5所示。

離線-在線雙Q值網絡共有2個actor網絡，4個critic網絡和一個離線critic網絡組成。actor網絡根據狀態s輸出動作A，critic網絡評估s狀態下動作A的價值。s′由環境狀態轉移給出。Q1、Q2分別為critic網絡1與critic網絡2評估的動作價值，Q′為critic目標網絡1、critic目標網絡2與離線critic網絡評估下一時刻動作價值的最小值，作為Q target。在對critic網絡1、critic網絡2進行更新時，以Q1、Q2與Q′的TD誤差為損失函數，逐步優化Q值估計。

具體而言，給定一個從離線訓練獲得的策略πoffline，在進入在線階段前進行備份。隨后，使用離線策略初始化在線策略πonline，并與環境交互，持續更新策略。在微調過程中，策略改進可能會帶來負面影響，actor網絡的權重更新可能導致“知識”遺忘，critic網絡的Q值估計也可能產生較大偏差。由于備份的離線critic網絡不受這些負面影響，能夠對學習到的“狀態-動作”進行較為準確的估計。因此，引入離線critic網絡有助于緩解潛在的負面改進。本文將離線critic網絡引入在線的“狀態-動作”評估中，分別使用離線critic網絡和在線critic目標網絡評估動作價值Qoff、Qon：

Qon=r+γmini=1，2Q′θi（s′，πtarget（s′））

（7）

Qoff=r+γQoff（s′，πtarget（s′））

（8）

取離線critic網絡與在線critic網絡評估的最小Q值作為Qtarget：

Qtarget=min（Qon，Qoff）

（9）

在critic網絡更新時，最小化critic網絡1、critic網絡2評估的Q1、Q2與Qtarget之間的誤差：

l=（Q1－Qtarget）2+（Q2－Qtarget）2

（10）

3.3 DPC-DQRL算法

基于動態行為克隆約束與離線-在線雙Q值網絡，提出動態策略約束的雙Q值強化學習（DPC-DQRL）算法，算法具體流程如下所示。

算法1 動態策略約束的雙Q值強化學習算法

輸入：數據集D；初始訓練時長Tinit；在線訓練時長Ton；在線緩沖池大小Son；離線緩沖池大小Soff，采樣數量N。

輸出：critic網絡參數θ；policy網絡參數φ。

初始化在線緩沖池Bon為空，使用數據集D初始化離線緩沖池

使用離線預訓練策略初始化critic網絡參數θ1、θ2， policy網絡參數φ，以及目標網絡參數θ′1、θ′2、φ′。

for t = 0 to Tinit do

探索環境并交互選擇動作a～πφ（s）+N（0，σ）

存儲數據（s，a，r，s′）到在線緩沖池Bon

end for

for t = 0 to Ton do

探索環境并交互選擇動作a～πφ（s）+N（0，σ）

存儲數據（s，a，r，s′）到在線緩沖池Bon

采樣N/2批量數據從在線緩沖池Bon

采樣N/2批量數據從離線緩沖池Boff

設置ε～N（0，σ）

下一時刻動作a′=clip（π′φ（s′）+ε，－0.5，0.5）

更新critic網絡參數θi 通過式（11）

if t mod d then

更新動態策略約束的policy網絡參數φ通過式（12）

更新目標網絡參數θ′1、θ′2、φ′

""通過 θ′1←τθi+（1－τ）θ′1，φ′←τφ+（1－τ）φ

end if

end for

DPC-DQRL采用獨立的離線、在線數據緩沖池，以有效區分和利用離線、在線數據。離線數據緩沖池存儲離線數據，用于重放學習，防止策略性能大幅下降；在線數據緩沖池存儲交互數據，采用先進先出規則，確保微調使用的數據與當前策略接近，促進策略的探索和改進。在訓練前，初始化策略進行在線交互，收集部分在線數據。微調階段，采用對稱采樣策略，即離線數據和在線數據各占50%，用于訓練過程。使用式（11）更新critic網絡：

θi=θi－αSymbolQC@θi1B∑（s，a，r，s′）∈B（Qθi－r－γi=on，offQθi（s′，a′））2（11）

其中：θ表示critic網絡參數；B表示緩沖池；γ表示折扣率；on表示critic目標網絡評估的Q值；off表示離線critic網絡評估的Q值。當critic網絡評估較為穩定時，使用式（12）更新策略網絡：

φ=φ+SymbolQC@φ1B∑（s，a）∈BλQθ1（s，πφ（s））－11+log（T）（π（s）－a）2（12）

其中：φ代表policy網絡參數；λ為平衡因子，設置為2.5；T代表迭代時間。

4 實驗分析

4.1 實驗環境

本文實驗在OpenAI Gym仿真平臺上進行。Gym是強化學習領域的標準API，提供了多種仿真環境，如機器人模擬、Atari游戲等。為有效評估算法性能，選擇MuJoCo物理引擎進行實驗，進行了HalfCheetah-v2、Hopper-v2和Walker2D-v2三個機器人仿真任務，其中v表示版本號。

Halfcheetah是一個二維機器人，由 9 個連桿和連接它們的 8 個關節組成。Halfcheetah的軀干和頭部固定，扭矩只能施加在大腿前后部、小腿和腳的另外 6 個關節上。目標是對關節施加扭矩，使獵豹盡可能快地向前奔跑，扭矩為（-1，1）。獎勵函數reward = forward_reward-ctrl_cost。forward_reward為向前移動的獎勵，ctrl_cost為對采取的動作過大進行懲罰的成本。

Hopper是一個二維的獨腿機器人，主要身體部位由軀干、大腿、小腿、腳組成。目標是通過在連接四個身體部位的三個鉸鏈上施加扭矩來實現向前移動的跳躍，扭矩為（-1，1）。獎勵函數reward = healthy_reward bonus + forward_reward - ctrl_cost。healthy_reward bonus表示Walker2D存活的時間步，其余與Halfcheetah一致。

Walker2D是一個二維的兩足機器人，主要身體部位由軀干、軀干下方中間的兩條大腿、大腿下方底部的兩條腿以及連接到腿上的兩只腳組成。目標是通過在連接六個身體部位的六個鉸鏈上施加扭矩，使兩組腳、腿協調向前方向移動，扭矩為（-1，1）。獎勵函數設計與Hopper一致。機器人仿真任務如圖6所示。

為實現有效的離線預訓練，選用D4RL（datasets for deep data-driven reinforcement learning）［36］離線基準數據集。D4RL是專為數據驅動強化學習設計的標準數據集，方便研究人員對離線強化學習算法進行公平一致的評估。每個實驗任務使用三種不同的離線數據集。medium數據集由部分訓練的SAC策略在中途停止后收集；medium-replay數據集包含SAC算法訓練過程中緩沖區中的所有樣本；medium-expert數據集則是由專家策略和中等策略數據的混合組成。

4.2 實驗設置

每個實驗任務，所有算法均獨立運行五個隨機種子，取值為0～4的整數。具體實驗流程如下：a）使用離線數據集訓練初始策略，執行100萬步策略更新，得到預訓練策略；b）加載預訓練策略作為在線策略，與環境交互收集數據，并進行25萬步的在線微調。在線微調階段每5 000步進行一次策略評估，評估時加載策略并獨立運行10個隨機種子，計算10次測試的平均回報得分，作為算法性能的衡量指標。

DPC-DQRL使用深度學習框架PyTorch實現，評論家網絡和行動者網絡均采用具有兩個隱藏層的線性神經網絡，激活函數為ReLU，優化器使用Adam。DPC-DQRL為區分在線與離線數據緩沖池，引入online_replay_buffer與offline_replay_buffer參數，online_replay_buffer設置較小以保證微調所使用的數據與當前策略接近，其余參數設置與對比方法保持一致。關鍵參數設置如表1所示。

4.3 對比實驗

將以下離線-在線強化學習方法作為基線方法與本文方法進行比較評估。

a）AWAC［10］。通過actor-critic方法的優勢加權形式，將最大化Q值的目標轉換為最大化優勢函數，同時限制兩個策略的KL散度，使策略模仿數據集中具有高優勢估計的動作。

b）DIRECT［32］。使用IQL直接將離線訓練的參數轉移到在線階段。IQL是一種近期且具有代表性的強化學習算法，利用狀態價值函數與均方誤差損失訓練Q函數，在離線強化學習方面展現了最先進的性能，同時也允許在線階段進行微調。

c）PEX［13］。利用離線階段得到的策略與新構造的策略，以合作且自適應的方式進行在線的探索和學習。對于某個狀態，計算每個策略決策出的動作的Q值，構建類別分布，通過玻爾茲曼分布采樣出最終與環境交互的動作。

完成5次獨立訓練后，加載模型進行評估，表2展示了DPC-DQRL與基線方法在9種任務中獲得的歸一化回報得分的均值和標準差，表現最佳的數據（以均值為標準）加粗標記。整體而言，DPC-DQRL在9個任務中的總回報得分比AWAC高出10%，比DIRECT高22%，比PEX高21%。具體而言，DPC-DQRL在8個任務中表現最佳，僅在Hopper-medium-expert任務上低于AWAC 1.9分。此外，相較于其他三種算法，DPC-DQRL在實現較高訓練效率和最終性能的同時，保持了較低的標準差，僅次于AWAC 6.9，展現出良好的穩定性。

圖7展示了DPC-DQRL與基線方法在MuJoCo仿真任務中的在線學習曲線，實線表示算法5次獨立運行在各評估周期的平均性能，陰影區域則表示5次運行的性能波動范圍（見電子版）。經過微調后，DPC-DQRL性能提升顯著，與預訓練模型相比，在Halfcheetah任務中提升47%，在Hopper任務中提升63%，在Walker2D任務中提升20%。DPC-DQRL在7個環境中微調穩定，在Halfcheetah與Hopper的medium-expert任務訓練前期出現了較為明顯的性能下降。這是由于使用中等專家數據集進行預訓練后模型整體性能處于較高水準，在線微調時模型進行探索與利用的多次切換，導致Q值更新不穩定，影響了模型性能。在較短時間的微調后，模型性能恢復并逐漸提升，最終也取得了具有競爭力的性能。

基線方法AWAC和DIRECT的性能高度依賴于離線數據集的質量。在medium-expert任務中，AWAC在三個任務中分別獲得了11 521、3 626和5 121的得分，表現出競爭力，但在medium和medium-replay任務中性能較差。DIRECT在medium任務中的回報得分僅為6 808、2 857和4 090。這主要是由于AWAC和DIRECT在設置中采用悲觀更新規則，導致微調速度緩慢。AWAC在Halfcheetah中僅提升8%，在Hopper和Walker 2D中分別提升16%和15%；DIRECT在微調后的提升分別為9%、26%和9%。相比之下，DPC-DQRL通過動態調整策略的約束強度，實現了更快的微調，同時保持了較好的穩定性。

PEX在Halfcheetah任務中微調后性能提升了28%，但在Hopper和Walker2D任務中的模型性能波動較大，尤其在Hopper-medium和Hopper-medium-expert任務中，在訓練前期的評估得分甚至低于1 000分，表明PEX未能有效保持離線預訓練模型的性能。這主要由于PEX在線策略從零開始訓練，導致微調初期無法提供合理的動作選擇。相比之下，DPC-DQRL保留離線價值網絡參與Q值評估，間接避免了策略崩潰，因此在微調過程中表現出更好的穩定性和效率。

4.4 消融實驗

動態策略約束對效率與穩定性的權衡：與基線方法相比，DPC-DQRL在訓練效率和最終性能方面表現出色。為了驗證DPC-DQRL在保持高效率與高性能的同時是否兼顧了訓練過程的穩定性，將其與無約束微調方法（在線階段使用TD3）和約束微調方法（在線階段使用TD3-BC）進行比較，可視化三種方法在微調過程中的模型性能波動，如圖8所示。

橫坐標表示實驗任務，縱坐標表示性能波動程度。結果顯示，DPC-DQRL在訓練穩定性上優于Uncons方法。在Hopper和Walker2D任務中，DPC-DQRL的性能下降僅比Cons方法高0.09和0.19，在所有任務的平均表現上與Cons方法有0.06的差距。這表明DPC-DQRL在效率與穩定性之間進行了合理的權衡。

離線-在線Q網絡對微調穩定性的影響：為了驗證離線-在線雙Q值網絡對算法穩定性的影響，在Walker2D-medium和Hopper-medium任務中進行消融實驗，如圖9所示。

從訓練效率來看，兩種模型在25萬步的微調后，最終回報得分均在5 000和3 500分。這表明，在線階段引入離線Q網絡參與動作評估并未影響算法性能提升。另一方面，僅使用在線Q網絡評估動作的模型在微調前10萬步，出現了顯著的性能波動。相比之下，使用離線-在線雙Q值網絡的模型在微調過程中展現出更好的穩定性。

離線數據對微調的影響：在Walker2D任務中進行了消融實驗，驗證離線數據在微調中的作用：a）DPC-DQRL只使用在線數據更新策略；b）DPC-DQRL同時使用離線與在線數據更新策略。

如圖10所示，在線階段不使用離線數據會導致多次策略崩潰，在Walker2D-medium和Walker2D-medium-replay任務中表現得尤為明顯。引入離線數據能夠有效減輕策略波動的頻率和幅度，從而提升整體性能。

5 結束語

本文提出了動態策略約束的雙Q值強化學習算法DPC-DQRL。該算法基于記憶遺忘規律設計了非線性的行為克隆約束項，動態調整策略的約束強度，以適應在線微調的不同階段。為了改善分布偏移導致的Q值估計問題，構建了離線-在線雙Q值網絡，提高微調階段Q值估計的準確性，使策略能夠更自然地過渡到在線階段。在Gym仿真平臺使用MuJoCo物理引擎進行仿真實驗，結果表明，DPC-DQRL在訓練過程中兼顧了效率與穩定性，并取得了優異的性能。

下一步的研究重點是將DPC-DQRL應用于實際問題，探討其在應對現實世界中的復雜和不確定性決策時的適應性與效果，為解決復雜任務提供高效且風險、成本可控的方法。

參考文獻：

［1］龍宇杰，修熙，黃慶，等. 基于深度強化學習的電子政務云動態化任務調度方法［J］. 計算機應用研究， 2024， 41（6）： 1797-1802. （Long Yujie， Xiu Xi， Huang Qing， et al. Scheduling of dynamic tasks in e-government clouds using deep reinforcement learning ［J］. Application Research of Computers， 2024， 41（6）： 1797-1802.）

［2］秦浩，張維石. 基于合作博弈和強化學習的優先信號控制方法［J］. 計算機應用研究， 2024， 41（11）： 3350-3356. （Qin Hao， Zhang Weishi. Control method of transit signal priority based on coalitional bargaining games and reinforcement learning ［J］. Application Research of Computers， 2024， 41（11）： 3350-3356.）

［3］劉珈麟，賀澤宇，李俊. 異策略模仿-強化學習序列推薦算法［J］. 計算機應用研究， 2024， 41（5）： 1349-1355. （Liu Jialin， He Zeyu， Li Jun. Off-policy imitation-reinforcement learning for sequential recommendation ［J］. Application Research of Compu-ters， 2024， 41（5）： 1349-1355.）

［4］徐平安，劉全，郝少璞，等. 融合引力搜索的雙延遲深度確定策略梯度方法［J］. 軟件學報， 2023， 34（11）： 5191-5204. （Xu Ping’an， Liu Quan， Hao Shaopu， et al. Twin-delayed-based deep deterministic policy gradient method integrating gravitational search ［J］. Journal of Software， 2023， 34（11）： 5191-5204.）

［5］Wang Xu， Wang Sen， Liang Xingxing， et al. Deep reinforcement learning： a survey ［J］. IEEE Trans on Neural Networks and Learning Systems， 2024， 35（4）： 5064-5078.

［6］胡子劍，高曉光，萬開方，等. 異策略深度強化學習中的經驗回放研究綜述［J］. 自動化學報， 2023， 49（11）： 2237-2256. （Hu Zijian， Gao Xiaoguang， Wan Kaifang， et al. Research on experience replay of off-policy deep reinforcement learning： a review ［J］. Acta Automatica Sinica， 2023， 49（11）： 2237-2256.）

［7］烏蘭，劉全，黃志剛，等.離線強化學習研究綜述［J］.計算機學報，2025，48（1）：156-187.（Wu Lan， Liu Quan， Huang Zhigang， et al. A survey on offline reinforcement learning［J］. Chinese Journal of Computers， 2025，48（1）：156-187.）

［8］馮渙婷，程玉虎，王雪松. 基于不確定性估計的離線確定型Actor-Critic ［J］. 計算機學報， 2024， 47（4）： 717-732. （Feng Huanting， Cheng Yuhu， Wang Xuesong. Offline deterministic Actor-Critic based on uncertainty estimation ［J］. Chinese Journal of Computers， 2024， 47（4）： 717-732.）

［9］Haarnoja T， Zhou A， Abbeel P，et al. Soft actor-critic： off-policy maximum entropy deep reinforcement learning with a stochastic actor ［EB/OL］. （2018-01-04）. https：//arxiv.org/abs/1801.01290.

［10］Nair A， Gupta A， Dalal M， et al. AWAC： accelerating online reinforcement learning with offline datasets ［EB/OL］. （2020-06-16）. https：//arxiv.org/abs/2006.09359.

［11］Lee S， Seo Y， Lee K，et al. Offline-to-online reinforcement learning via balanced replay and pessimistic Q-ensemble［C］// Proc of Conference on Robot Learning.［S.l.］： PMLR， 2022： 1702-1712.

［12］Zhao Yi， Boney R， Ilin A， et al. Adaptive behavior cloning regularization for stable offline-to-online reinforcement learning ［EB/OL］. （2022-10-25）. https：//arxiv.org/abs/2210.13846.

［13］Zhang Haichao， Xu We， Yu Haonan. Policy expansion for bridging offline-to-online reinforcement learning ［EB/OL］. （2023-04-15）. https：//arxiv.org/abs/2302.00935.

［14］Guo Siyuan， Sun Yanchao， Hu Jifeng， et al. A simple unified uncertainty-guided framework for offline-to-online reinforcement lear-ning ［EB/OL］. （2024-02-21）. https：//arxiv.org/abs/2306.07541.

［15］Mark M S， Ghadirzadeh A， Chen Xi， et al. Fine-tuning offline policies with optimistic action selection ［EB/OL］. （2023-02-02）. https：//nips.cc/virtual/2022/64152.

［16］Mao Yihuan， Wang Chao， Wang Bin， et al. MOORe： model-based offline-to-online reinforcement learning ［EB/OL］. （2022-01-25）. https：//arxiv.org/abs/2201.10070.

［17］Mnih V， Kavukcuoglu K， Silver D，et al. Human-level control through deep reinforcement learning ［J］. Nature， 2015， 518（7540）： 529-533.

［18］Fujimoto S， Hoof H V， Meger D. Addressing function approximation error in actor-critic methods［C］// Proc of International Conference on Machine Learning.［S.l.］： PMLR， 2018： 1587-1596.

［19］Schulman J， Wolski F， Dhariwal P， et al. Proximal policy optimization algorithms ［EB/OL］. （2017-08-28）. https：//arxiv.org/abs/1707.06347.

［20］Chen Xinyue， Wang Che， Zhou Zijian， et al. Randomized ensembled double Q-learning： learning fast without a model［EB/OL］. （2021-03-18）. https：//arxiv.org/abs/2101.05982.

［21］Aitchison M H， Sweetser P. DNA： proximal policy optimization with a dual network architecture［C］// Advances in Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2022： 35921-35932.

［22］李林，劉政，南海，等. 基于改進雙重深度Q網絡主動學習語義分割模型［J］. 計算機應用研究， 2024， 41（11）： 3337-3342. （Li Lin， Liu Zheng， Nan Hai， et al. Active learning semantic segmentation model based on improved double deep Q network ［J］. Application Research of Computers， 2024， 41（11）： 3337-3342.）

［23］Fujimoto S， Meger D， Precup D. Off-policy deep reinforcement learning without exploration［C］// Proc of International Conference on Machine Learning.［S.l.］： PMLR， 2019： 2052-2062.

［24］Zhou Wenxuan， Bajracharya S， Held D. PLAS： latent action space for offline reinforcement learning［C］// Proc of Conference on Robot Learning.［S.l.］： PMLR， 2021： 1719-1735.

［25］Kumar A， Zhou A， Tucker G，et al. Conservative Q-learning for offline reinforcement learning［C］// Advances in Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2020： 1179-1191.

［26］Dayan P. Motivated reinforcement learning［C］// Advances in Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2021： 20132-20145.

［27］Yang R， Bai C， Ma X， et al. RORL： robust offline reinforcement learning via conservative smoothing［C］// Advances in Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2022： 23851-23866.

［28］Chen Xi， Ghadirzadeh A， Yu Tianhe， et al. Latent-variable advantage-weighted policy optimization for offline RL ［EB/OL］. （2022-03-16）. https：//arxiv.org/abs/2203.08949.

［29］Feng Jiaheng， Feng Mingxiao， Song Haolin， et al. SUF： stabilized unconstrained fine-tuning for offline-to-online reinforcement learning［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2024： 11961-11969.

［30］Zhang Yinmin， Liu Jie， Li Chuming， et al. A perspective of Q-value estimation on offline-to-online reinforcement learning［C］// Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2024： 16908-16916.

［31］Zheng Han， Luo Xufang， Wei Pengfei， et al. Adaptive policy lear-ning for offline-to-online reinforcement learning ［C］//Proc of AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2023： 11372-11380.

［32］Kostrikov I， Nair A， Levine S. Offline reinforcement learning with implicit Q-learning ［EB/OL］. （2021-10-12）. https：//arxiv.org/abs/2110.06169.

［33］Ball P J， Smith L， Kostrikov I，et al. Efficient online reinforcement learning with offline data［C］//Proc of the 40th International Confe-rence on Machine Learning. New York： ACM Press， 2023： 1577-1594.

［34］Nakamoto M， Zhai Yuexiang， Singh A， et al. Cal-Ql： calibrated offline RL pre-training for efficient online fine-tuning［C］// Advances in Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2024： 62244-62269.

［35］Murre J M J， Dros J. Replication and analysis of Ebbinghaus’ forgetting curve［J］. PLoS One， 2015， 10（7）： e0120644.

［36］Fu J， Kumar A， Nachum O， et al. D4RL： datasets for deep data-driven reinforcement learning ［EB/OL］. （2021-02-06）. https：//arxiv.org/abs/2004.07219.

計算機應用研究2025年4期

計算機應用研究的其它文章: 基于多模態特征融合的場景文本識別; 基于關節結構依賴的三維人體姿態估計與優化策略; 面向隱私保護的無鏡頭成像坐姿識別技術; 聯合邊緣特征的物流駕駛員危險行為識別; 基于圖像-文本大模型CLIP微調的零樣本參考圖像分割; ASGC-STT：基于自適應空間圖卷積和時空Transformer的人體行為識別