










摘 要:離線強化學習作為一種新興范式,憑借其無需與環境交互即可利用大量離線數據進行策略學習的特性,展現出了很高的應用潛力和價值,特別是在醫療、自動駕駛等高風險領域中具有顯著優勢。從離線強化學習的基本概念、核心問題、主要方法依次展開,重點介紹多種緩解主要問題的方法:分布偏移的策略,包括約束目標策略與行為策略對齊、價值函數約束、模型不確定性量化以及基于模型的離線強化學習方法。討論了目前離線強化學習的模擬環境以及重要應用場景。
關鍵詞:強化學習;離線強化學習;自動決策;外推誤差
中圖分類號:TN919. 23 文獻標志碼:A
文章編號:1003-3114(2024)05-0831-12
0 引言
強化學習(Reinforcement Learning,RL)[1]是機器通過與環境交互來實現目標的一種計算方法。智能體(Agent)通過在環境(Environment)進行迭代交互進行決策,并通過環境中獲得的獎勵來不斷調整自身的策略。智能體通過在環境中不斷試錯,逐步學習到最優的策略,最大化其累計獎勵的期望。監督學習通過帶標簽的數據集來擬合模型,而強化學習可以直接在環境中進行訓練,智能體不但可以感知周圍的環境信息,還可以通過做決策來改變環境的狀態,并學習到更強的策略。
近年來,深度強化學習[1]發展勢頭正盛,在諸多領域的成功展示了其在動態環境下超強的決策能力,例如圍棋[2]、電子游戲[3]等。深度強化學習算法通常需要很多的訓練樣本。在同策略范式(OnpolicyRL)[1]中,智能體可以自由與環境交互,并在一輪交互結束之后進行更新策略。而異策略范式(OffpolicyRL)[1]中,智能體直接與環境交互,但同時也使用任意策略收集的經驗數據來更新策略。這都需要與在線環境大量交互,導致樣本量很高,并且隨著策略更新,又需要重新交互獲取新的數據。因此,將深度強化學習算法應用于現實任務中是困難的,其中交互的成本可能十分昂貴甚至在某些場景下存在危險,例如在醫療診斷[4]、自動駕駛[5]等領域。研究人員很難在真實環境中通過在線交互方式,不斷試錯來訓練手術機器人[4]或者自動駕駛汽車[5]。