基于改進好奇心的深度強化學習方法

2024-11-04 00:00:00喬和李增輝劉春胡嗣棟

計算機應用研究 2024年9期

摘要：

在深度強化學習方法中，針對內在好奇心模塊（intrinsic curiosity model，ICM）指導智能體在稀疏獎勵環境中獲得未知策略學習的機會，但好奇心獎勵是一個狀態差異值，會使智能體過度關注于對新狀態的探索，進而出現盲目探索的問題，提出了一種基于知識蒸餾的內在好奇心改進算法（intrinsic curiosity model algorithm based on knowledge distillation，KD-ICM）。首先，該算法引入知識蒸餾的方法，使智能體在較短的時間內獲得更豐富的環境信息和策略知識，加速學習過程；其次，通過預訓練教師神經網絡模型去引導前向網絡，得到更高精度和性能的前向網絡模型，減少智能體的盲目探索。在Unity仿真平臺上設計了兩個不同的仿真實驗進行對比，實驗表明，在復雜仿真任務環境中，KD-ICM算法平均獎勵比ICM提升了136％，最優動作概率比ICM提升了13.47％，提升智能體探索性能的同時能提高探索的質量，驗證了算法的可行性。

關鍵詞：深度強化學習；知識蒸餾；近端策略優化；稀疏獎勵；內在好奇心

中圖分類號：TP181 文獻標志碼：A 文章編號：1001-3695（2024）09-010-2635-06

doi：10.19734/j.issn.1001-3695.2024.01.0014

Research on deep reinforcement learning method based on improved curiosity

Qiao He， Li Zenghui， Liu Chun， Hu Sidong

（School of Electrical & Control Engineering， Liaoning Technology University， Huludao Liaoning 125105， China）

Abstract：

In the deep reinforcement learning method， the intrinsic curiosity model （ICM） guides the agent to obtain the opportunity to learn unknown strategies in the sparse reward environment， but the curiosity reward is a state difference value， which will make the agent pay too much attention to the exploration of new states. Then the problem of blind exploration arises， and this paper proposed an intrinsic curiosity model algorithm based on knowledge distillation （KD-ICM）. Firstly， it introduced the method of knowledge distillation to make the agent acquire more abundant environmental information and strategy knowledge in a short time and accelerate the learning process. Secondly， by pre-training teachers’ neural network model to guide the forward network to obtain a forward network model with higher accuracy and performance， reduced the blind exploration of agents. It designed two different simulation experiments on the Unity simulation platform for comparison. The experiments show that in the complex simulation task environment， the average reward of KD-ICM algorithm is 136% higher than that of ICM， and the optimal action probability is 13.47% higher than that of ICM. The exploration performance of the agent can be improved while the exploration quality can be improved， and the feasibility of the algorithm is verified.

Key words：deep reinforcement learning; knowledge distillation; optimization of near-end policy; sparse reward; intrinsic curiosity

0 引言

強化學習（reinforcement learning，RL）是一種當智能體在復雜且不確定的環境中進行交互時，嘗試讓智能體獲得獎勵最大化的算法［1］。強化學習由于其通用性，在許多其他學科中也有研究，如博弈論、控制論、運籌學、信息論、模擬優化、群體智能、統計學和遺傳算法。由于近年來的迅猛發展，強化學習在游戲、機器人路線規劃、自動駕駛［2～4］等諸多領域取得了巨大的成功。

在強化學習中智能體依據獎勵進行策略優化（圖1），但在許多實際應用強化學習訓練智能體的場景中，多數時候智能體往往都不能得到獎勵。在不能得到獎勵的情況下，難以正確地更新智能體策略，導致訓練非常困難。因此，研究如何在獎勵稀少的情況下讓智能體能夠去學習，對于智能體探索效率提高以及智能體策略優化的作用極其重要。

針對獎勵稀疏的問題，往往有三個方向來解決：

a）課程學習［5］。課程學習是指為智能體的學習做規劃，輸入訓練數據的時候，采取由易到難的順序進行輸入，通常可以學得比較好。

b）分層強化學習［6］。通過引入任務層次結構，包括負責決定子任務切換的高層策略，和執行具體子任務決策的低層策略。任務被分解為一系列子任務，形成層次結構，使智能體能夠更有效地處理復雜問題。高層策略與整體任務性能相關，低層策略與子任務執行相關，每個層次都可以接收獎勵信號。

c）設計獎勵［7］。為了讓智能體學到想要的結果，可以人為設計一些獎勵來引導智能體。通過設計額外的獎勵，從而激發智能體的“好奇心”。

通常，將智能體與環境交互得到的獎勵稱為外在獎勵（extrinsic reward），額外設計的獎勵稱為內在獎勵（intrinsic reward），如圖2所示。

目前，內在獎勵主要分為兩種設計思想，第一種最簡單思想是通過計數度量新穎性［8］，通過跟蹤智能體遇到的新狀態或執行的新動作數量來度量新穎性。當智能體探索環境并發現之前未經歷過的狀態或采取過的動作時，為其提供內在獎勵。這種方法的優勢在于簡單直觀，可以通過維護狀態或動作的計數來實現，但對于高維連續觀測空間和連續動作空間沒有簡單的計數方法，因此往往取不到理想的效果。

為了緩解上述問題，另一種方法是利用智能體對環境的預測問題來度量新穎性，使用狀態預測誤差作為好奇心獎勵。預測誤差越小，則表明之前已經訪問過，內在獎勵也越??；反之誤差越大，則表明之前沒有訪問過，內在獎勵就越大。例如基于隨機蒸餾網絡（random network distillation，RND）方法［9］和內在好奇心獎勵模塊（intrinsic curiosity module，ICM）［10］，兩者都是將狀態新穎性作為內在好奇心獎勵［11］，從而幫助智能體進行更好的探索。但是ICM存在過度關注于智能體對最新狀態探索的問題，因此導致前向模型能力不夠，無法很好地去擬合目標函數，最終造成智能體盲目探索，不能有效利用內在獎勵去解決問題。

本文提出了一種改進算法，基于知識蒸餾［12］的內在好奇心獎勵方法（intrinsic curiosity module with knowledge distillation，KD-ICM）。引入知識蒸餾的方法，通過預訓練教師神經網絡模型（teacher network）去引導前向網絡，從而得到更高精度和性能的前向網絡模型，在內部修正智能體的探索方向。近端策略優化（proximal policy optimization，PPO）［12］算法是基于策略的強化學習算法，存在探索不足的問題。本文將KD-ICM方法、ICM方法通過基準算法PPO實現，在Unity仿真平臺設計不同的仿真環境，并對三種算法進行對比，結果表明ICM方法對PPO的性能有所提升，但是由于存在盲目探索，不能有效地利用內在獎勵去解決問題，而KD-ICM方法增加了教師網絡對前向網絡進行指導與訓練，能夠有效避免盲目探索的問題。實驗結果表明，KD-ICM方法在復雜仿真任務中的表現優于ICM，能加快收斂，平均獎勵有顯著提升。

1 方法論

1.1 近端策略優化算法的推導

傳統的強化學習算法會將狀態價值函數V（s）或動作價值函數Q（s， a）以表格的形式存儲，如蒙特卡羅、Q學習和SARS算法［13］，但是這樣的方法存在很大的局限性。比如在現實任務中的狀態空間基本都是連續的，存在無窮多個狀態，而表格類方法無法處理復雜的動作維度和狀態［14］。隨著深度學習取得的巨大成功，以深度學習和強化學習組合的深度強化學習方法有效地解決了上述問題。通過利用神經網絡擬合價值函數、策略網絡等，避免了提取特征這一復雜問題，從而將傳統的強化學習過程改變成一個端到端（end-to-end training）的學習過程。例如深度Q學習（deep Q-learning network，DQN）算法［14］、策略梯度算法（policy gradient，PG）［15］、深度確定型策略梯度算法（deep determine policy gradient，DDPG）［16］等。

近端策略優化算法是策略梯度算法的改進算法，即通過求解強化學習問題中目標函數的梯度，利用梯度提升的方法訓練智能體。

2 實驗

ML-Agents是Unity的一款開源插件，能夠讓開發者通過深度強化學習和模仿學習相結合的方式教授智能體“學習”，創建物理、視覺和認知豐富的AI環境，并可以將它們用于基準測試以及研究新的算法和方法。

為了驗證算法的有效性，本文將KD-ICM-PPO算法用于ML-Agents搭建的兩個不同的仿真任務環境push-block和pyramid中，并與PPO算法、ICM-PPO算法作對比。

在ML-Agents建立的仿真任務環境各實驗參數如表1所示。

a）push-block仿真環境：

（a）仿真環境內容：智能體在平臺上推動橙色的磚塊，推到黑白相間的終點區域就算完成任務，如圖5所示。

（b）agent設置：藍色的小方塊，使訓練的智能體環境包含一個鏈接到單個brain的agent。

（c）brain設置：采用了射線傳感器Ray Perception Sensor 3D，并且使用了兩個，以獲得上下立體視角，上下二層的每一層都有七條射線，70個變量對應于14個射線投射，每個變量檢測三個可能的對象（墻壁、目標或塊）之一。

b）pyramid仿真環境

在pyramid虛擬環境中，智能體的任務是在一個相當龐大的場景中尋找一個位于金字塔頂端的方塊，如圖6所示。為了觸碰這個方塊，智能體必須推倒支撐它的金字塔。不同于一開始就存在的金字塔和方塊，它們只有在智能體觸碰特定按鈕后才會在場景中生成，而這個按鈕會定期隨機出現在環境的不同位置。

為了成功完成任務，智能體需要執行以下步驟：

（a）尋找按鈕：智能體必須使用其感知系統來搜索環境，找到觸發生成金字塔和方塊的按鈕。

（b）觸碰按鈕：一旦找到按鈕，智能體需要移動到按鈕位置，并與之交互，觸發金字塔和方塊的生成。

（c）尋找金字塔：智能體生成金字塔后，需要使用感知系統再次搜索環境，找到生成的金字塔的位置。

（d）推倒金字塔：智能體必須采取行動，推倒支撐方塊的金字塔。

（e）觸碰方塊：一旦金字塔被推倒，方塊將變得可觸及。智能體需要移動到方塊的位置，并與之交互，完成任務。

3 實驗結果分析

本文分別設計了push-block和pyramid兩個不同的仿真任務環境作對比，push-block仿真任務環境較為簡單，而pyramid仿真任務環境比較復雜。結果如表2、圖7和8所示，從得到的平均獎勵值、最優動作概率、未來期望值三個方面來評測智能體的性能。

在push-block仿真任務環境中，數據變化趨勢如圖7（a）～（c）所示，隨著迭代步數的增加，在獲得的平均獎勵值對比圖中，在初始時步，KD-ICM-PPO算法的表現略低于ICM-PPO算法和基準算法PPO，原因是KD-ICM方法通過預訓練的教師網絡模型表征能力更強的大型神經網絡模型，所以能夠探索到更為詳細的狀態信息，但增加了訓練成本，所以并沒有很快地收斂。從圖7（c）的變化趨勢圖可以看到KD-ICM方法未來期望總獎勵值更大，表明該方法在當前價值選擇上更為優越。而圖7（b）的變化趨勢圖表明最優動作概率變化趨勢幾乎相似，沒有太大變化。

pyramid仿真任務環境由于任務難度大、獎勵稀疏程度高，這次的任務如果使用尋常的強化學習方法是幾乎不可能得到一個好的結果的。圖8（a）（c）為PPO平均獎勵值和未來期望總獎勵值變化趨勢圖，PPO算法很難得到獎勵或者幾乎沒有得到獎勵，未來期望總獎勵值也在不斷降低。因此這里需要應用到好奇心機制，使得智能體在探索未知事物中得到獎勵，有效推動了訓練的進展。

如圖8（a）獎勵變化趨勢所示，PPO算法獎勵值一直處于不斷降低的狀態，最終穩定在獎勵值為-1的負獎勵上；ICM-PPO算法相比PPO算法有了一定提高，經過一定的下降后穩定在-0.5左右。KD-ICM-PPO 算法在前期經過一定的下降后，在20 000 timesteps左右開始升高，并在40 000 timesteps獎勵值開始為正，在70 000 timesteps穩定在1.0左右。

如圖8（c）未來期望總獎勵變化趨勢所示，PPO算法獎勵值一直處于下降的狀態；ICM-PPO算法經過一定的下降后開始上升，最終在18 000 timesteps穩定在1.0左右；KD-ICM-PPO算法經過一定的下降后開始上升，最終在17 000 timesteps左右穩定在2.0～3.0。

當前獎勵值主要由內在獎勵和外在獎勵兩部分組成，內在獎勵的設計是為了鼓勵智能體去探索那些可能不會立即帶來外在獎勵的狀態，但從長遠來看，這些探索有助于更好地理解環境，從而在未來作出更優的決策。因此，內在獎勵通常與探索能力有關，而外在獎勵則與任務的具體目標有關。從圖8（a）和（c）結果顯示，由于缺少內在獎勵的設計， PPO算法相比ICM-PPO算法、KD-ICM-PPO算法探索性能不足，獎勵一直為負值。而增加了內在獎勵設計的ICM-PPO算法的獎勵值雖然有了一定的提升，但其獎勵值的增長仍然有限，波動在-0.5附近，這表明雖然內在獎勵促進了一定的探索，但這種探索并沒有轉換為顯著的外在獎勵增長，存在盲目探索的問題。另一方面，KD-ICM-PPO算法展現出更加顯著的性能提升，其獎勵值持續上升，并且維持在較高水平，這表明通過知識蒸餾的方式能夠更有效地將內在獎勵轉換為有效的探索策略，使得智能體不僅探索了更多的狀態空間，而且這種探索更有效地促進了對環境的理解，這對完成具體的外在任務目標是有益的。

由此可見，內在獎勵的引入是提升智能體探索性能的關鍵，而知識蒸餾技術進一步優化了這一過程。知識蒸餾在這里作為一種策略，通過將先進或專家智能體的策略傳遞給學習者智能體，以加速學習過程并提高探索的質量。這種方法讓智能體不僅能夠探索那些短期內可能不會帶來直接外在獎勵的新狀態，而且能夠更快地從這些探索中學習到有助于長期任務成功的知識和技能。

如圖8（b）所示為最優動作概率趨勢圖，可以評估策略。算法的獎勵值雖然有了一定的提升，但其獎勵值的增長仍然有限，波動在-0.5附近，這表明雖然內在獎勵促進了一定的探索發展，但這種探索并沒有轉換為顯著的外在獎勵增長，存在變化和不確定性，增強了智能體的魯棒性能。

4 結束語

本研究致力于解決深度強化學習領域中的關鍵挑戰：獎勵稀疏和盲目探索問題。為此，本文提出了一種創新的方法，即基于知識蒸餾的內在好奇心改進（KD-ICM）算法。該方法通過在預訓練的教師網絡上應用知識蒸餾技術，促進智能體以更加高效的方式探索環境，特別是在那些需要復雜決策和任務執行的仿真場景中。在兩個精心設計的仿真實驗push-block和pyramid中發現，該算法在提高智能體的探索性能的同時能提高探索的質量。

為了進一步展現KD-ICM在實際應用中的潛力，該算法下一步將應用于智能物流和無人駕駛等具體場景。例如，在智能物流系統中，KD-ICM可以幫助智能體在倉庫內進行更有效的路徑規劃和貨物搬運任務，更加主動地探索未知區域，快速識別出高效的配送路線，提高物流效率和降低錯誤率。在無人駕駛汽車的應用中，KD-ICM可以促進無人車更好地學習和適應復雜的城市交通環境，提高其決策制定的準確性和安全性。在災難響應中，KD-ICM可以訓練搜索與救援機器人在復雜環境中進行搜索、導航和救援任務。

期待未來的研究能夠將KD-ICM應用于更多實際問題，進一步驗證其在現實世界復雜任務中的適用性和效果。這種基于知識蒸餾的內在好奇心改進方法，為深度強化學習技術的發展和應用拓寬了更廣闊的道路。

參考文獻：

［1］Li Yuxi. Deep reinforcement learning： an overview ［EB/OL］. （2017）.https：//arxiv.org/abs/1701. 07274.

［2］Mnih V，Kavukcuoglu K，Silver D，et al. Playing Atari with deep reinforcement learning ［EB/OL］. （2013）. https：//arxiv.org/abs/1312. 5602.

［3］Guo Rui，Fu Zhonghao. Dual policy iteration-reinforcement learning to optimize the detection quality of passive remote sensing device ［J］. Signal Processing，2023，209： 109002.

［4］Tai Lei，Zhang Jingwei，Liu Ming，et al. A survey of deep network solutions for learning control in robotics： from reinforcement to imitation ［EB/OL］. （2016）.https：//arxiv.org/abs/1612. 07139.

［5］Kiran B R，Sobh I，Talpaert V，et al. Deep reinforcement learning for autonomous driving： a survey ［J］. IEEE Trans on Intelligent Transportation Systems，2021，23（6）： 4909-4926.

［6］Weinshall D，Cohen G，Amir D. Curriculum learning by transfer learning： theory and experiments with deep networks ［C］// Proc of International Conference on Machine Learning. 2018： 5238-5246.

［7］Kulkarni T D，Narasimhan K，Saeedi A，et al. Hierarchical deep reinforcement learning： integrating temporal abstraction and intrinsic motivation ［C］// Advances in Neural Information Processing Systems. 2016.

［8］Chentanez N，Barto A，Singh S. Intrinsically motivated reinforcement learning ［C］// Advances in Neural Information Processing Systems. 2004.

［9］Burda Y，Edwards H，Storkey A，et al. Exploration by random network distillation ［EB/OL］. （2018）.https：//arxiv.org/abs/1810. 12894.

［10］Pathak D，Agrawal P，Efros A A，et al. Curiosity-driven exploration by self-supervised prediction ［C］//Proc of International Conference on Machine Learning. Piscataway，NJ： IEEE Press，2017： 2778-2787.

［11］譚慶，李輝，吳昊霖，等. 基于獎勵預測誤差的內在好奇心方法［J］. 計算機應用，2022，42（6）： 1822-1828. （Tan Qing，Li Hui，Wu Haolin，et al. Intrinsic curiosity method based on reward prediction error ［J］. Journal of Computer Applications，202，42（6）： 1822-1828.）

［12］Gou Jianping，Yu Baosheng，Maybank S J，et al. Knowledge distillation： a survey ［J］. International Journal of Computer Vision，2021，129（6）：1-31.

［13］Schulman J，Wolski F，Dhariwal P，et al. Proximal policy optimization algorithms ［EB/OL］. （2017）. https：//arxiv.org/abs/1707. 06347.

［14］鄒啟杰，李文雪，高兵，等. 基于加權值函數分解的多智能體分層強化學習技能發現方法［J］. 計算機應用研究，2023，40（9）： 2743-2748，2754. （Zou Qijie，Li Wenxue，Gao Bing，et al. Multi-agent hierarchical reinforcement learning skill discovery method based on weighted value function decomposition ［J］. Application Research of Computers，2019，40（9）： 2743-2748，2754.）

［15］Sutton R S，Barto A G. Reinforcement learning： an introduction ［J］. Robotica，1999，17（2）： 229-235.

［16］Mnih V，Kavukcuoglu K，Silver D，et al. Human-level control through deep reinforcement learning ［J］. Nature，2015，518（7540）： 529-533.

［17］Lillicrap T P，Hunt J J，Pritzel A，et al. Continuous control with deep reinforcement learning ［EB/OL］. （2015）. https：//arxiv.org/abs/1509. 02971.

［18］楊瑞，嚴江鵬，李秀. 強化學習稀疏獎勵算法研究——理論與實驗［J］. 智能系統學報，2020，15（5）： 888-899. （Yang Rui，Yan Jiangpeng，Li Xiu. Sparse reward algorithm for reinforcement lear-ning： theory and experiment ［J］. Journal of Intelligent Systems，2020，15（5）： 888-899.）

［19］Burda Y，et al. Large-scale study of curiosity-driven learning ［EB/OL］. （2018）.https：//arxiv.org/abs/1808. 04355.

［20］Schmidhuber J. A possibility for implementing curiosity and boredom in model-building neural controllers ［M］.Cambridge，MA： MIT Press，1991.

［21］Agrawal P，Carreira J，Malik J. Learning to see by moving ［C］// Proc of IEEE International Conference on Computer Vision. Pisca-taway，NJ：IEEE Press，2015： 37-45.

收稿日期：2024-01-13；修回日期：2024-03-20 基金項目：國家自然科學基金資助項目（51604141，51204087）

作者簡介：喬和（1973—），男，遼寧阜新人，副教授，碩導，博士，主要研究方向為人工智能算法的改進；李增輝（1997—），男（通信作者），山東濰坊人，碩士研究生，主要研究方向為深度強化學習方法改進（1363058235@qq.com）；劉春（1998—），女，湖北十堰人，碩士研究生，主要研究方向為智能檢測技術；胡嗣棟（1998—），男，江蘇鹽城人，碩士研究生，主要研究方向為神經網絡算法改進.

計算機應用研究2024年9期

計算機應用研究的其它文章: 基于頻譜特征混合Transformer的紅外和可見光圖像融合; 基于全局頻域池化的行為識別算法; 融合雙目信息的隊列姿態檢測; 基于集中注意力接受場網絡的偏振成像偽裝目標檢測; 抗惡意敵手的線性門限隱私集合交集協議; 基于上下文感知的自適應訪問控制模型