稀疏獎勵場景下深度強化學習算法研究

2021-12-27 01:39:02周國明

科學與信息化 2021年12期

周國明

四川大學電子信息學院四川成都 610000

引言

深度強化學習[1](deep reinforcement learning ,DRL)是機器學習[2]的重要分支，它是在與環境交互中尋找最優策略的一類方法。DRL中智能體的目標是獲得最大獎勵，環境可以提供密集的獎勵信號時DRL可以工作得很好，然而在許多實際問題中，獎勵是稀疏的，稀疏獎勵導致智能體無法有效的學習。實際上稀疏獎勵問題會導致強化學習算法迭代緩慢、難以收斂，甚至根本無法進行學習[3]。因此，如何解決稀疏獎勵帶來的負面影響，研究稀疏獎勵環境下的強化學習算法，至關重要。本文提出了一個使用智能體相鄰兩個狀態之間的距離來作為智能體的內在獎勵以驅動智能體對環境進行探索的方

1 基于內在激勵機制的算法化

1.1 內在激勵機制

由此可見，獎勵在強化學習中起著非常重要的作用，它指導著智能體的學習。然而，在許多實際生活場景中，獎勵是稀疏的，這意味著智能體很難獲得獎勵，甚至需要正確執行很長序列的動作才能得到環境的反饋，導致智能體很難學到解決目標任務所需要做的動作，無法學習到給定的任務。另一方面，由于缺少獎勵信號，智能體需要與環境做大量的交互，獲取足夠多的樣本數據，這會導致算法訓練的非常緩慢，甚至無法收斂。因此，本文考慮如何為智能體提供額外的獎勵信號來源，稱之為內在獎勵[1]。

1.2 基于狀態距離的內在獎勵生成算法

特征提取模塊中使用的是不進行參數更新的卷積神經網絡。卷積神經網絡是一種特殊的神經網絡模型，專門用于處理具有相似網格結構的數據。卷積是圖像處理中一種有效的特征提取方法，而我們的實驗環境為Atari視頻游戲，它的表現形式是一幀幀的圖像，所以我們使用卷積神經網絡提取狀態的特征。不進行參數更新的原因在于，首先我們需要穩定的內在獎勵項，由于卷積神經網絡是固定的，所以在整個訓練過程中，提取到的所有狀態的特征向量都是通過同一個范式得到的，保證了用特征向量做差得到的內在獎勵項是穩定的；其次，如果要訓練特征提取模塊中使用的卷積神經網絡，是比較困難的，雖然我們可以采取ICM模型[5]，但這會大大增加模型的量。

2 實驗

為了測試本文提出的基于內在獎勵機制的算法的有效性，必須要有一個合適的環境來進行測試。由于我們的算法是稀疏獎勵相關的，我們需要外在獎勵稀少的場景。本文從Open AI Gym工具包中選擇了Atari視頻游戲中的Space Invaders和Freeway。

Space Invaders提供的是一個具有相對密集的獎勵反饋的環境，而Freeway則提供的是一個智能體進行需要搜索才能得到獎勵的稀疏獎勵環境[6]。我們選擇這兩個環境，一個獎勵信號相對密集，另一個獎勵信號稀疏，可以更好地看到本文所提出的內在獎勵生成算法在稀疏獎勵環境下的優越性。

選擇的基礎強化學習算法為A2C，它是在Actor-Critic算法的基礎上，使用優勢函數代替Critic網絡中的原始回報[7]。比較原始A2C算法與添加了內在獎勵機制的A2C算法（稱之為IBA2C算法），分別在Space Invaders和Freeway下的表現效果。需要注意的是，由于智能體的目標是最大化來自環境的獎勵信號值，所以在實驗結果對比中，只使用了外在獎勵值，內在獎勵項是沒有使用的。

從實驗結果可看出，在Space Invaders場景中，A2C算法IBA2C算法基本上有相同的性能表現，IBA2C算法的表現稍稍優于A2C算法，兩者都能夠很快地到達一個很好的收斂。這表明，在外在獎勵密集的場景下，智能體無須做很多的探索，僅僅依靠外在獎勵信號的指導，就能夠學會完成目標任務。在外在獎勵稀疏的Freeway場景中， A2C算法的表現很糟糕，智能體基本上無法獲得任何的外在獎勵，而IBA2C算法表現優異，在經過大約2.4e7個時間步的訓練后，可以快速得到一個很好的效果。實驗結果表明，本文提出的內在獎勵機制在稀疏獎勵場景下可以顯著提高性能。

3 結束語

本文針對稀疏獎勵場景下的內在獎勵機制進行了研究。引入內在激勵機制，提出了一種新的內在獎勵生成算法。本文提出的內在獎勵生成算法利用一個固定的卷積神經網絡提取狀態的特征向量，把相鄰的兩個狀態的狀態特征向量的歐式距離作為內在獎勵項。將內在獎勵與外在獎勵合成為一個獎勵，使用這個合成的獎勵信號來指導智能體的學習。最后，把提出的內在獎勵生成算法與A2C算法結合在一起，在Atari視頻游戲場景Space Invaders和Freeway中進行了對比試驗，實驗結果表明，本文提出的內在獎勵生成算法可以顯著地提高智能體在稀疏獎勵環境下的表現。