崔軍曉等
摘要:強化學習(Reinforcement Learning)是學習環境狀態到動作的一種映射,并且能夠獲得最大的獎賞信號。強化學習中有三種方法可以實現回報的最大化:值迭代、策略迭代、策略搜索。該文介紹了強化學習的原理、算法,并對有環境模型和無環境模型的離散空間值迭代算法進行研究,并且把該算法用于固定起點和隨機起點的格子世界問題。實驗結果表明,相比策略迭代算法,該算法收斂速度快,實驗精度好。
關鍵詞:強化學習;值迭代;格子世界
中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2014)31-7348-03
Abstract: Reinforcement learning is learning how to map situations to actions and get the maximize reward signal. In reinforcement learning, there are three methods that can maximize the cumulative reward. They are value iteration, policy iteration and policy search. In this paper, we survey the foundation and algorithms of reinforcement learning , research about model-based value iteration and model-free value iteration and use this algorithms to solve the fixed starting point and random fixed starting point Gridworld problem. Experimental result on Gridworld show that the algorithm has faster convergence rate and better convergence performance than policy iteration.
Key words: reinforcement learning; value Iteration;Gridworld
強化學習可以解決自動控制,人工智能,運籌學等領域方面的各種問題。其中自動控制和人工智能是強化學習的重要發源地。在自動控制領域中,強化學習用于自適應的最優控制問題。在人工智能領域中,強化學習用于協助構建人工agent,可以在未被構建的未知環境中找到最優化的行為。
我們在這里對強化學習的值迭代算法進行研究,并以格子世界為例將該算法進行實際運用,以此表現出該算法的優勢。
如圖 1所示,agent做出了一個動作,環境對agent做出的動作產生回應,從而改變了agent的狀態并且對agent給出一定的獎賞。在每個時間步中,agent都要實現從狀態到每一個可能選到的動作的映射。這個映射就是agent的策略。
3 離散空間實驗結果分析
現在來用基于模型的值迭代算法解決格子世界問題。將算法1直接運用在格子世界問題上。設定初始狀態的狀態值函數全部為0,折扣因子[γ]為0.5。對應的值迭代結果如圖3所示,策略如圖4所示。……