劉仕超

摘 要:強化學習為開發模擬特性技能提供了一種很有效的方法,但強化學習通常需要稀疏手動的來獲取特征。依賴于深度強化學習,我們引進了動作-評價和專家學習混合的學習方法(MACE)來學習動態地形自適應技能,把高緯度狀態和地形描述作為該方法的輸入,參數化的跳躍或行走作為輸出動作。MACE方法比單一的動作-評價方法的學習效率更快,從而使動作-評價和專家學習變得更具獨特性。
關鍵詞:深度強化學習;地形自適應;卷積神經網絡
人和動物在環境中優雅敏捷的運動,在動畫片中,動物的動作通常是在熟練的動畫片制造者和捕獲到的動作數據的幫助下創造出來的。從基本原理出發,應用強化學習和基于物理特性的仿真,呈現出了研發不同種類運動技能的美好前景。這需要通過一個連續的決策問題,涉及狀態,動作,獎勵和控制決策的鏡頭看問題。給定當前狀態的特性,作為捕獲的狀態,控制策略決定采取最佳動作,從而導致隨后的狀態,以及獎勵發生改變??刂茮Q策的目的是最大限度地提高預期的未來回報,即,任何直接的獎勵以及所有預期的回報。
本文應用深度神經網絡與強化學習相結合的方式來解決上述問題。在運動技能領域,我們應用控制結構建立設計動作參數的預期工作。強化學習過程中,值函數或者動作-值函數已經作為導向函數應用于動作的合成上,基于深度神經網絡的控制策略已經能夠借助可微神經網絡來控制動作。
1 原理
系統原理圖如圖1所示,它有三個嵌套循環,每個嵌套對應于不同的時間尺度。最內層循環模型是底層控制和基于物理特性的仿真過程;中間循環是在運動周期的時間尺度上運行;最外層循環是以動作-評估參數來進行決策更新。決策由動作評價對來決定,這些動作評價對的輸出就是深度神經網絡的輸出。每個動作,都有其獨自的決策模型,動作選擇,根據基于軟最大化的模型,以一定的概率進行選擇,這個選擇是把動作賦予具有較高評價函數值Q的。在做出動作選擇時,可能會摻雜高斯噪聲,使得噪聲以一定的概率參與到輸出。
3 結論
本文應用深度強化,和基于物理特性的動作-評價專家學習模型,以及Boltzmann探索,使得學習性能更佳。這也避免了需要設計緊湊的手工制作的特征,并且允許針對可能不容易開發緊湊特征描述的地形進行學習策略的開發。
參考文獻:
[1] COROS, S., BEAUDOIN, P., YIN, K.K., AND VAN DE PANNE,M.2008.Synthesis of constrained walking skills.ACM Trans. Graph.27,5,Article 113.
[2] COROS, S., BEAUDOIN,P.,AND VAN DE PANNE,M.2010. Generalized biped walking control. ACM Transctions on Graphics 29,4,Article 130.
[3] HAUSKNECHT,M.,AND STONE,P.2015.Deep reinforcement learning in parameterized action space. arXiv preprint arXiv:1511.04143.
[4] HESTER, T., AND STONE, P.2013.Texplore: real-time sampleefficient reinforcement learning for robots. Machine Learning 90,3,385-429.
[5] LEE, Y., KIM, S., AND LEE, J. 2010.Data-driven biped control.ACM Transctions on Graphics 29,4,Article 129.