深度強化學習在Atari視頻游戲上的應用

2017-09-03 10:57:36沈陽理工大學自動化與電氣工程學院石征錦

電子世界 2017年16期

沈陽理工大學自動化與電氣工程學院石征錦王康

沈陽理工大學自動化與電氣工程學院石征錦王康

考慮到深度學習在圖像特征提取上的優勢，為了提高深度學習在Atari游戲上的穩定性，在卷積神經網絡和強化學習改進的Q-learning算法相結合的基礎上，提出了一種基于模型融合的深度神經網絡結構。實驗表明，新的模型能夠充分學習到控制策略，并且在Atari游戲上達到或者超出普通深度強化學習模型的得分，驗證了模型融合的深度強化學習在視頻游戲上的穩定性和優越性。

強化學習；深度學習；神經網絡；視頻游戲

0 引言

2016年年初備受矚目的圍棋“人機大戰”對局中，最終以人類圍棋冠軍被擊敗落下帷幕。深智(DeepMind)團隊開發的圍棋機器人AlphaGo引起一波關于人工智能的熱議。這兩年谷歌公司的人工智能研究團隊DeepMind取得了兩項意義非凡的研究成果：基于Atari視頻游戲的深度強化學習算法[1]和計算機圍棋初弈號[2]。這些取得的研究成果開啟了人工智能學習算法的革命，作為人工智能重要一部分的深度學習和強化學習也成為廣大群眾討論的熱點話題。

從2010年開始，隨著計算機計算能力的提高，和預訓練技術的改進，深度學習在包括語音識別、視覺對象識別及檢測等人工智能領域取得了比傳統方式更大的優勢。深度學習的發展和進步把從原始的數據中提取高水平特征變成現實。深度學習在感知能力表現強勢，但是在決缺策能力上不盡人意；與此相反，強化學習在決策能力上表現上佳，但是對感知問題無特別優勢。因此，將兩者結合起來優勢互補，為解決復雜系統的感知決策問題提供了方法[3]。將具有感知能力的深度學習(deeplearning，DL)和具有決策能力的強化學習(reinforcement learning，RL)優勢互補的結合在一起，構成深度強化學習(deep reinforcement learning，DRL)算法。這些算法表現出來的性能超出人們的想象，對促進人工智能領域的發展具有極大的意義。

本文對深度神經網絡訓練模型進行了改進，充分利用深度強化學習網絡結構中儲存的經驗回放機制中的數據對整個神經網絡參數進行精調。采用不同模型中的經驗回放的數據更能提高神經網絡的訓練水平，該方法為深度神經網絡提供了較好的訓練效果，降低了深度神經網絡的優化難度。改進后的模型在神經網絡權值更新上效果更好，實驗驗證在Atari視頻游戲的得分達到了預期效果。

1 背景

深度學習起源于人工神經網絡，目前典型的深度學習模型包括：卷積神經網絡、深度置信網絡、堆棧自編碼網絡和遞歸神經網絡等。本文應用了卷積神經網絡。文獻[4]中提出的深度Q網絡(deep Q network，DQN)，是將卷積神經網絡和Q學習結合，并集成經驗回放技術實現的。經驗回放通過重復采樣歷史數據增加了數據的使用效率，同時減少了數據之間的相關性[5]。深度Q網絡是深度強化學習算法上的重要創新，它采用游戲畫面作為原始圖像輸入，經過卷積層，抽樣層神經網絡和全連接層神經網絡，輸出狀態動作Q函數，然后選擇最好的動作實現學習控制的目標。深度Q網絡使用帶有參數θ的Q函數Q(s，a;θ)去逼近值函數。迭代次數為i時，損失函數函數為[5]：

其中：

該工作對深度強化學習很大的意義。

2 加入經驗回放機制的Q-learning

算法流程如下：

由于Atari采集的是時間比較接近的樣本，不可避免的是它們具有連續性，受樣本分布得影響，這樣更新的Q值效果不理想。因此，把樣本先存起來，然后隨機采樣就是一個比較實用可行的想法。這就是經驗回放的意思。算法要求就是反復試驗，將數據儲存起來，數據達到一定數量就每次隨機采樣數據進行梯度下降。在DQN中強化學習Q-Learning算法和深度學習的隨機梯度下降訓練是同步進行的，通過Q-Learning獲取無限量的訓練樣本，然后對神經網絡進行訓練。

3 基于模型融合的深度強化學習

3.1 模型融合的DRL網絡結構

將兩個不同結構的卷積神經網絡經過經驗回放機制儲存的歷史經驗數據互相使用來更新網絡的權值，我們稱之為模型融合的神經網絡。該方法的提出目的是提高訓練過程的穩定性，加速收斂速度。并且agent在測試集上仍然采用ε-greedy策略進行游戲，agent的采用這種隨機策略有可能導致這種不確定性。權重的細小的變化就有可能造成結果大不相同，狀態是游戲畫面，選擇不同的行為動作就會造成不同的畫面變化，這種細小的變化的累積影響實際是巨大的。神經網絡權重的微小變化可能造成策略掃過的狀態大不相同，而我們希望agent盡可能多的收集訓練數據用于訓練，所以通過從大量的歷史樣本中采樣并使用融合多個不同DNN架構的經驗回放中的數據，采樣經驗回放中的數據時，使用不同的采樣方法并且盡量采樣相關性比較小的樣本，比如兩個樣本之間相隔4幀以上，不采樣處于終結狀態的幀，處于終結狀態的幀不存在后續幀。不同的網絡結構也是間接地將歷史樣本增加了。DRL1使用和圖2不同的卷積神經網絡的架構：

(1)卷積步長不同，有(4，2)改為(2，2)。

(2)將mini-batch的采樣大小48改為16。

(3)改變輸入圖像的預處理方法。

(4)全連接層的層數或者節點數量不同，將全連接層節點由512改為256。

模型融合DRL流程圖見圖1。

圖1 模型融合DRL流程圖

3.2 網絡結構設計

為了減少計算對原始的游戲幀(210*160像素128)色處理，首先把圖像RGB三色圖像轉換為灰度圖并降采樣，其次將輸入圖像截斷成84*84像素大小，圖像區域大致覆蓋游戲區域。截取成84*84像素是因為我們使用的GPU實現2D卷積需要方形輸入。在后續的實驗中，函數負責將歷史幀中最近的4幀圖像進行預處理并作為網絡的輸入。卷積神經網絡如圖2所示。

圖2 卷積神經網絡結構

從序列中取的連續幀越多，那么網絡能觀察的全局信息就越多，對局勢的判斷也會越準確，但是網絡規模會成倍增長，所以需要權衡網絡規模和算法性能。使用連續4幀作為網絡的輸入，這里選用ReLU (Rectif i ed Linear Units)作為網絡的激活函數，ReLU具有計算速度快，準確率高等優點，函數形式f(x)=max(0,x)[6]。網絡的輸入是經過預處理生成的84*84*4的圖像；第一個隱藏層由32個8*8的卷積核組成，步長為4，并使用ReLu做非線性變換，經過卷積核的變換后該層有20*20*32個節點第二個隱藏層包含48個4*4的卷積核，步長為2，同樣使用ReLu做非線性變換，經過卷積核的變換后該層有9*9*48個節點。最后一個隱藏層包含512個與上一層進行全連接ReLU單元。輸出層單元是與上一層的全連接的線性函數，每一個輸出對應一個可能的動作。

4 實驗結果

openai中的Atari 2600模擬器運行狀態每秒生成60幀，我們設定每4幀發送1幀，由于神經網絡處理數據速度沒那么快，為避免造成卡頓。每個Atari的游戲得分評價標準不同，為了讓不同的游戲融合在一個框架下，這里將它劃為統一標準，即agent每次做出有利的動作得分+1，做出不利的動作-1，沒改變的是0[7]。算法在游戲中的評價方法如下：游戲被天然的分割為多個episode過程，每個episode開始于重置命令后的那一幀，結束于檢測到游戲結束條件，或者超過5分鐘的實際游戲時間，一個強化學習算法從1000個訓練episode中學習，接下來在200個非學習階段的episode中進行評價，agent的表現用評價階段的episode的均值分數來測量。

表1 3種模式下的游戲得分

表1記錄了Human，DRL和模型融合的DRL在4種不同的游戲中的得分表現。在多個不同游戲中的表現證明了深度強化學習的泛化性能優異。對比發現，DRL在打磚塊和乒乓球上比人類玩家更加出色，基于模型融合的DRL在打磚塊，太空侵略者和乒乓上比人類優異，且在4種游戲中都比DRL表現好。這也證明了該模型在玩游戲中效果更好。

5 結論

本文介紹了基于經驗回放的而改進的模型融合的深度強化學習模型。實驗證明了該網絡結構DRL在Atari 2600游戲中成功的學習到控制策略，并且在穩定性和學習效果上比較優異。通過分析不同游戲的特征發現，模型融合的DRL在靈敏度比較高的游戲中比較取得好的成績(如打磚塊，乒乓等)。但是在環境復雜需要全局考量的策略類游戲中的(如深海游弋，太空侵略者等)得分相對低一些，這個是需要繼續研究和改進的地方。

[1]MNIHV,KAVUKCUOGLUK,SILVERD,etal..Human-levelcontrol through deep reinforc ement learning[J].Nature,2015,518(7540):529-533.

[2]SILVER D,HUANG A,MADDISON C,et al.Mastering the game of Go with deep neural,networks and tree search[J].Nature,2016,529(7587): 484-489.

[3]趙冬斌,邵坤,朱圓恒,李棟,陳亞冉等.深度強化學習綜述:兼論計算機圍棋的發展[J].控制理論與應用,DOI:10.7641/CTA.2016.60173.

[4]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Playing atari with deep reinforcement learning[C]//Proceedings of the NIPS Workshop on Deep Learning.Lake Tahoe:MIT Press,2013.

[5]WATKINS C J C H.Learning from delayed rewards[D].Cambridge:University of Cambridge,1989.

[6]Riedmiller M.Neural fitted Q iteration-first experiences with a data ecient neural reinforcement learning method[J].In:Proceedings of the 16th European Conference on Machine Learning.Porto,Portugal:Springer,2005.

[7]Marc G Bellemare,Yavar Naddaf,Joel Veness,and Michael Bowling. The arcade learning environment:An evaluation platform for general agents[J].Journal of Artificial Intelligence Research,47:253-279,2013.

The Application of Depth of reinforcement Learning in the Vedio Game

Shi Zhengjin Wang Kang
（School Of Automation And Electrical Engineering，Shenyang Ligong University Shenyang 110168，China）

Considering the advantage of depth learning in image feature extraction，In order to improve the depth study on the Atari game performance this paper proposes a depth neural network structure based on model fusion，convolution neural network and modif i ed Q-learning algorithm.Experiments show that the new model can fully study the control strategy，and it achieve or exceed the scores of the general learning model in the Atari game.Proving the deep reinforcement learning based on model fusion have the stability and superiority in the video game.

reinforcement learning；deep learning；neural network；vedio game

石征錦（1963—），男，遼寧沈陽人，碩士，教授，研究領域：人工智能，檢測技術與自動化裝置，先進控制理論及應用。

王康【通訊作者】（1992—），男，山東棗莊人，碩士，研究領域：人工智能，深度學習，先進控制理論與應用。