任紅格+劉偉民+李福進
摘 要: 針對強化學習算法訓練網絡規模較大、運行時間較長、過度擬合等問題,提出一種記憶可修剪型強化學習仿生模型(H?RLM)作為兩輪機器人的學習機制。該算法將神經網絡輸出與期望輸出的最小均方差作為代價函數,采用Hessian矩陣和Markov相結合的決策進行尋優,選擇最大評價值對應的最優行為。這樣既可以保證初期網絡學習訓練內容的完整性,又降低了系統對初始條件的約束性,提高了控制算法的泛化能力。利用H?RLM和強化算法對兩輪機器人進行速度跟蹤實驗,結果表明,H?RLM算法能夠提高網絡學習效率、消除延遲影響、減小輸出誤差,獲得了良好的動態性能。
關鍵詞: 強化學習; 可修剪仿生模型; Hessian矩陣; 兩輪機器人
中圖分類號: TN911?34;TP391.4 文獻標識碼: A 文章編號: 1004?373X(2017)15?0141?05
Abstract: Since the reinforcement learning algorithm has the problems of large scale, long running time and over fitting for network training, a pruning reinforcement learning model (H?RLM) taken as the learning mechanism of the two?wheeled robot is proposed. The output of neural network and least mean square error of expected output are deem as the cost function of the algorithm. The Hessian matrix and Markov decision model are combined to select the optimal behavior corresponding to the maximum evaluation value, which can ensure the integrity of the training content of the network learning in initial period, and reduce the system contraints for initial conditions, and improve the generalization ability of the control algorithm. The speed tracking experiments were carried on by means of H?RLM algorithm and reinforcement learning algorithm. The experimental results show that the H?RLM algorithm can improve the network learning efficiency, eliminate the delay effect, reduce the output error, and obtain better dynamic performance.
Keywords: reinforcement learning; pruning bionic model; Hessian matrix; two?wheeled robot
0 引 言
仿生的思想就是使機器具有像人一樣的學習能力,在沒有人為參與的情況下,機器人能夠自主完成任務來適應未知環境,其自主學習能力的強弱是十分關鍵的。強化學習是一種基于“感知?行動”的學習過程,待訓練系統感知外界環境狀態,選取某一策略作用于環境,環境接受該動作后狀態發生變化,同時給出一個激勵信號(獎勵/懲罰)給強化學習系統,其系統根據強化信號和環境的當前狀態再選擇下一個動作,選擇的原則是使受到獎勵的概率增大[1?3]。強化學習其優秀的自適應調節性能在自動化技術、智能控制、分析預測等領域得到了廣泛的應用,但其網絡規模過大、網絡結構復雜和高度結構化造成的過擬合、泛化能力低等現象越來越引起研究人員的注意。
國內外研究人員希望在保持良好性能的同時使網絡的規模最小化,通過選擇有序的方式削弱或者消除某些突觸權值來修剪多層感知器,既可以提高系統的降噪能力,又減少網絡訓練時間,增強系統網絡的泛化能力[4?5]。修剪算法?最優腦外科過程算法(OBS)對神經元網絡連接權值進行修剪[6]。文獻[7]利用修剪技術與參數調整使動態模糊神經網絡具有強大的泛化能力,快速的學習速度,緊湊的系統結構。文獻[8]實現控制系統參數的自整定和消除控制系統的延遲,利用隨機產生數組的方法減少強化學習偏差的過渡時間和增強系統的尋優能力。文獻[9]將擴展信息濾波和“生長?修剪”訓練基函數神經網絡,獲得了緊湊的網絡拓撲結構,提高了在實際工程中復雜非線性問題的泛化能力,降低了預測誤差。文獻[10]將PWG技術(Pruning?While?Growing)應用到多輸入歐拉多項式神經網絡,使其選擇隱層和輸出層最佳的連接權重,并優化隱層神經元數目和層數,提高了系統的預測精度和實時性。
本文針對強化學習算法訓練神經網絡結構存在冗余、過擬合、泛化能力差等現象,提出一種記憶可修剪型強化學習仿生模型(H?RLM),作為兩輪機器人的學習機制。利用誤差曲面的二次導數信息得到網絡復雜度和訓練誤差性能之間的折中方案。H?RLM算法根據神經元輸出最小均方差對強化學習網絡結構進行修剪,仿真結果表明,該模型有效地提高了兩輪機器人的學習效率,修剪后的網絡處理信息能力強,獲得了較穩定的動態平衡過程。表明該認知模型的自學習動態變化特性,并生動地模擬了記憶遺忘的認知過程。
1 兩輪機器人系統結構及動力學模型
兩輪機器人是一類結構性能較為復雜的移動式機器人,以經典的移動倒立擺模型為基礎進行設計,其構造有兩個輪子,每個輪子由直流電機直接驅動,并以電機軸心線為中心前后運動。其結構如圖1所示。
本文采用與文獻[11]相同的動力學模型,模型建立及推導過程參見文獻[11]。采用Lagrange方法對兩輪自平衡機器人進行系統動力學建模,其數學表達式為:
式中:系統的3個廣義坐標為左輪角速度右輪角速度擺桿角度廣義坐標下的系統廣義力為左輪轉矩、右輪轉矩,車體作用在軸的轉矩。
根據以上動力學方程可以得到MIMO非線性動力學模型。在條件下,,動力學方程選擇狀態變量控制量分別代表左右兩輪的角速度,機器人擺桿速度和角度。得到系統的狀態方程:
2 記憶可修剪型神經網絡模型設計
神經網絡規模過大造成其存儲量和計算量也會加大,通過改變Hessian矩陣,Hessian矩陣的逆矩陣為從一個多層感知器中修剪(即刪除)不重要的突觸權值提供基礎,得到簡潔有效的網絡結構,修剪后的網絡處理信息能力強,初始條件的要求低,學習效率也很高。在線調整網絡權值,提高了網絡的最終性能,有效地解決了過擬合和泛化能力差的問題。
2.1 Hessian矩陣的神經網絡修剪
記憶可修剪型優化算法主要利用誤差曲面的二次導數信息得到網絡復雜度和訓練誤差性能之間的折中方案。利用Hessian矩陣有利于構造誤差曲面的一個局部模型,并且能夠解析預測突觸權值的擾動造成的影響。構造這樣一個模型結構的出發點是在運行點附近使用泰勒級數給出能量函數的局部逼近,描述如下:
為了尋找權值最優值并且使多層感知器代價函數的值增長最小,其局部最小和全局最小周圍的誤差曲線是近似二次的,分別利用極值逼近和二次逼近方法,梯度向量可以置為零,忽略式(1)右側的項,代價函數簡單近似為:
式中:是Hessian矩陣的逆,是第個元素;稱為連接權值的綜合性。在上述權值修剪過程中,刪除最小特征值所對應的權值,其他特征值的權值通過式(10)修正。如果第個突觸權值被去除,對進行優化得到的Lagrange算子,稱為的顯著性。如果顯著性遠小于均方差,神經網絡自動剔除該神經元感知器。當神經網絡誤差均差值沒有太大的變化時停止修剪作用。
2.2 記憶可修剪型仿生控制器決策過程
強化學習是一種試探學習方式,是人類開放式認知發育至關重要的機制,沒有外界明顯的教師信號給予引導指令,只能通過與周圍環境的交互得到獎勵或懲罰信號來學習和執行之后的動作,能通過自身神經網絡的在線學習有效地實現對具有離散時間和連續空間任務的控制,既可以增強網絡處理動態信息的能力,又能自適應地修剪網絡訓練權值,使其更適合復雜系統的穩定控制。基于以上優點,設計了一種記憶可修剪型仿生模型(H?RLM),如圖2所示。把仿生學習系統的性能指標用評價指標來表示。通過對獎勵懲罰信號的學習,使控制器的取向函數值最大,從而獲得系統的最優控制動作。
H?RLM仿生模型訓練網絡由評價神經網絡(CNN)和動作神經網絡(ANN)兩部分組成。CNN利用時間差分(TD)方法對評價函數進行近似,將狀態映射為期望的價值,直接從外界環境中獲取評價性反饋信號,同時用ANN的取向函數來評價當前動作的好壞。ANN利用評價函數來實現行為決策的優化,使其得到“獎勵”的發生概率增大,并且將狀態映射到動作行為上,構成仿生伺服機構。
利用Markov決策模型模擬機器人和外界環境的相互作用,考慮一個有限的隨機過程,環境狀態環境狀態由轉移到的轉移概率可以表示為:
3 仿真實驗設計及結果分析
以兩輪自平衡機器人在未知環境中通過自主學習達到運動平衡作為控制目標,采用基于“CNN/ANN”架構結構的H?RLM強化學習方式,CNN和ANN采用BP遞歸神經網絡分別實現系統狀態量映射實際動作、系統狀態及控制量評價機器人的運行狀態,利用Hessian和Markov相結合的決策策略評價訓練效果,產生“獎勵/懲罰”信號來校正反饋當前狀態。CNN采用網絡結構,以自平衡機器人的4個狀態和ANN的電壓輸出作為輸入,輸出則是評價函數,ANN采用網絡結構,同樣以自平衡機器人的4個狀態作為網絡的輸入,輸出則是左右車輪電機的控制量。設定評價信號“獎勵/懲罰”信號0代表“獎勵”信號,-1代表“懲罰”信號:
本文算法流程如下:
Step1:初始化CNN和ANN網絡的權值,設定其權值的絕對值小于1之間的隨機數,并設定次數為0;
Step2:初始化自平衡兩輪機器人的狀態變量,設定其為有效范圍的隨機數,并設定運行步數為0;
Step3:根據輸入狀態量判斷速度補償,經過ANN訓練學習計算新的控制量;
Step4:對更新的狀態變量和控制量通過CNN訓練學習,計算出更新的評價函數;
Step5:修正CNN和ANN的連接權值,計算多層感知器的最小均方誤差,利用遞歸條件計算Hessian矩陣的逆尋找相應的最小顯著性的,判斷顯著性如果遠小于均方差,神經網絡將自動剔除該神經元,并執行Step7,否則執行Step6;
Step6:利用式(9)調整訓練神經網絡權值,執行Step3;
Step7:判斷訓練網絡權值均方誤差沒有太大的增加時停止網絡權值修剪,利用BP神經網絡訓練調整權值;
Step8:判斷是否滿足設定條件,結束CNN和ANN循環學習。
為了驗證H?RLM仿生模型訓練網絡學習機制的有效性,對自平衡兩輪機器人進行仿真分析,設定網絡訓練折扣因子采樣時間為0.01 s。仿真實驗中,神經網絡分別控制兩輪機器人的擺桿角速度、自身傾角、左右輪速度。將控制量作為狀態變量輸入到神經網絡的輸入層,通過隱含層神經元綜合性分析,對神經元進行記憶修剪。首先,利用強化學習算法對機器人在沒有干擾的未知環境下進行仿真實驗。由圖3的仿真結果可以看出,系統經過不斷的學習,平均需要經歷50次失敗試探后就可以自主控制其運動平衡了,而向平衡過渡的過程大致經歷了400步,即4 s的過渡時間,穩態過度時間較短,充分地表現出強化學習的自主學習能力。
圖4利用本文提出的H?RLM模型作為兩輪機器人的學習機制,分析圖4可得平均需要經歷30次失敗試探后,機器人就達到動態平衡狀態,平衡過渡的過程大致經歷了200步,即2 s的過渡時間,穩態過度時間比強化學習縮短了一倍,充分體現了H?RLM模型的有效性和實用性。
圖5表示兩輪機器人學習系統的評價函數值和訓練過程中相鄰評價函數值的誤差變化,評價函數值表示ANN所選擇的行為使兩輪機器人獲得的速度補償達到最大值,且其值接近于零。誤差變化曲線表示CNN近似逼近評價函數,時間差分變化最小,且其值接近于零。由以上仿真實驗得出:基于H?RLM仿生模型,在系統學習過程中保留了強化學習自主學習能力和系統的魯棒性,又有效地修剪了神經網絡權值,提高了系統學習效率和系統的泛化能力。
4 結 論
根據最優腦外科(OBS)理論,訓練網絡權值向量增長變化較小且接近零時,可以將該突觸權值置為零,對系統網絡訓練學習不僅不會造成明顯影響,而且有效地使網絡規模最小化,降低了學習訓練數據摻雜的噪音,提高了系統數據的泛化能力。本文將網絡修剪和強化學習有效的結合在一起,提出將一種記憶可修剪型強化學習仿生模型(H?RLM)作為兩輪機器人的學習機制。通過神經網絡權值的記憶和調整,使機器人在未知外界環境中能夠快速的自主學習,逐漸發育形成完善的動態平衡機制,并且有效地解決網絡結構龐大,泛化能力差,自適應能力差的問題,達到了預期控制目標,實現了兩輪機器人的運動平衡控制和速度跟蹤,具有較強的自主學習能力和魯棒性能,有較高的理論研究和工程應用價值。
參考文獻
[1] WIERING M, OTTERLO M V. Reinforcement learning state of the art [M]. Berlin: Springer?Verlag, 2012: 325?331.
[2] KOHL N, MIIKKULAINEN R. An integrated neuroevolutionary approach to reactive control and high level strategy [J]. IEEE transactions on evolutionary computation, 2012, 16(4): 472?488.
[3] VIEN N A, ERTEL W, CHUNG T C. Learning via human feedback in continuous state and action spaces [J]. Applied intelligence, 2013, 39(2): 267?278.
[4] HSU C F. Adaptive growing?and?pruning neural network control for a linear piezoelectric ceramic motor [J]. Engineering applications of artificial intelligence, 2008, 21(8): 1153?1163.
[5] AHMED S U, AHJAHAN M, RASE K. A Lempel?Ziv complexity?based neural network pruning algorithm [J]. International journal of neural systems, 2011, 21(5): 427?441.
[6] ERDOGMUS D, PRINCIPE J C. An error?entropy minimization algorithm for supervised training of nonlinear adaptive systems [J]. IEEE transactions on signal processing, 2002, 50(7): 1780?1786.
[7] 馬莉,樊友平,鐘勇,等.修剪技術與參數調整的動態模糊神經網絡設計[J].系統仿真學報,2010,22(7):1646?1650.
[8] 高瑞娟,吳梅.基于改進強化學習的PID參數整定原理及應用[J].現代電子技術,2014,37(4):1?4.
[9] THOMAS P, SUHNER M C. A new multilayer perceptron pru?ning algorithm for classification and regression applications [J]. Neural processing letters, 2015, 42(2): 437?458.
[10] ZHANG Y N, WANG Y, LI W B. WASD algorithm with pruning?while?growing and twice?pruning techniques for multi?input Euler polynomial neural network [J]. International journal of artificial intelligence, 2016, 25(2): 46?78.
[11] 任紅格,霍美杰,李福進,等.兩輪自平衡機器人速度跟蹤研究[J].計算機仿真,2015,32(4):325?329.