基于強化學習的軟體機構抓捕策略研究

2019-10-26 01:33:20張文奇谷程鵬

上海航天 2019年5期

關鍵詞：動作

張文奇，陳萌，谷程鵬

(上海宇航系統工程研究所，上海 201109)

0 引言

隨著人類太空活動的不斷增多，在軌服務技術受到越來越多的重視，已經成為空間技術發展的一個新熱點。在軌服務主要包括在軌維修、在軌加注、在軌試驗、輔助空間站組裝、軌道垃圾清理等方面[1]。傳統在軌服務中，宇航員是完成相關復雜任務的主要執行者，太空中極度惡劣的環境會對宇航員的生命安全造成了嚴重威脅。在輔助變軌、軌道垃圾清理、失控衛星救助等方面，空間機器人擁有獨特優勢，因此成為幫助或取代宇航員的最佳選擇，各航天大國相繼開展空間機器人的研究[2]。無人空間機器人是解決這些問題的關鍵技術之一[3]。由于故障航天器一般不具備專門的合作機構,往往處于自旋或翻滾狀態,針對此類非合作目標的交會對接/捕獲技術是未來自主在軌服務發展的重要方向[4]。

機器學習就是研究如何使機器通過識別和利用現有知識來獲取新知識和新技能。目前,機器學習算法可以分成三類:監督學習、非監督學習和強化學習[5]。強化學習方法更注重機器人對環境和行為的適應性,而不依賴于完善的先驗知識環境。將機器人置于完全未知環境中,機器人會自動通過自身的傳感器來獲取外部環境狀態,最后通過試錯的方式積累與外界環境的交互經驗,不斷完善學習過程,最終完成改善自身的行為能力和對環境的適應能力。

1 國內外發展現狀

1991年,MAHADEVAN和CONNELL將強化學習算法的應用領域拓寬,采用強化學習算法使“OBELIX”機器人學習推箱子的行為[6]。在此基礎上,為了減少傳感器信息的不確定性,HOAR等重新設計了強化算法中的函數變量,同時將學習應用到指定行為學習中[7],并得到了很好的學習效果。

1992年 TAKEDA等提出另一種重要的強化學習算法(Q-Learning算法),對一定條件下Q-Learnin算法的收斂性進行了驗證[8]。它的提出成為強化學習的里程碑。

NIV等人研究了多種強化學習算法,討論了幾種基于模型的強化學習算法。根據不同的模型結構,將智能機器人需要完成的任務化分成兩個子任務,然后通過強化學習方法分別設計每個子任務的控制器,通過不同的控制器得到機器人完成任務的行動軌跡[9]。

隨著智能理論和算法的日漸成熟，Q-Learning模型被應用到人工智能機器學習和自動控制等多種領域，成為設計智能的核心技術[10-11]。Q-Learning模型來源于生物研究，近年來也逐漸應用于生物研究。2008年MA等將Q-Learning模型引入強化學習模型中[12]，2014年LABER等將Q-Learning模型引入抑郁癥的最佳治療方案制定中[13]。

目前，強化學習算法尚未應用于基于多指柔性機構的抓捕領域，并且針對功能復合材料為基底的柔性機構的抓捕特征，強化學習模型尚缺乏理論分析，因此如何選擇合適的強化學習算法，是利用強化學習算法確定物體抓捕過程本質特征的關鍵。

2 針對IPMC的強化學習建模

2.1 強化學習算法結構圖

強化學習算法是智能系統通過感知外界環境狀態信息,利用獲取的信息來學習動態系統的最優策略,它是機器人領域的一種重要的學習方法[14]。強化學習是一種實時的、在線的學習方法,它通過反復試錯的學習方法來實現學習的整個過程;強化學習在訓練過程中不斷地獲得先驗知識,通過這些知識來改變行動策略，實現到達目標的目的。強化學習狀態一動作的映射過程如圖1所示,Agent通過傳感器感知到當前環境狀態T(環境狀態)下的狀態，并得到了一個相應的回報值r,然后Agent通過分析當前狀態下的回報做出行為動作A,在到達下一位置時系統又將得到一個狀態信息,它將繼續通過強化學習實現整個學習過程，如圖2所示。

圖1 強化學習算法結構圖Fig.1 Structure diagram of reinforcement learning algorithm

在研究基于多模態信息的跨模態融合學習算法時，由于IPMC材料存在時間較長會發生性能衰退的特性，因此通過試驗所測得的數據量有限，無法進行大樣本數據庫的建立，因此綜合各方面因素，采用強化學習的方法，從而達到降低樣本數量的要求，同時也滿足材料不易多次進行反復試驗的特點。本文將Q-Learning算法結合IPMC采集得到的數據進行結合，通過對Q-Learning的獎懲函數進行多次學習迭代，從而得到最終的獎勵函數矩陣。利用該矩陣進行最終的學習選擇，從而使得基于IPMC人工肌肉的軟體抓捕機構達到柔性抓捕的智能化水平。

2.2 試驗模型

在進行強化學習算法之前，需要對一定訓練樣本進行初步學習，從而得到針對不同種類物體實施抓取的最優動作，然后對不同物體的抓取結果進行獎勵值的設定，具體流程如圖3所示。

圖2 學習過程結構圖Fig.2 Structure diagram of reinforcement learning process

圖3 獎懲矩陣建立過程Fig.3 Reward and punishment matrix establishment process

1)樣本設計

首先，制作8個不同形狀的樣本(被測對象)，測試IPMC在不同爪數和電壓條件下對樣本的抓取情況。樣本如圖4所示。

2)抓取模型設計

抓取模型如圖5所示，左圖中的兩個紅色虛線圓圈區域表示相對應的兩指，而三個藍色虛線圓圈區域代表了相應的三指，正如右圖中紅色線對應的是兩指結構，白色線對應的是三指結構。整個抓取機構由機械臂、IPMC抓取結構、計算機(控制部分)組成。

通過試驗調研，不同的電壓信號以及不同的手指指數對試驗的結果有較大影響。通過對IPMC人工肌肉的軟體抓捕機構(IPMC搭載在機械臂上面)進行抓捕試驗，同時對試驗現象進行總結并整理得到如表1、表2的數據。表中，√ 表示成功抓取樣本，× 表示未能抓取樣本。

圖4 抓取樣本Fig.4 Grip samples

圖5 抓取器模型Fig.5 Gripper model

表1 4種電壓信號下的抓取結果

表2 不同電壓下的抓取結果

圖6 抓取器抓取物體時的電流變化Fig.6 The change in current as the crawler grips the object

低電壓(2.5 V)時IPMC的輸出力相對較小，發生彎曲(達到彎曲峰值)所需的時間較長。通過樣本試驗總結，得到如表1的結果。隨著工作時間的延長IPMC的工作電流逐漸減小，如圖6所示。本文所測的電流是剛好抓起物體時的電流。

3 Q-Learning算法訓練

3.1 試驗驗證

抓取失敗樣例：試驗抓取塑料杯。當試驗所給電壓為2.0 V，指數為兩指時，試驗現象如圖7所示。

圖7 塑料杯抓取試驗Fig.7 Grip experiment for plastic cup

從試驗過程可以明顯看到，在該條件下并不能成功抓取塑料杯，塑料杯并未有明顯豎直方向上的位移。

抓取成功試驗樣例：試驗抓取乒乓球。在3.0 V電壓、兩指的條件下，試驗現象如圖8所示。

圖8 乒乓球抓取試驗Fig.8 Grip experiment for table tennis

通過試驗現象可以看出，乒乓球在該條件下被成功抓取，乒乓球在抓取過程中在豎直方向上有明顯的位移。因此在樣本有限的前提下，可以借助強化學習的算法進行IPMC手指的訓練及學習。

3.2 Q-Learning算法及其訓練

Q-Learning學習中的術語包括狀態(state)和動作(action)。在整個試驗過程中，可以將兩指、三指和四種電壓信號2.0 V、2.5 V、3.0 V、3.5 V進行排列組合，從而得到八種組合，這八種組合對應八種不同的動作，不同動作會得到不同的結果。通過前期的試驗總結將最終結果分為四種狀態，分別為抓取成功同時消耗的功率最少、抓取成功同時消耗功率中等、抓取成功同時消耗功率最大以及抓取失敗。為方便描述，在后續的試驗結果中分別記為抓取成功1、抓取成功2、抓取成功3及抓取失敗。

試驗針對小樣本訓練時，選擇樣本為n=8、動作m=8，進行電壓、電流數據采集，見表2。對于不同的物體，在抓取過程中獲得的電壓電流值也是不同的，因此，對于小樣本物體進行抓取時，可以通過所對應的電壓電流數值來進行匹配；對于試驗過程中的獎懲值賦值，可以根據P=UI來進行賦值。在試驗過程中電流會有一定的波動，選擇以電流值的±10%為準，一旦所抓取的陌生物體的功率值在這個區間內時，就可以執行該動作進行抓?。贿M行大樣本測試時，不論是抽取取樣測試，還是針對未知物體進行取樣測試，同時電壓以及電流值會有多個，從而產生多個動作值，因此假設：1)N個樣本(N≥1 000，10 000，…);2)M個動作(M≥100，1 000，…)。

此時，采用小樣本強化學習的結論來對大樣本來進行訓練研究。首先隨機選擇動作來執行，針對執行動作獲得的功率結果，依據小樣本初始矩陣進行重新獎懲值賦值，然后在反復迭代的同時，在訓練過程中改變訓練次數(10，20，30)，直至收斂，得到新的獎懲矩陣，依據訓練得到的最終獎懲矩陣，找出最優的抓取動作，如圖9所示。針對陌生物體進行抓取學習如圖10所示。

圖9 不同功率對應的獎懲值Fig.9 Rewards and punishments corresponding to different powers

圖10 針對陌生物體進行抓取學習Fig.10 Grip learning for unfamiliar objects

在這個試驗中，無論從哪個動作開始，以IPMC能夠快速準確地抓取樣本作為目標的最終結束，將每個動作設為一個節點，同時對于每個節點進行獎懲值的賦值，對于不同的狀態賦予不同的獎懲值，對于抓取成功3狀態將獎勵值賦值為0，抓取成功2獎勵值賦值為5,當節點能夠快速且準確抓取樣本的時候(抓取成功1)，將獎勵值賦值為100，將抓取失敗獎勵值賦值為-1，這樣可以加快學習的效率。

Q-Learning算法流程如下：

步驟1：初始化Q值。構造了一個4列(狀態數)、8行(動作數)的Q-table，并將其中的值初始化為0。

步驟2：在整個訓練周期中(或者直到訓練被中止前)，步驟3到步驟5會一直被重復，直到達到了最大的訓練次數(由用戶指定)或者手動中止訓練。

步驟3：選取一個動作。在基于當前的Q值估計得出的狀態s下選擇一個動作a。在一開始，使用epsilon貪婪來進行動作的選擇，指定一個探索速率epsilon，設定初始值為1，即為隨機采用的步長。在一開始，這個速率應該處于最大值，因為不知道Q-table中任何的值。這意味著，需要通過隨機選擇動作進行大量的探索，生成一個隨機數。如果這個數大于epsilon，將會進行獎懲值的對應選擇賦值。否則，將繼續進行探索。

步驟4-5：評價采用動作a，并且觀察輸出的狀態s′和獎勵r，然后更新函數Q(s，a)。采用在步驟3中選擇的動作a，執行這個動作會返回一個新的狀態s′和獎勵r，接著使用Bellman方程去更新Q(s，a)，有

NewQ(s,a)=Q(s,a)+α[R(s,a)+

γmaxQ′(s′,a′)-Q(s,a)]

(1)

智能體利用上述的算法從經驗中學習，每一次經歷等價于一次訓練。在每一次訓練中，智能體對環境進行探索(用獎懲矩陣R表示)，并且其一旦到達抓取狀態，就得到獎勵值。訓練的目的是增強智能體的大腦，用矩陣Q表示。越多的訓練結果將得到更優的矩陣Q。在這種情況下，如果矩陣Q就被增強，那么智能體就不會四處盲目地探索，而是會找到最快的路線到達目標狀態。

如果智能體通過多次的經歷學到了更多的知識，Q矩陣中的值會達到收斂狀態。一旦矩陣Q接近于收斂狀態，就知道智能體已經學習到了到達目標狀態，最終會形成一個新的獎懲矩陣。為了更加形象地描述該抓取動作是在逐漸收斂的狀態，分別取訓練20次、30次、40次、50次時的獎懲矩陣，如圖11所示(0-7對應八種不同動作，a、b、c、d依次對應抓取失敗、抓取成功1、抓取成功2、抓取成功3)，訓練收斂以及準確率如圖12所示。

圖11 最終Q獎懲矩陣Fig.11 Q reward and punishment matrix

圖12 強化學習訓練收斂以及準確率Fig.12 Reinforcement learning and training convergence and accuracy

4 試驗結果與分析

通過Q獎懲矩陣我們可以得出，當IPMC面對不同樣本時，可以選擇最優的動作進行執行，從而完成一系列的學習過程。結合圖9的功率值來進行獎懲值的賦值迭代，借助最終Q獎懲矩陣，可以選擇相對動作的最優解。當環境改變時也可以借助該算法進行學習，從而獲得最優解。雖然環境改變了，但學習的方法是不變的，同樣可以利用該訓練迭代方式進行得到最終的Q獎懲矩陣，不同的環境所對應的最終Q獎懲矩陣是不同的，從而進行相應的最優解的選擇，可進行以下試驗進行試驗驗證。

當隨機選擇抓取對象為塑料杯時，根據最終Q獎懲矩陣，應當選取電流為3.0 V、指數為三指的動作執行，試驗效果如圖13所示。

圖13 抓取塑料杯試驗成功Fig.13 Successful grip of the plastic cup

當抓取對象為陌生物體時，需要進行數據采集，根據已有的數據進行訓練。當抓取對象為不規則陌生物體時，通過不斷地嘗試試驗以及強化學習算法的迭代計算，借助最終Q矩陣可以得出，應當選取電流為3.5 V、指數為三指的動作執行，試驗效果如圖14所示。

圖14 抓取不規則體試驗成功Fig.14 Successful grip of the irregular body

在上述試驗及算法驗證過程中，發現通過強化學習算法迭代出來的結果，有時并不是試驗得到的最優解，但是可以看到，在動作2以及動作6所對應的狀態是相似的，結果都是可以抓取的，同時在最終的Q獎懲矩陣中，每個動作對應的獎勵值范圍沒有發生錯誤，因此在環境局限因素的影響下，該結果依然在誤差允許的范圍內。

綜上，建立基于IPMC功能材料的多自由度軟體機構，解決制約在軌抓捕技術發展的難題，實現空間抓捕過程的智能化，推動空間抓捕技術的跨越式發展。通過試驗證明，最終學習結果是成功且有效的。當面對抓取物體為已有訓練樣本中的物體時，可以結合表1來進行動作選擇；當面對陌生樣本物體時，借鑒已有的小樣本訓練結果，再結合表2以及圖9進行綜合選擇和獎懲值賦值，采用小樣本強化學習的結論對大樣本來進行訓練研究，首先隨機選擇動作來執行，針對執行動作獲得的功率結果，將該結果依據小樣本初始矩陣進行重新獎懲值賦值，然后在反復迭代的同時，在訓練過程中改變訓練次數(10，20，30)，直至收斂，得到新的獎懲矩陣，依據訓練得到的最終Q獎懲矩陣，找出最優的抓取動作。通過初步嘗試，可以高效實現對有限樣本數據的訓練以及學習。當以后面對大量樣本學習的時候可以進行下一步的改進，結合卷積神經網絡實現對數據樣本的處理與分析，可彌補Q-Learning本身存在的數據存儲量少、空間不足的特點，同時也可將reward值以及action進行細分，從而使得結果更加精確且有效，同時，當機構變化參數更多的時候更加適合該強化學習模型，可變參數越多也意味著得到的結果更加復雜以及精確度會更高。卷積神經網絡本身的優勢就是可以對大量高維樣本進行訓練，從而起到節省空間的作用，與強化學習的結合，可實現對更加復雜環境以及大量樣本數據的訓練以及學習。