基于漸進式神經網絡的多任務強化學習算法*

2022-12-28 05:53:46蘇萌韜

機電工程技術 2022年11期

蘇萌韜，曾碧

（廣東工業大學計算機學院，廣州 510006）

0 引言

隨著人工智能的發展，目前的國內外學者對智能機器人自主決策和多任務學習開展了廣泛的研究。由于深度學習極強的特征學習能力，是實現機器學習的重要算法，文獻[1-2]利用了深度學習的方法，設計了一個機器人的端到端控制模型。這類算法的代表是指導策略搜索算法[3]，這種算法由控制器和監督器組成，通過兩個模塊的協調控制機器人進行任務策略搜索[4]，但是這類算法的缺點是過于依賴傳統控制算法。

文獻[5-7]采用了強化學習，通過與環境的交互使機器人在“試錯”中學習。但是強化學習的采樣效率太低，訓練周期太長。所以后來的研究集中于研究使用模擬環境仿真訓練強化學習模型[8]，然后通過策略遷移將模型適用于現實環境中。這個研究領域屬于仿真訓練到現實演繹（Simulation toreality，STR）[9]。

在STR 研究領域中，有比較典型的策略遷移方法，如文獻[10-12]通過遷移學習的領域自適應（Domain Adaption，DA）方法，將模擬環境和現實環境的特征映射到同一個特征空間，使源域的模型適用于目標域。Rusu A A[13]證明了漸進式神經網絡可以用于強化學習中。Christiano P[14]提出了一種逆轉移概率矩陣，直接將模型遷移到現實環境中應用。文獻[15-16]采用領域隨機化的方式使模擬環境中的模型能夠泛化到現實環境中。此外還有元學習（Meta-Learning）領域相關的研究，文獻[17-20]就是結合元學習和模仿學習實現機器人的自主學習。

多任務學習也屬于遷移學習的范疇，比較典型的有任務遷移連接網絡[21]（Task Transfer Connection Network，TTCN），這種方法將一個閾值參數添加在多個任務同一層網絡層之間實現任務間的知識共享，提高了多任務的泛化性能。還有基于深度學習的多任務學習方法，如深度非對稱多任務特征學習方法[22]（Deep Asymmetric Multitask Feature Learning，DAMTFL），這種方法主要是通過任務間參數正則化解決負遷移的問題。目前多任務學習的研究還主要在基于監督學習模型的研究。

目前的策略遷移研究主要注重于機器人的單任務決策模型，很少有多任務強化學習模型，而基于傳統的策略模型或者基于強化學習的方法效率過低[23-24]，而使用模擬器則需要極大的硬件成本，本文研究基于漸進式神經網絡的方法，根據現實的原始圖像建立包含重要信息的模擬環境，使得智能體能夠在模擬環境中仿真訓練提高強化學習采樣效率，同時利用漸進式神經網絡將在模擬環境訓練得到的最優策略作為現實中策略模型的先驗知識，在遷移策略的同時還能防止神經網絡的災難性遺忘，使機器人實現多任務學習。實驗和工程實踐證明，本方法能夠為機器人自主持續學習的應用提供了思路。具有工程應用價值和現實意義。（1）提出了一種基于漸進式神經網絡的多任務強化學習方法（Progressive Neural Network Reinforcement Learning，PNNRL），這種方法會通過現實環境的狀態信息構建高效的模擬環境，使在模擬環境訓練得到的最優策略模型應用到現實環境，并避免在策略遷移中因為在目標域上進行模型微調造成的災難性遺忘。（2）基于漸進式神經網絡，通過與基準方法實驗對比驗證機器人多任務學習和策略遷移的性能。

1 問題定義

1.1 強化學習

強化學習是基于馬爾可夫決策過程（Markov Decision Process，MDP）的一種學習范式。MDP 主要用一個五元組＜S，A，R，P，γ＞表示[25]。其中：S為智能體交互的環境狀態集合；A為智能體能夠采取的動作集合；P為在當前狀態采取動作后的轉移概率，轉移概率函數如式（1）表示；R為獎勵回報，即智能體基于當前狀態st采取動作at后，在t+1時刻獲得的期望獎勵，如式（2）表示；γ為折扣因子，表示將來的獎勵在當前時刻的價值比例，γ∈[0,1]。

在MDP 中，價值函數是狀態價值函數vπ(s) 和動作價值函數qπ(s,a)，狀態價值函數表示在策略π 下當前時刻st所獲得的期望回報，如下式所示：

動作價值函數則表示在策略策略π 下，狀態st，采取動作at的期望回報，如下式所示：

其中的Gt表示折扣獎勵，如下式所示：

最優狀態價值函數v*(s)和最大動作價值函數q*(s,a)分別表示為：

1.2 漸進式神經網絡

漸進式神經網絡主要解決兩個問題，一個是傳統遷移學習對模型進行微調以適應新的目標任務時，難以選擇選擇訓練好的任務模型初始化后續的模型。另一個問題是遷移在目標域的模型雖然能夠在目標域有較好的性能表現，但是破壞了之前學習到的參數，丟失了之前學習的性能，這也是難以實現持續學習的原因。

漸進式神經網絡的解決思路是將之前訓練的每個網絡保存，并且固定參數。每當有新任務的時候，就重新實例化生成一個新網絡。并且利用舊網絡的知識訓練新任務的網絡，將舊任務的網絡每一層的輸出和當前任務的每一層輸出合并。如圖1所示。

圖1 漸進式神經網絡的結構

每一層的輸出可以通過線性加和的方式聚合，如下式所示：

如果輸出為非線性聚合時，則有：

2 模型訓練和策略遷移流程

2.1 模型訓練和策略遷移整體設計

仿真訓練的目的是為了大幅提高強化學習模型的采樣效率，并減少因為現實環境造成的代價。如圖2所示，首先通過現實環境的狀態信息構建好模擬環境，然后將策略的訓練分為兩個階段。第一個階段是在模擬環境中仿真訓練，當模型收斂后，就將第一個訓練階段的策略模型進行參數固定，然后開始第二階段訓練，第二階段需要再實例化一個神經網絡，并將之前第一階段的每一層的輸出和當前模型的每一層輸出聚合合并。這樣可以獲得第一階段網絡中對應層級的能力，但是直接聚合合并還不能得到一個理想的性能，于是還需要逐步對第二階段的網絡進行進一步的訓練。

圖2 模型訓練和策略遷移整體設計

2.2 多任務學習

多任務學習指的是聯合訓練多個關聯任務，其特征是具有多個損失函數。多任務有多輸入、多輸出和多輸入多輸出等。多任務學習形式可以表示為：

式中：T、N分別為任務的數量、輸入數據數量；x、y為輸入和輸出；W為多任務模型所有參數集合；f為多任務模型；Ω為參數的正則化項；λ為先驗強度；L為損失函數。

本文使用的漸進式神經網絡避免了傳統多任務學習模型的網絡參數硬共享方式，而是通過任務特征輸出聚合的方式共享了知識，同時為了保證多任務學習時的整體效果，對多任務學習時候的任務權重進行調整如下：

式中：wi為任務i的權重，當任務權重越高的時候，訓練時會調整訓練策略，增加訓練回合和提高智能體探索度；ki(t)為當前任務效率指標函數，當任務失敗率越高的時候，表示越難以訓練，kpi 的值越低，當成功率高的時候，就表示當前任務容易訓練，kpi值越高。

3 實驗與分析

3.1 策略遷移實驗

實驗以基于機器視覺機器人抓取物體的實際任務實驗，以驗證本文方法的有效性。通過RGB 攝像機可以獲取視野內的圖像信息，并獲取待抓取物品的位置信息。獲取目標位置信息具體流程如圖3所示。可以通過原始圖像回歸候選框得到圖像目標的位置，得到圖4所示的機器人視野效果。將回歸候選框中的目標作為重要的需要保留的目標物品，將其他圖像的中其他信息篩除。

圖3 定位圖像中的目標位置信息

圖4 現實機器人的視野

如圖5所示，將多余信息篩除后，通過對圖像進行柵格化可以得到一個像素坐標系，該像素坐標系相當于現實中機器人末端的運動環境，將機器人的末端吸盤作為一個像素坐標，通過控制坐標移動選擇抓取點，最終經過訓練的模型就可以得到當前模擬環境中的最優物品抓取點。

圖5 構建的模擬環境

得到在坐標系中得到物品最優抓取點后，由于坐標系和現實環境的參數不一致，因此還需要如前文描述的將模擬環境訓練得到的策略模型作為先驗知識進行第二階段訓練。

3.2 多任務學習實驗

多任務學習實驗在3 維模擬器中進行。這里設置兩個機器人任務，任務一是抓取目標物品，任務二是擺放目標物品，如圖6所示。先固定任務二網絡參數，訓練任務一模型，然后再固定任務一神經網絡，然后再將任務一中的模型按照漸進式神經網絡的輸出聚合合并，訓練任務二的模型。

圖6 多任務學習模擬器實驗模型

3.3 實驗結果與分析

本文實驗環境如表1所示。

表1 實驗環境

3.3.1 策略遷移的實驗對比和分析

本文的策略遷移對比指標主要從策略模型性能和收斂速度進行比較。常用的對比基準方法如表2所示。

表2 策略遷移對比的方法

以上方法都基于Tensorflow，模擬環境中迭代1 000個回合，每個回合500步，并對完成的策略模型進行100次抓取測試。結果分析如表3所示。

表3 在100次抓取測試中策略遷移性能比較

由于這5 種方法在進行現實中的策略遷移時訓練方式差別太大，所以只能通過相同的迭代次數來比較最終的模型性能。獎勵函數是根據任務目標設立，指導模型訓練向高獎勵期望訓練，本文的獎勵函數對相同結果的策略設置了步數懲罰值，如下所示：

Rt是每一步動作at的獎勵，由固定的成功抓取的獎勵值和負值步數懲罰獎勵制Rp和每一步任務完成程度kpi函數的Rd組成。在這5個算法中，PNNRL的平均獎勵和抓取成功次數最多，表明其策略最快，性能最好。

3.3.2 多任務強化學習模型的實驗對比和分析

常用的多任務對比基準算法如表4所示。

表4 多任務強化學習模型的對比方法

用以上方法進行多任務的強化學習訓練，在第二個任務訓練完1 000個回合后，對比兩個任務在100次中執行成功率作為評價多任務強化學習模型的指標，實驗結果對比如表5所示。表中Baseline的任務二表現較好，但是出現了災難性遺忘的情況，喪失了執行第一階段任務的性能。而TTCN 和DAMTFL 算法雖然都有保留了執行第一階段任務的性能，但本文的方法更有效。

表5 多任務學習不同算法性能對比

4 結束語

本文針對現有的強化學習方法采樣效率低問題進行研究。改進了目前機器人學習中難以進行多任務學習的問題，提出了基于漸進式神經網絡的多任務強化學習方法，該方法的訓練分為兩個階段，第一個階段會通過現實環境的狀態信息構建高效的模擬環境，結合漸進式神經網絡，將在模擬環境中訓練得到的模型作為一個先驗知識，第二階段利用第一個階段的先驗知識，將在模擬環境學習到的策略快速遷移到現實環境的策略模型中，同時利用漸進式神經網絡的優勢，實現多任務的強化學習，并在工程實驗中證明比同類型的算法性能更有效。

在未來的工作中，隨著機器人軟硬件的不斷更新和發展，結合運用深度強化學習等算法，更多的復雜任務持續學習和策略遷移是重要的課題之一，同時還有其泛化性能和持續學習能力還有很大的發展空間。