基于Dyna框架的非參數化近似策略迭代增強學習

2018-07-25 07:41:10季挺，張華

計算機應用 2018年5期

季挺，張華

(南昌大學江西省機器人與焊接自動化重點實驗室，南昌330031)

(*通信作者電子郵箱jxplorer@163．com)

0 引言

增強學習是一種并列于監督學習和非監督學習的機器學習方式，它利用外部環境提供的少量獎懲信號，依靠智能體自身經歷獲取知識。經典增強學習采用離散馬爾可夫決策過程進行建模，采用表格形式存儲并計算V值或Q值，可較好地應用于小規模或離散狀態空間;但應用于大規模或連續狀態空間將導致“維數災”問題。

近似策略迭代是解決經典增強學習“維數災”問題的主要方法之一，當前已有較多研究，但都存在各自的問題:Lagoudakis等［1］證明了近似策略迭代增強學習算法的收斂性，并提出了最小二乘策略迭代(Least-Squares Policy Iteration，LSPI)算法，但該算法為離線算法，計算量較大、收斂速度較慢;Busoniu等［2］提出的在線最小二乘策略迭代(Online Least-Squares Policy Iteration，Online LSPI)算法解決了LSPI的在線計算問題;周鑫等［3］提出的批量最小二乘策略迭代(Batch Least-Squares Policy Iteration，BLSPI)算法在Online LSPI的基礎上進一步提高了樣本的利用率，并在一定程度上降低了近似策略迭代算法的計算量;文獻［4－6］提出的一類離策略帶參近似策略迭代算法基于高斯過程對帶參值函數進行建模，并根據貝葉斯推理求解值函數的后驗分布，可在一定程度上加快收斂速度;但以上算法的逼近器均依賴先驗知識或通過反復試湊確定，不具備自動構建的能力。基于核的近似策略迭代增強學習是典型的非參數化增強學習，能夠依據樣本自動確定逼近器中基函數的數量和中心，但依然需要手動選擇核寬度矩陣、稀疏度閾值等參數，且隨著樣本數量的增加計算量逐步增大:Xu等［7］提出了基于核的最小二乘策略迭代(Kernel-based Least-Squares Policy Iteration，KLSPI)算法，利用核稀疏化過程降低基函數數量以提升學習速度;Barreto等［8］提出了基于核的隨機因式分解(Kernel-Based Stochastic Factorization，KBSF)算法，將模型信息進一步壓縮為固定大小的逼近器結構以提升學習速度;朱稷涵［9］提出了基于優先級掃描的非參TD最小二乘策略迭代(Prioritized-Sweeping-Based Nonparametric LSPI，PNLSPI)算法，利用優先級掃描提升學習速度;閆稱［10］提出了一類基于狀態－動作圖測地高斯基的策略迭代算法，采用測地距離構建基函數以更好地逼近光滑且不連續的值函數。以上算法均未能徹底解決逼近器的自動構建問題。

本文提出了一種基于Dyna框架的非參數化近似策略迭代(Nonparametric Approximation Policy Iteration based on Dyna Framework，NPAPI-Dyna)增強學習算法。該算法針對近似策略迭代增強學習均需要采集樣本的共性，進一步提高了樣本的利用率:一方面，通過樣本自動生成表征環境狀態的基函數并確定強化學習率，徹底實現算法逼近器結構依據環境進行自動構建的過程;另一方面，通過樣本自動生成環境估計模型，利用Dyna框架的模型辨識思想，將學習和規劃過程有機結合，利用計算復雜度代替采樣復雜度，進一步加快動態環境下的增強學習速度［11］。

下面，按照NPAPI-Dyna算法的實現步驟依次介紹其樣本采集、網絡結構構建、環境估計模型構建和自主學習階段，最后將其應用于一級倒立擺平衡控制問題，仿真實驗結果驗證了該算法的有效性和魯棒性，且相比其他算法，NPAPI-Dyna具有收斂速度更快的優勢。

1 采集樣本

NPAPI-Dyna為非參數化增強學習算法，其狀態基函數和環境估計模型均基于樣本進行構建，為使其更為準確，本文提出了一種二級隨機采樣方法。該方法分為一級采樣和總體采樣兩個層次，依據預先設定的增強學習誤差率ε采集總體狀態樣本集合SP、總體邊界狀態樣本集合SPE、總體狀態轉移樣本多重集合MSP和總體邊界狀態轉移樣本多重集合MSPE。

采樣時，系統使用隨機策略運行，從初始狀態S0開始，當越過邊界Sb或到達目標Sg時停止，S0、Sb和Sg均由目標問題給定。若系統在當前狀態St采取動作at后，下步狀態St+1越過Sb，則 St為邊界狀態樣本，記為 Se，(St－1，St，at－1) 為邊界狀態轉移樣本，記為Mse;若St+1既未到達Sg，也不屬于邊界狀態樣本集合，則St為狀態樣本，(St，St+1，at)為狀態轉移樣本;相應的，Tsp為一次運行采集的非重復狀態樣本集合，Tmsp為一次運行包含的所有狀態轉移樣本，Tmsp為多重集合，其中的樣本可以重復。

為使采樣過程能夠依據采樣情況自動結束，需要定義前后兩個狀態采樣集合G和G'之間的變化率rate:

其中:ratei為第i維的變化率，fbcli={fci，bci，fli，bli}，fci和bci定義了G'在第i維的范圍，fc=me'－ma'，bc=me'+ma';fli和bli定義了G在第i維的范圍，fl=me－ma，bl=me+ma;其中，me和me'分別為G和G'的樣本均值，ma和ma'分別為G和G'在各維分量上的平均絕對離差向量，ma定義為:

其中:ng為G的數量，運算abs()用于計算向量在各維分量上的絕對值。ma'類似式(2)進行定義。

1．1 一級采樣

一級采樣在狀態樣本和邊界狀態樣本單次采樣變化率均小于ε時停止。同時，單次采樣需保證采集的非重復狀態樣本數量ln≥L，L為采樣緩存長度。具體過程如下:

步驟1 運行一次系統，設置單次采樣次數T=1，設置系統運行次數tr=1。初始化一級狀態樣本集合SpT=Tsp，一級邊界狀態樣本集合SpeT=Se，一級狀態轉移樣本多重集合Msp=Tmsp，一級邊界狀態轉移樣本多重集合Mspe=Mse;L為Tsp的樣本數量。

步驟2 開始單次采樣，T=T+1。設置ln=0，SpT=SpT－1。

步驟3 運行一次系統，tr=tr+1，SpT=SpT∪ Tsp，SpeT=SpeT∪ Se，Msp=Msp∪ Tmsp，Mspe=Mspe∪ Mse，依據式(3)和(4)分別更新L和ln:

其中nt為Tsp的數量。若ln≥L，執行步驟4;否則，執行步驟3。

步驟4 依據式(1)計算SpT相對SpT－1的變化率rsp和SpeT相對 SpeT－1的變化率rse，若rsp ＜ ε 且rse＜ ε，一級采樣結束;否則，執行步驟2。

1．2 總體采樣

總體采樣在狀態樣本和邊界狀態樣本一級采樣變化率均小于ε時停止。具體過程如下:

步驟1 系統進行一次一級采樣。設置一級采樣次數T'=1，初始化 SPT'=TSP，SPET'=SE，MSP=TMSP，MSPE=MSE。其中，TSP、SE、TMSP、MSE 分別為一級采樣得到的狀態樣本集合、邊界狀態樣本集合、狀態轉移樣本多重集合、邊界狀態轉移樣本多重集合。

步驟2 系統運行一次一級采樣，T'=T'+1，SPT'=SPT'∪TSP，SPET'=SPET'∪ SE，MSP=MSP ∪ TMSP，MSPE=MSPE∪MSE。

步驟3 依據式(1)計算SPT'相對SPT'－1的變化率RSP和SPET'相對SPET'－1的變化率RSE，若RSP ＜ ε 且RSE ＜ ε，總體采樣結束;否則，執行步驟2。

2 構建算法網絡結構

NPAPI-Dyna算法的網絡結構由狀態輸入層、Q值函數逼近器和動作選擇器三部分組成，如圖1所示。

圖1 NPAPI-Dyna算法的網絡結構Fig．1 Network structure of NPAPI-Dyna

2．1 狀態輸入層

狀態輸入層由n個輸入神經元組成，接收輸入狀態S=(s1，…，si，…，sn)T∈ Rn。其中，n 為狀態空間的維數，依據目標問題設定;si為S在各維空間上的分量。

2．2 Q值函數逼近器

Q值函數逼近器由基于RBF的線性逼近結構實現，狀態動作對(S，A)對應的近似Q值通過式(5)計算:Φ(S)=(Φ1(S)，…，Φj(S)，…，Φm(S))T為特征向量，定義為:

φ(S)=(φ1(S)，…，φj(S)，…，φm(S))T為逼近器的狀態基函數向量，其值為狀態S在各狀態基函數下的隸屬度，值越大表示S與基函數的空間距離越近，使用RBF函數定義為:

其中:m 為狀態基函數的個數，μj=(μ1j，…，μij，…，μnj)T和δj=(δ1j，…，δij，…，δnj)T分別為 φj的中心和半徑。

Φ'(S)描述狀態S在下一步轉移到各狀態基函數中心附近的可能性，用于彌補φ(S)僅通過歐氏距離判定狀態S隸屬度的不足。其定義為:

D為內部狀態轉移矩陣，定義如下:

其中Pjl表示由μj附近轉移到μl附近的可能性。

ω(A)=(ω1(A)，…，ωj(A)，…，ωm(A))T為逼近器的插值參數向量，其意義為在各狀態基函數中心執行所選動作A的Q值，利用插值方法定義為:

其中:K為可選離散動作的數量，由目標問題定義;ak為第k個可選的離散動作;j為逼近器參數，其意義為在狀態基函數φj中心執行動作ak的投票數。

由上述表示形式可以看出，實現Q值函數逼近器自動構建的核心問題就是要確定內部狀態轉移矩陣D和狀態基函數φ(S)，前者在第3章討論，以下對φ(S)的構建方法進行闡述。

2．2．1 trial-and-error過程

trail-and-error過程是一種使用相對準則判定樣本集最佳聚類數的方法，本文基于輪廓指標、采用K均值聚類算法實現該過程，如下所示。

步驟1 初始化樣本集的可能聚類數集合NC為:

步驟2 遍歷NC，對當前聚類數nc運行K均值聚類算法得到聚類結果CL，并采用輪廓指標計算其有效性vc。

其中:np為聚類CLp的基數，aq為CLp中元素xq到CLp中其他元素的平均距離，bq為xq到除CLp之外的最接近xq的聚類的平均距離，運算(·，·)用于計算一個點到一個集合的平均距離測度。

步驟3 若NC遍歷結束，則依據聚類有效性輸出樣本集最佳聚類結果，trial-and-error過程結束;否則，執行步驟2。

2．2．2 確定核心狀態基函數

核心狀態基函數用于表征環境狀態分布的骨架特征，該特征在一級狀態樣本集TSP和總體狀態樣本集SP中都應顯著存在，因此，在數量較少的TSP上預先判定表征骨架特征的聚類數量是可行的，同時還可極大降低在SP上直接應用trial-and-error過程的計算量。針對SP，確定核心狀態基函數的步驟如下。

步驟2 若總體采樣未結束，則利用trial-and-error過程在每次一級采樣后計算TSP的最佳聚類數，并將其并入NC;否則，執行步驟3。

步驟在SP上應用trial-and-error過程輸出最佳聚類結果CL，并通過式(13)和(14)分別計算核心狀態基函數φp(S)的中心μp和半徑δp:

同樣的，上述步驟可基于邊界狀態樣本集確定邊界狀態基函數ψ(S)的中心和半徑，ψ(S)=(ψ1(S)，…，ψj'(S)，…，ψm'(S))T，依然采用式(7)的形式進行定義。

2．2．3 生成初始狀態基函數

除骨架特征外，環境狀態分布還有一系列次要特征，只有找出這些次要特征，才能對環境狀態進行較為準確的逼近，因此，本文以狀態樣本空間完全覆蓋為目標對核心狀態基函數進行擴展，生成初始狀態基函數，具體步驟如下:

步驟1 初始化基函數向量φ(S)={φp(S)|p=1，2，…，nc}。

步驟2 遍歷SP。通過當前樣本(SP)h與φ(S)中心間的歐氏距離定位與(SP)h最鄰近的狀態基函數，并判定(SP)h是否位于其半徑內部。若是，繼續執行步驟2;若否，執行步驟3;若SP中所有樣本均位于最鄰近基函數的半徑內，則表明狀態基函數完成了對樣本空間的完全覆蓋，執行步驟4。

步驟3 新增一個狀態基函數，將其中心初始化為當前樣本，并加入φ(S)中。通過式(15)和(16)調整所有狀態基函數中心和半徑，執行步驟2。

其中:NS為SP的樣本數量，behj為(SP)h到φj(S)的距離度量。

步驟4 通過式(18)計算逼近器的平均學習率η，初始狀態基函數生成過程結束。

其中:X=(X，…，X，…，X)T為各狀態基函數的構建樣本

1jm數向量，表示為:

2．3 動作選擇器

動作選擇器由1個選擇輸出神經元組成，采用貪心策略實現，定義為

其中POk是對當前狀態S下執行動作ak的投票結果，定義如式(20)所示:

3 構建環境估計模型

環境估計模型是對環境狀態轉移規律的顯示描述，包括狀態動作轉移模型B和邊界狀態動作轉移模型B':

其中，矩陣Bj描述在φj(S)中心μj附近采取不同動作后轉移到各狀態基函數中心附近的可能性，pkjl表示在μj附近采取動作ak轉移到μl附近的可能性。基于B，可通過式(24)計算內部狀態轉移矩陣D，有:

其中，矩陣Bj'描述在φj(S)中心μj附近采取不同動作后轉移到各邊界狀態基函數中心附近的可能性表示在μj附近采取動作ak轉移到邊界狀態基函數ψj'(S)中心μj'附近的可能性。同樣的，基于B'，可通過式(26)計算邊界狀態轉移矩陣

狀態動作轉移模型B的構建過程如下:

步驟1 初始化Bj為K行m列的零矩陣。

步驟2 遍歷 MSP，針對當前樣本(S，S'，ak)，通過式(17)分別計算狀態S和S'到φ(S)的距離度量be=(be1，…，bej，…，bem) 和 be'=(be1'，…，bel'，…，bem')。

步驟3 通過式(27)更新Bj中的值，若遍歷未完成則執行步驟2，否則構建過程結束。

相應地，上述步驟可基于MSPE構建邊界狀態動作轉移模型B'。由模型B和B'的構建過程可以看出，其實質是對總體(邊界)狀態轉移樣本進行統計，利用訪問頻次來描述狀態基函數之間(狀態基函數到邊界狀態基函數之間)轉移的可能性，從宏觀上描述基函數之間的拓撲特征，加快Dyna框架的學習速度。

4 算法自主學習

算法自主學習基于Dyna框架實現，包括學習過程和規劃過程，其中，學習過程依據經歷自適應調整Q值函數逼近器與環境估計模型的結構和參數，規劃過程利用環境估計模型產生的虛擬樣本來更新Q值函數逼近器參數。

4．1 學習過程

學習過程主要包括新增結構、合并結構、調整各項參數等操作。

4．1．1 新增結構

新增結構操作圍繞新增狀態基函數進行。由于狀態基函數在構建時已對狀態樣本空間進行了完全覆蓋，因此所有樣本都至少位于某個初始狀態基函數的半徑內。學習過程中，若與S最鄰近的基函數為初始狀態基函數，S位于所有狀態基函數的半徑外，且TD誤差率RΔ＞ε，應新增一個狀態基函數以保持對狀態空間的全覆蓋，判定條件為:

其中:FLAGinitial表征與S最鄰近的基函數為初始狀態基函數;e－0．5為狀態在某分量的值位于其半徑處的隸屬度;Δ為TD誤差，rt為即時獎勵，γ為折扣率。新增結構操作的步驟如下:

步驟1 對當前狀態S，依據式(28)判定是否進行新增結構操作:若是，則執行步驟2;否則，不執行新增結構操作。

步驟2 新增狀態基函數φnew，并初始化其中心μnew=S，半徑δnew=δnear，near為與S最鄰近的基函數序號，通過式(29)計算:

步驟4 對環境估計模型B和B'進行新增操作，并更新模型中的值，依次為:

4．1．2 合并結構

合并結構操作圍繞合并狀態基函數進行。由采樣過程的結束條件可知，樣本在各維分量的誤差率都應小于ε，因此，對于狀態 S，若有 2 個或以上的基函數隸屬度超過(e－0．5ε2)n時，應執行合并操作，判定條件為:

其中:e－0．5ε2為狀態某分量 si位于離該分量中心 μij距離 εδij處的隸屬度。合并結構操作步驟如下:

步驟1 依據式(30)判定是否進行合并結構操作:若是，則執行步驟2;否則，不執行合并結構操作。

步驟2 合并狀態基函數，并設置目標基函數中心為要合并基函數中心的均值，半徑為要合并基函數半徑的最大值。

步驟3 合并逼近器參數結構，并設置目標參數為要合并參數的均值。

步驟4 對環境估計模型B和B'進行合并操作，并更新模型中的值，依次為:

其中:IDM為要合并的狀態基函數序號集合;aim為合并目

標狀態基函數的序號，是集合IDM中的最小值。

4．1．3 調整參數

調整參數操作依次調整狀態基函數參數、逼近器參數和模型的值。狀態基函數的中心和半徑采用delta規則調整，對φj有:

調整后的半徑應不低于初始半徑的最小值，以避免基函數產生萎縮。

逼近器參數也采用delta規則進行更新，如式(33)所示:

環境估計模型B和B'的值可類似式(27)進行調整。

4．2 規劃過程

規劃過程通過環境估計模型生成的虛擬樣本來更新Q值函數逼近器參數，其對學習速度的提升除了取決于環境估計模型外，還與規劃狀態及每輪學習的規劃次數密切相關。由于隨機采樣時，系統在邊界狀態附近一般會以較快速度進入越界狀態，使得越靠近邊界狀態，模型B和B'越準確，且考慮到動作噪聲的影響，為保證規劃的準確性，文中的Dyna框架在規劃狀態離邊界狀態基函數ψ(S)較近時進行1次規劃。具體步驟如下:

步驟1 通過式(6)計算規劃狀態S的特征向量RE，通過式(34)獲取與S最鄰近的狀態基函數序號IDs。

步驟2 通過式(6)分別計算目標Sg、ψ(S)中心μ'的特征向量，類似式(34)獲取與Sg最鄰近的狀態基函數序號集合IDc、與μ'最鄰近的狀態基函數序號集合IDb。

步驟3 若滿足式(35)，則S離邊界更近，轉移至步驟4;否則，結束規劃過程。

步驟4 通過式(24)計算得到內部狀態轉移矩陣D，通過式(26)計算得到邊界狀態轉移矩陣D';通過式(36)和(37)對D和D'的每行進行歸一化，分別得到矩陣ND和ND'。

步驟5 通過式(38)計算與S最鄰近的邊界序號id:移到ψid(S)中心的概率矩陣P2B。

其中，P2B(j，k)表示在μj附近采用動作k轉移到μid'附近的可能性。

步驟7 通過式(40)計算越界可能性最大的動作序號Ia。

步驟8 通過式(41)計算S下采取動作aIa時轉移到φ(S) 中心 μ =(μ1，…，μj，…，μm)T附近的概率向量 RE2I。

步驟9 通過式(42)計算S下采取動作aIa時轉移到ψ(S) 中心 μ'=(μ1'，…，μj'，…，μm')T附近的概率向量RE2B。

步驟10 通過式(43)計算S的下步狀態虛擬樣本S':

步驟11 若虛擬樣本越過邊界，則r=－1;否則，r=－max(RE2B);通過式(33)更新Q值函數逼近器參數。

5 算法步驟

NPAPI-Dyna算法的步驟依次分為結構構建和自主學習兩個階段。

5．1 結構構建階段

結構構建階段的主要任務是構建算法網絡結構和環境估計模型，具體步驟如下:

步驟1 指定增強學習誤差率ε。

步驟2 使用第1章中的二級隨機采樣方法采集目標問題的總體樣本集合 SP、SPE、MSP 和 MSPE。同時，使用 2．2．2節中的步驟在采樣過程中確定核心狀態基函數{φp(S)|p=1，…，nc}與邊界狀態基函數ψ(S)。

步驟3 使用2．2．3節中的步驟對核心狀態基函數進行擴展，生成初始狀態基函數φ(S)，計算逼近器的平均學習率η。

步驟4 依據2．3節中的定義構建動作選擇器。

步驟5 按照圖1構建算法網絡結構。其中，Q值函數逼近器參數向量初始化為 0向量。

步驟6 使用第3章中的步驟構建狀態動作轉移模型B和邊界狀態動作轉移模型B'。

5．2 自主學習階段

自主學習階段的主要任務是基于學習經歷自適應調整逼近器和環境估計模型的結構與參數，學習解決目標問題的策略，具體步驟如下:

步驟1 初始化當前狀態St=S0。目標系統開始一次嘗試;

1)通過式(6)計算St的特征向量Φ(St);

2)通過式(20)進行策略評估，通過式(19)選擇St下應采取的動作At，獲取即時獎勵rt，且環境轉移到下步狀態St+1;

3)依次使用4．1．1節和4．1．2節中的步驟對算法的逼近器和環境估計模型結構進行新增、合并操作;

4)依據4．1．3節中的方法調整逼近器和環境估計模型的參數;5)將St作為規劃狀態，使用4．2節中的方法進行規劃;6)若本次嘗試結束，執行步驟2;否則，設置當前狀態St=St+1，執行步驟1);

步驟2 若本次嘗試成功，則學習結束;否則，通過式(27)更新邊界狀態動作轉移模型B'，并執行步驟1再次進行嘗試。

6 仿真實驗

一級倒立擺平衡控制是增強學習研究的標準測試問題，本文對其進行仿真實驗來驗證NPAPI-Dyna算法的各項性能。為了與已有類似算法進行對比，采用文獻［1］的倒立擺模型，如式(44)所示:

實驗中，仿真時間步為0．1 s，折扣率γ =0．95。若擺桿偏離垂直方向角度超過90°則失敗;否則，若擺桿在上述約束條件下保持指定時間步不倒則成功。相應的即時獎勵r如式(45)所示:

此外，按照算法要求，設定初始狀態S0=［0 0］，邊界Sb=［± 90 inf］，指定 Sg= ［0 0］。

6．1 NPAPI-Dyna算法實驗分析

設置實驗目標為倒立擺運行3000時間步不倒，實驗最大嘗試次數為300，ε 取0．1、0．05、0．01 時分別進行100 次獨立仿真運算，實驗結果如表1和表2所示。

表1 ε在不同取值下的實驗結果(性能數據)Tab．1 Experimental results under different ε values(performance data)

表2 ε在不同取值下的實驗結果(過程數據)Tab．2 Experimental results under different ε values(process data)

由表1和表2中的數據可以看出，當ε逐步降低時，狀態樣本數量不斷增加，狀態基函數隨之增加，Q值函數逼近器泛化能力逐漸提升;另一方面，當ε逐步降低時，平均學習率也隨之降低，但由于近似算法的每步更新均能夠將學習結果傳遞至所有狀態基函數，因此對學習速度不會造成太大影響;從整體上看，基于環境估計模型的規劃過程可有效降低因狀態基函數增加帶來的學習反復性和不確定性，NPAPI-Dyna算法的學習速度較快。ε取 0．1、0．05、0．01時分別進行 100次獨立仿真運算的學習速度分布如表3所示，反映了ε取不同值時，在特定嘗試次數內學習成功的次數。

表3 ε在不同取值下的學習速度分布Tab．3 Learning velocity distribution of different ε values

此外，從角度平均絕對偏差和角度平均振蕩范圍來看，隨著ε逐步降低，二者精度呈逐步增加趨勢，且無論ε(在0．1～0．01)如何取值，二者均能穩定在較優范圍內。

6．1．1 取消規劃過程后的實驗結果

算法取消規劃過程后，即從第5章的算法步驟中去掉與規劃相關的部分，且將特征向量Φ(S)定義為:

采用與上述實驗相同的樣本集、初始基函數和學習率，結果如表4所示。

表4 取消規劃過程后ε在不同取值下的實驗結果Tab．4 Experimental results under different ε values after cancelling plan

對比表4與表1、2中的數據可以看出，取消規劃過程后，當ε逐步降低時，學習過程中的基函數合并次數、學習結束后的基函數數量均有所增加，學習速度逐漸降低，且隨著ε減小這一趨勢愈加明顯，從反面印證了算法采用的規劃過程對由基函數數量增加導致的學習反復性和不確定性具有較好的抑制效果。

此外，在取消規劃后，角度平均絕對偏差大幅上升，角度平均振蕩范圍也略有增加，從反面證明了算法采用的規劃過程在提升學習精度方面也具有較好的效果。

6．1．2 對規劃過程的實驗分析

為了更好地理解NPAPI-Dyna算法的規劃過程，現通過實驗對其進行分析說明。當ε取0．1時進行一次實驗，采集到的狀態樣本集合、邊界狀態樣本集合、初始狀態基函數和邊界狀態基函數如圖2所示。

圖2 初始樣本與初始基函數Fig．2 Initial samples and basis functions

其中，空心點為狀態樣本集合，實心點為邊界狀態樣本集合，初始狀態基函數和邊界狀態基函數以矩形框表示，標號1～14為初始基函數序號，標號Ⅰ和Ⅱ為邊界狀態基函數序號。

由于狀態動作轉移模型B和邊界狀態動作轉移模型B'數量較多，這里僅列出內部狀態轉移矩陣D和邊界狀態轉移矩陣D'，如下所示。

觀察矩陣D的12列和13列，以及矩陣D'可以看出，越靠近邊界狀態區分度越大，模型越準確，同時也驗證了NPAPI-Dyna算法在規劃狀態離邊界狀態基函數ψ(S)較近時進行規劃的科學性。

學習結束后的狀態樣本集合、邊界狀態樣本集合、初始狀態基函數和邊界狀態基函數如圖3所示。

圖3 學習成功后樣本與狀態基函數Fig．3 Samples and state basis functions after learning success

相應的，內部狀態轉移矩陣D和邊界狀態轉移矩陣D'如下所示:

對比學習前，矩陣D和D'已經學習到規律性，可以更好地指導倒立擺在平衡位置附近(矩陣D的第3列、4列、5列、9列和11列)擺動，學習成功的運動曲線如圖4所示。

圖4 學習成功后的擺桿運動曲線(角度)Fig．4 Motion curve(angle)of pendulum after learning success

從圖4可以看出學習成功后擺桿的擺動角度平均偏差為3．4124°，平均振蕩范圍為 2．874 8°，最大振蕩范圍基本穩定在10°以內，顯示出算法具備較好的控制性能。

6．2 與典型近似策略迭代增強學習算法進行對比

NPAPI-Dyna、Online LSPI、BLSPI均為在線近似策略迭代增強學習算法，一般通過不同參數條件下獲得控制策略的速度進行評價。將ε取0．1時進行100次獨立仿真運算的結果與 Online LSPI、BLSPI算法的最優實驗結果［3］進行比較，三種算法在不同嘗試次數下的平均平衡時間步如表5所示。

表5 與典型在線近似策略迭代增強學習算法的對比Tab．5 Comparison with typical online approximation policy iteration reinforcement learning

從表5可以看出，NPAPI-Dyna算法基本可在50次嘗試內學習得到一級倒立擺平衡的控制策略，速度遠快于Online LSPI和 BLSPI。

7 結語

NPAPI-Dyna算法只需指定增強學習的誤差率就能完全自主地實現樣本采集、網絡結構構建和環境估計模型構建過程，同時算法還引入Dyna框架的模型辨識思想，將學習和規劃過程有機結合以提升學習速度。一級倒立擺平衡控制仿真實驗驗證了算法在不同增強學習誤差率取值下的有效性和性能變化趨勢，分析了算法的規劃過程，與目前典型的在線近似策略迭代增強學習算法相比較，NPAPI-Dyna具有收斂速度更快的優勢。本文解決了單個智能體的非參數化增強學習問題，非參數化并行增強學習和多智能體非參數化增強學習將是未來的重點研究方向。