基于Policy Gradient的機械臂運動跟蹤控制器參數整定

2021-08-23 12:46:16韓霖驍胡劍波宋仕元王應洋賀子厚

系統工程與電子技術 2021年9期

韓霖驍,胡劍波,宋仕元,王應洋,賀子厚,張鵬

(空軍工程大學裝備管理與無人機工程學院,陜西西安 710051)

0 引言

機械臂作為一個高度復雜的時變耦合非線性系統,是機器人系統的核心技術之一,已逐漸成為衡量一個國家高端制造業水平的標志。目前,針對機械臂系統跟蹤控制的學術成果斐然,主要分為以下兩類問題[1]:一是解決機械臂系統在測量建模過程中的誤差[2-4],二是減弱系統負載變化和外部干擾影響。文獻[2]通過設計一種基于模糊自適應神經網絡的魯棒控制器,避免了機械臂系統參數無法準確測量對跟蹤性能產生的影響。文獻[3]針對機械臂系統參數不確定問題,設計了一種參數在線估計的自適應滑?？刂破鳌１疚木劢箙挡淮_定問題,通過人工智能(artificial intelligence,AI)算法對控制器參數進行整定,以保證機械臂控制器良好的軌跡跟蹤效果。當前機械臂軌跡跟蹤控制器種類繁多,比例-微分(proportional-derivative,PD)控制作為一種經典的傳統控制方法,憑借其原理簡單、使用方便且魯棒性強的特點,如今在各領域有著廣泛的研究和運用,如機械臂控制[5-11]、四旋翼無人機飛行控制[12-14]和仿人機器人控制[15-16]。本文通過PD控制器這一算例對PG(Policy Gradient)參數整定器進行仿真驗證。PD控制方法魯棒性強體現在PD控制器的控制效果對被控對象特性的變化不敏感,具備較強的抗干擾能力,而影響PD控制器控制效果的關鍵因素之一是其控制器參數。為改善PD控制器側重于穩態性能而對系統動態性能控制不夠的問題,本文通過設計基于PG的參數整定器對PD控制器參數進行整定,以改善其動態性能，從而達到更優的控制效果。

參數優化是一種行之有效的提高控制效果的方法,而比例-積分-微分(proportional-integral-derivative,PID)控制器的參數自整定方法按工作機理可以分為兩大類:一是基于規則的自整定方法;二是基于辨識的自整定方法[17]。自1942年Ziegler和Nichols提出著名的臨界比例度法以來,當前PD控制器參數優化方法有粒子群算法[18-20]、混沌原子搜索優化算法[21]、Levenberg-Marquart算法[22-23]、遺傳算法[24-25]、量子尋優算法[26]等。與其他參數優化方法不同的是,強化學習具有收斂速度快、不依賴于先驗知識、克服局部最優且實時性強的特點。

文獻[27-30]對強化學習算法在參數優化中的應用作以充分的討論。文獻[27]設計了一種基于Q-learning參數整定的PID控制器,使被控系統的調速性能更加優良,但Q-learning算法只適用于離散問題。文獻[28-29]均討論了通過DQN(Deep Q Nerwork)算法進行參數設計,其中文獻[28]利用DQN算法對飛行姿態模擬系統進行了控制算法設計,數值仿真結果表明,經過一定時間的學習之后能達到良好的控制效果。文獻[29]將DQN算法同一種遺傳算法結合設計了一種參數估計器,能夠實現較為準確的參數估計,但仍存在只適用于離散的情況且學習時間長,時效性較差。文獻[30]將Actor-Critic結構用于滑模控制器的參數整定中,避免了控制參數選取的盲目性并取得了良好的控制效果,但Actor-Critic網絡結構較為復雜。因此，本文選擇PG算法來進行PD控制器參數整定器的設計,PG算法神經網絡結構較為簡單,學習時間較短且能夠處理連續狀態問題。為了進一步提高PG參數整定器的性能,本文通過引入積分器來改善整定器性能,將其學習過程中的行為連續化。

本文所使用的參數整定器結構較小,結構簡單,計算量小,經過學習后可以直接用于被控系統無需再次進行學習,同時可在額外增加計算量的情況下進行在線學習,適合用于嵌入式系統。

1 問題描述

考慮摩擦非線性與動力學非線性的特點,機械手混合動力學模型描述如下:

(1)

式中：

式中:KT=diag{KT1,KT2,…,KTn}為正定矩陣,表示直流電機工作參數;N=diag{nk1,nk2,…,nkn}為機械臂關節電機的齒輪減速比;Dm=diag{Dm1,Dm2,…,Dmn}為驅動系統各部件折算到電機側的轉動慣量,為正定矩陣；Lm=diag{Lm1,Lm2,…,Lmn}為驅動系統各部件的粘滯系數且為正定矩陣。

將系統驅動電流I作為機械臂的控制輸入量,得到機械臂模型:

(2)

對于機械臂模型式(2)需說明如下。

(1)對于?x,慣性矩陣D(q)符合：

m1‖x‖2≤xTu(q)x≤m2‖x‖2,q∈Rn

(2)對于?x,存在:

(3)當忽略不確定項,該模型可線性化為

2 控制器設計與穩定性分析

取獨立PD控制律[31]為

(3)

此時,機械手的方程為

(4)

(5)

定理 1如果控制增益矩陣Kd與Kp滿足正定條件,則控制器式(3)滿足Lyapunov理論的穩定性條件。

證明取Lyapunov函數為

(6)

由D(q)及KP的正定性可知,V是全局正定的,則

(7)

證畢

引理 1LaSalle定理

對于微分方程組：

令

并設M是微分方程組在S內的最大不變集。如果V是G上的李雅普諾夫函數,而γ+(x0)是微分方程組落在G內的有界軌道,則當t→∞時,x(t,x0)→M。

3 PG參數整定器設計

PG是一種有效的強化學習方法。PG參數整定器的本質是通過一個引入參數θ的神經網絡,設定期望收益作為評價指標,經過n次行動后通過梯度上升的方法尋到使期望收益最高,即控制效果最優的一組參數值,PG參數整定器的整定對象是式(3)中的關鍵參數矩陣Kd和Kp,結構如圖1所示。圖1描述的是PG離線整定過程,整定結果為4組變化的參數值。

圖1 控制系統結構框圖Fig.1 Block diagram of control system structure

3.1 設定期望收益

設行動狀態序列τ為

τ={S1,A1,S2,A2,…,Sn,An}

(8)

式中:Ai為第i次行動的參數矩陣,表示為

Ai=[Kdi,Kpi]

Si為PD控制器在參數矩陣Ai作用下對機械臂控制效果的狀態描述,控制過程如圖2所示。

圖2 馬爾可夫決策過程Fig.2 Markov decision process

為了使離散的整定過程連續化,對行動矩陣Ai作以改寫,表示為

設定

在給定神經網絡參數θ的前提下,出現行動狀態序列τ的概率為

Pθ(τ)=P(S1)Pθ(A1|S1)P(S2|S1,A1)Pθ(A2|S2)

P(S3|S2,A2)…=

因此,對于行動序列τ的累積期望收益為

(9)

式中:

(10)

3.2 梯度求解

不同于深度學習中梯度下降來求最小值的方法,策略梯度求解是通過梯度上升的方法對收益函數式(9)求最大值,將式(9)對參數θ求導,得到

(11)

式中:R(τ)并不要求完全可微。同時在PG參數整定器訓練的過程中會進行采樣訓練,次數為N,得到結果如下:

EτPθ(τ)[R(τ)lgPθ(τ)]≈

(12)

3.3 基準線與折舊因子

由于在訓練過程中參數矩陣Ai的采樣是在給定范圍內隨機進行,因此往往會出現以下兩種阻礙學習效率的情況:一是可能會出現范圍內的某個參數矩陣Ai不被選取的情況,而該參數矩陣Ai可能恰恰是有利的,這會導致其被選取的概率下降,學習結果變差;二是由于給定范圍內所有參數矩陣被采取的概率和為1,那么在歸一化后,就可能導致有利的參數矩陣概率降低,而有害的參數矩陣概率升高,同樣會導致學習結果無法最優。因此，需要引入基準線參數b來避免上述情況的發生:

(13)

式中:b≈E[R(τ)]。

同時,考慮到在t采樣點采取的參數矩陣與t采樣點之前的收益無關,因此只需將t采樣點之后的收益進行求和。并且由于某一采樣點采取參數矩陣對隨后各采樣點收益的影響會逐漸減小,因此需要引入折舊因子γ:

式中:γ<1。

4 仿真分析

針對被控對象式(1),選取二關節機械手系統進行仿真驗證,其動力學模型為

(14)

式中:

PG參數整定器學習步長為0.1,基準線設定為狀態函數估計值b=16,折扣因子設定為γ=0.99。根據參數調整范圍,將行為值矩陣設置為以下16種情況:[-100，-100，-100，-100]，[-100，-100，-100，100]，[-100，-100，100，-100]，[-100，-100，100，100]，[-100，100，-100，-100]，[-100，100，-100，100]，[-100，100，100，-100]，[-100，100，100，100]，[100，-100，-100，-100]，[100，-100，-100，100]，[100，-100，100，-100]，[100，-100，100，100]，[100，100，-100，-100]，[100，100，-100，100]，[100，100，100，-100]，[100，100，100，100]。

圖3 強化學習過程曲線Fig.3 Reinforcement learning process curve

圖4 跟蹤軌跡x1,x2Fig.4 Tracking trajectory x1,x2

圖5 控制輸入u1,u2Fig.5 Control input u1,u2

圖6 控制參數k1,k2Fig.6 Control parameters k1,k2

圖3表述了參數整定器在進行強化學習過程中,期望獎勵值和實際獎勵值的動態變化曲線。由圖3可得,PG參數整定器在學習過程中共進行了500次參數的整定調整,在調整的過程中收益指標曲線總體呈現上升趨勢,其中移動平均獎勵值代表對歷史獎勵值的加權求和,衡量著當前代次下控制系統對機械臂控制效果的高低。同時,3條曲線呈現向同一值收斂的趨勢,表明強化學習系統評估值和實際獎勵值逼近同一值并上下波動,此時學習過程結束,得到整定后的參數矩陣。同時，還可得到以下結論。

圖7 控制參數k3,k4Fig.7 Control parameters k3,k4

結論 1驗證了PG強化學習算法的有效性,在PG整定器的參數調整過程中,PD控制器對機械臂的控制效果不斷被改善,并能夠達到預期水平。

結論 2在折舊因子的作用下,克服了個別臨近代次中的壞值對移動平均獎勵值評價效果產生干擾這一問題。

結論 3由圖4可得,機械臂跟蹤軌跡的收斂時間由參數整定前的4 s縮短至整定后的2 s,且超調量未出現明顯增大。因此,PG參數整定器的引入使PD控制器的動態性能在保證穩態性能的前提下得到了有效的提升,收斂時間更短。

結論 4由圖5可得,控制輸入信號u在參數整定器的作用下,在控制的前2 s內,其信號曲線發生明顯波動,表明控制輸入信號u能夠根據不同的控制情況在參數整定器的作用下進行靈活調整,以達到圖4中更優的控制效果。

結論 5圖6～圖7驗證了PG參數整定器在機械臂式(19)的被控過程中,通過在線學習的方式向PD控制器發送離散的行動矩陣Ai,經過積分器使PD控制器的關鍵參數變化是連續的,進而使圖5中控制輸入信號能夠連續變化,符合實際過程中機械臂驅動電機的工作要求。

5 結論

本文針對一類機械臂PD控制器的參數自整定問題,設計了一種基于PG的PD控制參數整定器。仿真驗證說明,通過引入積分器保證控制參數變化的連續性，從而實現了PG參數整定器的可行性,并有效改善了機械臂系統的動態性能,且由于不同控制方法的參數整定過程均相似,所以該算法對于其他軌跡跟蹤控制律設計也具有一定通用性。