帶狀態約束的事件觸發積分強化學習控制

2023-08-03 02:06:22田奮銘

計算機測量與控制 2023年7期

田奮銘，劉飛

(1.江南大學輕工過程先進控制教育部重點實驗室，江蘇無錫 214122；2.江南大學自動化研究所，江蘇無錫 214122)

0 引言

非線性連續系統的控制問題一直是現代控制理論的基本問題之一。針對非線性連續系統的控制問題有眾多針對性的控制方法，如：PID控制[1-2]、自適應控制[3-5]、滑?？刂芠6-7]、以及多種方法綜合應用[8-9]。然而，對于大多數受控的系統，在控制過程中必然要考慮狀態約束，以防止系統不穩定問題的發生。以路徑跟蹤任務中的車輛控制為例，除了考慮跟蹤性能外，還必須將車輛的某些狀態限制在穩定區域內。

針對帶有狀態約束系統的控制問題目前已經產生多種基本理論框架[10-15]。文獻[12]針對帶有時變狀態約束的非線性純反饋系統的跟蹤控制問題，利用矩陣變換以及反步法展開討論，最終實現軌跡跟蹤控制并且系統的狀態始終滿足狀態約束。文獻[13]針對帶有時不變對稱狀態約束系統的代價函數優化問題，通過將狀態約束轉化為障礙函數并入代價函數，使用神經網絡逼近技術，基于自適應動態規劃算法，在系統模型完全已知的情況下實現最優控制。文獻[14]基于矩陣變換以及自適應評價設計算法，利用Critic-Actor神經網絡，有效的解決了非線性純反饋連續系統的“多人博弈”最優控制問題。模型預測控制(MPC)方法作為解決帶有狀態約束的優化控制問題最常用的方法，實際上也是利用障礙函數法，將狀態約束并入代價函數中。盡管上述方法都能解決帶有狀態約束的優化控制問題，但都是基于系統動力學完全已知或者利用辨識手段獲得動力學信息展開討論。然而，如今的控制系統大多呈現強耦合、強非線性的特點，如航天航空等，精確的動力學大多難以獲得，直接或間接地阻礙了帶有狀態約束系統的控制問題的研究。以機電伺服系統為例，機電伺服系統是一個多變量、強耦合的系統，系統的參數易受系統所處環境的影響，在考慮伺服系統跟蹤控制問題的同時，也必須考慮狀態約束問題[16]，因此考慮帶狀態約束且系統具有不確定性的最優控制問題十分必要。這里的不確定性主要指系統動力學部分未知、系統動力學全部未知、系統某些時變參數變化規律未知等。

近年來，積分強化學習(IRL)算法成為實現仿射非線性系統最優控制問題的重要方法之一[17-23]。該方法起源于動態規劃，結合了強化學習理論以及伸進網絡技術，利用系統的輸入輸出數據，結合在線策略迭代的思想，通過交替執行策略評估以及策略改進，最終在部分動力學未知的情況下實現最優控制，因此受到廣泛學者的青睞。針對部分動力學未知的仿射非線性系統的最優控制問題，文獻[18]提出積分強化學習算法。文獻[19]在文獻[18]的基礎上考慮了輸入受限的系統，并且在使用梯度下降法求解權重時采用了經驗回放技術，進一步提高了算法的精度。針對系統動力學完全未知的情況，基于最小二乘法以及離線策略迭代技術，結合積分強化學習算法，成功實現最優控制[20]?？紤]到積分強化學習算法是一種時間觸發型算法，需要頻繁進行策略評估以及策略更新運算，同時更新控制策略，為了降低控制策略的更新頻率，將事件觸發機制與積分強化學習算法結合起來，同時考慮穩態非零問題(當系統處于穩態時，控制策略與狀態不為零)，最終實現最優控制[23]。然而，據作者所知，利用積分強化學習算法解決帶有狀態約束的部分動力學未知系統的最優控制問題尚未得到廣泛關注。

為了克服現存控制方法存在的局限性，最終實現最優控制。本文針對帶有全狀態約束且部分動力學未知系統的最優控制問題，基于IRL控制理論，提出一種帶狀態約束的事件觸發積分強化學習算法。利用矩陣變換將帶有約束的系統轉化為無約束系統，基于轉換之后系統的狀態，利用IRL算法，通過交替執行策略評估以及策略改進，實現最優控制，從而避免對原系統未知動態的估計。此外，在控制過程中引入事件觸發機制，以降低控制策略的更新頻率，節約系統內存資源。

1 問題描述

考慮如下仿射非線性連續系統：

(1)

其中：x=[x1，，xn]T∈Rn是系統可觀測的狀態，Rn表示n維歐幾里得空間，u=[u1，，um]T∈Rm是控制策略，f(x)∈Rn×1是未知的漂移動力學，g(x)∈Rn×m是已知的輸入動力學。假設控制系統(1)是穩定的。

定義系統(1)的代價函數，如下所述。

(2)

本文的控制目標是設計容許的控制策略u使得代價函數最優，即：

(3)

并且u是有界的(不為無窮大)。同時系統狀態xi(i=1，，n)始終是有界的，即|xi|0。

2 控制策略設計

控制策略設計主要包括五部分。首先利用矩陣變換技術將帶有約束的仿射非線性連續系統轉化為不含約束的仿射非線性連續系統，以克服狀態約束控制系統的影響；其次介紹基本的積分強化學習算法；再次考慮到積分強化學習算法頻繁策略更新，為減少計算量和提高控制效率，引入事件觸發機制，基于李雅普諾夫穩定性定理，設計了事件觸發條件，以減少控制策略的更新頻率；然后利用神經網絡逼近值函數的方法，準確地估計值函數；最后給出帶狀態約束的事件觸發積分強化學習算法的流程。

2.1 系統轉換

本節利用系統轉換技術將帶有狀態約束的仿射非線性連續系統轉化為不含約束的仿射非線性連續系統[12]。

在進行系統轉換之前，首先，定義一組虛擬狀態變量z=[z1，，zn]T?Rn，并且滿足如下等式條件：

(4)

其中：ai為xi的邊界值，i=1，2n。注意到，zi(xi)具有如下性質：首先，zi(xi)是單調遞增的函數；其次，zi(0)=0；最后，若xi趨向于-ai時，zi趨向于負無窮，若xi趨向于ai時，zi趨向于正無窮。

引理1[12]：對于任意初始狀態，如果系統的初始狀態滿足狀態約束，利用式(4)得到轉換之后的系統，若設計控制策略使得轉換之后系統的狀態有界，并將控制策略作用于實際系統，則系統的實際狀態滿足狀態約束。

對式(4)進行關于時間的導數求解，將得到一個虛擬系統，并且虛擬系統依然保持仿射非線性的形式。虛擬系統由下式給出：

(5)

其中：bGG與bG是正實數。

通過將狀態約束邊界并入原始仿射非線性連續系統(1)，將得到一個新的無約束系統(5)。此外，如果轉換之后的虛擬系統(5)的穩態值趨向于零，則系統的實際狀態也趨向于零，那么，轉換前后的控制系統具有相同的漸近穩定性。接下來，只需專注于對虛擬系統(5)設計控制策略使得代價函數最優即可。

2.2 積分強化學習算法

本節主要利用積分強化學習算法求解具有部分動力學未知的虛擬系統(5)的最優控制問題。定義虛擬系統的代價函數如下所示：

(6)

對于任意時間間隔Δt>0，式(6)可以重寫為：

(7)

上式也被稱為積分強化學習-貝爾曼(IRL-Belleman)方程，是積分強化學習算法的核心。如果V(zt)是可微的，則：

(8)

根據式(5)以及式(8)，哈密頓函數定義為：

H(z，u，▽V(z))=▽VT(z)(F(z)+G(z)u)-

ρV(z)+zTQz+uTRu

(9)

根據貝爾曼最優原理，對于最優的代價函數V*(z)，哈密頓函數滿足：

(10)

令哈密頓函數關于控制策略的一階偏導數為零，即可獲得最優控制策略。最優控制策略如下所示：

u*(z)=-0.5R-1GT(z)▽V*(z)

(11)

結合式(7)，此時最優代價函數V*(z)滿足：

(12)

基于前面所述，積分強化學習中最關鍵的兩步(策略評估以及策略改進)描述如下。

策略評估：

(13)

策略改進：

ui+1(z)=-0.5R-1GT(z)▽Vi(z)

(14)

其中：i為策略迭代指數。積分強化學習算法描述如下：首先給定初始可許的控制策略u0，通過交替執行策略評估(13)以及策略改進(14)，最終控制策略以及代價函數將收斂于最優值。

對于積分強化學習算法來說，控制器無需時刻更新控制策略，在t時刻采集系統狀態信息，利用(13)以及(14)分別進行策略評估以及策略改進，然后將改進的控制策略作用于系統，直至t+Δt時刻，因此積分強化學習算法是一種時間觸發型算法。對于Δt的選取，現有的文獻一般都會選擇固定值，每隔Δt，進行一次策略改進。若系統處于穩態，仍然需要不斷進行策略評估以及策略改進的計算。因此，下文將結合事件觸發機制確定Δt。

2.3 事件觸發機制

本節主要利用李雅普諾夫函數確定事件觸發條件，從而確定Δt。在分析之前，給出如下條件。u(z)滿足利普希茨連續條件，即：

(15)

(16)

選取V(z)作為李雅普諾夫函數，則：

(17)

結合式(10)以及式(14)可推導出：

▽VT(z)(F(z)+G(z)u(z))=

ρV(z)-zTQz-u(z)TRu(z)，▽VT(z)G(z)=-2uT(z)R

故，式(17)進一步推導為：

(18)

(19)

綜上，如果選擇事件觸發條件：

(20)

2.4 神經網絡實現

一般來說，直接求解V(z)是不容易的。由逼近定理知，若V(z)是連續的、平滑的以及可微的，則V(z)及其關于狀態的導數▽V(z)可以用神經網絡近似，即：

V(z)=WTψ(z)+ε(z)

(21a)

▽V(z)=▽ψT(z)W+▽ε(z)

(21b)

上述網絡也被稱為評論神經網絡，主要由三層組成：輸入層、隱藏層以及輸出層。簡單起見，選擇單隱藏層的神經網絡結構，并將輸入層到隱藏層的權重全部置為1，這意味著隱藏層的輸入即為輸入層的輸入。ψ(z)∈Rl×1是神經元的激活函數組成的向量，▽φ(z)為φ(z)關于狀態z的導數，l為隱藏層神經元的數量。W∈Rl×1是隱藏層至輸出層的常參數組成的權重向量。ε(z)為評論神經網絡的近似誤差，▽ε(z)為ε(z)關于狀態z的導數。

對于求解非線性程度很高的函數來說，現有的文獻一般都會使用神經網絡逼近定理來求解，但是如何設定神經元的數量以及選擇合適的激活函數仍然是一個懸而未決的問題。針對上述情況，已經產生許多合適的激活函數，例如雙曲正切函數和徑向基函數。除此之外，雖然未知函數可以用神經網絡來逼近，但結果未必滿足未知函數的梯度，這主要是由初始權重決定的，以上只能依靠設計師的反復設計以及經驗。由式(26)知，▽V(z)對于確定控制策略來說是必要的。

利用式(21a)逼近式(13)的解，則式(10)可以重寫為：

εb=p(t)+Wi，TΔψ(zt+Δt)

(22)

然而，在[t，t+Δt)時間段內理想權重Wi是未知的。在忽略近似誤差的情況下，式(21a)重寫為：

(23)

(24)

(25)

利用(14)，則基于事件觸發控制的策略更新調整為：

(26)

2.5 算法流程

帶狀態約束的事件觸發積分強化學習算法歸納描述如下。

第一步：初始化，選擇合適的初始控制策略u0、評論神經網絡的初始權重W0、權重收斂誤差εw、權重學習率α、神經元的數量以及各自的激活函數；

第二步：利用式(5)計算G(z)；

第三步：i=0；

第四步：結合式(20)，確定事件觸發條件ei(t)；

第五步：將ui作用于控制系統，并且實時采集數據，并利用式(4)計算虛擬狀態z，直至滿足事件觸發條件；

3 穩定性分析

本節利用李雅普諾夫函數分析在事件觸發條件下控制系統的穩定性。首先給出如下定理。

定理1：考慮由非線性系統(1)轉換之后的虛擬系統(5)、權重更新律以及策略更新律分別如式(24)和式(26)所示，如果選擇事件觸發條件為式(20)，則權重誤差動態是有界的，并且系統是穩定的。

證明：定義李雅普諾夫函數為：

L(t)=L1(t)+L2(t)+L3(t)

(27)

為了便于分析，下面分兩種情況來討論。

(28)

利用Young不等式和Cauchy-schwarz不等式，式(28)進一步推導為：

(29)

(30)

進一步，式(30)推導為：

(31)

(32)

(33)

接下來分析L1(t)，

(34)

然后，討論L3(t)，

(35)

綜上所述，

(36)

若權重誤差滿足：

情形二：在事件觸發的情況下，考慮間斷點處的穩定性。

(37)

4 系統應用

為了驗證帶有狀態約束的事件觸發積分強化學習算法有效性，本節利用單連桿機械臂的仿射非線性連續系統進行仿真[12]，其動態系統描述如下：

本實驗的控制目標是設計控制策略u使得二次型代價函數最優，并且在控制過程中系統的狀態滿足約束，即|xi|<1，i=1，2。二次型代價函數如下所示。

其中：ρ=0.9為折扣因子，r(z，u)=zTQz+uTRu，R=10，Q=diag(0.2，0.2)。

為了克服狀態約束，首先定義一組虛擬狀態z=[z1，z2]T用于系統轉換，轉換之后的系統依然是仿射非線性連續系統，利用式(5)，則G(z)表述：為：

此外，F(z)是未知的。轉換之后的虛擬狀態可以用(4)計算獲得。定義轉換之后系統的代價函數為：

選取Critic神經網絡的結構為2-8-1，其中：神經網絡的輸入變量的個數為2，分別是系統經轉換之后的虛擬狀態z1和z2。輸入層至隱藏層的權重設置為1。選擇單隱藏層神經網絡，并且隱藏層的神經元的數量為8。輸出層神經元的數量為1，代表代價函數的值。隱藏層神經元代表的激活函數組成的向量用ψ(z)表示，為：

仿真過程中參數設置：初始控制策略u0=-1、評論神經網絡權重收斂誤差精度εw=0.005、權重學習率為α=0.9。評論神經網絡的初始權重：

W0=[8.67，-0.15，-5.87，6，0.8，-1.14，1.72，-2.23]T

仿真結果以及分析如下所示。

圖1為虛擬狀態的運行軌跡，其中，實線代表虛擬狀態z1，虛線代表虛擬狀態z2。由圖所知，虛擬狀態在整個控制過程中始終是有界的(不為無窮大)，故系統的實際運行狀態必然滿足約束。

圖1 虛擬狀態曲線

圖2與圖3為考慮狀態約束與未考慮狀態約束的對比圖，虛線代表不考慮狀態約束的運行軌跡，實線代表考慮狀態約束的運行軌跡。兩種情況都是在事件觸發機制下完成的，并且都選擇相同初始參數，可以避免因參數不同而對系統狀態軌跡的影響。由圖知，相較于未考慮狀態約束的情況，本文所提算法在整個控制過程中系統狀態均未超過事先設置的狀態約束，并且最終系統的狀態收斂到穩態點附近，由此判定該算法能夠解決帶有狀態約束的控制問題。結合圖1，虛擬狀態以及實際狀態都收斂到零點附近，因此轉換前后的系統具備相同的漸近穩定性。此外，注意到由于考慮了狀態約束，能使系統較快的收斂到穩態點附近。大約經過5 s之后，系統的狀態全部收斂于零。

圖2 x1軌跡對比

圖3 x2軌跡對比

圖4為帶狀態約束的事件出發積分強化學習控制算法在整個控制過程中施加的控制策略。在經過大約5 s之后，控制策略也收斂于零。對于二次型代價函數，理想情況，最優代價函數的對應的穩態值為零。結合圖2與圖3，5 s之后代價函數的值一直穩定在0的較小鄰域內，說明所提算法是可行的。此外，注意到圖4中某個時刻控制策略顯著增大是由于此時刻實際狀態接近于邊界但并未超過邊界引起的。

圖4 控制輸入軌跡

事件觸發時刻以及事件觸發條件如圖5所示，其中橫軸代表觸發時刻，縱軸代表觸發條件誤差，一旦超過這個誤差，更新控制策略。由橫軸觸發時刻的間隔以及圖4更新控制策略的時刻知，該算法并非是周期觸發。圖6是評論神經網絡部分權重的收斂曲線。由圖知，最終權重將收斂于某一值附近。

圖5 事件觸發時刻以及觸發誤差

圖6 評論神經網絡部分權值軌跡

5 結束語

本文基于事件觸發機制的積分強化學習算法，設計仿射非線性連續系統的最優控制策略，將系統轉換、事件觸發機制、積分強化學習算法緊密地結合起來，利用李雅普諾夫函數給出滿足系統穩定運行的事件觸發條件。在實際工程系統中，由于系統的動力學大多難以獲得并且受狀態約束的影響，使本文算法更具普遍性。最后，針對單連桿機械臂的仿真結果表明所提方法的有效性。