999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

未知非線性零和博弈最優跟蹤的事件觸發控制設計

2023-01-16 07:36:02胡凌治趙明明哈明鳴喬俊飛
自動化學報 2023年1期
關鍵詞:方法模型系統

王 鼎 胡凌治 趙明明 哈明鳴 喬俊飛

在實際應用中,外部干擾帶來的困難總是存在的,因此在設計控制器時不可避免地需要考慮擾動[1].H∞最優控制作為魯棒最優控制方法的一個重要分支,在抑制外界擾動對系統性能的影響方面得到了廣泛的關注[2-4].二人零和博弈作為H∞最優控制的特有形式,其核心思想是要求控制輸入使得代價函數最小化并且擾動信號使得代價函數最大化.近年來,對于非線性零和博弈的最優控制問題,學者們大多通過求解相應的Hamilton-Jacobi-Isaacs 方程,這比求解Hamilton-Jacobi-Bellman 方程更加困難[5].到目前為止,尚缺乏有效的方法來得到解析解.受到強化學習方法的啟示,Werbos 在文獻[6]中提出了一種自適應能力強的自適應動態規劃(Adaptive dynamic programming,ADP)方法.該方法能夠獲得一般情況下令人滿意的Hamilton-Jacobi-Isaacs方程的數值解.由于ADP 的智能屬性,使得相關的方法受到了廣泛的關注[7-15].ADP 算法在實現過程中常見的兩種結構形式為:啟發式動態規劃和雙重啟發式動態規劃.此外,ADP 算法在迭代方面可分為值迭代[7-8]和策略迭代[9-10]兩類.值迭代算法從任意半正定初始代價函數出發,不需要初始穩定控制策略.值得注意的是這個初始代價函數通常設為零,使得值迭代算法更容易實現.策略迭代算法需要從初始穩定控制律開始,逐步改進控制策略以達到最優控制律.到目前為止,已有大量工作通過采用ADP方法解決各種控制問題,例如約束控制[11]、最優跟蹤控制[12]、魯棒控制[13]和事件觸發控制[14]等,這充分彰顯了ADP 算法的適用性和巨大潛力.特別地,文獻[8]首次分析了啟發式動態規劃框架下值迭代算法的收斂性.文獻[15]研究了一種帶有折扣不確定非線性動態系統的代價保證自適應最優反饋鎮定問題.在本文中,將采用迭代ADP 算法來獲得零和博弈跟蹤控制下的近似最優策略對.

近幾十年來,非線性系統的最優控制問題一直是控制工程領域的研究熱點.眾所周知,最優控制問題可以分為最優跟蹤[16]和最優調節[17]兩大類,其中,最優跟蹤的實質是使系統的狀態跟蹤上預設的參考軌跡,而最優調節的實質是使狀態最終收斂到平衡點.如今,ADP 算法已被廣泛應用于解決最優軌跡跟蹤問題.文獻[18]針對離散時間非線性系統的迭代啟發式動態規劃算法設計了一個性能指標,用于解決無限時域最優軌跡跟蹤問題.文獻[12]設計了基于執行-評判框架的局部無模型控制器,用于在線控制系統狀態跟蹤上目標軌跡.文獻[19]通過轉換代價函數,設計一種新型的跟蹤控制方法用于消除跟蹤誤差.值得注意的是,上述方法更傾向于控制模型已知的仿射系統,而對于模型未知的非仿射系統卻難以獲得良好的控制效果.為了有效地解決非仿射系統的跟蹤控制問題,文獻[20]基于迭代雙重啟發式動態規劃算法設計了一種數值計算的方法來獲得目標軌跡的穩定控制.在實際應用方面,文獻[21]設計了一種基于折扣廣義值迭代的智能算法用于跟蹤控制污水處理過程中溶解氧和硝態氮的質量濃度.如今,通過采用ADP 算法解決軌跡跟蹤問題已經得到了廣泛的研究.然而,對于未知非線性系統零和博弈跟蹤控制問題的研究卻很少.在本文中,將采用數值計算方法求解目標軌跡的穩定控制,然后根據這個穩定控制來獲得跟蹤控制律和跟蹤擾動律,進而解決未知非線性系統的零和博弈跟蹤控制問題.

在系統穩定控制的基礎上,能源損耗問題已經逐漸成為工業發展的焦點之一.事件觸發控制通過設計一個合適的事件觸發條件,在這個預定義的條件被違反時對系統狀態進行采樣.由于與傳統的周期性時間觸發控制相比,事件觸發控制能夠減少控制所需的通信量和計算資源,因此這種控制模式特別適合于嵌入式系統和網絡控制系統[22].在事件觸發控制過程中,控制器并不是以連續的方式更新控制律,而是在控制系統的離散采樣時刻瞬間進行更新.然而,在兩個連續的采樣時刻之間存在著最大允許傳輸間隔,為了達到預期的性能,觸發間隔通常選擇在允許范圍之內.為此,相關研究者在提出各種事件觸發控制方法上做出了大量貢獻[22-27].文獻[23]設計了一種基于事件的近似最優控制器用于解決離散時間非仿射系統的控制約束問題.文獻[24]針對一類仿射離散時間非線性系統,設計了一種次優的事件觸發條件.文獻[25]針對未知非線性系統設計了一種基于事件的迭代自學習控制器,并從輸入到狀態穩定性(Input-to-state stability,ISS) 的角度分析了閉環系統的穩定性.文獻[26]和文獻[27]采用基于啟發式動態規劃框架的事件觸發控制方法分別解決了離散時間系統和連續時間系統的最優調節問題.到目前為止,還沒有采用迭代自適應評判的事件觸發控制方法解決離散時間未知非線性系統零和博弈跟蹤控制問題的結果.

基于此,本文針對離散時間未知非線性系統設計一種基于事件的近似最優軌跡跟蹤算法,目的在于解決零和博弈軌跡跟蹤控制問題并減少計算量.為了更容易獲得近似最優跟蹤策略對,采用迭代自適應評判方法將最優跟蹤控制問題轉化為最優調節問題.然后,設計一個合適的事件觸發條件對跟蹤策略對進行階段性更新.值得注意的是,事件觸發的引入可能導致系統不穩定.因此,本文將采用ISSLyapunov 方法證明被控誤差系統是漸近穩定的.最后,通過兩個仿真實例驗證了本文提出算法的有效性.

在本文中,R和 N 分別表示所有實數集和所有非負整數集合. Rn表示由全部n-維實向量組成的歐氏空間. Rn×m表示n×m實矩陣組成的空間.Ω表示 Rn上的一個緊集.In表示n×n維的單位矩陣. T 代表轉置運算.

1 問題描述

考慮一類非仿射離散時間系統:

式中,xk∈Rn是狀態向量,uk∈Rm是控制向量,wk∈Rr是外部擾動,F(·) 是一個未知非線性系統函數.

假設1[28].函數F(·) 在包含原點的緊集Ω?Rn上Lipschitz 連續,且系統(1)是可控的,即存在連續的控制策略使得系統穩定.

考慮零和博弈跟蹤控制問題,目標是設計一個反饋控制策略u(xk)和一個反饋擾動策略w(xk),使得系統(1)中的狀態xk跟蹤上預設的參考軌跡.假設有界參考軌跡ξk滿足:

眾所周知,對于模型已知的仿射系統,很容易得到相應的穩定控制.然而,對于模型未知的非仿射系統,關于跟蹤控制的研究依舊較少.本文采用一種數學方法獲得穩定控制v(ξk),進而解決零和博弈跟蹤控制問題.為了將跟蹤問題轉化為調節器問題,定義跟蹤控制律和跟蹤擾動律為:

通過結合式(1)~(5),在時間觸發機制下的關于跟蹤誤差的系統動態可以表示為:

式中,S(·) 是一個連續性函數,并且滿足S(0,0,0)=0.

對于零和博弈最優跟蹤控制問題,目標是找到一個控制策略μ(·)和一個擾動策略π(·) 分別使得代價函數最小化和最大化.本文將代價函數定義為:

式中,Q∈Rn×n、R∈Rm×m是兩個正定矩陣,γ是描述擾動衰減水平的正常數.

根據Bellman 最優性原理,誤差系統(9)的最優代價函數滿足:

由式(14)可以看出,想要通過傳統的方法直接求出最優策略對就必須知道J*(ek+1)的值并且需要知道系統模型.然而,這對于非仿射系統來說是困難的.因此,在第2 節引入一種值迭代算法,目的是通過神經網絡的逼近效應去獲得近似的最優策略對.

2 事件觸發最優跟蹤控制設計

在本節中,推導了零和博弈誤差系統在事件觸發機制下的迭代過程并給出神經網絡實現方法.

2.1 值迭代算法推導

隨著迭代指標l的增加,整個學習過程可以視為不斷更新迭代策略對:

2.2 神經網絡實現

為了實現迭代自適應評判算法,構建四個神經網絡,即模型網絡、評判網絡、執行網絡和擾動網絡,目的是通過連續逼近方法獲得近似最優策略對通過建立模型網絡得到原系統的近似狀態并求出參考軌跡的穩定控制v(ξk).此外,通過訓練另外三個神經網絡得到近似代價函數和近似策略對.總體而言,本文提出的事件觸發最優跟蹤控制方法如圖1 所示.

圖1 基于事件的零和博弈跟蹤控制方法示意圖Fig.1 The simple structure of the event-based zero-sum game tracking control method

1)模型網絡.由于原系統是未知的,需要構造一個模型網絡來識別系統動態.目的是得到近似的系統狀態其神經網絡表達式為:

本文運用Matlab 神經網絡工具箱來訓練模型網絡.對于跟蹤控制問題,目標是確保系統狀態軌跡xk能夠跟蹤上參考軌跡ξk.然后,式(4)的神經網絡表達式可以寫為:

根據梯度下降算法,評判網絡的權值矩陣更新規則為:

式中,αc∈(0,1) 為評判網絡的學習率.

3)執行網絡:使用執行網絡來輸出近似跟蹤控制律,其神經網絡表達式為:

執行網絡的權值矩陣更新方式可以表示為:

式中,αa∈(0,1) 為執行網絡的學習率.

4) 擾動網絡:與執行網絡類似,使用擾動網絡來輸出近似跟蹤擾動律,其神經網絡表達式為:

式中,αd∈(0,1) 為擾動網絡的學習率.

3 穩定性分析

本文引入了一個合適的觸發條件.然后,根據這個觸發條件,使用Lyapunov 方法來證明基于事件的零和博弈誤差系統的穩定性.

引理1.假設存在一個正常數 Γ 使得‖ek+1‖≤Γ‖σk‖+Γ‖ek‖,則觸發間隔‖σk‖滿足不等式條件

在這個假設條件中,如果不等式(38)和(39)成立,則函數V視為系統(9)的ISS-Lyapunov 函數[29].根據Lyapunov 理論所述,如果系統(9)存在一個滿足式(38)和式(39)的ISS-Lyapunov 函數V,那么這個系統就具有ISS.然后,根據設置的觸發條件研究系統(9)的漸近穩定問題.

那么,誤差系統(9)是漸近穩定的.

證明.下面將分為兩種情況進行證明:系統處于事件未觸發時刻和系統處于事件觸發時刻.

情況1.事件沒有被觸發,即k∈(kj,kj+1).根據不等式(38),可得:

結合式(40)和式(42),可得:

由于在這種情況下事件沒有被觸發,所以觸發條件(37)恒成立.然后,代入式(39),可得:

再將式(43)代入式(44),可得:

接著,根據不等式(41),可得:

式中,Γ∈(0,0.5). 考慮到?∈(0,1),有:

由于k和kj是離散時刻,這就使得在事件不觸發的情況下有k-kj ≥1,進而得到:

根據式(51),可得:

將式(52)代入式(50),可得:

此外,易得出:

因此,根據式(53)和式(54),可得:

4 仿真實驗

為了進一步驗證本文算法的有效性,本節將其應用于兩個具體系統.

例1.考慮一個離散時間非仿射系統:

普外科具有發病迅速、起病急、發病急驟、預后差、病殘率高等特點,為了及時控制病情,目前常選用手術治療,雖然效果顯著,但隨著相關研究增多,可發現圍手術期間若未實施有效、科學的護理方案,可影響日后生活質量和恢復情況 [14-15]。早期常選用優質護理,其能夠保證患者生活、社會、心理、生理上得到全面性護理,但心理疏導效果較差 [16]。

為了有效地控制這個非仿射非線性系統,一些基本參數在表1 中給出.在自適應評判實現中,運用Matlab 神經網絡工具箱訓練結構為4-8-2 的模型網絡用于識別未知系統,其中學習率αm=0.02,訓練誤差為 1 0-8.在訓練過程中,收集了1 000 個數據樣本,每個樣本有 5 00 個訓練步來學習動態信息.然后,用另外1 000 個數據樣本驗證模型網絡的逼近性能.根據式(20)的性能指標,訓練的狀態誤差平方和如圖2 所示.此外,訓練模型網絡后,記錄并保持最終權值不變.

圖2 模型網絡訓練誤差 (例1)Fig.2 The training errors of the model network(Example 1)

表1 兩個仿真實驗的主要參數Table 1 Main parameters of two experimental examples

定義需要跟蹤的參考軌跡為:

例2.考慮如下所示的扭擺裝置[30].

圖3 系統狀態、控制律和擾動律軌跡(例1)Fig.3 Trajectories of the state,the control law,and the disturbance law (Example 1)

圖4 跟蹤誤差、跟蹤控制律和跟蹤擾動律軌跡(例1)Fig.4 Trajectories of the tracking error,the tracking control law,and the tracking disturbance law (Example 1)

圖5 穩定控制 v (ξk) (例1)Fig.5 The steady control v (ξk) (Example 1)

圖6 觸發閾值 σT (例1)Fig.6 The triggering threshold σT (Example 1)

式中,xk=[x1k,x2k]T=[θk,ωk]T是狀態向量并設置初始狀態x0=[0.3,-0.3]T.同樣,這個扭擺系統的一些基本參數在表1 中給出.模型網絡的訓練過程與例1 相似,通過進行一個有效的學習階段,訓練的狀態誤差平方和如圖7 所示,訓練結束后保持權值不變.定義相關的參考軌跡為:

圖7 模型網絡訓練誤差(例2)Fig.7 The training errors of the model network(Example 2)

式中,ξ0=[-0.1,0.2]T.初始跟蹤誤差e0=x0-ξ0=[0.4,-0.5]T.然后,根據所設計的算法去訓練評判網絡、執行網絡和擾動網絡.這三個網絡的迭代次數,學習率和初始權值的選擇與例1 相同.

為了采用基于事件的控制方法,根據表1 中的參數,事件觸發閾值可以表示為:

同樣,原系統的狀態xk、控制律u(xk)和擾動律w(xk) 的響應曲線如圖8 所示.跟蹤誤差ek、跟蹤控制律u(ek)和跟蹤擾動律w(ek) 的響應曲線如圖9 所示.此外,通過實驗發現跟蹤控制律和跟蹤擾動律在 2 00 個時間步上只更新了 76 次.觸發閾值的演化曲線如圖10 所示.結果表明,本文提出的控制算法可以很好地控制未知非線性零和博弈系統跟蹤上預設的參考軌跡并且極大程度地提高了資源利用率.

圖8 系統狀態、控制律和擾動律軌跡(例2)Fig.8 Trajectories of the state,the control law,and the disturbance law (Example 2)

圖9 跟蹤誤差、跟蹤控制律和跟蹤擾動律軌跡(例2)Fig.9 Trajectories of the tracking error,the tracking control law,and the tracking disturbance law (Example 2)

圖10 觸發閾值 σT (例2)Fig.10 The triggering threshold σT (Example 2)

5 結束語

針對未知非線性系統的零和博弈軌跡跟蹤問題,提出了一種基于迭代自適應評判的事件觸發控制方法,極大地減少了計算量.首先,通過建立模型網絡得到參考軌跡的穩定控制,進而將軌跡跟蹤問題轉化為誤差系統的最優調節問題.然后,設計一個合適的事件觸發條件,并證明了基于事件的誤差系統是漸近穩定的.最后,通過兩個仿真實例驗證了所提算法的可行性和有效性.目前的研究主要是在理論方向,將該方法擴展到實際應用場景是未來的工作,包括基于所提跟蹤算法控制污水處理過程中溶解氧和硝態氮的質量濃度.

猜你喜歡
方法模型系統
一半模型
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 巨熟乳波霸若妻中文观看免费| 亚洲精品制服丝袜二区| 中国毛片网| 日韩av电影一区二区三区四区| 国产在线麻豆波多野结衣| 热思思久久免费视频| 国产精品开放后亚洲| 欧美色图久久| 国产精品片在线观看手机版 | 综合久久五月天| 精品视频第一页| 日韩黄色在线| 成人午夜精品一级毛片| 成年女人a毛片免费视频| 91人妻日韩人妻无码专区精品| 国产成人无码AV在线播放动漫 | 国产成人一区在线播放| 狠狠色噜噜狠狠狠狠奇米777 | 亚洲Aⅴ无码专区在线观看q| 国内自拍久第一页| 无码AV动漫| 日韩一区二区三免费高清| a级免费视频| 99精品在线视频观看| 又粗又硬又大又爽免费视频播放| 国内黄色精品| 欧美有码在线| 一区二区三区国产精品视频| 老司国产精品视频| 国产无码在线调教| 91精品国产自产在线老师啪l| 欧美日韩成人| 国产精品分类视频分类一区| 国产精品美女网站| 久久这里只有精品国产99| 国产精品自在拍首页视频8| 国产欧美日韩另类| 精品国产福利在线| 成人一级免费视频| 亚洲日韩精品无码专区97| 欧美一级一级做性视频| 经典三级久久| 亚洲天堂.com| 亚洲福利片无码最新在线播放| 国产伦片中文免费观看| 狠狠五月天中文字幕| 欧美日韩精品综合在线一区| 国产成人久久综合一区| 欧美不卡二区| 亚洲欧美不卡| 亚洲视频免费在线看| 国产精品亚洲一区二区三区z | 在线观看91精品国产剧情免费| 亚洲狠狠婷婷综合久久久久| 亚洲精品不卡午夜精品| 青青操视频在线| 色135综合网| 欧美日本在线观看| 激情国产精品一区| 亚洲人成在线精品| 成人午夜天| www.亚洲色图.com| 色哟哟国产精品一区二区| 成人福利在线免费观看| 国产色爱av资源综合区| 在线观看国产精品第一区免费| 亚洲成a人在线播放www| 中文无码毛片又爽又刺激| 国产成人综合欧美精品久久| 91小视频在线| 亚洲国产精品不卡在线| 成人午夜精品一级毛片| 久久久久亚洲AV成人人电影软件| 欧美成a人片在线观看| 国产高清无码麻豆精品| 欧洲精品视频在线观看| 成人一级黄色毛片| 岛国精品一区免费视频在线观看| 亚洲AV无码乱码在线观看代蜜桃 | 婷婷亚洲最大| 国产欧美自拍视频| 欧美.成人.综合在线|