999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的火星無人機狀態約束控制*

2023-09-04 03:02:46田翰文夏元清潘振華王泰祺
航天控制 2023年4期
關鍵詞:系統設計

田翰文,夏元清,潘振華,王泰祺

北京理工大學自動化學院,北京 100081

1 概述

作為一種新型的火星探測裝置,火星無人機可以克服火星車和軌道探測器的一些缺陷,為探索火星、開發火星提供了一條重要的技術途徑[1]。目前,火星無人機主要包括浮式氣球、固定翼、共軸和轉子4種類型:浮式氣球研究較早且功能有限,尚未深入研究,固定翼無人機和轉子無人機無法獲得良好的起降環境,不適合火星飛行。

火星無人機主要扮演2大角色[2]:1)“火星車行駛領航員”。火星無人機在一次飛行中就可完成半徑幾百米范圍的火星地表成像,快速實現周邊地形,精準領航火星車安全快速行駛[3]。2)“火星車探測效能倍增器”[4]。火星無人機的飛行速度快,能快速覆蓋并掌握周邊地表形貌和成分特性,發現并引導火星車快速抵近高價值目標[5],又快又準地實現科學探測,推動火星車對高價值目標探測能力的“倍增”[6]。

苛刻的火星環境對火星無人機技術研究具有極大的挑戰[7]。在同軸火星無人機的飛行控制中,由于火星大氣稀薄,無人機旋翼升力隨旋翼轉速的變化范圍遠小于地球環境,因此火星無人機的飛行位置調整過程較慢。火星風、沙塵暴等現象會嚴重影響火星無人機的飛行穩定性,這就要求火星無人機能快速適應不斷變化的環境,保證無人機的飛行安全。一旦到達火星,無人機必須生存下來,并進行操作。沒有任何物理干預的可能性;因此,火星無人機需要適應環境變化和最大干擾(如空氣密度、溫度、風向、地形特征及光照)[8]。而當前所用的方法為PID控制,對火星無人機的抗干擾能力以及狀態約束方面均提升有限,因此控制方法應在地球無人機(UAV)控制方法的基礎上考慮抗環境干擾。

火星無人機在多種約束條件下運行[9],例如由外部環境條件、系統性能要求或火星無人機安全問題引起的約束[10-11]。目前,基于障礙Lyapunov函數(或積分障礙Lyapunov函數)的反演控制方法總是涉及到虛擬控制器的可行性條件[12],即虛擬控制器必須滿足一定的預定約束區域[13-15],這給相應控制方案的設計和實現帶來了很大的困難[16-17]。針對火星無人機是一個連續時間非線性多輸入多輸出系統,提出了一種考慮輸入約束的基于積分強化學習的最優跟蹤控制方法。為了避免對持續激勵條件的要求,結合了積分強化學習和經驗回放技術,并考慮了輸入飽和度。

本文基于六自由度運動方程和牛頓-歐拉動力學方程,建立了火星無人機的數學模型,引入了純粹基于系統狀態的非線性狀態相關函數。經過坐標變換,通過采用基于障礙Lyapunov函數和積分Lyapunov函數的方法來處理在全狀態和非對稱約束下的非線性系統,并分別對虛擬控制器的可行性進行評估,經過評判神經網絡設計和動作神經網絡設計,采用積分強化學習技術建立連續時間系統的Bellman方程誤差。提出了一種考慮輸入約束的基于積分強化學習的最優跟蹤控制方法,完成了火星共軸無人機的位置控制。

2 火星無人機數學模型

火星無人機的嚴格反饋非線性系統為:

(1)

其中:x1=[x11,x12,x13]T表示無人機的位置,x2=[x21,x22,x23]T表示無人機的速度,ωb=[ωbx,ωby,ωbz]T表示無人機繞x、y、z三軸的角速率,m表示無人機的質量,Fb表示無人機在機體坐標系下所受到的力。

主要受到以下非對稱約束:

x1i:-K1i

(2)

其中:K1i和K2i是已知的正常數。

本文的控制目標是設計火星無人機的自適應神經網絡魯棒控制器,使得系統y(t)的輸出緊密跟蹤期望軌跡yd(t),并且保證系統最終一致且有界,系統中獲得的任何信號都有界。同時,在沒有虛擬控制器可行性條件的情況下,繼續保持一個完全的非對稱狀態約束。

根據式(1)~(2),可以得出:

(3)

g2(x1,x2)u(t)+k(t)

(4)

其中:g1(x1,x2)=([g(x1,x2)+gT(x1,x2)]/2),g2(x1,x2)=([g(x1,x2)-gT(x1,x2)]/2)。

g(x1,x2)是一個非奇異矩陣,并且這個非奇異矩陣的弗羅比尼烏斯均值是有界的。

火星無人機的跟蹤誤差為:

h=x1-xe

(5)

(6)

3 神經網絡函數近似

3.1 神經網絡函數設計

神經網絡是一種通用逼近器,可用于逼近緊集中的未知函數。神經網絡具有良好的抗干擾能力,可以有效降低火星環境下惡劣環境對無人機的影響。因此,激活函數一般為徑向基函數。對于緊集Ω中定義的f(x)∈R3,x∈R3,可以用f(x)個典型線性參數RBF神經網絡來逼近。

f(x)=W*Tφ(x)+χ(x)

(7)

其中:W*是神經網絡的權重矩陣,χ(x)是近似誤差,φ(x)是基函數向量。

(8)

其中:cri∈R3表示RBF神經網絡中心,σNN表示基函數的寬度。由于一般的近似性質,我們可以得到N>0,且如果N>N0,那么χ(x)→0。

3.2 非線性狀態函數

本節將指定一個長期的表示度量,然后通過使用積分強化學習技術來解決這個長期成本。未知的控制方向需要用Nussbaum型函數求解。基于Barrier Lyapunov函數的控制技術通常將狀態約束問題轉化為跟蹤誤差問題,從而對系統的初始狀態產生更多的約束。此外,大多數先前的理論通常是在對稱約束的簡單情況下發展起來的。為了能夠求解非對稱狀態約束,列出了火星無人機位置狀態的非線性相關函數:

(9)

且可以得到:

(10)

對于任何具有狀態約束的嚴格反饋系統,基于障礙Lyapunov函數或積分障礙Lyapunov函數的控制方法都會涉及到所提出的可行性條件。

-K1i<α1i(t)

(11)

其中:α1i(t)代表虛擬控制率。對于虛擬控制律α1,即虛擬控制α′1ivs,雖然依賴于狀態變量和其他待設計參數,但要始終保持在相應控制方案可行的區域內顯然是不切實際的,因為找到這些參數很困難,甚至是不可能的。

引理2對?l∈Rq和p>0,L=llT+pIq和λmin(L)=c是正定對稱矩陣,并滿足:

1)當l=0,L=pIq是正定的;

2)當?l≠0,因為llT的特征值是[1,0,…,0],L的特征值是[p+1,p,…,p],所以L是正定對稱的。

4 控制方向未知的積分強化學習

在本節中,針對具有非對稱狀態約束的嚴格反饋非線性系統(火星無人機)提出了一種基于魯棒自適應的新型控制方案。該控制器設計的關鍵在于,它不直接使用基于坐標變換的通用設計方法z2=x2-α1,也不直接使用基于坐標變換的一般DCS方法z2=x2-α2f,其中xi表示系統狀態,α1表示虛擬控制器,α2f是一階濾波器的輸出。

將坐標變換設計如下:

(12)

(13)

(14)

(15)

另外可以得到:

(16)

其有助于進行穩定性分析,該方法不需要復雜的離線約束優化程序來獲得最優設計參數。

4.1 評判神經網絡設計

定義火星無人機的長期性能指標為:

(17)

情形1:zi2(t)>>cpi,zi2(t)≥max{K12,K22},?ξ∈[t-T,t)

情形2:zi2(t)≥cpi,zi2(t)≤min{|K12|,|K22|},?ξ∈[t-T,t)

情形3:zi2(t)

設計以下公式:

(18)

其中:閾值設計為cqi>0。式(18)可以不斷提高火星無人機適應環境的能力。

跟蹤誤差僅限于狀態約束條件:

上述的情形1中zi(t)遠大于cqi,qz=1代表較差的跟蹤性能。當火星無人機受到干擾,系統狀態越界時,可以利用強化學習將系統拉回約束區域。上述的情形2中zi(t)大于等于cqi,qz=0.3表示具有一般的跟蹤性能,0.3是根據火星無人機的控制特性進行設計。上述的情形3中zi(t)小于cqi,qz=0表示具有優秀的跟蹤性能。

“1”表示U(t)增加,代表當前的控制會導致很大的跟蹤誤差,“0”表示U(t)減小,代表當前的控制得到了很好的控制效果。cqi是一個很小的常數,如1,0.1和0.01。我們利用U(t-T)和U(t)之間的關系,設置了cqi=0.02,并設計了連續時間非線性系統的貝爾曼誤差。

γ-1(U(t)+qc)

(19)

從式(18)可以得出,qc=[qc1,qc2,…,qcn]T,并且

(20)

由式(19)可以發現,U(t)包含了火星無人機中未來系統的信息。無法直接獲得信息的問題很難直接解決,需要特殊的功能設計和適當的設計參數。通常使用值函數近似。用臨界RBF神經網絡對其進行逼近

(21)

(22)

U(t-T)可以估計為

(23)

由于xe是先驗已知的,所以可以選擇它為xm。設計

xm(t)=[x1T(t),sT(t),xeT(t+Te),…,xeT(t+NeTe)]T

Ne是指定的數字,Te是時間間隔。

因此,時間誤差可以寫為:

(24)

(25)

(26)

4.2 動作神經網絡設計

針對火星無人機連續時間非線性多輸入多輸出系統,提出了一種基于積分強化學習的狀態約束神經網絡控制方法。為了估計系統的不確定性,設計了一種作用徑向基函數神經網絡來估計火星無人機系統的不確定性:

(27)

(28)

定義動作神經網絡的權值誤差

(29)

(30)

(31)

盡管f(x1,x2)和g(x1,x2)都是未知的,但本文研究了主要的未知控制方向。這意味著g(x1,x2)不會出現在u(t)里。一般來說,用評判RBF神經網絡近似f(x1,x2)是估計火星無人機動力學不確定性的一種方法。

(32)

(33)

下面進行控制器設計:

第1步:求得時間的導數:

(34)

(35)

(36)

(37)

通過在式(15)和(17)中對z2和y2的定義,得到:

(38)

(39)

(40)

通過使用楊氏不等式:

(41)

(42)

(43)

(44)

可以得出:

(45)

將式(45)代入式(40)可得:

(46)

(47)

最終給出了虛擬控制律:

(48)

(49)

(50)

(51)

因此:

(52)

最終得出:

(53)

第2步:取z2的導數作為時間收益率

(54)

選擇李雅普諾夫函數

(55)

(56)

實際控制律u表示如下:

(57)

(58)

其中:c2,γ2和σ2是正的設計系數。

定理1根據火星無人機的連續時間系統模型,考慮評判神經網絡和動作神經網絡。基于此設計的自適應積分強化學習神經網絡控制器具有式(27)和式(40)的更新特性,在初始值有界時還具有以下特性:

1)在火星無人機閉環系統中,任何信號都是半全局均勻且最終有界的;

(59)

同時,設計了動作神經網絡σn

σn>bφmbφn

(60)

5 仿真驗證與分析

本節在Matlab/Simulink環境下進行數值模擬驗證。在考慮外部干擾和執行器死區特性的情況下,控制目標是使火星無人機在100 s內達到所期望的狀態,并給出了火星共軸雙旋翼無人機的仿真結果。

給定無人機的各項參數為:火星無人機質量為1.8 kg,無人機的姿態角為[0.2,0.1,1.5]Trad,初始位置為[6.1,6.9,5.1]Tm,預期位置為[3.1,10,8.03]Tm。

假設火星無人機的系統干擾上限為1.2×10-3N。設計的控制器參數及所期望軌跡Sp表示如下:

(61)

設計了控制器的積分區間為T=0.1,γ=0.88,δ=1。同時,狀態約束的函數參數為K11=3,K21=-5,K12=K22=-15。所設計的位置控制回路的參數為c1=[0.06,0.06,0.06]T,設計速度控制回路的參數為c2=[16,16,16]T。此外,還設計了一系列強化學習評判神經網絡的參數Γc=0.08,σc=0.16。

最后,將強化學習動作網絡的參數設計為Γa=0.01,σa=0.1。

仿真程序運行了400 s,火星無人機的位置如圖1所示,x軸在T=64.1 s后趨于穩定,y軸在T=75.8 s后趨于穩定,z軸在T=130.8 s后趨于穩定,三軸均達到所需位置。圖2顯示了火星無人機的三軸速度。可以看出,當T=79.5 s時,y軸和z軸的速度趨于0,當T=133.3 s時x軸的速度趨于0,當無人機到達所需位置時,速度將變為0。

圖1 火星無人機位置變化曲線

圖2 火星無人機速度變化曲線

圖3 評判神經網絡輸出變化曲線

圖4 動作神經網絡輸出變化曲線

控制器u的應用程序輸出如圖5所示。在初始階段,對于較大的跟蹤誤差,輸出變化很大,控制器達到穩態的時間相對較快,在T=97.8 s時達到。在穩態階段,控制器α1,u的輸出是穩定的。因此,控制器的穩定性可以通過狀態有界性來實現。

圖5 控制器u輸出曲線

如果約束條件很小,則這些最優設計參數將不可用。但在給定的控制條件下,對虛擬控制器α1沒有約束,也不需要使用復雜的算法來尋找最合適的參數,因此,該方法更有效。

5 結論

針對共軸雙旋翼火星無人機非線性系統抗干擾能力的問題,提出了一種基于強化學習和狀態約束的連續時間非線性系統自適應神經網絡控制方法。嚴格的理論分析表明,閉環系統是穩定的;保證所有閉環信號一致且最終有界。設計了一個RBF神經網絡來近似它。利用運動神經網絡逼近未知漂移動力學,求解未知控制方向。通過嚴格的李雅普諾夫函數證明,得到了閉環的穩定性和一致極限的有界性。同時,我們將權重誤差和跟蹤誤差限制在一個緊集,所設計的算法可以有效地提高火星無人機的環境適應性。采用李亞普諾夫函數和積分李亞普諾夫函數方法處理非線性系統,避免了將狀態約束轉化為新的誤差邊界和虛擬控制器的可行性條件。仿真實驗和數據表明本研究提出的方法可以使火星無人機在惡劣環境下穩定飛行,增強了對環境的適應能力。

猜你喜歡
系統設計
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
何為設計的守護之道?
現代裝飾(2020年7期)2020-07-27 01:27:42
《豐收的喜悅展示設計》
流行色(2020年1期)2020-04-28 11:16:38
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
主站蜘蛛池模板: 国产精品黑色丝袜的老师| 久草国产在线观看| 国模视频一区二区| 波多野结衣在线一区二区| 国产欧美日韩在线一区| 国产成人精品视频一区视频二区| 国产在线一区视频| 中文国产成人精品久久| 欧美精品另类| 国产日韩丝袜一二三区| 国产资源免费观看| 亚洲嫩模喷白浆| 国产又黄又硬又粗| 国产91无码福利在线| 久久精品人人做人人爽| 18禁不卡免费网站| 四虎永久在线精品影院| 亚洲中文字幕手机在线第一页| 欧美国产日本高清不卡| 香蕉在线视频网站| 久久伊人久久亚洲综合| 99热在线只有精品| 91无码人妻精品一区| 亚洲天堂精品视频| 美女被躁出白浆视频播放| 日本a级免费| 日韩色图区| 91视频国产高清| 午夜福利无码一区二区| 日韩欧美成人高清在线观看| 欧美精品在线视频观看| 国产成人亚洲欧美激情| 蜜桃视频一区二区| 国产一区二区三区精品久久呦| 色噜噜在线观看| 伊伊人成亚洲综合人网7777| 毛片久久久| 国产美女无遮挡免费视频| 国产日韩欧美视频| 中文字幕天无码久久精品视频免费| 国产精品福利导航| 欧美一级片在线| 综合成人国产| 国产精品大白天新婚身材| 国产在线欧美| 欧美色图第一页| 久久国产精品国产自线拍| 成年看免费观看视频拍拍| 一级全黄毛片| 99re视频在线| 白浆免费视频国产精品视频| 国产美女丝袜高潮| 996免费视频国产在线播放| 91久久国产综合精品女同我| 一本大道视频精品人妻| 国产凹凸视频在线观看| 国产美女主播一级成人毛片| 亚洲无限乱码| 精品视频免费在线| 另类综合视频| 一级香蕉视频在线观看| 久久久久免费看成人影片 | 亚洲Av综合日韩精品久久久| 2024av在线无码中文最新| 中文字幕有乳无码| 国产九九精品视频| 亚洲天堂777| 亚洲不卡无码av中文字幕| 91久久天天躁狠狠躁夜夜| 亚洲乱码在线视频| 欧美日韩专区| 国产午夜福利在线小视频| 无遮挡一级毛片呦女视频| 日韩国产黄色网站| 国产欧美日韩va| 亚洲天堂网在线播放| 四虎影视8848永久精品| 大乳丰满人妻中文字幕日本| 久久免费观看视频| 欧美成人a∨视频免费观看 | 四虎精品黑人视频| 国产在线视频福利资源站|