郭建國(guó), 蘇亞魯
(西北工業(yè)大學(xué)精確制導(dǎo)與控制研究所, 陜西 西安 710072)
高超聲速飛行器主要是指飛行速度大于5馬赫的飛行器。由于飛行速度快、飛行包線大、作戰(zhàn)距離長(zhǎng)等特點(diǎn),這類(lèi)飛行器已成為世界各國(guó)航空航天領(lǐng)域的重點(diǎn)發(fā)展方向[1]。然而,高超聲速飛行器的復(fù)雜特性使其飛行控制系統(tǒng)設(shè)計(jì)面臨嚴(yán)峻挑戰(zhàn)。
國(guó)內(nèi)外學(xué)者基于高超聲速飛行器的建模和控制問(wèn)題已開(kāi)展了廣泛研究并取得一定成果,包括反饋線性化、反步法、滑模控制、自適應(yīng)魯棒控制等[2]。文獻(xiàn)[3]在反步法框架下設(shè)計(jì)了姿態(tài)跟蹤魯棒控制器,同時(shí)采用一種基于新型跟蹤微分器的非線性干擾觀測(cè)器估計(jì)參數(shù)攝動(dòng)、外部干擾等不確定性。文獻(xiàn)[4]采用反饋線性化和干擾觀測(cè)器相結(jié)合的方法,研究了輸入受限條件下高超聲速飛行器的速度和高度跟蹤問(wèn)題。文獻(xiàn)[5]針對(duì)帶有非最小相位特性的高超聲速飛行器控制問(wèn)題,借鑒正則形式變換,提出了一種縱向輸出跟蹤控制方法。文獻(xiàn)[6]利用干擾觀測(cè)器和神經(jīng)網(wǎng)絡(luò)研究了風(fēng)干擾下的高超聲速飛行器的控制問(wèn)題。文獻(xiàn)[7]通過(guò)匹配化變換實(shí)現(xiàn)了高超聲速飛行器的滑模姿態(tài)控制。上述各種先進(jìn)控制方法保證了系統(tǒng)的魯棒性、穩(wěn)定性和抗飽和能力,然而鮮有文獻(xiàn)涉及到滿足性能指標(biāo)要求的優(yōu)化控制問(wèn)題。
高超聲速飛行器這類(lèi)非線性系統(tǒng)優(yōu)化控制的難點(diǎn)是求解哈密頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman, HJB)方程。自適應(yīng)動(dòng)態(tài)規(guī)劃(adaptive dynamic programming, ADP)利用一個(gè)函數(shù)近似結(jié)構(gòu)近似性能指標(biāo)函數(shù),采用離線迭代或在線更新的方式獲得系統(tǒng)的近似最優(yōu)控制,成為最優(yōu)化領(lǐng)域的研究熱點(diǎn)[8]。文獻(xiàn)[9]基于策略迭代提出了一種在線自適應(yīng)方法,并在理論上證明了算法的穩(wěn)定性。文獻(xiàn)[10]采用積分強(qiáng)化學(xué)習(xí)技術(shù)求解連續(xù)時(shí)間非線性系統(tǒng)的最優(yōu)跟蹤控制問(wèn)題。上述方法均采用評(píng)價(jià)網(wǎng)絡(luò)和控制網(wǎng)絡(luò),而且為了保證系統(tǒng)的穩(wěn)定性,往往要求給定一個(gè)初始穩(wěn)定控制。為了放松這兩個(gè)條件,文獻(xiàn)[11]只使用一個(gè)評(píng)價(jià)網(wǎng)絡(luò)估計(jì)系統(tǒng)的性能指標(biāo)函數(shù),同時(shí)采用一種新型的參數(shù)訓(xùn)練方法,克服了對(duì)初始穩(wěn)定控制的要求。文獻(xiàn)[12]采用一種新型的策略迭代方法求解非線性系統(tǒng)的全局最優(yōu)控制問(wèn)題。文獻(xiàn)[13]針對(duì)高超聲速飛行器的魯棒控制問(wèn)題,設(shè)計(jì)滑模控制器來(lái)保證系統(tǒng)整體穩(wěn)定性,同時(shí)提出一種基于數(shù)據(jù)的輔助控制器在線自適應(yīng)補(bǔ)償干擾和不確定引起的系統(tǒng)振蕩。文獻(xiàn)[14]基于積分滑模和ADP方法實(shí)現(xiàn)了近空間飛行器的最優(yōu)姿態(tài)跟蹤。需要指出的是,上述關(guān)于ADP的研究主要基于仿射非線性系統(tǒng),不能直接應(yīng)用在具有嚴(yán)格反饋形式的模型。
綜合以上分析,本文針對(duì)高超聲速飛行器的縱向模型,提出了一種反步法和ADP相結(jié)合的非線性優(yōu)化學(xué)習(xí)控制方法。首先,采用反步法設(shè)計(jì)穩(wěn)態(tài)控制器以保證穩(wěn)態(tài)階段系統(tǒng)跟蹤誤差趨近于0,并由此得到系統(tǒng)的誤差模型。然后,基于單個(gè)評(píng)價(jià)網(wǎng)絡(luò)的ADP方法,通過(guò)在線調(diào)整評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值,設(shè)計(jì)最優(yōu)反饋控制器,最終使系統(tǒng)實(shí)現(xiàn)近似最優(yōu)跟蹤。
考慮高超聲速飛行器縱向動(dòng)力學(xué)模型[15]為
(1)

(2)
式中,β為發(fā)動(dòng)機(jī)節(jié)流閥開(kāi)度。
由式(1)知,可以將模型分解成速度子系統(tǒng)和高度子系統(tǒng),令x1=V,u1=β,速度子系統(tǒng)為
(3)
式中,當(dāng)u1>1時(shí),
而當(dāng)u1≤1時(shí),
(4)
式中,kp和ki為待設(shè)計(jì)的正常數(shù)。
假設(shè) 1[16]模型式(1)中推力項(xiàng)Tsinα相對(duì)升力L很小,因此忽略不計(jì)。
令x2=γ,x3=α+γ,x4=q和u2=δe,考慮到假設(shè)1,高度子系統(tǒng)可以寫(xiě)成嚴(yán)格反饋形式:
(5)


控制器的設(shè)計(jì)目標(biāo)是使速度子系統(tǒng)和高度子系統(tǒng)分別準(zhǔn)確跟蹤速度指令x1d和航跡角指令γd,同時(shí)滿足給定性能指標(biāo)最優(yōu)。自適應(yīng)最優(yōu)控制器設(shè)計(jì)成穩(wěn)態(tài)控制和最優(yōu)反饋控制兩部分,穩(wěn)態(tài)控制項(xiàng)保證跟蹤誤差在穩(wěn)態(tài)階段趨向于0,最優(yōu)反饋控制實(shí)現(xiàn)暫態(tài)階段對(duì)指令信號(hào)的最優(yōu)跟蹤。
針對(duì)速度子系統(tǒng),控制輸入u1設(shè)計(jì)成兩部分:
(6)

定義速度跟蹤誤差e1=x1-x1d,對(duì)e1進(jìn)行求導(dǎo),并考慮式(3)和式(6),得
(7)
(8)


(9)
則系統(tǒng)式(3)的最優(yōu)跟蹤問(wèn)題就可以轉(zhuǎn)化為誤差系統(tǒng)式(9)的最優(yōu)穩(wěn)定問(wèn)題。

(10)
將式(8)代入式(10)得
(11)

證畢
高度子系統(tǒng)是具有嚴(yán)格反饋形式的三階系統(tǒng),可以采用反步法設(shè)計(jì)控制器。首先,定義誤差如下:
(12)
式中,x2d=γd;x3d和x4d為虛擬控制輸入。
步驟 1對(duì)e2求導(dǎo),并考慮式(5)和式(12),得
(13)

(14)

將式(14)代入式(13)得
(15)
步驟 2對(duì)e3求導(dǎo),并考慮式(5)和式(12),得
(16)

(17)
將式(17)代入式(16)得
(18)
步驟 3對(duì)e4求導(dǎo),并考慮式(5)和式(12),得
(19)

(20)

將式(20)代入式(19)得
(21)

(22)
則系統(tǒng)式(5)的最優(yōu)跟蹤問(wèn)題就可以轉(zhuǎn)化為誤差系統(tǒng)式(22)的最優(yōu)穩(wěn)定問(wèn)題。

(23)

證畢
基于定理1和定理2,這部分研究速度誤差系統(tǒng)式(9)和高度誤差系統(tǒng)式(22)的最優(yōu)穩(wěn)定問(wèn)題,可將式(9)和式(22)寫(xiě)成統(tǒng)一形式:

(24)
首先,針對(duì)式(24),定義無(wú)限時(shí)間性能指標(biāo)函數(shù):

(25)
式中,τ表示時(shí)間;Q和R為正定對(duì)稱(chēng)矩陣。
基于式(24)和式(25),定義Hamilton函數(shù):
(26)

(27)
從而得最優(yōu)控制輸入:
(28)
將式(28)代入式(27),得到
(29)
為了獲得最優(yōu)控制,必須求解式(29),但是式(29)是一階非線性偏微分方程,很難獲得解析解。
假設(shè) 2存在關(guān)于E的函數(shù)η(E),使其滿足:
(30)

引理 1[17]針對(duì)系統(tǒng)式(24)和性能指標(biāo)函數(shù)式(25)設(shè)計(jì)最優(yōu)控制式(28),則有如下結(jié)論成立:
結(jié)論 1Lyapunov函數(shù)J1(E)滿足:
(31)

(32)
采用單層評(píng)價(jià)網(wǎng)絡(luò)估計(jì)性能指標(biāo)函數(shù)
V*(E)=WTφ(E)+ε(E)
(33)
式中,W∈Rl是理想權(quán)值;φ(E)∈Rl是激活函數(shù),且φ (0)=0,l是隱含層的節(jié)點(diǎn)數(shù);ε(E)是估計(jì)誤差。
對(duì)式(33)求導(dǎo)可得
(34)


由式(28)、式(29)和式(34)得
(35)
(36)
式中,
D=G(X)R-1GT(X)


(37)
從而最優(yōu)控制和Hamilton函數(shù)的估計(jì)為
(38)
(39)
(40)
(41)
式中,
ρ=σTσ+1

(42)
高度子系統(tǒng)在反步控制設(shè)計(jì)過(guò)程中,進(jìn)行虛擬控制量求導(dǎo)運(yùn)算時(shí)存在“微分膨脹”問(wèn)題。本文采用如下一階濾波器解決這一問(wèn)題:
(43)
式中,x3c和x4c為濾波器的輸入;τ3和τ4為時(shí)間常數(shù)。


證明選取Lyapunov函數(shù)
J=α2J1(E)+J2
(44)

對(duì)J2求導(dǎo),并考慮式(36)、式(39)和式(41),得
(45)
經(jīng)化簡(jiǎn)整理,可得
(46)
對(duì)式(46)前兩項(xiàng)取范數(shù),并考慮Dm≤|D|≤DM,有
(47)
考慮到
(48)
(49)
從而得
(50)

(51)
下面分兩種情況討論。

(52)
由假設(shè)2得
(53)


(54)
考慮到假設(shè)2和引理1,有
(55)

由式(33)、式(35)、式(37)和式(38)得
(56)
(57)
bWφM+εM=εr1
(58)
(59)
式中,λmax(R-1)為矩陣R-1的最大特征值。

證畢

為驗(yàn)證本文所提出的控制方法的有效性,對(duì)高超聲速飛行器縱向模型進(jìn)行閉環(huán)系統(tǒng)仿真。速度和高度參考指令分別由幅值為30.48 m/s和304.80 m的階躍信號(hào)通過(guò)如下濾波器給出:
(60)

評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值更新過(guò)程如圖1所示,由仿真結(jié)果可知,在經(jīng)過(guò)約25 s的學(xué)習(xí)后,評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值收斂。為了驗(yàn)證本文方法對(duì)控制性能的提升,將所設(shè)計(jì)的自適應(yīng)優(yōu)化控制方法與文獻(xiàn)[18]中反步控制方法進(jìn)行對(duì)比分析,仿真結(jié)果如圖2~圖6所示。

圖1 評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值更新Fig.1 Weight updating of critic network

圖2 速度跟蹤曲線Fig.2 Curve of velocity tracking
圖2為速度跟蹤曲線,從圖中可以看出,在所設(shè)計(jì)控制方案下,閉環(huán)系統(tǒng)對(duì)速度指令具有很好的跟蹤精度,且相對(duì)反步法收斂速度更快。由圖3的高度跟蹤曲線可知,所提方法能夠?qū)崿F(xiàn)高度的精確跟蹤。圖4為航跡角、攻角和俯仰角速度的響應(yīng)曲線,與傳統(tǒng)的反步法相比,本文所設(shè)計(jì)的控制方法可以使系統(tǒng)在更短的時(shí)間內(nèi)趨于穩(wěn)定狀態(tài),從而改善系統(tǒng)的響應(yīng)特性。圖5和圖6為控制輸入的變化曲線,發(fā)動(dòng)機(jī)節(jié)流閥開(kāi)度和升降舵偏轉(zhuǎn)角均保持在合理范圍內(nèi)。

圖3 高度跟蹤曲線Fig.3 Curve of altitude tracking

圖4 系統(tǒng)狀態(tài)響應(yīng)曲線Fig.4 Response curve of system states

圖5 發(fā)動(dòng)機(jī)節(jié)流閥開(kāi)度曲線Fig.5 Opening curve of engine throtte

圖6 升降舵偏轉(zhuǎn)角曲線Fig.6 Curve of elevator deflection
為進(jìn)一步說(shuō)明所提方案的優(yōu)越性,在80 s≤t≤150 s時(shí)分別向速度子系統(tǒng)和高度子系統(tǒng)加入以下擾動(dòng):d1=10sint,d2=0.05sint。系統(tǒng)在干擾作用下的速度和高度跟蹤結(jié)果如圖7和圖8所示。可以看出,本文所提出的方法仍能保證閉環(huán)系統(tǒng)的穩(wěn)定且具有較高的跟蹤精度,這主要是因?yàn)樵u(píng)價(jià)網(wǎng)絡(luò)可以利用權(quán)值更新律實(shí)時(shí)調(diào)整權(quán)值,從而提升控制器的控制性能,降低外界干擾對(duì)系統(tǒng)的不利影響。

圖7 干擾作用下的速度跟蹤曲線Fig.7 Velocity tracking curve with disturbance

圖8 干擾作用下的高度跟蹤曲線Fig.8 Altitude tracking curve with disturbance
本文設(shè)計(jì)了一種基于ADP的高超聲速飛行器優(yōu)化學(xué)習(xí)控制方案。首先借助反步法得到穩(wěn)態(tài)控制輸入,同時(shí)建立系統(tǒng)的誤差模型,將最優(yōu)控制問(wèn)題轉(zhuǎn)化為最優(yōu)穩(wěn)定問(wèn)題。在誤差模型的基礎(chǔ)上,采用單個(gè)評(píng)價(jià)網(wǎng)絡(luò)的ADP方法設(shè)計(jì)最優(yōu)反饋控制輸入。理論分析和仿真結(jié)果均表明所設(shè)計(jì)的控制方法不僅可以實(shí)現(xiàn)對(duì)指令信號(hào)的穩(wěn)定精確跟蹤,而且可以改善系統(tǒng)的動(dòng)態(tài)特性。