梁小輝,胡昌華,周志杰,王青
1. 西北工業大學 自動化學院,西安 710129 2.火箭軍工程大學 導彈工程學院,西安 710025 3.北京航空航天大學 自動化科學與工程學院,北京 100191
大型運載火箭是開展大規模空間探索與開發的前提,研制新一代運載火箭對于中國未來的太空發展戰略意義重大。目前由于大運載技術還不夠成熟,發射任務還時有失敗,因此,保障大型運載火箭的安全可靠飛行已成為國家迫切需要解決的重大工程問題[1-3]。容錯控制技術[4]可利用故障檢測信息,通過參數調整、控制重構等手段,保證執行機構、測量器件或其他系統元器件處于故障狀態時,閉環系統仍然穩定且維持一定的控制性能,在航天飛控系統設計中得到了廣泛的應用[5]。
容錯控制一般可分為主動容錯和被動容錯2種情況[6-7]。針對運載火箭推力下降或伺服機構卡死等有限故障,文獻[8]提出了一種基于徑向基神經網絡的自適應容錯姿態控制方法,使用神經網絡在線辨識模型的故障參數和不確定干擾,在保證姿態控制系統穩定的同時提高了對故障的自適應能力。文獻[9-10]設利用擴張狀態觀測器來估計可重復使用運載火箭的柵格翼故障和系統不確定性,并結合固定時間收斂的相關理論,消除了觀測誤差收斂受系統初始值的限制,并在此基礎上,設計了一種非奇異快速終端滑模容錯控制器,消除了執行器故障的不利影響,保證了姿態跟蹤性能。針對結構損傷導致的氣動參數變化,文獻[11]在線估計了氣動參數的變化,利用自適應反步容錯控制器來補償結構損傷導致的氣動參數變化,消除了結構損傷對系統靜穩定性和控制精度的影響,實現容錯飛行控制功能。考慮到系統受外部干擾和未知執行器效率損失的影響,文獻[12]提出了一種積分滑模容錯控制方法,該方法保證了執行器故障下航天器姿態控制系統的穩定性,并采用自適應方法消除了故障信息邊界的限制。進一步考慮執行器飽和問題,文獻[13]利用魯棒控制技術,設計了一種被動容錯姿態穩定控制方法,該方法即使在控制輸入飽和的情況下也可以保證姿態系統的局部有限時間穩定性。
上述的幾種容錯控制手段雖然可以有效提高姿態控制系統的魯棒容錯能力,但其大多都缺乏自我學習和參數自主更新的功能,當系統遭遇意外故障時,火箭控制系統的性能會仍然會受到很大影響。與傳統的控制方法不同,自適應動規劃(Adaptive Dynamic Programming, ADP)是一種利用一個函數近似結構(例如神經網絡、模糊模型、多項式等) 來估計代價函數, 用于按時間正向求解動態規劃的學習算法,具有在線學習和調整控制器參數的能力[14-16]。文獻[17]提出了一種基于執行-評價(Actor-Critic, AC)結構的ADP算法來處理分散跟蹤控制問題,并通過AC網絡求解了Hamiltonian-Jacobi-Bellman方程。文獻[18]基于增量近似動態規劃設計了一類非線性系統的無模型控制方案。利用ADP和滑模控制技術,文獻[19]解決了高超聲速飛行器姿態跟蹤控制問題。該算法將實際值與參考信號之間的偏差信息作為AC網絡的輸入,利用ADP算法產生補償控制以改善系統性能。雖然容錯控制和自適應動態規劃都取得了一定的研究成果,但是二者之間的有機結合還有待進一步研究,尤其是在運載火箭姿態控制方面的相關應用。
為了解決運載火箭執行機構故障下的姿態容錯控制問題,本文提出了一種基于自適應動態規劃的智能容錯控制方法。首先,構造了一種自適應故障觀測器,有效實現了執行機構未知故障的估計;在此基礎上設計了一種自適應滑模容錯控制器,保證了故障情況下閉環系統的穩定以及姿態跟蹤誤差的有限時間收斂;同時,為了提高火箭姿態跟蹤的控制精度,利用執行-評價網絡結構,設計了一種自適應動態規劃補償控制器,降低執行機構故障帶來的消極影響;最后,通過仿真驗證證明了所提算法的有效性。
運載火箭繞質心轉動動力學方程可表示為[20]
(1)
式中:τ∈R3為控制力矩;d= [dx,dy,dz]T∈R3為系統的復合干擾項,主要包括彈性模態等引起的未建模動態、外部干擾以及系統不確定性等;J=diag(Jxx,Jyy,Jzz)T∈R3×3為轉動慣量;ω=[ωx,ωy,ωz]T∈R3為姿態角速度向量;ω×表示向量ω∈R3擴張成的斜對稱矩陣。
定義ξ=[φ,ψ,θ]T∈R3,φ、ψ和θ分別為滾轉角、偏航角和俯仰角,姿態角可以表示為
(2)
式中:S(ξ)為坐標轉換矩陣。
運載火箭上升段的動力系統主要由4臺捆綁助推發動機(A1~A4)和4臺芯級發動機(B1~B4)構成,每臺發動機推力可達460 t,其擺角執行機構如圖1所示布局。其中:Ra和Rb表示火箭中心軸線到捆綁發動機中心和芯級發動機中心的距離,黃色噴管為固定噴管,其他為擺動噴管。發動機A1、A3、B1、B3聯合擺動控制偏航運動,發動機A2、A4、B2、B4聯合擺動控制俯仰運動,8臺發動機綜合控制運載火箭滾轉運動[21]。根據火箭擺角等效原則,姿態控制三通道(俯仰、偏航、滾轉)等效擺角指令為

圖1 推力發動機分布Fig.1 Configuration of propulsive engines

(3)
式中:δA和δB分別為捆綁和芯級發動機三通道的擺角值;kA、kB為發動機擺角系數,轉換矩陣TA和TB的具體形式為
此時,運載火箭主動段的姿態控制系統三通道的等效擺角值δ=[δx,δy,δz]T可以表示為
δ=δA+δB
(4)
本文主要考慮效率損失和偏差性故障這2種最為常見的擺動執行機故障[21],因此,執行機構故障模型采用矩陣形式可表示為
δf=Eδ+ρ
(5)
式中:E=diag{e1,e2,e3}∈R3×3為執行效率矩陣且效率系數滿足0 τf=Gδf (6) 式中:對角矩陣G∈R3×3為力矩轉換矩陣,為三通道的等效控制輸入。 注1區別于文獻[22],本文將擺動發動機的控制等效到了俯仰、偏航和滾轉3個通道,這里考慮的故障影響是一種綜合的體現,并不是具體哪個執行機構的故障。ei=0表示等效三通道的某個通道已經完全失去控制,控制系統已經失去了控制作用。 結合式(1)~式(6),運載火箭執行器故障情況下的姿態控制系統可表示為 (7) (8) 為簡化后續的推導表述,式(8)可被改寫為 (9) 本文的主要目的是:在式(5)所示的發動機擺動執行機構故障情況下,設計一種基于自適應動態規劃的智能容錯控制器,以提高運載火箭姿態控制系統的容錯能力和抗干擾特性,消除執行機構故障以及外部干擾帶來的消極影響,維持姿態系統(7)的穩定,保證指令跟蹤誤差系統(9)收斂到零。 引理1[13]對于系統(10),若存在李雅普諾夫函數滿足: ?t≥t0,V(xt0)≥0 則系統收斂時間為 其中:λ1>0,λ2>0和0 引理2[23]若李雅普諾夫函數V(t)為連續正定函數且V(0)有界,滿足下述不等式: 式中:c1和c2為正常數;h(t)為有界正函數。則V(t)為有界函數。 引理3[24]徑向基神經網絡(Radial Basis Function Neural Networks, RBFNN)可以很好的逼近未知連續函數。利用RBFNN,未知連續函數f(Z):Rk→Rp可被改寫為 f(Z)=WTf(Z)+ε 因為最優權重W和近似誤差ε未知,可得 注2運載火箭的氣動面和發動機擺動執行機構的偏轉角是在一定范圍內連續的變化的。因此,附加的氣動力不確定性和擾動也是有界的[20]。此外,對于工程實踐來說,執行器故障和外部干擾是有界性假設是合理的。 本文設計智能容錯控制器結構如圖2所示,綠色部分是穩定控制器,黃色部分是補償控制器。設計目的是結合2種方法的優勢,實現存在故障和各類不確定性下的火箭姿態高精度跟蹤控制。傳統的穩定控制方法可以保證系統穩定,但是在火箭發射過程中即使保持穩定,但穩定過程耗費的時間太多,仍然會導致發射任務的失敗,所以采用ADP優化補償控制器來改善系統的控制性能,同時也降低穩定控制器設計的難度和復雜度。 圖2 基于自適應動態規劃的智能容錯控制器結構Fig.2 Structure of ADP-based intelligent fault-tolerant controller 定義輔助變量U(t)=diag{δx(t),δy(t),δz(t)},Σ=[e1,e2,e3]T,此時有 (10) 設計如下所示的故障觀測器: (11) (12) 式中: (13) α1>0,β1>0,γ1>0為常值增益;P為正定對稱矩陣;(·)i為向量的第i個元素。 (14) 式中: (15) α2>0,β2>0,γ2>0為常值增益。 (16) (17) 式中:ε為一個較小的正數,常值增益α3>0。此時,可得觀測誤差系統為 (18) 定理1考慮系統(9),設計故障觀測器(11)和自適應更新律(12)~(15),對于給定的Hurwitz矩陣A和正常數ξ,若存在正定對稱矩陣P滿足: ATP+PA+2ξP<0 (19) 則觀測誤差系統(19)是最終一致有界的。 (20) 求導可得 (21) 式中: 根據式(12),YΣ可分為下面3種情況。 (22) (23) (24) 同理可得 (25) 將式(22)~式(25)代入(21)可得 (26) 易知下述不等式成立 (27) (28) (29) (30) 將式(27)~(30)代入(26)可得 (31) 選擇參數βi,γi,(i=1,2)使得2βi-1>0和2γi-1>0成立,可得 (32) 式中: Ω= 其中:λmin(·)為矩陣(·)的最大特征值。 同樣的根據式(16),分情況討論。 (34) 根據引理2和假設3可知:李雅普諾夫函數V1(t)是有界的。 (34) 由式(17)可知,π(t)是一個正的單調遞增函數,且存T>0,對于?t>T,滿足π(t)≥ζ。因此,函數V1(t)是有界的,且滿足: (35) 根據ATP+PA+2ξP<0可得 V1(T)-V1(t)- V1(T)-V1(t)+ (36) 通過上述分析可知, (37) 證畢。 進一步設計自適應滑模容錯控制器來保證姿態閉環系統的穩定性。首先,設計如式(38)所示的非奇異快速終端滑模面: (38) 對滑模面(38)求微分可得 F+GE(t)δ(t)+Gρ(t)+D(t)+ (39) 式中: Dx1= (40) 式中:W1和φ1為權重矩陣和徑向基函數;ε1為近似誤差。 滑模面的可達律為 (41) 注3在容錯控制率的設計中采用了RBFNN來處理滑模動態中的不確定性,主要是因為在故障觀測器中并不涉及不確定性的觀測,如果利用觀測器來直接處理會增加觀測器設計的復雜度,降低觀測誤差的收斂時間,不利于算法實現,同樣的策略在文獻[25]中也有所體現。 定理2考慮系統(9),設計容錯控制律 (42) (43) 對式(43)求導可得 (44) 將自適應容錯控制律(42)代入式(44)可得 ?1S-?2signa/b(S)+ (45) 式中: 下面將YW1分為以下2種情況進行討論。 (46) (47) (48) 同時,易得下述不等式成立, (49) (50) 將不等式(46)~式(50)代入式(45)可得 (51) (52) (53) (54) 因此可知,自適應控制律(42)可使得閉環系統穩定,且滑模動態(40)在有限時間內收斂到原點的鄰域內。 證畢。 為了進一步改善運載火箭姿態系統的跟蹤性能,本節主要利用自適應動態規劃算法,設計了一種執行-評價網絡結構的優化補償控制器。 定義系統的效用函數為[26] r(x(t),u(t))=[xT(t),uT(t)]Kr[xT(t),uT(t)]T (55) 式中:u(k)=δ(k)為ADP算法的輸出;Kr為正定對稱矩陣。 然后,評價函數定義為[27] (56) 式中:收斂系數ε∈(0,1)。 ADP的主要目的是找到一個控制輸入u(k)使得上述的評價函數J(x(t),u(t))最小,所以最優評價函數J*(x(t),u(t))可表示為 (57) 根據最優控制理論,可得下述Bellman方程: εJ*(x(t+Δt),u(t+Δt))} (58) ainput=x(t),aoutput=u(t) (59) 評價網絡的輸入cinput和輸出coutput可表示為 (60) (61) (62) 對于執行網絡的第p個輸出節點,其輸出up(t)為 (63) (64) (65) (66) 根據梯度下降算法,執行-評價網絡權重的更新規則為 (67) (68) (69) (70) 其中:λa>0和λc>0為學習效率。至此,基于自適應動態規劃的優化補償控制方案設計完成。ADP補償控制部分網絡權重更新主要利用的梯度下降的方法實現,由于篇幅所限,這里就不做具體推導,詳細的證明過程可以參考我們之前的工作[28]。 (71) 為了說明所設計的基于ADP的智能容錯控制的有效性,分別對“滑模容錯”和“ADP+滑模容錯”2種控制方法進行數值仿真,仿真結果如圖4~圖12所示。同時,為了說明本文所提方法的優越性,論文結果與文獻[20]進行對比仿真,由圖可知上述的幾種容錯控制設計方法都可保證執行機構故障下姿態控制系統的穩定,并完成火箭上升段姿態指令跟蹤任務,但是不難發現,本文所提的基于自適應動態規劃的智能容錯控制方法具有更強的容錯能力,當運載火箭姿態系統遭遇外部干擾和執行機構故障的不利影響時,能夠更好的維持姿態系統的跟蹤性能。 圖4為偏航通道執行器部發生分效率損失故障的估計曲線,圖5為俯仰通道執行器偏置故障的估計曲線,由圖可知:所設計的故障觀測器可以有效實現故障信息的估計。圖6~圖8為火箭姿態系統的姿態角指令跟蹤曲線,圖9為姿態跟蹤誤差響應曲線。觀察圖6~圖8可知,姿態角在12 s內即可跟蹤上指令信號,跟蹤誤差不超過0.1°。當仿真進行到20 s時,系統遭遇執行機構故障,姿態跟蹤特性明顯被影響,系統出現明顯的跟蹤誤差,如圖9所示。3種容錯控制方法都可以消除故障的持續影響,其中本文多提“ADP+滑模控制”的方法處理故障的速度更快,在10 s就能消除跟蹤誤差。相比較而言,緊靠“滑模控制”方法雖然最終也實現了姿態指令的跟蹤,但是沒有ADP的補償控制明細響應速度下降。 圖4 執行器效率損失故障觀測值Fig.4 Estimation of LOE fault for actuators 圖5 執行器偏置性故障觀測值Fig.5 Estimation of bais fault for actuators 圖6 滾轉角跟蹤曲線Fig.6 Tracking curves of the roll angle 圖10為姿態角速率的時間響應曲線,等效三通道控制輸入響應曲線如圖11所示,效用函數的響應曲線如12所示。觀察圖10可知,在整個仿真過程中,姿態角速率都能快速收斂,但是本文所采用的“ADP+滑模控制”的方法明細收斂速度和振蕩幅值、頻率都低于其他2種方法。從圖12明顯可以看出:通過提出的權重更新算法,當執行器在20 s發生故障時,效用函數將迅速收斂到零,這意味著姿態跟蹤誤差將減小到零,即所提方法可以快速消除執行器故障對姿態跟蹤性能的影響。 圖7 偏航角跟蹤曲線Fig.7 Tracking curves of the yaw angle 圖8 俯仰角跟蹤曲線Fig.8 Tracking curves of pitch angle 圖9 姿態角跟蹤誤差曲線Fig.9 Tracking erros of attitude angle 圖10 姿態角速率響應曲線Fig.10 Responses of attitude velocity 圖11 控制輸入Fig.11 Control input 本文針對主動上升段存在發動機擺動執行機構故障的運載火箭姿態控制問題,提出了一種基于自適應動態規劃的智能姿態容錯控制方法。主要結論包括: 1) 利用自適應控制技術,可設計出一種基于非線性觀測器的故障檢測估計方法,成功實現對執行機構效率損失和偏置性故障的估計。 2) 在上述故障觀測器基礎上,結合非奇異終端滑模技術和故障估計信息,可構建了一種滑模自適應容錯控制器,保證了姿態閉環系統的穩定性。 3) 為進一步減小系統跟蹤誤差,利用強化學習的執行-評價結構,設計出一種自適應動態規劃補償控制算法,可以依據系統跟蹤誤差對系統進行優化補償,在確保姿態系統跟蹤精度,提高姿態跟蹤的收斂速度。
2 預備知識





3 基于ADP的智能容錯控制

3.1 容錯穩定控制器
























3.2 優化補償控制器










4 仿真驗證










5 結 論