周大鵬,楊大鵬,劉 然,周云龍
(1. 沈陽飛機設計研究所,沈陽 110035; 2. 北京航空航天大學 航空科學與工程學院,北京 100191)
空天飛機執行任務時會經歷由稀薄大氣到稠密大氣的飛行過程,此時氣動舵面的控制效率變化強烈,需要引入直接反作用力控制系統(Reaction control system, RCS)輔助氣動舵面進行姿態控制。同時再入過程中飛行器也面臨著橫側向通道強耦合、氣動參數快時變的問題,使得空天飛機橫側向通道的再入姿態復合控制設計面臨著許多困難。
針對再入姿態復合控制問題,常規單一的線性控制方法無法有效地解決,由此引出一系列再入控制方法的改進。文獻[2]提出了一種基于LQR和自抗擾控制的再入姿態控制方法,采用LQR方法完成狀態反饋控制律設計,然后結合自抗擾技術設計擴張狀態觀測器對系統不確定性和外部干擾進行補償。文獻[3]結合Ⅱ型模糊神經結構和誤差反饋學習架構設計了一種在線自主學習干擾觀測器,然后提出了基于該干擾觀測器的超螺旋滑模控制器,實現再入姿態跟蹤。文獻[4]提出了一種基于模糊擾動觀測器的預測滑模控制方法,該方法用于估計包含系統不確定性和外部擾動的復合擾動。文獻[5]將再入飛行器的姿態控制建模為非線性系統的最優控制問題,提出單網絡積分型強化學習算法進行求解,該方法計算效率高、收斂速度快,給智能方法在再入姿態控制中的運用提供了一種思路。此外,再入姿態復合控制還需要重點關注控制框架問題,文獻[6]采用了一種直接力、氣動力的單一切換框架,在直/氣系統均穩定的情況下,分別設計對應的控制方法,然后給定了兩系統的調整邏輯。但是異類執行系統獨立設計的方法無法充分發揮復合控制系統的性能,因此目前多數學者的工作集中于并聯工作的復合控制框架,如文獻[7]在考慮舵面位置和速度約束的基礎上,面向各執行機構設計了一種基于線性規劃控制分配的復合控制框架;文獻[8]設計了一種并聯結構的多級復合控制框架,直/氣數學舵采用鏈式復合控制,下一級氣動物理舵則采用優化復合控制方法。
針對再入控制分配問題,即氣動舵面和RCS機構之間的調配策略問題,文獻[9]提出了一種鏈式分配策略,這屬于非優化分配方法,思想就是先用氣動舵面進行控制,當氣動舵的能力不夠的時候開始調用RCS進行控制,該方法簡單有效,但是自調節能力弱;文獻[10]提出了一種多級分配策略:氣動舵面和RCS之間的分配方式采用簡單的動壓比例分配法;氣動舵面之間的次級分配采用最優二次規劃法;而RCS系統之間的次級分配采用混合線性整數規劃法,該多級分配策略能夠實現控制指令由總到支的完整分配。文獻[11]重點考慮氣動舵面和RCS之間的控制分配問題,基于最優二次規劃算法,提出了一種改進的分配指標,根據姿態控制需求實時更新二次規劃算法的權重,實現了控制需求和能量消耗的權衡。
本文重點研究空天飛機橫側向通道的姿態復合控制問題。首先,建立了空天飛機橫側向通道的動力學模型,在常規飛行器動力學方程的基礎上引入RCS力矩項。然后,提出了一種神經網絡PID控制算法,在全量PID控制律基礎上引入神經網絡控制補償模塊,通過網絡權重的在線迭代實現控制指令的實時補償。同時,針對再入過程橫側向通道的強耦合特性,在基線PID控制律中引入交叉耦合系數,將實際側滑角反饋至橫向通道控制律中,實現橫側向通道的耦合控制。最后,建立了一種自適應鏈式分配方法,結合迭代最小二乘氣動參數辨識方法對再入飛行舵效進行實時估計,進而輸入進鏈式分配律中,在線更新分配策略,以提高飛行環境適配能力。
空天飛機同時具有氣動舵面和RCS兩類異構執行系統,因此在建立空天飛機動力學模型時需要考慮RCS系統的作用。本文重點研究橫側向通道的再入姿態復合控制,因此這里只建立橫側向雙通道的動力學模型。參考文獻[12-14],建立空天飛機橫側向動力學模型如下所示:

(1)

神經網絡PID控制律由BP神經網絡和常規PID控制律組成。常規全量式PID控制律作為基線控制律,而BP神經網絡輸出控制增量,對PID控制律的控制指令進行修正。空天飛機橫側向通道的神經網絡PID控制流程圖如圖1所示:

圖1 空天飛機再入橫側向神經網絡PID控制流程圖Fig.1 Flow chart of the neural network PID control for the reentry roll and yaw channels of aerospace plane
圖1中,,和分別為空天飛機再入姿態指令、空天飛機再入實際姿態值和姿態跟蹤誤差;為全量PID控制律輸出的控制指令;Δ為神經網絡模塊輸出的補償控制指令;,和為神經網絡模塊輸出的PID補償參數。
分別針對橫向通道和側向通道設計BP神經網絡結構。單通道內,采用3層前向神經網絡結構,其中包含網絡輸入層、網絡隱含層和網絡輸出層。在單通道神經網絡結構中,可以根據控制目標確定網絡輸入層和網絡輸出層的神經元個數。
橫向通道中,網絡輸入層由3個神經元組成,分別對應于再入傾側角指令,實際傾側角值,以及傾側角跟蹤誤差;網絡輸出層由3個神經元組成,分別對應于PID的三個控制參數:P,I和D。
側向通道同理,網絡輸入層的三個神經元分別對應于再入側滑角指令,實際側滑角值,以及傾側角跟蹤誤差;網絡輸出層的3個神經元分別對應于PID的三個控制參數:P,I和D。
將網絡輸入層的3個神經元概稱為,和;將網絡輸出層的3個神經元概稱為,和。那么面向PID控制的神經網絡可以設計為圖2所示的結構:

圖2 神經網絡結構示意圖Fig.2 Schematic diagram of the neural network structure

正向傳播,即將樣本輸入進神經網絡,然后經過網絡輸入層、隱含層和輸出層,最后獲得網絡輸出的過程。面向再入飛行器橫側向通道控制的神經網絡正向傳播計算方法在橫向通道和縱向通道中是一致的,因此這里采用統一的相關符號進行單通道神經網絡的描述。
1) 網絡輸入層
規定網絡輸入層的輸入量和輸出量是一致的,即有如下數學關系:
()=()=[(),(),()]
(2)
式中:為任意采樣時刻對應的仿真步長,這里描述成離散的形式,以方便后續編寫程序。上述方程中的()是第步輸入層的輸出向量,()是第步輸入層的輸入向量,維數3×1;()是第步的角度標稱值;()是第步的實際角度值;()是第步的角度跟蹤誤差;在神經網絡的具體設計過程中,橫側向通道是獨立進行的,因此在單通道神經網絡中,(),()和()均為標量。
2) 網絡隱含層
網絡輸入層的輸出向量經過權重矩陣之后即網絡隱含層的輸入量,該輸入量經過隱含層的激活函數便可以得到隱含層的輸出量,描述為數學形式:

(3)


(4)
3) 網絡輸出層
網絡隱含層的輸出向量經過權重矩陣之后即網絡輸出層的輸入量,該輸入量經過輸出層的激活函數便可以得到輸出層的輸出量,即神經網絡的最終輸出量。描述為數學形式:

(5)
式中:()是第步輸出層的輸出,()是第步輸出層的輸入,維數規定為3×1;()為隱含層輸出轉為輸出層輸入的權重矩陣,維數為3×;(·)為輸出層的激活函數,規定為Sigmoid函數,表達式為:

(6)
空天飛機再入橫側向通道姿態控制過程中,采用在線神經網絡權值更新方法,第步的(),()和()輸入進神經網絡網絡,經過第步網絡權重(),()的運算,輸出第步的修正控制量Δ(),然后經過被控對象動力學模型后得到第+1步的狀態量(+1)。這時需要計算(+1)與(+1)之間的誤差,進而根據一定的準則對(),()進行修正,得到(+1),(+1)。
BP算法就是一種更新網絡權重矩陣的準則,其根據網絡輸出層的輸出與參考值之間的誤差,對網絡中的權重矩陣進行修正,從而使得網絡的輸出與參考值之間的誤差越來越小。下面結合空天飛機再入橫側通道姿態控制的背景,具體推導網絡權重矩陣的更新過程。
在推導權重矩陣的更新算法之前,首先需要建立損失函數用以描述空天飛機再入的實際角度值和標稱值之間的接近程度:


(7)
神經網絡權重矩陣的更新要以損失函數達到最小為導向,使空天飛機再入的實際角度值和標稱值之間的誤差達到最小。將姿態跟蹤誤差的二范數作為損失函數,誤差導向權重矩陣的更新,從而產生新的控制指令分配到直/氣復合控制系統中,實現跟蹤誤差的快速減小。
權重矩陣的BP更新算法為反向的,因此首先需要更新隱含層至輸出層的權重矩陣:

(8)
式中:采取的是改進型的尋優下降方向來尋求損失函數的最小值,標準型為負梯度方向,即-??();為學習速率;這里增加了最后一項動量項,為慣性系數;Δ()為第步的權重矩陣修正量。
采用基于最速下降方法的權重矩陣更新方式,可以快速收斂到最優解。同時引入動量因子,增加權重更新的阻尼,減小了振蕩趨勢。
由式(8)知,第+1步(當前步)的權重矩陣修正量為:

(9)
式中:??()是未知的,下面采用鏈式法則推導??()的表達式:




(10)
式中:

(11)

(12)

(13)
上述推導過程中,為了描述的簡便,將修正控制量Δ()簡寫為了(),其依然表示修正控制量,而不是基線PID控制律所輸出的主控制量。在神經網絡中,修正控制量()可以寫為:


(14)
式中:(), δ()和∑()δ分別表示第步的角度跟蹤偏差、偏差的微分項以及偏差的積分項;為仿真采樣周期。那么式(10)中的?()?()可以寫為:

(15)
式中:()為第步的角速率,即用空天飛機再入過程的角速率近似代替被控角度的微分量。
針對?(+1)?(),難以寫出解析式,因此這里用符號函數表示,即

(16)
對于正常布局的飛行器來說,如果控制量()是舵偏,則sgn(?(+1)?())=-1恒成立;如果控制量()是力矩,則sgn(?(+1)?())=1恒成立。由符號函數代替?(+1)?()產生的偏差由學習速率和慣性系數進行補償。
綜上所述,式(10)可以改寫為:


(17)
最終得到的??()是一個3×維的矩陣,為隱含層的神經元個數。
那么,式(9)所示的權重矩陣修正量Δ就可以改寫為:
Δ(+1)=η[()]+Δ()
(18)
更新完成輸出層權重矩陣()后,還需要更新輸入層至隱藏層的權重矩陣()。在BP神經網絡中,各層權重矩陣的更新之間是存在一定的遞推關系的,下面先把該遞推關系推導出來。
在上述2.3節中建立了??()的鏈式展開式(10)。同時,其還可以展開為以下不同的形式:


(19)
對比式(18)發現,存在以下關系式:

(20)
下文建立和之間的關系,求出后,類比式(19),自然便可得到??()。



(21)
其中,求解得到的是一個×1的向量。
類比式(19),可以得到如下關系:

(22)
其中,得到的??()是一個×3維的矩陣。
所以,第+1步的輸入層至隱含層的權重矩陣修正量Δ可以寫為:
Δ(+1)=-η[()]+Δ()=
η[()]+Δ()
(23)
文獻[8],在滾轉通道中引入交叉耦合反饋項進行姿態控制增穩,通過側滑角在橫向通道的反饋,加快對因轉彎指令突變而產生的控制超調的抑制,提高側滑角和傾側角的控制穩定性,弱化兩者之間的控制干擾:

(24)
這種耦合控制結構實際應用在基線PID控制律中。式(24)就是常規的全量式PID控制律,然后引入了交叉耦合反饋系數。其中δ表示單位采樣周期。
空天飛機同時具有氣動舵面和反作用控制系統RCS兩類異構執行機構,這是因為當空天飛機處于稀薄大氣層時,大氣密度低,氣動舵面無法有效完成控制指令,RCS系統作為輔助控制裝置被引入。當空天飛機經歷大氣層由稀薄變為稠密的飛行過渡階段時,氣動舵面和RCS系統均需要參與姿態控制,因此需要按照一定的準則調配這兩類異構執行機構進行復合控制。
第2節研究的空天飛機再入橫側向神經網絡PID控制律最終求解出的控制指令為力矩指令:cmd和cmd。結合空天飛機再入的橫側向通道動力學模型(1),規定控制指令到轉動動力方程的傳輸有如下關系:

(25)


采用鏈式分配律將力矩控制指令進行分配,該方法的一般實施步驟為:首先利用氣動舵面實現控制力矩指令;當控制力矩指令所需的控制能力超出氣動舵面的實際能力時,開始調用RCS系統來完成剩余的控制任務。
設氣動舵面的偏轉范圍為:[,],且有<0,>0。那么上述鏈式分配算法便可以寫為:

(26)

(27)


由于空天飛機再入橫側向通道的氣動模型存在差異,因此采用分通道辨識的方法。首先設定橫向通道和側向通道的氣動力矩系數模型分別為:

(28)


(29)



(30)
式中:()為第步的參數迭代比例矩陣;()為第步的辨識協方差矩陣;()是第步的觀測值。


(31)
在氣動辨識過程中,為了能夠提高辨識精度,常常需要在控制輸入環節加入一定的激勵,從而激發出氣動模型中各狀態的特征,這里規定激勵信號輸入進舵面偏轉量中。文獻[20],在舵偏量中加入正交優化多正弦激勵信號:

(32)
式中:和分別為加在副翼和方向舵上的正交優化多正弦激勵信號;和為橫向通道和側向通道多正弦激勵信號的振幅;為相位角度;為可用諧波頻率的總數;為激勵時間段長度。
針對正交多正弦激勵信號,定義一個相對峰值因子RPF:


(33)
理想的RPF是具有較低值的,這是因為在激發再入飛機在各種頻率具有良好的輸入能量的同時最小化輸入振幅,避免再入飛機遠離參考飛行條件。對于單位振幅的單個正弦信號,無論頻移或者相移,RPF均為1,那么多正弦輸入的最優目標即使得RPF為1。
由于多正弦輸入信號式(32)中的相位角的設定不會影響相互正交輸入,因此可以調整相位角使得RPF值達到最優值1。
選擇空天飛機經歷從稀薄大氣到稠密大氣的再入過渡飛行階段作為仿真工況,這個過程中動壓由極低的值開始逐漸增加,氣動舵面逐漸恢復控制能力。
針對該仿真的飛行初始速度為7 km/s,飛行初始高度為103 km,此時給定滾轉轉彎方波指令,即傾側角指令在±45°內方波變化,同時給定側滑角指令恒為零,≡0°。然后在橫側向通道中校驗本文中的神經網絡PID控制律對姿態指令的控制跟蹤效果。
搭建橫側向通道神經網絡PID控制律的Simulink模型進行仿真。控制輸出指令設置為力矩指令,相應的參數設置如表1所示:

表1 仿真參數表Table 1 Simulation parameters
對于權值矩陣的初值,橫側向通道均取為[0, 1] 區間內相應維度的一組隨機值。為實現橫側向通道耦合控制而引入的交叉耦合系數取為=25×10。
仿真過程中,在滾轉力矩和偏航力矩中加入-40%的常值拉偏以及+20%的三角函數時變拉偏,得到圖3所示的再入過程中側滑角和傾側角的姿態跟蹤控制曲線。

圖3 橫側向通道姿態跟蹤曲線Fig.3 Attitude tracking curves of roll and yaw channels
分析圖3得知,再入過程中空天飛機進行大角度無側滑橫滾轉彎時,本文采用的神經網絡PID控制律相較于常規全量PID控制律具有更快的收斂時間,限制在5 s左右,以及更小的控制超調,側滑角的峰值超調減小了10°以上。同時,在加入常值擾動和三角函數擾動后,神經網絡PID控制律具有更好的魯棒性表現。
在橫側向通道耦合神經網絡PID控制仿真校驗的過程中,控制分配模塊采用的是上述推導的自適應鏈式分配方法,控制力矩的分配結果如圖4和圖5所示。

圖4 橫側向通道復合控制力矩變化曲線Fig.4 Change curves of compound control moments in roll and yaw channels

圖5 橫側向通道控制力矩分配邏輯圖Fig.5 Logic diagram of control moment allocation in roll and yaw channels
其中,圖4是自適應鏈式分配律模塊的控制力矩分配曲線,虛線是需用力矩指令,實線是氣動力矩分量,點劃線是RCS力矩分量。由該仿真圖分析知,空天飛機再入過程中當需用力矩特別大的時候氣動力矩無法提供,需要RCS力矩進行輔助控制,通過自適應鏈式分配律能夠實現兩者的合理調配;圖5是需用力矩指令的分配邏輯圖,縱軸“3”表示需用力矩在氣動舵面控制能力范圍內,縱軸“2”表示正向需用力矩超出氣動舵面控制能力,縱軸“1”表示負向需用力矩超出氣動舵面控制能力。
橫側向通道分別選擇正交多正弦激勵信號:

(34)
式中:多正弦激勵信號的相對峰值因子RPF值為1.1936,的相對峰值因子RPF值為1.0027,均比較接近最優值1。
有了激勵信號后,將在線氣動辨識模塊加入到空天飛機再入復合控制的自適應鏈式分配律中,實現鏈式分配律的在線調整。基于遞推最小二乘方法的氣動辨識結果如圖6和圖7所示:

圖6 橫向通道氣動參數辨識結果Fig.6 Identification results of aerodynamic parameters in roll channel

圖7 側向通道氣動參數辨識結果Fig.7 Identification results of aerodynamic parameters in yaw channel

空天飛機在稀薄、稠密大氣的臨界飛行以及橫側向通道表現出的強耦合與快時變特征,使得其再入姿態控制變得困難。提出了一種神經網絡PID控制律,以全量PID控制律為基線,引入神經網絡控制補償模塊,根據姿控誤差實時調整網絡權重,輸出補償控制力矩。此外,面向異構執行機構提出了一種基于實時氣動辨識的自適應鏈式分配方法,將在線獲得的舵效辨識值輸入進鏈式分配律中,實時更新分配策略。最后,仿真校驗了方法的有效性,橫側向神經網絡PID控制律提高了空天飛機再入橫滾轉彎時的姿態跟蹤速度與精度,自適應鏈式分配律實現了在線策略調整,提高了空天飛機再入復合控制方法的多場景應用能力。
下一步工作中將重點改進智能神經網絡復合控制律,實現神經網絡控制模塊脫離基線控制律的獨立高效運行。此外,智能再入復合控制應不局限于控制律的智能化,隨著數據驅動的學習算法的引入,下一步控制分配模塊的智能化將會同步進行,提高智能再入復合控制系統的通用能力。