張 遠,黃萬偉,聶 瑩,路坤鋒
(1. 北京航天自動控制研究所,北京 100854; 2. 宇航智能控制技術國家級重點實驗室,北京 100854)
以高超聲速飛行器(Hypersonic flight vehicle, HFV)為代表的一類高速飛行器結合了航空航天的特點,其具有航程遠、速度快、機動強、任務可調整等特點,是實現低成本、可重復天地往返優選技術途徑之一,逐漸受到世界各航天大國的廣泛關注[1-2]。但是,此類飛行器在總體設計中,同樣存在值得進一步優化與完善的問題,如飛行包線大與幾何構型單一的矛盾,幾何包絡大與發射系統受限的矛盾,大攻角飛行/氣動熱/航程之間的矛盾。如果飛行器能夠在飛行過程中根據任務需要,在不同飛行狀態下自適應改變自身構型,則可在保證固有約束條件下獲得更優的綜合性能,進一步擴展飛行器任務邊界,為實現全速域、跨空域飛行提供可行性[3-4]。以高速滑翔飛行器為例,在慣性爬升段合理變形減小阻力可減小速度損失;滑翔飛行段合理變形可有效提高升阻比,達到提升航程的目的[5-6]。基于此,高速可變形飛行器的概念應運而生。具體而言,HMFV是指一類能夠根據飛行器待執行任務和飛行環境特點實時調整外形結構,以適應更寬空域、更大速域飛行任務的高速飛行器。
按照變形部位及對周圍氣體產生的不同影響,可分為內流部件變形和外流部件變形兩類。前者主要指進氣道、發動機噴管等部位發生主動變形,以獲得更強動力或者更高的燃燒效率;后者主要指頭部、機翼、機身等三類變形,以獲得更優的氣動特性[7]。20世紀50年代以來,變形飛行器的研究得到了諸多國家高度重視,相繼開展了不同層面的深入研究,取得了許多有價值的研究成果,如翼面可彎曲、可變后掠的任務自適應機翼項目,機翼可扭轉的主動柔性機翼項目,以及機翼可折疊、可變后掠角的變形飛行器結構等項目[8]。隨著材料科學的發展,高速類變形飛行器的研究開始顯得具有現實意義。
對于HMFV而言,翼面變形對于氣動性能有較大的影響,可帶來較大的氣動性能上的提升,且易于工程實現與應用,目前也多是采用翼面剛性變形方案[9]。那么“何時變形?何種狀態變形?變形量多大?”是我們需要解決的問題之一。一種樸素的思想是飛行任務離線標定,即在飛行前在任務系統中設定好變形方案,飛行器在不同階段展開不同構型,這種決策方案更為簡單且易于工程應用。然而,這種方案無法滿足綜合性能實時最優的效果,且難以滿足任務變更的特殊狀況。隨著智能材料的發展、滑動蒙皮的應用,可連續變形飛行器的應用已逐漸成為可能。因此,實時智能變形決策問題是HMFV工程應用亟需研究的重點問題之一。針對上述問題,以強化學習為代表的智能思想被應用于飛行器的制導、控制與決策的研究中[10-12]。
強化學習的核心思想是通過感知環境的變化,智能體以“試錯”的方式獲得獎勵的最大值,從而進一步改進動作策略以適應環境[10]。典型的強化學習算法包括Q-Learning、SARSA、動態規劃等方法,其是一類動作空間離散的學習方法,擅長處理有限個狀態和動作空間的問題。Deepmind團隊進一步將強化學習與深度學習相結合,形成了DQN網絡,進一步強化了高維問題的解決能力,但是動作空間本質上仍為離散形式。文獻[13]以Q-Learning算法為基礎,設計帶有升力系數、阻力系數和前緣力矩系數在內的獎勵函數,以學習獲得不同狀態下機翼的最優厚度及外傾角;文獻[14]用Q-Learning算法實現在爬升、巡航、俯沖三種典型飛行模式下對給定的幾類固定外形進行決策,以期獲得不同任務下的最優構型,同時設計縱向通道控制律。但決策與控制相互獨立,變形決策未考慮對控制效果的影響。文獻[15]以一種簡化的橢球變形飛行器為對象,基于給定的變形量隨變形執行機構驅動電壓的變化公式,利用DDPG算法獲得適應于整個飛行任務中的決策方案;文獻[16]針對后掠角和展長同時可變的無人機進行變形決策,同時將可變形機翼作為控制面,輔助完成滾動和轉彎控制;文獻[17]基于DDPG對一類仿生飛行器進行后掠角連續變形決策,且利用風洞試驗和實際飛行的模擬數據進行對比驗證。
綜上所述,當前對于變外形飛行器的研究還較少,且研究對象多是低空、低速類無人機,鮮有對HMFV的變形決策問題進行討論。此外,現有公開文獻在變形決策方面的研究所考慮的優化指標較為簡單,僅以升力系數、阻力系數或升阻比為單一目標。而對于HMFV而言,在某一套控制增益下,其變形不僅帶來氣動性能的優化,且帶來的較大的參數攝動會對姿態系統的穩定帶來不容忽略的影響,因此有必要研究考慮決策與控制的融合問題。本文以HMFV滑翔段飛行過程為例,開展滑翔過程中考慮包含升阻比,穩定性及姿態跟蹤能力的綜合性能最優下的變形決策研究。首先,基于飛行器動力學模型,對HMFV的關鍵氣動參數進行分析,得出變后掠角對飛行器的定性影響規律;其次,設計考慮綜合指標下的智能變形方案和DDPG算法訓練框架;再者,設計基礎控制器,對帶有控制器的可變后掠HMFV變形決策智能體進行訓練,獲得具備一定泛化能力的決策智能體。最后進行數學仿真,校驗方法的有效性。
如圖1所示,本文以一種可連續變后掠角的HMFV飛行器為研究對象,后掠角Λ變化范圍是30°~90°。由于在飛行過程中,為保持較優氣動性能,后掠角會隨著不同狀態而改變,后掠角的變化將進一步導致關鍵氣動數據的大范圍變化,給控制系統帶來挑戰。因此,本文的研究是基于變外形飛行器受控狀態下的變形智能決策問題。為簡化建模過程,這里直接給出面向姿態控制的HMFV動力學非線性模型如下:

圖1 可變后掠高速飛行器示意圖Fig.1 Schematic diagram of the variable swept-back HMFV

(1)


表1 氣動插值表狀態范圍Table 1 The status range for aerodynamics parameters interpolation
(2)

升力Y、阻力D和側力C可表示如下:
(3)
三通道控制力矩Mx,My,Mz可表示如下:
(4)
式中:Q=ρV2/2為所處環境下的動壓;s為飛行器參考面積;ρ為飛行器實際飛行高度下的大氣密度;c和b分別是縱向特征長度和側向特征長度。
本文以一類可變后掠HMFV飛行器滑翔段為例,選取了在飛行包線內不同工作點的氣動數據,工作點的選取維度包括攻角、馬赫數、高度、后掠角。圖2~5給出了HMFV在基礎構型下(Λ=90°),不同速度下的部分氣動力、氣動力矩系數以及升阻比的變化;圖6~7給出了HMFV在不同構型下部分關鍵氣動系數在馬赫數8下的變化趨勢。
由圖2可知,零舵偏時,升力系數與攻角近似呈現線性關系,且Ma越大,升力系數越小,攻角越大體現越為明顯;類似的,如圖3所示,阻力系數在零舵偏下與攻角近似呈現指數關系,阻力系數隨著Ma增大而越小;圖4為固定構型下的升阻比曲線,總體而言,升阻比在攻角為10°左右達到峰值;圖5是俯仰力矩系數隨著攻角的變化,在圖5所示的攻角范圍內,該飛行器表現為縱向靜不穩特性。

圖2 基礎構型下不同馬赫數下的升力系數變化Fig.2 Variation of lift coefficients at different Mach values for the basic configurations

圖3 基礎構型下不同馬赫數下的阻力系數變化Fig.3 Variation of drag coefficients at different Mach values for the basic configurations

圖4 基礎構型下不同馬赫數下的升阻比變化Fig.4 Variation of lift-to-drag ratio at different Mach values for the basic configurations

圖5 基礎構型下不同馬赫數下的俯仰力矩系數變化Fig.5 Variation of pitching moment coefficient at different Mach values for the basic configuration
不同構型下的氣動特性如圖6~9所示,圖中Λ表示后掠角。由圖6可知,隨著后掠角增大,飛行器的升力系數隨著攻角的增大而減小。分析其原因是后掠角增大,翼的外露面積及翼展長度均減小,進一步帶來的升力面減小。同理,由圖7可知,隨著后掠角增大,因其零升阻力系數和誘導阻力系數均減小,導致阻力系數進一步減小。

圖6 四種不同構型下的升力系數變化(Ma 8)Fig.6 Variation of lift coefficient for four different configurations (Ma 8)

圖7 四種不同構型下的阻力系數變化(Ma 8)Fig.7 Variation of drag coefficient for four different configurations (Ma 8)

圖8 四種不同構型下的升阻比變化(Ma 8)Fig.8 Variation of lift-to-drag ratio for four different configurations (Ma 8)

圖9 四種不同構型下的俯仰力矩系數變化(Ma 8)Fig.9 Variation of pitching moment coefficient for four different configurations (Ma 8)
這里僅給出對飛行器影響較大的氣動數據變化趨勢,對稱變形對于橫側向的影響較小,由于篇幅有限,這里不再贅述。由圖6~9可以得出以下幾點結論:
(1)相比于傳統固定構型飛行器,變形飛行器的氣動系數不僅與馬赫數、攻角等相關,變外形對于氣動的影響亦不可忽略。
(2)變形飛行器升阻比隨后掠角的增大變化規律較為復雜,在一定攻角范圍內(α∈(5°~10°)),變構型對升阻比的影響較大,超過某一范圍影響變小。
(4)對于滑翔段而言,不同的攻角、速度下產生最佳升阻比所需要的構型也不同,理想情況下可根據飛行狀態調整后掠角,實現滑翔段下的全程最優構型,可達到增大射程的目的。
本文所研究的可連續變后掠的HMFV飛行器智能變形決策是連續的過程,而某一指標下的最優外形又取決于飛行環境和任務,因此本文將具備環境感知能力的DDPG算法引入到變外形飛行器的智能決策中。本文的研究目標包含三點:1)滑翔段全程實時獲得最優升阻比;2)變形的過程中考慮變形對飛行器穩定性影響,考慮在變形和基礎控制器作用下使得姿態跟蹤誤差盡可能小;3)通過訓練獲得HMFV的變形決策智能體具備一定的泛化能力。
本文提出的基于強化學習的智能決策方法關鍵點在于設計強化學習要素,包括環境模型表示、動作空間表示、回報函數設計及動作選擇策略。DDPG是一種基于Actor-Critic算法框架下的確定性策略方法,Actor模塊進行動作選擇,Critic模塊進行價值函數評估[19]。為保證算法穩定性,DDPG算法一共設置了兩套網絡,即在線網絡和目標網絡。每套網絡中又分別包含兩個神經網絡,即策略網絡和值函數網絡。因此,DDPG算法中一共包含在線策略(Online-Actor)網絡、在線值函數(Online-Critic)網絡、目標策略(Target-Actor)網絡和目標值函數(Target-Critic)網絡四個神經網絡結構[20]。定義Online-Critic網絡參數為θQ,Online-Actor網絡參數為θμ,Target-Critic網絡參數為θQ′,Target-Actor網絡參數為θμ′,算法實現框架如圖10所示。

圖10 DDPG算法實現框架Fig.10 The implementation framework of DDPG algorithm
具體而言,DDPG算法執行過程如下:
1)初始化網絡參數θQ和θμ,同時將值賦給目標網絡,即θQ→θQ′,θμ→θμ′,初始化經驗回放池,初始化觀測值;
2)根據初始狀態值生成變形策略a′,同時添加隨機噪聲vN,即a′=ai+vN,且vN~N(0,σ2);
3)執行變形策略a′(變形量),獲得值函數(即獎勵)和下一時刻狀態向量Si+1;
4)樣本數據(Si,ai,ri,Si+1)存儲至經驗回放池,作為網絡訓練集;
(4)為了廣納人才,擴大“帶頭人”的選擇范圍,選出能真正改變一村經濟面貌的“帶頭人”作為對農村的人才支援,可以采取與“援藏”一樣的政策力度,讓來自農村的外出務工人員、大學生、公務員都可回原藉參加選舉.大學生勝選者可保留學藉,任職結束后仍可選擇繼續學習,任職經歷視同社會實踐;公務員勝選者可保留原職,可連續計算工齡,任職結束后仍可回原單位工作.勝選者作為準公職人員管理,根據任職業績考核計酬.任職能力與政績表現突出者可直接招錄為縣、鄉級公務員,以拓展農村經濟“帶頭人”的政治前途,激勵這些人為一方村民奉獻自己的聰明才智.鼓勵退休公職人員回鄉參加競選,發揮余熱,勇當發展農村經濟的帶頭人.
5)隨機抽取經驗池小樣本(mini-batch)數據,對Actor和Critic網絡進行訓練,按如下流程更新網絡參數;

② 策略梯度反向傳播更新給Online-Actor網絡參數θμ;按照如下方式梯度更新
③ 以Soft-update的方式更新Target-Actor網絡參數和Target-Critic網絡參數,即
6)重復在步驟2~5,到達設定的回合數或平均獎勵值則停止訓練。
如前所述,DDPG算法實現需要狀態、動作、獎勵函數、神經網絡結構以及訓練過程復雜參數的設計。考慮到工程應用,首先需要考慮智能體能獲得的環境觀測值、可執行動作及特性以及與環境交互下的回報形式。針對HMFV的滑翔段決策問題,可觀測的狀態空間為期望升阻比、當前升阻比與期望最優升阻比的差、姿態角指令、指令跟蹤誤差。考慮到單個周期下的狀態空間訓練收斂速度慢,本文充分利用歷史數據,使用包含當前狀態在內的五個歷史周期的數據,將每個狀態空間擴張到五維,可有效提升智能體訓練過程的收斂效果,形如式(5):
(5)
式中:αc是攻角指令;λc為期望升阻比;eλ當前升阻比與期望最優升阻比的差;eα為指令跟蹤誤差;st是狀態空間。
1) 由動力學特性分析可知,變形對于俯仰通道的影響較為明顯,橫側向通道影響較小,因此本文的決策過程中,僅考慮變形對攻角的影響。同時由于研究的是滑翔段,因此考慮升阻比最優的決策目標。經分析,該飛行器在任意構型下,給定的速度和攻角范圍內最大升阻比都小于3,因此本文定義期望升阻比為3,將決策問題轉化為跟蹤控制。此外,由于本文的智能決策是基于控制閉環狀態下的過程,狀態空間中的觀測值攻角跟蹤誤差存在與其他觀測值數量級不一致的問題,因此在實際訓練過程中需要對觀測值做歸一化處理。
智能體動作輸出為飛行器變形指令,即飛行器的期望后掠角:
at=Λtc
(6)
考慮到變形機構的動力學特性,在訓練中使用如下二階動力學特性代替:
(7)

當前回報與智能體當前動作策略輸出后得到的姿態偏差、期望的升阻比偏差有關,同時增加單步常值獎勵,用于激勵智能體盡可能執行完單個訓練周期,有助于提升智能體訓練的收斂速度。此外,選擇最優升阻比跟蹤誤差eλ和攻角跟蹤誤差eα為稀疏獎勵的判斷項,當大于設定值則給一個較大的懲罰。具體獎勵函數表達式如式(8)。
(8)
式中:


表2 獎勵函數參數設置Table 2 Parameters of reward function
2) 不同于其他文獻中的變形決策,本文進一步考慮變形對姿態的影響,為了使得獎勵函數設計的更為合理,將變形決策問題統一轉化為跟蹤問題,同時將觀測值歸一化,有利于智能體訓練的收斂快速性。表2中的參數設置依賴于飛行器特性、決策問題本身以及智能體訓練者的經驗,可根據問題的側重點不同調整懲罰因子。
本文所用的神經網絡結構均為多隱層反向傳播前饋神經網絡。對于Actor網絡,其輸入層擁有25個神經元對應25維的環境輸入;中間3個全連接形式的隱含層均擁有64個神經元,激活函數為ReLU;輸出層擁有1個神經元對應1維智能體的動作,即變形決策量,激活函數為tanh型,添加偏置后可保證智能體的動作量處于設定的范圍內,有助于訓練的快速收斂。Critic網絡同樣擁有25維的環境輸入,即輸入層對應25個神經元,以及1維的動作;狀態輸入經過2組64神經元的全連接層后與動作輸入經過1組64神經元的全連接層的輸出進行同維求和,最后再經過一個64神經元的全連接層后輸出,輸出為1維對應輸入狀態和動作下的狀態行為值,各層激活函數均為ReLU型。本文基于DDPG的智能變形決策算法訓練過程中設計網絡結構如圖11所示。

圖11 神經網絡結構圖Fig.11 Architecture diagram of the neural network
DDPG算法對于超參數較為敏感,一組合適的超參數可有助于訓練的快速收斂。根據經驗,本文智能體訓練使用的超參數設置如表3所示。

表3 智能體訓練超參數設置Table 3 Hyper-parameters for the training agent
回報曲線是反映智能體在訓練過程中的收斂性能變化的重要體現。對于帶有五拍歷史數據的訓練過程中,每5個訓練回合的平均獎勵隨回合數變化情況如圖12中帶有*標記曲線所示。訓練開始時,智能體探索初期會存在大偏差狀態使得累積回報較小,同時容易觸發提前終止條件,得到大的懲罰,因此初期的獎勵函數在大范圍內變化。在訓練40次之后,智能體決策得到的綜合指標性能顯著提升,收斂效果較好,在90次后滿足終止條件。而僅使用當前拍狀態作為輸入時,智能體訓練則難以有效的收斂,甚至無法收斂,其獎勵值如圖13所示。

圖12 帶有歷史數據的訓練累積回報曲線Fig.12 Curves of cumulative reward with history dates
經過動力學特性分析,對于升阻比而言,其主要受馬赫數和攻角影響,因此我們可以得到不同速度、攻角下較優的構型(后掠角)。因此可通過插值的方式獲得基礎決策量作為參考,在此基礎上進行“有專家指導”下的訓練,相比于其他文獻可大大提升訓練效率。

圖13 無歷史數據的訓練累積回報曲線Fig.13 Curves of cumulative reward without history dates
由于本文研究是變形飛行器的綜合性能指標下的智能決策問題,決策因子包含姿態跟蹤誤差,為了體現決策的有效性,因此本文設計一類基于動態逆的內外環標稱控制器。將變外形飛行器動力學模型式(1)整理為面向控制的數學模型式(9)。
(9)
式中:Ω=[α,β,μ]T,ω=[ωx,ωy,ωz]T是內外環的狀態;U=[Mx,My,Mz]T是控制力矩;F1,G1,F2,G2分別是標稱模型下關于狀態的非線性方程:
F1=

針對式(9),可基于時標分離假設,分別設計姿態環和角速度環標稱控制律,如式(10)所示:
(10)
式中:Ωc是制導系統給出的姿態控制指令,ωc是角速度指令,屬于虛擬控制量,且二者微分量可由微分跟蹤器獲得;K1=diag(5,10,5)是姿態環的控制增益;Κ2=diag(15,50,15)是角速度環的控制增益。
基于標稱控制律式(10)及DDPG的框架,本文設計的智能變形決策與控制一體化方案如圖14所示。由于本文針對飛行器的滑翔段為研究階段,核心目標是通過變形提升阻比,進一步提高滑翔距離,同時考慮變形過程對姿態的影響,盡可能減小變形過程對姿態的影響,甚至是通過變形提升單一控制增益下的控制精度。需要說明的是,不同的任務需要設計不同的評價指標,如:爬升段設計升力最優,下壓段設計阻力最優。由于實際飛行過程中需要考慮變形機構的特性,因此在訓練的過程中以二階動力學模擬,更具工程應用價值。

圖14 HMFV智能決策控制一體化框架Fig.14 Intelligent decision and control integration framework for HMFV

圖15 不同決策方式下的變形指令Fig.15 Deformation instructions under different decision methods
在訓練過程中,我們僅使用了前20 s的狀態,后20 s是訓練過程中未遇到的狀態,可以看出,所訓練的智能體具有較好的泛化性能。圖15是通過反插值獲得的基礎決策量、考慮單一指標和綜合指標下訓練后得到的智能體在閉環系統中的決策指令輸出。從圖中可以看出,基礎決策量可有效“指導”智能體決策輸出。同時,在單一決策指標下僅考慮升阻比,因此變形量變化更加急劇,而綜合決策指標下的變形量更為緩和,更加符合工程應用條件。從升阻比的變化看,如圖16所示,虛線為基礎構型(Λ=90°)下獲得的升阻比,點畫線為智能體實時決策下的升阻比,實線是反插值方式獲得基礎決策量下升阻比,可以看出訓練后的智能體在不同條件下均可實時獲得當前狀態下的更優的氣動性能。

圖16 不同決策方式下的升阻比隨狀態變化曲線Fig.16 The lift-to-drag ratio variations with status under different decision methods
圖17~20是在標稱控制律(10)的閉環作用下,使用單一決策指標和考慮指令跟蹤誤差的綜合決策指標兩種決策模式下的指令跟蹤情況,圖17是攻角跟蹤響應,圖19是側滑角響應,圖20是傾側角響應。由圖18可知,在給定控制增益下,綜合指標決策下的變形過程中跟蹤誤差均有所減小,特別是對于動態跟蹤誤差表現的更為明顯,基于綜合決策指標得到的變形決策指令帶來的動態跟蹤誤差減小了近50%,這也表示所訓練的智能體在決策過程中實現了綜合性能指標最優的目標。

圖17 不同決策指標下的攻角響應Fig.17 The attack angel response under different decision indicators

圖18 不同決策指標下的攻角誤差Fig.18 The tracking error of attack angle under different decision indicators

圖19 不同決策指標下的側滑角響應Fig.19 The response of sideslip angle under different decision indicators

圖20 不同決策指標下的傾側角響應Fig.20 The response of bank angel under different decision indicators
需要說明的是,由于升阻比主要受到攻角的影響,且考慮到實際變形時不宜做傾側轉彎,因此本文給的傾側角指令為0。同時,由動力學特性分析可知,變后掠角的變形形式對偏航通道和滾轉通道的影響較小,為了加快智能體訓練的收斂速度,僅考慮變形對攻角誤差的影響,但是從側滑角的響應來看,受益于更加合理的變形決策指令,側滑角的誤差也有所改善,達到了預期的效果。
對于一類可連續變形的高速飛行器智能變形決策問題,本文進一步考慮變形決策與控制融合問題,以滑翔段的變形決策為研究目標。首先,基于動力學特征選取合理的決策指標;其次,應用強化學習方法,使HMFV在飛行過程中根據任務、狀態條件自主決策實時得到最優構型;再者,綜合考慮氣動性能指標與穩定性指標設計獎勵函數,將決策問題轉換為跟蹤問題;最后,通過仿真驗證本文提出的基強化學習的HMFV智能變形策略可使其有很好的氣動性能,同時可以增強變形過程中的飛行穩定。
針對下一步的具體研究工作可以從以下兩點進一步開展:1)構造典型任務,實現全彈道、多任務下的實時智能變形決策;2)變形控制與姿態控制一體化研究,一方面獲得最佳構型,一方面充分發揮智能控制的作用,生成智能補償控制律,實現變形過程中的更高精度控制。