魏毅寅,郝明瑞,范 宇
(1. 中國航天科工集團有限公司,北京 100048;2. 北京機電工程研究所,北京 100074;3. 復(fù)雜系統(tǒng)控制與智能協(xié)同技術(shù)重點實驗室,北京 100074)
近年來,以空天飛行器、高超聲速飛行器等[1]為典型代表的寬域飛行器蓬勃發(fā)展,如圖1所示,其不僅對高端裝備制造、空間信息以及太空經(jīng)濟等領(lǐng)域產(chǎn)生輻射帶動作用,進一步提升了中國在航空航天領(lǐng)域的自主創(chuàng)新能力,同時也催生出新質(zhì)作戰(zhàn)能力,帶來戰(zhàn)爭模式的巨變,成為維護國家安全的戰(zhàn)略重器[2]。
由于寬域飛行器所覆蓋的空域范圍從幾千米到上百千米,馬赫數(shù)從0跨越至25甚至更高,外形多采用大升力體及復(fù)雜翼舵構(gòu)型,飛行器動力系統(tǒng)與機體高度融合設(shè)計,內(nèi)外流場耦合特性顯著,如圖2所示;嚴酷氣動加熱會引發(fā)結(jié)構(gòu)彈性變形,進一步加劇氣動/熱/結(jié)構(gòu)/控制的耦合,使動力學特性更為復(fù)雜;同時由于目前地面風洞難以準確模擬高馬赫飛行環(huán)境,使得控制系統(tǒng)所依賴的氣動參數(shù)存在較大的天地差異[3]。因此,該類飛行器具有顯著的強耦合、強非線性、強時變特征,難以建立較為準確的數(shù)學模型描述,對控制系統(tǒng)設(shè)計提出了很多新問題與新挑戰(zhàn),需要持續(xù)開展控制新理論與新方法的研究探索。

圖1 典型寬域飛行器Fig.1 Typical wide-field vehicles

圖2 復(fù)雜內(nèi)外流耦合特性Fig.2 Coupling of internal and external flow fields
近年來,隨著人工智能技術(shù)的發(fā)展和廣泛應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)展現(xiàn)出良好的對多維復(fù)雜特征的泛化表達能力,使得以深度學習為代表的智能技術(shù)在圖像處理、語音識別等領(lǐng)域得到了成功的應(yīng)用[4],因此開展人工智能技術(shù)在飛行控制中的應(yīng)用研究,有望為解決寬域飛行器高品質(zhì)控制問題提供新的技術(shù)途徑。
為了增強控制系統(tǒng)對寬域飛行器復(fù)雜特性(強耦合、強非線性、強時變、大不確定性)的適應(yīng)能力,提升控制品質(zhì),國內(nèi)的研究學者開展了廣泛深入的探索和研究,主要采用的技術(shù)途徑可以分為兩種。
第一種途徑是從增強系統(tǒng)魯棒性著手,利用增益調(diào)度等措施,確保系統(tǒng)穩(wěn)定裕度,提升對被控對象模型不確定性的容忍度。
基于經(jīng)典控制理論的PID控制方法,不依賴被控對象的精確動力學模型,易于實現(xiàn),且利用幅值裕度和相位裕度可量化評估控制器魯棒性能,是目前工程中應(yīng)用最為廣泛的控制方法。為增強控制系統(tǒng)對復(fù)雜特性的適應(yīng)能力,會根據(jù)飛行器在不同任務(wù)特征點的特性,利用可觀測參數(shù)對PID控制增益進行實時調(diào)度[5]。
基于現(xiàn)代控制理論的魯棒控制方法,其核心思想是將模型不確定視為對系統(tǒng)標稱條件的擾動,在保留系統(tǒng)精確建模部分穩(wěn)定性的同時,保留一定的穩(wěn)定裕度,從而保證當系統(tǒng)存在模型不確定和外部擾動的情況下整個系統(tǒng)的穩(wěn)定[6]。
第二種途徑是從提升系統(tǒng)自適應(yīng)性著手,利用實時狀態(tài)觀測與估計,辨識出被控對象關(guān)鍵特性,提高對飛行器模型的認知度。
自抗擾控制方法主要以PID控制構(gòu)型為基礎(chǔ),對于具有大不確定性和復(fù)雜非線性等特性的飛行器,考慮到飛行過程中所受的外界干擾等影響,采用擴張狀態(tài)觀測器對被控對象的狀態(tài)和干擾進行觀測,通過狀態(tài)誤差反饋,對不確定干擾因素進行補償,從而實現(xiàn)抑制干擾和精確跟蹤指令[8]。
非線性動態(tài)逆控制方法的核心為通過非線性動態(tài)逆來消除系統(tǒng)中存在的非線性,從而實現(xiàn)系統(tǒng)的“偽線性化”,在此基礎(chǔ)上可以采用其他線性化和非線性化方法設(shè)計系統(tǒng)控制器,實現(xiàn)對非線性系統(tǒng)的控制。針對被控對象存在的模型不確定性和外界干擾,可以利用狀態(tài)觀測對模型進行辨識補償,再利用非線性動態(tài)逆方法獲得理想的控制品質(zhì)[10]。
上述兩種途徑能夠在一定程度上提高控制系統(tǒng)對復(fù)雜特性的適應(yīng)能力,但是隨著寬域飛行器任務(wù)剖面更加多樣,飛行空域速域跨度更廣,外形特性更為復(fù)雜,現(xiàn)有的控制方法逐漸暴露出一定的應(yīng)用局限性。
1)對于利用飛行特征參數(shù)進行增益調(diào)度的途徑,針對特性復(fù)雜度較高的寬域飛行器,可能對應(yīng)同一飛行特征點,動力學特性存在較大范圍的變化,且表征該變化的特性參數(shù)為隱性,不可觀測,因此會導致無法對控制增益進行有效的調(diào)度[11]。以某一飛行特征點為例,當在該特征點氣動壓心存在較大范圍的不確定性時,雖然控制參數(shù)能夠保證在基準狀態(tài)下性能穩(wěn)定,但是由于壓心變化特性不可觀測,控制參數(shù)無法跟隨該狀態(tài)變化做出及時調(diào)整,導致控制參數(shù)與飛行器特性不匹配,從而出現(xiàn)穩(wěn)定裕度下降、控制失穩(wěn)的現(xiàn)象。兩種狀態(tài)下的定點時域響應(yīng)情況如圖3所示。

圖3 定點狀態(tài)下時域響應(yīng)對比Fig.3 Comparison of step responses
2)對于利用實時狀態(tài)觀測和補償來提升對模型認知度的途徑,由于采用的狀態(tài)觀測器自身也需要依靠基礎(chǔ)的被控對象模型建立狀態(tài)方程和觀測方程,但是當被控對象模型復(fù)雜度過高,難以直觀采用狀態(tài)空間進行數(shù)學表達,因此建立狀態(tài)觀測器所使用的模型相對真實模型存在偏差,進而影響其狀態(tài)估計與辨識的精度,大大削弱觀測補償效果,甚至可能失效。
隨著近年人工智能技術(shù)的飛躍發(fā)展,以機器學習算法為代表的智能算法研究引領(lǐng)了第三次人工智能浪潮,其中深度神經(jīng)網(wǎng)絡(luò)由于具備映射能力好、學習能力強、適應(yīng)性廣、純數(shù)據(jù)驅(qū)動等優(yōu)點,在圖像識別、自然語言處理、健康醫(yī)療等任務(wù)中得到非常廣泛而成功的應(yīng)用。作為機器學習中的重要組成分支,強化學習針對馬爾可夫決策問題,通過與被控對象的不斷交互和迭代學習,生成可供全局決策的最優(yōu)策略,可用于解決智能決策問題。而進一步將深度神經(jīng)網(wǎng)絡(luò)與強化學習相結(jié)合,形成深度強化學習,更適合解決復(fù)雜且難以建模的應(yīng)用場景問題,圍棋AlphaZero使用的就是深度強化學習算法。
針對前述分析的現(xiàn)有控制方法在寬域飛行器控制中可能存在的局限性,本文重點從兩種技術(shù)途徑出發(fā)就人工智能技術(shù)在飛行控制中的應(yīng)用開展研究。第一種是基于智能特征辨識的控制方法,即利用深度神經(jīng)網(wǎng)絡(luò)辨識飛行器隱性關(guān)鍵特征,實現(xiàn)控制增益的精準調(diào)度,提升對不確定性的自適應(yīng)能力;第二種是基于深度強化學習的控制方法,利用深度神經(jīng)網(wǎng)絡(luò)建立神經(jīng)網(wǎng)絡(luò)動力學對飛行動力學的映射表達,以指令信號和實時狀態(tài)為神經(jīng)網(wǎng)絡(luò)輸入,以執(zhí)行機構(gòu)控制信號為神經(jīng)網(wǎng)絡(luò)輸出,實現(xiàn)“端對端”控制,弱化對飛行器復(fù)雜動力學建模的依賴。以下結(jié)合典型示例對兩種途徑的研究情況進行介紹。
仍以前述氣動壓心存在不確定性的情況為例,當在相同飛行狀態(tài)(相同的高度、速度、姿態(tài))下,飛行器氣動壓心可能存在較大范圍變化時,由于壓心變化為隱性特征,不可觀測,因此會造成控制增益無法根據(jù)實際特性做出及時調(diào)整,從而導致控制性能惡化,嚴重時可能出現(xiàn)失控的情況。為此,考慮利用深度神經(jīng)網(wǎng)絡(luò)的泛化特征擬合能力,構(gòu)建智能觀測器,對表征氣動壓心變化的動力系數(shù)進行辨識,并利用辨識結(jié)果進行增益調(diào)度,以提升對飛行器特性的大范圍變化的適應(yīng)能力。辨識原理如圖4所示。

圖4 基于智能特性辨識的控制方法原理圖Fig.4 Schematic diagram of the control method based on intelligent characteristic identification
根據(jù)飛行動力學[12],基于系數(shù)凍結(jié)和小擾動線性化處理,可以得到飛行器縱向短周期擾動運動方程:
(1)
式中:Δ?, Δθ, Δα, Δδz分別是俯仰角、彈道傾角、攻角和升降舵舵偏角的擾動偏量;aij是動力系數(shù):
(2)
式中:a22為阻尼動力系數(shù);a24為靜穩(wěn)定動力系數(shù);a25為操縱動力系數(shù);a34為法向力動力系數(shù);a35為舵面動力系數(shù)。因為a24能夠表征飛行器氣動壓心變化的情況,因此將其作為神經(jīng)網(wǎng)絡(luò)辨識輸出。
參數(shù)辨識網(wǎng)絡(luò)設(shè)計為包含BatchNormal層的殘差網(wǎng)絡(luò),如圖5所示。

圖5 參數(shù)辨識網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of the parameter identification network
通過對a24理論計算公式和氣動參數(shù)影響因素進行分析,確定a24辨識網(wǎng)絡(luò)的輸入如表1所示。

表1 辨識網(wǎng)絡(luò)輸入特征參數(shù)Table 1 Input characteristic parameters of the identification network
利用六自由度彈道仿真數(shù)據(jù)構(gòu)建訓練和測試樣本,對網(wǎng)絡(luò)參數(shù)進行訓練,將通過測試集測試的參數(shù)辨識網(wǎng)絡(luò)移植入六自由度彈道仿真中,靜不穩(wěn)定度辨識結(jié)果如圖6所示,辨識誤差不大于10%。仿真結(jié)果表明所設(shè)計的辨識網(wǎng)絡(luò)能夠?qū)崿F(xiàn)較好的靜穩(wěn)定度辨識性能,根據(jù)辨識結(jié)果實時調(diào)整控制參數(shù),可有效提高現(xiàn)有控制方法對不確定度的適應(yīng)能力。


圖6 參數(shù)辨識結(jié)果Fig.6 Results of parameter identification
基于深度強化學習的智能控制方法是直接將深度神經(jīng)網(wǎng)絡(luò)作為控制器,利用控制網(wǎng)絡(luò)與訓練環(huán)境的交互產(chǎn)生訓練數(shù)據(jù),并按照設(shè)計的評價準則逐步改善網(wǎng)絡(luò)的控制性能,最后學習到滿足精度需求的控制器。
基于深度強化學習的智能控制方法分為地面訓練階段和線上部署階段兩個環(huán)節(jié)。控制系統(tǒng)原理如圖7所示。
工作原理為策略網(wǎng)絡(luò)以系統(tǒng)狀態(tài)S為輸入生成控制動作a,強化學習訓練環(huán)境輸入控制動作a后進行動力學解算,并向策略網(wǎng)絡(luò)反饋系統(tǒng)當前狀態(tài)S、當前控制動作a、獎勵值r和下一時刻狀態(tài)S_;評估網(wǎng)絡(luò)以系統(tǒng)狀態(tài)S為輸入預(yù)測狀態(tài)值v(s)。分別利用行動值q(s,a)與理論狀態(tài)值yi更新策略網(wǎng)絡(luò)參數(shù)和評估網(wǎng)絡(luò)參數(shù),直至收斂獲得滿足精度要求的控制網(wǎng)絡(luò)參數(shù)。

圖7 基于深度強化學習的智能控制原理圖Fig.7 Schematic diagram of the intelligent control method based on deep reinforcement learning
基于端到端架構(gòu)的智能控制器,根據(jù)飛行狀態(tài)直接產(chǎn)生控制信號,不同的控制網(wǎng)絡(luò)直接影響控制器訓練速度和控制精度。本文設(shè)計了一種卷積神經(jīng)網(wǎng)絡(luò),控制網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。

圖8 深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 Structure of deep convolutional neural network
在設(shè)計獎勵值函數(shù)時要充分考慮控制網(wǎng)絡(luò)所產(chǎn)生控制信號的分布情況。設(shè)計的獎勵函數(shù)如下:
(3)

設(shè)計攻角指令,利用深度神經(jīng)網(wǎng)絡(luò)控制器實現(xiàn)對攻角指令跟蹤,訓練中攻角指令在4°~8°之間隨機取值,測試時選擇4°~12°之間的指令進行仿真,結(jié)果如圖9所示。

圖9 角控制結(jié)果Fig.9 Results of angle of attack control
可以看到神經(jīng)網(wǎng)絡(luò)控制器很好地跟蹤了控制指令,在控制器訓練中,訓練數(shù)據(jù)雖然僅僅覆蓋到4°攻角指令和8°攻角指令之間,但當給入訓練數(shù)據(jù)范圍之外的12°攻角指令時,神經(jīng)網(wǎng)絡(luò)控制器仍能夠很好地實現(xiàn)控制指令跟蹤,跟蹤誤差小于5%。仿真結(jié)果表明,神經(jīng)網(wǎng)絡(luò)控制器可以實現(xiàn)飛行器姿態(tài)穩(wěn)定控制,且具有一定的泛化性能。
人工智能技術(shù)與寬域飛行器控制技術(shù)相融合具有顯著的學術(shù)和應(yīng)用前景,但是在探索之路上還應(yīng)保持清醒的認識,不能過度神話人工智能技術(shù)的能力,應(yīng)重點圍繞經(jīng)典動力學、飛行控制技術(shù)與人工智能技術(shù)的創(chuàng)新性結(jié)合,面向未來真正的轉(zhuǎn)化應(yīng)用,持續(xù)探索推進。以下結(jié)合目前的研究進展,提出幾點未來需要進一步深入研究的方向展望。
1)加強智能動力學建模技術(shù)研究
寬域飛行器控制最大的難題在于其復(fù)雜動力學特性的模型表達。目前進行探索的人工智能與飛行控制的結(jié)合途徑更多關(guān)注的是控制本身,而對動力學部分關(guān)注比較少。由于飛行動力學具有比較成熟的模型基本形式和解析表達式,這些先驗信息的充分利用可有效降低問題的復(fù)雜性和學習樣本的需求量,因此在動力學建模中融合人工智能技術(shù)相對控制技術(shù)融合具有更加明顯的優(yōu)勢,更加易于人工智能算法學習的實現(xiàn)[15]。若在此方向可以結(jié)合飛行動力學取得突破,則更加有望在實際飛行器中得到應(yīng)用。
2)加深在線“自學習”技術(shù)研究
人工智能當前仍處于計算智能階段,在地面利用樣本數(shù)據(jù)對所構(gòu)建的網(wǎng)絡(luò)進行訓練和測試,其中樣本數(shù)據(jù)能覆蓋所認知的不確定范圍,之后再移植至飛行器進行在線應(yīng)用[16]。訓練好的神經(jīng)網(wǎng)絡(luò)只在訓練集和測試集范圍內(nèi)具有可靠的表現(xiàn),無范圍外的推演能力。若飛行中遇到超出不確定認知范圍的情況,其控制特性將難以得到保證。因此,探索能夠在線實時進行網(wǎng)絡(luò)參數(shù)學習調(diào)整的“自學習”技術(shù)的可行性,是進一步提高飛行控制適應(yīng)能力的有效途徑。
3)加快智能技術(shù)基礎(chǔ)能力建設(shè)
智能化技術(shù)應(yīng)用的硬件基礎(chǔ)是嵌入式芯片,核心是智能算法,因此需要開展能夠支撐神經(jīng)網(wǎng)絡(luò)高動態(tài)實時計算的自主可控智能芯片,構(gòu)建自主可控智能芯片生態(tài),為算法開發(fā)人員提供完備、可靠的工具鏈;同時建設(shè)智能算法樣本庫,管理各類智能算法訓練和測試中涉及的試驗和仿真生成的樣本數(shù)據(jù),集成樣本管理與生產(chǎn)工具集,形成支撐智能算法設(shè)計驗證的數(shù)據(jù)系統(tǒng)。
高品質(zhì)的飛行控制是寬域飛行器安全飛行及高效完成任務(wù)的保證。由于其動力學特性呈現(xiàn)顯著的強非線性、強時變性、強耦合性和大不確定性,突破了當前控制技術(shù)適應(yīng)能力邊界,因此寬域飛行器飛行控制面臨著嚴峻挑戰(zhàn)。隨著人工智能技術(shù)的快速發(fā)展與成熟應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)呈現(xiàn)出很好的對多維度復(fù)雜特征的泛化表達能力,為解決寬域飛行器控制難題提供了新的技術(shù)途徑。
為此,探索研究了兩種將人工智能技術(shù)與寬域飛行器控制相融合的技術(shù)途徑:1)利用深度神經(jīng)網(wǎng)絡(luò)深度挖掘飛行器特性的復(fù)雜內(nèi)在聯(lián)系,提高飛行器關(guān)鍵特征辨識度,實現(xiàn)控制增益的精準調(diào)度,提升對不確定性的適應(yīng)能力;2)利用深度神經(jīng)網(wǎng)絡(luò)建立神經(jīng)網(wǎng)絡(luò)動力學對飛行動力學的映射表達,直接實現(xiàn)“端對端”控制。兩種方法均取得了初步的研究成果。
人工智能技術(shù)與寬域飛行控制技術(shù)相融合具有顯著的學術(shù)和應(yīng)用前景,同時也衍生出一系列亟待進一步解決的問題,為此提出了需要持續(xù)關(guān)注并深入開展的研究內(nèi)容展望,以期更好地實現(xiàn)人工智能技術(shù)與飛行控制技術(shù)的優(yōu)勢融合,不斷提升飛行控制智能化水平,同時為控制科學提供新的發(fā)展動力。