999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

弱模型依賴通用智能姿態控制技術

2022-12-17 02:59:12邵會兵詹韜付京博
上海航天 2022年4期
關鍵詞:方法模型設計

邵會兵,詹韜,付京博

弱模型依賴通用智能姿態控制技術

邵會兵,詹韜,付京博

(北京控制與電子技術研究所,北京 100038)

超高速跨域飛行、敏捷機動等是新一代飛行器發展方向,而長時高速飛行產生的氣動外形變化帶來的氣動參數大范圍改變等問題,都對控制系統設計提出了更高的要求。為提高飛行器對模型不確定性的適應能力及控制方法對不同外形、復合執行機構的通用性,深入研究了弱模型依賴的通用智能姿態控制技術,分層次地開展了基于深度學習(DL)的自適應姿態控制、基于深度確定性策略梯度算法(DDPG)的通用姿態控制、弱模型依賴的多維復合控制等技術研究,顯著提高了控制系統的魯棒性和通用性,對人工智能技術在飛行器姿態控制中的應用具有一定的指導意義。

弱模型依賴;自適應智能控制;多維復合控制;深度強化學習(DRL);擴張狀態觀測器

0 引言

隨著飛行器的高速發展,其飛行環境及任務也日漸復雜。飛行器在大氣層內高速機動飛行時,其速度范圍變化大、高度范圍覆蓋廣,因此氣動參數也隨之大范圍快速變化,同時,長時間高速機動飛行導致的氣動外形變化,進一步加劇了氣動參數的不確定性,這些都要求控制系統具有更強的適應能力。

另一方面,飛行器氣動外形從過去單一的軸對稱外形已逐步發展到軸對稱、面對稱氣動外形共存的局面。為獲得更強的機動能力,針對敏捷機動飛行器的研究也正在如火如荼地進行,這都對姿態控制系統提出了巨大的挑戰。

此外,隨著飛行器設計的不斷進步,其執行機構也日趨多樣。多種類執行器為飛行器跨域飛行提供了更強大的控制能力,但也對姿態控制系統提出了多維復合控制要求。

在環境復雜、氣動參數大范圍不確定性變化的條件下,傳統控制器難以實現高精度姿態控制。為解決上述問題,許多學者使用先進控制理論來進行飛行器的姿態控制設計。文獻[1-3]使用非奇異終端滑模控制方法來實現環境及模型強不確定性下的飛行器姿態控制,但滑模變結構控制仍然依賴高精度的飛行器模型。文獻[4-5]使用自適應動態反演控制方法來實現飛行器的姿態控制,但反演控制方法的補償精度完全依賴氣動數據準確性,當參數大范圍不確定變化時,補償效果通常會下降。文獻[6]使用L1自適應控制來應對飛行器姿態控制中面臨的諸多不確定性。姿態控制系統采用復合控制能夠提升控制能力,增強對外界干擾的適應能力[7]。針對姿態控制系統多維復合控制的需求,現有分配方法通常通過解耦分解[8]、構建分配函數[9]、最小二乘[10]、線性規劃等優化方法進行控制分配。文獻[11]使用基于二次規劃的按需動態分配方法,實現了飛行器的氣動舵面及反作用控制系統的復合控制。這些基于先進控制理論的控制方法均依賴于對被控對象的高精度建模,難以應對現代高速飛行器的姿態控制需要。

若要從根本上解決現有姿態控制方法與現實需求之間的矛盾,必須降低控制方法對模型的依賴程度,以提高對模型不確定性的適應性,增強對不同氣動外形的通用性。文獻[12]使用弱模型依賴方法實現了高性能船舶穩定控制,但其將未建模部分視為誤差,通過觀測器進行干擾補償的方法彌補,難以實現復雜未建模動態下的穩定控制。文獻[13-14]使用深度強化學習(Deep Reinforcement Learning,DRL)實現不依賴模型的控制算法,但其直接基于深度神經網絡輸出控制量,缺乏魯棒性分析,難以用于工程實踐和滿足通用化設計需求。本文在深入研究了弱模型依賴姿態控制技術的基礎上,遵循控制系統發展規律,提出了“基于深度學習(Deep Learning,DL)的自適應姿態控制、基于深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)的通用姿態控制、弱模型依賴的多維復合控制技術”3個智能程度逐層遞進的姿態控制方案,力圖為飛行器姿態控制從傳統方法逐步走向智能化方法提供一定借鑒。

本文圍繞高速飛行器在環境及模型高不確定性變化下的弱模型依賴通用智能姿態控制技術開展研究,第1章提出了基于DL的自適應姿態控制設計,基于DL實現對氣動數據變化的預估及前饋補償;第2章深入研究基于DDPG的通用姿態控制技術,基于DRL實現了傳統控制器面向高不確定性環境及模型的進化;第3章研究弱模型依賴的多維復合控制技術,實現針對多維執行機構的復合姿態控制;第4章得出結論,給出分析。

1 基于DL的自適應姿態控制技術

有關基于DL的自適應姿態控制技術的詳細內容參見文獻[15]。該方法基于小擾動線性化思想,采用“反饋線性化+自適應PID”控制算法框架,算法結構如圖1所示。

該方法將氣動數據作為訓練樣本,采用DL技術離線訓練獲得反饋線性化神經網絡和氣動偏導數神經網絡。并在線根據網絡輸出自適應調整控制規律,使得控制律僅與飛行狀態相關,實現控制律與飛行軌跡的解耦,可滿足寬飛行包線、寬飛行空域、寬飛行高度的多樣化飛行軌跡控制需求。然而反饋線性化算法補償精度完全依賴氣動數據準確性,一旦由于外形變化等因素導致氣動數據天地不一致,補償效果明顯變差,直接導致控制品質下降,甚至失穩。

經飛行器仿真測試[15],采用上述方法對氣動偏差的適應能力約為30%。

2 基于DDPG的通用姿態控制技術

2.1 算法思想

基于DL的自適應姿態控制方法實現了控制律與飛行軌跡的解耦,但神經網絡是根據氣動數據離線訓練獲得,不同外形飛行器難以通用,且氣動偏差的魯棒性難以提升;此外,該方法設計仍需設計師對控制器帶寬等參數進行精細化設計,對模型和任務的依賴程度仍較高。

為進一步降低控制算法對模型的依賴程度,一方面考慮取消反饋線性化網絡,而將控制對象模型的所有非線性部分和外擾均看作系統的“未知擾動”,并采用擴張狀態觀測器進行觀測并實時補償;另一方面,為解決控制器帶寬和觀測器帶寬自適應最優調節問題,提出采用強化學習離線訓練得到控制器和觀測器帶寬自主調節神經網絡,并在線應用該網絡實時計算獲得最佳帶寬,實現期望的最佳控制性能。算法的控制系統框圖如圖2所示。

2.2 基于DDPG的通用姿態控制方法

基于DDPG的通用姿態控制算法將智能控制與傳統控制進行有機結合,在自抗擾控制器的基礎上保留“干擾觀測-補償”框架,增加DRL算法,實現控制器帶寬和ESO帶寬在線實時調度,進一步提高控制器的性能。自抗擾控制方法是韓京清先生于20世紀80年代末期創建的一種估計補償不確定因素的控制技術[16],其將作用于被控對象的所有不確定因素(建模誤差和外加干擾)都歸結為“總的未知擾動”,并利用控制對象的輸入輸出數據對它進行估計并給予補償。

自抗擾控制方法主要由以下3個部分組成:

2)反饋控制律。根據系統的控制誤差確定反饋控制量。

3)擴張狀態觀測器。根據控制對象的輸入輸出信號對擴張狀態(總擾動)進行估計。

將以上跟蹤微分器、反饋控制律、擴張狀態觀測器組合在一起,構成自抗擾控制器,如圖3所示。

2.2.1跟蹤微分器設計

跟蹤微分器用于對姿態角指令安排過渡過程,目的是在考慮控制系統實際跟蹤能力前提下,合理安排過渡過程以實現跟蹤能力范圍內的無超調最速跟蹤。

通過文獻[16]提出一種最速跟蹤微分器,其有很好的噪聲抑制能力,離散后的形式為

2.2.2非線性反饋控制律設計

采用誤差和誤差微分的適當非線性組合設計反饋控制率,形式如下:

2.2.3擴張狀態觀測器設計

對于自抗擾控制器來說,最核心是擴張狀態觀測器,通過建立擴張狀態觀測量的觀測方程,使系統具有擾動估計和補償的能力[17]。

以飛行器俯仰通道為例,姿態運動動力學方程為

擴張狀態觀測器方程為

2.2.4DDPG算法的設計與訓練

DDPG是在深度Q學習方法基礎上,采用了執行器-評價器(Actor-Critic)架構的DRL。其在訓練中根據異策略(Off-Policy)數據及貝爾曼方程學習價值函數,并同時使用價值函數來作為學習策略[18-19]。策略即為執行器-評價器架構中的執行器,根據環境反饋的狀態,輸出系統的連續動作;價值函數即為執行器-評價器架構中的評價器,根據狀態及動作,輸出策略由狀態的期望回報。訓練過程即為迭代擬合價值函數及最大化價值函數的策略,直到收斂。

DDPG算法的目標即為最大化策略在當前狀態下,未來折扣累積獎勵的期望,即:

價值網絡的損失函數:

式(11)中目標函數表示為

根據上述建立的馬爾科夫決策過程,利用DDPG方法進行地面離線仿真訓練,其訓練算法框架如圖4所示。

本文針對固定速度1 200 m/s及飛行高度45 km的高速飛行器姿態控制任務進行訓練,訓練階段姿態角指令為一固定幅值的階躍信號。訓練獲得了比較理想的控制效果,其各回合累積回報的變化曲線如圖5所示。

最后一個回合中姿態角偏差及姿態角速度的變化情況如圖6所示。從圖6中可知,Agent學習到了有效的控制參數調節規律,飛行器可以快速跟蹤姿態角指令,且精度較高。可見,取消了前饋補償模塊,并沒有影響姿態控制的性能,表明本文所提出的“基于DDPG的通用姿態控制方法”是有效可行的。

2.3 基于DDPG的通用姿態控制算法驗證

應用Agent學習到的控制參數調節律網絡進行氣動參數大范圍拉偏條件下仿真驗證。連續進行 5次調姿,姿態角指令除階躍信號外還包含正弦信號,氣動參數拉偏50%,速度取850 m/s(訓練階段并未針對該速度進行訓練)。在這種條件下,相應的姿態角跟蹤曲線如圖7所示。

可見該方法設計過程簡單,對氣動參數和總體結構參數變化適應能力強,算法通用性強,在不同速度下能夠適應多種形式的指令,且控制性能保持良好,即使在氣動系數大范圍拉偏的情況下,仍能夠實現姿態的高精度穩定跟蹤,可以認為該方法實現了姿態控制系統通用化設計。

3 弱模型依賴的多維復合控制技術

3.1 算法思想

上述姿態控制算法將多約束、強不確定性的姿態跟蹤問題轉化為自適應動態規劃問題,并引入DRL算法離線迭代優化,建立了較為通用的算法設計流程,顯著提升對氣動參數大范圍偏差的適應能力,但仍存在如下問題:

1)當前高速飛行器具有推力矢量、直接力以及空氣舵等多維異類執行機構,該算法針對特定單一執行機構設計,難以適應上述執行機構的獨立/復合控制[20];

2)動力系數在線辨識與干擾觀測分離設計,降低對象特征感知效率和精度,極端情況下可能影響閉環系統穩定性;

3)可適應的氣動參數變化范圍有限,難以適應未來飛行器敏捷機動控制需求。

針對上述問題,本文提出“弱模型依賴的多維復合控制技術”。首先,考慮連續、離散姿態控制的統一,構建面向通用控制的動力學特征模型;其次,在此基礎上采用“平行估計器+魯棒自適應控制器+參數調度律+智能分配律”的算法框架,并將估計器、控制器及分配律的設計參數選取抽象為優化問題,引入強化學習算法解決,實現了多維異類復合控制;最后,降低控制算法對精確模型的依賴,發揮擾動條件下的最優性能,同時控制動態分配也能夠實現執行機構典型非致命故障的容錯控制。算法原理框圖如圖8所示。

3.2 面向通用控制的動力學特征模型

3.2.1通用全局特征模型

傳統面向控制模型常采用平衡點附近線性化的小擾動模型,相較于飛行器本質的動力學模型,經過了軌跡域、姿態域、時間域多個維度的約束和簡化,無法滿足新一代高速飛行器寬域、大機動敏捷操縱等需求。為解決上述矛盾,構建飛行器通用全局特征模型為

3.2.2多維異類控制量映射

高速飛行器的多維異類控制分配問題可描述為

由此建立了多維異類控制量映射模型,為后續智能分配律設計奠定基礎,原理框圖如圖9所示。

3.3 通用姿態控制器設計

3.3.1通用姿態控制框架

考慮到根據標稱預示模型設計的控制器通用性差,寬域機動和敏捷機動飛行時性能較差,本文采用“平行估計器+魯棒自適應控制器+參數調度律+智能分配律”算法框架。

1)平行估計器:根據動力學輸入和輸出數據對模型中的未知參數和干擾進行一體化估計,并根據估計結果構建導彈姿態動力學平行系統。

2)魯棒自適應控制器:采用快-慢雙通道滑模控制器構建基本控制律,結合模型估計器的估計信息,實現全局魯棒自適應控制,求得“虛擬控制量”。

3)參數調度律:負責對控制器和模型估計器的自身參數進行智能最優調節,采用評價器-執行器框架,離線訓練網絡初值,在線增量式學習。

4)控制分配律:根據控制約束、飛行器目前狀態及各種執行機構控制效率的分布,采用一定的分配策略,實現對不同執行機構控制輸出的分配,以期在高精度實現“虛擬控制量”條件下,使控制消耗最低。

3.3.2魯棒自適應控制器

基于特征模型,按照被控變量對控制輸入量響應快慢的特點進行快慢時標分離,構成快回路和慢回路子系統,并考慮統一連續控制和開關控制需求,分別針對快慢回路設計擬滑模控制律實現全局魯棒控制,結構如下:

可見,上述控制律為全局非線性形式,同時利用特征參數/干擾一體化在線估計結果,能夠應對寬域飛行導致的動力學強不確定性。

3.3.3智能控制分配

由于存在多種操縱機構,且操縱機構的作用力或力矩可能存在冗余,因此如何合理分配虛擬控制量到實際執行機構成為關鍵,將強化學習思路應用于智能分配律設計,構建控制分配的馬爾科夫決策過程,其中獎勵函數的設計至關重要。

由此將虛擬控制量的動態分配問題等效為優化問題,采用DRL算法解決。

3.4 基于DRL的多維控制參數自進化

為更好地實現未知外界擾動及復雜動力學特性下飛行控制系統的控制性能,在已有的控制系統結構下通過構建平行系統實現對控制器、估計器以及控制分配參數的在線智能優化。采用執行-評價網絡結構(A-C框架),離線訓練好網絡初值,通過建立效用函數與策略函數描述控制性能指標,根據平行系統跟蹤誤差、穩定性、控制能力(剩余執行機構控制量、剩余執行機構變化速率、控制效率)等進行綜合評價,結合期望最優控制性能動態修正控制參數和估計器參數,并實現智能控制分配。算法原理框圖如圖10所示。

4 結束語

本文從傳統姿態控制律設計方法嚴重依賴精確控制對象模型問題出發,提出了基于DL的自適應姿態控制、基于DDPG的通用姿態控制、弱模型依賴的多維復合控制3個智能化程度逐層遞進的控制方案。該方案可顯著提升飛行控制系統對氣動偏差、干擾的適應性以及對不同外形飛行器的通用控制能力,實現了控制算法對控制對象模型的弱依賴,對人工智能技術在飛行器姿態控制中的應用提供了一種切實可行的思路。

[1] ZHANG L, WEI C Z, WU R, et al. Fixed-time extended state observer based non-singular fast terminal sliding mode control for a VTVL reusable launch vehicle[J]. Aerospace Science and Technology, 2018, 82: 70-79.

[2] ZHANG R, LU D, SUN C. Adaptive nonsingular terminal sliding mode control design for near space hypersonic vehicles[J]. IEEE/CAA Journal of Automatica Sinica, 2014, 1(2): 155-161.

[3] QIAO J, LI Z, XU J, et al. Composite nonsingular terminal sliding mode attitude controller for spacecraft with actuator dynamics under matched and mismatched disturbances[J]. IEEE Transactions on Industrial Informatics, 2020, 16(2): 1153-1162.

[4] ANSARI U, BAJODAH A H. Launch vehicle ascent flight attitude control using direct adaptive generalized dynamic inversion [J]. Proceeding of the Institution of Mechanical Engineering, Part G: Journal of Aerospace Engineering, 2019, 233(11): 4141-4153.

[5] 董朝陽,路遙,王青.高超聲速飛行器指令濾波反演控制[J].宇航學報,2016,37(8):957-963.

[6] 鐘京洋,宋筆鋒.基于魯棒伺服思想的尾坐式飛行器懸停姿態控制[J].控制與決策,2020,35(2):339-348.

[7] 周如好,張衛東,胡存明,等.運載火箭推力矢量/非線性復合控制方法研究[J].上海航天(中英文),2016,33(增刊1):81-85.

[8] YANG C, ZHONG S, LIU X, et al. Adaptive composite suboptimal control for linear singularly perturbed systems with unknown slow dynamics[J]. International Journal of Robust and Nonlinear Control, 2020, 30:2625-2643.

[9] 郭建國,吳林旭,周軍.非對稱變翼飛行器復合控制系統設計[J].宇航學報,2018,39(1):52-59.

[10] 劉勝,王宇超,傅薈璇.船舶航向保持變論域模糊-最小二乘支持向量機復合控制[J].控制理論與應用,2011,28(4):485-490.

[11] 董哲,劉凱,李旦偉.考慮動態分配控制的空天飛行器再入姿態復合控制設計[J].宇航學報,2021,42(6):749-756.

[12] 劉旌揚.弱模型干擾補償控制方法及其在高性能船舶姿態穩定控制中的研究應用[D].上海:上海交通大學,2011.

[13] 裴培,何紹溟,王江,等.一種深度強化學習制導控制一體化算法[J].宇航學報,2021,42(10):1293-1304.

[14] 孔維仁,周德云,趙藝陽,等.基于深度強化學習與自學習的多無人機近距空戰機動策略生成算法[J].控制理論與應用,2022,39(2):352-362.

[15] 邵會兵,崔乃剛,詹韜.基于神經網絡的飛行器控制方法及仿真研究[J].計算機仿真,2018,35(10):94-98.

[16] 韓京清.自抗擾控制技術:估計補償不確定因素的控制技術[M].北京:國防工業出版社,2008.

[17] 孫明瑋,馬順健,樸敏楠.高超聲速飛行器自抗擾控制方法[M].北京:科學出版社,2018.

[18] RICHARD S S, ANDREW G. Reinforcement learning: an introduction[M]. Cambridge, USA: MIT Press, 2017.

[19] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//Proceedings of the 31st International Conference on Machine Learning. New York:ACM Press,2014: 387-395.

[20] HE S, LIN D, WANG J. Compound control methodology for a robust missile autopilot design[J]. Journal of Aerospace Engineering, 2015, 28(6): 1-10.

Generalized Intelligent Attitude Control with Weak Model Dependence

SHAOHuibing, ZHANTao, FUJingbo

(Beijing Institute of Control and Electronic Technology, Beijing 100038, China)

Ultra-high speedcross-domain flight and agile maneuvering are the developing trends of next-generation aircrafts. However, the aerodynamic parameters variations caused by the aerodynamic shape change in long-time wide-speed-range hypersonic flight and the aerodynamic variations in deformable aerial-underwater flight pose significant challenges to the aircraft attitude control system. In this paper, a novel generalized intelligent attitude control method with weak model dependence is proposed to tackle the model uncertainty as well as the compound control problem of heterogeneous actuators in deformable aircrafts. The method is an attitude control scheme based on an adaptive control method, a generalized intelligent attitude control method, and a compound control method. The adaptive attitude control method is based on deep learning (DL), and is used to compensate the aerodynamic moment. The generalized intelligent attitude control method is based on the deep deterministic policy gradient (DDPG) algorithm, and is developed for the aerodynamic and model uncertainties. The compound control method is adopted for the heterogeneous actuators with weak model dependence. The proposed method is a practical intelligent control method, and has better robustness as well as universality compared with the existing ones.

weak model dependence; adaptive intelligent control; heterogeneous compound control; deep reinforcement learning (DRL); extended state observer

2022?04?27;

2022?06?23

邵會兵(1977—),男,博士,研究員,主要研究方向為導航、制導與控制。

詹韜(1983—),男,碩士,研究員,主要研究方向為導航、制導與控制。

TJ 765.2

A

10.19328/j.cnki.2096?8655.2022.04.007

猜你喜歡
方法模型設計
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产精品亚洲αv天堂无码| 亚洲最大看欧美片网站地址| 福利在线不卡| 国产91高跟丝袜| 国产精品欧美日本韩免费一区二区三区不卡| 伊人AV天堂| 亚洲第一国产综合| 久久亚洲AⅤ无码精品午夜麻豆| 久久人搡人人玩人妻精品| 午夜日韩久久影院| 中文字幕色在线| 欧美一级在线看| 国产成年无码AⅤ片在线| 欧美成人h精品网站| 成人免费午夜视频| 青青青草国产| 亚洲人成网站在线播放2019| 青青草原国产| 波多野结衣国产精品| 91年精品国产福利线观看久久 | 小说区 亚洲 自拍 另类| 久久 午夜福利 张柏芝| 91在线无码精品秘九色APP| 国产精品99在线观看| 久久久久免费看成人影片| 9啪在线视频| 亚洲人成在线精品| 亚洲第一极品精品无码| 91原创视频在线| 国产成人凹凸视频在线| 不卡视频国产| 欧美精品另类| 老熟妇喷水一区二区三区| 久久综合婷婷| 狠狠色香婷婷久久亚洲精品| 91极品美女高潮叫床在线观看| 国产老女人精品免费视频| 久久久噜噜噜久久中文字幕色伊伊| 亚洲色婷婷一区二区| 国产精品久久久久久搜索| 99re精彩视频| 亚洲高清日韩heyzo| 国产精品美女免费视频大全| 亚洲中文字幕久久精品无码一区| 一级黄色欧美| 伊人婷婷色香五月综合缴缴情| 国产区在线观看视频| 国产人成网线在线播放va| 久久免费成人| 无码AV动漫| 日本www色视频| 久久亚洲黄色视频| 人妻精品久久无码区| 国产亚洲精品资源在线26u| 99久久免费精品特色大片| 亚洲男人的天堂在线观看| 亚洲AV无码不卡无码| 激情午夜婷婷| 2022国产91精品久久久久久| 欧美激情首页| 人禽伦免费交视频网页播放| 99久久精品免费观看国产| 中文字幕在线看| 欧美五月婷婷| 欧美日韩一区二区在线播放| 亚洲三级a| 国产小视频网站| 婷婷丁香色| 国产原创自拍不卡第一页| 亚洲香蕉久久| 午夜日b视频| 日韩专区第一页| 亚洲网综合| 99这里只有精品免费视频| 亚洲娇小与黑人巨大交| 国产欧美综合在线观看第七页| 亚洲日本中文字幕天堂网| 亚洲一区二区约美女探花| 日韩高清一区 | 日本黄色不卡视频| 台湾AV国片精品女同性| 国产成人三级在线观看视频|