趙玉新,何永旭,徐庚,陳力恒
基于高斯過程的航天器自適應滑模姿態控制
趙玉新,何永旭,徐庚,陳力恒
(哈爾濱工程大學 智能科學與工程學院,黑龍江 哈爾濱 150001)
針對存在模型不確定性和外界干擾的剛性航天器,提出了一種基于高斯過程回歸(GPR)的新型自適應滑模姿態控制算法。該算法具有自學習能力,在不同的姿態控制任務下都能夠實現高精度、強魯棒和高效率的姿態跟蹤。首先,在航天器的四元數標稱系統動態模型基礎上,應用在線稀疏高斯過程回歸(SOGP)方法學習系統的未知動態;其次,結合高斯過程的預測均值設計滑模控制算法,利用高斯過程的預測方差自適應調節控制增益,并應用李雅普諾夫方法嚴格證明閉環系統的穩定性,保證了航天器姿態跟蹤誤差的漸進收斂性;最后,通過數值仿真驗證了所設計控制器的有效性。結果表明,該自學習控制算法與自適應滑模控制(ASMC)與神經網絡自適應控制等算法相比,具有更快的收斂速度、更高的跟蹤精度以及更低的控制成本。
姿態跟蹤;四元數;高斯過程回歸;自適應控制;滑模控制
高精度的姿態控制是航天器成功執行巡邏、編隊飛行與交會對接等任務的關鍵[1-3]。然而,航天器的轉動慣量不確定性、外界干擾力矩以及其姿態動力學的高度非線性與強耦合性都為高精度姿態控制帶來一定的難度。因此,研究存在模型不確定性和外界干擾的航天器姿態控制具有重要的實際意義。
針對航天器存在不確定性時的姿態控制問題已提出了許多非線性控制算法,如滑模控制[4]、反步法控制[5]與自適應控制[6]等。這些傳統的控制算法雖然通過采用觀測器或自適應算法補償不確定性的方式提高了姿態控制的性能,但缺乏自學習的能力,在姿態跟蹤任務發生變化時,若不人為調整控制參數,姿態控制的性能可能會大大降低[7]。近年來,學者們將強化學習、神經網絡等機器學習方法與傳統的控制算法結合,通過充分利用航天器的觀測數據來有效提高姿態控制的自學習能力。文獻[7]設計了基于強化學習的滑模控制算法,保證了航天器在跟蹤任務變化時的控制性能。但該算法需要采集離線觀測數據以確保控制參數學習的速度,增加了算法的實際應用難度。文獻[8]將切比雪夫神經網絡與終端滑模控制相結合,解決了航天器存在不確定性時的有限時間姿態跟蹤控制問題。文獻[9]設計了基于徑向基神經網絡的滑模控制算法,擴大了神經網絡的有效作用區域,從而保證了航天器對于未知干擾的魯棒性。由于神經網絡是一種確定性的機器學習方法,難以直接評估不確定性的預測可靠性,所以神經網絡控制算法通常需要采用較高的反饋增益來避免不確定性的預測誤差對閉環系統控制性能的影響,使得這類算法的控制成本較高。
高斯過程回歸(Gaussian Process Regression, GPR)是一種基于概率的機器學習方法,具有嚴格的統計學理論基礎,能夠有效處理高維度、小樣本和非線性的復雜函數建模問題[10]。GPR方法利用高斯過程(Gaussian Process,GP)描述未知函數的分布情況,并可基于輸入輸出數據對函數值進行預測。GP模型為非參數模型,能夠有效處理數據的觀測噪聲,并且其預測的可靠性可由方差信息評估[11]。因此,GPR方法也可與傳統的控制算法相結合來提高不確定非線性系統的控制性能和自學習能力。文獻[12]設計了基于GPR的計算力矩控制算法,通過提高不確定性的補償精度,有效地降低了反饋控制增益,從而提高了控制效率。該方法雖然通過引入GP模型的預測方差降低了控制成本,但需要離線采集大量的訓練數據以保證GP模型的有效性,所以算法的實際應用性不強。文獻[13]將在線GPR方法與模型參考自適應控制相結合,避免了傳統自適應控制中有關輸入信號持續激勵的約束。該方法對于模型不確定性的魯棒性較強,但難以保證外界干擾存在時的跟蹤控制性能。
針對具有模型不確定性且受外界干擾影響的航天器,提出了一種基于GPR的自適應滑模控制(Adaptive Sliding Mode Control,ASMC)算法,以保證不同姿態控制任務下都能夠實現高精度、強魯棒和高效率的姿態跟蹤。首先,根據系統的觀測數據,基于GPR方法學習不確定性的映射,從而利用GP模型的預測均值實現精準的動態補償。然后,結合GP模型設計ASMC算法,利用預測方差主動調節反饋增益以及控制參數自適應律的更新速度,使得控制參數可根據不確定性的預測可靠程度進行自整定。最后,利用李雅普諾夫方法證明航天器的姿態與角速度跟蹤誤差在任意概率下都能夠全局漸進收斂。通過與ASMC和神經網絡滑模控制方法的仿真結果對比說明,所提出的自學習控制算法對于不同的姿態控制任務都具有更快的收斂速度、更高的跟蹤精度以及更低的控制成本。





那么,航天器的姿態跟蹤誤差運動學與動力學模型可表示為[14]

式中:








定義滑模變量為


式中:

分別為預測均值向量與方差矩陣,其中各元素可根據式(12)計算得到。
針對航天器(1)的姿態跟蹤控制問題,可根據式(17)、式(20)與式(22),設計以下基于GP的ASMC(GP-ASMC)算法:




證明 選取李雅普諾夫函數為



則根據式(29)可知



本章將通過數值仿真算例說明GP-ASMC算法在航天器姿態跟蹤控制應用中的有效性。仿真中令航天器慣性矩陣的真實值為

航天器初始姿態的矢量部分與初始角速度分別為
本仿真采用ASMC[6]與神經網絡ASMC(Neural Network ASMC,NN-ASMC)算法[9]作為對比方法,來說明GP-ASMC算法的優越性。3種方法所采用的控制參數見表1。另外,本仿真還將在不改變控制參數的情況下令航天器執行2種不同的姿態控制任務,以驗證GP-ASMC算法的自學習能力。2種姿態控制任務所對應的期望姿態參數見表2。

表1 3種控制算法的參數設置

表2 2種姿態控制任務的期望姿態參數


圖2 任務1下的姿態四元數跟蹤誤差

圖3 任務1下的角速度跟蹤誤差

圖4 任務1下的控制力矩

圖5 任務1下基于GP的不確定性預測

圖6 任務1下的控制增益自適應更新曲線


圖7 任務2下的姿態四元數跟蹤誤差

圖8 任務2下的角速度跟蹤誤差

圖9 任務2下的控制力矩


表3 3種控制算法的性能比較
本文針對存在較強模型不確定性且受外界干擾影響的航天器,利用GPR學習算法與滑模控制框架,設計了一種具有自學習能力的自適應滑模姿態跟蹤控制算法,并證明了姿態四元數與角速度跟蹤誤差是全局漸進收斂的。所提出的GP-ASMC算法利用具有概率意義的GP模型學習系統的總不確定性,不僅可以利用GP預測均值實現精準的動態補償,還可以基于預測方差調節控制增益,在保證跟蹤控制精度的同時可提高算法的控制效率。另外,所應用的ASMC框架使得GP-ASMC對不確定性的預測誤差具有一定的魯棒性。仿真實驗結果:GP-ASMC算法對于不同的姿態控制任務都具有收斂速度快、跟蹤精度高、控制成本低的優點,具有一定的實際工程應用價值。為了進一步說明該算法對控制系統元器件誤差的容忍能力,后續將分析執行機構的非線性以及傳感器的量測信息缺失與量測誤差等影響因素對航天器姿態跟蹤性能的影響,并改進控制算法以保證其實際應用的有效性。
[1] LIU X, MENG Z, YOU Z. Adaptive collision-free formation control for under-actuated spacecraft[J]. Aerospace Science and Technology, 2018, 79: 223-232.
[2] NASTASI K M, BLACK J T. Adaptively tracking maneuvering spacecraft with a globally distributed, diversely populated surveillance network[J]. Journal of Guidance, Control, and Dynamics, 2019, 42(5): 1033-1048.
[3] SUN L. Adaptive fault-tolerant constrained control of cooperative spacecraft rendezvous and docking[J]. IEEE Transactions on Industrial Electronics, 2020, 67(4): 3107-3115.
[4] QIAO J, LI Z, XU J, et al. Composite nonsingular terminal sliding mode attitude controller for spacecraft with actuator dynamics under matched and mismatched disturbances[J]. IEEE Transactions on Industrial Informatics, 2020, 16(2): 1153-1162.
[5] ZHUANG H, SUN Q, CHEN Z, et al. Back-stepping active disturbance rejection control for attitude control of aircraft systems based on extended state observer[J]. International Journal of Control, Automation and Systems, 2021, 19(6): 2134-2149.
[6] ZHU Z, XIA Y,FU M. Adaptive sliding mode control for attitude stabilization with actuator saturation[J]. IEEE Transactions on Industrial Electronics, 2011, 58(10): 4898-4907.
[7] ZHENG M, WU Y, LI C. Reinforcement learning strategy for spacecraft attitude hyperagile tracking control with uncertainties[J]. Aerospace Science and Technology, 2021, 119: 107-126.
[8] ZOU A, KUMAR K D, HOU Z, et al. Finite-time attitude tracking control for spacecraft using terminal sliding mode and Chebyshev neural network[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2011, 41(4): 950-963.
[9] ZOU Y. Attitude tracking control for spacecraft with robust adaptive RBFNN augmenting sliding mode control[J]. Aerospace Science and Technology, 2016, 56: 197-204.
[10] RASMUSSEN C E, WILLIAMS C K I. Gaussian processes for machine learning[M]. Cambridge, Mass: MIT Press, 2006: 1-83.
[11] SRINIVAS N, KRAUSE A, KAKADE S M, et al. Information-theoretic regret bounds for Gaussian process optimization in the bandit setting[J]. IEEE Transactions on Information Theory, 2012, 58(5): 3250-3265.
[12] THOMAS B, DANA K, HIRCHE S. Stable Gaussian process based tracking control of Euler-Lagrange systems[J]. Automatica, 2019, 103: 390-397.
[13] CHOWDHARY G, KINGRAVI H A, HOW J P,et al. Bayesian nonparametric adaptive control using Gaussian processes[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(3): 537-550.
[14] SHUSTER M D. A survey of attitude representations[J]. The Journal of Astronautical Sciences,1993, 41(4): 439-517.
[15] YANG Y. Spacecraft modeling, attitude determination, and control quaternion-based approach[M]. CRC Press, 2019: 43-52.
[16] SIDI M J. Spacecraft dynamics and control: a practical engineering approach[M]. New York: Cambridge University Press, 1997: 88-111.
[17] OPPER M. Sparse online Gaussian processes[J]. Neural Computation, 2002, 14(3): 641-669.
[18] FIEDLER C, SCHERER C W, TRIMPE S. Practical and rigorous uncertainty bounds for Gaussian process regression[C]// Proceedings of the AIAA Conference on Artificial Intelligence. Reston, USA: AIAA Press, 2021: 7439-7447.
[19] 鐘婧佳,趙洪,佟澤友,等.基于RBF神經網絡的控制器參數優化設計研究[J].導彈與航天運載技術,2020(3):76-80.
[20] KRSTIC M, KOKOTOVIC P V, KANELLAKOPOULOS I. Nonlinear and adaptive control design[M]. Hoboken, USA: John Wiley & Sons, Inc., 1995: 489-491.
Adaptive Sliding Mode Attitude Control of Spacecrafts Based on Gaussian Processes
ZHAOYuxin, HEYongxu, XUGeng, CHENLiheng
(College of Intelligent Systems Science and Engineering, Harbin Engineering University, Harbin 150001, Heilongjiang, China)
A novel adaptive sliding mode attitude control algorithm based on Gaussian process regression (GPR) is proposed for rigid spacecrafts with model uncertainties and external disturbances. The proposed algorithm has the ability of self-learning, and can always achieve attitude tracking with high accuracy, robustness, and efficiency under different attitude control tasks. First, the sparse online Gaussian process (SOGP) technique is used to learn the system unknown dynamics based on the quaternion nominal dynamic model for spacecrafts, and an SOGP technique is applied to learn the system unknown dynamics. Second, a sliding mode control algorithm is designed by using the predicted means of GPs, and the control gain is adapted based on the predicted variances. Moreover, the stability of the closed-loop system is proved by using the Lyapunov approach, which guarantees the asymptotic convergence of the attitude tracking error. Finally, the effectiveness of the designed controller is verified by numerical simulation. The results show that the proposed self-learning controller has faster convergence speed, higher tracking accuracy, and lower energy cost than the adaptive sliding mode control (ASMC) and neural network adaptive control algorithms.
attitude tracking; quaternion; Gaussian process regression; adaptive control; sliding mode control
2022?04?26;
2022?06?13
國家自然科學基金(61903098)
趙玉新(1980—),男,博士,教授,主要研究方向為水下導航技術及應用、智能控制與決策。
何永旭(1993—),女,博士研究生,主要研究方向為非線性系統控制、智能控制與決策。
TP 273
A
10.19328/j.cnki.2096?8655.2022.04.010