劉 昊 趙萬兵 高 慶 劉德元 呂金虎
作為多智能體同步控制典型應用,四旋翼無人機編隊控制問題受到了各研究領域的廣泛關注.由具有諸多優點的四旋翼無人機(如簡單的機械結構、靈敏的機動性、懸停和垂直起飛的能力)所組成的集群系統可用來完成復雜的協同任務,如協作貨物運輸、協同監視和協同通信中繼等[1].然而,四旋翼無人機是一個受非線性動態和外部干擾影響的欠驅動系統,且動態模型難確定.因此,在上述因素影響下,如何設計四旋翼無人機的魯棒最優編隊控制器,以達到預期的協同飛行是一個具有挑戰性的問題.
為了實現四旋翼無人機編隊任務,學者們提出了多種經典的基于模型的控制策略.文獻[2]基于虛擬結構方法設計了一種用于四旋翼編隊控制的分布式編隊控制器.然而在文獻[2]中,編隊中每一個飛行器動態模型被簡化處理,且忽略了飛行器轉動動態.文獻[3]在編隊控制律設計中,同時考慮了四旋翼無人機的平動動態和轉動動態,但對四旋翼無人機轉動動態中的非線性動態進行了簡化.實際上,四旋翼是一個高度非線性的六自由度欠驅動系統.文獻[3]中簡化的四旋翼無人機模型不能準確描述具有大機動條件下四旋翼系統的非線性耦合動態.傳統的魯棒編隊控制方法(如魯棒反饋線性化方法[4]、H∞控制方法[5]和魯棒補償控制方法[6])被設計來抑制非線性動態和外部干擾對四旋翼無人機的影響.然而,傳統的魯棒控制方法依賴于動態模型,并不適用于動態模型未知的四旋翼無人機.因此,在不了解四旋翼無人機精確動態模型信息的情況下,四旋翼無人機魯棒最優編隊控制問題還有待解決.
基于強化學習的人工智能和機器人控制系統在學術界引起了廣泛關注.在研究之初,一些強化學習算法如Sarsa、Q-學習和動作-評價方法被應用于計算機智能[7].然后出現了強化學習技術與最優控制理論相結合的最優控制算法[8].在最近幾年的研究中,強化學習被應用到了包含未知動態的無人飛行器最優控制律設計當中[9-11].文獻[9]基于強化學習算法,利用系統數據識別動態模型,設計基于模型的控制器來完成四旋翼無人機的懸停任務.文獻[10]提出了一種多步Q-學習方法,以解決二自由度直升機的輸出調節問題.文獻[11]將強化學習算法應用到了被簡化的四旋翼模型系統中,實現了四旋翼無人機系統的高度控制任務.文獻[12]考慮了四旋翼無人機中的非線性動動態,采用強化學習方法訓練得到了最優位置控制器和最優姿態控制器.然而,文獻[8-12]并未進一步研究多個四旋翼無人機的協同控制問題.文獻[13]將四旋翼無人機考慮為線性系統并基于強化學習研究了多個線性系統的姿態同步控制問題.文獻[14]考慮了四旋翼無人機非線性姿態動態并基于強化學習算法設計協同控制器,實現了多個四旋翼無人機在執行器故障條件下的姿態協同.文獻[15]考慮了飛行器位置和姿態非線性動態并設計了基于強化學習的編隊最優控制器.然而文獻[13-15]只考慮了同構四旋翼無人機協同控制,且均未深入研究四旋翼無人機完整非線性平動與轉動動態.
本文考慮四旋翼無人機完整的非線性平動動態和轉動動態,在未知動態模型和外部干擾影響下,基于強化學習算法,設計魯棒最優位置控制器和魯棒最優姿態控制器.與以往研究相比,本文主要貢獻如下:1)實現了非線性不確定四旋翼無人機的魯棒最優控制.傳統基于模型的最優控制方法需要求解非線性方程[16],這在實際應用中很難實現.本文基于強化學習方法,利用無人機系統數據學習出非線性方程的解并最終得到最優控制策略.2)利用強化學習方法從系統數據中實時學習最優策略,保證了在未知動態模型影響下異構四旋翼無人機的編隊控制策略最優性.3)結合強化學習理論和魯棒最優控制理論,對四旋翼無人機集群分別設計魯棒最優位置控制器和魯棒最優姿態控制器,可抑制外部干擾的影響.
本文通過結合分布式觀測器輸出數據和飛行器狀態數據,為每一個無人機設計了強化學習算法.通過引入分布式觀測器,將無人機之間的跟蹤性能分隔開來,降低了控制器狀態量維度,使得其對于不同規模的無人機群均具有較好的適應性.

表1 四旋翼無人機系統參數Table 1 System parameters of quad-rotor UAV
采用傳統的比例-微分控制器產生系統學習數據,探索噪聲設置為正弦信號的疊加.應用算法2~3中的無模型強化學習算法學習最優控制策略,將學習到的編隊最優控制策略應用到四旋翼無人機集群中,其三維軌跡如圖1 所示.四旋翼無人機位置響應曲線如圖2 所示,姿態響應曲線如圖3 所示,姿態跟蹤誤差曲線如圖4 所示,位置跟蹤誤差曲線如圖5 所示.由圖1~5 可見,異構四旋翼無人機成功實現編隊并跟蹤領導者的任務,證明了所提算法的有效性.

圖1 采用所提編隊控制器的四旋翼無人機三維軌跡Fig.1 3-D trajectory of quad-rotor unmanned helicopter with the proposed formation controller

圖2 位置響應曲線Fig.2 Position response curve

圖3 姿態響應曲線Fig.3 Attitude response curve

圖4 姿態跟蹤誤差曲線Fig.4 Attitude tracking error curve

圖5 位置跟蹤誤差曲線Fig.5 Position tracking error curve
本文利用強化學習不基于模型的特性,為四旋翼無人機實時學習魯棒最優控制器.利用四旋翼無人機間的局部信息,設計完全分布式觀測器,為無人機提供參考信號,以最終實現編隊飛行.仿真結果表明,所提算法能夠利用系統數據學習控制策略并實現四旋翼無人機的編隊飛行.