基于深度強化學習的固定翼無人機編隊協調控制方法

2021-07-05 11:07:16相曉嘉閆超王菖尹棟

航空學報 2021年4期

相曉嘉，閆超，王菖，尹棟

國防科技大學智能科學學院，長沙 410073

近年來，隨著傳感器技術、無線通信技術以及智能控制技術的不斷發展與進步，無人機(Unmanned Aerial Vehicle，UAV)在軍事和民用領域得到了廣泛的應用，并取得了顯著的成功[1]。但受限于平臺功能少、有效載荷輕、感知范圍小等固有缺陷，單架無人機在復雜環境下執行多樣化任務仍面臨較大困難[2]；而多架無人機組成協同編隊能夠有效彌補單機性能的不足，大幅提高系統的整體性能，在執行復雜作戰任務時有著諸多優勢[3]，如區域覆蓋范圍廣、偵查和搜救成功率高等，作戰效能遠遠高于各自為戰的無人機。在可以預見的未來，隨著戰場環境和作戰任務的日趨復雜，無人機編隊將是執行作戰任務的主要載體[4]。因此，無人機編隊協調控制技術業已成為無人機系統技術領域的一個研究熱點。

國內外學者針對該問題進行了廣泛的研究?，F有的解決方法，如模型預測控制[5]、一致性理論[6]等通常需要平臺和擾動的精確模型進行控制率設計。但是，這一模型通常具有復雜、時變、非線性的特點，加之傳感器誤差、環境擾動等隨機因素的影響，往往難以精確建模[7-8]。這嚴重限制了傳統分析方法的適用范圍。作為一種代替方法，應用無模型強化學習方法解決上述矛盾得到了越來越多的關注。

強化學習[9-10](Reinforcement Learning，RL)是機器學習領域的一個重要分支，主要用于解決序貫決策問題。強化學習任務通?？捎民R爾科夫決策過程(Markov Decision Process，MDP)來描述，其目標是在與環境的交互過程中，根據環境狀態、動作和獎勵學習一個最佳策略，使智能體(Agent) 選擇的動作能夠從環境中獲取最大的累積獎勵。強化學習可以不依賴于環境模型，適用于未知環境中的決策控制問題，在機器人領域已取得了大量較為成功的應用，如路徑規劃[11-12]、導航避障[13-14]等。

目前，已有研究人員將強化學習融入其編隊協調控制問題的解決方案中，并在仿真環境下對方案的可行性和有效性進行了初步的驗證。強化學習在協調控制中的應用研究最早由Tomimasu等[15]開展，在該仿真研究中，Agent采用Q學習算法和勢場力方法學習聚集策略。不久之后，Morihiro等[16]基于Q學習算法提出了一種多智能體自組織群集行為控制框架。仿真試驗表明，Agent在完成群集任務的同時，也表現出了反捕食行為以躲避捕食者。近年來，La等[17-18]相繼發布多項有關集群協調控制的研究成果，該團隊提出了一種將強化學習和群集控制相結合的混合系統，并通過仿真和實驗驗證了系統的可擴展性和有效性。該系統由低層集群控制器和高層RL模塊組成，這一結合方式使系統能在保持網絡拓撲和連通性的同時躲避捕食者。混合系統中的RL模塊采用Q學習算法，并通過共享Q表的方式實現分布式合作學習。試驗結果表明，該方式可加速學習過程，并能獲取更高的累積獎勵。Wang等[19]基于深度確定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法，提出一種無人機編隊協調控制算法，使無人機能夠在大規模復雜環境中以完全分散的方式聚集并執行導航任務。

上述應用均采用質點Agent模型，所得控制方案僅適用于旋翼無人機。與旋翼無人機不同，由于固定翼無人機飛行動力學的非完整約束，固定翼無人機編隊協調控制更加復雜，需要采用有別于旋翼機的控制策略與方法。此外，固定翼無人機更易受空速、側風等環境擾動的影響，在動態不確定環境中學習到的策略會隨著環境的變化而變化，導致強化學習算法難以收斂。到目前為止，將強化學習算法應用于固定翼無人機編隊協調控制中的研究成果依然較少。

Hung等[8,20]對該問題進行了初步的研究：2015年，其在無模型強化學習的背景下，研究了小型固定翼無人機在非平穩環境下的聚集問題[20]；該研究采用變學習率Dyna-Q(λ)算法學習Leader-Follower拓撲下的協調控制策略；仿真結果表明，所提變學習率方法具有更快的收斂速度；此外，所提方法還通過學習環境模型、并用規劃的方式產生大量的模擬經驗提高采樣效率、加快學習過程。2017年，Hung和Givigi又在此基礎上進一步提出了面向隨機環境的無人機群集Q學習方法[8]；該研究以小型固定翼無人機為研究對象，基于無模型RL提出了固定翼無人機協調控制框架；在該框架中，Agent采用變學習速率Q(λ)算法在Leader-Follower拓撲中學習群集策略，并對抗環境的隨機擾動；非平穩環境中的仿真試驗驗證了算法的可行性。

上述基于強化學習的固定翼無人機編隊協調控制方法仍有一些問題尚未得到妥善解決：為解決維度災難問題，Hung等[8,20]將狀態空間離散化以縮減狀態空間的維度。這種處理方式雖然降低了問題的求解難度，但卻未必十分合理。此外，Hung等[8,20]僅在數值仿真環境對算法進行了初步的驗證，所提算法的實用性和泛化性仍需進一步驗證。

本文在Hung等[8,20]的研究基礎上，聚焦動態不確定環境下固定翼無人機編隊協調控制問題，基于深度強化學習算法構建端到端協調控制框架，實現多架無人僚機自主跟隨長機組成編隊協同飛行。首先，將ε-greedy策略與模仿策略相結合，提出ε-imitation動作選擇策略以更好地平衡探索和利用；然后，結合雙重Q學習和競爭架構對深度Q網絡(Deep Q-Network，DQN)算法進行改進，提出ID3QN(Imitative Dueling Double Deep Q-Network)協調控制算法以提高學習效率；最后，構建高保真半實物仿真系統驗證算法的有效性和可遷移性。

1 背景介紹

1.1 強化學習

在強化學習中，智能體以試錯的方式不斷地與環境進行交互，旨在學習一個最佳策略，使得其從環境中獲取的累積獎勵達到最大[21]。強化學習問題可用MDP框架形式化描述。通常情況下，MDP可用一個四元組(S,A,P(s,s′,a),R(s,s′,a))定義，其中S表示狀態空間；A表示動作空間；P(s,s′,a)表示狀態轉移概率函數(模型)，該模型定義了智能體執行動作a∈A后，環境狀態s∈S轉移到新狀態s′∈S的概率；R(s,s′,a)表示回報函數，其含義為智能體執行動作a∈A后，環境狀態s∈S轉移到新狀態s′∈S所帶來的獎勵。

在智能體與環境交互中的每一時間步t，智能體觀測環境狀態為st，進而根據策略π(at|st)從動作空間A中選擇動作at。執行動作at后，環境狀態以P(st+1|st,at)的概率轉移到新狀態st+1，并將回報值rt反饋給智能體。智能體的目標在于學習一個最優策略π*:S→A，即狀態空間到動作空間的映射，以最大化期望折扣回報Rt：

(1)

式中：T為終止時刻；γ為折扣因子，用于平衡未來回報對累積回報的影響，0≤γ≤1；rt表示t時刻的立即回報。

1.2 Q學習與深度Q網絡

Q學習(Q-learning)算法是強化學習領域最為經典且最為重要的算法之一，是由Watkins和Dayan[22]提出的一種無模型(model-free)異策略(off-policy)的強化學習算法。該算法定義了Q值函數(Q-value)，并使用如式(2)和式(3)所示的更新規則迭代優化Q值函數：

Q(st,at)=Q(st,at)+αδt

(2)

(3)

式中：δt為TD(Temporal-Difference)誤差；st為當前狀態；at為當前動作；st+1為執行at后的環境狀態；rt+1為立即回報值；α為學習率，0<α<1。

Q值函數一旦確定，即可根據Q值函數確定最優策略：智能體以貪婪策略選擇動作，即在每一時間步選擇最大Q值定義的動作。Q學習算法實現簡單、應用廣泛，但依然面臨“維度災難”的問題。該算法通常以表格的形式存儲Q值，并不適用于高維或連續狀態空間中的強化學習問題。

為解決“維度災難”問題，利用深度神經網絡(Deep Neural Network，DNN)作為函數逼近器估計Q值成為一種替代方案。Mnih等[23]將卷積神經網絡(Convolutional Neural Network，CNN)和經驗回放技術引入Q學習算法，提出DQN算法，在Atari游戲中達到了人類玩家的水平。較之于Q學習算法，DQN除了使用CNN作為函數逼近器并引入經驗回放技術提高訓練效率外，還設置單獨的目標網絡來產生目標Q值，以提高算法的穩定性[23]：

(4)

DQN通過最小化損失函數

(5)

即主網絡輸出的估計Q值與目標網絡輸出的目標Q值之差來實時更新主網絡參數θ。與主網絡實時更新參數不同，目標網絡參數每隔若干時間步更新一次。具體而言，每隔N時間步，將主網絡參數復制給目標網絡，從而完成目標網絡參數θ-的更新。

1.3 雙重Q學習與競爭架構

DQN使用單獨的目標網絡產生Q值。盡管該技巧降低了預測Q值(主網絡輸出)與目標Q值(目標網絡輸出)之間的相關性，在一定程度上緩解神經網絡近似值函數時出現的不穩定問題，但Q值“過估計”[24]的問題仍然沒有得到解決。為更好地分析這一問題，將式(4)展開，有

(6)

顯然，DQN的max操作使用相同的值函數(同一套參數θ-)進行動作選擇和動作評估。這極易導致過高地估計Q值。為解決這一問題，Van Hasselt等[25]提出了雙重DQN算法(Double DQN，DDQN)。該算法使用兩個不同的值函數(兩套參數)解耦動作選擇與策略評估。DDQN的目標Q值可表示為

(7)

式中：θ為主網絡參數，用于選擇最優動作；θ-為目標網絡的參數，用于評估該動作的價值。

除目標Q值的形式不同外，DDQN均與DQN保持一致。Atari游戲中的實驗結果表明，DDQN能夠更精確地估計Q值，獲得更穩定有效的策略[25]。

(8)

式中：V(s)為狀態值函數；|A|為動作空間A的維度。

競爭架構可以簡便地融入DQN或DDQN算法中。實驗結果表明，基于競爭架構的DQN算法能夠獲得更好的結果[26]。

2 問題描述

在想定的協調控制場景中，無人機編隊采用Leader-Follower拓撲，即一架長機帶領若干架僚機組成編隊遂行任務。長機的控制策略由飛行員根據具體任務類型(跟蹤、偵察等)和戰場態勢確定。長機通過通信鏈路將自身位置與姿態信息廣播給僚機，僚機需要根據機載傳感器感知到的自身狀態信息和接收到的長機狀態信息，實時選擇最佳的控制指令(如滾轉角)。假設僚機在不同固定高度層飛行，故不必考慮飛機之間的避碰問題[8,20]，因此不同僚機可使用相同的控制策略。每一架僚機均配備有自駕儀，每隔1 s[8,20]，控制策略根據當前系統狀態輸出新的控制指令，并發送給自駕儀，自駕儀使用PID控制器完成控制指令的底層閉環控制。

目標是讓僚機在無任何先驗知識的情況下，學習一種自主跟隨長機編隊飛行的控制策略。該策略能夠根據獲取的自身及長機的狀態信息，確定當前給定狀態的最佳滾轉角設定值(自駕儀據此設定值完成閉環控制)，維持僚機與長機之間合理的位置關系(即僚機在以長機為中心的圓環內，如圖1所示)，以實現Leader-Follower拓撲下的無人機編隊協調控制。

圖1 長機與僚機期望位置關系Fig.1 Positional relationship between leader and followers

2.1 無人機運動學模型

試錯學習是無模型強化學習重要的特征之一。由于無人機的特殊性，在真實環境中進行試錯是不現實的，且在高保真的仿真環境下進行學習亦需要花費大量的時間。為提高學習的效率，思路為根據真實飛機運動學的經驗特性，考慮環境擾動建立無人機運動學數值模型，并以此為基礎應用深度強化學習方法學習無人機編隊的協調控制策略，進而將該策略應用(遷移)到真實世界。

在真實世界，無人機運動學通常由六自由度模型描述。考慮到無人機保持定高飛行，該模型可簡化至四自由度。為了彌補簡化帶來的損失，同時考慮環境擾動的影響，故而在滾轉、空速等各個子狀態引入隨機性[27]，所得隨機無人機運動學模型為

(9)

由于隨機性的影響，無人機在同一初始狀態下執行相同動作會產生不同的終止狀態。如圖2所示，初始時刻，無人機位于原點(x=0,y=0)，并朝向+x方向(ψ=0)，執行同一控制指令后，無人機可能位于完全不同的位置。這說明所建運動學模型中引入的隨機項能夠模擬真實世界的隨機性。

圖2 隨機性對無人機狀態影響Fig.2 Collection of possible resulting UAV states due to stochasticity

2.2 協調控制MDP模型

在無模型強化學習的背景下，將無人機編隊協調控制問題建模為馬爾可夫決策過程。依次對該模型的3個要素，即狀態表示、動作空間和回報函數進行定義。

2.2.1 狀態表示

由式(9)可知，無人機的狀態可以通過四維數組ξ:=[x,y,ψ,φ]表示。在Leader-Follower拓撲下的編隊協調控制問題中，長機與僚機之間的相對關系(如距離、航向差等)對于控制策略的制定有著至關重要的影響。假定ξl:=[xl,yl,ψl,φl]代表長機狀態，ξf:=[xf,yf,ψf,φf]代表僚機狀態，若定義系統聯合狀態為s:=[s1,s2,s3,s4,s5,s6]，則

(10)

需要指出的是，不同于文獻[8,20]，本文沒有對狀態空間進行離散化以簡化問題，而是直接在連續狀態空間中求解無人機編隊協調控制問題。

2.2.2 動作空間

如前所述，無人機的操控通過改變滾轉角設定值實現。控制策略每隔1 s更新一次滾轉指令，間隔時間內由自駕儀完成底層閉環控制。考慮到無人機的最大加速度，并避免滾轉角的劇烈變化影響無人機的安全飛行，定義滾轉動作空間a∈A為

(11)

(12)

式中：a為選定的滾轉動作；[-rbd,rbd]為無人機滾轉角的范圍。

2.2.3 回報函數

在強化學習中，設計合理的回報函數至關重要。參考文獻[28]設計的成本函數，定義回報函數為

(13)

式中：r為立即回報值；d1和d2分別為圓環的內半徑和外半徑(以長機為中心，見圖1)；d為僚機到圓環的距離；ω為調整因子，用以調整d的權重；ρ為長機與僚機之間的距離。

圖3為長機與僚機相對位置關系對回報函數的影響?？芍斄艡C位于以長機為中心的圓環內時，回報函數值最高；在圓環外部，當僚機靠近或遠離長機時，回報函數值降低。這與圖1所描述的場景想定是一致的。

圖3 長僚機相對位置與回報函數的關系Fig.3 Relation between position of follower relative to leader and reward function

3 ID3QN協調控制算法

DQN算法結合了深度學習和強化學習的優勢，能夠較好地處理高維連續狀態空間下的RL問題。因此，該算法在機器人領域得到了廣泛的應用[29-30]。結合雙重Q學習和競爭網絡，在DQN算法的基礎之上進行，提出ID3QN算法，并應用該算法解決連續狀態空間中無人機編隊的協調控制問題。

3.1 動作選擇策略

為提高訓練階段D3QN的學習效率，將ε-greedy策略與模仿策略相結合，提出ε-imitation動作選擇策略平衡探索與利用。所謂模仿策略，是指僚機模仿長機行為(滾轉指令)、參照長機的狀態信息選擇自身的滾轉指令。ε-imitation動作選擇策略的主要實現步驟見算法1。

該策略降低了初始階段僚機的盲目性，減少了無效探索的次數，增加了經驗池中正樣本的數量，有助于訓練效率的提升。

3.2 D3QN網絡結構

為準確地估計Q函數，構建如圖4所示的D3QN網絡模型。該網絡以系統聯合狀態為輸入，輸出為所有有效動作的Q值。上述D3QN由兩個子網絡組成：多層感知機和競爭網絡。多層感知機包含3層全連接層(Fully-Connected，FC)，隱含節點數分別為64、256和128，均使用ReLU激活函數[31]。競爭網絡包含兩個支路：狀態值函數支路和優勢函數支路。狀態值函數支路和優勢函數支路均包含兩層全連接層，兩支路第1層全連接層的隱含節點數均為64，亦使用ReLU激活函數[31]。狀態值函數支路第2層全連接層的網絡節點數為1，輸出值為當前狀態的值函數；而優勢函數支路第2層全連接層的網絡節點數為3，輸出值表示動作空間中3個待選動作的優勢函數。D3QN(Dueling Double Deep Q-Network)輸出層的輸出為當前狀態下各個待選動作的Q值，其值可通過“聚合”兩支路的輸出值得出。“聚合”操作的計算公式由式(8)定義。

圖4 D3QN網絡結構Fig.4 Network structure for D3QN

3.3 算法實現

采用ID3QN算法實現固定翼無人機編隊協調控制，訓練過程如圖5所示。僚機被映射為RL中的智能體，智能體在與環境的不斷交互中學習控制策略，更新網絡參數。僚機獲取長機的狀態信息及自身的狀態信息，組成聯合系統狀態s輸入到D3QN網絡中，ε-imitation動作選擇策略根據D3QN的輸出選取僚機的滾轉動作a；分別將長機(長機的滾轉動作隨機產生以增加系統的隨機性)和僚機的滾轉指令輸入隨機無人機運動學模型，得到長機和僚機下一時刻的狀態；回報函數值r和下一時刻系統狀態s′亦可隨之得出。交互過程中所產生的元組數據(s,a,r,s′)均被保持到經驗池中。在每一時間步，從經驗池中進行隨機采樣，批次更新D3QN的網絡參數。當每回合的時間步達到一定步數，結束該回合，重新開始下一回合的學習?；贗D3QN的協調控制算法的主要實現步驟見算法2。

圖5 ID3QN協調控制算法訓練框圖Fig.5 Block diagram of ID3QN coordination control algorithm

算法2 ID3QN算法輸入:單回合最大時間步Ns;最大訓練回合數Nmax1: 初始化經驗池D(最大容量為N);隨機初始化D3QN主網絡參數θ;初始化目標網絡參數θ-←θ2: repeat (for每一回合)3: 隨機初始化系統狀態s←ξl,ξf,φld ;t=14: whilet ≤ Ns do5: 根據ε-imitation動作選擇策略(算法1)選取僚機滾轉動作a6: 由式(12)計算僚機滾轉角設定值φfd7: 將控制指令φfd應用到無人機運動學模型(式(9))中,生成僚機下一時刻狀態ξ'f8: 觀測下一時刻長機的狀態ξ'l和滾轉角設定值φ'ld9: 由式(10)構建系統狀態s'←(ξ'l,ξ'f,φ'ld)10: 根據式(13)計算立即回報r11: 將狀態轉移數據元組(s, a, r, s')保存到經驗池D中12: 若經驗池溢出,即D>N,則刪除D中最早的經驗數據13: 從經驗池D中隨機抽取Nb個樣本(sj,aj,rj,sj +1)(j = 1, 2, …, Nb)14: 計算每一元組數據的目標Q值:yj=rj+γQ(sj+1,argmaxa' Q(sj+1,a';θ);θ-)15: 根據損失函數更新主網絡參數θ:L=1Nb∑jyj-Q(sj,aj;θ)216: 朝向主網絡更新目標網絡參數θ-:θ-←τ θ+(1-τ)θ-(τ為軟更新率)17: s←s';[ξl,ξf,φld]←[ξ'l,ξ'f,φ'ld];t←t+118: end while19:until最大訓練回合數

4 仿真驗證及性能分析

4.1 參數設置

在Python環境中基于TensorFlow框架構建D3QN網絡。D3QN的網絡參數均使用Adam優化算法進行更新，batch size(Nb)設為32。共進行50 000回合的訓練，每回合的仿真時間為30 s，即最大訓練回合數Nmax=50 000，每回合的最大時間步Ns= 30。需要指出的是，在正式訓練前進行200回合的預訓練，用于收集經驗數據以進行批次訓練。在訓練過程中，探索率ε在10 000 回合內從初始值1.0線性衰減到最小值0.1； D3QN主網絡參數的學習率α與目標網絡的更新率τ從初始值(0.010, 0.001 0)指數衰減到最小值(0.001, 0.000 1)，衰減頻率為1 000回合，衰減率為0.9，即每隔1 000回合衰減為原來的0.9倍。訓練過程中所需參數的經驗值詳見表1。

表1 ID3QN參數設置Table 1 Parameter settings for ID3QN

4.2 數值仿真實驗

4.2.1 訓練結果分析

為對策略進行有效的評價分析，使用單位回合內(如Ne回合)每一時間步的平均回報GAve作為度量標準來評價策略的優劣，其定義為

(14)

式中：r為立即回報，由式(13)確定。

為驗證提出的ID3QN協調控制算法的可行性和有效性，分別使用DDQN、D3QN和ID3QN算法進行對比實驗。其中，D3QN使用ε-greedy動作選擇策略，其他流程與ID3QN完全相同；DDQN與D3QN算法流程完全相同，二者唯一的區別在于網絡結構的不同：D3QN多層感知機分為兩個支路分別估計狀態值函數和優勢函數，而后通過式(8)定義的“聚合”操作產生Q值，而DDQN僅構造單個支路的全連接層直接近似Q函數。為保證對比實驗的公平性，上述3種算法均使用相同的深度網絡結構(見圖4，DDQN沒有進行拆分操作，僅有1個支路)和參數設置(見表1)。在整個訓練過程中，每隔100回合(即Ne=100) 記錄一次平均回報GAve的值，上述3種算法的學習曲線如圖6所示。

由圖6可知，在訓練初期，3種算法的回報曲線均快速上升；在大約10 000回合的訓練后，3種算法獲取的平均回報逐漸趨于穩定。DDQN與D3QN的回報曲線幾乎重合，這意味著兩種算法具有大體相當的性能；而在訓練初期，D3QN的回報曲線增長速度略高于DDQN，這表明競爭網絡可以更有效地學習Q函數。與以上兩種算法相比，ID3QN算法無論是在初始階段還是在收斂階段都能夠獲取最高的平均回報；這意味著在ε-imitation動作選擇策略的引導下，ID3QN算法能夠更快更有效地學習最佳策略。

圖6 3種算法的學習曲線Fig.6 Learning curves of three algorithms

4.2.2 測試結果分析

完成4.2.1節的訓練過程后，對訓練后的協調控制策略進行測試分析。測試實驗中，兩架僚機與一架長機組成編隊。每隔1 s，長機隨機選擇滾轉動作，而僚機根據訓練后D3QN網絡的輸出選擇最大Q值所對應的滾轉動作。實驗中，最大時間步(Ns)設置為120，即仿真時間為2 min。編隊的飛行軌跡見圖7，飛行過程中立即回報值r、僚機與長機之間的距離ρ和航向差Δψ的變化曲線情況見圖8。

圖7 數值仿真中ID3QN策略的測試結果Fig.7 Testing results of ID3QN policy in numerical simulation

圖8 數值仿真中ID3QN策略的性能曲線Fig.8 Performance curves of ID3QN policy in numerical simulation

圖7直觀地展示了ID3QN協調控制策略的效果。無論是在前期和后期的轉彎階段，還是在中期的平直飛行階段，兩架僚機均能較好地跟隨長機飛行。值得注意的是，在55 s左右，兩架僚機均位于長機前方且距長機較遠。在之后的十多秒內，兩架僚機通過大滾轉角機動實現了繞圈飛行(見圖7紫色方框內)。這是因為滾轉角是僚機唯一的控制量，兩架僚機只能通過盤旋來縮小與長機之間的距離。在之后的飛行中，僚機可以維持與長機之間的距離在70 m上下，航向差大致在±25°的范圍之內。

除以上的定性評價外，繼續進行定量測試以進一步分析所得協調控制器的有效性。在定量測試實驗中，4架僚機分別使用3.1節提出的模仿策略和4.2.1節訓練得到的DDQN、D3QN和ID3QN 3種控制策略跟隨長機協同飛行。實驗共進行100回合，每回合的仿真時間(Ns)設為120 s。在每回合的實驗中，長機的初始狀態和滾轉指令隨機產生。為保證測試實驗的公平性，4架僚機的初始狀態隨機產生并保持一致。4種策略的測試結果見表2。

由表2可知，3種基于DQN的深度強化學習算法(即DDQN、D3QN和ID3QN)獲得了遠高于模仿策略的平均回報；同時，3種算法所得平均回報的方差遠低于模仿策略。這意味著基于DQN的無人機編隊協調控制策略具有良好的可行性和穩定性。大體來看，3種策略所獲取的平均回報相差不大，ID3QN所得平均回報略高。與D3QN和DDQN相比，ID3QN策略的方差最低，這意味ID3QN具有更好的魯棒性。上述結果表明，提出的ID3QN算法的性能優于D3QN和DDQN算法。

表2 測試階段4種策略性能對比

4.3 硬件在環實驗

為展示所提ID3QN協調控制算法的泛化能力和應用價值，基于X-Plane 10飛行仿真器建立高保真半實物仿真系統進行硬件在環實驗，驗證所得策略的實用性。

4.3.1 半實物仿真系統

如圖9所示，搭建的高保真半實物仿真系統由地面控制站、飛行仿真器、自動駕駛儀和機載處理器組成：

圖9 高保真半實物仿真系統Fig.9 High-fidelity semi-physical simulation system

1) 使用課題組開發的多機控制站SuperStation作為地面控制站，完成對多架無人機的控制，如模式切換、航線規劃等。

2) 使用商業飛行模擬軟件X-Plane 10作為飛行仿真器，X-Plane 10能夠模擬風速變化、天氣變化等環境擾動。

3) 選擇PIXHAWK作為自動駕駛儀的硬件平臺。

4) 使用英偉達Jetson TX2作為機載處理器。

長機和僚機共享一個地面控制站，即地面站可以同時監控長機和僚機。二者的機載處理器通過RJ45網線連接，模擬機間無線通信鏈路。

協調控制軟件架構如圖10所示，選用PX4開源飛控作為PIXHAWK自動駕駛儀的軟件棧。ID3QN協調控制策略運行在TX2上，TX2上安裝有Ubuntu 14.04操作系統和機器人操作系統(Robot Operating System，ROS)。TX2與PIXHAWK/PX4通過MavLink協議連接。使用以下節點實現無人機編隊的協調控制：

圖10 協調控制軟件架構Fig.10 Software architecture for coordination control

1) Communicator節點：通過UDP協議接收長機狀態信息。

2) Flocking Commander節點：基于ID3QN算法完成上層協調控制。

3) Controller節點：通過PID控制器完成底層閉環控制。

4) MAVROS節點：通過MavLink協議同PX4建立連接獲取自身狀態信息。

4.3.2 實驗結果分析

在半實物仿真實驗中，一架僚機直接使用數值仿真環境中訓練得到的ID3QN協調控制策略完成跟隨長機飛行的任務。長機采用隨機策略生成滾轉指令，僚機根據訓練后的ID3QN策略每隔1 s更新一次滾轉指令，完成協調控制。二者的控制策略分別獨立運行在各自的機載處理器上，二者的機載處理器通過網線連接，長機通過UDP協議將自身狀態信息發送給僚機。半實物仿真實驗流程如下：

1) 在MANUAL模式下使用地面站控制長機與僚機起飛。

2) 使用地面站控制飛機切入MISSION模式，兩機按照預設航線飛行，并保持一定距離。

3) 使用地面站控制僚機切入OFFBOARD模式，僚機根據ID3QN策略完成跟隨飛行任務。在每一時間步，Flocking Commander節點根據ID3QN策略更新滾轉指令，決策過程如下：① 從Communicator節點獲取長機狀態(即位置、姿態和速度)信息，而后將其與從MAVROS節點獲取的自身狀態相結合，構建系統狀態；② 載入數值仿真環境中訓練得到的D3QN網絡模型參數；③ 以系統狀態為輸入，D3QN網絡輸出滾轉指令，進而生成滾轉角設定值；④ 向Controller節點發布滾轉角設定值，該節點據此通過PID控制器完成底層閉環控制。

4) 一段時間后，使用地面站控制飛機切入RETURN模式，實驗結束。

硬件在環仿真飛行實驗共持續120 s，長機的滾轉角設定值在-10°～10°之間隨機產生，飛行速度設置為10 m/s。實驗中長僚機的飛行軌跡、航向角和滾轉角的變化情況見圖11，飛行過程中的立即回報值r、長僚機之間的距離ρ和航向差Δψ見圖12。在初始時刻，僚機與長機之間的距離高達110 m，且僚機位于長機的前方。在隨后20多秒的時間內，僚機通過盤旋飛行成功將兩機之間的距離縮短到75 m之內。這是因為滾轉角是僚機唯一的控制量，僚機只能通過盤旋縮小其與長機之間的距離。在之后的飛行中，無論長機平直飛行還是機動轉彎，僚機均能及時做出反應，穩定地跟隨長機飛行。需要指出的是，訓練得到的控制策略在用于半實物仿真環境下的仿真飛行實驗時并沒有進行任何的參數調整。上述結果充分表明，所提ID3QN算法訓練得到的協調控制策略可直接遷移到半實物仿真環境中，具有較強的適應性及良好的實用性。

圖11 硬件在環實驗結果Fig.11 Results of hardware-in-loop simulation

圖12 硬件在環實驗中ID3QN策略的性能曲線Fig.12 Performance curves of ID3QN policy in hardware-in-loop simulation

5 結論

聚焦動態不確定環境下的固定翼無人機編隊協調控制問題，基于深度強化學習提出了無人機編隊協調控制方法。首先在強化學習背景下對無人機協調控制問題進行了形式化描述，建立了協調控制MDP模型。進而將ε-greedy策略與模仿策略相結合，提出了ε-imitation動作選擇策略，并將其引入DQN算法，提出了ID3QN算法以提高算法的學習效率。數組仿真環境下的訓練結果和測試結果明：在ε-imitation動作選擇策略的引導下，ID3QN算法能夠更快更有效地學習最佳策略。最后，構建高保真半實物仿真系統驗證了算法的有效性和可遷移性。硬件在環飛行仿真實驗顯示，數值仿真環境下訓練得到的控制策略無需任何參數調整即可直接遷移到半實物仿真系統中。這一結果表明，提出的ID3QN協調控制算法具有較強的適應性及良好的實用性。