張堃,李珂,鄒杰,栗鳴,李陽
1.西北工業大學,陜西 西安 710072
2.洛陽電光設備研究所 空基信息感知與融合全國重點實驗室,河南 洛陽 471000
3.西安機電信息技術研究所,陜西 西安 710065
4.航空工業沈陽飛機設計研究所,遼寧 沈陽 110035
隨著無人機技術和計算機技術的迅猛發展,無人機的性能得到了快速的提升,它的功能也不斷得到完善,其被廣泛應用到區域搜索、目標監視/跟蹤、精確投放等各種任務場景中,無人機的智能化成為當前及未來很長一段時間的研究熱點[1]。對于無人機在實際應用場景中存在的問題,各國的無人機專家學者專注于預防人為損失、提升平臺自主飛行能力及減少人為干預的次數[2-3]。針對無人機投放引導過程中的機動控制問題,有專家學者提出無人機投放自主引導機動控制算法,以引導無人機規避飛行過程中存在的雷達探測等威脅,完成對投放目標點的瞄準。
針對無人機在精確投放任務中的自主引導問題,相關領域專家學者提出了航路規劃算法和軌跡跟蹤控制技術相結合的算法模型。一般使用直覺模糊博弈[4-5]、遺傳算法[6]、動態貝葉斯網絡[7]、影響圖[8]、滾動時域[9-10],以及近似動態規劃[11]等方法,實現固定區域內的航路規劃。但上述方法都存在一些局限性,如直覺模糊博弈、影響圖等都要求對自主引導問題的模型構建清晰而完整,這使得構建自主引導問題模型的過程十分復雜;動態貝葉斯網絡對未知環境的適應能力差,要求對問題有全面的了解;近似動態規劃則要求有清晰的狀態轉移模型;對于在線問題的解決,采用遺傳算法等優化類方法,效率往往并不高。在執行階段,為使無人機具有相應的機動,還需要設計軌跡追蹤控制器。這些因素共同降低了無人機航路引導的自主性,增加了未來無人機智能化作戰需求的困難。
隨著人工智能技術的飛速發展,各種人工智能算法被應用于解決無人機投放引導問題。其中,因為深度強化學習方法[12]具備端對端特性,在解決無人機投放自主引導機動控制問題時具有一定的優勢;同時由于無人機投放引導問題的復雜性,引入遷移學習方法[13],將領域知識融入模型中,將復雜問題拆解為若干子問題。因此,本文基于深度遷移強化,提出無人機投放自主引導機動控制算法。首先,建立基于馬爾可夫決策過程的無人機投放引導機動決策模型,并設計基于回報重塑的無人機投放引導機動決策評價模型;在此基礎上,構建基于強化學習的無人機投放自主引導機動控制策略學習方法,擬合基于深度神經網絡的無人機投放自主引導機動控制策略網絡和評估網絡。其次,建立基于遷移學習和課程學習的無人機投放引導機動策略學習機制。最后,仿真實現無人機投放自主引導飛行,驗證本文所提算法的有效性。
馬爾可夫決策過程是離散事件動態系統中一個重要的狀態分析工具[14],其特征在于決策者在一個特定的時間尺度上,通過對帶有馬爾可夫特性的隨機動態系統進行周期或連續的觀測,并按一定的順序做出相應的決策。馬爾可夫決策過程可通過五元組來描述。
馬爾可夫決策過程的執行過程如圖1 所示,s0為系統的初始狀態,決策者選取動作執行a0,系統按照轉移概率P( ?|s0,a0)向下一個狀態s1轉移,如此迭代循環。

圖1 馬爾可夫決策過程執行過程Fig.1 The execution processes of Markov decision processes model
在決策過程中,決策者可獲得(r0,r1,…)的即時回報。此過程中,決策者會受外部收益的激勵,在決策中不斷地調整自身決策策略,以使自身收益最大化。決策者所采取的策略確定為a= π(s),馬爾可夫理論效用函數(在系統狀態s∈S下,利用決策者所采取的策略π 所能夠得到的期望回報)定義為v(s, π),因此,如果此刻的策略是最優策略,應該滿足式(1)
如式(2)所示,針對無人機航路自動導向機動控制問題的特征,構建效用函數無限階段折扣模型
式中,γ∈[0, 1]為未來報酬折扣因子,R(s,a)為回報函數。
針對無人機投放自主引導問題,基于三自由度運動方程構造無人機運動模型,通過對無人機的方位過載進行控制,可以在任務范圍內進行動態規避,同時向目標點自主引導。圖2所示為無人機投放自主引導任務示意圖。

圖2 自主引導任務示意圖Fig.2 The schematic diagram of autonomous guidance mission
設無人機速度矢量為VUAV,無人機方位為ψUAV,任務區域內第i個威脅的位置為,其影響范圍為半徑的圓形區域,目標分布在以為中心、為半徑的圓形區域內。無人機的引導目標為:在規避任務區域內所有威脅的前提下,飛入目標點所在區域并完成對目標點的瞄準。
針對無人機投放自主引導問題,基于馬爾可夫決策過程的定義,設計無人機投放自主引導狀態空間和動作空間。
1.3.1 狀態空間
圖3所示為無人機投放自主引導威脅感知示意圖。在無人機投放自主引導過程中,根據無人機對周圍環境威脅實時感知信息,建立如下所示的狀態空間

圖3 自主引導威脅感知示意圖Fig.3 The schematic diagram of threat perception for autonomous guidance
式中,vUAV為無人機速度;HUAV為無人機高度;為無人機正前方威脅距離為無人機正前方威脅相對方位;為無人機左前方威脅距離為無人機左前方威脅相對方位為無人機右前方威脅距離為無人機右前方威脅相對方位為目標點相對無人機的水平距離;為目標點相對無人機的方位;ABomb為當前態勢下無人機投放物水平射程。
1.3.2 動作空間
針對無人機投放自主引導問題,建立了如下所示的動作空間
式中,NT為無人機的轉向過載;T表示轉向。
針對無人機投放自主引導任務,基于回報重塑方法和航空火力控制理論,遷移專家經驗輔助解決火控問題,構建無人機投放自主引導機動決策評價模型,如式(5)所示
式中,R(s,a)為回報函數,γ為折扣參數,Φ(s)為狀態勢函數。Φ(s)定義如式(6)所示
式中,Uatt(s)為目標點吸引勢函數;Urep(s)為威脅排斥勢函數。式(7)所示為Uatt(s)的定義
式中,katt為吸引勢權重因子為目標點相對無人機最大水平距離。Urep(s)定義如式(8)所示
式中,u( ?)為無人機威脅影響勢函數;sf、sl和sr分別為無人機正前方、左前方和右前方威脅狀態。u( ?)定義如式(9)所示
式中,krep為威脅排斥勢權重因子;為威脅感知最遠距離;為當前感知威脅的水平距離。
基于Actor-Critic架構的深度確定性策略梯度方法[15]是一種無模型且異策略的深度強化學習方法。該方法能夠很好地處理連續性控制問題,圖4 所示為深度確定性策略梯度(DDPG)方法組織結構圖。

圖4 DDPG方法組織結構圖Fig.4 The schematic diagram of DDPG method
該算法主要由決策網絡μ(s;θμ)、評估網絡Q(s,a;θQ)、目標決策網絡μ′(s;θμ′)和目標評估網絡Q′(s,a;θQ′) 共4個網絡與回放經驗集共D5部分組成,在學習過程中,通過專家經驗收集歷史數據建立經驗庫,并使用強化學習算法對經驗進行學習和優化。在開始階段,通過結合加入噪聲的當前環境狀態,行為網絡選擇執行對應的動作,接著將此刻的系統狀態、決策者的行動動作、決策者獲得的回報收益以及之后的系統狀態數據儲存在經驗存儲區中,之后,行為網絡從回放經驗集中隨機少量地抽取部分樣本,然后使用梯度下降法等優化算法來更新行為網絡與評判網絡的參數,最后平滑更新目標網絡參數。
Actor-Critic的深度強化學習結構如圖5所示。在強化學習訓練時,動態演化環境的作用是產生系統狀態s∈S,決策網絡以此為基礎,生成動作a∈A(s),在整個訓練中,采用TD-error[16]優化評估網絡參數,決策網絡參數優化則是通過在動態演化環境中進行迭代,依據maxQ(s,a)原則獲取最優策略。

圖5 Actor-Critic深度強化學習結構圖Fig.5 The schematic diagram of Actor-Critic deepreinforcement learning
基于深度神經網絡設計無人機航路自動引導機動控制決策算法中的決策網絡和評估網絡,從而更好地模擬無人機的飛行狀態和“端到端”的無人機機動決策。
2.2.1 決策網絡
決策網絡μ(s;θμ)主要是基于此刻的系統狀態來進行實時的判斷并做出決策,它的網絡輸入為此刻的系統狀態s∈S,而網絡輸出則是系統根據此刻狀態而應該采取的行動動作a∈A(s)。按照上文中對無人機運動狀態空間的定義,用dim(S)表示網絡輸入神經元數量,dim(A)表示網絡的輸出神經元數量,圖6 所示為決策網絡組織結構圖。

圖6 決策網絡組織結構圖Fig.6 The schematic diagram of decision network
根據決策網絡的定義,決策網絡輸入層由11個單元組成,與狀態空間的維度相同;隱藏層全部是全連接的線性層,分別由20、40、40 和40 個修正線性單元組成;輸出層也是全連接的線性層,具有一個單元,與動作空間維度相同。
2.2.2 評估網絡
評估網絡的功能是對此刻決策的行動動作a∈A(s)的最優程度進行評估,它的網絡輸入與輸出分別定義為[s,a]和Q(s,a)。圖7所示為評估網絡組織結構圖。

圖7 評估網絡組織結構圖Fig.7 The schematic diagram of critic network
根據評估網絡的定義,評估網絡輸入層由12個單元組成,與狀態空間和動作空間的維度相同;隱藏層全部是全連接的線性層,分別由20、40、40 和40 個修正線性單元組成;輸出層也是全連接的線性層,具有一個單元,輸出狀態和動作對應的Q值。
根據前文所定義的狀態空間與動作空間,在將狀態s∈S和動作a∈A(s)歸一化之后,將其輸入網絡。在DDPG 中,目標決策網絡μ′ (s;θμ′) 與目標評估網絡Q′(s,a;θQ′)的結構與μ(s;θμ)和Q(s,a;θQ)相同。
2.2.3 回放經驗集
回放經驗集D記錄了算法與環境交互產生的歷史數據,從D中重新隨機抽樣,打破序列相關性并重復利用歷史經驗,生成決策網絡和評估網絡的訓練樣本集,完成決策網絡和評估網絡的訓練。訓練樣本與當前狀態s∈S、下一時刻狀態s′∈S、動作a∈A(s)和回報r=R(s,a)相關。
在式(2)基礎上,通過分析馬爾可夫決策過程理論效用函數,得到了相應的描述狀態—動作評價函數,如式(10)所示
式(10)為狀態動作值函數,因此,最優決策可以定義為
式(11)表示在系統狀態為st∈S時,最優決策為at。因此,可通過求解Q(s,a)的方法來得到最優策略。根據式(2)及式(10),可得到Q-Learning方法迭代公式,如式(12)所示
式中,s∈S為系統當前狀態;a∈A(s)為當前決策結果;r=R(s,a)為當前回報;s′∈S為系統下一時刻狀態。在此基礎上,得到Q(s,a;θQ)網絡訓練損失函數,如式(13)所示
進而可得到Q(s,a;θQ)網絡的損失函數的梯度,如式(14)所示
在實際訓練中,可以根據式(13)不斷優化改變Q(s,a;θQ)的網絡參數θQ。
Policy Gradient 算法[17]作為一種以策略為導向的強化學習方法,與值函數方法相比,具有可以直接求解最優策略的優勢,而DDPG 的決策網絡正是源自此算法。根據DPG定理,直接獲得決策網絡μ(s;θμ)的優化目標函數v(s,μ)的梯度方程,如式(15)所示
在訓練過程中,通過式(15)優化決策網絡μ(s;θμ)的參數θμ。由于?aQ(s,a;θQ)為常量,因此,在實際訓練中算法對參數θμ的優化如式(16)所示
另外,DDPG 還定義了用于存放先前數據的回放經驗集D,通過使用D中的歷史數據,訓練決策網絡和評價網絡,經驗集D的元素定義如式(17)所示
式中,s∈S為系統當前狀態;a∈A(s)為當前決策結果;r=R(s,a)為當前回報;s′∈S為系統下一時刻狀態。
對于目標網絡μ′(s;θμ′)和Q′(s,a;θQ′)的參數,本文采用平滑更新的方式進行更新,如式(18)所示
式中,τ∈(0, 1)為目標網絡更新參數。
在訓練過程中,因為確定性策略的動作探索性不強,所以采取了將噪聲附加在決策網絡輸出上來處理該問題,如式(19)所示
式中,N(t)為Ornstein-Uhlenbeck過程[18]。
在上文所述的基礎上,本文給出的一種基于DDPG 的無人機航路自主引導機動控制決策算法的訓練流程如下:(1) 預置回放經驗集D;(2) 預置決策網絡μ(s;θμ)和目標決策網絡μ′(s;θμ′),評價網絡Q(s,a;θQ)和目標評價網絡Q′(s,a;θQ′);(3) 預置Ornstein-Uhlenbeck 的過程N(t),采集無人機飛行模擬環境系統的初始狀態s0;(4) 基于at=μ(st;θμ)+N(t)產生行動動作;(5) 在無人機飛行模擬環境系統中執行行動動作at,得到反饋回報收益rt;(6) 獲取后一時間段無人機飛行模擬環境系統的狀態st+1,并在D中記錄當前數據(st,at,rt,st+1);(7) 根據式(14),更新參數θQ;(8)根據式(16),更新參數θμ;(9)根據式(18),更新目標網絡參數θQ′和θμ′;(10)重復第(4)~(9)步至t=T;(11)重復第(3)~(10)步M次至訓練結束。
按照上述流程進行訓練,當訓練結束后,就能夠獲得對應的最優決策網絡μ(s;θμ),此流程中,決策結果可直接被用作決策網絡的輸出,式(20)所示為動作生成公式
給定無人機飛行試驗的空域范圍為100km×100km 的正方形區域,對模型進行訓練的周期數為M= 1000,一個循環周期內最大決策時刻數目T= 500。通過建立隨機的無人機初始狀態,設置不同的目標點位置和無人機初始航向,實現無人機自主引導和瞄準。
圖8~圖11 所示為部分仿真試驗的可視化結果。圖中橫軸East表示正東方向,縱軸North表示正北方向。紅色實線為無人機飛行軌跡,紅色虛線為瞄準線,紅色實心點為無人機起點,紅色“X”為無人機終點,藍色“+”為目標點,綠色點畫線為威脅影響范圍,綠色虛線為威脅截止區域,綠色“X”為威脅位置。

圖8 無人機投放自主引導試驗1結果圖Fig.8 The visualization of autonomous guidance of UAV dropping experiment 1

圖9 無人機投放自主引導試驗2結果圖Fig.9 The visualization of autonomous guidance of UAV dropping experiment 2

圖10 無人機投放自主引導試驗3結果圖Fig.10 The visualization of autonomous guidance of UAV dropping experiment 3

圖11 無人機投放自主引導試驗4結果圖Fig.11 The visualization of autonomous guidance of UAV dropping experiment 4
仿真試驗過程中,目標距離初始生成無人機約為80km,無人機最大過載為5,任務區域內包含三個威脅。無人機在任意位置、姿態下,能夠規避任務區域內威脅,快速抵達投放目標點附近,并完成瞄準。
仿真試驗過程中,將決策網絡μ(s;θμ)與目標決策網絡μ′(s;θμ′)、評價網絡Q(s,a;θQ) 與目標評價網絡Q′(s,a;θQ′)作為整體進行訓練。輸入飛機初始狀態s∈S到決策網絡,得到輸出,繼續將輸出輸入評價網絡,得到評估結果,根據評估結果與預期目標計算損失函數Q(s,a;θQ),更新參數θμ,優化網絡。
從圖中可看出,無人機在飛行過程中,面對不同位置的敵機威脅,從起始位置到結束位置約80km,通過控制無人機轉向過載實現威脅規避,并向目標點飛行;到達目標點附近后,控制無人機轉向過載,能夠消除無人機瞄準偏差,完成對目標點的瞄準。
本文針對無人機投放自主引導機動控制問題,提出了基于深度遷移強化學習的無人機投放自主引導機動控制算法,提煉了無人機投放自主引導機動控制問題,采用馬爾可夫決策過程構建了無人機投放引導機動決策模型,設計了無人機投放引導狀態空間、動作空間和改進的回報函數模型,實現了無人機投放自主引導仿真環境,開展了無人機投放自主引導機動控制算法的仿真訓練,并進行了大量仿真驗證。結果表明了無人機投放自主引導機動控制算法的有效性,證明了本文所提算法能夠有效提高無人機執行投放引導任務的自主性。