顏 鵬,郭繼峰,白成超
(哈爾濱工業大學航天學院,哈爾濱 150001)
飛行移動目標軌跡預測技術在智能空戰、協同攔截以及目標跟蹤監視等任務場景中具有重要的理論研究和實際應用價值。在移動目標跟蹤與監視任務中,由于目標行為的不確性以及任務環境的復雜性,極易丟失跟蹤的目標。特別是在一些復雜的任務場景中,由于任務環境中分布著大量的障礙物極易遮擋觀測視線,很容易導致目標丟失。因此,對移動目標運動軌跡的預測可在目標丟失之后為目標的搜索過程提供指導,使得目標被快速搜索到,從而實現對目標的長期跟蹤與監視。
針對目標軌跡預測的方法大致分為基于物理模型的預測方法、基于數據驅動的預測方法以及基于規劃的預測方法三類。在基于物理模型的預測方法中,通常根據目標的運動模型以及觀測到的目標狀態,使用卡爾曼濾波(KF)、擴展卡爾曼濾波(EKF)以及無跡卡爾曼濾波(UKF)等濾波方法對目標的運動狀態做出一步或多步的預測。然而以上濾波方法只能處理具有單一運動模式的預測問題,無法處理具有多種運動模式的目標軌跡預測問題。文獻[14]根據臨近空間短距滑翔飛行器的多模式機動特點設計了一種基于變結構交互式多模型(IMM)濾波的軌跡預測方法。在上述基于濾波的預測方法中假設目標的行為方式服從建立的運動模型,若缺乏目標的運動模型,則無法對目標的軌跡進行有效的預測。文獻[15]在假定高超聲速滑翔目標具有必定攻擊某目標的行為基礎上結合滑翔目標的運動模型利用貝葉斯理論迭代地對滑翔目標的運動軌跡進行了預測。然而,作者并沒有考慮當滑翔目標具有不確定行為時的預測問題。綜上所述,上述預測方法只適用于目標運動模型已知的問題,對于具有復雜不確定運動行為的目標,很難建立有效的運動模型,因而不能準確地預測出目標的軌跡。
在基于數據驅動的預測方法中,通常使用深度神經網絡(DNN)、隱馬爾可夫模型(HMM)以及高斯混合模型(GMM)建立移動目標的軌跡預測模型,之后通過收集的大量目標軌跡數據訓練模型參數,挖掘出目標的行為特征,據此對目標的軌跡做出預測。文獻[19]將行人軌跡的預測問題轉換為一個位置序列生成問題,使用長短期記憶網絡(LSTM)建立預測模型,通過編碼觀測到的行人軌跡生成行人未來的軌跡。文獻[20]基于LSTM與卷積神經網絡(CNN)建立了車輛軌跡預測模型。模型首先使用LSTM將待預測車輛固定范圍內的各車輛的歷史軌跡進行編碼,然后按照車輛的空間位置對編碼的軌跡進行排列,之后使用CNN進行池化處理,最后使用LSTM解碼得到預測的車輛軌跡。文獻[21]利用高斯混合回歸技術預測移動對象的復雜多模式運動行為,建立的預測模型可以通過數據自身預測移動對象可能性最大的運動軌跡。以上基于數據驅動的預測方法雖然可以在目標運動模型未知的情況下依靠目標的移動數據對目標的軌跡做出預測,但預測對象具有較為確定的行為方式,易于通過監督學習的方式學習出目標的行為模式。然而對于具有不確定行為的目標,這種方法難以達到較好的預測精度。
基于規劃的預測方法將目標軌跡的預測過程轉換為模擬目標軌跡規劃的過程。文獻[22]將人群以及障礙物對行人軌跡的影響等建模為能量,在該地圖上使用快速步進法規劃行人的軌跡,從而達到預測行人軌跡的目的。文獻[23]將人行道、建筑物以及行駛的車輛等視為影響行人行為的勢場,構建了勢場代價地圖,之后利用A算法在此地圖上規劃行人的軌跡,以此作為預測結果。以上預測方法都假設行人按照最優的軌跡運動,然而在現實世界中,移動目標的行為方式很有可能不是最優的,因此無法基于最優規劃的準則預測目標的行為。為此,可以從目標的行為軌跡數據中學習出目標的行為方式,在此基礎上預測目標的軌跡。解決這一問題的一大類方法為基于逆強化學習的軌跡預測方法。文獻[26]在馬爾科夫決策過程(MDP)框架下利用最大熵逆強化學習(MaxEnt)方法學習出行人的行為概率模型,以此預測行人的軌跡。在此基礎之上,文獻[28]使用多尺度的CNN擬合復雜城市環境中的導航代價地圖,然后基于此地圖規劃行駛路徑。這種直接使用深度神經網絡處理環境信息得到代價地圖的方法避免了人為手動設計的過程。此外,文獻[29]使用最大化邊際規劃方法(MMP)學習機器人在復雜環境中的導航策略。其中,利用深度神經網絡建立機器人的導航策略,輸入為感知的環境狀態特征,輸出為選擇下一步動作的概率。
雖然以上基于逆強化學習的方法可通過模擬目標軌跡規劃的過程實現對目標行為軌跡的預測,然而對于在復雜環境中運動的、具有不確定行為的目標,其預測精度較低,難以學習到目標的不確定行為特征。為了解決這一問題,本文在一種最大熵逆強化學習方法——引導式成本學習(GCL)的基礎上引入針對飛行移動目標不確定行為特征的改進措施,構建飛行移動目標軌跡預測模型。首先考慮到目標的行為方式受到局部環境信息以及全局導航信息的影響,基于CNN建立目標行為偏好模型與目標行為決策模型,通過融合局部環境信息以及全局導航信息將環境對目標行為的影響編碼到建立的網絡模型中。其中,目標行為偏好模型用于捕捉目標的行為特征,指導目標行為決策模型的訓練,目標行為決策模型用于模擬目標的行為方式,生成預測的目標軌跡。然后在GCL框架下利用目標示例軌跡對建立的神經網絡模型進行訓練。為了有效地從目標示例軌跡信息中學習出目標的不確定行為特征,提高模型的訓練效率,本文提出的改進措施包括使用目標示例軌跡概率分布模型指導目標行為偏好模型的訓練以及初始化目標行為決策模型,同時通過對目標行為偏好模型進行預訓練的方式提高模型訓練的質量。


(1)


圖1 飛行環境模型Fig.1 Flying environment model
由于現實中收集的目標軌跡數據難以調整其不確定性程度,無法對目標軌跡預測方法進行全面分析和驗證。因此,本文手動設計目標的行為模型,使其可以靈活地調整目標行為的不確定性程度。




(2)



(3)

本節在GCL方法的基礎上實現對目標軌跡的預測。首先介紹GCL方法的基礎理論,其次基于深度神經網絡建立目標行為決策模型與行為偏好模型,之后由目標示例軌跡數據學習出目標的示例軌跡概率分布模型,用于改進目標行為決策模型與行為偏好模型的訓練過程,然后使用目標示例軌跡數據對目標行為偏好模型進行預訓練,進一步提高目標行為偏好模型的訓練效率。最后給出模型的訓練流程。
GCL方法是一種最大熵逆強化學習方法。逆強化學習方法解決的任務一般由馬爾科夫框架定義,表示為M=〈S, A,,〉,式中S表示任務的狀態空間,A表示動作空間,T(T(′|,),,′∈S,∈A)表示狀態轉移模型,(0≤≤1)為折扣因子,為獎勵函數。在強化學習任務中,通過人為手動設計的獎勵函數求解最優的策略π(|)使得智能體在執行該策略時所獲得的累積獎勵最大。對于一些復雜的任務,人為很難設計合理的獎勵函數,因此逆強化學習解決從示例軌跡數據集中學習對應的獎勵函數的問題。
在逆強化學習框架下預測目標的軌跡時認為目標的行為過程由一個馬爾科夫框架定義,目標的行為方式是其潛在的真實獎勵函數(,)對應的最優的行為方式π(|),逆強化學習的目標則是通過目標示例軌跡學習出目標的獎勵函數(,)與行為方式π(|)。
在最大熵逆強化學習框架下,示例軌跡的概率分布表示為如下的形式:

(4)



(5)
式中:=||表示示例軌跡的個數。在式(5)的求解過程中,對于高維連續的任務環境,配分函數的計算非常困難。因此,在GCL方法中使用采樣的手段估計配分函數,如下所示:

(6)



(7)


(8)
因此,在GCL框架可根據目標示例軌跡數據集利用式(8)對獎勵函數(,)進行訓練,而(,)又通過相關強化學習算法指導采樣策略π(|)的訓練過程,使其采樣的軌跡更加接近在獎勵函數(,)下的最優策略采樣的軌跡。通過對(,)與π(|)的交替訓練,最終可使得獎勵函數(,)逼近目標的真實獎勵函數(,),采樣策略π(|)逼近真實的目標行為決策策略π(|)。兩個模型的訓練過程互相影響,互相促進。因此,對(,)與π(|)的建模非常關鍵,需要充分考慮影響目標行為的各種因素,建立具有較強數據處理能力與擬合能力的獎勵函數模型與采樣策略模型。
對于飛行移動目標軌跡預測問題而言,獎勵函數(,)對應目標的行為偏好模型,影響目標的行為方式;采樣策略π(|)對應目標的行為決策模型,用于模擬目標軌跡產生的過程。
通常,目標的行為決策過程以及行為偏好受到目的地位置以及目標周圍環境的影響,因此,本文將目標周圍環境信息以及目的地位置信息作為目標行為決策與行為偏好模型的輸入信息。
首先,將飛行環境Ω進行離散化處理,得到大小為×的柵格地圖(∈×),具體定義如下:
=[()]×,

(9)


圖2 目標行為決策模型網絡結構Fig.2 Network structure of the target behavior decision model


(10)

在建立的目標行為決策模型π(|)中,首先使用兩層CNN編碼目標周圍環境信息(),然后將編碼之后的信息與觀測信息()進行拼接,之后通過兩層全連接網絡融合處理得到全局目的地信息與局部環境信息的混合編碼,最后經過激活函數為softmax的全連接層處理,得到選擇下一步行為動作的概率值(|)。
目標行為偏好模型的網絡結構與目標行為決策模型的網絡結構基本相同,相比于目標行為決策模型,其最后一層只有一個輸出值,且激活函數為tanh,目的是將輸出獎勵值(,)限制在(-1,1)之間。需要注意的是目標行為偏好模型的輸入為在狀態處執行動作之后的下一步狀態′,即(,)→(′)。

具體地,目標示例軌跡概率分布模型的網絡結構以及輸入輸出同目標行為決策模型一致,其模型參數的訓練通過最小化以下損失函數實現:

(11)

在目標行為偏好模型的訓練過程中,可通過對模型參數進行預先訓練的方式提高模型訓練的速度與質量。為此,本節提出基于目標示例軌跡的目標行為偏好模型預訓練策略。
對于收集的目標示例軌跡數據集={,,…,},統計其經過柵格地圖中每個柵格單元的頻次,則經過柵格單元的頻率可表示為:

(12)
式中:min(·)函數的使用是為了將()限制在[0,1]之間。則目標行為偏好模型的預訓練通過最小化以下損失函數進行:

(13)
式中:()表示目標所在柵格單元為時觀測到的輸入狀態;(())表示在狀態()下目標行為偏好模型的輸出值。目標行為偏好模型經過以上預訓練之后,可在GCL框架下進一步訓練。
基于GCL算法的目標行為決策模型與目標行為偏好模型參數訓練流程如圖3所示。

圖3 目標行為決策模型與目標行為偏好模型參數訓練流程Fig.3 Parameter training flow of the target behavior decision model and behavior preference model
在基于GCL的模型參數訓練流程中,目標行為決策模型π(|)使用具有基線的蒙特卡洛策略梯度方法(REINFORCE with Baseline)訓練,其中基線函數使用值函數網絡()表示,其網絡結構與決策模型π(|)的網絡結構基本一致,不同的是值函數網絡()的最后一層只具有一個線性輸出單元。


本文使用Pytorch深度學習框架建立神經網絡模型,并使用Adam優化器對所建立的網絡模型進行訓練。在建立的網絡模型中,輸入環境信息()的大小為11×11,即==11。其中,目標示例軌跡概率分布模型的訓練過程與目標行為偏好模型的預訓練過程共經過1000個訓練回合,梯度更新使用的批大小為32,學習率為0.0001,訓練過程中的損失值變化如圖4所示(為了方便顯示,圖中將損失值歸一化到[0,1]之間)。在基于GCL的目標行為決策模型與目標行為偏好模型的訓練過程中,訓練最大回合數=125,每回合采樣軌跡條數=20,批大小為32,學習率分別設置為0.00002, 0.0002。在具有基線的蒙特卡洛策略梯度方法中,折扣因子=095,值函數的學習率設為0.001。訓練結果如圖5所示(為了方便顯示,圖中將損失值歸一化到[-1,0]之間)。

圖4 監督學習過程損失值變化曲線Fig.4 Curves of the loss values during supervised learning
如圖4所示,隨著訓練回合的增加,目標示例軌跡概率分布模型與目標行為偏好模型的損失值下降變緩,在訓練后期損失值基本保持不變,表明模型訓練完成。從圖5中可以看出,隨著訓練回合的增加,目標行為偏好模型的損失值的絕對值逐漸減小,表明從目標示例軌跡中學習到的目標行為偏好模型逐步接近目標真實的行為偏好,以及以目標行為偏好模型為獎勵函數的目標行為決策模型逐步向目標真實的行為決策方式逼近。在訓練后期,損失值逐漸接近0,表明學習過程基本完成。

圖5 目標行為偏好模型的損失值變化曲線Fig.5 Curve of the loss value of the target behavior preference model
對比方法
本節將所提的飛行移動目標軌跡預測方法與其他類型的考慮目標行為方式的軌跡預測方法進行對比,對比方法包括:
(1)基于隨機A的預測方法。在A算法的基礎上加入了隨機性,使得其規劃的軌跡具有不確定性,從而可以對不確定行為軌跡進行預測。目標在每次選擇行為動作時以概率選擇A算法規劃的行為動作,以概率1-從其鄰居節點中隨機選擇下一步的行為動作。在以下的對比實驗中設置=07(取值的確定過程為以0.1為步長,從0.0開始增加的值到1.0,當=07時具有最好的預測性能)。基于隨機A的預測方法作為一種最基本的基于規劃的預測方法,此處作為對比的基準。



(14)



(15)
在基于概率模型的預測方法中,目標按照式(14)選擇下一步的行為動作,直到到達目的地,目標經過的軌跡即為預測的軌跡。以上建立的基于概率模型的預測方法與1.2節中建立的目標真實行為模型類似,故理論上具有較好的預測性能。
(3)基于模仿學習的預測方法。基于模仿學習的預測方法使用訓練的目標示例軌跡概率分布模型π(|)直接模擬目標行為的決策過程,以此預測目標的軌跡。基于模仿學習的預測方法作為一種基于數據驅動的預測方法,在很多任務中具有較好的預測性能。
性能指標
由于目標的行為具有不確定性,因此難以憑借預測的軌跡直接對比預測性能。為了對各軌跡預測方法的預測性能進行合理的對比,本文通過定義目標行為軌跡獎勵值評價預測的行為軌跡。
目標行為軌跡獎勵值定義為目標在執行軌跡={,,,,…,,}的過程中獲得的累計獎勵之和,計算如下:
()=∑(,)
(16)
式中:()表示軌跡對應的目標行為軌跡獎勵值;(,)表示目標在狀態下執行動作所獲得的獎勵值。
本文在計算目標行為軌跡獎勵值時,(,)設計如下:

(17)
式中:表示目標在狀態處距離目的地區域的距離;+1表示目標在狀態處執行動作之后距離目的地區域的距離。

對比結果
圖6所示為各預測方法預測性能的對比結果。從圖中可以看出,本文所提的目標軌跡預測算法具有最小的KL散度,即其預測的目標軌跡最接近目標真實的行為方式。由于隨機A算法在大部分情況下按照A算法規劃的行為進行預測(其他情況下按照隨機行為進行預測),因此其無法對目標的不確定行為軌跡進行有效的預測。相比之下,基于概率模型的預測方法具有較好的預測性能,因為其選擇路徑的方式與真實目標的行為方式比較相似。此外,由于模仿學習方法只是對目標軌跡的概率分布進行了模擬,即只學習到了“平均目標行為”,但沒有學習到目標特有的行為方式,因而也不能對目標的軌跡進行有效的預測。

圖6 預測性能結果對比Fig.6 Comparison of the prediction performance results
圖7所示為各預測方法預測的目標軌跡。從中可以看出只有本文提出的算法預測到了目標進入可進入區域隱藏自身行蹤的行為方式,而在其他算法預測出的軌跡中沒有與目標行為方式相似的行為特征。以上結果表明,通過對目標示例軌跡的學習,本文提出的算法可以學習到目標的行為特征,從而對目標行為軌跡的預測更加準確。

圖7 各軌跡預測方法預測的目標軌跡Fig.7 Target trajectories predicted by each prediction method


圖8 參數的變化對目標軌跡預測性能的影響Fig.8 Influence of the variation of on the target trajectory prediction performance


圖9 參數的變化對目標軌跡預測性能的影響Fig.9 Influence of the variation of on the target trajectory prediction performance
本文在GCL算法的基礎上提出了3點改進措施,即①使用目標示例軌跡概率分布模型將目標示例軌跡通過重要性采樣方法加入到采樣軌跡中提高采樣軌跡的質量,②使用目標示例軌跡概率分布模型初始化目標行為決策模型,以及③對目標行為偏好模型進行預訓練。以下測試每種改進方法相對于原始GCL算法的影響。
圖10所示為在以上改進措施的不同組合下對目標軌跡的預測性能,從中可以看出,以上3種改進措施可以逐步提高對目標軌跡的預測性能。在原始GCL算法下,只能學習到目標前往目的地的行為方式,無法學習到目標其他的行為方式。當在原始GCL算法中引入目標示例軌跡概率分布模型之后,學習到的行為偏好模型在目標示例軌跡附近具有較高的獎勵,因而可以較好地模擬目標的行為方式。在此基礎之上對目標行為決策模型的初始化以及對目標行為偏好模型的預訓練提高了采樣軌跡的質量以及模型訓練的質量,因而可以更加全面地學習出目標的行為偏好。以上結果表明,本文在GCL算法的基礎上提出的改進措施對目標不確定行為軌跡的預測具有明顯的提升作用,可以有效提高對目標不確定行為軌跡的預測性能。

圖10 各改進措施對目標軌跡預測性能的影響Fig.10 Influence of the improvement measures on the target trajectory prediction performance
針對具有不確定行為方式的飛行移動目標,本文提出了基于逆強化學習方法的目標軌跡預測方法,對目標軌跡的預測轉換為對目標行為決策過程的模擬。由仿真結果可知,相對于其他軌跡預測方法,本文提出的算法可通過對目標行為方式的模擬實現對目標軌跡的準確預測。同時,其產生的預測軌跡可由目標行為偏好模型進行解釋,相比于傳統的基于神經網絡的軌跡預測方法具有更好的可解釋性。此外,學習到的目標行為偏好模型記錄了目標的行為特征,因此具有較好的可遷移性,可用于不同的環境中預測目標的行為。未來的工作將對目標行為偏好模型的可遷移性進行深入研究,探索其在不同環境中的遷移效果。