郭 苗,徐琰鋒,陳銖蕾
(上海船舶電子設備研究所,上海,201108)
近幾年來,隨著水下小目標無人裝備的現代化和智能化程度的發展,其對我國港口要地的偵察破壞愈加頻繁,嚴重威脅我國海域安全。典型小目標無人裝備如無人水下航行器(unmanned undersea vehicle,UUV)等具備自主探測、感知、分析和決策的能力,主要執行的任務包括監視偵查、突襲、海底地形測繪、傳感器植入以及物資補給等[1]。
敵方小目標無人裝備行動具有規律性,能根據我方行動進行決策,在發現我方靠近時可以采取規避動作,不利于追蹤。此外,常規聲吶在探查小目標時,因為敵方目標強度弱,且行進過程中相對于聲吶的方位角度起伏性較大,很難探查,所以對敵方目標的探測是港口要地防御的難題。現有的港口近程安防系統如磁柵欄、固定式聲吶等雖然能起到防護作用,但其無法區分魚群與目標,虛警率較高。為此,文中基于目標進入港口要地執行偵察任務的場景,通過固定式聲吶獲取數據,引入無人艇(unmanned surface vehicle,USV)對目標進行近距離探測。敵方目標需要向港口要地靠近并避開我方的USV,我方USV 需要盡可能接近目標以便探查或攔截,由此雙方形成對抗形態。
USV 在探查過程中,為了能快速接近目標且不被發現,需要制定合理的探查策略。現有的無人平臺探查策略研究方法主要有如下3 種。1)設定探查策略,建立搜潛模型[2]。無人平臺通過獲得的目標信息,建立相應探查模式如擴展圓形陣、擴展螺旋陣、擴展直線陣等,然后通過蒙特卡洛方法驗證雙方距離、航速等因素變化時,不同探查模式對探查結果的影響,由此選出最佳探查模式。2)建立水聲傳感網絡系統[3]。提前布放傳感器,利用節點感應形成水下監視網,根據反饋的目標信息,由多個UUV 組成編隊,自上而下接力探測形成對應探查策略。3)利用人工智能強化學習尋找最優探查策略[4-7]。依據建立的人工神經網絡模型,在無人平臺任務中預測其行為并制定策略,實現最優決策。
上述方法需要試驗數據足夠充足,但是由于水下環境的復雜性以及雙方態勢的不確定性,需要不斷耗費人力、物力去獲取大量數據;此外,上述方法沒有綜合考慮敵我雙方的行動方式,我方無法根據敵方行動及時修正策略。對此,有研究者引入博弈論進行建模。博弈論是研究多個個體或集體之間在對局中利用相關方的策略而實施對應策略的學科,它考慮博弈中個體的預測行為和實際行為,并研究各方的優化策略,依賴的試驗數據較少,被廣泛應用于軍事研究。
文獻[8]研究了多無人機協同作戰問題,介紹了以博弈論為基礎的算法子系統,完成了一定態勢下敵我雙方的作戰策略求解;文獻[9-11]建立了無人機攻防對抗問題的不完全信息動態博弈模型,利用零和博弈求解方法或粒子群算法求解得到混合策略納什均衡解,即最優策略序列;文獻[12]將反映敵方決策態度的多個博弈子情景綜合得到全時域情景,通過分析各個情景的納什均衡預測敵方采取的均衡策略。
文中通過固定式聲吶獲取一段時間內敵方目標的行駛路徑,利用粒子濾波方法預測一段軌跡,而后建立USV 與目標的博弈模型,模擬雙方在每一時刻的決策,隨后用算例仿真USV 與入侵目標的接近過程,找到USV 的目標點與探查策略,最后通過目標的實際軌跡驗證目標點以及探查策略的準確性。
USV 探查敵方目標的過程可以看作二人零和博弈過程,雙方只有一方能獲勝,即USV 成功探查敵方目標或者敵方目標逃脫。
博弈模型中包括參與者、行動策略集以及支付函數,每項具體含義如下。
參與者N: {USVr,敵方目標b};
行動策略集S: 包括USV 的速度變化和角度變化。
1)速度變化: {加速,減速,不變}(每次變化0.1 m/s,速度范圍為0~1.6 m/s);
2)角度變化: 以USV 現在的位置坐標為原點,橫、縱坐標與以固定式聲吶為原點建立的直角坐標系平行。在4 個象限中,可選的角度為{0°,15°,30°,45°,60°以及一個可按照實際情況調整的角度θ}。角度示意圖如圖1 所示。

圖1 角度變化示意圖Fig.1 Schematic diagram of angle change
支付函數fr: 當我方選擇第i種行動策略,敵方選擇第j種行動策略后,可以計算得出我方USV的支付值fr(i,j)。
不同行動策略組合對應的支付值表示采取該策略組合后形成的對抗態勢對我方的有利程度,支付值越大表示對我方越有利。因此,支付值應該以對抗態勢為依據,通過建立態勢函數評估不同態勢對我方的有利程度。文中的態勢函數考慮敵我雙方距離和相對角度。
1)距離優勢函數
設我方初始位置坐標為(xr0,yr0),敵方初始坐標為(xb0,yb0),則有

其中,d表示r與b的直線距離,考慮到USV 攜載聲吶可探測的極限距離,文中以dmax作為最遠距離進行歸一化處理。對于USV 來說,d越短,距離優勢函數Sd越大,即越有利于我方USV 探查目標。
2)角度優勢函數
USV 攜載的聲吶探測范圍就是以行駛方向(基準線)為對稱軸的αmax扇面(見圖2)。將USV 與目標連線形成向量,分析該向量與USV 行駛方向向量的夾角。當圖中目標1 的夾角α1>αmax/2時,目標不在探測范圍,USV 無法查證目標,角度優勢函數為0;當目標2 的夾角0 ≤α2≤αmax/2時,目標在探測范圍內,USV 可以查證目標,且夾角越小,查證效果越好。

圖2 無人艇可探測范圍Fig.2 Detectable range of USV
由此,角度優勢函數表達式為

從式(3)看出,隨著 α不斷減小,角度優勢函數Sα越來越大,當α=0時,達到最大值1。
綜上,給出博弈前的態勢函數

其中,ε1,ε2為權重系數,且滿足ε1+ε2=1,具體取值可以根據實際情況調整。
隨后,USV 選擇第i個行動策略,目標選擇第j個行動策略,設行動后USV 和目標的位置坐標為(xr,yr)和 (xb,yb),可以計算得出此時的態勢函數S2。則我方支付值為

對應不同的行動策略組合有不同的支付值,由此得到我方USV 的支付函數。每次決策時,USV根據敵方的行動,選擇使得自己支付值最大的行動策略進行實施。
根據USV 攜載的聲吶及攝像頭識別范圍,假設目標與USV 的距離在Krb范圍內時可被成功探查。基于此,文中設定若USV 在某一位置進行查證時,目標一定會進入USV 查證范圍,就稱該查證位置為目標點。顯然,目標行駛路徑周圍的點都滿足該條件,因此目標點不唯一。
文中根據USV 行動機制共設定3 種探查策略。
1)迎擊策略: 該策略是向目標駛來方向的正前方靠近,主要探查到目標的首部位置,我方可能會在目標的探查范圍內,該策略行駛路徑最短,但在行駛中,目標容易發現我方靠近從而采取規避動作,導致目標丟失。
2)側向策略: 該策略是從側邊向目標靠近,主要探查到目標的側向位置,可以獲得較多目標特征,便于判斷目標種類,該策略路徑適中,同時可以避免USV 行駛中產生的尾流對固定式聲吶識別目標行駛軌跡產生影響。
3)尾追策略: 該策略采取繞遠方式,從目標后方靠近,行駛路徑最長,但在行駛過程中避開目標,不易被發現,方便追蹤處置。
當3 種策略都可以按時接近目標點時,為了避免目標發現USV 從而采取規避動作,優先選擇側向或尾追的隱蔽策略。其中,側向策略主要用于識別目標,尾追策略主要用于跟蹤目標。
3 種探查策略見圖3。目標在報警點時,固定式聲吶發現目標,隨后開始追蹤記錄目標軌跡,同時我方USV 接收指令前往目標點;藍色線為目標的行駛軌跡,紅色線為目標采取不同策略時的行駛軌跡;當目標行駛在目標點附近時,我方USV 采取不同策略,相對于目標的位置也不同。

圖3 探查策略圖Fig.3 Diagram of detection strategies
文中主要以到達目標點時USV 與目標的相對位置來分辨探查策略。將目標與USV 連線形成向量,根據該向量與目標行駛方向的夾角大小判斷策略。如圖4 所示,設目標行駛方向與USV 連線方向的夾角為 α,當α ≤30o時,USV 在目標的正前方,能夠探查目標的首部方向,認定為迎擊策略;當30o<α ≤120o時,USV 在目標的兩側,能探查到目標的側向位置,同時能保證接近過程不在目標探測范圍內,認定為側向策略;當120o<α ≤180o時,USV 在目標后方,認定為尾追策略。

圖4 探查策略與夾角對應圖Fig.4 Diagram of detection strategy and angle
粒子濾波方法是通過一組具有權重的隨機樣本(粒子)來表示隨機事件的后驗概率,從含有噪聲或不完整的觀測序列估計出動態系統的狀態。該方法在非線性系統表現出的優越性使得其被廣泛應用于雷達跟蹤、全局定位等方面。
粒子濾波方法在t=0 時對粒子進行初始化,隨機生成粒子并設置權重。然后重復以下步驟: 預測—更新粒子—權重—重采樣—輸出。每一步具體過程如下。
1)預測。根據系統的變化過程,預測各個粒子的狀態。
2)更新粒子權重。根據觀測值更新粒子的權重。假設觀測值為(x,y),其噪聲為高斯分布,第i個粒子的坐標為(xi,yi),則其權重的計算公式為

其中,dist是第i個粒子與觀測值的距離,權重公式中R為觀測值的協方差。所有粒子權重計算完后,對權重進行歸一化處理。
3)重采樣。復制一部分權重高的粒子,同時去掉一部分權重低的粒子。考慮第i個粒子,先產生1 個隨機權重,從第1 個粒子權重開始相加,若一部分連續粒子的權重之和能夠大于隨機權重,就把權重之和中最后1 個粒子對應的位置賦值給第i個粒子。該方法如同轉轉盤,按照權重比例對轉盤進行分割,當某個粒子權重較大時,產生的隨機權重落在相應區間的概率就大,被復制的概率也較大。此外,需要說明的是,這樣的重采樣過程不是都復制權重大的粒子,也有可能復制權重小的粒子,在一定程度上保證了粒子的多樣性。
4)輸出。通過粒子的幾何中心位置確定當前的狀態估計值。假設共有N個粒子,第i個粒子的坐標為(xi,yi),則所有粒子的幾何中心位置坐標為

最后通過不斷重復上述過程直到某一時刻T終止,由此得到粒子濾波估計值的變化過程。
通過固定式聲吶獲取目標在一段時間內的行動軌跡,數據形式為目標相對聲吶的(方位,距離)。為方便計算,以聲吶為原點,聲吶圖像的0°方向為x軸正向建立直角坐標系,將(方位,距離)轉換為一系列的xy直角坐標。然后以真實軌跡為依據,用粒子濾波方法對xy坐標進行預測,得出目標后續的可能行駛軌跡。
以下述軌跡為例進行計算(該軌跡為200 s 真實試驗數據)。如圖5 所示,目標在(-99.65,-468.80)處被固定式聲吶發現,隨后持續追蹤。目標為了不被發現,采用規避動作,故行動軌跡呈“S”型曲線。

圖5 目標軌跡圖Fig.5 Diagram of target trajectory
取前30 s 真實軌跡數據,用粒子濾波方法預測40 s 數據,然后將其與真實軌跡進行對比,結果如圖6 所示。圖中藍色線為采用粒子濾波方法擬合實際軌跡的結果,藍色*為粒子濾波方法預測出的40 s 軌跡,是目標的可能行駛方向,此處近似于線性運動。通過對比可知粒子濾波方法對線性軌跡的擬合與預測效果較好。

圖6 粒子濾波預測與實際軌跡圖(70 s)Fig.6 Diagram of particle filter prediction and actual trajectory (70 s)
下邊對目標的“S”型軌跡進行預測,仍以前30 s 真實數據為依據,預測120 s 數據,然后將其與真實軌跡進行對比,結果如圖7 所示。

圖7 粒子濾波預測與實際軌跡圖(150 s)Fig.7 Diagram of particle filter prediction and actual trajectory (150 s)
由圖7 看出,粒子濾波方法預測的結果整體與目標的“S”型軌跡基本吻合,只在轉彎部分與實際軌跡有一點偏差,但通過驗證,誤差在可接受范圍內。
綜上所述,用粒子濾波方法對目標的軌跡預測與實際軌跡有較好的擬合效果。后續在仿真試驗中,設定每隔30 s 重新讀取實際數據進行預測,以此減少預測偏差對博弈結果的影響。
設敵方目標從遠處駛來,固定式聲吶發現目標并報警,隨后將不斷追蹤的目標位置向USV 反饋。USV 根據位置信息不斷向目標靠近,完成探查。通過建立直角坐標系,設定我方USV 初始位置為(0,-100)m,初始速度為1 m/s(一般USV 速度為2~3 kn);敵方目標初始位置為 (-99.65,-468.83)m。
建立博弈模型,參與者集合為{我方USV,敵方目標},策略集與前述相同。根據已知條件計算博弈前的態勢函數S1。
1)距離優勢函數
根據固定式聲吶可探測的極限距離,選取dmax=1 000m,則距離優勢函數為

2)角度優勢函數
USV 攜載聲吶的水平探測角度αmax=130°,設我方USV 的初始方向向量為(0,-100),敵我雙方連線的向量為(-99.65,-368.83)(敵方初始位置與我方初始位置的差值),后續USV 行駛方向定義為當前時刻與前一時刻位置的差值。
對應的夾角 α和角度優勢函數為

態勢函數的權重系數可根據實際情況調整,文中更注重距離,故取系數為ε1=0.85和ε2=0.15,則博弈前態勢函數S1=0.76。然后假設USV 選擇策略組合{加速,向第3 象限的30°方向前進},USV速度變為1.1 m/s。相應的位置橫縱坐標變化由三角函數計算得出,則下一秒位置為

再從固定式聲吶處讀取目標下一時刻的位置信息為(-98.59,-467.83),由此可得博弈后態勢函數S2=0.57。則策略組合{加速,向第3 象限的30°方向前進}對應的支付值為fr=S2-S1=-0.19。該支付值為負表示USV 采取對應策略后,我方不好探查目標,雙方對抗形勢比博弈前更差。
同理,可以計算其他策略組合對應的支付值,而后USV 根據敵方行動選擇支付值最高的行動策略實施,隨后雙方進入下一時刻博弈,以此類推。
每次試驗讀取目標30 s 最新軌跡數據,并用粒子濾波方法預測120 s 數據,然后USV 依據該150 s 數據不斷決策,向目標靠近尋找目標點。算法設定若未找到目標點,則輸出USV 博弈30 s后的位置坐標,以該點為初始條件,讀取新的數據重新預測博弈;若找到目標點,則驗證目標實際軌跡與預測軌跡偏差大小,若偏差大則輸出USV 30 s后的行駛點重新預測博弈,若偏差小則輸出目標點和對應的探查策略。
仍以2.1 節中試驗數據為例模擬雙方的博弈對抗過程。目標的第1 組30 s 數據讀取后,雙方在120 s 時間內的對抗情況如圖8 所示。

圖8 雙方博弈圖(120 s 內)Fig.8 Game image between both sides(within 120 s)
圖中,紅色實線為USV 行駛軌跡,藍色實線為目標實際軌跡,藍色虛線為預測軌跡。此時未找到目標點,則輸出USV 在30 s 之后的位置坐標為(-3.99,-133.47)m。
然后利用目標新軌跡數據預測博弈(對抗圖與圖8 類似,此處不再贅述),因為兩者距離較遠,未找到目標點,試驗輸出30 s 后USV 位置坐標為(-11.30,-166.16)m。利用新數據預測博弈得到結果如圖9 所示。

圖9 利用新數據預測博弈得到的結果Fig.9 The predicted results of the game based on new data
圖中綠色點為找到的目標點,其坐標為(-59.46,-310.90)m。在預測軌跡,最初目標以直線形式前進,USV 采用迎擊方式靠近;隨后目標執行轉彎動作,為防止被目標發現,USV 采取繞遠方式。在到達目標點時,USV 在目標后方,則輸出探查策略為尾追策略。
將實際軌跡(圖中綠色線)與預測軌跡對比得到圖10。


圖10 實際軌跡與預測軌跡對比圖Fig.10 Comparison between actual trajectory and predicted trajectory
采用粒子濾波方法對目標軌跡進行預測,然后引入博弈模型模擬敵方目標進入我方固定式聲吶可探測范圍后,USV 不斷接近目標的過程,最后對雙方的對抗過程進行仿真研究。由結果可以看出,仿真得到的目標點與實際軌跡數據較為接近,探查策略能幫助USV 以最合適的方法接近目標而不被發現,由此驗證了文中方法對無人平臺近距離查證可疑目標的適用性。
從試驗結果可以看出,粒子濾波方法雖然能較好的擬合“S”型曲線,但在實際操作時需要不斷調整相關參數。文中目標的軌跡主要為直線型或“S”型,y坐標變化趨勢一般為遞增,x坐標變化趨勢為先增大后減小或者先減小后增大,通過粒子濾波方法和不斷修正可以得到較為準確的預測。但在實際中目標可能會采取更加復雜的路徑,后續將對粒子濾波方法進行改進,使得其對目標軌跡的預測更為準確。