越凱強,李 波*,范盤龍
(1.西北工業大學電子信息學院,西安 710129;2.中國航空工業集團有限公司西安航空計算技術研究所,西安 710068)
戰斗機空對空作戰[1]是指敵我雙方飛機為爭奪空中優勢并使得一方飛機進入另一方飛機的導彈攻擊區而進行的對抗性斗爭,目的是擊落或驅離敵方作戰飛機,從而取得戰區的制空權[2],機動決策是近距空戰的關鍵,最優的機動動作有利于我方掌握空戰的主動權,這對消滅敵方有生力量、獲取戰場制空權有著至關重要的作用[3-5]。
現有的機動決策方法,如:基于深度強化學習的知識進行自主機動決策[6]和基于貝葉斯理論的空戰機動決策[7]等方法,無法在信息不充分和不準確情況下對戰斗機進行有效的空戰決策,考慮到三支決策具有適合處理不確定性和模糊性問題的特點,故而本文提出一種基于三支決策的飛機空戰機動決策方法,解決了在空戰信息不充分和不準確的情況下,飛機無法進行有效空戰決策的問題,使之能夠更好地適用空戰需求。
使用三支決策意圖識別模型對目標意圖進行識別,其識別過程與基于序貫三支決策目標意圖識別方法[8]相似,一個完整的序貫三支決策[9-12]定義如式(1):
其中:ISi=(Ui,Ci,Di)表示第i個階段的決策信息表;Uu表示第i個階段的論域;Ci表示第i個階段獲得的目標特征信息,用以表示條件集合;Di=表示第i個階段目標的備選意圖集合。在決策類形成的二分類,則的正域、負域和邊界域的判別為:
三支決策閾值由式(3)給出:
在現實空戰中,戰場態勢環境變化快速,目標作戰意圖可能會隨著戰場態勢的變化而作出相應的調整,對已經明確識別出作戰意圖的目標,在原來信息的基礎上,每隔一定的時間,對目標意圖重新進行識別。對未明確識別出作戰意圖的目標,則仍依照原有的方法繼續對目標進行意圖識別。
為解決多類別序貫三支決策沖突甚至無法識別意圖的問題,本文采用一種基于代價敏感多類別三支決策的目標意圖識別模型對目標意圖進行識別。與傳統三支決策的誤分類代價損失值的設置相同,正確分類的誤分類代價應該為0,即λii=0。設pi為目標作戰意圖為意圖i的先驗概率,其值由目標的特征信息和意圖識別知識庫得出,則計算將樣本分類到n個不同意圖類別中的風險損失,有:
其中:Λi三支決策代價矩陣的第i列。
與多類別序貫三支決策相比,無論目標的特征信息是否完整充分,基于代價敏感多類別三支決策[13]的目標意圖識別模型在每一個識別階段都能計算出誤分類代價損失值最小的那一種意圖分類,從而得到唯一的識別結果,避免了意圖識別結果沖突。
通過建立的三支決策意圖識別模型,對空戰多目標進行意圖識別[14-15],進行威脅評估[16]。以目標威脅為基礎,結合我機作戰優勢,將我方編隊中的飛機進行合理的分配[17]。同時,依據目標威脅程度,使用三支決策方法構建基于權值動態調整策略的機動決策模型,開展目標分配后的一對一空戰機動決策研究。
飛機的運動可以看作是質點運動,使用三自由度質點模型來建立戰斗機飛行動力學模型,可表示為:
其中:x、y、z分別表示飛機位置的三個坐標值;φ表示航向角;θ表示飛仰角;γ表示滾轉角;V表示飛行速度;nx表示切向過載;nz表示法向過載。S=(x,y,z,V,φ,θ)可以表示狀態向量,u=(nx,nz,γ)表示控制向量,通過飛機的控制值(即控制向量)可以計算出飛機下一時刻的狀態值(即狀態向量),遞推公式如式(6)所示:
空戰機動是一個復雜的動態過程,存在大量的不確定性,為了使機動決策的結果更加符合可靠性和可使用性的要求,本文構建角度、高度、距離、速度和機動決策評價函數。
1)角度因子評價函數。
角度因子一直是空戰中的關鍵因素,我方戰機盡量從對手尾后追擊目標,使目標進入我方導彈攻擊區,發射導彈將其擊落,并避免進入對方的進攻區域。機載導彈離軸發射能力對于增強飛機的攻擊能力有著非常重要的作用,當敵機在我方飛機離軸發射角度范圍以內,則可認為此時角度因子評價函數為理想值1。
其中:δmmax是導彈最大離軸發射角;ka是角度增強因子,用以增強角度因子評價函數的可靠性。
2)高度因子評價函數。
高度優勢不僅可以增加飛機自身的能量優勢,還可以增加導彈的可操作性能量,但是如果敵我飛機高度差過大,會嚴重影響到我方飛機的空戰性能,并且空空導彈在飛行過程中也需要在鉛垂面內做大幅度機動,作戰飛機的高度優勢也會相應減小。所以,高度優勢應該存在合理的高度差上下邊界,敵我高度差Δh在這個邊界內,我方才具有較好的高度優勢。
其中:Δh=hr-hb,hr表示我方飛機的飛行高度,hb表示敵方飛機的飛行高度;ΔHup和ΔHdown是保持最佳高度優勢的高度差的上下邊界;kh是高度增強因子,用以增強高度因子評價函數的可靠性。
3)距離因子評價函數。
為了提高攻擊概率,需要將不可逃逸區的概念引入到構建距離因子評價函數中。如果目標在飛機的不可逃逸區內,則距離因子函數達到最佳效果值1,如果目標不在飛機的不可逃逸區內,則要給距離因子施加適當的獎勵值或者是懲罰值,以促使目標盡早進入到我方飛機導彈攻擊的不可逃逸區內。
其中:kd是距離增強因子,用以增強距離因子評價函數的可靠性;LM_far和LM_near分別表示機載導彈不可逃逸區的最大和最小邊界距離。
4)速度因子評價函數。
我方飛機飛行速度本身相較于目標應保持相對優勢,以獲得較高的速度能量,來應對不斷變化的敵我態勢和戰場環境。當目標進入到我方導彈的不可逃逸區內,則此時我方飛機應維持與目標同樣的飛行速度,當目標未進入到我方導彈的攻擊區時,此時我方飛機應加大飛行速度以縮短敵我距離。
其中:Vmax和Vmin分別表示我方飛機飛行速度的最大值和最小值;Kv是速度增強因子,用以增強速度因子評價函數的可靠。
5)機動決策評價函數。
機動決策評價函數就是將角度因子、高度因子、距離因子和速度因子這四個因素綜合考慮,按照一定的權重規則將四個函數相加。根據該評價函數飛機就可以選擇最優的控制變量以控制飛機作出相應的機動動作,最終形成可行的飛行軌跡。
其中:ηa表示角度函數對應的權重;ηh表示高度函數對應的權重;ηd表示距離函數對應的權重;ηv表示速度函數對應的權重。
在近距空戰中,影響機動決策的四個因素的權重在不同的態勢威脅情況下應有所不同[18]。通過對不同威脅下不同影響因素權重的分析,令A={aP,aB,aN}表示角度、高度、距離和速度按權重大小排序的三種不同情況,即三支決策域中的正域POS()、負域BND()和邊界域NEG(),規則如式(12)所示:
實施不同的權重策略會產生不同的損失,記λPy、λBy、λNy分別表示當我方飛機面臨威脅時,實施三種權重策略aP、aB、aN所對應的損失函數值;λPn、λBn、λNn分別表示當我方飛機無威脅時,實施三種權重策略aP、aB、aN所對應的損失函數值。權重與損失值的對應關系如表1 所示。
表1 三支決策損失矩陣Tab.1 Three-way decision loss matrix
根據實施三種權重調整策略不同的決策損失函數值和最小風險貝葉斯決策方法可以求出實施權重策略aP、aB、aN對應的期望代價為:
其中:P(sy|X)+P(sn|X)=1。
結合決策規則和實際情況可知,飛機在有威脅的情形下選擇權重策略aP的損失函數值必然小于選擇aB和aN的損失函數值,而且選擇aB的損失函數值小于選擇aN的損失函數值,反之一樣。因此,有0≤λPy≤λBy≤λNy,0≤λNn≤λBn≤λPn,所以結合期望代價公式和代價最小規則可得:
正域:若P(sy|X)≥α,則aP=POS域,即是ηa≥ηv≥ηh≥ηd;
負域:若P(sy|X) >β且P(sy|X) <α,則aB=BND域,即是ηh≥ηa≥ηd≥ηv;
邊界域:若P(sy|X)≤β,則aN=NEG域,即是ηd≥ηa≥ηv≥ηh。
空戰中,機動決策的目的是使得空戰態勢向著我方有利的方向發展,就是在每一決策時刻,找出使機動決策評價函數值最大的控制變量。依據上述公式可知,由飛機當前時刻的狀態向量St及所選擇的控制變量ut,可得到飛機下一時刻的狀態向量St+1,進而知道t+1 時刻飛機的機動評價函數ft+1(ΦA,ΦH,ΦD,ΦV)。遞推關系如式(14):
控制變量u=[nx,nz,γ]的選擇依據:
當目標威脅滿足P(sy|X)≥α時,控制變量u從表2 中選擇。此時,目標威脅較大,我機需要使用極限操作來改變不利狀況;
當目標威脅滿足P(sy|X) <α時,以表2 為基礎,將最大過載和最大橫滾角變為2/3 最大過載和2/3 最大橫滾角,控制變量u從改進后的表2 中選擇。此時,目標威脅較小,我機使用2/3 極限操作來改變空戰態勢即可,以此來降低飛行員的身體負擔。
表2 機動動作的控制變量輸入Tab.2 Control variable inputs of maneuver actions
作戰想定:我方有三架作戰飛機,分別為C1、C2、C3,在空間的初始位置分別為(10,10,6)、(7,10,6)、(10,7,6),單位km;初始速度均為240 m/s。敵方有T1、T2、T3三架作戰飛機,空間的初始位置分別為(100,100,7)、(95,100,7)、(100,95,7),單位km;初始速度為270 m/s。
圖1 多機空戰軌跡圖Fig.1 Multi-aircraft air combat trajectory chart
在空戰開始時分別對每個目標進行意圖識別,由目標的特征信息和意圖識別知識庫可得到作戰意圖的先驗概率,再計算其損失值。因為我方在空戰中需要依據目標意圖對目標進行威脅評估,所以本節中使用三支決策模型對目標進行意圖識別,這樣做的好處是我方在識別的每個時間點上都可以找到風險決策最小的意圖決策結果。
圖2 分別是目標一、目標二和目標三的基于三支決策作戰意圖識別決策結果損失圖和基于二支決策作戰意圖識別決策結果損失圖。
圖2 作戰意圖識別決策結果損失圖Fig.2 Loss charts of combat intention recognition decision results
目標一在作戰開始時便朝下飛行,以超低空的飛行方式接近目標,結合現有的飛機空戰作戰軌跡可以得出,目標一的作戰意圖極有可能為突防,圖2(a)仿真結果也驗證了這一判別。目標二以高空飛行的形式接近目標,在空戰中,該飛行軌跡對應的意圖是攻擊和突防的可能性較高,在圖2(b)中,攻擊意圖和突防意圖的決策結果損失值一直處于較低水平。目標三的前進方向始終朝著我方飛機,其作戰意圖可認為是攻擊。作為對比實驗的二支決策意圖中,目標一和目標二攻擊、偵察和突防三種意圖接近,無法識別出其準確意圖,目標三意圖為攻擊或突防。與基于代價敏感多類別二支決策的目標意圖識別方法相比,三支決策能夠更加準確地識別目標意圖。因此,在此次實驗案例中,三個目標的意圖分別被識別為:突防、攻擊或突防、攻擊。
隨著敵我距離的不斷逼近,我方需要對敵方目標進行目標分配,以充分調動我方戰場資源,提高戰場生存率。由仿真可知,在作戰第100 秒左右,敵我雙方距離接近50 km,此時進行目標分配較為合理。目標分配最佳方案為:C1分配T3、C2分配T2、C3分配T1
本文直接給出表1 對應的動態權重三支決策的損失值(λPy,λPn)=(0.1,0.8)、(λBy,λBn)=(0.3,0.5)、(λNy,λNn)=(0.9,0.2),根據三支決策理論,當目標威脅概率P(sy|X)≥0.6,則選擇權重策略為aP:ηa≥ηv≥ηh≥ηd,具體設置為ηa=0.4,ηv=0.25,ηh=0.25,ηd=0.1。當目標威脅概率 3
圖3 單機空戰機動軌跡圖Fig.3 Single aircraft air combat maneuver trajectory chart
由圖3 可以看出,對于目標一的突防意圖,我機采取三支決策的機動決策后,敵方飛機改變飛行方向,瓦解敵方突防意圖。對于目標二,我機始終在敵機下方,干擾其偵察和突防。對于目標三的攻擊意圖,我機近距離尾追敵機,具有更高的生存性和作戰優勢。綜上所述,在充滿不確定性和復雜性的空戰環境中,基于三支決策的空戰機動決策能很好地適應作戰環境,對識別出意圖的敵方戰機,我方戰機由三支決策的空戰機動決策迅速作出反應,與敵機展開空戰,并在戰斗中保持作戰優勢。
通過對目標意圖進行識別和評估威脅,構建我方作戰飛機對目標的作戰優勢,完成了多目標分配。利用三支決策理論將目標威脅程度分為三個域,并為每個域制定不同的權重調整策略。仿真結果表明了機動決策評價函數和權重動態調整策略的可行性和有效性。