王 飛,周愛美,王宇霄
(浙江廣廈建設職業技術大學,浙江 東陽 322100)
多攔截器協同作戰環境異常復雜,對制導規律提出了更高的要求。它要求攔截器不僅能攔截目標,還應能配合其它攔截器,使攔截作戰效能最大化。到目前為止,國內外對多導彈協同作戰環境中制導規律的研究,仍局限于固有的模式,即把導彈間的戰術級協同和單枚導彈的制導規律分開來研究。而對多導彈的協同制導規律的研究仍處于初步探索階段,目前尚未有相關研究報告公開發表。本文以多攔截器協同作戰為研究背景,將現代博弈理論與傳統導引規律相結合,主要開展多攔截器攔截彈道導彈目標時的協同制導規律的研究。
典型的動能攔截器攔截戰術彈道導彈(tactical ballistic missiles,TBM)主要采用直接碰撞動能殺傷方式。即在地面制導控制系統導引下,攔截彈先到達較高的預定空域,并具有很大的速度;接著,位于攔截彈前端的動能攔截器分離出來,由其頭部紅外成像導引頭實現對目標的精確探測;最后,動能攔截器利用姿控、軌控發動機的直接側向力實現快速變軌和姿態調整,利用自身高速運動的巨大動能直接碰撞摧毀目標。圖1為動能攔截器制導控制仿真結構圖。

圖1 動能攔截器制導控制仿真結構圖
在二維有界矩形環境(追蹤區域)中,假設有兩枚攔截器同時攔截目標,垂直平面內交會情況如圖2所示。攔截器1 和攔截器2 分別記為M1和M2,目標記為T,攔截器的速度分別為和,加速度分別為和,目標的速度為,加速度為,攔截器到目標的距離分別為和。

圖2 垂直平面內交會示意圖
為了方便研究,對空間和時間進行離散化。時間離散化后用1,2,…表示,并假定環境以及相互位置信息對于攔截器和目標雙方均是已知的,在每個時刻由于目標機動,攔截器也隨著同時機動,且只能執行一次機動。
由于攔截器的設計限制,加速度方向只能從垂直當前速度的正負方向中選取,而且大小受限。即對于容許控制集,控制變量u 應滿足

式中:為動能攔截器的最大加速度。目標被第枚攔截器攔截時,應滿足

式中:r ()為時刻第枚攔截器和目標之間的距離;為脫靶量。即攔截器與目標距離不大于指標要求的脫靶量。
將攔截器-目標雙方的動態攔截模型按時間離散化,轉化成具有兩個局中人(攔截器及目標)的離散動態對策問題,每個時刻的動作選擇問題轉化為矩陣對策的形式求解。因此,協同制導中博弈模型可以用3部分來描述:參與者集合,動作集合,應用性能評估函數。
參與者集合,即攔截問題中的所有攔截器以及目標。將兩枚攔截器看作是一個合作的團隊,并假定它們具有集體理性,即在對抗中各攔截器并不是根據個體利益最大化進行行為決策,而是追求集體利益最大化,可以看作是一個參與者。
動作集合,是參與者在時刻所能完成的容許控制集。
應用性能評估函數作為參與者的代價函數,用于計算局勢的評估值并以此作為參與者的支付值。應用性能評估主要包括攔截器與目標距離的評估和攔截器對目標的包圍態勢的評估兩部分。
攔截器的目的是形成一定的決策,成功攔截目標,使其支付值最大。目標的目的是盡量逃離攔截器。兩個局中人的目的互相沖突,構成一個兩人的零和矩陣對策。
在時刻攔截器-目標雙方各自采取了某種制導策略后,就形成一個局勢。為了衡量所形成局勢的好壞,引入應用性能評估函數評估當前全局環境對攔截器-目標雙方的目的完成的貢獻程度。攔截器的目的是盡量攔截到目標,目標的目的是盡量逃脫攔截器的攔截,可見攔截器與目標的支付值是沖突的,完全相反的。因此攔截器與目標之間的博弈可以看作是一種零和博弈,即()()0,其中(),()分別為攔截器與目標的代價函數。
為了描述某個局勢對支付值的貢獻大小,要考慮兩個因素:距離影響因子r 和有效包圍因子r。
則定義攔截器的代價函數

式中:k 和k為代價函數系數,且k +k=1;k=,其中為初始代價函數系數,為衰減因子。
在剛開始攔截的時候可以將k設得較大,而k 較小,使攔截器更重視對目標的包圍。隨著時間的變化,有效包圍因子r的重要性越來越小,而距離影響因子r 的重要性相應提高。在攔截器對目標形成一定包圍態勢后,主要以與目標之間的距離作為策略選擇的依據。
距離影響因子r 是指攔截器在距離上對支付值的貢獻程度,顯然距離越近,則離目的的完成越近。因此,定義距離影響因子

式中:為攔截器個數;為初始時刻攔截器與目標之間的距離;r ()為時刻第枚攔截器與目標之間的距離。距離影響因子使攔截器趨向于選擇使其與目標之間距離縮短的策略,體現的是攔截器的個體行為。
有效包圍因子r是用來衡量攔截器在方位上對目標的協同攔截程度。攔截器對目標構成某種包圍態勢時,可將其近似等效為以目標T 為中心的一段圓弧。第枚攔截器阻擋的方向的集合,稱為該攔截器的可攻擊區域,記為θ。第枚攔截器的可攻擊區域如圖3所示。

圖3 第i枚攔截器的可攻擊區域示意圖
θ是以目標為圓心,以第枚攔截器為中點的一段弧長為2d 的范圍,為簡單起見,設θ=π/2。因此,定義有效包圍因子

式中:為常數;sum{·}為所有攔截器可攻擊區域范圍的并集的大小。有效包圍系數鼓勵攔截器之間進行合作,包圍目標,體現了攔截器之間的協作行為。
同理,因為攔截器與目標的支付值相互沖突,構成的是零和博弈,因此目標的代價函數()()。
在時刻,對某種局勢,根據1.4節的代價函數(性能評估函數)公式可以計算得到攔截器的支付值。因此可以根據時刻對抗雙方各種可能的走步策略構造攔截器支付矩陣

式中:h ()表示時刻目標采取第種機動策略,攔截器選擇第種機動策略時攔截器的支付函數。
在攔截過程中,攔截器和目標知道雙方的機動能力,但不知道對方會具體選擇哪個機動策略,因此,雙方都以避開較大不利為決策依據。這種情況下,可運用“排除法”求出無鞍點矩陣對策的純策略解,這只是對策的滿意純策略解,但可直接指導策略的選取。“排除法”的具體求解步驟為:
a)寫出攔截器的支付矩陣(),每行代表攔截器的一個策略,而每列代表目標的一個策略;
b)在矩陣()中尋找最小的元素,將該元素所在的行劃去,然后在剩下的各行中尋找最小的元素,再將該元素所在的行劃去,依次進行,直到剩下唯一的一行,即為攔截器將選擇的策略;
c)同理,在支付矩陣()中尋找最大的元素,將該元素所在的列劃去,然后在剩下的各列中尋找最大的元素,再將該元素所在的列劃去,依次進行,直到剩下唯一的一列,即為目標將選擇的最優策略;
d)如果最小(最大)的元素,在若干行(列)中同時出現,則比較這幾行(列)中次小(大)的元素,若還相等,則比較再次之的元素,直到能比出大小為止,再按步驟b)和步驟c)的標記方法執行;
e)最后必有一個元素沒有被劃去,則此元素的值便是對策的值,此元素對應的局中人雙方的純策略便是對策的解;
f)對于某些特殊的支付矩陣,通過上述步驟可能找不到最小(大)值,就意味著對于局中人雙方來說,按照“排除法”的原則,每個純策略的不利程度是相同的,即取任意一行(列)都是可行的。
根據前面的分析,可以得到對策論框架下多枚攔截器攻擊問題的實時策略選擇算法。其形式化描述為:
a)初始化處理,給定各枚攔截器及目標的初始位置;
b)結束條件判斷,根據前面的攔截定義判斷是否攔截到目標,如果是,則算法終止,否則繼續下一步;
c)策略生成,根據-1時刻攔截器和目標的位置,生成時刻雙方的可行機動策略;
d)策略評價,根據步驟c)生成的各種機動策略,分別計算相應的支付值,得到攔截器的支付矩陣;
e)策略選擇,用“排除法”求解支付矩陣,得到雙方在時刻的最優機動策略;
f)策略執行,執行該機動策略,并返回步驟b)。
由于將時間進行了離散化,使得直接得到的攔截器飛行軌跡是由一系列線段首尾相連而成的。考慮到攔截器的轉彎半徑,這樣的彈道并不滿足攔截器的飛行條件,因此還需要對彈道進行進一步的平滑。
不失一般性,設根據制導規律得到的攔截器彈道的轉彎點由3點構成。ω,ω,ω分別為3點的位置向量,并定義相鄰兩點的單位向量d ,d 的公式為

式中:‖·‖表示范數運算。
則兩向量d ,d 間的夾角

在的角平分線上以攔截器的最小轉彎半徑為半徑作圓,圓與ω-ω和ω-ω相切,有兩個交點,設靠近ω的交點為。令

根據幾何關系可求得點的位置矢量

用()表示參數化后的點矢量

顯然(0)=ω,(1)=。這樣,根據需要選擇不同的,就能夠得到不同的平滑結果。攔截器彈道平滑示意圖如圖4所示。

圖4 攔截器彈道平滑示意圖
(1)仿真想定1
假設有兩枚攔截器攔截彈道導彈目標,攔截器和目標在水平面內同向運動,且只在水平面內機動,攔截器機動飛行到目標軌道前,實現順軌攔截。目標初始位置為(0,10 000)(單位為m,下同),沿著軸作勻速運動,速度為1 000 m/s。攔截器1和攔截器2由同一載體發射,初始位置為(0,0),速度均為1 500 m/s。仿真時間固定步長Δ=0.1 s。分別對攔截器在不同衰減因子、不同初始代價函數系數情況下的順軌攔截軌跡進行仿真,結果如圖5和圖6所示。

圖5 想定1不同衰減因子的攔截器順軌攔截軌跡(k0=0.6)

圖6 想定1不同初始代價函數系數的攔截器順軌攔截軌跡(u=0.7)
從圖5和圖6的仿真結果來看,在不同衰減因子、不同初始代價函數系數情況下,攔截器順軌攔截軌跡明顯不同。衰減因子和初始代價函數系數共同決定了攔截器對目標的包圍程度,其取值越大,攔截器對目標的包圍程度就完成得越好,而且彈道相對平滑,同時攔截時間隨之增大。
(2)仿真想定2
假設有兩枚攔截器攔截彈道導彈目標,攔截器和目標在水平面內同向運動,且只在水平面內機動,攔截器機動飛行到目標軌道前,實現順軌攔截。目標初始位置為(0,10 000),沿著軸作勻速運動,速度為1 000 m/s。攔截器1和攔截器2由不同載體發射,初始位置分別為(0,1 000)和(0,-1 000),速度均為1 500 m/s。仿真時間固定步長Δ=0.1 s。對攔截器在不同衰減因子、相同初始代價函數系數情況下的順軌攔截軌跡進行仿真,結果如圖7所示。

圖7 想定2不同衰減因子下攔截器的順軌攔截軌跡(k0=0.6)
仿真想定2的仿真環境與仿真想定1的區別在于,兩枚攔截器的發射初始位置不同,但是從圖7所示的仿真結果來看,只要兩枚攔截器能夠同時發射,依然可以進行協同制導。在相同初始代價函數系數情況下,衰減因子越大,其包圍態勢越明顯。
(1)仿真想定1
假設有兩枚攔截器攔截彈道導彈目標,攔截器和目標在水平面內反向運動,且只在水平面內機動,攔截器機動飛行到目標軌道前,實現逆軌攔截。目標初始位置為(0,10 000),沿著軸作勻速運動,速度為1 000 m/s。攔截器1和攔截器2由同一載體發射,初始位置為(0,0),速度均為800 m/s。仿真時間固定步長Δ=0.1 s。對攔截器在不同衰減因子、相同初始代價函數系數情況下的逆軌攔截軌跡進行仿真,結果如圖8所示。

圖8 想定1不同衰減因子下攔截器的逆軌攔截軌跡(k0=0.6)
從仿真結果來看,在逆軌攔截的情況下,也可以進行協同制導。在相同初始支付函數系數、不同衰減因子情況下,衰減因子越小,其包圍態勢越明顯。這一結論和順軌攔截正好相反。
(2)仿真想定2
假設有兩枚攔截器攔截彈道導彈目標,攔截器和目標在水平面內反向運動,且只在水平面內機動,攔截器機動飛行到目標軌道前,實現逆軌攔截。目標初始位置為(0,10 000),沿著軸作勻速運動,速度為1 000 m/s。攔截器1和攔截器2由不同載體發射,初始位置分別為(0,1 000)和(0,-1 000),速度均為800 m/s。仿真時間固定步長Δ=0.1 s。對攔截器在不同衰減因子、相同初始代價函數系數情況下的逆軌攔截軌跡進行仿真,結果如圖9所示。

圖9 想定2不同衰減因子下的攔截器逆軌攔截軌跡(k0=0.6)
仿真想定2的仿真環境與仿真想定1的區別在于,兩枚攔截器的發射初始位置不同,但是從圖9所示的仿真結果來看,只要兩枚攔截器能夠同時發射,依然可以進行協同制導。在相同初始代價函數系數情況下,衰減因子越小,其包圍態勢越明顯。
從圖5~圖9的仿真結果來看,攔截器在飛行的初始階段更重視對目標的包圍,隨著時間的變化,逐漸轉為以與目標之間的距離作為制導策略選擇的主要依據。這是因為隨著時間的變化,有效包圍系數越來越小,而距離影響系數則越來越大。
另外協同制導規律是在協同反導作戰體系作戰條件的基礎上進行研究的,因為各枚攔截器需要指揮控制中心提供彼此的相互位置信息,衰減因子和初始代價函數系數的取值應考慮攔截器之間通信距離的上限。
本文以多攔截器協同反導作戰為研究背景,將現代博弈理論與傳統導引規律相結合,主要研究多枚攔截器攔截彈道導彈目標的協同制導規律。該制導規律有效結合了對策論的思想,在協同制導領域進行了積極探索,但是它只適用于攔截器攔截勻速目標或機動能力較小的目標的情況,且多以攔截器同時到達目標位置為前提,若攔截器不能同時到達目標位置,對目標的包圍也就沒有意義了。因此,下一步要研究的問題是如何將本文的協同制導規律與攻擊時間控制制導規律有效結合。