劉一鳴,盛文,胡冰,張磊
空軍預警學院 防空預警裝備系,武漢 430019
在現代化的戰爭中,戰場環境日趨多樣化、復雜化和持久化。大型相控陣雷達作為預警體系中的骨干裝備,其功能的充分發揮對整個預警體系的作戰效能起到了至關重要的作用。而跟蹤工作模式占據其大部分資源,所以利用自適應波束波形調度策略來提高多目標跟蹤性能的研究是不可或缺的。
相控陣雷達多目標跟蹤波束調度策略是利用對目標狀態變量的估計和當前可用資源制定相應的規則,來實現在跟蹤波束調度時刻做出合理決策的目的。相控陣雷達作為一種特殊的傳感器,其管理策略與多傳感器有很多相似之處,常見的傳感器控制方法包括信息論[1-2]、協方差[3-4]和克拉美羅下界(Cramer-Rao Low Bound, CRLB)[5],很多學者將其引入相控陣雷達多目標跟蹤資源管理的研究中取得了豐碩的成果。文獻[6]在信息論的框架下,將跟蹤前后信息熵的變化作為跟蹤精度的衡量指標來控制跟蹤波束的調度情況。但是該方法將每個目標的精度需求視為相同的,這與實際的作戰環境是不相符的。進而,鑒于協方差控制的方法具有很強的自適應性,文獻[7]提出了基于協方差偏差均值最小準則和最大協方差偏差最小準則的相控陣雷達多目標資源管理算法。文獻[8]在最小化后驗估計誤差協方差的條件下,實現了對雷達波束、功率和波形參數的選擇。但以上研究僅考慮了目標跟蹤精度,而忽略了雷達資源的消耗。文獻[9-10]通過當前時刻目標實際協方差與期望值的偏差和所選波形能量的加權平均為調度代價,進而選擇下一時刻的工作方式和參數。文獻[11-12]在檢測概率和跟蹤精度的約束條件下,預估了波束的駐留時間,通過定義的緊迫(調度)系數來確定下一時刻的波束指向。然而,協方差控制思想的調度性能受期望協方差矩陣和濾波算法的影響很大,考慮到CRLB是參數估計誤差的理論下界,文獻[13-17]針對多輸入多輸出雷達波束的特性,以后驗CRLB為跟蹤精度的評價指標,建立相應的優化模型,對波束指向、發射功率、重訪時間和駐留時間等參數實現了有效管理。
以上研究僅考慮了波束調度當前的代價,然而當前調度決策會影響到雷達對目標的觀測結果,繼而影響到下一時刻對目標狀態的估計,最終影響下一時刻的調度決策,顯然這是一個序貫的時序決策過程,所以考慮當前時刻決策的長遠代價可以一定程度上提高系統整體的調度性能。文獻[18-21]將多傳感器網絡動態控制問題描述為馬爾可夫決策過程(MDP),設計了相應的參數優化策略,提高了系統的性能。文獻[22]利用概率密度函數對跟蹤精度進行評價,采用馬爾可夫決策過程對當前時刻調度的長遠代價進行建模,實現對雷達資源的實時管理,但該方法并沒有考慮到雷達消耗的能量。文獻[23]將雷達跟蹤資源管理問題建模為MDP,設計了發射功率、載頻、駐留時間和采樣間隔優化策略,并提出了一種改進的二元風驅動優化算法加速最優策略的求解。文獻[24]類比隨機控制問題,將雷達多目標跟蹤目標選擇問題建模為MDP,給出了相關策略,降低了資源過載時多目標跟蹤誤差。上述研究不斷豐富了相控陣雷達跟蹤波束調度的內容,但仍存在以下不足:調度策略設計過程中沒能考慮到跟蹤資源對不同目標跟蹤精度改善程度的差異性。
針對上述文獻中未能綜合考慮跟蹤資源對不同目標跟蹤精度改善程度的差異性和決策長期性的問題,研究了相控陣雷達波束調度和波形參數優化的問題,將上述序列決策問題建模為一個離散MDP,利用有限階段的累計資源消耗收益率來衡量當前時刻資源對目標跟蹤精度改善的差異性,進而與當前時刻的實際跟蹤精度相結合作為長時策略的回報函數,考慮到預測的準確性,利用預測的后驗克拉美羅下界(Posterior Cramer-Rao Low Bound, PCRLB)來衡量預測精度,而實際精度仍采用協方差來表征;同時,提出了一種并行混合遺傳粒子群算法來求解最優策略,最后在多目標跟蹤場景下,將所提調度策略與其他已有方法進行對比,驗證了有效性和優越性。
相控陣雷達多目標跟蹤波束波形調度問題可描述為:如何根據當前時刻的濾波結果確定下一時刻跟蹤波束指向及跟蹤波形參數。為提高系統長期跟蹤性能,可將其建模為一個序列決策問題,而序列決策模型要求決策者不僅要考慮決策的即時效應,還要考慮為將來決策創造機會,則tk時刻的具體決策過程如圖1所示。同時多目標跟蹤濾波過程具有明顯的馬爾可夫性,故將該問題建模為MDP,基于MDP框架,本文的具體模型要素如下。

圖1 tk時刻長期決策過程示意圖Fig.1 Schematic diagram of long-term decision-making process at tk time
定義tk時刻的調度動作向量ak=[akp,akw]T,其中akp為tk時刻雷達的波束指向,akw=[akτ,akT]為tk時刻雷達跟蹤波形參數向量,akτ為駐留時間,akT為跟蹤采樣間隔。
系統狀態即跟蹤目標運動狀態,定義tk時刻的系統狀態Xk=[xk,yk,vxk,vyk]T,其中xk、yk、vxk和vyk分別表示目標在x和y方向的位置和速度。則系統的狀態及狀態轉移可表示為
Xk+1=FkXk+ωk
(1)
式中:Fk為狀態轉移矩陣;ωk為零均值高斯噪聲,其協方差矩陣為Qk。
定義tk時刻的系統觀測Zk=[rk,θk]T,其中rk為目標距離,θk為目標方位角。則系統的觀測方程可表示為
Zk+1=H(Xk+1)+νk
(2)
式中:H(·)為雷達的非線性觀測函數;νk為零均值高斯量測噪聲,其協方差矩陣為Rk。
相控陣雷達長期調度的關鍵是對系統未來狀態的準確預測,而PCRLB給出了目標狀態估計誤差的理論下界,故將其作為預測精度的衡量指標。PCRLB定義為Fisher信息矩陣(FIM)的逆矩陣[25],即
(3)

針對本文問題,文獻[26]提出了FIM的遞推求解方法,即
(4)
式中:Gk+1=?Xk+1H(Xk+1)為觀測矩陣的雅可比矩陣。
相控陣雷達消耗的資源可分為時間資源和能量資源,其中能量資源主要為發射功率和脈沖寬度,時間資源主要為駐留時間和采樣間隔。本文不考慮輻射控制的問題,假定發射功率和占空比值為最大值,故僅考慮時間資源的消耗,所以雷達跟蹤消耗的資源Ek由駐留時間dk和采樣間隔Tk來表征,即
Ek=dk/Tk
(5)
目標跟蹤精度僅考慮位置估計誤差,為了便于目標后驗克拉美羅下界的量化以及后續的計算,故從Ck中提取位置分量估計誤差的下界,并取其跡和Frobenius范數(F范數)作為其量化值Bk,用ΔAk描述Bk的變化率,即
(6)
式中:blkdiag(·)為生成指定對角線元素的矩陣;Im為單位矩陣;?代表Kronecker運算。
為了提高系統長期調度的性能,就要充分考慮調度時刻目標消耗相應資源給系統帶來回報的差異性,借鑒效益理論中效費比這一核心概念來描述預測資源消耗回報率,可以實現對波束調度過程的精確控制,進而提高管理過程效益。然而,相控陣雷達系統中資源種類繁多,如波形資源、設備運算資源和存儲資源等,需對調度過程中資源概念予以界定。跟蹤波束波形調度決策問題只關心波形能量的調度情況,故上述“資源”具體指發射波形資源,對應的“效費比”是波束調度效費比ηk,定義為預測精度變化率與發射波形資源消耗的比值,即
ηk=ΔAk/Ek
(7)
同時,當跟蹤目標的跟蹤精度超過精度門限時,應及時調度這些目標,故需要將決策時刻各目標的實際跟蹤誤差考慮到回報函數中來。首先,目標跟蹤的誤差協方差矩陣不能衡量大小,需要取其某種意義下的范數值來反映其誤差水平;同時,由于協方差矩陣中對角線上元素可以很好地體現目標位置估計誤差的水平,故取誤差協方差矩陣的F范數來表征目標實際誤差協方差矩陣的大小,當某個目標當前實際誤差超過門限時,但其波束調度效費比很小,這會使得這些目標不能及時被調度,所以定義一步回報函數r(Xk,ak)為
r(Xk,ak)=
(8)
式中:F[P(akp)]表示tk時刻目標akp實際跟蹤協方差矩陣P(akp)的F范數;Pthr為設定的跟蹤精度門限,記優勢系數κk=maxηk為tk時刻所有策略中資源效費比的最大值,目的是讓跟蹤誤差超過門限的目標波束調度效費比絕對占優。
定義R(Xk,ak,ak+1,…,ak+n,n)為在系統狀態為Xk時采取系列動作Ak:k+n=[ak,ak+1,…,ak+n]時n步預測的回報函數,即
(9)
式中:ατ為τ+1步預測的折扣因子,用于表示各步預測的重要程度。
目標跟蹤算法主要用于對目標狀態預測和觀測進行濾波,使其更接近目標實際運動情況。考慮到系統為非線性高斯,常用的算法有擴展卡爾曼濾波(EKF)、無跡卡爾曼濾波(UKF)和粒子濾波(PF),EKF計算量較小,但僅適合于弱非線性高斯系統;PF適用于任何非線性高斯系統,但其本質上屬于蒙特卡羅方法,計算量大;UKF計算量適中,且適合于非線性高斯系統。本文的狀態方程仍為線性高斯,故可采用簡化無跡卡爾曼濾波(SUKF)算法,其具體步驟為

(10)

(11)
式中:λ=α2(L+b)-L為尺度參數,用來降低總的預測誤差,α控制了采樣點的分布狀態,通常設為一個較小的正數(1×10-4≤α<1),b為待選參數,通常取0或3-L;β為狀態分布參數,對于狀態變量為高斯分布,通常取β=0為最優。

(12)

(13)
在調度過程中尋求的最優策略,不僅是要最大化回報函數,還要滿足檢測和跟蹤的基本要求,所以本文的長時調度策略優化模型可描述為
(14)

上述調度策略下的資源管理框架描述如圖2所示,資源管理流程實際上是一個最優控制的過程,調度過程主要由波束調度及波形參數優化和最優策略執行2個模塊構成,具體步驟為

圖2 長時調度策略最優控制流程Fig.2 Optimal control flow of long-term scheduling strategy


步驟3tk時刻波束調度及波形參數優化(為簡化表示,以下推導忽略目標編號)。

(15)
式中:SNRref、τref和rref分別為參考信噪比、駐留時間和目標跟蹤距離。
假設目標的起伏模型為SwerlingⅢ型,虛警概率為Pf,故可得預測的檢測概率為

(16)

(17)

本文馬爾可夫決策問題的最優決策序列可轉化為動態規劃算法結構進行求解,但是隨著預測步數的增加,尋求最優策略的效率就會下降,故引入智能優化算法加快尋優速度。常用的遺傳算法(Genetic Algorithm, GA)全局搜索能力強,粒子群優化(Particle Swarm Optimization, PSO)算法收斂速度快,其混合算法在雷達參數優化[27-29]方面得到了成功運用,但是上述混合算法均是將其中某一算法的核心思想引入到另一種算法中,本文提出了一種并行混合GAPSO算法,將2種算法更新的種群對比選優組成新的種群,其算法流程如圖3所示,流程中關鍵步驟說明如下:

(18)
式中:cmin為常數,取R(y)的最小值。

(19)


圖3 并行混合GAPSO算法實現流程圖Fig.3 Flow chart of parallel hybrid GAPSO algorithm implementation

1) 選擇算子。選擇又稱為復制,是在群體中選擇生命力強的個體產生新群體的過程,利用比例選擇方法,則個體i被選則概率Pi為
(20)
通過上述方式會破壞適應度較高的優良個體,使問題收斂速度慢甚至陷入局部最優,故引入最優保存策略來保護優秀個體,其基本思想概括為:當前種群中適應度最高的個體不參與進化,而是用它替換掉本代種群中經過雜交、變異等遺傳后所產生的適應度最低的個體。

(21)
式中:α為一個參數,α∈(0,1)。同時,交叉操作的執行與否由交叉概率Pc決定。
3) 變異算子。變異算子是個體間染色體等位基因替換的過程,為了增加種群的多樣性,本文采用均勻變異的方式,其操作過程描述為:依次指定個體中每個基因座為變異點,對每個變異點,以變異概率Pm從對應基因的取值范圍內取一隨機數代替原來的基因值。
由于目標的機動性和目標位置預測的局限性,過分的長期預測可能會帶來較大的預測誤差,從而影響目標的跟蹤精度。因此,為分析長時調度策略中決策步長對目標跟蹤精度的影響,選取不同的預測步長n進行實驗。為了驗證上述策略中回報函數和長時調度方式2點創新性工作的有效性和優越性,在同一仿真場景下,選取相應短時調度策略和常規的波束波形聯合調度策略[9-10]2種方法進行對比驗證。
方法1 該方法在上述調度策略的基礎上,采用一步預測方式對目標進行跟蹤。
方法2[9-10]該方法中的調度策略的目標函數選為預測跟蹤精度與波形能量的歸一化加權平均值。


圖4 責任區內跟蹤目標運動軌跡Fig.4 Tracking target motion trajectory in area of responsibility
在上述多目標場景中,為了更全面地反映目標的跟蹤情況,將均方根誤差(Root Mean Square Error,RMSE)作為跟蹤質量的評價指標,信號駐留時間和采樣間隔時間作為資源消耗的評價指標。圖5給出了不同方法下各目標在調度過程中的RMSE,可以看出,長時調度方法在調度過程中的跟蹤精度普遍高于方法1和2,同時,方法1的跟蹤精度要高于方法2;圖6給出了不同方法下目標在調度過程中的平均資源消耗情況,可以看出,長時調度方法在保持適中的采樣間隔時間水平時能夠利用更多的駐留時間來跟蹤目標,然而方法2相對方法1具有更高的采樣間隔時間水平并利用更多的駐留時間來跟蹤目標。綜上分析可得,長時調度策略通過回報函數可以選擇各決策時刻的最優跟蹤目標,進而實現對采樣間隔時間和駐留時間的最優控制,通過預測步長的增加,來提高整體的調度性能。
為了精確刻畫長時調度策略的優越性,表1給出了各方法性能指標和決策時長的統計結果,實驗環境為MATLAB2016a,實驗的平臺為Windows10 64位操作系統,計算機配置為Intel Corei5-8250U CPU,主頻1.6 GHz,顯示適配器NVIDIAGeForce MX150,可得當預測步長n=5時,跟蹤精度相對方法1提高11.17%,方法1相對方法2提高1.69%。

圖5 不同方法下各目標RMSEFig.5 RMSE of each target under different methods

圖6 不同方法下調度過程平均消耗資源Fig.6 Average consumption of resources in scheduling process under different methods
表1 長時調度策略下跟蹤性能指標和決策時長統計值
Table 1 Tracking performance indicators and decision duration statistics under long-term scheduling strategy

方法均方誤差/m駐留時間/s采樣間隔/s決策時長/s預測步長n=2327.820.022931.15385.6698n=3319.170.030081.19357.4832n=4305.800.033551.21729.5013n=5292.600.034961.228012.507n=6306.740.035341.226515.445方法1329.410.015421.10723.9864方法2335.080.020441.48231.1809

圖7 RMSE和決策時長隨預測步長的變化曲線Fig.7 RMSE and decision duration as a function of predicted step size
為了更好地分析長時調度策略整體調度性能和預測步長的關系,取步長n=2,3,4,5,6情況時進行分析,圖6和表1給出了調度過程中時間資源消耗隨預測步長的變化情況,可以看出,隨著預測步長的增加,駐留時間和采樣間隔時間都有所增加;圖7給出了調度過程中RMSE和決策時長與預測步長的關系,可以看出,隨著預測步長的增加,決策時長增加且增長速度越來越快,RMSE先減小再增加,即跟蹤精度先增加后減小,在預測步長n=5時獲得最優跟蹤精度,這是因為長期預測的優勢是建立在目標狀態預測準確的基礎上,而跟蹤目標存在機動特性,從而大大降低了預測的準確性,最終導致決策的偏差。綜上所述,針對不同的作戰場景,在一定的預測步長范圍內,長期調度策略要優于短期調度策略,最優步長需要在調度過程中尋找并設置。同時,當最優預測步長所需較長的決策時長時,決策者需要在跟蹤性能和決策實時性之間進行合理地權衡。
同時,為了進一步體現長時調度策略的優越性,選取在各方法中跟蹤調度情況均較好的目標1進行分析,考慮到上述情況分析的結果,選取n=5、方法1和方法2這3種方法進行分析,結果如圖8所示,可以看出長時調度策略在目標跟蹤誤差超過門限后能及時對其進行調度,很大程度上避免了目標失跟,然而其他2種方法沒有這種控制效果;同時隨著時間的推移,目標跟蹤精度的變化趨于穩定且能保持在較低的跟蹤誤差水平。
為了更好地展現長時調度方法在調度過程中對目標跟蹤精度的控制情況,選取預測步長n=5時對波束照射情況進行分析,結果如圖9所示,可以看出,在整個調度過程中雷達對大部分目標的照射次數相當,雖然各目標在不同時刻的回報函數值存在差異,但各目標本身的運動特性相似,所以回報函數在各決策時刻所反映的目標間的差異體現在目標的狀態,而并不是目標本身的屬性。

圖8 3種方法下目標1調度過程RMSE 變化情況Fig.8 Changes in RMSE of target 1 scheduling process under three methods

圖9 預測步長n=5時調度過程波束照射情況Fig.9 Scheduling process beam illumination when predicting step size n=5
借鑒了馬爾可夫決策過程的理論框架,將波束波形調度問題建模為序列決策問題,提出了基于馬爾可夫決策過程的波束波形聯合長時調度策略,仿真分析表明,所提出的調度策略:
1) 可以在各決策時刻選取最為合適的目標進行調度,在保證跟蹤精度的同時,適當增大了跟蹤駐留時間和采樣間隔時間,提高了時間資源利用率。
2) 在調度過程中,能夠及時對跟蹤精度超門限目標進行調度,有效提高了跟蹤目標容量,降低了失跟率。
3) 存在最優步長,同時,調度性能的提高是以犧牲決策實時性為代價,實際運用過程中決策者需要在性能和實時性之間進行權衡,進而選取合適的預測步長。
4) 為解決波束波形聯合調度問題提供了一個很好的理論框架,具有良好地拓展性,可解決多目標決策問題。