張昀普,單甘霖,付 強
(陸軍工程大學石家莊校區 電子與光學工程系,河北 石家莊 050000)
目前,各級軍事偵察系統中均配備有數量眾多、種類各異、功能互補的偵察傳感器,用來完成各類偵察探測任務。相比傳統的單傳感器獨立工作,依托信息融合技術的傳感器管理方法可以將多傳感器真正整合成一個整體,從而大幅提升系統的偵察效能[1-2]。
傳感器調度作為傳感器管理研究的一個重要分支,其側重于對傳感器系統在每一時刻的動作(如開關機狀態、波束指向和機動方向等)進行控制,可根據具體的任務需要建立相應的優化準則,并實時地選擇傳感器的調度方案以獲取所需優化指標的最優度量值,從而獲取最佳的任務收益[3]。目前,針對傳感器調度的研究主要集中在面向目標跟蹤任務的調度方法中,所用的優化指標包括信息增益、跟蹤精度和輻射代價等。文獻[4]使用Rényi信息增益作為優化指標,基于該指標提出了多傳感器協同多目標跟蹤的調度方法,實現了對多目標的持續跟蹤。文獻[5]針對主/被動傳感器系統協同目標跟蹤問題,將傳感器的跟蹤精度和輻射代價的加權和達到最小作為調度依據,提出了相應的傳感器調度方法。文獻[6]考慮了移動傳感器系統,并將傳感器調度拓展到長期調度上來,以目標的長期跟蹤精度為優化指標提出了相應的調度方法。
然而,現有文獻大多是針對空中目標進行研究,此類目標的運動方式不受約束,通常用勻速或轉彎模型即可表征,傳感器的跟蹤準則也較為簡單[7]。但在實際中,也存在對地面目標的跟蹤需求,此類目標相比空中目標的運動方式更為復雜,傳感器跟蹤時所需考慮的因素也更多。地面目標探測傳感器(如地面動目標指示系統)多采用脈沖多普勒系統,為了消除地雜波對目標指示的影響,地面目標探測傳感器通常會設置一個最小可檢測速度(Minimum Detectable Velocity,MDV),與傳感器間的徑向速度小于該速度的目標將進入傳感器的多普勒盲區,從而造成量測丟失[8]。在實際偵察任務中,敵方地面目標通常速度較慢,且會采用動-停-動的方式運動,這會造成目標極易落入多普勒盲區,從而成功躲避傳感器跟蹤。此外,由于傳感器的檢測概率必然小于1,即使目標在多普勒盲區外,傳感器也并非總能獲取其量測[9]。因此,在面向地面目標跟蹤進行傳感器調度時,需要對丟失量測值的不同情況予以考慮,以保證調度方法的合理性。
為解決上述問題,筆者面向地面目標跟蹤任務,以多普勒體制的傳感器系統為研究對象,對相應的傳感器調度方法進行研究,從而實現在多普勒盲區存在的情況下動態地選擇合適的傳感器以獲取最優的跟蹤精度。首先建立了傳感器調度的基本模型;然后基于地面目標的動-停-動運動方式建立了目標跟蹤模型,依據速度大小將目標運動分為低速和高速兩個狀態,給出了狀態概率的計算方法,并引入了變結構交互式多模型(Variable Structure Interacting Multiple Models,VSIMM)方法對目標狀態進行估計;最后以目標的長期跟蹤精度最佳為優化目標,建立了長期調度的優化模型,并給出了跟蹤精度的量化方法。

k時刻傳感器系統的調度動作即為傳感器的工作方案,用N×1維矩陣Uk=[u1,k,….,un,k….,uN,k]T表示。其中,un,k(1≤n≤N)表示傳感器n的開關機狀態,其取值為1或0,當un,k=1時,表示調度該傳感器開機跟蹤目標;當un,k=0時,表示該傳感器靜默。筆者不考慮多個傳感器之間的量測值融合,故規定在每時刻僅調度一部傳感器跟蹤同一目標,因此調度動作的約束條件可表示為
(1)
在時間步長為H的時域[k,k+H-1]上,對應的長期調度動作可表示為Uk:k+H-1=[Uk,Uk+1,…,Uk+H-1]。

(2)

在k時刻,當目標處于停止模型時,其速度(不考慮噪聲)必為0,因此,可假設目標在k-1至k時刻做勻減速直線運動,且在k時刻靜止,因此,目標的運動狀態可表示為(以X方向為例):
(3)
其中,τ為傳感器的采樣間隔。基于上式,停止模型的狀態轉移矩陣可寫為
(4)
目標量測值Zk包含斜距離、方位角和徑向速度信息,可通過量測方程表示[11],即
(5)

(6)


為了解決上述問題,根據目標速度的大小設置兩類速度狀態,分別為:
(1) 高速狀態ΩF,該狀態下目標的速度大于停止極限速度Vlimit,其無法在一個采樣間隔內停止。
(2) 低速狀態ΩS,該狀態下目標的速度小于等于Vlimit。
由1.2節可知,使用4種模型,分別為勻速直線模型(i=1)、勻加速直線模型(i=2)、勻速轉彎模型(i=3)和停止模型(i=4),則高速狀態下的狀態轉移矩陣為
(7)

相應地,低速狀態下的狀態轉移矩陣為
(8)
值得注意的是,由于過程噪聲的存在,當目標處于停止模型時,其速度并不一定為0,因此文中設定一個較小的邊緣速度V0,當Vk≤V0時,即可視為目標已經停止。
目標在k-1時刻處于不同速度狀態的概率與目標的歷史量測值Z1:k-1有關,即
(9)
(10)

Vlimit=adτ+V0=adτ+(6)1/2στ,
(11)
其中,ad為目標在一個采樣間隔內的最大減速度。可以看出,速度大于Vlimit的目標不能在一個采樣間隔內停止。
進一步,結合式(9),可得目標在k-1時刻處于低速和高速狀態的概率:
(12)
由于停止模型僅在無量測時才會被考慮,傳統的IMM方法無法適用于這種模型集時變的場景。因此,使用VSIMM方法對時變模型集下的目標狀態進行估計,VSIMM方法能夠根據每時刻系統狀態對模型集進行更新,可彌補IMM方法下模型集固定的問題[9]。當被調度的傳感器無法獲取目標量測時,停止模型會被加入到模型集中,此時停止模型在前一刻的模型概率被設置為0,而當獲取量測值后,停止模型則會被刪除,其他模型的概率將被重新歸一化。
在每一時刻確定模型集后,即可按照傳統的IMM框架對目標的狀態進行估計。當量測值存在時,可結合粒子濾波方法進行估計[9],當無量值時,僅根據模型遞推對預測狀態進行估計。在狀態估計的過程中,需要確定模型的似然函數和狀態轉移概率,下面將結合地面目標的運動特性介紹二者的計算方法。
2.2.1 似然函數
在傳統的IMM方法中,默認傳感器一定能獲取量測值,在k時刻模型i的似然函數可表示為[14]
(13)

(14)
其中,δ(Zk)為指示函數,當Zk=0時(即無量測時),δ(Zk)=1,否則,δ(Zk)=0。
2.2.2 狀態轉移概率
由2.1節可知,目標運動分為低速狀態和高速狀態,不同狀態具有不同的狀態轉移矩陣,因此應綜合考慮兩類狀態來計算模型間的狀態轉移概率。結合全概率公式,在k時刻由模型i轉移到模型j的概率可表示為

(15)

(16)

傳感器調度需要選取合適的優化指標,并基于優化指標對未來收益進行預測,從而制定出收益最佳的傳感器調度方案。由于以未來多步收益總和最優為決策依據的長期調度在性能上優于以一步收益最優為決策依據的短期調度[6],結合目標跟蹤任務實際,筆者選擇以目標的長期跟蹤精度作為優化指標。后驗克拉美羅下限(Posterior Cramér-Rao Lower Bound,PCRLB)能根據當前先驗信息預測未來時刻目標狀態估計誤差的理論下界,常用于衡量非線性系統的跟蹤精度[15],因此選擇PCRLB的跡量化目標跟蹤精度。PCRLB為Fisher信息矩陣的逆矩陣,以符號Ψ(Xk)表示Fisher信息陣,則Ψ(Xk)滿足以下遞推關系[15]:
(17)
其中,
(18)

當決策步長為H時,結合傳感器調度動作的約束條件式(1),可建立長期調度的目標函數如下:
(19)

我方部署8部傳感器(記為S1-S8)跟蹤敵方1個地面目標,目標的初始位置為(0 m,0 m),初始速度為(30 m/s,30 m/s) 。仿真時間為100 s,采樣間隔為1 s,目標在1~15 s以-4°/s的角速度做勻速轉彎運動,在16~30 s以4°/s的角速度做勻速轉彎運動,在31~50 s以-2 m/s2的加速度做勻加速直線運動,在51~55 s停止,在56~70 s以2 m/s2的加速度做勻加速直線運動,在71~82 s以-2 m/s2的加速度做勻加速直線運動,在83~89 s停止,在90~100 s以3 m/s2的加速度做勻加速直線運動運動,目標運動軌跡及傳感器位置示意圖如圖1所示。各傳感器的MDV均為8 m/s,其他參數見表1,低速和高速下的狀態轉移矩陣為

圖1 目標運動軌跡及各傳感器位置

表1 傳感器參數
其他參數:過程噪聲在X和Y方向的標準差σ=2.5 m,最大減速度為ad=4 m/s2,折扣因子α=0.9,蒙特卡羅次數為200次。
在仿真中,引入均方根誤差(Root Mean Square Error,RMSE)和均方根誤差的時間平均值(Root Time Average Mean Square Error,RTAMSE)作為衡量跟蹤精度優劣的評價指標。
決策步長H決定了決策時對未來狀態的預測步數,從而直接影響到調度結果。為確定H的大小,在H=1~5下進行了仿真,圖2給出了每時刻不同H下目標位置和速度的RMSE,表2給出了對應的RTAMSE值。可以看出,在H=1~3時,跟蹤精度隨著H的增加而提高,即傳感器調度的收益提高,這說明在一定程度上增大H,可以提升傳感器調度的效果;而當H>3時,精度反而隨著H的提高開始下降,這是由于在決策時,H的值過大導致對系統未來狀態的預測準確度降低,致使得到的傳感器調度動作并非最優動作,從而影響了實際的跟蹤效果。因此,在調度中,決策步長H的取值并非越大越好,依據圖2和表2的結果,在接下來的仿真中取H=3。

(a) 位置RMSE

表2 不同H下目標位置和速度的RTAMSE
為了更好地說明筆者所提調度方法(長期調度,H=3)的調度性能,采用3種調度方法進行對比,分別為:
方法1:全程使用檢測概率和精度均最高的傳感器6跟蹤;
方法2:最近鄰調度方法[5],每時刻調度距目標最近的傳感器;
方法3:隨機調度方法[16],每時刻隨機調度傳感器。
圖3給出了不同調度方法下目標位置和速度的RMSE,表3給出了目標位置和速度的RTAMSE值,圖4給出了文中方法對應的傳感器調度動作。可以看出,文中方法通過對系統和目標狀態進行預測,并根據預測信息進行最優決策得到最佳的傳感器調度動作,可在最大程度上避免多普勒盲區的出現,能夠保持對目標較好的跟蹤效果,獲得了幾種方法中最佳的跟蹤精度。方法1雖然全程使用跟蹤精度最佳的傳感器6,但實際跟蹤精度并不佳,這是由于跟蹤精度與目標和傳感器的相對位置有關,該方法未結合目標實際狀態進行傳感器調度,致使效果不佳。方法2在每時刻調度距目標最近的傳感器,在理論上可獲得較佳的跟蹤精度,但其與方法3一樣,沒有通過解算目標函數求出最佳工作方案,致使二者的調度效果均不如文中方法。綜上,仿真結果說明通過解算基于目標長期跟蹤精度最佳的目標函數,從而求取最佳傳感器調度動作的方法是合理且可行的,驗證了筆者所建模型和所提方法的有效性。

(a) 位置RMSE

表3 不同方法下目標位置和速度的RTAMSE

圖4 文中方法所得調度動作
面向多普勒盲區存在下的地面目標跟蹤任務,為實現對目標的高精度持續跟蹤,筆者提出了一種傳感器調度方法。建立了調度的基本模型,對調度動作、目標狀態轉移和盲區存在下的傳感器量測進行了數學描述;在目標跟蹤模型中考慮了地面目標動-停-動的機動特點,將目標運動狀態分為低速和高速,并引入VSIMM方法對目標狀態進行估計,結合目標量測值丟失的兩種原因和目標運動模型給出了似然函數和狀態轉移概率的計算方法;引入PCRLB量化目標跟蹤精度,并以此為優化指標建立了長期調度的目標函數;仿真實驗證明了模型和調度方法的有效性。在下一步的研究中,應在傳感器調度方法中考慮密集雜波、崎嶇地形和電磁干擾等因素,使方法更貼合實際需求。