廖 晨
(蘭州理工大學電氣工程與信息工程學院 蘭州 730050)
標簽多伯努利濾波器(Labeled Multi-Bernoulli,LMB)[4~5]作為多目標跟蹤濾波器中的“集大成者”,是最具有研究意義和實用價值的濾波器算法。它是在有限集統計理論下(Finite set statistics,FISST)[2],依據多假設思想,在多伯努利濾波器基礎上引入標簽向量,有效加強了目標與航跡之間的關聯,避免了監測區域內當目標數目過多時,由于目標之間交叉、重疊而導致的航跡融合等問題,并直接解決了跟蹤過程中目標之間無法區分識別的難題,且避免了復雜的數據關聯,因此受到了廣泛關注。
同時隨著多源信息融合技術的發展,傳感器控制方案的合理選擇對于提升多目標整體跟蹤系統的量測信息獲取質量具有極大的現實意義,因此,多目標跟蹤中的傳感器控制問題成為了廣大學者的研究焦點。一般而言,傳感器控制方法是在部分可觀測馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)[9~10]的理論框架下進行研究的,它的核心思想可概括為根據一定的最優控制準則,建立可供參考同時便于量化的目標評價函數,通過控制所選定傳感器的運行參數和動作方式,最終動態地選擇出使評價函數達到最優的傳感器控制方案,從而確保最大程度地獲取最優的量測信息。信息時代的到來,促使多目標跟蹤技術迅猛發展,而復雜多變的現實跟蹤環境,使人們對其提出了更高的要求。因此當傳感器控制方法應用于大型跟蹤場景時,例如軍事打擊及戰略防御領域時,由于戰場多元化的軍事技術導致了海量數據的出現,因而利用有限的傳感器資源最大化地獲取監控區域信息,以及如何提高傳感器的控制效率和降低傳感器運行成本的要求成為亟待解決的問題。因此,在上述背景條件下,研究多目標下的傳感器控制方法可以大幅提升多目標跟蹤系統的整體性能,這對于信息融合領域的發展具有深遠意義。
本文重點和主要創新點是通過LMB濾波器的高斯混合(Gaussian Mixture,GM)實現方式,提出兩種基于信息論的傳感器控制方法。首先給出LMB濾波器的高斯混合實現過程;其次詳細推導了柯西施瓦茨(Cauchy-Schwarz)[7~8]散度在 LMB濾波器高斯混合實現下的評價函數解析解;同時為有效降低計算復雜度,利用多伯努利參數替代標簽多伯努利參數進行“去標簽”的偽更新方法得到基于CS散度的傳感器控制方案;此外,基于戰術重要性標繪(Tactical Significance Map,TSM)函數[21],提出以最大威脅度目標信息增益最大化為準則的傳感器控制方案;最后構造仿真場景對比驗證所提控制方案的有效性。
LMB濾波器,它是GLMB濾波器在特殊近似條件下的濾波算法。在GM-LMB濾波過程中,可以利用多個帶標簽的獨立伯努利運動過程的加權形式來近似描述多目標的概率密度分布,而每個伯努利過程的概率密度可以通過一組加權形式表達的高斯分量去實現。
因此,濾波過程中先驗概率密度可以通過GM形式近似如下:


本文的研究內容均是在POMDP理論框架下展開的,其中基于信息論的傳感器控制算法相關的核心要素可定義如下:首先,v是k時刻A12=A1+A2中所容許的任意一種控制方案,每一個v均對應傳感器下一時刻的新位置。其次,pk(Xk|Z1:k)表示k時刻基于之前時刻累積量測信息下的多目標后驗概率密度函數。最后,通過建立評價函數R(v)來衡量傳感器的控制效果。因此,最優的控制序列可表達為

評價函數R(v)表達為

由上式可看出,R(v)是用來衡量兩個概率密度函數之間差異性大小的評估指標,其中,fk+H(X|Z1:k)和fk+H(X|Zk+1:k+H(u))分別表示多目標的先驗、后驗概率密度函數,Zk(v)是每一種控制方案v對應的理想量測集合。
柯西施瓦茲(Cauchy-Schwarz,CS)散度[20]在一定程度上可看作一種用來度量兩個集合之間距離大小的評估指標,可綜合衡量系統整體的信息增益變化程度。
本文為了降低在濾波更新步驟中的計算復雜度,采用“去標簽”的處理辦法,將預測步驟中帶標簽的多伯努利參數集的標簽丟棄,利用多伯努利參數替代標簽多伯努利參數,進行傳感器控制的偽更新,通過評價函數計算確定最終控制方案,之后傳感器在新的位置接收到實際量測信息,再進行LMB更新步驟。
CS散度的評價函數表達如下:

“去標簽”的偽更新過程中將預測部分的標簽多伯努利參數集中的標簽丟棄,無標簽的預測多目標概率密度則可表示為

無標簽的多伯努利參數集在一定程度上可等同于MeMBer濾波的參數集,因此,可套用MeMBer濾波器的濾波過程。預測的多目標概率密度參數集可表示為



通過Zk(v)對預測的無標簽概率密度函數更新,得到多目標概率密度近似表達式:

參照運用兩個高斯分量的乘積表達式,即


最后參照文獻[15],評價函數式(5)可推導為


且zij和zjj′的計算過程類似于上式。通過式(15)可計算得到R(v),從而確定最終的傳感器控制方案uk,傳感器在當前時刻的控制位置xs,k(uk)可以接收實際量測集合Zk(uk)。
TSM函數作為戰術重要性評估指標,因其綜合考慮了在目標運動狀態中影響不同時刻目標威脅程度的各種因素。因此,本節采用TSM函數來衡量各種目標運動因素對戰場重要性評估指標的貢獻程度。該方法全面且合理考慮了多種威脅因子的非線性關系,核心因素包括目標的速度、航向及目標與傳感器之間的相對距離。
綜上考慮,由目標運動狀態構建而成的威脅度評估指標TSM函數的最終表達式如下:

選 定[- 1000m,1000m] ×[- 1000m,1000m] 為監控區域,并在該區域中構造場景對目標進行跟蹤,假設實驗過程中目標最大數量為4個。量測采樣周期為T=1s。場景中目標運動狀態通過近常速運動模型來描述,狀態轉移密度可表示為

Fk為狀態轉移矩陣,Qk為噪聲協方差矩陣,In代表n×n的單位陣,σv=5m/s2。目標運動狀態(位置、速度)為,目標的存活概率為pS,k=0.99,檢測概率pD,k=0.98。新生目標可用隨機有限集的形式來表達,包含的多目標概率密度集合為。
實驗中只在傳感器所有允許的控制方案內進行選擇。用xs,k=[xs,k,ys,k]T表示k時刻傳感器所處的位置,按照“一步預測”理念,用Uk+1表示下一時刻傳感器所有容許的位置集合,那么:

實驗中選擇NR=2,Nθ=8,因此共有17種可能的傳感器控制方案(包含傳感器在初始位置保持靜止的情況)。
仿真實驗中共選取五種傳感器控制方案進行對比,并且對每種方案分別進行100次蒙特卡羅仿真實驗。其中,方案一為“Stationary”控制方案,此方案令傳感器在初始位置始終保持靜默狀態。方案二為“Prior zigzag”控制方案,即傳感器按照預先設定好的軌跡運動。方案三為“Random control”控制方案,即在當前時刻中從傳感器所有允許的控制方案中隨機選取一種。方案四為“Proposed CS control”的方案,即基于GM-LMB濾波器,通過求解先驗、后驗概率密度之間的CS散度為目的的傳感器控制方案。方案五是“Proposed Threaten control”的方案,即通過計算各個時刻每個目標的TSM值,選取最大威脅度目標,從而實現以最大威脅度目標的信息增益最大化為傳感器控制準則的控制方案。實驗中選用OSPA距離來衡量多目標優化算法的跟蹤性能,設定c=100m,p=1。
根據構建的仿真場景,實驗中多目標的新生與消亡時刻、初始位置和速度等參數分別如表1所示。

表1 多目標參數
圖1給出了多目標真實運動軌跡及單次蒙特卡羅估計的跟蹤結果,總共有四個目標,其中目標新生、消亡時刻分別標注為方框和五角星。由圖可知,多目標整體跟蹤效果良好。

圖1 多目標運動軌跡圖
圖2為方案二“Prior zigzag”中傳感器運行軌跡圖,即傳感器按照圖中預先設定好的軌跡運行。圖3為多目標整體系統位置估計的OSPA距離圖,由上圖中可以看到,所提出的方案四、五的跟蹤精度明顯好于其余三種方案,同時,又以方案四效果最佳,這是因為“Proposed CS control”方案在跟蹤目標時優先考慮多目標系統的綜合信息增益,是以整體信息增益最大化為原則的控制方案。而“Proposed Threaten control”方案則只注重跟蹤威脅度較大的目標,沒有兼顧區域內其余威脅度較小的目標運動帶來的信息增益,因此對于系統所有目標跟蹤的性能不如方案四。綜上所述,“Proposed CS control”方案是針對系統整體跟蹤的最優傳感器控制算法。

圖2 方案二中傳感器運行軌跡圖

圖3 多目標整體系統位置估計OSPA距離圖
表2為在濾波更新過程中通過“去標簽化”偽更新后的傳感器控制方案和原始方法的平均運行時間對比,表3則為OSPA距離均值的對比。結合兩表數據,可以看出,在保證跟蹤精度性能的前提下,采取“去標簽”的偽更新方法,可以降低濾波過程的計算復雜度,提高運行效率。

表2 傳感器控制方案單次平均運行時間表

表3 OSPA距離均值對比
圖4為“Proposed CS control”方案的傳感器運行軌跡圖,是基于系統整體信息增益的控制方案。由上圖可知,隨時刻推移,傳感器運行軌跡趨勢會發生變化,這是因為在濾波過程中伴隨著目標的新生和消亡,會影響到跟蹤系統的整體信息增益,為了在每個時刻獲取最優的量測信息,傳感器會通過調整自身的位置,盡可能始終處于最佳的觀測位置,從而實現以信息增益最大化為準則的控制目的。

圖4 方案四中傳感器運行軌跡圖
圖5和圖6為基于威脅度目標的傳感器控制軌跡,其中叉號代表每個時刻威脅度最大的目標。

圖5 方案五中傳感器運行軌跡及最大威脅度目標圖

圖6 方案五中傳感器運行軌跡放大圖
在初始時刻,監控區域內只存在兩個目標,即目標一和目標二,目標一朝向遠離傳感器中心位置的方向移動,而目標二朝向傳感器中心位置運動,但由于運動目標速度與距離的因素影響,目標一的TSM函數值始終大于目標四,是監控區域內威脅度最大的目標。直至t=13s時,目標二隨時間推移,距離傳感器中心位置越來越近,取代目標一,成為場景中最大威脅度目標,傳感器調整自身位置開始朝向目標二運動。當t=31s時,目標二消亡,目標三威脅度變為最大,傳感器適時調整自身軌跡向目標三方向運動。而目標四由于朝向遠離傳感器中心的位置運動,且在每個時刻都存在威脅度大于其的目標,因此,在監控時刻內未有時刻成為最大威脅度目標。通過圖6,驗證了“Proposed Threaten control”方案的有效性。這種控制方案基于戰術重要性評估準則,考慮威脅度態勢,始終確保傳感器優先跟蹤威脅度最大的目標。
圖7為方案四“Proposed CS control”和方案五“Proposed Threaten control”針對最大威脅度目標跟蹤的OSPA距離對比圖,由圖可知,方案五是針對最大威脅度目標的最優控制方案,其跟蹤效果優于方案四,方案四則是針對系統整體的最優控制方案。這也驗證了在不同優先級目標跟蹤的復雜場景中,方案五具有更好的適用性,從而也說明了本章所提出的兩種傳感器控制方案在不同的多目標跟蹤任務規劃中都具有各自的優勢,針對不同的應用場景中選取合適的控制方案才能達到最優的效果。

圖7 基于最大威脅度目標的OSPA距離圖
五種傳感器控制方案對于目標勢(數目)的估計如圖8所示。由圖可知,所有方案對于目標勢估計的結果均都接近于真實目標數目,在目標新生或消亡的時刻,目標勢會發生短暫的偏差,隨后能迅速調整估計值。

圖8 多目標勢估計圖
本文的主要工作和創新點在于基于LMB濾波器,在信息驅動的傳感器控制框架下,通過提升量測信息獲取質量,最終實現濾波器跟蹤性能的進一步提高。首先,通過求取目標先驗、后驗概率密度函數之間的CS散度,詳細推導了評價函數解析解。然后,在多伯努利更新過程中采用“去標簽”化處理,通過偽更新步驟,大幅降低了計算量,并提高了運行速度。其次,通過計算戰術重要性評估指標——TSM函數,實現基于監控區域威脅度目標跟蹤的傳感器控制目的。最后,合理設立仿真場景,根據跟蹤要求的側重點不同,驗證了所提算法的有效性及實用性。