吳 莎,楊小軍
(長安大學 信息工程學院,陜西 西安 710064)
多目標跟蹤多傳感器技術無論在軍事領域還是在民事領域均有廣泛的應用,它可用于探測、跟蹤和攻擊、機器視覺等[1-2]。隨著目標的增多,多傳感器對于目標的跟蹤相較于單傳感器有著明顯的優勢,它對于目標信息的獲取有著重大的意義,提高了對目標狀態估計的精確性和系統的可信度。由于通信和計算的限制,需要把每個傳感器控制在適當的位置,使整個系統達到最優。那么對于諸多傳感器采取合適的決策成為必要解決的問題。在大多數目標跟蹤場景中,可以通過對傳感器的位置、方向等工作方式及參數進行調控而獲得不同的量測數據,從而提高傳感器檢測目標的能力和系統的估計性能,實現整體系統優化。
1997年隨機有限集(random finite set,RFS)的提出,避免了多目標跟蹤航跡關聯的復雜問題,它允許多傳感器多目標濾波適應統一的隨機集框架進行數據融合[3]。其最大優勢是可以將多目標跟蹤和傳感器控制統一描述為一個貝葉斯框架下部分可觀測的馬爾可夫決策過程(partially observed Markov decision process,POMDP)[4]。但RFS不能對目標進行唯一標識,進而Vo等學者在2013年提出帶標簽隨機有限集(labeled random finite set,LRFS)的概念,并且提出了廣義帶標簽的多伯努利(generalized labeled Multi-Bernoulli filter,GLMB)濾波器。δ-廣義帶標簽的多伯努利(δ-GLMB)和帶標簽的多伯努利(LMB)濾波器都是GLMB濾波器的特殊形式,GLMB和δ-GLMB因含有多組分量從而在迭代過程中呈指數形式增長導致計算復雜的問題,而LMB濾波器在定義中只包含一組組件,所以其在迭代過程中的假設分量呈線性增長,有效地解決了GLMB和δ-GLMB計算難的問題。由于LMB濾波器計算效率高,精確地產生目標航跡而得到廣泛應用。
多傳感器管理是通過優化決策對傳感器進行配置。評價函數是產生決策集的重要指標[5],評價函數可大致分為成本函數和回報函數:成本函數主要包括估計目標勢方差[6]、勢和狀態后驗期望誤差(PEECS)[7]、最優子模式分配(OSPA)距離[8]。成本函數在單目標跟蹤中能發揮其性能,但在多目標跟蹤中仍有一定挑戰。回報函數是基于信息論的,在目標跟蹤領域,基于信息論的傳感器控制的主要目的是為了通過與目標環境的相互作用以減少目標環境的不確定性,這種不確定性可以用信息熵來定性描述[9]。回報函數最常用一些信息散度,如Rényi散度、Kullback-Leibler(KL)散度和Cauchy-Schwarz(CS)散度。Hoang等人推導出兩種泊松點過程混合物的柯西-施瓦茨散度的封閉形式[10],因此與基于信息論的其他散度相比,CS散度在數學計算上更加簡單。文獻[11]的結果顯示CS和KL雖具有相似的計算趨勢,但CS的計算要快得多,特別是在維度高的情況下更高效,故選取CS散度作為評價函數對于多傳感器管理的研究更為合適。
對于多目標跟蹤多傳感器控制問題,傳感器的管理決策需要信息融合結果的支持,并通過對傳感器資源的合理調度來提高信息融合的質量和效率[12]。廣義交叉協方差(GCI)被廣泛地應用于分布式多傳感器多目標跟蹤中,但其存在標簽不一致的問題。在文獻[13-14]中解決此問題的方法是將目標的標簽在融合時去掉從而避免標簽不一致帶來的影響。未帶標簽的后驗密度進行GCI融合確實避免了標簽對GCI信息融合的影響,但是因為去掉了標簽而不能產生跟蹤軌跡,因此文獻[15]提出了魯棒GCI融合(R-GCI),保留后驗密度的標簽,在不丟失目標軌跡的情況下對信息進行融合但卻不會因標簽的錯誤匹配對GCI融合產生影響,通過融合后的密度使傳感器的數據得到有效結合,實現了對目標更好的估計[16]。
文中在LMB濾波器框架下,通過選用最優傳感器控制決策對目標進行更加精確的跟蹤。首先敘述了預備知識:LMB濾波器、Cauchy-Schwarz散度、R-GCI多目標密度融合準則;然后講述LMB濾波器和CS散度的SMC執行并給出多傳感器管理的具體算法步驟;最后通過仿真驗證了提出的算法的有效性。
LMB濾波器可以實現目標跟蹤的要求,首先,對RFS加入標簽將目標的狀態擴展為X={(xi,i)}(i=1,2,…,|X|),xi∈,i∈,為目標狀態空間,是標簽空間,|·|表示目標的勢。LMB RFS可以用參數{(r,p(·):∈)}完全表示,這里的r∈[0,1]是目標標簽的存在概率,p(·)是目標狀態的概率密度函數。LMB RFS密度如下:

(1)
其中:

(2)
(3)
(4)

CS散度是基于內積的柯西-施瓦茲不等式的對稱量測距離[18-19],其描述的是兩個密度函數f(x)和g(x)之間信息含量的差異性。CS散度的定義如下:
(5)
其中,f(X)和g(X)分別表示目標預測密度和目標后驗密度,上式的積分是集積分。
Hong等人在文獻[19]中提出泊松點過程的CS散度并證明了兩個泊松點過程之間的CS散度是它們各自強度函數之間距離的平方的一半,兩個泊松點過程的CS散度的公式表達為:
(6)
其中,G1和G2分別是泊松點過程預測密度和更新密度的強度函數,K表示單目標狀態的(超體積)測量單位。上述公式是計算兩個帶標簽多伯努利密度之間的CS散度的基礎,在第二部分會給出CS散度的具體計算。
Mahler提出次優的廣義交叉協方差(generalized covariance intersection,GCI)準則以解決最優融合準則在實際中計算昂貴且公共信息計算難的問題。GCI準則如下:
(7)
其中,ωi是恒定權重,表示在融合過程中強調傳感器i的強度。式(7)中的后驗密度是未帶標簽的,文獻[15]提出了帶標簽后驗密度的魯棒GCI融合準則。
文獻[15]先定義了多標簽的聯合條件概率密度:
(8)
帶標簽的融合后驗密度為:
(9)
(10)
(11)
多目標的狀態是由N個傳感器進行觀測,每個傳感器返回一組量測值,Zi是第i個傳感器返回的量測,量測空間為,設累積的量測集為:
Ik=(Z1,…,ZN)∈
(12)
多傳感器控制問題可以轉化為部分可觀測馬爾可夫決策過程(POMDP),POMDP定義為一個6元組:
Ψ={,,f(·|·),,g(·|·),R(u1,…,uN)}
(13)
在控制問題上,目標函數R(u1,…,uN)采用CS散度,CS散度是用預測和后驗多目標密度距離之間的關系表示的:
R(u1,…,uN)=DCS(π+,πs,u)
(14)
其中,π+是融合預測密度,πs,u是融合后驗密度。最優決策集是通過最大化目標函數的期望值:

(15)
文獻[20]中討論了三種抵消未來量測不確定性的方法,預測理想量測集(predicted ideal measurement set,PIMS)是其中能更好地產生傳感器管理決策的方法。故選用PIMS作為更新步驟中所需的假設量測。對于每個決策ui∈,利用每個狀態估計產生無噪聲和無雜波的量測,這樣的一組量測作為PIMS,用表示:
(16)

多目標后驗密度f(X|Z)可以通過一組隨機粒子Xj進行近似,每個粒子都有合適的權重。目標的帶標簽多伯努利密度π={r,p},目標的狀態密度p(x)可以用一組粒子集進行近似:
(17)
其中,J是目標采樣的粒子數目;ω是每個粒子的權重;δY(X)是狄利克雷函數,當X=Y時等于1,其他等于0。下面介紹LMB濾波器用SMC實現的預測和更新方程。
預測:在這里考慮目標的存活和新生兩種,所以LMB預測多目標密度的參數可以表示為:
(18)
其中:
(19)
(20)
ηS()=〈pS(·,),p(·)〉
(21)
更新:傳感器i將相應的控制決策u∈和理想量測集應用于濾波器更新,更新的LMB密度為:
(22)
根據文獻[22]得出的LMB更新方程,LMB密度的各個參數如下:
(23)
(24)
其中:
(25)
(26)
(27)
(28)
(29)


(30)
將式(29)帶入式(13)和式(14)中,用粒子表示融合參數:
(31)
(32)
(33)
結合上面LMB預測和更新方程對CS散度進行SMC執行。預測和更新的LMB強度函數為:
(34)

(35)
對多目標后驗分布最有效的近似是多目標分布的一階矩[22]。文獻[9]證明了關于兩個多伯努利強度函數的CS散度的公式表達,由此得出兩個LMB密度的CS散度公式:
(36)
根據δ函數的積分特性,回報函數為:
(37)
采用逼近之后,問題(15)最優決策的求解為:
(38)
其中,M是采樣的粒子數。
綜上所述,由于積分計算難的問題,采用SMC逼近融合密度和CS散度以對最優決策進行求解,問題(15)的算法總結如下。
算法1:濾波器迭代、融合和多傳感器控制算法。
Step1:根據式(14)~式(17)的預測步進行預測:預測
Step2:計算回報函數:
(1)對于每個粒子X(j)∈T和控制決策(u1,…,uN)∈,計算理想量測集:
(2)根據式(19)~式(25)更新LMB,并保存后驗參數和粒子:
(3)對于每個粒子X(j)∈T,每一個控制決策(u1,…,uN)∈的R-GCI融合:
(4)計算每個回報函數:DCS(π+,πu)→R(j)(u1,…,uN)。
求解最優問題(38)是對N個傳感器并行求解,這是一個NP難的問題,計算復雜度隨著傳感器個數的增加而呈指數增加,求解有很大的挑戰。而局部迭代搜索[23]是多項式難的問題,在實際中是可行的。故采用局部迭代搜索的方法尋找次優解。
算法2:局部迭代搜索算法。
Step1:選擇一組初始決策。



Step2:在初始解的鄰域內搜索更好的解。
(3)將余下的傳感器重復(1)、(2)的操作,直到所有的傳感器都重新選擇決策;
(4)對每一個傳感器的決策都進行選擇,直到窮舉完每個傳感器的最大決策數,選取使回報函數最大的決策集。



pB=diag([50; 50; 50; 50; 6(pi/180)]T)2。
傳感器測量的是具有噪聲的極坐標矢量形式:

其中,σD=10 000 m控制檢測概率的速率隨著范圍增大而減小。目標的存活概率pS,k(x)=0.98,單位體積的平均雜波數目λc=12。
傳感器平臺以8 m/s的恒定速度移動,但在預先指定的決策時間改變航向。每個傳感器允許的控制集合是ui=[-1800,-1500,…,00,…,1500,1800],樣本數量為M=103,測試場景由三個目標和兩個傳感器組成,觀測時間是60 s,用兩個傳感器對三個目標進行跟蹤,每個傳感器每隔10 s做一次決策,10 s內傳感器保持當前運動方向不變,每次時間末重新決策,考慮是否改變傳感器的運動方向,在仿真時間60 s內,每個傳感器共做6次決策。局部濾波器是LMB濾波器,每個節點的GCI融合權重選取0.5。

圖1 目標的真實運動軌跡
如圖1所示,目標的起始和結束分別用○和△符號表示,每個目標的出生和死亡時間不同,分別在圖中標注,圖中兩個傳感器所在位置為初始位置。

圖2 傳感器運動軌跡
如圖2所示,帶箭頭的線為兩個傳感器的運動軌跡;由圖可看出兩個傳感器靠近目標運動,可知,提出的控制方法可以做出傳感器靠近目標運動的正確決策。
如圖3所示,對目標的跟蹤性能,局部迭代的搜索法尋找的次優解與窮舉法的最優解的性能相近,而隨機決策對應的OSPA距離峰值時間滯后且誤差大。所以,當傳感器數量多且難以計算時,用局部迭代搜索法替代窮舉法是可行的。

圖3 OSPA距離對比
對多傳感器多目標跟蹤問題,文中提出一種多傳感器最優控制策略。選擇CS散度作為系統性能評價函數,通過最大化回報函數實現多個傳感器的最優控制。在隨機有限集框架下,采用LMB濾波器獲得多目標的航跡估計,并且基于保留標簽的R-GCI融合準則對多傳感器多目標航跡估計進行分布式融合。基于SMC逼近,得到多目標概率密度之間CS散度的數值求解,并且給出基于SMC的LMB濾波器和R-GCI融合地逼近執行。在此基礎上提出一種基于局部迭代搜索的傳感器控制策略的次優算法。后續工作包括尋找更加有效的多傳感器航跡融合方法和優化算法。