朱培坤 梁 菁 羅子涵 沈曉峰 (電子科技大學信息與通信工程學院 成都 611731)
認知雷達根據環境和目標的變化情況調整其操作和處理策略,可實現比常規雷達更好的目標檢測效果。這類雷達可以從自身經驗中學習和進化,是下一代目標檢測的重要研究方向。隨著現代科學技術的不斷發展,機動性更高、雷達散射面更小的目標越來越多,各種新的電磁干擾策略也應運而生。此外,雷達所在的地理工作環境復雜多變,如何在有限的能量、時間和頻譜資源[1,2]內根據目標和環境的變化合理自適應地設計發射波形、優化資源分配[3]是現代雷達面臨的挑戰。Haykin[4]最先提出認知雷達(Cognitive Radar,CR)的概念,與傳統的自適應雷達相比,CR的發射機可以利用接收機反饋的環境信息、現有知識和合適的準則自適應地設計[5]和發射波形。因此,它可以最大限度地提取非均勻環境中感興趣目標的信息,提高雷達在動態環境中的性能[6,7]。此后,各知名學者開始對認知雷達進行深入研究。Guerci[8]首先提出了認知全自適應雷達的理論框架,并結合知識輔助(Knowledge Aid,KA)和自適應發射[9]對該框架進行了改進。他最近全面概述了采用KA全自適應方法的認知雷達領域的最新發展[10]。Bell等人[11]提出了適用于目標探測和跟蹤場景的通用認知雷達系統模型,Smith和Metron創新集團聯合開發了認知雷達實驗平臺[12]。這些工作在認知雷達設計理論方面具有開創性和啟發性,而具體實用的認知雷達系統仍在研發路上。
一般來說,認知發射主要有兩個方式[13]來實現:最優波形設計和最優波形選擇。前者是基于雷達獲取的環境信息在線實時設計[14,15],但求最優解的過程往往比較復雜,計算復雜度難以滿足實時性要求。而最優波形選擇[16,17]是預先設計一個波形庫,按照一定的準則從中選擇一組最優的波形或波形參數。如在文獻[18]中,為了最大限度地提高雷達在惡劣環境下的運行性能,Clemente使用分數階傅里葉變換生成相位編碼庫波形,并分析它們的模糊度函數以量化所提出波形庫的有效性能。在頻譜擁擠的環境中,Zhao等人[19]提出了一種基于波形庫的方法來實現實時波形自適應,結果表明,所提出的波形庫在小尺度上具有較高的量化精度,并且生成的波形具有令人滿意的頻譜兼容性。在文獻[20]中,Nguyen提出了一種自適應波形選擇算法,通過最小化貝葉斯克拉美羅下界(Cramer-Rao Lower Bound,CRLB)獲得跟蹤成本函數,選擇最小化跟蹤均方誤差的波形進行目標跟蹤。針對機動目標跟蹤問題,Roman等人[21]在自適應雷達背景下,介紹了一種互信息準則函數來選擇最優波形參數,結果表明,該判據是自適應SAR系統中波形選擇的有效手段。Cao等人[22]提出了一種基于間接強化學習的自適應波形選擇算法,解決了目標狀態空間的不確定性問題。結果表明自適應波形選擇比傳統固定參數方法具有更好的計算效率和更小的狀態估計誤差,也提高了跟蹤精度。
現代目標形狀各異、機動性強,雷達工作的電磁環境也越來越復雜。然而,傳統雷達發射波形只有單一的波形,無法有效應對環境變化。此外,通過網格搜索最優波形參數的計算成本較高,且無法保證最優波形的實時性。鑒于此,我們采用IMM和自適應波形選擇的思想作為基礎工作,提出了一種新穎的認知雷達波形選擇框架,以改善高機動性目標跟蹤,如圖1所示。該框架基于IMM場景結合恒定速度(Constant Velocity),恒定加速度(Constant Acceleration)和協同轉彎(Coordinate Turn,CT)運動模型,將它們的濾波結果加權綜合得到近似預測誤差協方差。基于該波形選擇框架,設計了準則優化(Criterion-Based Optimization,CBO)和熵獎勵Q學習(Entropy Reward Q-Learning,ERQL)方法分別從以高斯線性調頻信號為例的波形庫中挑選最優發射波形參數,其中ERQL方法提出了一種基于行為獎懲的熵獎勵函數。發射器-目標-接收器形成一個閉環,發射波形參數與目標狀態變化實時迭代更新,以達到最佳目標跟蹤性能。

圖1 認知雷達波形選擇框架Fig.1 Cognitive radar waveform selection framework
該部分描述了目標運動模型的融合,并分析了波形對目標跟蹤的影響。
為簡單起見,本文研究了3種典型的機動目標運動模型,包括CV,CA和CT運動模型[23,24]。
目標模型是以下形式的離散時間動態運動模型:
其中,h(·)是量測函數,量測噪聲vk~N{vk;0,Rk}。各運動模型的狀態轉移矩陣Fk和高斯態噪聲wk將在附錄中展示。量測向量zk、量測函數h(·)和誤差協方差Rk將會各自展示在第4節和第2節。
對于加速度波動較大的目標,單模型方法無法匹配目標的實際運動狀態,跟蹤效果不理想。IMM作為一種多模型方法,可以同時使用多種不同形式的運動模型和噪聲來估計目標狀態,然后自適應地將各個模型的估計結果折衷,加權和作為最終的目標跟蹤結果。目前,它已成功應用于多個跟蹤系統[21]。本節采用CV,CA和CT模型作為IMM的模型集,算法流程如圖2所示。

圖2 以CV,CA和CT為模型的IMM流程圖Fig.2 IMM flow chart based on CV,CA and CT models
IMM目標跟蹤算法假設模型集中的模型轉移為1階馬爾可夫過程,具體算法流程如下:
首先,根據轉移概率矩陣和模型的先驗概率計算每個模型的預測概率:
其次,經過各運動模型的狀態輸入交互,即根據混合估計重新初始化目標狀態和協方差矩陣,如下:
然后,每個濾波器分別根據接收到的測量值zk進行卡爾曼濾波,更新各自對機動目標狀態的估計。此步驟對應于圖2中的CA,CV和CT模型濾波。
對于第i個模型,具體濾波過程如下:
(1) 根據k ?1時刻的狀態估計值和模型歸一化交互概率完成輸入交互,如式(5)和式(6)所示。
(2) 根據運動模型,單步預測目標狀態和誤差協方差矩陣:
(3) 根據k時刻的量測值,更新目標的狀態估計:
最后,融合濾波和交互輸出,假設新息服從正態分布,第i個模型的似然概率由式(14)給出:
結合式(3)的預測概率,更新模型i的有效概率:
因此,根據每個模型的概率,對目標狀態估計和誤差協方差進行加權融合,得到IMM濾波的最終估計結果:
本文考慮以下的雷達窄帶脈沖發射信號[25]:
其中,Re(·)表示取實部操作,ET為發射信號的能量,fc為載頻,為單位能量復包絡信號,且滿足:
其中,T是脈沖重復周期,那么雷達接收的單個點目標回波信號表示為
其中,ER表示接收信號的能量,φ為機動目標反射導致的隨機相移,τ為目標時延,v為機動目標徑向運動導致的多普勒平移,為接收的高斯白噪聲。
在目標跟蹤系統中,當接收信號信噪比足夠大,信號模糊函數的旁瓣可忽略時,目標時延-多普勒估計誤差可以達到CRLB,即CRLB量測噪聲協方差。該值與波形參數有關,從而建立了參數與跟蹤算法之間的聯系。
本文以高斯調頻信號[25]為例構建波形參數庫,其復包絡的表達式為
最后可得到高斯調頻信號的量測噪聲協方差的CRLB為
其中,η是信噪比。從式(24)可以看出,測量噪聲協方差與脈沖持續時間λ和線性調頻頻率b有關。因此,可以按照一定準則合理調整波形參數θk=[λ,b]T,有效提高跟蹤精度。
本節給出了兩個波形選擇準則:Max-MI和Min-MSE,如下所述。
在雷達領域中,假設量測值z和目標預測狀態x都是服從高斯分布的隨機變量,那么它們構成的誤差協方差矩陣為[27]
量測與目標預測狀態的互信息越大,雷達對目標狀態估計性能就越好,x和z的互信息可表示為
由于目標狀態的預測值與測量噪聲相互獨立,將Hk代入式(26)可得到zk和xk|k?1的互信息為
由于式(27)受到波形參數影響的僅有量測噪聲協方差矩陣Rk,且 log是單調遞增函數,所以基于最大互信息的波形參數選擇準則等效為
其中,Θ為所有波形參數θ組成的集合。又因為目標狀態的后驗協方差Pk|k的行列式可以表示為
其中,Pk|k?1與雷達發射波形參數θk無關,所以式(29)等價于:
式(27)和式(29)的詳細推導見附錄。因此,在最大互信息準則下,可通過尋找使得后驗估計誤差協方差行列式最小的波形參數作為最優參數。
最小均方誤差準則[28]是尋找使目標狀態估計在每一時刻的均方根誤差最小化的波形參數。其表達式為
在貝葉斯框架下的濾波器,目標狀態估計誤差協方差具有如下形式:
其中,εk|k(θk)=xk ?(θk)表示目標真實狀態與估計狀態的差值,對式(31)兩邊取跡可得
其中,式(33)的詳細推導詳見附錄。
因此,在最小均方誤差準則下的波形參數可以通過式(34)進行選擇:
即通過尋找使得后驗估計誤差協方差的跡最小的波形參數作為最優參數。
強化學習[29]和認知雷達波形參數選擇具有相似的交互學習過程。因此,基于RL的雷達波形參數選擇是認知雷達的研究熱點。然而,在目標跟蹤場景中,很難獲得狀態轉移的先驗知識,因此我們使用無模型方法來解決這個問題,Q-Learning (QL)方法是無模型方法的典型代表。在QL中,狀態動作對(s,a)的Q值被定義為期望的累積折扣獎勵,Q值可以根據式(35)[30]更新獲得:
其中,s∈S表示agent狀態,a∈A表示agent行為,α為學習率,γ∈[0,1]是折扣因子,rk是及時獎勵,其具體形式稍后給出。
經過足夠次數的迭代使Q表收斂,選擇最大Q值的行為作為最佳決策π?(s):
在單一CV,CA或CT場景下,雷達接收機貝葉斯濾波器估計目標狀態,將預測誤差協方差Pk+1|k+1反饋給雷達發射機,發射機根據指定的準則函數選擇最優波形參數。
但是這種單模型波形選擇策略在IMM算法中并不適用,主要原因有以下兩點:
(1) IMM模型集中單個模型的有效概率并不為1,而且會隨著濾波器的迭代而不斷更新,不能用單模型的預測誤差協方差替代目標的預測誤差協方差。
(2) 在k時刻,k+1時刻目標量測值zk+1無法預知,由式(17)可知,IMM算法的總體目標狀態估計誤差協方差Pk+1|k+1無法獲取,進而導致無法根據準則函數實現波形參數的選擇。
其中,Γ表示使估計誤差協方差矩陣單位一致的加權矩陣。該方法考慮了IMM集中的所有目標模型,將每個模型的預測誤差協方差與預測概率加權融合,得到IMM算法總體預測誤差協方差的近似,然后根據指定的判據函數完成波形參數的選取。
(1) 基于準則優化(CBO)方法
通過遍歷雷達波形庫的所有波形參數,根據CBO選取滿足準則的波形參數作為最優發射波形參數。例如,根據Min-MSE準則,選取使跡最小的波形參數作為k+1時刻的最優發射波形。
(2) 熵獎勵Q學習(ERQL)算法
在與目標交互的過程中,借助Q學習試錯學習機制得到一個波形參數選擇決策器。實現步驟如下:
首先,根據k時刻的狀態估計誤差協方差Pk|k評估雷達的跟蹤性能。評價標準是熵態,即
其中,ESk表示k時刻的熵,通過比較k?1時刻的熵和k時刻的熵來獎勵k時刻發出的波形參數θk,設計的獎勵函數如下:

圖3 波形選擇框圖Fig.3 Waveform selection block diagram

表1 CBO/ERQL算法Tab.1 CBO/ERQL algorithm
其中,sign(·)是符號函數。當熵在時間k小于時間k ?1時,波形導致估計不確定性減小,得到積極獎勵;否則,給予負懲罰。
然后,通過式(38)和式(39)計算實時獎勵rk,并根據式(35)更新Q表。
最后,選擇最大Q值的行為作為最佳決策,得到k+1時刻的最優波形選擇策略
本節以一個IMM目標跟蹤仿真實例為例,驗證所提方法的有效性。假設認知雷達位于坐標原點,機動目標初始位置位于(3000,3000) m,初始速度大小為(0.1,0.1) m/s,其運動軌跡分為3個階段,如圖4所示。機動目標運動總時長為 50 s,采樣間隔?t=0.1s。在0~20 s,目標做 10 m/s2的勻加速運動;在21~40 s,目標做轉彎率為?0.35 rad/s的恒轉彎率運動;在41~50 s,目標做勻速運動。雷達載頻fc=10.4GHz,噪聲系數σCV=σCA=σCT=0.01。

圖4 機動目標運動軌跡Fig.4 Trajectory of maneuvering target
分別表示徑向距離、徑向速度和徑向角度的量測值。其中,[xr,yr]代表雷達的位置。
其中,信噪比η被定義為
其中,RTx=RRx,R0是雷達接收目標回波信噪比為0 dB時的距離,此時RTx=R0,仿真實驗設置R0為7000 m。
本文采用高斯調頻脈沖構建的波形參數庫如下:
其中,波形參數取值的步長設置為:?λ=10?8s,?b=2×1011Hz/s。
IMM算法中各模型間的概率轉移矩陣設置為
本實驗在設定的情境下進行了100次蒙特卡羅仿真,為了分析不同準則函數基于IMM波形參數選擇算法的性能,制定了以下3個性能指標:
(1) 目標狀態估計均方根誤差(Root Means Square Error,RMSE),以目標位置為例:
(2) 目標狀態估計均方根誤差的均值(Average Value of Root Means Square Error,ARMSE),以目標位置為例:
(3) 熵態(Entropic State,ES),熵定義為目標狀態估計誤差協方差的香農熵,可以用來衡量目標整體狀態估計的不確定性,其表達式為
由于 log函數為單調函數,所以熵態可簡化為
其中,n表示第n次蒙特卡羅仿真,N為蒙特卡羅仿真的次數,M為目標跟蹤過程中的采樣點數。
仿真實驗對所提出的ERQL方法和CBO方法進行了仿真,并采用固定波形參數(Fixed-P)方法作為跟蹤性能比較,固定波形的參數是從波形庫中選擇的一組最佳跟蹤性能參數。
在目標跟蹤過程中,CA,CT和CV的有效概率變化曲線分別如圖5(a)、圖5(b)和圖5(c)所示。如3幅圖中紅色虛線框所示,分別對應圖4中運動軌跡的3個階段。所提出的方法可以在目標的3個運動階段中以最大概率選擇對應的運動模型,圖中,曲線ERQL-10和ERQL-40分別表示使用ERQL方法單步預測10次和40次。所提出方法與Fixed-P方法相比,可以提高模型與目標軌跡匹配的有效概率。其中,Min-MSE方法表現最好,在每個階段都能以最高的概率匹配到正確的目標運動模型,這也是Min-MSE方法在目標跟蹤中誤差最小的原因之一。

圖5 各運動模型在不同運動階段被選擇的概率Fig.5 Probability of each motion model being selected in different motion stages
限于篇幅,位置和速度的RMSE以X軸為例。圖6給出了波形參數選擇策略對目標位置跟蹤的RMSE變化曲線。可以看出,與Fixed-P方法相比,所提出的Min-MSE,Max-MI和ERQL波形參數選擇方法可以有效提高雷達目標位置的跟蹤精度;Min-MSE和Max-MI方法在目標跟蹤中的RMSE幾乎相同。同時,還可以看到ERQL方法單步預測的次數越多,跟蹤性能越好,但隨著目標距離的增加,CBO的跟蹤性能優于ERQL方法。

圖6 目標位置跟蹤RMSE曲線(X軸)Fig.6 Target position tracking RMSE curve (X axis)
5種波形參數選擇策略下目標速度的RMSE曲線如圖7所示。從圖中可以看出,基于CBO和ERQL方法的波形參數動態調整可以有效提高雷達目標速度估計精度。在21~40 s期間,機動目標處于CT運動階段,速度變化較大,導致雷達目標速度估計出現較大波動。而本文提出的方法對波形參數進行動態調整,可以有效減小這種波動,提高系統跟蹤的穩定性。當目標離雷達較近時,CBO和ERQL方法在目標速度估計上的誤差相似,但隨著目標的遠離,CBO的跟蹤精度優于ERQL方法。

圖7 目標速度跟蹤RMSE曲線(X軸)Fig.7 Target velocity tracking RMSE curve (X axis)
表2顯示了各波形參數選擇方法的位置和速度ARMSE比較。其中,和分別表示X軸和Y軸的位置跟蹤ARMSE,和分別表示X軸和Y軸的速度跟蹤ARMSE。可以看出,CBO和ERQL方法與Fixed-P方法相比,目標跟蹤性能有了顯著提高。其中,Min-MSE的性能最好,Min-MSE與Fixed-P相比,X軸和Y軸位置跟蹤誤差分別降低了23.38%和24.04%,X軸和Y軸速度跟蹤誤差分別降低了47.92%和52.93%。ERQL-40與Fixed-P相比,X軸和Y軸位置跟蹤誤差分別降低了21.05%和22.08%,X軸和Y軸速度跟蹤誤差分別降低了40.63%和43.41%。表2也清楚地表明,CBO的跟蹤性能優于ERQL方法,ERQL-40的跟蹤性能優于ERQL-10。

表2 不同方法的ARMSE對比結果Tab.2 ARMSE comparison results of different methods
圖8和圖9是目標跟蹤波形參數變化曲線結果。從圖8可以看出,CBO更愿意選擇較大的脈沖持續時間,在運動軌跡變換時,選擇較小的脈沖持續時間以提高雷達對目標位置的估計精度。但是ERQL方法的脈沖持續時間在整個目標跟蹤期間變化不大,只是在CT運動階段脈沖持續時間有較大的波動來應對目標的變化。對于調頻斜率的變化,從圖9可以看出,在整個運動過程中,Max-MI總是選擇較大的調頻斜率,而ERQL方法選擇較小的調頻斜率,兩種方法在整個目標運動過程中調頻斜率變化不大。而Min-MSE方法在目標改變運動軌跡時,線性調頻率有較大變化,其也是Min-MSE的跟蹤性能最好的原因。

圖8 目標跟蹤脈沖持續時間變化曲線Fig.8 Target tracking pulse duration variation curve

圖9 目標跟蹤調頻斜率變化曲線Fig.9 Target tracking frequency modulation slope variation curve
熵態變化曲線如圖10所示,從整體熵態變化的角度,比較了各種方法下的雷達目標的跟蹤性能。可以看到在自適應調整波形參數后,CBO和ERQL方法與Fixed-P方法相比顯著降低了熵態大小。不同波形挑選方法的熵態變化規律類似于圖6,即在目標距離雷達較近時,CBO和ERQL-40方法的熵態沒有明顯區別,但隨著目標的遠離,CBO方法的跟蹤性能更好。

圖10 目標跟蹤熵態變化曲線Fig.10 Target tracking entropy state variation curve
由上面分析可知,CBO方法的目標跟蹤精度最高,ERQL方法次之。但CBO方法是通過網格搜索實現的。它會遍歷波形庫中的所有參數來尋找最優的波形參數,所以這種方法非常耗時。圖11顯示了各種波形參數選擇算法的平均耗時結果。可以看到,在相同的跟蹤條件下,CBO方法所需的CPU時間約為ERQL-10方法的22倍,ERQL-40方法的7倍,Fixed-P方法的84倍。

圖11 各波形參數選擇算法的平均耗時結果Fig.11 The average time-consuming results of each waveform parameter selection algorithm
為進一步驗證ERQL方法的性能,又分別進行了單步預測多次的ERQL實驗,實驗對比結果如表3所示。以X軸位置跟蹤為例,雖然Min-MSE方法相比Fixed-P方法的跟蹤精度更高,但是Min-MSE方法的CPU時間是Fixed-P方法的84倍,而ERQL-40方法僅為Fixed-P方法的11.8倍。為了獲得較高的跟蹤精度,CBO遍歷參數庫的時間成本是非常巨大的。然而,ERQL方法通過單步預測與更新,不僅保證了目標跟蹤性能,而且顯著減少了波形參數選擇過程的計算時間。表3還列出了各種預測次數的ERQL方法對目標跟蹤性能的改進。可以看出,當需要更高的跟蹤性能并考慮時間成本時,ERQL-40是最佳選擇。

表3 CBO和ERQL方法相比于Fixed-P方法的跟蹤性能改善與CPU時間比較(%)Tab.3 CBO and ERQL methods compared with Fixed-P methods for improved tracking performance and CPU time (%)
為了提高機動目標的跟蹤精度,本文提出了一種認知雷達波形選擇框架。并基于該框架設計了基于準則優化(CBO)或熵獎勵Q學習(ERQL)方法以迭代智能地挑選波形參數,將雷達發射機-目標-雷達接收機集合成一個閉環結構。結果表明,CBO方法雖然具有較高的跟蹤精度,但其計算時間約為固定參數(Fixed-P)方法的84倍。當對跟蹤性能和時間成本有更高要求時,單步預測40次的ERQL方法是最好的選擇。與Fixed-P方法相比,ERQL-40比CBO節省約71.8倍的時間,對目標位置和速度的跟蹤精度分別提高了21.05%和40.63%。未來的工作將改進強化學習和卡爾曼濾波器,以進一步提高跟蹤性能。
附錄
CV,CA,CT的狀態轉移矩陣Fk分別為
其中,T為測量數據的采樣周期。
CV,CA,CT的高斯態噪聲wk的協方差Qk分 別為
式(27)的詳細推導為
式(29)的詳細推導為
式(33)的詳細推導為