999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

考慮綜合性能最優的非短視快速天基雷達多目標跟蹤資源調度算法

2024-01-21 13:16:12王增福楊廣宇金術玲
雷達學報 2024年1期
關鍵詞:動作資源

王增福 楊廣宇 金術玲

①(西北工業大學自動化學院 西安 710072)

②(中國電子科技集團公司第三十八研究所 合肥 230088)

1 引言

天基雷達具有全天時、全天候的陸、海、空、天目標探測能力,可有效彌補現有預警系統的不足。但對于目標搜索、跟蹤等復雜多任務需求,天基雷達系統資源十分有限。合理高效的資源調度是提升天基雷達性能的關鍵技術之一,面臨著任務復雜、資源約束復雜、目標不確定等問題。如何統籌分配天基雷達系統資源,如輻射功率、駐留時間等,以最大限度滿足系統任務需求,成為目前亟需解決的問題。

雷達資源調度問題是系統資源配置約束下的優化問題。其中,目標函數的構建至關重要。根據不同應用場景選擇合理的目標函數可以保證資源調度的充分性,其通常考慮兩方面準則:跟蹤性能最大化準則和低截獲概率(Low Probability of Intercept,LPI)性能最大化準則。文獻[1]以預測條件克拉默-拉奧下界(Predicted Conditional-Cramér-Rao Lower Bound,PC-CRLB)為優化性能指標,基于兩步半正定規劃方法,提出了一種聯合節點選擇和功率分配策略。文獻[2]面向相控陣雷達組網多目標跟蹤問題,為最小化雷達資源消耗,采用后驗克拉默-拉奧下界(Posterior Cramér-Rao Lower Bound,PCRLB)量化跟蹤性能,提出了一種優化的資源分配策略。與統一分配資源方法相比,所提策略可以利用更少的資源實現預期性能。文獻[3]將PCRLB作為目標跟蹤性能指標,利用兩步法求解建立的非凸優化問題,提出了一種在非理想檢測環境下用于多基地雷達系統多目標跟蹤的聯合節點選擇和功率分配策略。文獻[4]針對共址多輸入多輸出(Multiple Input Multiple Output,MIMO)雷達中的機動目標跟蹤任務,以PC-CRLB為優化性能指標,提出了一種功率分配策略,以提高機動目標跟蹤性能。文獻[5]以多目標跟蹤誤差效用函數為優化目標,利用基于分區的三階段法和梯度投影法,提出了一種聯合在線航路規劃和資源優化策略,以提高多目標跟蹤能力。文獻[6]針對雷達組網目標跟蹤,以LPI為優化準則,通過優化雷達網絡中的重訪間隔、駐留時間和發射功率,提出了一種自適應資源管理方法。文獻[7]為解決分布式相控陣雷達網絡目標跟蹤問題,分別采用PC-CRLB和攔截概率作為目標跟蹤精度和LPI性能指標,利用優化技術協同各雷達節點的發射功率、駐留時間、波形帶寬和脈沖寬度,提出了一種聯合發射資源管理和波形選擇策略,以提高雷達網絡的目標跟蹤精度和LPI性能。

在面向動態系統的優化控制中,通過僅考慮一個預測步驟優化目標函數的方法稱為短視或貪婪策略,而考慮未來多步的方法稱為非短視策略[8,9]。文獻[1-7]的調度策略均為短視策略。考慮到雷達多目標跟蹤中大部分目標為非合作目標,量測不確定,以及當前決策對更長遠未來的影響,可引入有限長時折扣的序貫決策模型框架,將雷達資源調度問題建模為部分可觀測的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP),實現非短視雷達資源分配。與短視策略相同,非短視策略通過計算動作對目標函數的影響來評估每個可用動作;不同的是,其目標函數綜合了未來一系列動作,具有提高資源分配效能的優勢[10]。

文獻[11]考慮單平臺多傳感器目標感知,采用POMDP對問題建模,通過序貫貝葉斯推理計算目標信念狀態,使用貪心算法優化雷達資源配置。文獻[12]將多模式傳感器管理問題轉換為多變量POMDP的雷達調度問題,提出了用于估計最佳多線性閾值策略的隨機近似算法,計算出調度策略以確定被選目標以及持續時間使得代價函數最小化。文獻[13]考慮了存在干擾機時跟蹤多目標的認知雷達資源管理問題,將其表述為基于混合POMDP的博弈模型,提出了一種低復雜度的聯合優化算法計算雷達最優抗干擾策略。

實際問題中,資源分配可能會受到多種約束限制,其中約束代表所有任務的可用資源限度,需要采用受約束的POMDP對資源調度問題進行建模。文獻[14]提出了一種在跟蹤精度約束下最小化輻射代價的非短視調度,其采用POMDP建模資源調度問題,通過PCRLB和隱馬爾可夫模型濾波器分別預測未來有限時間范圍內的跟蹤精度和輻射代價,最后利用分支定界剪枝算法實現資源調度優化。在基于POMDP的多目標跟蹤的資源調度問題中,通常面臨著維數爆炸問題[15]。利用拉格朗日松弛法(Lagrangian Relaxation,LR)可將此類問題解耦為更易解決的子問題[16,17]。例如,文獻[18]使用LR將整數規劃形式的多目標跟蹤調度問題解耦為多個可以快速求解的單目標POMDP問題,提出了基于拉格朗日對偶問題的可行解構造方法。

鑒于POMDP的廣泛應用,其求解方法得到廣泛關注。中小規模POMDP問題可通過眾多離線算法求解[19]。對于大規模POMDP問題,目前已提出基于離線和在線采樣的方法。文獻[20]提出的基于點的值迭代(Point-Based Value Iteration,PBVI)算法在具有數百個狀態的問題上表現出良好性能。后續的Perseus、啟發式搜索值迭代(Heuristic Search Value Iteration,HSVI)、SARSOP (Successive Approximations of the Reachable Space under Optimal Policies)等離線策略在速度以及最優性上逐步提升[19,21,22]。在線方法通常由前向搜索組成,以找到各時間步內可執行的最佳動作,通過計算較好的局部策略來減輕計算復雜度,主要方法為分支定界剪枝,蒙特卡羅采樣以及啟發式搜索算法等[23]。其中,POMCP (Partially Observable Monte Carlo Planning)[24]是一種基于蒙特卡羅采樣的在線算法,使用廣泛,其基本框架為蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS)。MCTS依賴于信念的粒子表示,采用粒子濾波來更新信念,可使POMCP類算法應用于具有非常大甚至連續狀態空間的POMDP問題。雖然已提出DESPOT(DEterminized Sparse Partially Observable Tree)[25],ABT (Adaptive Belief Tree)[26]等算法,但仍然需要通用的在線POMDP求解算法來解決連續空間,尤其是連續觀測空間下的POMDP問題。對此,帶有觀測加寬的部分可觀測的蒙特卡羅規劃(Partially Observable Monte Carlo Planning with Observation Widening,POMCPOW)算法[27]使用雙漸進加寬(Double Progressive Widening,DPW)來逐步增加需要考慮的觀測集合,本質上利用觀測采樣逐步離散化觀測空間,是一種有效的求解算法。

上述研究成果為解決天基雷達資源調度問題奠定了良好基礎。然而,現有研究主要考慮地基、空基雷達,面向天基雷達的資源調度問題鮮有研究;同時,建立POMDP框架后的解決方法多以離線算法為主,計算量大,難以適應當下和未來的資源調度問題;鑒于天基雷達系統存在約束復雜、狀態與動作、觀測空間連續等特性,需研究更合理的求解方法。如圖1所示,本文面向天基雷達多目標跟蹤任務,基于POMDP,綜合考慮目標威脅度、跟蹤精度、LPI性能指標,以平均輻射功率、相參積累時間為待優化變量,建立合理準確的雷達資源調度模型;在此基礎上,通過LR將帶有約束的多目標POMDP問題分解為多個單目標的POMDP問題;針對連續的狀態、動作以及觀測空間,基于MCTS,采用POMCPOW算法近似求解,最終提出了基于LR-POMCPOW的天基雷達多目標跟蹤資源調度方法,并通過仿真驗證了所提方法的有效性。

圖1 基于LR-POMCPOW的天基雷達多目標跟蹤資源調度方法框圖Fig.1 Schematic diagram of the proposed LR-POMCPOW for resource scheduling of space-based radar multi-target tracking

2 建模與問題描述

2.1 目標運動模型

考慮單基地天基雷達多目標跟蹤應用場景。設定雷達可視區域內共有I個運動目標。記離散時刻為k(k=1,2,...,U),跟蹤采樣間隔為T。記k時刻目標i在地心地固(Earth-Centered,Earth-Fixed,ECEF)坐標系下的運動狀態向量為不失一般性,假設目標 做勻速直線(Constant Velocity,CV)運動。目標i的運動模型為

其中,狀態轉移矩陣Fi,k為

式(1)中,w i,k為零均值高斯白噪聲,其協方差矩陣為

2.2 雷達量測模型

考慮天基雷達采用共址MIMO體制,執行多目標跟蹤任務時可利用同時多波束機制,使不同發射波束指向不同目標,實現同一區域內多目標同時跟蹤。雷達量測包括徑向距、方位角與俯仰角。記k+1時刻關于目標i的量測向量為yi,k+1=[ri,k+1θi,k+1φi,k+1]T。量測方程為

其中,h(·)的具體形式涉及多次坐標轉換,可參見GB/T 32296-2015;vi,k+1為零均值高斯白噪聲,其協方差矩陣為Ri,k+1,可表示為[28,29]

其中,c1為電磁波傳播速度,υk+1為k+1時刻的脈沖寬度,c2為給定常數值,一般可取為1.57[30],ρθ,ρφ分別表示方位向、俯仰向的往返波束寬度,SNRi,k+1為k+1時刻目標i的信噪比,建模方法如下。

相參體制下,單基地雷達方程為

其中,Rmax為雷達最大作用距離,pav為平均輻射功率,G為天線增益,為雷達工作波長,σ為雷達目標橫截面積(Radar Cross Section,RCS),LΣ為雷達系統總損耗,主要包括發射支路損耗、大氣損耗、電離層損耗、天線防護損耗、波束形狀損耗、處理損耗等,k為玻爾茲曼常數,T0為標準溫度(290 K),kT0=4×10-21W/Hz,Fn為接收機噪聲系數,τ為相參積累時間,(SNR)min為多普勒濾波器輸出的最小可檢測信噪比。

由式(5)可看到,信噪比與雷達平均輻射功率、目標RCS、相參積累時間成正相關。由文獻[31]可得,k+1時刻目標i的期望信噪比SNRi,k+1與雷達、目標參數的關系式為

其中,SNR0,pav,0,σ0,τ0,r0分別為參考目標的信噪比、發射機平均輻射功率、RCS、相參積累時間、雷達與參考目標的相對距離,分別為k+1時刻目標i的預測方位角和俯仰角。

2.3 POMDP模型構建

受目標運動系統噪聲、雷達量測噪聲等多種隨機噪聲以及量測方程式(4)的非線性等因素的影響,天基雷達多目標跟蹤過程是典型的部分可觀的隨機動態系統,其資源調度是一類典型的非完美狀態信息下的動態規劃問題。POMDP為該類問題提供了強有力的建模框架。為此,本節采用POMDP框架,對天基雷達多目標跟蹤資源調度進行建模。

本文考慮在兩個不同時間尺度上完成天基雷達的資源調度。在微觀尺度上(即一段調度間隔內)進行雷達對多目標的跟蹤,在宏觀尺度上完成雷達在有限時長上的資源調度。具體的,離散跟蹤時刻為k,調度間隔為u(T≤u≤U),其為跟蹤采樣間隔T的整數倍,每經過一次調度間隔u,系統進行雷達資源的調度。在執行第l(l=1,2,...,L)次調度時,經調度算法求取的動作在接下來的微觀尺度內保持不變,用于此調度間隔內的目標跟蹤,直到下一次調度時刻到來時進行更新。從而,天基雷達多目標跟蹤資源調度的POMDP模型可表示為7元組<X,A,Z,Y,W,c,γ>,具體含義如下:

(1)X:狀態空間,系統所有的可能狀態集合。在執行第l次調度時,目標運動狀態為xl。基于目標運動狀態和雷達量測,信念狀態定義了目標運動狀態的概率分布,表示為bl。

(2)A:動作空間,對系統可以實施的動作集合。在執行第l次調度時,選取連續動作向量為al=[τl pav,l]T,其中,τl為雷達波束在目標處的相參積累時間,考慮到天基平臺能量受限,pav,l為單位時間內雷達用于目標跟蹤的平均輻射功率。

(3)Z:X×A ∈Π(χ),狀態轉移函數,即給定系統狀態和動作后關于系統狀態轉移的概率分布函數。在執行第l次調度時,當系統狀態處于xl時采取動作al后轉移到狀態xl+1的概率為Pr(xl+1|xl,al),其中xl,xl+1∈X。假設狀態具有馬爾可夫性。

(4)Y:觀測空間,系統量測值的集合。在執行第l次調度時,獲取的量測值定義為yl。

(5)W:X×A ∈Π(Y),量測分布函數,采取動作al后狀態轉移至xl+1后的量測值為yl+1,其分布函數記為Pr(yl+1|xl+1,al)。

(6)c:X×A →R,代價函數,狀態xl下選擇動作al后的代價函數值為c(xl,al),xl ∈X,al ∈A。

(7)γ:折扣因子。

在執行第l(l=1,2,...,L)次調度后,需要對目標信念狀態bl進行更新。當執行動作al,并得到量測yl+1時,采用貝葉斯準則更新信念狀態,更新后的信念狀態為

其中,Pr(yl+1|bl(xl),al)為歸一化因子。

2.4 約束條件

根據天基雷達工作特性,考慮如下約束:

(1) 由于衛星平臺的定軌和高速運動特性,天基雷達需運行在目標附近的星下點軌跡段以開展目標跟蹤任務。從而,對一定區域內的目標,只在固定時段存在可見關系。由此,可設定可見時間窗口為[tstart,tend]。假設天基雷達運行至窗口起始時刻tstart開始工作,但跟蹤任務結束時刻應不晚于tend。在可見時間窗口內,調度結束時間應早于可見時間窗口結束時間,即:

其中,tend-tstart為衛星與目標的可見時間間隔,雷達資源總調度時長為Lu。

(2) 在第l次調度時,用于不同目標跟蹤的平均輻射功率pav,i,l之和不大于雷達跟蹤消耗的總能量E與可見時間窗口內跟蹤總時長U(U≤(tend-tstart)/T)的比值,即:

(3) 在第l次調度時,各跟蹤任務的相參積累時間與采樣時間間隔比值之和不大于規定的預算比,便于雷達在采樣時間間隔T內可執行其他任務,即:

2.5 目標函數

在設計目標函數時考慮如下3個方面:雷達對目標進行有效的威脅度區分;最小化目標跟蹤誤差;雷達在可見時間窗口內用于目標跟蹤的能量最小化,從而降低截獲概率。為此,第l次調度時,定義目標i的綜合代價函數c(xi,l,ai,l)為

其中,ω1,ω2分別是跟蹤預測誤差代價函數以及能量代價函數的權重。令c(bi,l,ai,l)表 示信念狀態bi,l下的期望代價。接下來詳細介紹式(11)的計算方法。

令φ(xi,l)表示目標i的威脅度函數,取值范圍為[0,1],不失一般性,假設其與目標i在第l次調度時的狀態xi,l有關,φ值越大,目標威脅度越高。對高威脅度目標,雷達可分配更多資源用于收集目標信息。本文采用目標i相對于受保護對象j時間、距離的最接近點(Closest Point of Approach,CPA)計算其威脅度[32]。目標i對受保護對象j構成的威脅取決于目標i可以多快以及多近地接近受保護對象j。受保護對象j在第l次調度時狀態為相對運動狀態則定義時間最接近點為[32]

距離最接近點為[32]

利用sigmoid函數,目標i對對象j的威脅度可計算為[32]

其中,t1<t0.5<t0,d1<d0.5<d0,下標表示威脅度值φ分別為1,0.5,0。令φ(xi,l)=gtimeφtime(xi,l;·)+gdistanceφdistance(xi,l;·),其中,gtime≥0,gdistance≥0,gtime+gdistance=1。

Tr(Pi,l+1(ai,l))是l+1時刻跟蹤目標i的(預測的)狀態誤差協方差矩陣的跡,選用該指標可以衡量雷達跟蹤精度性能。具體計算可參見PEKF-VB(Proximal Extended Kalman Filter-Variational Bayes)算法的相應步驟[33]。

u·pav,i,l是雷達在單次資源調度間隔u內消耗在跟蹤目標i上的能量。考慮u不變,則系統消耗能量與輻射功率成正相關。本文選用系統消耗能量作為LPI性能指標[34]。一般利用截獲概率表示雷達LPI性能,目標i對雷達發射信號的截獲概率可表示為[6]

其中,pfa為攔截接收器的虛警概率,Gt為雷達發射天線在攔截器方向的增益,GI為攔截器天線增益,GIP為攔截器處理增益,BI表示攔截接收器的帶寬,FI表示攔截接收器噪聲系數,函數erfc(x)為

式(16)中,徑向距離ri,l為量測分量,無需進行優化,則輻射功率pav,i,l與截獲概率成正相關,從而LPI性能與功率分配密切相關。每經過一次調度間隔u,可將雷達的目標跟蹤信息通過中繼衛星或者直接傳送至地面站中心,進行資源調度分析。

2.6 問題聲明

在上述目標運動模型、雷達量測模型、POMDP模型、代價函數的基礎上,保持微觀尺度下的目標跟蹤,則宏觀尺度下的天基雷達多目標跟蹤資源調度可描述為:給定系統初始狀態,在滿足資源約束條件的基礎上,確定最優的可容許確定性策略,使得有限時間下期望的累積多目標總代價函數最小,即:

3 基于LR-POMCPOW的天基雷達多目標跟蹤資源調度

針對式(17),本節采用LR方法將帶有約束的動態規劃問題轉換為無約束的動態規劃問題,然后將由I個目標構成的高維無約束動態規劃問題分解為I個由單目標構成的一維無約束動態規劃子問題。考慮到連續狀態空間、連續動作空間及連續觀測空間引起的維數災難問題,采用基于MCTS的POMCPOW算法,最終給出了一種綜合多指標性能的非短視快速天基雷達多目標跟蹤資源調度算法。

3.1 拉格朗日松弛

優化問題式(17)帶有多個約束,因此需要在最小化累積多目標總代價函數的同時滿足約束條件。首先,引入拉格朗日乘子向量Λ=[λ1λ2...λL]T對式(17)進行拉格朗日松弛,其中,λl=[λ1,l λ2,l]≥0(注意到,式(8)并不包含動作向量a的任一分量,因此不需要對該約束構造拉格朗日乘子)。然后,構建拉格朗日對偶函數JL(B1,Λ),即:

(1) 對于任意Λ≥0,B1∈BI,JL(B1,Λ)≤V*(B1);

(2) 當Λ≥0,JL(B1,Λ)是分段線性凹的;

因此,JL(B1,Λ)可作為性能下界來評估原始優化式(17)可行策略的質量。可計算得到拉格朗日對偶函數最大值,其與V*(B1)間隙最小。即求解下列拉格朗日對偶問題,

注意到,拉格朗日對偶問題為凸優化問題。

給定拉格朗日乘子λl,結合式(11)重新定義第l次調度時目標i的綜合代價函數為C(bi,l,ai,l,λl)=c(bi,l,ai,l)+λ1,lpav,i,l+λ2,lτi,l/T,則對于?B1∈BI,JL(B1,Λ)可寫成:

3.2 基于LR-POMCPOW的非短視快速天基雷達多目標跟蹤資源調度算法

建立LR后,可基于次梯度法求解拉格朗日對偶問題式(19)。其中,的計算是關鍵。由2.3節可知,各目標的累積總代價函數優化模型表現出狀態空間、動作空間、觀測空間連續的特點。但即便是有限時間的POMDP問題也是PSPACEhard的,這表明離線精確算法不可用于會出現維數災難的問題,而基于MCTS的在線近似算法已被證明可解決大規模狀態空間的POMDP問題[24]。因此,接下來采用MCTS優化計算過程如圖2所示。為方便起見,省略區分各目標的下標i。具體過程說明如下。

圖2 蒙特卡羅樹搜索算法的過程Fig.2 The process of the MCTS algorithm

首先在一次蒙特卡羅模擬中,給定初始信念狀態b1作為樹的根節點,往下延伸出的子節點表示可選動作a,利用UCB (Upper Confidence Bound)公式計算各動作節點的UCB值。注意到優化目標是最小化累積總代價函數,找出UCB值最小的動作節點并由此節點出發繼續向下擴展。但如果信念狀態節點存在未探索的動作節點,則從未探索動作節點中隨機選取一個節點。在選定的動作節點下獲取量測y作為分支,并根據信念狀態更新式(7)得到下一時刻的信念狀態節點,圖中顯示為節點b2。在多目標跟蹤中,可通過執行b2步預測得到下一調度時刻的信念狀態。此時若節點b2存在子節點,則繼續重復上述過程直至樹的層數達到最大深度d;若節點b2是新擴展的節點,則利用rollout算法,以默認策略向下計算d步。模擬結束后,該節點的父節點直至根節點的路徑上所有節點都會根據本次模擬的結果重新計算代價估計值。當達到最大迭代次數后,選擇根節點b1下最優的動作節點a*作為本次調度結果,同時求出對應量測以及更新的信念狀態,并對根節點以下的其余節點及分支進行裁剪。由于優化時長為L,以本次調度的最優動作下更新的信念狀態節點為新的根節點,重復L次后結束,則可行策略π*可由根節點通往路徑末尾處的葉節點的最優動作集表示。

基于MCTS的常見在線近似算法雖然可行,但分析可知,如果觀測空間連續且量測分布函數是給定的,則兩次采樣得到相同量測的概率為零,因此MCTS的蒙特卡羅模擬永遠不會兩次通過同一個信念狀態節點,并且永遠不會構建第一層信念狀態節點以下的樹。所以,在動作和觀測空間很大或連續的情況下,基于MCTS的常見算法將生成非常淺的樹,使得漸進最優性能較差。POMCPOW算法利用雙漸進加寬可有效解決此問題,雙漸進加寬指的是動作空間和觀測空間的漸進加寬。與考慮所有動作(量測)的基于MCTS的常見算法相比,POMCPOW算法通過控制有限但逐漸增加的動作(量測)數量以更多地關注后續計算,能夠更加深入地向下搜索樹。

現具體介紹基于MCTS的POMCPOW算法[27],其算法結構如算法1所示。對應的 ?代表直至當前調度時刻l以b1為初始節點的一段歷史記錄(a1,y1,a2,y2,...,al,yl),即已經確定的部分搜索路徑。?a和?ay分別表示在末尾附加了新生成的a和(a,y)的歷史。設定d≤L。C是節點的子節點集,C(?)為信念狀態節點的動作子節點集,C(?a)為動作節點的量測子節點集,N是節點訪問次數的計數值,對應的N(?) 為信念狀態節點計數值,N(?a)為動作節點計數值,M是生成不同量測的計數值。與信念狀態節點關聯的采樣狀態集為X,W是對應于采樣狀態集X的權重集,而Q(?a) 是在歷史 ?后選取動作a的代價估計值,C,N,M,X,W和Q都初始化為0或空集。其中,漸進加寬分別體現在算法1的14~17行、20~24行。在處理連續動作空間問題時,漸進加寬使用15行的 NEXTACTION(?)運算進行處理。具體為,在動作空間A中采用均勻分布采樣方法選擇一個動作,但選擇的動作不與C(?)內的已采樣動作重復,直至動作采樣空間C(?) 大小達到δaN(?)αa。觀測空間的漸進加寬同理。G(·)是默認的生成函數,在本文中包含目標運動模型、雷達量測模型以及綜合代價函數的計算,Λ(·)單指具體的綜合代價函數計算,所得的C即為綜合代價值C(b,a,λ)。算法1第29行Rollout算法[24]部分如算法2所示,其中,使用默認的策略πrollout(?,·) 在整個動作空間A中隨機選擇一個動作,遞歸d步后返回累積折扣代價值Ctotal。算法1第31行中m指采樣狀態集X包含的樣本數。與常見MCTS算法不同的是,UCB為

算法 1 POMCPOW算法Alg.1 POMCPOW algorithm

在POMCPOW算法中,每一次模擬時轉移采樣狀態x′都會被插入到代表信念狀態的加權采樣狀態集X(?ay)中,當動作節點的量測子節點數|C(?a)| 超出對應漸進加寬上限后,其選擇概率取決于權重集W(?ay)中該狀態的量測分布函數之和,如算法1中第31行所示。注意到,信念狀態節點包含的樣本數與節點被訪問的次數有關,因此,一個信念狀態節點信念表示越豐富,最優策略訪問經過的可能性就越大[27]。轉移采樣狀態的加權方法被證明是合理的[35],這些采樣狀態集會隨著樹的搜索而逐漸改進。隨著轉移采樣狀態x′的不斷加入,采樣狀態集X(?ay)會逐漸擴展,由此改善已有在線算法的性能。

對于給定的天基雷達多目標跟蹤任務,給定調度間隔u后可確定實際調度總次數為在第κ(κ=1,2,...,K)次調度時,經過LR并利用POMCPOW分別求得各目標的最優策略后,需進行拉格朗日乘子向量的更新直至迭代結束。此時選取各目標最優策略的首個動作值,構成本次調度的最優動作向量對于信念狀態的更新,盡管粒子濾波算法比PEKF-VB算法更通用,但其需要更大的計算量,并可能受樣本貧化等影響。本文應用PEKF-VB算法得到各目標的信念狀態bi,κ+1。在經歷實際K次調度后,可求得多目標跟蹤的最優策略π*以及近似最優解V*(B1),因此可將最優策略的分量分別應用于持續時間為u的多目標跟蹤過程中。基于LR-POMCPOW的非短視快速天基雷達多目標跟蹤資源調度算法的整體流程總結如算法3所示。

算法 3 基于LR-POMCPOW的天基雷達多目標跟蹤資源調度算法Alg.3 LR-POMCPOW-based resource scheduling algorithm for multi-target tracking of space-based radar

在計算復雜度方面,單獨取第κ次調度進行分析,則LR-POMCPOW算法中最為耗時的部分是各子問題最優策略計算以及拉格朗日松弛。首先計算單次迭代求解單個目標的最優策略的復雜度,此處由于算法1第31行狀態選取為隨機采樣,其復雜度為O(Γ),則各子問題最優策略計算的復雜度為O(dΓ2),從而算法3第5-7行計算復雜度為O(dILΓ2)。而LR的次梯度計算和乘子更新計算復雜度為O(L),因此在第κ次調度的計算復雜度為O(Lem+dILemΓ2)。在同樣使用LR后,同屬于MCTS類型的POMCP算法在求解最優策略時的復雜度為O(dIL(|A|+|Y|)),在動作空間、觀測空間很大甚至連續的情況下,空間大小 |A|,|Y|使得POMCP算法計算復雜度遠高于POMCPOW算法。而離線算法以PBVI為代表,其計算復雜度為O(IL|A||Y|Γ),相較在線近似算法,其在連續空間問題下需要更多計算資源[36]。

4 仿真與驗證

本節通過仿真驗證所提算法的有效性。首先,構建各目標威脅度區分度較高的場景,分析威脅度對天基雷達資源分配的影響,驗證所構建優化函數中威脅度的有效性。然后,分析了目標與天基雷達的相對距離對資源分配的影響程度。最后,將現有適用于連續狀態空間、連續動作空間、連續觀測空間POMDP問題的幾種算法與本文算法進行對比,驗證本文所用算法的優越性。

4.1 威脅度對雷達資源分配影響分析

考慮運行于圓形軌道的天基雷達衛星,其軌道6根數包括:軌道半長軸、偏心率、軌道傾角、升交點赤經、近地點幅角以及真近點角。為保證坐標轉換的準確性需給定格林尼治恒星時角(Greenwich Hour Angle,GHA),雷達天線陣面的偏航角、俯仰角、滾動角都設置為0 rad,對應參數設置如表1所示。雷達在同一時刻需跟蹤I=2個飛機目標,采樣間隔設為1 s,各飛機目標以及受保護飛機都處于勻速運動狀態,其在STK (Satellite Tool Kit)中運動軌跡如圖3所示(數據來源為AGI),圖3中箭頭所指為各目標運動方向以及天基雷達運動方向,雷達對目標持續跟蹤的軌跡段用白色標記。各目標和受保護飛機在ECEF坐標系下的初始位置和速度,計算雷達回波信噪比SNRi,k時所需的RCS,相對距離、相參積累時間以及發射機平均輻射功率參數如表2所示,參考目標的信噪比為SNR0=15,方位角波束寬度ρθ為0.002 rad,俯仰角波束寬度ρφ為0.001 rad。

表1 仿真基本參數設置Tab.1 Basic parameter settings of simulation

表2 場景1初始時刻目標相關參數Tab.2 Parameters related to target initialization of scenario 1

圖3 威脅度對雷達資源分配影響分析STK仿真圖示Fig.3 STK-based demonstration for impact of distinct target threat levels on radar resource allocation

為簡化調度過程,令雷達調度的連續動作量僅選取相參積累時間,其取值范圍為[0.01,0.40] s,其余分量與參考目標對應值保持一致。采用LRPOMCPOW算法進行資源調度。雷達從窗口起始時刻開始跟蹤,調度間隔u=70 s,至窗口結束時刻可進行 U=300次跟蹤,實際調度終止時刻為K·u=280 s,從而,此仿真場景中雷達調度資源4次。

在PEKF-VB跟蹤算法中,飛機目標i(i=1,2)在3個方向上的機動噪聲方差都設定為6×10-5km2/s4,迭代次數為4,懲罰因子β=1。威脅度相關參數為gtime=0.3,gdistance=0.7,t0,t0.5,t1取值為60,55,50,d0,d0.5,d1取值為160,110,60,仿真中可添加0.01到威脅度評估函數的0威脅度處,避免不合理取值。另外,LR所用參數及調度算法的部分參數也如表1所示。

為驗證威脅度對雷達資源調度的影響,圖4給出了整個調度時期兩目標的威脅度值。可以看到,與圖3中受保護飛機有交叉軌跡的目標1(運動方向為紅色箭頭)威脅度接近1,而較遠處的目標2威脅度保持在較低水平。跟蹤過程中分配給兩目標的相參積累時間與采樣間隔比(即預算比)結果如圖5所示。可以看到,目標的威脅度與雷達分配的預算比具有相關性,在滿足不大于總預算比η=0.5的條件下,需要獲得更多關注的目標1始終可分配到較多的相參積累時間資源。若構建優化目標函數時只考慮量測和目標運動的不確定性,會導致雷達將更多資源分配給距離受保護飛機更遠的目標,而綜合了威脅度的優化目標函數會更為合理地反映真實場景,當目標相對較快或較近地向受保護飛機移動時,雷達資源便會傾向于此類目標。注意到圖5給出的資源分配結果呈現出階躍式現象,這是由于每次資源優化調度計算完成后,優化參數立即輸入天基雷達,應用于下一調度間隔的多目標跟蹤過程中。

圖4 目標威脅度結果Fig.4 Target threat level results

圖5 各目標的預算比(τ/T)分配結果Fig.5 Budget ratio (τ/T) allocation results for each target

4.2 相對距離對雷達資源分配影響分析

在該仿真場景中,主要研究目標與雷達的相對距離大小以及其變化對雷達資源分配的影響。由于常見天基雷達多目標跟蹤場景中目標與沿軌高速運行的天基雷達的相對距離變化并不明顯,無法有效體現其對資源分配的影響程度,則在圖6中令目標沿特殊軌跡運行。具體參數如下:調度間隔為15 s,跟蹤總時長為 U=124 s,連續動作量選定為相參積累時間,其取值空間為[0.01,0.40] s,初始位置和速度如表3所示,威脅度相關參數t0,t0.5,t1取值為80,55,30;d0,d0.5,d1取值為110,75,40;窗口起始時間為4 May 2023 04:14:09.500,窗口結束時間為4 May 2023 04:16:12.000,其余參數同場景1一致。

表3 場景2初始時刻目標相關參數Tab.3 Parameters related to target initialization of scenario 2

圖6 相對距離對雷達資源分配影響分析STK仿真圖示Fig.6 STK-based demonstration for impact of distinct relative distances on radar resource allocation

目標徑向距離變化如圖7所示。可以看到,跟蹤階段初期兩目標逐漸靠近雷達,兩者與雷達的相對距離差別大,但變化程度較為緩慢。為突出相對距離對雷達資源分配的影響,該場景中的優化目標函數中不考慮威脅度以及能量代價,只存在量測和目標運動不確定性的作用。通過圖8中分配給兩目標的相參積累時間與采樣間隔比可以看到,開始階段兩目標在向雷達方向運動,相對距離都在減小,但目標2比目標1更遠,對應的信噪比明顯小于目標1,經過算法調度可以使目標2獲得持續增加的資源。但隨著目標在第80~100 s時段內距雷達的相對距離大小發生轉變后,可以發現資源會偏向于目標1,但變化程度較為緩慢。由于總預算比的限制,雷達會不斷減少目標2的資源配置,但總體會保持分配資源多于目標1的狀態。由此,可以說明目標與雷達的相對距離越大,雷達分配的資源越多,但目標與雷達的相對距離呈現增長趨勢,雷達資源則會逐漸傾向于分配給此類目標。

圖7 目標徑向距離Fig.7 The slant range of targets

圖8 相對距離影響下預算比(τ/T)分配結果Fig.8 Budget ratio (τ/T) allocation results influenced by relative distance

4.3 算法性能比較分析

為說明LR-POMCPOW算法的優越性,首先構建包括I=4個飛機目標以及受保護艦船的跟蹤場景,如圖9所示。在保持多數參數設置與場景1相同的條件下,其余參數設置如下:調度間隔為40 s,跟蹤總時長為 U=244 s,分配至各目標的相參積累時間取值范圍為[0.01,0.30] s,針對每個目標的雷達平均輻射功率取值范圍為[5×103,2×104] W,最大時間預算比為η=1,最大消耗能量值為E=1.5×107J,各目標平均輻射功率之和的閾值為E/U=6.15×104W;t0,t0.5,t1取值為180,140,100;d0,d0.5,d1取值為160,130,100;GHA為4.97 rad;窗口起始時間為4 May 2023 04:12:26.000,窗口結束時間為4 May 2023 04:16:28.185,目標初始位置和速度如表4所示。綜合代價函數中,ω1=0.7,ω2=0.3,避免資源分配過于傾向量級較大的能量代價。

表4 場景3初始時刻目標相關參數Tab.4 Parameters related to target initialization of scenario 3

圖9 多目標跟蹤的STK仿真圖示Fig.9 STK-based demonstration for multi-target tracking

圖10給出了經過雷達資源調度的各目標跟蹤軌跡對比情況,其中,各目標起始位置以空心圓標注,紅色箭頭所指為目標運動方向。可以看到,估計軌跡與真實軌跡經過一段時間后基本重合,經過資源分配后天基雷達能夠保持良好的跟蹤效果。相參積累時間(預算比)和平均輻射功率分配結果分別如圖11、圖12所示。可以看到,各目標的資源總量可以保持在約束值以內,總預算比在0.4~0.9,未超出最大總預算比η=1;總平均輻射功率在2×104~6×104W,小于各目標平均輻射功率之和的閾值E/U=6.15×104W。由于優化目標函數綜合考慮了威脅度,而且各目標與雷達的相對距離變化較小,圖中并未出現某一目標長期占據大多數資源的情況,處于合理的取值范圍內。

圖10 目標跟蹤軌跡Fig.10 Target tracking trajectory

圖11 多目標跟蹤下各目標的預算比(τ/T)分配結果Fig.11 Budget ratio (τ/T) allocation results of each target under multi-target tracking

圖12 各目標分配平均輻射功率Fig.12 The average radiation power allocated to each target

將LR-POMCPOW算法與其他3種結合了LR的算法進行比較。蒙特卡羅仿真次數為100次,仿真相關的超參數參見表5。

表5 各算法超參數Tab.5 Algorithm hyperparameters

(1) POMCPDPW[27]:此算法與本文所用算法類似,但區別是,對于每個生成的歷史,只有一個狀態插入采樣狀態集中。

(2) POMCP[24]:此算法不考慮連續動作以及觀測值的漸進加寬,仿真中需先離散化觀測空間。

(3) Rollout[37]:此算法采用預期未來的蒙特卡羅樣本,隨機探索可能的未來動作和相應的代價,候選動作在第1步選取,后續步的動作通過給定的基本策略選取。

現以目標1為分析對象,圖13、圖14給出了LR-POMCPOW與上述3種算法在跟蹤目標1時的均方根誤差(Root Mean Squared Error,RMSE)對比圖。由于代價函數綜合考慮了威脅度以及能量代價的因素,而RMSE僅為目標量測和機動性的度量指標,在此發現,RMSE并非與算法性能有直接關聯性,但可以看到在應用各算法后目標跟蹤的RMSE值基本保持在較低水平,相差并不明顯。

圖13 目標1跟蹤位置RMSEFig.13 RMSE on position of target1

圖14 目標1跟蹤速度RMSEFig.14 RMSE on speed of target1

圖15、圖16給出了不同算法的多目標總平均輻射功率和總預算比的對比結果。LR-POMCPOW算法隨著資源調度的進行會不斷減少平均輻射功率的消耗,POMCPDPW算法次之,POMCP,Rollout算法使消耗功率維持在較高水平。各算法得到的總預算比與RMSE結果類似,其通過影響SNR的計算進而影響狀態誤差協方差矩陣跡的求取,此并非代價函數的唯一考慮指標,可以看到,所提算法并非一直保持總預算比最大,各算法結果并無顯著差異。各算法在資源調度期間的期望累積多目標總折扣代價如圖17所示。所提算法可以得到最小期望累積多目標總折扣代價值,而其他3種算法的期望累積多目標總折扣代價值的增長趨勢類似,其中Rollout算法始終保持最大總折扣代價,而POMCP與POMCPDPW算法略優于此算法,但均高出所提算法,即所提算法可達到資源調度的近似最優。綜合考慮選用LR-POMCPOW算法可有效解決天基雷達資源調度問題,其性能在所比較的算法中也最為優越。

圖15 總平均輻射功率對比Fig.15 Comparison of total average radiation power

圖16 總預算比對比Fig.16 Comparison of the total budget ratio (τ/T)

圖17 各算法期望累積多目標總折扣代價對比Fig.17 Comparison of the expected cumulative multi-target discount cost

5 結語

本文考慮了天基雷達多目標跟蹤過程中連續狀態空間、連續動作空間以及連續觀測空間下的資源調度問題,給出了基于LR-POMCPOW的綜合多指標性能的非短視快速天基雷達多目標跟蹤資源調度算法。針對天基雷達多目標跟蹤問題,以最小化綜合考慮了目標威脅度、跟蹤精度與低截獲概率的代價函數為優化目標,在滿足雷達平臺運動特性,雷達時間和能量資源的約束條件下,通過優化相參積累時間和平均輻射功率,有效保證雷達在多目標跟蹤下資源分配的近似最優性。仿真結果表明,所設置的目標函數適用于天基雷達多目標跟蹤場景,與已有幾種調度算法相比,所提算法性能更好。

利益沖突所有作者均聲明不存在利益沖突

Conflict of InterestsThe authors declare that there is no conflict of interests

猜你喜歡
動作資源
讓有限的“資源”更有效
基礎教育資源展示
下一個動作
一樣的資源,不一樣的收獲
資源回收
動作描寫要具體
畫動作
讓動作“活”起來
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
動作描寫不可少
主站蜘蛛池模板: 亚洲av无码成人专区| swag国产精品| 国产精品女主播| 91亚洲精品第一| 亚洲自拍另类| 1024你懂的国产精品| 亚洲中文无码h在线观看| 大学生久久香蕉国产线观看| 91在线播放免费不卡无毒| 亚洲综合极品香蕉久久网| 久久久波多野结衣av一区二区| 国产91精品调教在线播放| 视频国产精品丝袜第一页| 91蜜芽尤物福利在线观看| 亚洲欧美日本国产专区一区| 国产女人18水真多毛片18精品| 国内精品久久久久鸭| 成人福利视频网| 久久香蕉国产线| 亚洲无码久久久久| 天天综合色天天综合网| 欧美日韩在线国产| 亚洲精品视频在线观看视频| 国产午夜福利在线小视频| 亚洲h视频在线| 91精品国产综合久久不国产大片| 国产一级毛片yw| 国产区免费精品视频| 国产免费黄| 国产va免费精品| 四虎成人精品在永久免费| 夜夜操天天摸| 亚洲欧州色色免费AV| 日韩 欧美 小说 综合网 另类 | 爽爽影院十八禁在线观看| 性69交片免费看| 欧美国产在线看| 免费毛片网站在线观看| 在线一级毛片| 免费一级α片在线观看| 91麻豆精品国产91久久久久| 999精品视频在线| 色AV色 综合网站| 欧美福利在线| 国产精品亚洲精品爽爽| 一级毛片免费不卡在线视频| 欧美a级在线| 丝袜美女被出水视频一区| 亚洲无码高清免费视频亚洲| 免费看的一级毛片| 亚洲国产精品久久久久秋霞影院| 久久成人18免费| 亚洲第一极品精品无码| 日韩高清无码免费| 午夜不卡福利| 成人a免费α片在线视频网站| 亚洲国产日韩视频观看| 国产va欧美va在线观看| 久热中文字幕在线| 亚洲欧美另类视频| 亚洲第一在线播放| 国产午夜无码片在线观看网站| 91午夜福利在线观看| 精品伊人久久久久7777人| 欧美另类视频一区二区三区| 日本午夜三级| 久久精品一卡日本电影| 在线观看视频一区二区| 成人精品亚洲| 国产精品嫩草影院av| 国产簧片免费在线播放| 国产欧美在线观看一区| 国产精品妖精视频| 伊人激情综合网| 亚洲日本一本dvd高清| 99久久精品免费看国产免费软件| 亚洲免费黄色网| 亚洲欧美一区二区三区蜜芽| 日韩久久精品无码aV| 日韩欧美国产中文| 真人高潮娇喘嗯啊在线观看| 欧美啪啪精品|