999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于部分可觀察馬爾可夫決策過程的多被動傳感器組網協同反隱身探測任務規劃

2015-11-11 01:33:06萬開方高曉光李波梅軍峰
兵工學報 2015年4期
關鍵詞:規劃策略

萬開方, 高曉光, 李波, 梅軍峰

(西北工業大學 電子信息學院, 陜西 西安 710072)

?

基于部分可觀察馬爾可夫決策過程的多被動傳感器組網協同反隱身探測任務規劃

萬開方, 高曉光, 李波, 梅軍峰

(西北工業大學 電子信息學院, 陜西 西安 710072)

針對反隱身作戰需求,提出多被動傳感器組網協同戰術。為提升反隱身探測效能,引入部分可觀察馬爾可夫決策過程(POMDP)理論,分析了POMDP任務規劃要素,建立起多被動傳感器組網協同反隱身探測任務規劃POMDP模型。建立了多被動傳感器協同控制系統結構,提出了基于無跡卡爾曼濾波(UKF)的信念狀態更新方法和基于蒙特卡洛Rollout采樣(MCRS)的Q值估計方法,并設計了CCSP基本策略。仿真結果表明,所建立的模型能夠實現多被動傳感器的高效管理調度,能夠控制多被動傳感器對隱身目標進行有效探測跟蹤,即模型有效性得到了驗證。

控制科學與技術; 傳感器技術; 反隱身; 多傳感器組網; 部分可觀察馬爾可夫決策過程; 信念狀態; 任務規劃

0 引言

隱身技術,又稱低可探測技術,是一種通過改變武器裝備的目標反射特性以最大限度地降低被對方雷達探測可能性的綜合性技術。隱身技術在作戰飛機上的成熟應用,從根本上改變了攻防戰略平衡,隱身飛機也成為防空系統的巨大威脅[1]。為了有效應對隱身威脅,盡管困難重重,各軍事大國依然在積極發展反隱身技術,以求在未來可能的隱身與反隱身對抗中占據優勢[2]。

隱身平臺最主要的特點是難以被發現和跟蹤,因此反隱身探測是針對隱身目標作戰首先要解決的問題。反隱身探測一般包括技術和戰術兩種途徑,前者通過采用一些新技術以提升雷達探測性能,如頻率捷變、擴頻、大時寬脈沖壓縮等技術,可提高雷達的作用距離和抗干擾能力[3];后者則通過一些非常規傳感器的戰術運用來進行反隱身探測,如多基地雷達探測[4]、無源傳感器探測[5]、多傳感器組網探測[6]等。本文從反隱身探測出發,試圖采用多被動傳感器組網協同戰術實現空域反隱身。在多被動傳感器組網協同反隱身探測過程中,為實現資源的高效利用,提升對隱身目標的探測跟蹤效果,需要對有限的傳感器資源進行動態管理調度和協同規劃控制。

多傳感器協同控制策略存在短視和非短視之分[7]。短視策略在進行策略優選時僅以最大化當前立即收益為目標,而忽略當前行動下的遠期收益。這類方法目標函數簡單,規劃效率較高,在算法理論上不斷推陳出新[8-9],如信息論[10-12]、博弈論[13-14]、模糊邏輯[15-16]、智能優化算法[17-18]、數學規劃[19]等,但在綜合效能上卻難有大的突破。非短視策略在進行策略優選時,既考慮了當前立即收益,又包括了未來遠期收益,任務規劃中會對未來狀態進行預測,以最大化全任務過程中的整體收益為目標,因此是一類綜合效能更高的方法[20]。非短視方法以馬爾可夫決策過程(MDP)理論為基礎,對于不確定性規劃問題,則建模成部分可觀察馬爾可夫決策過程(POMDP)形式。在基于POMDP的傳感器管理應用方面,國內目前鮮有相關文獻,而國外近些年則陸續開展了一些研究。文獻[21]基于POMDP對傳感器目標探測和目標識別管理進行了建模;文獻[22]在POMDP模型下以量測損耗最小為目標進行了傳感器調度管理研究;文獻[23]基于POMDP進行了相控陣雷達參數優化設計;文獻[24]以POMDP建模進行了雷達目標分配決策研究;文獻[25-26]基于POMDP開展了目標跟蹤下的雷達自適應調度研究等。不同于以上任何一種傳感器管理問題,本文以POMDP理論為基礎,研究了多傳感器組網協同控制,旨在建立起一個多被動傳感器組網協同反隱身探測任務規劃模型,通過對多被動傳感器的高效管理調度,以實現對多隱身目標的有效探測與精確跟蹤。

POMDP模型下的任務規劃效能明顯高于傳統短視方法。但實際應用中,POMDP模型的未來遠期收益計算復雜度會隨著問題規模呈指數增長,要實現精確求解難度較大。為此,許多近似算法相繼被提出,試圖以次優解代替最優解來換取計算效率的提升,如文獻[27-28]采用了最大可能狀態(MLS)和行動投票(AV)啟發式算法對遠期收益進行近似;文獻[29-31]提出利用貝葉斯增強學習算法解決大規模連續POMDP問題;文獻[32]設計了遺傳算法用于近似求解分布式部分可觀察馬爾可夫決策過程(DEC-POMDP)問題;文獻[25-26,33-35]借鑒隨機動態規劃問題中的Rollout算法對POMDP模型進行了近似求解嘗試。本文所建立的多被動傳感器組網協同反隱身探測任務規劃POMDP模型,屬于連續狀態空間問題,且狀態轉移存在不確定性,在進行近似求解時,本文結合了Rollout算法和蒙特卡洛仿真方法,并對Rollout中的基本策略進行了重新設計,提出了一種蒙特卡洛Rollout采樣(MCRS)近似算法,仿真結果驗證了該算法的有效性。

1 任務規劃問題建模

1.1任務規劃問題描述

考慮如下作戰想定(如圖1):藍方以隱身戰機組成突防編隊,企圖突破紅方防線以對其后方高價值目標進行毀滅性打擊;借助于地面長波雷達和高空預警機組成的遠程預警網絡,紅方在較遠距離上發現來犯目標,隨即組織己方戰機編隊前往攔截。考慮到藍方戰機隱身能力突出,在以雷達為探測設備的傳統戰術下,其先敵發現距離將遠超紅方戰機,交戰優勢明顯,因此,紅方在攔截力量編成上包括了常規戰機(遂行火力任務)、電子戰飛機(遂行干擾任務)和無人機(遂行偵察任務),相互之間以數據鏈形成協同交戰網絡。為了實現靜默攻擊,藍方隱身戰機在作戰中依賴于隨行的預警機進行目標指示。由于紅方的通信干擾,藍方隱身戰機與其后方預警機之間的通訊鏈路被一定程度的破壞,為了盡快掃清前方障礙,藍方隱身戰機將被迫開啟主動雷達進行掃描,并試圖利用其隱身優勢(對方火控雷達無法鎖定自己)在超視距范圍內快速解決戰斗,以為后續任務贏得時間。部署于戰場前方的紅方無人機攜帶有電子支援措施(ESM)或者紅外搜索與跟蹤(IRST)等被動傳感器載荷,并與其后方空域的有人飛機保持通訊鏈接,當藍方隱身戰機雷達開機時,由ESM被動偵測電磁輻射進行反隱身探測,當藍方戰機雷達間歇關機時,由IRST被動偵測紅外輻射進行輔助反隱身探測。由于ESM對電磁輻射的被動偵測距離遠大于雷達輻射源的探測距離,因此紅方戰機將能夠在被藍方隱身戰機探測到之前的很久一段時間內,依靠無人機群對來襲隱身目標進行被動定位與跟蹤,并以此支持其后續的反隱身攻擊。

圖1 多被動傳感器組網協同反隱身探測示意圖Fig.1 Schematic diagram of cooperative anti-stealth detection of passive networked sensors

在利用無人機群進行反隱身探測過程中,在體系對抗下,為了提升系統整體跟蹤效果,應充分利用部署于戰場的多個被動傳感器組網,以對來襲的多個隱身目標進行協同探測。盡管被動傳感器具有較好的隱身性能,理論上傳感器數量越多,量測信息越豐富,跟蹤情況越好。但實際作戰中,由于通訊帶寬有限,且后方有人機數據處理能力有限,一次通常只能有一定數量的傳感器同時工作。因此,在紅藍雙方攻防對抗過程中,在每個任務周期,都需要動態優選出最佳的傳感器組合對隱身目標進行探測跟蹤,這樣就產生了一個多被動傳感器組網協同反隱身探測的任務規劃問題。

1.2任務規劃POMDP要素

由于目標隱身帶來許多不確定性因素,且被動傳感器為不完全觀測,就決定了本文的多被動傳感器組網協同反隱身探測任務規劃問題是一個不確定環境下、不完全信息下的序貫決策問題,而POMDP模型是研究隨機環境下多階段決策的理論工具,為本文的任務規劃問題提供了一個完整的描述框架[36],模型要素用一個六元組表示。

1.2.1狀態空間S

1.2.2行動空間A

(1)

1.2.3觀測值集Z

(2)

1.2.4狀態轉移函數T

(3)

sk+1=f(sk,wk)=Fksk+wk,

(4)

1.2.5觀測函數Ω

系統的觀測律Ω(zk|sk,ak)定義為zk=h(sk,ak,vk). 由于各個傳感器獨立觀測,記k時刻傳感器s對目標t的量測方程為

(5)

(6)

(7)

1.2.6收益函數R

(8)

式中:Jk表示系統的FIM;[Jk]-1即為系統的PCRLB,PCRLB給出了狀態估計與真值的誤差協方差陣的下界。Jk由兩部分組成:

Jk=Js,k+Jz,k,

(9)

式中:Js,k為狀態先驗信息陣;Jz,k為量測更新信息陣。Js,k可由下式迭代求解:

(10)

(11)

Jz,k為量測更新信息陣,由于各個傳感器獨立觀測,則有

(12)

(13)

(14)

將(10)式~(14)式帶入(9)式,并整理得

(15)

為了便于對多被動傳感器組網協同反隱身探測的行動優劣進行評估,同時避免矩陣求逆帶來額外計算負擔,本文以Jk(FIM)代替[Jk]-1(PCRLB),并最終以Jk的跡作為POMDP任務規劃模型的當前一步立即收益,即

(16)

式中:Jk(i,i)表示矩陣Jk的第i行、第i列。

1.3任務規劃POMDP框架

針對多被動傳感器組網協同反隱身探測任務規劃問題,本文的POMDP模型采用了在線規劃方案。不同于離線規劃中將整個任務過程分為離線策略規劃和在線策略執行階段,在線規劃將整個任務過程劃分成若干個小的規劃和執行,每個任務周期都會根據現有信息進行一次決策,隨后由各個傳感器執行所選最優策略。圖2給出了在線規劃和離線規劃對比。

圖2 離線規劃與在線規劃對比Fig.2 Comparison of online planning and offline planning

由于攻防對抗持續進行,POMDP任務規劃將貫穿于整個作戰過程。規劃中由于系統狀態sk不完全可觀測,POMDP模型引入信念狀態bk對系統狀態的后驗分布進行描述,以保證過程的馬爾可夫性。信念狀態bk是對系統狀態的后驗估計,是依據歷史觀察及行動信息γk={b0,a1,z1,a2,z2,…,ak-1,zk-1}利用貝葉斯準則計算得到的一個當前狀態對所有系統狀態的后驗概率密度。若整個作戰過程有M個任務周期,每個任務周期進行l次采樣,則一個完整的POMDP任務規劃開始于初始信念b0,并按照如下過程推進:在任務周期m,基于信念狀態bml,以全任務過程綜合收益最優為原則,動態決策出本周期的最佳行動策略aml+1=aml+2=,…,=a(m+1)l;隨后在策略執行階段,被選中的傳感器組將被激活,進行l次采樣并獲得量測zml+1,zml+2,…,z(m+1)l,經過l次信念狀態更新得到b(m+1)l,隨即進行第m+1次規劃,如此循環。如圖3所示(其中TC指任務周期),基于POMDP的多被動傳感器組網協同反隱身探測任務規劃是一個“依觀測更新信念,依信念選擇行動,以行動產生觀測”的不斷完善的序貫決策過程。

圖3 基于POMDP的多被動傳感器組網協同任務規劃過程Fig.3 Process of cooperative mission planning of passive networked sensors

1.4任務規劃POMDP模型

定義策略π:B→A為信念空間B到動作集A的一個映射,π={π1,π2,…,πH},則ak=πk(bk),其中H為任務時域長度。

定義值函數Vπ:B→R為信念空間B到收益R的一個映射。Vπ(b0)為在初始信念狀態b0下采用策略π時的期望總收益,即

(17)

基于POMDP的多被動傳感器組網協同反隱身探測任務規劃的最終目標就是確定全時域的最優策略π*(b0):

(18)

在線規劃模式下,整個任務時域被劃分成了M個任務周期[1,l],…,[ml+1,(m+1)l],…,[(M-1)l+1,Ml],每個任務周期包含策略搜索和策略執行,即每個任務周期都需要進行一次規劃決策,然后在該周期之內,傳感器根據決策結果進行執行,則整個任務過程需要進行M次規劃決策。進行任務周期劃分之后,最優值函數可以化簡為

(19)

由Bellman最優準則,對任意任務周期m(0≤m

(20)

(21)

這樣,針對任務周期m的規劃決策模型為

(22)

(23)

隨著作戰的進行,m將依次取值0,1,2,…,M-1,每個任務周期開始時,都按照(22)式進行一次規劃決策,然后由傳感器按照決策結果執行策略,依次循環直至任務結束。

2 任務規劃模型求解

本文的多傳感器協同反隱身探測任務規劃問題,是一個連續狀態空間問題,精確值迭代算法需要在整個信念空間內求解高維的線性方程組,以得到對應的梯度向量集合,具有非常高的時間復雜度,顯然無法滿足本文的在線規劃需求,因此,本文主要考慮POMDP的近似解法。基于采樣信念點的算法是一種典型的近似算法,其基本思想是對信念空間的有限子集進行迭代,求解梯度向量集合來描述整個信念空間上的最優值函數。由于是從信念空間中選擇一個有限的集合進行求解,因此梯度向量的數量會降低,從而降低了問題的復雜性。典型的基于信念點的算法主要有PBVI算法和Perseus算法。本文在 PBVI和Perseus算法基礎上,結合多被動傳感器協同反隱身探測任務規劃的特點,針對性的設計了信念狀態更新方法和Q值估計方法,以實現對本文任務規劃問題的在線近似求解。

2.1多傳感器協同控制結構

在集中式的管理架構下,多被動傳感器組網協同任務控制器由兩大組成部分,即目標跟蹤器和行動選擇器,前者接收觀測信息,輸出信念狀態;后者接收信念狀態,輸出行動策略;二者相互配合共同完成任務規劃。具體來說就是在每個任務周期首先由任務控制器規劃決策出傳感器調度策略,然后將決策結果轉化成控制指令下達給各個傳感器,各傳感器接受指令并執行策略。圖4給出了多被傳感器組網協同控制系統結構。

圖4 多被動傳感器組網協同控制系統結構Fig.4 Framework of cooperative control system of passive networked sensors

目標跟蹤器主要用于在不確定環境下實現信念狀態更新,其基本思想利用跟蹤濾波算法更新系統狀態的后驗概率分布。目前常用的濾波算法主要有卡爾曼濾波(KF),擴展卡爾曼濾波(EKF),無跡卡爾曼濾波(UKF),粒子濾波(PF). 其中,KF僅適用于線性高斯系統;PF適用于任意非線性系統,但其本質是一種蒙特卡洛方法,計算開銷大;EKF計算量較小,卻僅適用于弱非線性高斯系統,對本文所研究問題的適應能力有限;UKF是一種介于EKF和PF之間的濾波算法,計算量適中,且適用于非線性高斯系統,因此,本文選擇UKF算法對作為信念狀態更新方法。

行動選擇器主要用于進行策略篩選。由(22)式可知,某時刻選擇最優行動的原則為最大化Q值,因此,行動選擇的首要任務是Q值計算。對于目標跟蹤這類復雜連續狀態問題,無法解析求解期望值,因此無法精確計算Q值。一種可選方案是利用蒙特卡洛方法進行近似估計。在進行Q值近似計算時,遠期期望收益的計算尤為復雜,傳統的迭代算法在面臨連續狀態問題時顯得無能為力,借鑒文獻[38]在解決隨機調度問題時的思路,本文針對所研究的具體問題采用了Rollout方法,并設計了基本策略,提出了基于MCRS的Q值近似估計方法。表1給出了任務規劃算法偽代碼。

表1 任務規劃算法偽代碼

2.2基于UKF的信念狀態更新

1) 從信念中提取初始均值和方差

(24)

2) Sigma點生成

(25)

3) 參數估計

(26)

(27)

4) 時間更新

(28)

(29)

(30)

5) 量測更新

(31)

(32)

(33)

(34)

6) 濾波更新

(35)

(36)

(37)

7) 信念狀態更新

(38)

表2給出基于UKF的信念狀態更新算法偽代碼。

表2 信念狀態更新算法偽代碼

2.3基于MCRS的Q值估計與行動選擇

2.3.1Rollout基本思想

(39)

2.3.2基本策略設計

基本策略πb的設計沒有固定章法可循,一般只能根據研究問題的特點進行啟發式設計。如文獻[26] 針對單目標跟蹤問題所設計的最近點策略(CPA);文獻[25] 針對多目標跟蹤問題所設計的最近傳感器策略(CSP)等。本文所研究的多被動傳感器組網協同反隱身探測任務規劃問題,由于是被動觀測,傳感器進行測量的前提是必須處于目標電磁輻射范圍之內,且距離目標越近,跟蹤效果越好。因此,本文在CSP的基礎上,設計了覆蓋CSP(CCSP)基本策略:

(40)

2.3.3蒙特卡洛近似估計

(41)

3 仿真分析

3.1仿真初始設定

表3 Q值估計和行動選擇算法偽代碼

3.2仿真結果分析

3.2.1模型適應性分析

本文在Eclipse環境下采用Java語言編寫了仿真程序。選取了4種典型策略進行仿真對比分析,即Myopic策略、CCSP策略、Random策略、Rollout策略。其中Myopic策略,以最大化當前一步立即收益Rk為目標函數進行決策;CCSP策略,即本文所設計的基本策略,按照(40)式進行決策;隨機策略,在決策時隨機選擇任務方案;Rollout策略,即本文MCRS算法下的非Myopic策略,按照(22)式進行決策。仿真時間H=100 s,則任務規劃次數為H/Tc=10,信念狀態更新次數H/Ts=50. 在100 s的仿真時間內,4種策略下的10次任務規劃結果如圖5所示,其中圖5(a)、圖5(b)、圖5(c)、圖5(d)分別為Myopic策略、CCSP策略、Random策略、Rollout策略下的規劃結果。

圖5 4種典型策略下的傳感器協同任務方案序列對比圖Fig.5 Comparison of sensor schemes of four typical strategies

圖6給出了4種典型策略下的綜合收益對比。從圖中結果可以看出,在進行的10次任務規劃中,POMDP模型下的Rollout策略收益始終高于CCSP策略、Random策略和Myopic策略,是綜合收益最高的策略。Rollout策略、CCSP策略、Random策略下的綜合收益均遠高于Myopic策略,這是因為Myopic策略僅僅考慮當前一步立即收益Rk,其他3種策略則是考慮了當前周期和未來遠期的綜合收益。從圖中同時可以看出,Rollout策略下的綜合收益,較之于CCSP策略和Random策略,在數值上的優勢并不明顯,這主要是由于本文所選擇目標函數的特殊性,且三者在計算綜合收益時都包含了未來遠期收益,數值上較為接近。事實上,在本文的問題模型下,綜合收益數值上微小的優勢,反映到對目標的跟蹤效果上,將會是較為明顯的優勢,下文將結合圖7對7種策略下的跟蹤效果進行對比分析。同時,Rollout策略、CCSP策略以及Random策略收益隨時間呈現遞減趨勢,這是因為3種策略均為非Myopic策略,隨著時間的推進,其后續決策在進行未來遠期收益計算時需要向后預測的時間越來越短,遠期收益越來越小,故而綜合收益也越來越小。

圖6 4種典型策略下的綜合收益值對比圖Fig.6 Comparison of total rewards of four typical strategies

每次規劃完成,則之后的一個周期之內,多傳感器按照規劃結果進行協同反隱身探測,被選中的傳感器組每2 s進行一次采樣,并據量測信息進行信念狀態更新。圖7給出了100 s仿真時間內,50次采樣下,4種典型策略下的多傳感器協同跟蹤效果,其中圖7(a)、圖7(b)、圖7(c)分別為多傳感器對目標T1、T2、T3協同跟蹤時的位置估計誤差協方差RMS隨時間變化規律,從圖中可以看出,在整個跟蹤過程中,POMDP模型下的Rollout策略對T1、T2、T3的跟蹤位置誤差RMS要明顯小于其他三者一種策略,對隱身目標的長期跟蹤效果最好,這與圖6的綜合收益對比結論一致。圖6、圖7結果充分證明了在POMDP模型下所規劃出的傳感器協同控制策略能夠獲得更好的目標跟蹤效果,即模型有效性得到了驗證。

圖7 4種典型策略下的多傳感器多目標協同跟蹤效果Fig.7 Accumulated tracking errors of multi-sensors for multiple targets for four typical strategies

3.2.2算法性能分析

本文在求解基于POMDP的傳感器協同反隱身探測任務規劃模型時,設計了MCRS近似算法。為了對該算法性能進行分析,本文在Eclipse環境下采用Java語言編寫了仿真程序,同時選取了PBVI和Perseus算法作為對比,其中PBVI和Perseus算法使用了Guy Shani開發的開源工具包POMDPSolver(Java語言編寫)[39]。實驗在Intel Core i3-2100、主頻3.10 GHz、四核CPU的計算機上進行。為了降低隨機性對實驗結果的影響,采用了多次仿真取均值的方法。

圖8 3種典型算法計算性能與優化效能對比Fig.8 Comparison of total rewards and calculated performances of three typical algorithms

圖8分別給出了100 s仿真時間內所進行的10次任務規劃決策中,利用3種典型算法求解本文的多被動傳感器組網協同反隱身任務規劃問題時的計算性能和優化效能對比。從圖8(b)可以看出,在優化效能上,PBVI算法要優于Perseus和MCRS算法,但這種優勢是以犧牲計算性能為代價的。從圖8(a)可以看出,PBVI的計算耗時與Perseus和MCRS相比,存在數量級的差別,這顯然無法滿足本文在線規劃的任務要求。本文所提出的MCRS近似算法雖然在優化效能上無法與PBVI和Perseus相比,但在計算性能上卻優勢明顯,在解決實際問題時時效性更強,滿足在線規劃要求,即算法有效性得到了驗證。

4 結論

本文從反隱身作戰背景與需求出發,提出了實現空域反隱身探測的多被動傳感器組網協同戰術;針對組網協同中存在的多傳感器規劃調度問題,引入POMDP理論,基于POMDP的多被動傳感器組網協同反隱身探測任務規劃模型。較之于傳統的以一步收益為優化目標的Myopic方案,POMDP模型的每次規劃決策都是建立在長期收益最優原則之上,因此具有更好的長期跟蹤效能。為實現模型求解,本文設計了多被動傳感器協同控制系統結構,將規劃過程分解為目標跟蹤和行動選擇兩大子過程,提出了基于UKF的信念狀態更新方法和基于MCRS的Q值估計算法,設計了CCSP基本策略,給出了相關算法的詳細實現偽代碼。仿真結果驗證了本文所建立的多被動傳感器組網協同反隱身探測任務規劃POMDP模型的有效性。

References)

[1]盧盈齊, 祝長英. 雷達組網反隱身的一種優化布站方法[J]. 系統工程理論與實踐,2007(6): 166-169.

LU Ying-qi, ZHU Chang-ying. An optimal deploy method of netted radar for detecting stealth target[J]. Systems Engineering-Theory & Practice, 2007(6): 166-169. (in Chinese)

[2]劉尚富, 甘懷錦. 雷達隱身與反隱身技術淺析[J]. 艦船電子工程,2010, 30(9): 28-30.

LIU Shang-fu, GAN Huai-jin. Brief review on stealth and anti-stealth techniques of radar[J]. Ship Electronic Engineering, 2010, 30(9): 28-30. (in Chinese)

[3]凌曉曙. 雷達隱身和反隱身技術[J]. 艦船電子對抗, 2007, 30(3): 40-42.

LING Xiao-shu. Stealth and anti-stealth techniques of radar[J]. Shipboard Electronic Countermeasure, 2007, 30(3): 40-42. (in Chinese)

[4]沈陽, 陳永光, 李修和,等. 多基地雷達反隱身分布式檢測融合算法研究[J]. 電子學報, 2007, 35(3): 506-510.

SHEN Yang, CHEN Yong-guang, LI Xiu-he,et al. Study on fusion arithmetic of multi radar distributed detection system against stealthy targets [J]. Acta Electronica Sinica, 2007,35(3): 506-510. (in Chinese)

[5]Kuschel H, Heckenbach J, Muller S, et al. On the potentials of passive, multistatic, low frequency radars to counter stealth and detect low flying targets[C]∥2008 IEEE Radar Conference. Rome, Italy : IEEE Computer Society, 2008: 1-6.

[6]李偉, 柯濤. 雷達組網反隱身可行性仿真分析[J]. 艦船電子對抗,2010(5): 83-87.

LI Wei, KE Tao. Simulation analysis of anti-stealth feasibility of radar netting[J]. Shipboard Electronic Countermeasure,2010(5): 83-87. (in Chinese)

[7]Kreucher C, Blatt D, Hero A, et al. Adaptive multi-modality sensor scheduling for detection and tracking of smart targets[J]. Digital Signal Processing, 2006, 16(5): 546-567.

[8]劉先省, 申石磊, 潘泉. 傳感器管理及方法綜述[J]. 電子學報,2002,30(3): 394-398.

LIU Xian-xing , SHEN Shi-lei, PAN Quan. A survey of sensor management and methods[J]. Acta Electronica Sinica, 2002,30(3): 394-398. (in Chinese)

[9]羅開平, 姜維, 李一軍. 傳感器管理述評[J]. 電子學報,2010,38(8): 1900-1907.

LUO Kai-ping, JIANG Wei, LI Yi-jun. Review of sensor management[J]. Acta Electronica Sinica, 2010,38(8): 1900-1907. (in Chinese)

[10]李彬彬, 馮新喜, 王朝英,等. 基于信息增量的多被動傳感器資源分配算法[J]. 系統工程與電子技術, 2012(3): 502-507.

LI Bin-bin, FENG Xin-xi, WANG Chao-ying, et al. Multi-passive sensors resource allocation algorithm based on information gain[J]. Systems Engineering and Electronics, 2012(3): 502-507. (in Chinese)

[11]Williams J L. Information theoretic sensor management[D]. Massachusetts: Massachusetts Institute of Technology, 2007.

[12]Jenkins K L, Castanon D A. Information-based adaptive sensor management for sensor networks[C]∥2011 American Control Conference. San Francisco, CA, US: AACC, 2011:4934-4940.

[13]Wei M, Chen G, Blasch E. Game theoretic multiple mobile sensor management under adversarial environments[C]∥11th International Conference on Information Fusion Cologne. Germany: Air Force Research Laboratory, 2008:645-652.

[14]Li X, Chen G, Blasch E. A geometric feature-aided game theoretic approach to sensor management[C]∥12th International Conference on Information Fusion. Seattle, WA, US: ISIF, 2009:1155-1162.

[15]Lopez J M M, Rodriguez F J J, Corredera J R C. Fuzzy reasoning for multisensor management[C]∥IEEE International Conference on SMC. US: IEEE, 1995: 1398-1403.

[16]Smith J F, Rhyne R D. A fuzzy logic algorithm for optimal allocation of distributed resources[C]∥Proceedings of the Second International Conference on Information Fusion. Mountain View, CA: International Society for Infonmation Fusion, 1999: 402-409.

[17]王博, 周一宇, 魯建華,等. 基于實值粒子群優化的STSS系統傳感器管理算法研究[J]. 系統仿真學報,2009,21(22): 7287-7292.

WANG Bo, ZHOU Yi-yu, LU Jian-hua, et al. Research on sensor management algorithm of STSS based on real-number particle swarm optimization[J]. Journal of System Simulation, 2009,21(22): 7287-7292. (in Chinese)

[18]楊博, 王向華, 邵利平,等. 基于群集智能的傳感器管理方法研究[J]. 兵工學報,2012, 33(2): 155-161.

YANG Bo, WANG Xiang-hua, SHAO Li-ping, et al. Research on sensor management based on collective intelligence[J]. Acta Armamentarii, 2012, 33(2): 155-161. (in Chinese)

[19]Williams J L, Fisher J W, Willsky A S. Approximate dynamic programming for communication-constrained sensor network management[J]. IEEE Transactions on Signal Processing, 2007, 55(8): 4300-4311.

[20]Karmokar A K, Senthuran S, Anpalagan A. POMDP-based cross-layer power adaptation techniques in cognitive radio networks[C]∥Global Communications Conference. Anaheim, California, US:IEEE,2012: 1380-1385.

[21]Hitchings D, Castanon D A. Receding horizon stochastic control algorithms for sensor management[C]∥American Control Conference. MD, US: AACC, 2010:6809-6815.

[22]Krishnamurthy V. Algorithms for optimal scheduling and management of hidden Markov model sensors[J]. IEEE Transactions on Signal Processing, 2002, 50(6): 1382-1397.

[23]Brehard T, Coquelin P A, Duflos E, et al. Optimal policies search for sensor management: application to the AESA radar[C]∥11th International Conference on Information Fusion. Cologne, Germany: Cologne, Germany: International Society for Information Fusion, 2008: 1-8.

[24]Krishnamurthy V, Djonin D V. Optimal threshold policies for multivariate POMDPs in radar resource Management[J]. IEEE Transactions on Signal Processing, 2009, 57(10): 3954-3969.

[25]Li Y, Krakow L W, Chong E K, et al. Approximate stochastic dynamic programming for sensor scheduling to track multiple targets[J]. Digital Signal Processing,2009, 19(6): 978-989.

[26]He Y, Chong E K. Sensor scheduling for target tracking: a Monte Carlo sampling approach[J]. Digital Signal Processing, 2006, 16(5): 533-545.

[27]Nourbakhsh I, Powers R, Birchfield S. DERVISH an office-navigating robot[J]. AI Magazine, 1995, 16(2): 53-60.

[28]Simmons R, Koenig S. Probabilistic robot navigation in partially observable environments[C]∥Proceedings of the International Joint Conference on Artificial Intelligence.Canberra, Australia:World Scientific Publishing Co Pte Ltd, 1995.

[29]Dallaire P, Besse C, Ross S, et al. Bayesian reinforcement learning in continuous POMDPs with Gaussian processes[C]∥International Conference on Intelligent Robots and Systems. St Louis, MO, US:IEEE, 2009: 2604-2609.

[30]Martinez-Cantin R, De Freitas N, Brochu E, et al. A Bayesian exploration-exploitation approach for optimal online sensing and planning with a visually guided mobile robot[J]. Autonomous Robots,2009, 27(2): 93-103.

[31]Pyeatt L D, Howe A E. Integrating POMDP and reinforcement learning for a two layer simulated robot architecture[C]∥The Third Annual Conference on Autonomous Agents. New York, US: ACM, 1999: 168-174.

[32]Eker B I C S, Ak I N H L. Solving decentralized POMDP problems using genetic algorithms[J]. Autonomous Agents and Multi-Agent Systems, 2013, 27(1): 161-196.

[33]Chong E K P, Kreucher C M, Hero A O. Monte-Carlo-based partially observable Markov decision process approximations for adaptive sensing[C]∥9th International Workshop on Discrete Event Systems . Goteborg, Sweden:IEEE,2008: 173-180.

[34]Chong E K, Kreucher C M, Hero Iii A O. Foundations and Applications of Sensor Management[M]. NY: Springer, 2008: 95-119.

[35]Li Y, Krakow L W, Chong E K P, et al. Dynamic sensor management for multisensor multitarget tracking[C]∥40th Annual Conference on Information Sciences and Systems. Princeton, NJ: IEEE,2006: 1397-1402

[36]慈元卓. 面向移動目標搜索的多星任務規劃問題研究[D]. 長沙:國防科學技術大學, 2008.

CI Yuan-zhuo. Multi-satellite mission planning for moveing target search[D]. Changsha: National University of Defence Technology,2008. (in Chinese)

[37]Tharmarasa R, Kirubarajan T. Sensor management for large-scale multisensor-multitarget tracking [D]. Canada: McMaster University,2007.

[38]Bertsekas D P, Castanon D A. Rollout algorithms for stochastic scheduling problems[J]. Journal of Heuristics, 1999,5(1): 89-108.

[39]Guy Shani. POMDP solver-a Java implementation arranged as an Eclipse package of most of the point-based algorithms for solving POMDPs [EB/OL]. [2013-06-01]. http:∥www.bgu.ac.il/~ shanigu/.

Mission Planning of Passive Networked Sensors for Cooperative Anti-stealth Detection Based on POMDP

WAN Kai-fang, GAO Xiao-guang, LI Bo, MEI Jun-feng

(School of Electronics and Information, Northwestern Polytechnical University, Xi’an 710072, Shaanxi, China)

A cooperative strategy for multiple passive networked sensors to satisfy the requirements of anti-stealth is proposed. A POMDP model for the multiple passive networked sensors is established to improve the effectiveness of the anti-stealth detection. The elements of POMDP model are analyzed comprehensively based on the POMDP theory. A cooperative control system of multi-passive-sensors is put forward, and a UKF method for belief state updating together with a MCRS-based (Monte-Carlo Rollout sampling) algorithm forQ-value estimation is presented. A basic policy of CCSP is designed. Experiments show that the proposed model can be used for the efficient management and scheduling of multi-passive-sensors, as well as the effective detection and tracking of the stealth targets by deploying these sensors. The validity of the proposed algorithm is demonstrated.

control science and technology; sensor technology; anti-stealth; multiple sensors networking; POMDP; belief state; mission planning

2013-08-20

全國高等院校博士學科點專項科研基金項目(20116102110026); 空軍裝備預先研究項目(402040103); 西北工業大學基礎研究基金項目(JC201144); 西北工業大學科研啟動基金項目(GAKY300701)

萬開方(1987—), 男, 博士研究生。 E-mail: yibai_2003@126.com;

高曉光(1957—), 女, 教授, 博士生導師。 E-mail: cxg2012@nwpu.edu.cn

TP212

A

1000-1093(2015)04-0731-13

10.3969/j.issn.1000-1093.2015.04.023

猜你喜歡
規劃策略
基于“選—練—評”一體化的二輪復習策略
發揮人大在五年規劃編制中的積極作用
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
十三五規劃
華東科技(2016年10期)2016-11-11 06:17:41
主站蜘蛛池模板: 欧美国产成人在线| 精品久久综合1区2区3区激情| 午夜毛片免费看| 91精品国产自产91精品资源| 国产成人精品一区二区免费看京| 亚洲永久精品ww47国产| 97超爽成人免费视频在线播放| 国产精品自拍露脸视频| 人妻21p大胆| 伊人91在线| 超清无码熟妇人妻AV在线绿巨人| 曰AV在线无码| 谁有在线观看日韩亚洲最新视频| 高清无码一本到东京热| 精品成人免费自拍视频| 在线播放精品一区二区啪视频| 国产精品19p| 亚洲综合第一页| 亚洲综合色婷婷中文字幕| 成人福利在线看| 无遮挡一级毛片呦女视频| 亚洲天堂区| 色综合五月婷婷| 欲色天天综合网| 日韩一二三区视频精品| 精品国产三级在线观看| 久久国产亚洲欧美日韩精品| 国产免费高清无需播放器| 特级精品毛片免费观看| 天天色综网| 毛片三级在线观看| 女人一级毛片| 国产精品白浆在线播放| 无码粉嫩虎白一线天在线观看| 亚洲欧美精品在线| 中文字幕资源站| 国产精品无码影视久久久久久久| 亚洲成年人网| 欧美一级视频免费| 伊人AV天堂| 日韩AV手机在线观看蜜芽| 欧美日韩v| 国产又粗又爽视频| 国产麻豆永久视频| 欧美97色| 欧美日韩精品一区二区视频| 强奷白丝美女在线观看| 亚洲精品国产乱码不卡| 欧美第二区| yjizz国产在线视频网| 人妻丰满熟妇αv无码| 高清无码一本到东京热| 色香蕉网站| 成人福利在线视频免费观看| 91久久国产综合精品| 日韩在线成年视频人网站观看| 91啦中文字幕| 亚洲欧美激情另类| 日韩高清中文字幕| 四虎国产在线观看| 午夜成人在线视频| 日韩毛片免费视频| 全色黄大色大片免费久久老太| 欧美视频免费一区二区三区| 高清无码不卡视频| 国产a在视频线精品视频下载| 玖玖精品在线| 亚洲高清国产拍精品26u| 2021国产乱人伦在线播放| 国产精品视频免费网站| 国产成人精品高清在线| 精品人妻系列无码专区久久| 日韩欧美亚洲国产成人综合| 国产综合欧美| 18黑白丝水手服自慰喷水网站| 亚洲制服丝袜第一页| 国产精品自在在线午夜区app| 国产拍揄自揄精品视频网站| 在线精品自拍| 欧美成人亚洲综合精品欧美激情| 99热最新在线| 国产午夜不卡|