999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種深度強化學習的雷達輻射源個體識別方法

2019-01-02 08:36:42冷鵬飛徐朝陽
兵工學報 2018年12期
關鍵詞:深度動作模型

冷鵬飛, 徐朝陽

(中國船舶重工集團有限公司 第723研究所, 江蘇 揚州 225001)

0 引言

在雷達對抗領域中,雷達輻射源識別技術是電子對抗情報分析領域中的重要研究內容,其水平是衡量電子偵察系統和偵察設備信息處理技術先進程度的重要標志[1]。雷達輻射源個體識別技術通過脈內無意調制特征區分雷達的不同個體[2],當前雷達輻射源識別問題的一個研究熱點為提取輻射源的有效特征[3],通常可將信號包絡特征[4]、高階矩[5]、時頻特征[6]以及模糊函數特征[7]等參數作為輻射源的個體特征。這些特征均需基于先驗知識人工提取,因而所提取特征未必能描述輻射源的本質特點,且人工提取特征過程繁瑣,使得數據庫更新緩慢。

近年來,深度神經網絡的興起使得機器自動提取特征成為現實,深度神經網絡可逼近復雜的非線性函數,具有較強的泛化能力,能夠刻畫數據本質信息[8],且現場可編程門陣列(FPGA)、圖形處理單元(GPU)的加速處理方法使得運算的實時性得以保證。基于此,本文提出了一種深度強化學習的輻射源個體識別方法,利用不同雷達個體發射信號包絡的差異實現輻射源識別,在實際電子對抗環境中,雷達輻射源脈沖寬度從微秒級到毫秒級變化,這種大范圍的脈寬變化使得處理整個輻射源包絡較為困難,考慮到工程應用中系統的實時性要求,本文將輻射源包絡前沿(包絡上升沿及其前后部分數據) 作為個體特征進行輻射源識別。

1 輻射源包絡

1.1 輻射源偵收

圖1給出了一種電子偵察設備個體識別框圖,為了兼顧寬帶接收機偵察范圍大、窄帶接收機靈敏度高的優點,本文采用一種寬帶、窄帶接收機并行工作的方案。寬帶接收機對信道帶寬進行子信道劃分,進而完成各頻段輻射源信號的檢測與參數估計以獲取寬帶脈沖描述字(PDW)樣本集;窄帶接收機分時偵收各頻段輻射源信號,對射頻前端中頻輸出進行采樣、信號檢測及參數估計以獲取窄帶PDW樣本集;寬帶、窄帶PDW樣本集經數據融合后再對其融合結果進行信號分選。信號分選后的輻射源描述字(EDW)將作為個體識別模塊的控制信號,依據窄帶PDW樣本集選擇感興趣的輻射源脈沖s(n)對其進行個體識別,其中n為離散時間。

1.2 輻射源包絡提取

設窄帶接收機偵收輻射源基帶信號為s(n),則其包絡可描述為

(1)

式中:Hilbert[·]為希爾伯特變換。對a(n)進行滑動平均處理可獲得平滑的包絡曲線,以上升沿中點對齊信號包絡,可截取一段包絡前沿作為深度神經網絡的輸入。圖2給出了兩類雷達個體輻射源包絡前沿,圖2中每類輻射源有10個樣本,接收機帶寬為200 MHz,采樣頻率為1 GHz,信噪比SNR≥15 dB. 從圖2中可以看出,兩類輻射源包絡上升沿形狀、過沖點均存在差異,表明不同輻射源個體可通過包絡前沿區分開來。

2 深度強化學習

2.1 馬爾可夫決策過程

討論強化學習模型在C類已知輻射源識別問題中的應用。強化學習任務通常用馬爾可夫決策過程(MDP)來描述,MDP對應四元組,其中:S為輸入狀態集合,s∈S為某個特定狀態;A為可選動作集合,a∈A為某個特定動作;p為當前狀態s在機器執行動作a后轉化為狀態s′的概率;r為當前狀態s在機器執行動作a后轉化為狀態s′時所獲得的獎勵。MDP具有馬爾可夫性質:系統下一時刻狀態只與當前時刻狀態有關,與過往時刻狀態無關。在所述輻射源識別任務中,狀態s為電子偵察設備從外部電磁環境偵收提取的輻射源包絡前沿;a為輻射源類別編號0,1,2,…,C-1;獎勵r依據模型識別結果與雷達數據庫中樣本真實類別的異同而定,相同時r取+1,不同時r取-1;對于狀態轉移概率p而言,盡管下一時刻輻射源包絡前沿s′與當前時刻狀態動作對(s,a)無關,但是在網絡訓練過程中,為了防止過擬合,通常會隨機亂序訓練樣本且各訓練樣本數目分布均勻,因此可以認為狀態轉移概率p=1/C,且s′僅在狀態s下執行動作a時以概率p轉移而得,與過往時刻的狀態無關,即滿足馬爾可夫性質。

2.2 策略

在強化學習中,對于當前輸入狀態s,機器在某種策略π的指引下選擇動作a=π(s),機器學習的目的即為求得最優策略π*. 通常可用狀態- 動作值函數(即Q值函數)評估策略,其數學模型為

(2)

式中:γ為折扣系數,其值在0~1之間,γ的存在是為了確保長期累積獎勵能夠收斂。

(2)式描述了從狀態s出發,執行動作a后使用策略π所帶來的期望累積獎勵,對其進一步推導可得Bellman方程為

Q(s,a)=Es′[r+γEa′~π(s′)[Q(s′,a′)]|s,a,π],

(3)

(4)

式中:Q*(s,a)為使用最優策略π*時所產生的期望累積獎勵。(4)式明確了機器學習的方向,即使得Q值函數收斂于最優Q值函數Q*(s,a)的方向。

(5)

(5)式使得Q值函數依據ε-貪心策略在最小均方差意義下收斂于最優Q值函數Q*(s,a).

在深度學習任務中,輸入向量的維數一般較高,即使最優化問題中損失函數在某點處的梯度為0,其在該點所有分量上呈現出相同凹凸性的概率亦幾乎為0,因此,深度學習中損失函數梯度為0的點更多地考慮為鞍點而非局部最優點,由于梯度噪聲的存在使得網絡能夠跳出鞍點,因而(5)式可用隨機梯度下降類算法求解。

3 具體網絡模型

3.1 深度Q網絡模型

本文討論10類已知雷達輻射源的個體識別問題,輸入輻射源包絡前沿長度為1 024,以卷積神經網絡[10]擬合Q值函數,圖3給出了其模型,該模型為深度Q網絡(DQN)模型[11],由2層卷積池化層、3層全連接層組成。第1層卷積層卷積核大小為5×1,提取輻射源包絡前沿6個底層特征,第2層卷積層進一步提取包絡前沿高層特征,池化層使用某一位置相鄰輸出的總體統計特征代替網絡在該位置的輸出[12],通過對卷積層輸出特征圖中相鄰像素點取最大值的方式實現池化運算,使網絡在保留輻射源本質特征信息的同時可以減少數據量。全連接層用于將這些特征連接起來,多層全連接層級聯能夠增強網絡的學習能力。

對于輻射源包絡前沿s,經過網絡正向傳播后即可得到當前狀態s下執行各動作時的Q值,即Q(s,a;θ),其中a為整數0,1,…,9.

經過訓練后,網絡將收斂至最優Q值函數。由于目標Q值函數與Q值函數之間存在相關性,深度強化學習模型在訓練時難以收斂,為了緩解這個問題,可在Q值函數擬合網絡多次迭代后更新一次目標Q值函數以降低其相關性,即將(5)式變為

(6)

式中:參數向量θ-在多次迭代后得到參數向量θ.

3.2 深度雙Q網絡模型

DQN模型以卷積神經網絡擬合Q值函數,進而通過梯度下降類算法求解(6)式最優化問題,分析(6)式可知,其目標Q值函數采用同樣的擬合函數選擇最優動作并對其進行評估,即有

(7)

在這個過程中,θ-并沒有更新,這種方式會導致Q值的高估,若這種過高的估計對于所有潛在決策是不一致的,則可能導致策略選擇次優解[13]。對于狀態空間連續取值的強化學習任務來說,有限的學習樣本不能使神經網絡擬合出適用于所有狀態動作對的Q值函數,因此所擬合的Q值函數曲線會在真實Q值曲線周圍波動。由于目標Q值函數值求解過程中需要選擇,使得Q值達到最大的動作,網絡估計的Q值可能比真實Q值高。深度雙Q網絡(DDQN)模型采用兩個卷積神經網絡,分別用于選擇最優動作和策略評估,緩解了這個問題,其目標Q值數學模型為

(8)

在實際應用時,與(6)式中降低目標Q值函數與Q值函數相關性的方法類似,可以用一個網絡實現,即參數向量θ-為參數向量θ多次迭代前的向量。

3.3 Dueling Network模型

與DQN模型不同,Dueling Network模型[14]將Q值函數分解為狀態值函數V(s)與動作優勢函數A(s,a),其數學模型為

(9)

(10)

式中:α、β分別為狀態值函數與動作優勢函數全連接層的參數向量。Dueling Network模型與DQN模型的區別在于最后一層全連接層,DQN模型直接擬合Q(s,a),而Dueling Network最后一層由并聯的兩個全連接層組成,擬合A(s,a)的全連接層與DQN模型相同,輸出C個通道,而擬合V(s)的全連接層只有一個輸出通道。為了便于論述,記(9)式為“極值法”、(10)式為“均值法”。網絡收斂后,極值法中V(s)、A(s,a)能夠給出狀態值函數及動作優勢函數的估計[14],但是(9)式使得網絡難以收斂;均值法中V(s)、A(s,a)在網絡收斂后與實際估計存在一個常數偏差,但(10)式能夠保證網絡穩定收斂。圖4給出了網絡訓練過程中兩種Q值擬合方法的Q值曲線以及訓練精度- 迭代次數曲線(具體仿真實驗參數見第4.1節、4.2節)。為了清楚地對比兩種方法的性能,圖4中曲線為實際曲線均勻降采樣的結果,圖4中平均Q值為64個輻射源包絡前沿Q值的平均(動作為使Q值最大的動作)。從圖4中可以看出,均值法Q值、訓練精度穩定上升,且訓練精度逐漸收斂。Q值曲線仍呈現上升趨勢的原因是(2)式中γ為0.99,理想情況下網絡收斂時獎勵r恒等于1,因而理論上最優Q值為100,在分類識別任務中,長時間的迭代會導致模型過擬合,因此當模型訓練精度滿足工程需求時即可停止訓練。

4 實測數據仿真實驗

4.1 實驗環境

實驗平臺為Ubuntu Linux16.04,深度學習模型架構為TensorFlow,程序接口為Python 2.7,圖形處理器為NVIDIA GeForce GTX 1080Ti. 為了確保深度學習模型可靠泛化,主要考慮3個方面問題:1)模型對不同型號、不同雷達個體輻射源信號的識別能力;2)模型對相同型號、不同雷達個體輻射源的識別能力;3)模型對不同接收系統所偵收輻射源的識別能力。為此,樣本集中含同型號導引頭輻射源信號4類、同型號機械掃描雷達輻射源信號4類、同型號雷達模擬器輻射源信號2類,共10類輻射源樣本,每類樣本數據量為6 000,其中訓練集樣本數量為54 000,測試集樣本數量為6 000,訓練集與測試集中各輻射源類別數量分布均勻。雷達輻射源經不同偵收系統采集,利用抽取、插值等處理方法將信號采樣率統一為1 GHz,對齊包絡后取1 024個離散樣本點作為輻射源包絡前沿數據。圖5為某雷達個體輻射源包絡前沿(10個樣本)。從圖5中可以看出,樣本集中相同雷達個體輻射源包絡前沿間亦存在差異。因此,可用模型的測試精度評估其泛化能力。

4.2 模型訓練

模型訓練步驟如下:

1)采用Xavier方法[15]初始化擬合Q值函數的網絡參數向量θ;

2)初始化擬合目標Q值函數的網絡參數向量θ-;

3)對于當前輸入狀態(輻射源包絡前沿)s,利用ε-貪心算法選擇動作a(某個類別);

4)若a與雷達數據庫中的樣本真實類別相同,則獲取獎勵r=+1,否則r=-1;

5)載入下一時刻狀態s′,利用(8)式計算目標Q值函數y(DQN模式為(7)式);

6)對|y-Q(s,a;θ)|2使用梯度下降類算法更新網絡參數θ;

7)每D次迭代使得θ-=θ;

8)重復步驟3~步驟7,直至網絡收斂。

模型訓練參數如下:學習率為0.000 25,minibatch大小為64,迭代次數為2 000,參數更新周期D為15,概率ε=0.5×0.02i/1 500(i為當前迭代次數),折扣系數γ為0.99,采用Adam算法訓練網絡,其中梯度動量β1為0.9,梯度平方動量β2為0.999,引入誤差e為10-8以確保計算過程數值穩定。

圖6為3種模型的訓練結果,為了清楚地對比3種模型的性能,圖6中曲線為實際曲線均勻降采樣所得。從圖6中可以看出,3種模型訓練精度均已收斂,且DDQN模型、Dueling Network模型的Q值估計低于DQN模型。圖6(a)中存在許多訓練精度瞬間下降的毛刺,這是因為迭代初期機器不斷選擇非最優動作導致的,圖6(a)中ε-貪心策略的概率ε隨著迭代次數的增加而降低,在迭代初期ε較大,機器會以較大概率選擇非最優動作訓練網絡,因而毛刺較為密集;隨著ε的減小,這種現象得以緩解。事實上,在測試時機器總是選擇最優動作執行,因此這些毛刺不會對網絡測試精度造成影響。

4.3 測試結果

測試實驗對比了傳統機器學習算法與深度神經網絡的識別性能,其中,k近鄰(k-NN)算法的近鄰數k取20,以L1范數與L2范數兩種方法度量待識別輻射源包絡與已識別樣本的距離,支持向量機(SVM)采用線性函數(linear function)與徑向基函數(RBF)作為核函數,對輻射源包絡進行識別。表1為各模型運算時間對比,其中訓練平均時間為模型訓練時1個minibatch(使用梯度下降類算法求解最優化問題過程中單步迭代參與運算的樣本數據,即64個輻射源包絡前沿)平均每次迭代所消耗的時間,測試平均時間為測試模型識別能力時1個minibatch數據正向傳播過程所消耗的時間,其值為多次實驗的平均結果。分析表1中數據可知,3種模型可實時實現且運算時間大致相當,這是因為3種模型中運算復雜度較高的深層網絡結構相同,其差別僅在于Q值函數、目標Q值函數的擬合方式。在實際工程應用時,可將一臺服務器專門用于模型的訓練,并將訓練完成的網絡參數即時傳輸給FPGA(或PowerPC等實時處理設備),最終的輻射源識別功能則交由FPGA(或PowerPC)完成。表2為測試精度對比,從表2中可以看出,傳統k-NN算法、SVM算法識別率不足80%,而本文所述3種深度神經網絡模型識別率均在96%以上,且Dueling Network模式識別率高達98.42%.

表1 3種模型的運算時間對比

表2 7種模型的測試精度對比

5 結論

本文討論了深度強化學習在已知雷達輻射源個體識別中的應用。從用于輻射源個體識別的電子偵察設備方案出發,分析了深度強化學習理論在輻射源識別中的具體表現形式,給出了DQN模型、DDQN模型以及Dueling Network模型3種具體網絡模型,實測數據仿真實驗結果表明,相較于傳統機器學習算法而言,深度強化學習算法能夠在保證一定運算實時性的同時取得更高的識別率。

猜你喜歡
深度動作模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
動作描寫要具體
畫動作
動作描寫不可少
主站蜘蛛池模板: 91在线视频福利| 国产高清在线观看| 99视频国产精品| 中文无码精品a∨在线观看| 国产男人的天堂| 精品国产中文一级毛片在线看 | 波多野结衣一区二区三区AV| 无码人中文字幕| 国产18页| 福利视频一区| 精品一区国产精品| 亚洲无线国产观看| 精品一区国产精品| 日本午夜影院| 亚洲三级电影在线播放| 婷婷激情五月网| 日韩不卡免费视频| 55夜色66夜色国产精品视频| 国产麻豆福利av在线播放| 大陆国产精品视频| 亚洲综合色婷婷| 日韩精品一区二区三区大桥未久 | 免费人成视频在线观看网站| 欧美国产菊爆免费观看| 国产黄网站在线观看| 欧美自慰一级看片免费| 噜噜噜久久| 成人小视频在线观看免费| AV网站中文| 伊人网址在线| 自慰高潮喷白浆在线观看| 久久综合一个色综合网| 毛片久久网站小视频| 久久综合九色综合97婷婷| 精品国产www| 国产91麻豆视频| 国产成人亚洲无码淙合青草| 欧美日韩亚洲国产| 91麻豆久久久| 欧美成人午夜在线全部免费| 欧美www在线观看| 国产真实乱了在线播放| 国产簧片免费在线播放| 国产黑人在线| 国产成人久久777777| 日韩欧美亚洲国产成人综合| 欧美激情伊人| 国产亚卅精品无码| 亚洲色图欧美视频| 热久久国产| 热伊人99re久久精品最新地| 国产午夜不卡| 精品91自产拍在线| 日韩av资源在线| 欧美在线一级片| 国产原创演绎剧情有字幕的| 456亚洲人成高清在线| 国产精品天干天干在线观看| 国产在线麻豆波多野结衣| 女高中生自慰污污网站| 精品三级在线| 久久精品人人做人人综合试看| 免费A级毛片无码无遮挡| 亚洲午夜国产精品无卡| 91精品国产麻豆国产自产在线 | 四虎精品国产永久在线观看| 国产成人福利在线| 国产精品专区第1页| 久草美女视频| 中文字幕在线免费看| 伊人久久综在合线亚洲2019| av手机版在线播放| 国产成人综合日韩精品无码首页| 操国产美女| 91亚洲免费| 亚洲天堂自拍| 国产精品人成在线播放| 99热这里只有精品免费| 色婷婷在线影院| 又爽又黄又无遮挡网站| AV色爱天堂网| 高清无码手机在线观看|