999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強(qiáng)化學(xué)習(xí)的多雷達(dá)抗干擾算法研究

2024-04-11 01:36:14智永鋒邱璐瑩高紅崗師浩博
現(xiàn)代雷達(dá) 2024年2期
關(guān)鍵詞:深度智能環(huán)境

智永鋒,邱璐瑩*,張 龍,高紅崗,師浩博

(1. 西北工業(yè)大學(xué) 無人系統(tǒng)技術(shù)研究院, 陜西 西安 710072) (2. 西北工業(yè)大學(xué) 民航學(xué)院, 陜西 西安 710072)

0 引 言

隨著科技發(fā)展,大量無線電設(shè)備使用,造成了頻譜擁擠。2000年,文獻(xiàn)[1]提出了認(rèn)知無線電,把無線電賦予智能化,能夠智能響應(yīng)用戶的感知需求。2002年,聯(lián)邦通信委員會(huì)針對(duì)頻譜效率問題對(duì)認(rèn)知無線電做出定義。軟件無線電技術(shù)的完善,為認(rèn)知無線電研究打下了堅(jiān)實(shí)基礎(chǔ)。雷達(dá)在戰(zhàn)爭發(fā)揮著重要作用,而戰(zhàn)場(chǎng)環(huán)境瞬息萬變,有其他電子設(shè)備干擾,有敵方干擾機(jī)干擾,還存在著環(huán)境雜波。為解決此類問題,需要推進(jìn)雷達(dá)智能化發(fā)展。2006年,文獻(xiàn)[2]提出了認(rèn)知雷達(dá)概念,讓雷達(dá)根據(jù)探測(cè)的環(huán)境情況,調(diào)整自身參數(shù),提高雷達(dá)檢測(cè)跟蹤能力。認(rèn)知雷達(dá)的提出,為人工智能理論用于雷達(dá)抗干擾指明了方向。文獻(xiàn)[3]提出了認(rèn)知雷達(dá)的感知-行動(dòng)循環(huán),把感知數(shù)據(jù)作為記憶以預(yù)測(cè)未來環(huán)境進(jìn)行決策。文獻(xiàn)[4]把認(rèn)知雷達(dá)用于汽車?yán)走_(dá)的抗干擾,讓波形在測(cè)量周期內(nèi)自適應(yīng)地調(diào)整以達(dá)到抗干擾的目的。文獻(xiàn)[5]通過均衡契約的方式進(jìn)行頻譜共享,文獻(xiàn)[6]提出了軍用頻譜共享的框架。

本文將環(huán)境劃分為多個(gè)子頻段,用馬爾可夫模型對(duì)多雷達(dá)系統(tǒng)進(jìn)行建模,對(duì)掃頻干擾每一時(shí)刻占用頻段進(jìn)行建模。對(duì)雙深度Q網(wǎng)絡(luò)(Double DQN)強(qiáng)化學(xué)習(xí)算法進(jìn)行改進(jìn),與門控循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,使之能處理依賴于長時(shí)間序列的干擾問題。提出了基于門控循環(huán)單元的深度確定性策略強(qiáng)化學(xué)習(xí)算法,其針對(duì)Double DQN強(qiáng)化學(xué)習(xí)中的網(wǎng)絡(luò)臃腫和行動(dòng)集巨大問題進(jìn)行了改進(jìn)。最后,進(jìn)行了兩種網(wǎng)絡(luò)對(duì)于單雷達(dá)系統(tǒng)和多雷達(dá)系統(tǒng)的對(duì)比仿真實(shí)驗(yàn),證實(shí)了深度確定性策略梯度遞歸網(wǎng)絡(luò)能達(dá)到與雙深度遞歸Q網(wǎng)絡(luò)同樣的性能,但深度確定性策略梯度遞歸網(wǎng)絡(luò)的輸出維度更小,且兩算法都實(shí)現(xiàn)了多雷達(dá)系統(tǒng)的抗干擾及不對(duì)己方其他雷達(dá)造成干擾。

1 雷達(dá)干擾系統(tǒng)模型

1.1 雷達(dá)掃頻干擾

掃頻干擾是一種隨著時(shí)間變化而不斷改變頻率的干擾。掃頻干擾可以是一次占用一個(gè)頻帶也可以是一次占用多個(gè)頻帶,可以是頻帶每一時(shí)刻左移或右移一位或多位。將干擾所在頻帶抽象為二進(jìn)制符號(hào),0代表此頻帶未被干擾占用,1則相反。例如,把300 MHz的頻段分為6段,則每一頻帶占用50 MHz,假設(shè)掃頻干擾每次占用100 MHz,每一時(shí)刻右移50 MHz,則其表示如圖1所示。

圖1 掃頻干擾示意圖

1.2 雷達(dá)系統(tǒng)

雷達(dá)包括有單雷達(dá)、多雷達(dá)系統(tǒng)。雷達(dá)系統(tǒng)中,雷達(dá)發(fā)射電磁波,電磁波碰到環(huán)境障礙物反射回來,形成回波信號(hào),雷達(dá)接收回波信號(hào)。接收的信號(hào)不僅有反射的電磁波頻移信號(hào),還有干擾。雷達(dá)大腦根據(jù)過去的經(jīng)驗(yàn),對(duì)當(dāng)前情況做出決策判斷,動(dòng)態(tài)地根據(jù)歷史中不同情況下采取的決策而變化,使其能夠自適應(yīng)調(diào)整決策,應(yīng)對(duì)未知環(huán)境。雷達(dá)框架如圖2所示。

圖2 雷達(dá)系統(tǒng)框架

上述過程可以看作是一個(gè)馬爾可夫過程[7-8],雷達(dá)下一時(shí)刻做出的決策僅與當(dāng)前的環(huán)境狀態(tài)有關(guān),而與過去環(huán)境狀態(tài)無關(guān),可以用一個(gè)五元組(S,A,F,R,γ)來描述,其中

Ftn|t1…tn-1(sn|sn-1,an-1,…,s1,a1)=

Ftn|tn-1(sn|sn-1,an-1)

(1)

式中:S為狀態(tài)空間;A為動(dòng)作空間;F為狀態(tài)轉(zhuǎn)移概率即環(huán)境變化函數(shù);R為獎(jiǎng)勵(lì)函數(shù);γ為折扣因子。

在多雷達(dá)系統(tǒng)不僅存在著環(huán)境的干擾,還存在著周圍雷達(dá)的干擾。在本文中,將雷達(dá)作為智能體進(jìn)行研究,智能體檢測(cè)到環(huán)境狀態(tài)包括了外界干擾和其他雷達(dá)干擾的總和,即

Sit=It+At-1

(2)

多雷達(dá)有兩種方案,一種是多個(gè)系統(tǒng)共用一個(gè)大腦,還有一種是每個(gè)系統(tǒng)各有一個(gè)大腦。在實(shí)驗(yàn)部分將對(duì)這兩種方案分別進(jìn)行表述。

2 強(qiáng)化學(xué)習(xí)算法模型

強(qiáng)化學(xué)習(xí)主要是根據(jù)環(huán)境信息,智能體做出動(dòng)作,環(huán)境對(duì)于智能體做出的動(dòng)作進(jìn)行評(píng)估,反饋給智能體一個(gè)獎(jiǎng)勵(lì)值。智能體根據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)情況調(diào)整自身的策略,根據(jù)下一時(shí)刻環(huán)境狀態(tài)做出動(dòng)作,以此類推,如圖3所示。

圖3 強(qiáng)化學(xué)習(xí)基本模型

有學(xué)者提出了Q表格的方法,把環(huán)境狀態(tài)和行動(dòng)量化成一個(gè)表格,智能體得到一個(gè)環(huán)境狀態(tài),做出一次行動(dòng),都在表格上填上相應(yīng)的獎(jiǎng)勵(lì)值,這里獎(jiǎng)勵(lì)值就相當(dāng)于Q值,如表1所示。

表1 Q表格

環(huán)境狀態(tài)數(shù)m的大小取決于環(huán)境狀態(tài)維度和每一維度下的取值個(gè)數(shù)。如果環(huán)境維度和取值個(gè)數(shù)較大,將會(huì)導(dǎo)致上述表格十分巨大,在程序運(yùn)行時(shí),消耗巨大的內(nèi)存資源,時(shí)間復(fù)雜度高。于是有學(xué)者就提出了將神經(jīng)網(wǎng)絡(luò)用于智能體決策。對(duì)于神經(jīng)網(wǎng)絡(luò),輸入的大小等于環(huán)境狀態(tài)維度,輸出的大小等于行動(dòng)個(gè)數(shù),智能體利用環(huán)境狀態(tài),經(jīng)過一系列前向神經(jīng)網(wǎng)絡(luò)運(yùn)算就可以得到每個(gè)行動(dòng)的Q值,選擇最大的Q值作為本次行動(dòng),再通過環(huán)境的獎(jiǎng)勵(lì)反饋給神經(jīng)網(wǎng)絡(luò)。

直接把獎(jiǎng)勵(lì)作為訓(xùn)練方向的判斷會(huì)引起網(wǎng)絡(luò)的震蕩,使網(wǎng)絡(luò)不易收斂。在獎(jiǎng)勵(lì)范圍大,變化劇烈情況下,這種直接的方法對(duì)于長期任務(wù)來說并不適用,通常需要考慮下一時(shí)刻的獎(jiǎng)勵(lì),對(duì)目標(biāo)Q值進(jìn)行軟更新。

(3)

在雷達(dá)系統(tǒng)中,雷達(dá)僅僅根據(jù)當(dāng)前的干擾環(huán)境狀態(tài),通常是無法判斷干擾的下一刻走向的。長短時(shí)記憶網(wǎng)絡(luò)即LSTM網(wǎng)絡(luò)通常用于語音識(shí)別、語義識(shí)別,它具有一定的記憶,可以通過過去一段時(shí)間的狀態(tài)推測(cè)現(xiàn)在的輸出。掃頻干擾與時(shí)間序列有關(guān),有必要結(jié)合語言識(shí)別中常用的LSTM網(wǎng)絡(luò),作為雷達(dá)智能體抗干擾的一部分,門控循環(huán)單元有LSTM網(wǎng)絡(luò)的優(yōu)點(diǎn),網(wǎng)絡(luò)參數(shù)少,易于訓(xùn)練收斂,因此最終將門控循環(huán)單元加入了雷達(dá)智能體。針對(duì)雷達(dá)抗干擾方面,提出了下面兩種方法進(jìn)行對(duì)抗。

2.1 改進(jìn)雙深度遞歸值強(qiáng)化學(xué)習(xí)

雙深度遞歸值網(wǎng)絡(luò)(GRU-DDQN)由雙深度強(qiáng)化學(xué)習(xí)(Double DQN)網(wǎng)絡(luò)進(jìn)化而來[9]。Double DQN采用神經(jīng)網(wǎng)絡(luò)取代Q值表格,防止了環(huán)境狀態(tài)數(shù)過大;建立了兩個(gè)網(wǎng)絡(luò),一個(gè)用于計(jì)算當(dāng)前Q值,一個(gè)用于計(jì)算下一狀態(tài)Q′值,兩個(gè)網(wǎng)絡(luò)不完全一樣,Q值網(wǎng)絡(luò)一種在更新,而Q′網(wǎng)絡(luò)只有在運(yùn)行一定步數(shù)后,把Q值網(wǎng)絡(luò)復(fù)制過來,這樣兩個(gè)網(wǎng)絡(luò)有延遲,可以防止估計(jì)的Q值過大而引起網(wǎng)絡(luò)的不穩(wěn)或網(wǎng)絡(luò)估計(jì)的失真的問題。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4 Double DQN強(qiáng)化學(xué)習(xí)架構(gòu)

由于Double DQN具有無后向性,無法學(xué)習(xí)與時(shí)序狀態(tài)有關(guān)的行動(dòng)策略,為了使智能體能處理依賴于長時(shí)間序列的干擾問題,提出了循環(huán)神經(jīng)網(wǎng)絡(luò)與深度強(qiáng)化學(xué)習(xí)相結(jié)合的方法。循環(huán)神經(jīng)網(wǎng)絡(luò)主要是用于序列數(shù)據(jù)的處理[10],在強(qiáng)化學(xué)習(xí)中加入循環(huán)神經(jīng)網(wǎng)絡(luò)可以使雷達(dá)做出抗干擾性能更好的決策。循環(huán)神經(jīng)網(wǎng)絡(luò)中的門控循環(huán)單元網(wǎng)絡(luò)(GRU)有長短時(shí)記憶循環(huán)網(wǎng)絡(luò)(LSTM)的優(yōu)點(diǎn)[11-13],解決了長期依賴的梯度爆炸問題和梯度消失問題,又減少了網(wǎng)絡(luò)參數(shù),加快訓(xùn)練和收斂速度。

本文把頻譜分割成五個(gè)頻段,網(wǎng)絡(luò)的輸入是5×5大小的,網(wǎng)絡(luò)的輸出大小為1×15。根據(jù)行動(dòng)、獎(jiǎng)勵(lì)和價(jià)值估算,計(jì)算出與神經(jīng)網(wǎng)絡(luò)輸出值相對(duì)應(yīng)的價(jià)值Q,通過最小化Q與目標(biāo)y之間的差或者均方差,即最小化損失函數(shù),來更新網(wǎng)絡(luò)權(quán)重。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 GRU-DDQN強(qiáng)化學(xué)習(xí)架構(gòu)

2.2 深度確定性策略門控循環(huán)強(qiáng)化學(xué)習(xí)

當(dāng)行動(dòng)的數(shù)目太多時(shí),網(wǎng)絡(luò)變得難以訓(xùn)練或收斂。為了解決這個(gè)問題,提出了基于深度確定性策略門控循環(huán)強(qiáng)化學(xué)習(xí)(GRU-DDPG),主要是將基于值學(xué)習(xí)的方法變?yōu)榛诓呗缘姆椒?將門控循環(huán)單元網(wǎng)絡(luò)與深度確定性策略梯度強(qiáng)化學(xué)習(xí)(DDPG)項(xiàng)結(jié)合。策略梯度更新公式為

(4)

式中:θ是神經(jīng)網(wǎng)絡(luò)模型參數(shù);U(θ)是參數(shù)為θ下的期望獎(jiǎng)勵(lì);θU(θ)則是對(duì)期望獎(jiǎng)勵(lì)函數(shù)中的參數(shù)θ進(jìn)行求導(dǎo);T為智能體完成一個(gè)序列的長度;m為訓(xùn)練數(shù)據(jù)的輪次大小;為在時(shí)刻t,第i輪中采取的動(dòng)作;為在時(shí)刻t,第i輪中的環(huán)境狀態(tài);為策略函數(shù);為在狀態(tài)下的獎(jiǎng)勵(lì);為時(shí)間t以后的折扣累計(jì)獎(jiǎng)勵(lì),γ為折扣因子。

深度確定性策略門控循環(huán)強(qiáng)化學(xué)習(xí)[14]的網(wǎng)絡(luò)輸入層是GRU網(wǎng)絡(luò)層,一共有四個(gè)神經(jīng)網(wǎng)絡(luò),一個(gè)用于決定當(dāng)前時(shí)刻下的環(huán)境狀態(tài)做出的行動(dòng),一個(gè)是用于預(yù)測(cè)下一狀態(tài)下的行動(dòng),一個(gè)用于評(píng)價(jià)當(dāng)前狀態(tài)和行動(dòng)的價(jià)值,一個(gè)用于評(píng)價(jià)下一狀態(tài)和預(yù)測(cè)的行動(dòng)的價(jià)值。其算法結(jié)構(gòu)如圖6所示。

圖6 GRU-DDPG網(wǎng)絡(luò)結(jié)構(gòu)

目標(biāo)y的計(jì)算公式如下

y=Qtarget=R+γQ′

(5)

式中:Qtarget為目標(biāo)值;R為環(huán)境獎(jiǎng)勵(lì);γ為折扣因子;Q′估計(jì)下一時(shí)刻的評(píng)估值。

評(píng)估神經(jīng)網(wǎng)絡(luò)critic網(wǎng)絡(luò)輸入是當(dāng)前狀態(tài)和動(dòng)作,輸出對(duì)于當(dāng)前狀態(tài)動(dòng)作的評(píng)估值,其更新是通過最小化目標(biāo)評(píng)估值和評(píng)估值直接差距來梯度反向傳播,更新網(wǎng)絡(luò)。動(dòng)作神經(jīng)網(wǎng)絡(luò)actor網(wǎng)絡(luò)的更新是通過最大化評(píng)估值Q來實(shí)現(xiàn)。估計(jì)動(dòng)作神經(jīng)網(wǎng)絡(luò)actor′網(wǎng)絡(luò)和估計(jì)評(píng)分神經(jīng)網(wǎng)絡(luò)critic′網(wǎng)絡(luò)分別由actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)更新而來,更新公式如下

(6)

(7)

3 結(jié)果分析

本次實(shí)驗(yàn)假設(shè)雷達(dá)能正確感知到環(huán)境并把感知情況化為一串0-1序列。假設(shè)雷達(dá)能發(fā)射占用連續(xù)頻帶的波形,只需要輸出頻段大小和位置即可,省略信號(hào)的發(fā)射部分。設(shè)置環(huán)境頻譜大小為100 MHz,分為五個(gè)頻帶,每個(gè)頻帶占用25 MHz,干擾為掃頻干擾。分別進(jìn)行單雷達(dá)和多雷達(dá)的系統(tǒng)抗干擾[15]仿真,對(duì)每個(gè)系統(tǒng)采用兩種方法進(jìn)行仿真結(jié)果分析。

3.1 單雷達(dá)仿真

對(duì)于GRU_DDQN方法,即采用雙深度遞歸Q網(wǎng)絡(luò)的方法,使用獎(jiǎng)勵(lì)函數(shù)(8)作為環(huán)境反饋。

(8)

迭代20 000次后得到的曲線圖如圖7所示。

圖7 GRU-DDQN方法用于單雷達(dá)

智能體的迭代獎(jiǎng)勵(lì)雖然能夠快速升高,到5 000步之后基本可以達(dá)到獎(jiǎng)勵(lì)最大的情況出現(xiàn),但智能體對(duì)于決策一直處于在較大范圍震蕩中,直到15 000步以后較為穩(wěn)定。雷達(dá)智能體對(duì)于抗干擾的測(cè)試結(jié)果如表2所示。

表2 GRU-DDQN測(cè)試結(jié)果

從表中可以看出雷達(dá)智能體做出的行動(dòng)占用的頻點(diǎn)不與干擾的頻點(diǎn)相撞,智能體可以躲避干擾所在頻點(diǎn)。智能體有時(shí)無法占滿沒有干擾的頻點(diǎn),使得獎(jiǎng)勵(lì)值未達(dá)到最大。

對(duì)于使用深度確定性策略梯度遞歸網(wǎng)絡(luò),若使用與GRU-DDQN方法一樣的獎(jiǎng)勵(lì)函數(shù),則經(jīng)常有陷入局部最優(yōu)的情況出現(xiàn),智能體不對(duì)環(huán)境發(fā)射信號(hào)。為了能更好地指導(dǎo)智能體尋找到每一狀態(tài)下的最優(yōu)策略,需要運(yùn)用獎(jiǎng)勵(lì)函數(shù)為式(9)~式(11)

(9)

(10)

R=R1+R2

(11)

智能體使用上述獎(jiǎng)勵(lì)函數(shù),基本可以達(dá)到最優(yōu)獎(jiǎng)勵(lì)的行動(dòng)。考慮到神經(jīng)網(wǎng)絡(luò)的輸出空間大于智能體行動(dòng)空間,屬于輸出空間但不在行動(dòng)空間里的某些動(dòng)作,在獎(jiǎng)勵(lì)函數(shù)(9)~(11)下,獎(jiǎng)勵(lì)大于在行動(dòng)空間里的所有動(dòng)作,智能體根據(jù)盡量往獎(jiǎng)勵(lì)大的方向靠攏,采取了不符合行動(dòng)空間的動(dòng)作。為了減少此類狀況發(fā)生,就需要修改為獎(jiǎng)勵(lì)函數(shù)(12)~(14),如下所示。

(12)

(13)

(14)

R=R1+R2+R3

(15)

通過上述優(yōu)化,離最優(yōu)解的差別還是挺大的,為此我們將限制直接加入到智能體輸出中,即當(dāng)智能體的輸出有多個(gè)離散的頻段時(shí),只取最左邊的離散頻段,示意圖如圖8所示。

圖8 網(wǎng)絡(luò)輸出調(diào)整

實(shí)驗(yàn)結(jié)果如圖9和表3所示。

表3 GRU-DDPG方法單雷達(dá)實(shí)驗(yàn)測(cè)試結(jié)果

圖9 GRU-DDPG方法用于單雷達(dá)

從表3中可以看到,雷達(dá)智能體的決策行動(dòng)頻點(diǎn)有效地避開了干擾,達(dá)到了抗干擾效果。智能體也會(huì)有錯(cuò)失可用頻段的情況,但總體來說比未改進(jìn)時(shí)的情況更好,迭代獎(jiǎng)勵(lì)值更高。

對(duì)兩種方法的迭代曲線進(jìn)行對(duì)比,如圖10所示。

圖10 GRU-DDPG和GRU-DDQN用于單雷達(dá)

從圖10中可以看出兩種方法都能達(dá)到相似的優(yōu)化效果,但GRU-DDQN方法速度較快, GRU-DDPG方法變化平穩(wěn)。

3.2 多雷達(dá)仿真

對(duì)于多個(gè)雷達(dá)來說,不僅要判斷敵方的掃頻干擾,還需要判斷己方其他雷達(dá)造成的干擾。需要雷達(dá)具備更高智能性,對(duì)網(wǎng)絡(luò)提出了更高的要求。多雷達(dá)當(dāng)前有兩種方案:一種所有雷達(dá)智能體共用一個(gè)大腦做出決策,另一種是每個(gè)雷達(dá)智能體都有各種的神經(jīng)網(wǎng)絡(luò)大腦。實(shí)驗(yàn)證明,只使用一個(gè)大腦的效果并不理想,它雖然能躲開外部的干擾,但對(duì)內(nèi)部干擾無能為力,會(huì)讓所有的智能體都趨向于使用同一頻段,他們檢測(cè)到的環(huán)境狀態(tài)基本相同,同一輸入狀態(tài)、同一神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),必然會(huì)輸出相同的決策。當(dāng)所有智能體都使用同樣決策時(shí),頻譜沖突就無法避免,自然會(huì)引起相互干擾。其實(shí)驗(yàn)結(jié)果圖和數(shù)據(jù)如圖11和表4、表5所示。

表4 方案1的GRU-DDQN測(cè)試結(jié)果

表5 方案1的GRU-DDPG測(cè)試結(jié)果

圖11 方案1(多個(gè)雷達(dá)單大腦網(wǎng)絡(luò))迭代曲線

由圖11、表4和表5可知,在方案1中,由于多個(gè)雷達(dá)智能體在每一時(shí)刻都采取同一動(dòng)作,導(dǎo)致智能體之間的決策相互沖突,獎(jiǎng)勵(lì)一直為負(fù)。

為了解決智能體總是采取同一動(dòng)作,我們采取了方案2。基于GRU-DDQN算法和基于GRU-DDPG算法的實(shí)驗(yàn)結(jié)果如圖12和表6、表7所示。

表6 方案2的GRU-DDQN多雷達(dá)結(jié)果

表7 方案2的GRU-DDPG多雷達(dá)結(jié)果

圖12 方案2(多個(gè)雷達(dá)多大腦網(wǎng)絡(luò))迭代曲線

可以看到智能體基本上能避開環(huán)境干擾和其他智能體的干擾,獲得較高的獎(jiǎng)勵(lì)。GRU-DDPG算法的效果稍好于GRU-DDQN算法。

4 結(jié)束語

本文針對(duì)雷達(dá)受到掃頻信號(hào)的干擾的情況,提出了基于深度強(qiáng)化學(xué)習(xí)的多雷達(dá)共存抗干擾算法。對(duì)環(huán)境進(jìn)行模型的建立和簡化,采用雙深度循環(huán)Q網(wǎng)絡(luò)進(jìn)行抗干擾解算,將其循環(huán)網(wǎng)絡(luò)修改為門控循環(huán)單元,取得了良好的效果。提出了一種深度確定性策略梯度遞歸網(wǎng)絡(luò),該網(wǎng)絡(luò)在頻帶數(shù)量多的時(shí)候,可以減小網(wǎng)絡(luò)的神經(jīng)元個(gè)數(shù),大大節(jié)省網(wǎng)絡(luò)的存儲(chǔ)空間。實(shí)驗(yàn)結(jié)果表明,本文的算法可以使雷達(dá)系統(tǒng)避開存在干擾的頻點(diǎn),有效降低來自外界和己方雷達(dá)相互之間干擾。

猜你喜歡
深度智能環(huán)境
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
深度理解一元一次方程
孕期遠(yuǎn)離容易致畸的環(huán)境
深度觀察
深度觀察
環(huán)境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
主站蜘蛛池模板: 久操线在视频在线观看| 91麻豆精品国产高清在线| 久久久久久久蜜桃| 日韩av电影一区二区三区四区| 欧美性爱精品一区二区三区| 久久综合色天堂av| 啊嗯不日本网站| 国产精品私拍在线爆乳| 欧美在线天堂| 精品国产成人a在线观看| 狂欢视频在线观看不卡| 久久五月天综合| 亚洲三级电影在线播放| 免费播放毛片| 国产自在线拍| 97精品国产高清久久久久蜜芽| 99视频只有精品| 色悠久久综合| 亚洲无限乱码一二三四区| 亚洲av无码专区久久蜜芽| 高清无码手机在线观看| 国产精品香蕉在线| 免费日韩在线视频| 免费看的一级毛片| vvvv98国产成人综合青青| 免费啪啪网址| 亚洲成在线观看 | 91在线日韩在线播放| 国产白浆一区二区三区视频在线| 四虎成人免费毛片| 国产欧美日韩精品综合在线| 三级国产在线观看| 日本国产一区在线观看| 伊人福利视频| 久久久四虎成人永久免费网站| 四虎影视国产精品| 午夜福利免费视频| 色综合天天操| 亚洲第一页在线观看| 美女潮喷出白浆在线观看视频| 亚洲一级无毛片无码在线免费视频| 成人免费视频一区二区三区| 国产网站免费| 91系列在线观看| 九九热精品在线视频| 国产黄色爱视频| 97在线国产视频| 99视频在线免费| 久久国产精品麻豆系列| 亚洲综合九九| 国产一在线| 国产精品亚洲αv天堂无码| 99视频免费观看| 熟妇丰满人妻| 九九免费观看全部免费视频| 国产麻豆aⅴ精品无码| 亚洲色欲色欲www在线观看| 成人国产精品一级毛片天堂| 欧美狠狠干| 99在线观看精品视频| 在线国产欧美| 国产超薄肉色丝袜网站| 欧美日韩在线第一页| 亚洲中文字幕日产无码2021| 色哟哟精品无码网站在线播放视频| 欧美亚洲日韩不卡在线在线观看| 欧美日韩国产高清一区二区三区| 国产精品偷伦视频免费观看国产| 欧美日韩导航| Jizz国产色系免费| 九九热免费在线视频| 88av在线看| 国产乱人免费视频| 免费在线国产一区二区三区精品| 亚洲福利视频一区二区| 色AV色 综合网站| 成人欧美在线观看| 毛片网站在线看| 天堂成人av| 欧美一道本| 亚洲高清资源| 成人无码一区二区三区视频在线观看|