999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DQN的反艦導(dǎo)彈火力分配方法研究

2019-09-13 08:40:28棟,蘇航,朱
導(dǎo)航定位與授時(shí) 2019年5期
關(guān)鍵詞:艦艇深度策略

閻 棟,蘇 航,朱 軍

(清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100086)

0 引言

隨著軍事技術(shù)的不斷發(fā)展,各種高精尖武器在戰(zhàn)爭(zhēng)中的地位日益凸顯。反艦導(dǎo)彈作為海上作戰(zhàn)的主要武器,以其對(duì)敵的精準(zhǔn)打擊和高效毀傷能力在歷次海戰(zhàn)中均取得不俗的戰(zhàn)績(jī)。與此同時(shí),為了有效攔截反艦導(dǎo)彈,艦船的各種防御設(shè)施對(duì)于反艦導(dǎo)彈的預(yù)警、偵查、攔截和干擾技術(shù)都有顯著的提高,因此如何提升反艦導(dǎo)彈對(duì)敵方艦船的毀傷能力就成為現(xiàn)代海上作戰(zhàn)的關(guān)鍵環(huán)節(jié),而保證反艦導(dǎo)彈安全快速突防和精確高效打擊就是其中的核心。在給定反艦導(dǎo)彈自身技戰(zhàn)術(shù)性能的前提下,如何進(jìn)行反艦導(dǎo)彈的火力分配決定了攻擊的最終毀傷效果。

反艦導(dǎo)彈的火力分配是以對(duì)敵方艦艇編隊(duì)的毀傷效果最大化為目標(biāo)[1]。目前國(guó)內(nèi)外對(duì)于反艦導(dǎo)彈攻擊艦艇編隊(duì)的火力分配問(wèn)題基本都是針對(duì)特定的場(chǎng)景進(jìn)行建模[11-12],對(duì)于特定的情況反艦導(dǎo)彈火力分配在考慮打擊的代價(jià)和收益的情況下,將問(wèn)題轉(zhuǎn)化為最大化打擊收益和最小化打擊代價(jià)的算法問(wèn)題。但是由于在實(shí)際復(fù)雜戰(zhàn)場(chǎng)環(huán)境下綜合求解上述問(wèn)題涉及參數(shù)過(guò)多,傳統(tǒng)的求解方法(枚舉法、分支定界法和動(dòng)態(tài)規(guī)劃的方法[2])易于實(shí)現(xiàn)但搜索速度太慢,智能算法(遺傳算法、神經(jīng)網(wǎng)絡(luò)算法)存在難以擴(kuò)展的問(wèn)題。例如文獻(xiàn)[3]提出的一種基于神經(jīng)網(wǎng)絡(luò)的火力分配求解方法,該方法合理地使用了神經(jīng)網(wǎng)絡(luò)但容易得到不穩(wěn)定的解。目前大多數(shù)的反艦導(dǎo)彈火力分配模型在方法上存在著一定的缺陷和不足,優(yōu)化效果有限且無(wú)法推廣到大規(guī)模、高強(qiáng)度的軍事對(duì)抗當(dāng)中,因此如何建立更加準(zhǔn)確、全面和合理的火力分配模型以及如何改進(jìn)傳統(tǒng)的智能優(yōu)化算法成為當(dāng)前的研究熱點(diǎn)。

隨著人工智能技術(shù)的突破性進(jìn)展,特別是強(qiáng)化學(xué)習(xí)技術(shù)在智能控制領(lǐng)域的發(fā)展給反艦導(dǎo)彈的火力分配問(wèn)題帶來(lái)了新的思路。強(qiáng)化學(xué)習(xí)算法的機(jī)制類似人類的決策過(guò)程,智能體的每一個(gè)動(dòng)作都是在策略的驅(qū)動(dòng)下完成的,而策略是智能體通過(guò)與環(huán)境的交互得到的。智能體通過(guò)交互式的學(xué)習(xí)從環(huán)境中得到獎(jiǎng)勵(lì)或者懲罰,并根據(jù)學(xué)習(xí)過(guò)程中的累加回報(bào)值不斷更新策略。強(qiáng)化學(xué)習(xí)主要包含兩類算法,一類是基于值函數(shù)估計(jì)的方法,如Q-learning[3]和SARSA[4]等,這類方法具有較好的理論基礎(chǔ),算法的收斂性和解的質(zhì)量相對(duì)有保證;另一類是在參數(shù)空間中進(jìn)行求解的方法,其中典型方法包括TRPO[5]和Actor-Critic[6]等,其主要思想是將策略參數(shù)化,直接在參數(shù)空間中對(duì)問(wèn)題進(jìn)行求解,在許多場(chǎng)景下求解效率較高,但缺乏理論保證。如前所述,這兩類經(jīng)典的強(qiáng)化學(xué)習(xí)算法僅能夠解決一些小規(guī)模問(wèn)題。在面對(duì)現(xiàn)實(shí)世界中大規(guī)模、復(fù)雜的問(wèn)題時(shí),由于無(wú)法遍歷整個(gè)狀態(tài)空間,所以不能在一個(gè)合理的時(shí)間內(nèi)給出結(jié)果。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)相結(jié)合,形成了深度強(qiáng)化學(xué)習(xí)方法。利用深度神經(jīng)網(wǎng)絡(luò)[7]來(lái)解決強(qiáng)化學(xué)習(xí)中狀態(tài)空間的泛化問(wèn)題,在許多領(lǐng)域取得了突破[8,13-15]。其中用深度神經(jīng)網(wǎng)絡(luò)擬合Q值函數(shù),同時(shí)使用Q-learning更新規(guī)則來(lái)迭代Q值函數(shù)的方法稱為深度Q值網(wǎng)絡(luò)(Deep Q-value Network, DQN)。使用深度Q值網(wǎng)絡(luò)訓(xùn)練的智能體在視頻游戲上的表現(xiàn)達(dá)到或者超過(guò)了人類專家的水平[9]。本文針對(duì)反艦導(dǎo)彈火力分配問(wèn)題,利用深度Q值網(wǎng)絡(luò)在高維度的解空間學(xué)習(xí)反艦導(dǎo)彈火力分配策略并最終實(shí)現(xiàn)打擊效果的優(yōu)化。

1 反艦導(dǎo)彈突防模型

反艦導(dǎo)彈對(duì)目標(biāo)艦艇編隊(duì)實(shí)施攻擊,目標(biāo)艦艇編隊(duì)對(duì)來(lái)襲反艦導(dǎo)彈實(shí)施電子干擾、艦空導(dǎo)彈攔截和密集陣火力攔截。為了簡(jiǎn)化反艦導(dǎo)彈的火力分配模型,本文采用單一類型的反艦導(dǎo)彈,以多彈協(xié)同的方式打擊艦艇編隊(duì),綜合考慮導(dǎo)彈飛行及目標(biāo)捕獲的可靠性、抗干擾能力、抗導(dǎo)彈攔截能力和密集陣攔截等對(duì)抗全過(guò)程,計(jì)算打擊任務(wù)成功率。

整個(gè)過(guò)程中可假設(shè)反艦導(dǎo)彈和防空導(dǎo)彈均做勻速直線運(yùn)動(dòng),在攻擊過(guò)程中艦艇編隊(duì)的隊(duì)形保持不變,艦艇編隊(duì)可將態(tài)勢(shì)信息進(jìn)行共享。反艦導(dǎo)彈到達(dá)指定位置后導(dǎo)引頭開(kāi)機(jī),開(kāi)始搜索目標(biāo)艦艇,一旦捕獲目標(biāo)即對(duì)目標(biāo)進(jìn)行識(shí)別并判斷相關(guān)威脅,此時(shí)由于目標(biāo)艦艇編隊(duì)發(fā)現(xiàn)來(lái)襲反艦導(dǎo)彈,開(kāi)始捕捉跟蹤并將相關(guān)數(shù)據(jù)同步傳送給其他艦艇。

1.1 艦艇編隊(duì)陣型設(shè)定

艦艇編隊(duì)一共有四種不同的陣型設(shè)定,如圖1所示,從左上到右下依次為3支艦艇、6支艦艇、8支艦艇和10支艦艇。艦艇位置在圖中以小圓點(diǎn)形式表示,其中:紅色為宙斯盾驅(qū)逐艦,擁有8個(gè)火力通道,冷卻時(shí)間20s,防空導(dǎo)彈攔截半徑為20km;藍(lán)色為普通驅(qū)逐艦,擁有4個(gè)火力通道,冷卻時(shí)間25s,防空導(dǎo)彈攔截半徑為15km;黃色為補(bǔ)給艦,沒(méi)有火力通道。各個(gè)艦艇的防空范圍在圖中以綠色圓圈表示。所有艦艇都擁有密集陣攔截能力,密集陣攔截半徑為3km,在圖中為簡(jiǎn)潔起見(jiàn)不予展示。

圖1 艦艇編隊(duì)設(shè)定Fig.1 Fleet formation setting

1.2 艦艇編隊(duì)毀傷概率模型

為了衡量突防策略的優(yōu)劣,此處對(duì)艦艇編隊(duì)毀傷概率模型進(jìn)行簡(jiǎn)要說(shuō)明。假設(shè)一共有N枚反艦導(dǎo)彈同時(shí)在指定位置發(fā)射,每一枚導(dǎo)彈從發(fā)射到命中的過(guò)程相互獨(dú)立。該過(guò)程一共需要經(jīng)歷如下4個(gè)步驟:

1)可靠飛行及目標(biāo)捕獲流程

反艦導(dǎo)彈之間相互獨(dú)立,其概率分布符合二項(xiàng)分布,N0發(fā)導(dǎo)彈中有i枚導(dǎo)彈捕獲攻擊目標(biāo)的概率為

(1)

其中,N0為導(dǎo)彈初始彈量,P1為單彈能夠可靠飛行并成功捕獲目標(biāo)的概率,其值為0.98。

2)各類干擾流程

在準(zhǔn)備攔截反艦導(dǎo)彈的過(guò)程中,艦艇編隊(duì)對(duì)反艦導(dǎo)彈實(shí)施干擾,默認(rèn)在準(zhǔn)備使用干擾設(shè)備的情況下一定會(huì)使用該設(shè)備,且干擾一旦釋放所有的反艦導(dǎo)彈都會(huì)受到干擾。根據(jù)反艦導(dǎo)彈的抗干擾概率計(jì)算突防彈量,概率分布采用二項(xiàng)分布計(jì)算。各導(dǎo)彈之間相互獨(dú)立,其概率分布符合二項(xiàng)分布,N1枚導(dǎo)彈中有N2枚導(dǎo)彈對(duì)抗干擾成功的概率計(jì)算方法如下

(2)

(3)

3)防空導(dǎo)彈攔截

當(dāng)反艦導(dǎo)彈到達(dá)艦艇防空導(dǎo)彈的防御邊界時(shí),艦艇發(fā)射防空導(dǎo)彈對(duì)反艦導(dǎo)彈進(jìn)行攔截。對(duì)于單次攔截事件,按照獨(dú)立事件處理,防御艦船火力通道有限,一個(gè)火力通道只能導(dǎo)引一枚防空導(dǎo)彈對(duì)反艦導(dǎo)彈進(jìn)行攔截,在考慮協(xié)防的情況下,需要計(jì)算攔截次數(shù)。在整個(gè)攔截過(guò)程中,攔截次數(shù)可以分為目標(biāo)艦艇對(duì)反艦導(dǎo)彈的攔截以及協(xié)防艦艇對(duì)反艦導(dǎo)彈的攔截兩種。對(duì)于協(xié)防艦艇,在保證自身安全的情況下對(duì)目標(biāo)艦艇提供保護(hù),每次用一枚防空導(dǎo)彈攔截反艦導(dǎo)彈,不存在多枚防空導(dǎo)彈攔截一枚反艦導(dǎo)彈的情況。

在防空導(dǎo)彈對(duì)反艦導(dǎo)彈的攔截過(guò)程中,各導(dǎo)彈之間相互獨(dú)立,其概率分布符合二項(xiàng)分布,經(jīng)過(guò)一次防空導(dǎo)彈攔截后,N1枚導(dǎo)彈中有N2枚導(dǎo)彈成功突防的概率為

(4)

其中,P3為單彈突破防空導(dǎo)彈攔截的概率,N1和N2均為非負(fù)整數(shù),n為本次攔截的可用火力通道數(shù)目。

4)密集陣攔截

其中記一枚導(dǎo)彈在暴露于密集陣時(shí)所飛行的距離為d,密集陣攔截半徑為d0=3km;如果單彈在全過(guò)程中完全暴露于密集陣,則面對(duì)密集陣攔截時(shí)能夠成功突防的概率為P4=0.5。

給定上述4個(gè)攔截步驟,設(shè)第i枚導(dǎo)彈能夠擊中其目標(biāo)艦艇j的概率為Pij,則有

所以最終目標(biāo)為最大化艦隊(duì)中所有艦船的毀傷概率之和pfleet,即將所有導(dǎo)彈的毀傷概率線性加和為

2 基于深度Q值網(wǎng)絡(luò)的反艦導(dǎo)彈火力分配

2.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)研究未知環(huán)境下的序列決策問(wèn)題,其基本理念是基于環(huán)境給出的反饋來(lái)決定行為,以取得最大化的累積獎(jiǎng)勵(lì)。與監(jiān)督學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)的訓(xùn)練并不需要預(yù)設(shè)的輸入/輸出對(duì),可通過(guò)與環(huán)境的交互自動(dòng)改善性能。由于其訓(xùn)練理念的普適性,它在許多其他領(lǐng)域如運(yùn)籌學(xué)、博弈論、控制論、群體智能、信息論、統(tǒng)計(jì)學(xué)以及遺傳算法等都有相關(guān)研究。在機(jī)器學(xué)習(xí)的語(yǔ)境下,強(qiáng)化學(xué)習(xí)更加注重在線規(guī)劃,需要在探索(在未知的領(lǐng)域)和遵從(現(xiàn)有知識(shí))之間找到平衡。

2.2 馬爾可夫決策過(guò)程

在強(qiáng)化學(xué)習(xí)中,未知環(huán)境通常被建模為馬爾可夫決策過(guò)程。馬爾可夫決策過(guò)程包括如下5個(gè)元素,狀態(tài)空間S、動(dòng)作空間A、變遷函數(shù)T(s,a,s′)、獎(jiǎng)勵(lì)函數(shù)R(s,a)以及折扣因子λ。在艦隊(duì)火力分配問(wèn)題中,狀態(tài)空間S為當(dāng)前已發(fā)射導(dǎo)彈和艦隊(duì)毀傷狀況;動(dòng)作空間A為所有可選艦船目標(biāo);變遷函數(shù)T(s,a,s′)為發(fā)射一枚導(dǎo)彈之后艦隊(duì)從狀態(tài)s轉(zhuǎn)移到狀態(tài)s′的概率;獎(jiǎng)勵(lì)函數(shù)R(s,a)為發(fā)射導(dǎo)彈后增加的毀傷數(shù)值;折扣因子λ取0.99.

具體地,假設(shè)在t-1時(shí)刻已發(fā)射了t-1枚導(dǎo)彈,將計(jì)算得到每一艘艦艇j的當(dāng)前毀傷概率向量Pj(t-1)作為狀態(tài)s。將t時(shí)刻,智能體進(jìn)行的動(dòng)作a定義為給定當(dāng)前狀態(tài)s選擇第t枚導(dǎo)彈所瞄準(zhǔn)的艦艇和它的發(fā)射位置。隨后根據(jù)T(s,a,s′)得到狀態(tài)s′,即t時(shí)刻每一艘艦艇的毀傷概率Pj(t)。而這次動(dòng)作所獲得的獎(jiǎng)勵(lì)為Pj(t)-Pj(t-1)。

2.3 Q值學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化累計(jì)獎(jiǎng)勵(lì)值,因此可用未來(lái)可能獲得的累計(jì)獎(jiǎng)勵(lì)值來(lái)評(píng)價(jià)從一個(gè)狀態(tài)出發(fā)選擇每個(gè)動(dòng)作的的優(yōu)劣。使用Q(s,a)來(lái)表示從狀態(tài)s出發(fā)選擇動(dòng)作a所可能獲得的累計(jì)獎(jiǎng)勵(lì)值,在后續(xù)的文中稱其為Q值。在獲得正確的Q值后,在每個(gè)狀態(tài)選擇Q值最大的動(dòng)作,就是智能體的最佳策略。Q值學(xué)習(xí)算法的核心思想就是通過(guò)與環(huán)境的交互,迭代逼近真實(shí)的Q值,其公式如下

Q(st,at)=Q(st,at)+α(rt+

Q值學(xué)習(xí)算法給每個(gè)狀態(tài)動(dòng)作對(duì)一個(gè)隨機(jī)的初始值。從初始狀態(tài)出發(fā),選擇Q值最大的動(dòng)作,按照這個(gè)過(guò)程不斷的積累數(shù)據(jù)。每一組數(shù)據(jù)表示為一個(gè)五元組(st,a,st+1,r,t),將每一組數(shù)據(jù)代入上述公式更新相應(yīng)的Q值,交替進(jìn)行數(shù)據(jù)的積累和Q值的更新,直到Q值收斂。其算法具體流程如表1所示。

表1 深度Q值網(wǎng)絡(luò)算法流程

2.4 深度Q值網(wǎng)絡(luò)

傳統(tǒng)的Q值學(xué)習(xí)算法只能處理低維數(shù)據(jù),而現(xiàn)實(shí)生活中的實(shí)際問(wèn)題的狀態(tài)空間往往非常巨大,無(wú)法采用遍歷的方式更新。因此,研究人員采用深度神經(jīng)網(wǎng)絡(luò)解決Q值在不同狀態(tài)之間的泛化問(wèn)題,從而提出了深度Q值網(wǎng)絡(luò)[10]。

如圖2所示,本文所采用深度Q值網(wǎng)絡(luò)由兩層全連接層組成。值得說(shuō)明的是,由于本文所處理問(wèn)題的狀態(tài)可以表示為一維概率向量,所以網(wǎng)絡(luò)結(jié)構(gòu)中沒(méi)有采用常見(jiàn)深度Q值網(wǎng)絡(luò)中的卷積層。深度Q值網(wǎng)絡(luò)采用ReLU作為激活函數(shù),每層的神經(jīng)元數(shù)量均為128,采用隨機(jī)方式對(duì)網(wǎng)絡(luò)權(quán)重初始化。

圖2 深度Q值網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Structural diagram of deep Q-value network

2.5 訓(xùn)練參數(shù)

Q值學(xué)習(xí)為確定性算法,為保證算法能夠找到最優(yōu)值,本文在訓(xùn)練過(guò)程中采用epsilon貪心法來(lái)探索新的動(dòng)作序列,其中epsilon值隨訓(xùn)練進(jìn)行而線性遞減。訓(xùn)練深度Q值網(wǎng)絡(luò)的所有相關(guān)參數(shù)如表2所示。

表2 深度Q值網(wǎng)絡(luò)訓(xùn)練參數(shù)

3 仿真驗(yàn)證

在實(shí)驗(yàn)部分,本文通過(guò)在四種不同的艦隊(duì)配置下計(jì)算深度Q值網(wǎng)絡(luò)和其他三種策略的毀傷概率來(lái)驗(yàn)證深度Q值網(wǎng)絡(luò)的實(shí)際效果。圖3展示了在10艘艦艇,最多64枚導(dǎo)彈的設(shè)定下,深度Q值網(wǎng)絡(luò)的訓(xùn)練情況。其中橫軸為訓(xùn)練周期數(shù),縱軸為毀傷效能;圖4則展示了在相同設(shè)定下深度Q值網(wǎng)絡(luò)損失函數(shù)的變化情況。

圖3 深度Q值網(wǎng)絡(luò)訓(xùn)練效果Fig.3 Training result of deep Q-value network

圖4 深度Q值網(wǎng)絡(luò)收斂曲線Fig.4 Convergence of deep Q-value network

從圖3中可以看出,在前60個(gè)訓(xùn)練周期中深度Q值網(wǎng)絡(luò)所給出的毀傷值都處在較低的水平。這是由于在這個(gè)階段,深度Q值網(wǎng)絡(luò)輸出的策略主要被epsilon貪心策略決定,以探索各種可能的策略為主。經(jīng)過(guò)前60個(gè)訓(xùn)練周期之后,深度Q值網(wǎng)絡(luò)對(duì)整個(gè)樣本空間有了一個(gè)相對(duì)全面的采樣。在此基礎(chǔ)上,神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練不斷對(duì)Q值進(jìn)行泛化,同時(shí)epsilon探索值也下降到了0.1,因此從60個(gè)訓(xùn)練周期開(kāi)始性能逐步上漲直到訓(xùn)練結(jié)束。

圖4展示了損失函數(shù)隨訓(xùn)練時(shí)間的變化,從圖4中可以看到,在前30個(gè)訓(xùn)練周期中,epsilon貪心策略的探索值從0.9線性下降到0.5,因此深度Q值網(wǎng)絡(luò)損失函數(shù)顯露出先下降后上升的波動(dòng)趨勢(shì)。而在經(jīng)過(guò)前30個(gè)訓(xùn)練周期后,探索值從0.5逐步下降到0.1,此時(shí)過(guò)去與環(huán)境交互獲得的經(jīng)驗(yàn)開(kāi)始占據(jù)主導(dǎo)地位,因此損失函數(shù)不斷下降,直至趨近于0。

圖5展示了在4種編隊(duì)陣型(艦船數(shù)目依次為3,6,8,10)的設(shè)定下,給定不同的導(dǎo)彈數(shù)目上限值,每個(gè)策略所能達(dá)到的最好表現(xiàn)。橫軸表示導(dǎo)彈數(shù)目,縱軸表示各個(gè)艦艇的平均毀傷概率。除了深度Q值網(wǎng)絡(luò)之外,還引入了其他3個(gè)策略進(jìn)行比較:

1)隨機(jī)策略:在離艦隊(duì)中心50km的圓上隨機(jī)選擇每一枚導(dǎo)彈的發(fā)射位置,并且隨機(jī)選擇其目標(biāo)艦艇;

2)最近攻擊策略:將導(dǎo)彈發(fā)射位置均勻分布在50km圓上,每枚導(dǎo)彈只會(huì)打離自己發(fā)射位置最近的艦艇;

3)平均攻擊策略:給每一艘艦艇分配幾乎相同數(shù)量的導(dǎo)彈去攻擊,并且如果2枚導(dǎo)彈的目標(biāo)是同一艘艦艇,那么它們的發(fā)射位置完全重合,這樣能最大限度減小密集陣攔截的效果。

從圖5中可以看出,深度Q值網(wǎng)絡(luò)(圖標(biāo)為DQN,紅色曲線)在各個(gè)場(chǎng)景中均比其他策略有著明顯的優(yōu)勢(shì),最近攻擊策略(圖標(biāo)為heuristic 1,黃色曲線)和平均攻擊策略(圖標(biāo)為heuristic 2,綠色曲線)表現(xiàn)不相上下,隨機(jī)策略(圖標(biāo)為random,藍(lán)色曲線)表現(xiàn)最差。在3艘艦艇的配置下,由于其防御能力不足,各個(gè)策略在導(dǎo)彈數(shù)目達(dá)到一定數(shù)量之后的差距不是很明顯,但是導(dǎo)彈數(shù)目較少時(shí)深度Q值網(wǎng)絡(luò)一直保持明顯優(yōu)勢(shì);6艘和8艘艦艇的場(chǎng)景下,深度Q值網(wǎng)絡(luò)在各個(gè)導(dǎo)彈上限設(shè)置下均有著比其他方法更加明顯的優(yōu)勢(shì),雖然在導(dǎo)彈數(shù)目增多之后,性能逐漸被其他兩種策略追上;10艘艦艇防御能力最強(qiáng),但是深度Q值網(wǎng)絡(luò)仍然取得了最佳的毀傷效果,并且遙遙領(lǐng)先其他策略,直至導(dǎo)彈數(shù)目增加到上限64時(shí)仍相對(duì)其他策略保持著巨大的優(yōu)勢(shì)。

圖5 不同策略在不同設(shè)定下的最優(yōu)表現(xiàn)Fig.5 Experiment results with different settings

更進(jìn)一步地考察深度Q值網(wǎng)絡(luò)的火力分配策略可以發(fā)現(xiàn),在反艦導(dǎo)彈數(shù)目未滿足飽和攻擊標(biāo)準(zhǔn)的情況下,對(duì)任何一種艦艇編隊(duì),深度Q值網(wǎng)絡(luò)均能自動(dòng)學(xué)習(xí)出集火策略,即集中攻擊艦隊(duì)中防御較弱的普通驅(qū)逐艦,避開(kāi)防御能力較強(qiáng)的宙斯盾驅(qū)逐艦。在火力分配問(wèn)題上,深度Q值網(wǎng)絡(luò)不僅求解效果優(yōu)于其他策略,而且能夠很好地為人類所理解。

4 結(jié)論

本文針對(duì)反艦導(dǎo)彈的火力分配問(wèn)題,提出了一種基于深度Q值網(wǎng)絡(luò)的解決方案。算法分析與實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)方案相比,深度Q值網(wǎng)絡(luò)在各種艦船編隊(duì)下都能取得最佳的毀傷效果,且具有良好的可解釋性。在不使用任何先驗(yàn)信息的情況下,深度Q值網(wǎng)絡(luò)通過(guò)純粹的訓(xùn)練過(guò)程,自動(dòng)學(xué)到了集中火力攻擊艦隊(duì)防空薄弱角度的策略。

目前的艦隊(duì)防空模型與真實(shí)情況相比,做了較多簡(jiǎn)化處理。未來(lái)可通過(guò)進(jìn)一步細(xì)化防空模型使其更加貼近真實(shí)情況,從而使得深度Q值網(wǎng)絡(luò)的計(jì)算結(jié)果更加符合作戰(zhàn)要求。

猜你喜歡
艦艇深度策略
艦艇入列
海戰(zhàn)中的蒙面殺手——隱形艦艇
深度理解一元一次方程
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
深度觀察
深度觀察
深度觀察
高中數(shù)學(xué)復(fù)習(xí)的具體策略
Passage Four
主站蜘蛛池模板: 幺女国产一级毛片| 动漫精品中文字幕无码| a欧美在线| 国产资源免费观看| 亚洲欧美成aⅴ人在线观看| av在线人妻熟妇| 国产一级毛片yw| 国产无码精品在线| 小13箩利洗澡无码视频免费网站| 国产97视频在线观看| 18禁黄无遮挡网站| 无码国产偷倩在线播放老年人| 国产成人综合日韩精品无码不卡| 中文字幕免费在线视频| a在线亚洲男人的天堂试看| 国产理论最新国产精品视频| 色久综合在线| 午夜国产大片免费观看| 2020极品精品国产| 亚洲AⅤ永久无码精品毛片| 国产精品原创不卡在线| 色亚洲成人| 一级成人欧美一区在线观看| 性喷潮久久久久久久久| 亚洲av无码成人专区| 大学生久久香蕉国产线观看| 凹凸精品免费精品视频| 日韩国产综合精选| 色亚洲激情综合精品无码视频| 亚洲第一福利视频导航| 色AV色 综合网站| 91精品综合| 成人午夜福利视频| 亚洲中文字幕av无码区| 99精品一区二区免费视频| 国产精品美女在线| 国内精品小视频在线| 精品色综合| 免费在线色| 国产亚洲第一页| 91精品国产麻豆国产自产在线| 成人在线亚洲| 在线观看国产小视频| 色综合久久久久8天国| 超碰精品无码一区二区| 国产办公室秘书无码精品| 日a本亚洲中文在线观看| 欧美精品在线免费| 日韩a级片视频| 久久6免费视频| 国产黄视频网站| 国产日韩AV高潮在线| 亚洲精品爱草草视频在线| 亚洲第一黄片大全| 国产一二三区视频| 9cao视频精品| 青草视频在线观看国产| 国产精品原创不卡在线| 美女免费黄网站| 日韩午夜福利在线观看| a级毛片免费播放| 91年精品国产福利线观看久久 | 亚洲无码37.| 国产麻豆福利av在线播放 | 亚洲中文精品久久久久久不卡| 国产va视频| 国产大片喷水在线在线视频| 91在线无码精品秘九色APP| 天天综合网色| 在线看免费无码av天堂的| 好吊妞欧美视频免费| 全午夜免费一级毛片| 爆乳熟妇一区二区三区| 亚洲欧美一区二区三区图片| 亚洲中文久久精品无玛| 免费毛片视频| 亚洲不卡影院| 国产精品福利导航| 亚洲日本韩在线观看| 免费一极毛片| 国产成人av大片在线播放| 婷婷六月综合网|