999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)對(duì)抗控制模型可靠性分析方法

2021-03-19 03:14:02白樺孫旭朋黃文錚
環(huán)境技術(shù) 2021年1期
關(guān)鍵詞:模型

白樺,孫旭朋,黃文錚

(北京圣濤平試驗(yàn)工程技術(shù)研究院有限責(zé)任公司,北京 100089)

引言

在解決游戲和軍事等強(qiáng)對(duì)抗問題中,人工智能方法被寄予厚望[1]。人們迫切希望尋找一種建模方法能夠擊敗人類,相關(guān)的增強(qiáng)學(xué)習(xí)等強(qiáng)對(duì)抗建模技術(shù)得到關(guān)注。2016年AlphaGo圍棋人工智能的突破, 反映出最近興起的深度學(xué)習(xí)等人工智能技術(shù)解決圍棋這類完美信息博弈問題的優(yōu)異性能。圍棋屬于完全信息博弈問題,與軍事對(duì)抗相比有較大差距,近年來AI接連在多個(gè)對(duì)抗性即時(shí)戰(zhàn)略游戲中達(dá)到甚至戰(zhàn)勝人類最高水平選手。OpenAI訓(xùn)練的5個(gè)AI組成的戰(zhàn)隊(duì),通過在線戰(zhàn)斗游戲Dota2的訓(xùn)練達(dá)到了人類無法比擬的指法操作熟練程度。DeepMind訓(xùn)練的星際爭霸人工智能系統(tǒng)擊敗世界上最強(qiáng)大的職業(yè)星際爭霸玩家。

美軍2014 年提出的“第三次抵消戰(zhàn)略”,就是以人工智能技術(shù)為核心發(fā)展能夠 “改變未來戰(zhàn)局” 的顛覆性技術(shù)群,來形成相較于對(duì)手的絕對(duì)軍事優(yōu)勢(shì)。未來戰(zhàn)爭是由物理域、信息域、控制域等多重域交疊構(gòu)成的具有跨域特性的作戰(zhàn)域。隨著人工智能技術(shù)的發(fā)展,應(yīng)用于未來作戰(zhàn)的強(qiáng)對(duì)抗系統(tǒng)將是高度復(fù)雜的大系統(tǒng),具有可變的戰(zhàn)場(chǎng)環(huán)境、不確定的動(dòng)態(tài)因素干擾、多目標(biāo)的作戰(zhàn)任務(wù)。考慮真實(shí)物理世界,裝備在作戰(zhàn)時(shí)面臨可靠性、維修性和保障性(簡稱 RMS)等問題將有可能限制人工智能控制的性能。

當(dāng)環(huán)境信息輸入增大,指控的智能體(Agent)數(shù)量增多時(shí),強(qiáng)對(duì)抗智能神經(jīng)網(wǎng)絡(luò)的參數(shù)增加結(jié)構(gòu)變得復(fù)雜,此時(shí)網(wǎng)絡(luò)訓(xùn)練存在難以收斂的問題。

GAN是由 Ian J.Goodfellow[2]等在2014年提出的一種基于深度神經(jīng)網(wǎng)絡(luò)的生成式模型。GAN以其學(xué)習(xí)高維、復(fù)雜的真實(shí)數(shù)據(jù)分布的潛力而受到機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注。具體地說,它們不依賴于任何關(guān)于分布的假設(shè),并且可以一種簡單的方式從隱藏空間生成類似真實(shí)的樣本。它們?cè)趶?fù)雜和高維數(shù)據(jù)的處理能力可用于處理復(fù)雜智能控制領(lǐng)域,并在強(qiáng)對(duì)抗建模領(lǐng)域與增強(qiáng)學(xué)習(xí)中的DQN[3,4]等方法相結(jié)合。GAN方法加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化速度示意圖如圖1。

本文介紹強(qiáng)對(duì)抗控制模型GAN建模的方法,并針對(duì)仿真實(shí)例,采集對(duì)抗回放數(shù)據(jù),分別設(shè)計(jì)鑒別器網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在對(duì)訓(xùn)練好的表演者網(wǎng)絡(luò)按照DQN方法進(jìn)一步的訓(xùn)練優(yōu)化,得到優(yōu)化后的網(wǎng)絡(luò)后進(jìn)行可靠性分析,建立RMS參數(shù)與強(qiáng)對(duì)抗控制模型勝率的定量關(guān)系。在此基礎(chǔ)上,分析了物理世界可靠性問題對(duì)控制網(wǎng)絡(luò)性能的影響,并且提出了針對(duì)RMS參數(shù)的性能。

1 強(qiáng)對(duì)抗控制模型GAN建模方法

為了快速建立基于深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)對(duì)抗控制模型,采用GAN技術(shù),利用收集到的強(qiáng)對(duì)抗歷史數(shù)據(jù),對(duì)表演者神經(jīng)網(wǎng)絡(luò)進(jìn)行快速優(yōu)化使其能夠模仿這些歷史回放數(shù)據(jù)中采用的對(duì)抗策略,能夠生產(chǎn)歷史回放數(shù)據(jù)的策略。所需歷史回放數(shù)據(jù)可以人類玩家對(duì)局產(chǎn)生,或由編寫的已優(yōu)化的自動(dòng)化對(duì)抗規(guī)則程序產(chǎn)生,無需額外的人工標(biāo)記處理。

1.1 GAN鑒別網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)構(gòu)成

圖1 GAN加速神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度

GAN由判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A組成。其中判別網(wǎng)絡(luò)D對(duì)輸入對(duì)抗數(shù)據(jù)進(jìn)行分類,輸出0~1之間的標(biāo)量值判定輸入數(shù)據(jù)是否符合演示對(duì)抗策略,0為完全符合,1為完全不符合,因此判別網(wǎng)絡(luò)D的優(yōu)化目標(biāo)是盡可能對(duì)所有數(shù)據(jù)進(jìn)行準(zhǔn)確判別。表演者網(wǎng)絡(luò)A讀取對(duì)抗態(tài)勢(shì)(環(huán)境)數(shù)據(jù),產(chǎn)生在這種態(tài)勢(shì)下應(yīng)采取的對(duì)抗命令,表演者網(wǎng)絡(luò)A的目標(biāo)是盡可能準(zhǔn)確地模仿演示對(duì)抗策略。判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A形成對(duì)抗關(guān)系,對(duì)這兩個(gè)網(wǎng)絡(luò)的交替訓(xùn)練,當(dāng)這兩個(gè)網(wǎng)絡(luò)達(dá)到平衡時(shí),判別網(wǎng)絡(luò)D以接近同等概率對(duì)演示對(duì)抗數(shù)據(jù)和表演者網(wǎng)絡(luò)產(chǎn)生的對(duì)抗數(shù)據(jù)進(jìn)行判別,此時(shí)表演者網(wǎng)絡(luò)A學(xué)到了接近于演示玩家的對(duì)抗策略。

1.2 損失函數(shù)的構(gòu)造

采集到回放數(shù)據(jù)以后即可采用生成對(duì)抗網(wǎng)絡(luò)技術(shù)對(duì)判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A進(jìn)行對(duì)輪交替訓(xùn)練,其中判別網(wǎng)絡(luò)D的損失為演示樣本與模仿樣本的判別損失總和:

交叉熵BCELoss計(jì)算公式如下:

因此,判別網(wǎng)絡(luò)D損失計(jì)算函數(shù)為:

式中:

判別網(wǎng)絡(luò)D的優(yōu)化目標(biāo)是最小化總體判別損失。判別網(wǎng)絡(luò)D是典型的二元分類神經(jīng)網(wǎng)絡(luò),輸入為聯(lián)合對(duì)抗態(tài)勢(shì)+對(duì)抗命令列表的張量編碼,輸出為0~1二元分類標(biāo)量,其網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)規(guī)模可以考慮輸入數(shù)據(jù)特點(diǎn)進(jìn)行選擇,通常可以采用例如卷積網(wǎng)絡(luò)CNN或多層感知機(jī)MLP等,參數(shù)維度和網(wǎng)絡(luò)深度可以根據(jù)輸入數(shù)據(jù)屬性的數(shù)目和關(guān)聯(lián)關(guān)系復(fù)雜性進(jìn)行調(diào)整選擇。

表演者網(wǎng)絡(luò)A的結(jié)構(gòu)設(shè)計(jì)與強(qiáng)化學(xué)習(xí)中表演者網(wǎng)絡(luò)設(shè)計(jì)類似,輸入輸出維度以及網(wǎng)絡(luò)深度等參數(shù)需要考慮仿真數(shù)據(jù)特點(diǎn)進(jìn)行選擇調(diào)整。表演者網(wǎng)絡(luò)A的回報(bào)計(jì)算見公式(5):

表演者網(wǎng)絡(luò)A的優(yōu)化目標(biāo)是最大化回報(bào)。表演者網(wǎng)絡(luò)A的損失函數(shù)見公式(6),式中不同種類的Agent以下標(biāo)i表示,同一種類的Agent不同的架次以下標(biāo)j表示。

式中:

pd—由表演者網(wǎng)絡(luò)A輸出的參數(shù)構(gòu)造的對(duì)抗命令參數(shù)概率分布,pd采用的概率分布類型可以根據(jù)參數(shù)特點(diǎn)進(jìn)行選擇,對(duì)離散參數(shù)例如命令類型可以采用Categorical分布等,對(duì)連續(xù)參數(shù)例如坐標(biāo)點(diǎn)x,y可以采用Normal分布等;

action—從構(gòu)造的概率分布取樣獲得的命令參數(shù)取值;

log_prob—概率分布在action取值的樣本點(diǎn)的log概率密度;

entropy—概率分布的熵;

β—超參數(shù),控制最大熵目標(biāo)在表演者網(wǎng)絡(luò)損失中的占比,在訓(xùn)練時(shí)根據(jù)訓(xùn)練狀況進(jìn)行調(diào)整。

2 仿真平臺(tái)設(shè)置

本文以中央軍委裝備發(fā)展部主辦的2020全國“謀略方寸,聯(lián)合智勝”聯(lián)合作戰(zhàn)智能博弈挑戰(zhàn)賽[5]提供的仿真環(huán)境為應(yīng)用場(chǎng)景,在此基礎(chǔ)上,采用GAN方法建立了強(qiáng)對(duì)抗DQN模型。面對(duì)新的仿真環(huán)境缺少歷史回放數(shù)據(jù)的問題,采用規(guī)則編程驅(qū)動(dòng)紅藍(lán)雙方對(duì)抗,并且記錄對(duì)抗結(jié)果。

2.1 對(duì)抗場(chǎng)景

紅藍(lán)雙方對(duì)抗的空間范圍設(shè)為350 km*350 km。雙方對(duì)抗地圖如圖2所示。藍(lán)方目標(biāo)(防守方):依托地面、海面和空中立體防空火力,守衛(wèi)己方島嶼2個(gè)指揮所重點(diǎn)目標(biāo)。紅方目標(biāo)(進(jìn)攻方):綜合運(yùn)用海空突擊和支援保障力量,突破藍(lán)方防空體系,摧毀藍(lán)方2個(gè)指揮所重點(diǎn)目標(biāo)。雙方對(duì)抗仿真時(shí)間為2.5 h。

在戰(zhàn)場(chǎng)可見性中采用戰(zhàn)爭迷霧設(shè)置,紅藍(lán)雙方在各自Agent的探測(cè)范圍內(nèi)可見。雙方的攻擊手段為發(fā)射導(dǎo)彈,其中的戰(zhàn)斗機(jī)發(fā)射空空導(dǎo)彈,轟炸機(jī)發(fā)射空地導(dǎo)彈、驅(qū)逐艦發(fā)射艦空導(dǎo)彈、地導(dǎo)營發(fā)射地空導(dǎo)彈。紅藍(lán)雙方對(duì)抗兵力見表1。

2.2 仿真環(huán)境

各裝備底層控制律由仿真引擎操作,仿真環(huán)境接口僅提供高級(jí)命令語法包括命令種類和命令參數(shù)。例如戰(zhàn)斗機(jī)的攻擊指令,包括攻擊戰(zhàn)斗機(jī)的ID和被攻擊空中目標(biāo)的ID;轟炸機(jī)的定點(diǎn)攻擊指令包括攻擊轟炸機(jī)的ID、被攻擊地面目標(biāo)的ID、攻擊角度的攻擊距離。各Agent的控制律、攻擊毀傷概率等為黑盒。

圖2 紅藍(lán)雙方對(duì)抗地圖[5]

仿真環(huán)境提供Python語言開發(fā)的對(duì)戰(zhàn)流程控制,參與者負(fù)責(zé)開發(fā)的程序?yàn)閳D中“決策并下發(fā)指令”,而作為制定決策的輸入為“獲取態(tài)勢(shì)”。獲取的態(tài)勢(shì)主要包括三個(gè)方面的信息,一為己方信息,包括各Agent的種類、空間位置和速度信息、載彈量和燃油量信息、毀傷狀態(tài)信息等;二為對(duì)方信息,僅提供戰(zhàn)爭迷霧可視范圍內(nèi)的敵方Agent種類、空間位置和速度等信息;三為導(dǎo)彈信息,包括雙方發(fā)射導(dǎo)彈的種類、發(fā)射裝備、攻擊目標(biāo)、速度等信息。

3 強(qiáng)對(duì)抗實(shí)例GAN建模與訓(xùn)練

3.1 模型構(gòu)建

為簡單起見,主要介紹紅方模型的構(gòu)建,編程語言框架為Pytorch。首先構(gòu)建判別器D神經(jīng)網(wǎng)絡(luò)模型,判別器D采用深度卷積網(wǎng)絡(luò)加深度多層感知網(wǎng)絡(luò),輸入量為聯(lián)合態(tài)勢(shì)與聯(lián)合動(dòng)作拼接成的向量,輸出為0~1之間的標(biāo)量,表示Agent行為符合演示對(duì)戰(zhàn)策略的概率。聯(lián)合態(tài)勢(shì)由己方態(tài)勢(shì)、敵方態(tài)勢(shì)以及導(dǎo)彈態(tài)勢(shì)構(gòu)成。單個(gè)對(duì)抗步驟的所有輸入數(shù)據(jù)拼接成一個(gè)1階向量,其維度為:

表1 紅藍(lán)雙方對(duì)抗兵力[5]

式中:

對(duì)輸入數(shù)據(jù)的預(yù)處理主要包括:

1)為了確保神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)不發(fā)生崩潰,對(duì)于所有的網(wǎng)絡(luò)輸入數(shù)據(jù)均進(jìn)行歸一化處理,并且對(duì)于取值為0的數(shù)據(jù)填充為ε小量。

2)每個(gè)對(duì)抗步驟輸入對(duì)己方和敵方Agent均按最大Agent數(shù)目進(jìn)行編碼,對(duì)所有在機(jī)場(chǎng)待命以及補(bǔ)給狀態(tài)的飛機(jī)按照其位于機(jī)場(chǎng)位置待命的狀態(tài)作為相應(yīng)類型的存活A(yù)gent進(jìn)行編碼。

3)空中導(dǎo)彈信息均附加到被攻擊的目標(biāo)Agent之后。

4)對(duì)動(dòng)作命令,按照每個(gè)對(duì)抗步驟己方每個(gè)Agent一個(gè)動(dòng)作指令進(jìn)行編碼,Agent的動(dòng)作命令編碼按照己方Agent順序進(jìn)行排列。對(duì)于在當(dāng)前對(duì)抗步驟實(shí)際未發(fā)出指令的Agent,采用之前發(fā)出的最后一條還在執(zhí)行過程中的指令進(jìn)行填充。

判別器網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。網(wǎng)絡(luò)損失函數(shù)的設(shè)置參照公式(4),優(yōu)化方法為Adam。

圖3 判別器網(wǎng)絡(luò)結(jié)構(gòu)

圖4 表演者網(wǎng)絡(luò)結(jié)構(gòu)

表演者網(wǎng)絡(luò)A同樣采用類似的深度卷積網(wǎng)絡(luò)加深度多層感知網(wǎng)絡(luò),網(wǎng)絡(luò)輸入為聯(lián)合態(tài)勢(shì),網(wǎng)絡(luò)輸出為動(dòng)作命令,表演者網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)輸出根據(jù)動(dòng)作命令類型進(jìn)行隨機(jī)采樣,其中分立指令參數(shù)如攻擊ID號(hào)等的采樣器為Categorical,連續(xù)指令參數(shù)如攻擊距離等的采樣器為Normal。表演者網(wǎng)絡(luò)的損失函數(shù)如表達(dá)式(6)所示,優(yōu)化方法為Adam。

3.2 模型的訓(xùn)練

為進(jìn)行GAN訓(xùn)練,需要輸入演示者數(shù)據(jù)。在仿真平臺(tái)未提供相關(guān)對(duì)抗的歷史數(shù)據(jù)的情況下,通過編寫紅藍(lán)雙方的規(guī)則對(duì)抗模型,并進(jìn)行多局對(duì)抗的方式來記錄數(shù)據(jù),記錄的數(shù)據(jù)即包括紅方聯(lián)合態(tài)勢(shì)數(shù)據(jù)也包括紅方動(dòng)作命令數(shù)據(jù)。編寫的規(guī)則模型紅方勝率為0.53。考慮到規(guī)則模型中通常一個(gè)動(dòng)作命令會(huì)控制Agent多步驟的行為直到Agent接受另一個(gè)動(dòng)作命令,對(duì)命令轉(zhuǎn)換前的空白動(dòng)作命令進(jìn)行了填充。采集多輪次的演示者數(shù)據(jù)存入回放數(shù)據(jù)文件供GAN模型訓(xùn)練。

表演者網(wǎng)絡(luò)模型訓(xùn)練的時(shí)候,按照批樣本數(shù)量為200從回放數(shù)據(jù)文件中進(jìn)行隨機(jī)取樣。根據(jù)采樣得到的聯(lián)合態(tài)勢(shì)數(shù)據(jù),運(yùn)行表演者網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)輸出進(jìn)行隨機(jī)采樣后,生成表演者動(dòng)作列表,將該動(dòng)作列表與輸入的聯(lián)合態(tài)勢(shì)進(jìn)行組合,生成模仿樣本數(shù)據(jù),同時(shí)記錄抽樣概率 log_prob和 entropy。

判別器網(wǎng)絡(luò)模型訓(xùn)練時(shí),回放數(shù)據(jù)文件中的聯(lián)合態(tài)勢(shì)和相應(yīng)的動(dòng)作命令組合成為演示樣本數(shù)據(jù)輸入到判別器網(wǎng)絡(luò),計(jì)算演示樣本的損失函數(shù);模仿樣本數(shù)據(jù)輸入到判別器網(wǎng)絡(luò),計(jì)算模仿樣本的損失函數(shù),總損失函數(shù)如表達(dá)式(4)所示。

由于判別器網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)均未對(duì)不同Agent共享神經(jīng)網(wǎng)絡(luò)參數(shù),訓(xùn)練需要明顯更多的輪次和更長的時(shí)間。第一次訓(xùn)練后期發(fā)現(xiàn)表演者網(wǎng)絡(luò)的回報(bào)區(qū)域穩(wěn)定周期的振蕩,但表演者的損失仍然較高,顯示網(wǎng)絡(luò)進(jìn)入過擬合階段,因此重新采用對(duì)抗仿真引擎采集新的一批樣本以提高多樣性進(jìn)行第二次訓(xùn)練,經(jīng)過第二次訓(xùn)練表演者網(wǎng)絡(luò)回報(bào)得到了進(jìn)一步提高。

訓(xùn)練網(wǎng)絡(luò)性能統(tǒng)計(jì)曲線如圖5所示,左上圖為判別器判別演示樣本的準(zhǔn)確率,右上圖為判別器判別模仿樣本的準(zhǔn)確率,左下圖為表演者網(wǎng)絡(luò)的損失函數(shù),右下圖為回報(bào)值,從圖中可以看出回報(bào)值在1 200步左右達(dá)到了極值之后處于平穩(wěn)狀態(tài),表明已經(jīng)完成模型訓(xùn)練。

3.3 模型的測(cè)試

訓(xùn)練量得到的表演者網(wǎng)絡(luò)模型與產(chǎn)生回放數(shù)據(jù)的藍(lán)方規(guī)則模型進(jìn)行對(duì)局,對(duì)局次數(shù)為200次。表演者網(wǎng)絡(luò)的作戰(zhàn)性能達(dá)到了所模仿的紅方規(guī)則模型,勝率達(dá)到了0.52。在完成GAN模型的訓(xùn)練后,在此基礎(chǔ)上進(jìn)行DQN網(wǎng)絡(luò)的訓(xùn)練,之后再次對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試,紅方網(wǎng)絡(luò)的勝率達(dá)到了0.63。

4 可靠性分析

4.1 可靠性分析流程

在采用GAN方法建立紅藍(lán)雙方的AI模型并通過模型訓(xùn)練后,固化模型參數(shù)。以固化后的模型為基礎(chǔ),進(jìn)行相關(guān)的RMS仿真軟件開發(fā)。將RMS參數(shù)帶入功能模型,通過MC-MC方法以及多Agent方法仿真分析RMS指標(biāo)參數(shù)對(duì)于作戰(zhàn)性能的影響。

圖5 網(wǎng)絡(luò)訓(xùn)練性能統(tǒng)計(jì)曲線

在紅藍(lán)雙方博弈對(duì)抗的基礎(chǔ)上,以紅方的勝率作為紅方作戰(zhàn)性能的表征。對(duì)弈的藍(lán)方暫不考慮由于RMS造成的作戰(zhàn)性能下降問題,紅方的戰(zhàn)斗機(jī)集群和轟炸機(jī)集群考慮由于戰(zhàn)備完好率A、單機(jī)失效率λ和控制信號(hào)可用度C作為RMS核心參數(shù),進(jìn)行MC-MC仿真,建立紅方集群無人機(jī)RMS指標(biāo)與作戰(zhàn)性能的關(guān)系。為了簡化計(jì)算,我們?cè)O(shè)定戰(zhàn)斗機(jī)和轟炸機(jī)的戰(zhàn)備完好率、單機(jī)失效率和控制信號(hào)中斷率的設(shè)定值取為相同。RMS仿真建模的計(jì)算程序如圖6所示。

4.2 可靠性分析結(jié)果

選取戰(zhàn)備完好率A、單機(jī)失效率λ和控制信號(hào)可用度C這三個(gè)RMS因素進(jìn)行仿真計(jì)算,每個(gè)因素選擇不同水平進(jìn)行組合后進(jìn)行紅藍(lán)雙方對(duì)抗,每種組合對(duì)抗200局以上,記錄紅方勝率。戰(zhàn)備完好率A范圍[0.8,1],單機(jī)失效率λ范圍為[0,0.5h-1],控制信號(hào)可用度范圍為[0.9,1]。對(duì)紅方勝率進(jìn)行三因素四階響應(yīng)建模,得到RMS參數(shù)與勝率的定量關(guān)系如表2所示。

圖6 RMS仿真計(jì)算流程圖

表2 RMS參數(shù)與勝率4階響應(yīng)面模型擬合結(jié)果

圖7 單因素RMS參數(shù)與勝率擬合曲線

從擬合結(jié)果分析,在理想情況下分別考慮單因素RMS參數(shù)對(duì)勝率的關(guān)系曲線如圖7所示。單因素下戰(zhàn)備完好率A范圍[0.8,1]時(shí)勝率為[0.5039088, 0.632325];單機(jī)失效率λ范圍為[0,0.5h-1]時(shí)勝率為[0.2568787,0.632325];控制信號(hào)可用度范圍為[0.9,1]時(shí)勝率為[0.616531, 0.632325]。

4.3 針對(duì)RMS參數(shù)的模型優(yōu)化

上一節(jié)分析結(jié)果表明,考慮真實(shí)物理世界軟硬件的RMS參數(shù)后,強(qiáng)對(duì)抗智能網(wǎng)絡(luò)的執(zhí)行性能比理想情況低。對(duì)于神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練是一個(gè)逐步逼近最優(yōu)解的過程,理想情況下經(jīng)過訓(xùn)練得到的強(qiáng)對(duì)抗智能模型最優(yōu)解并非是非理想情況下考慮了RMS參數(shù)約束后的最優(yōu)解,示意圖如圖8所示。

需要在模型訓(xùn)練的過程中將RMS參數(shù)作為約束條件帶入。在原先建立的GAN強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,考慮戰(zhàn)備完好率的影響。假設(shè)實(shí)際的戰(zhàn)備完好率在0.8左右,暫不考慮單機(jī)失效率和控制信號(hào)完好率的影響,我們以此為約束條件,對(duì)GAN建立的DQN模型訓(xùn)練的每個(gè)episod中,通過抽樣隨機(jī)生成該episod可用的飛機(jī)數(shù),并使得多次抽樣戰(zhàn)備完好率期望值為0.8。經(jīng)過這樣的設(shè)定后,經(jīng)過訓(xùn)練得到在戰(zhàn)備完好率0.8時(shí)得到性能優(yōu)化的強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)。對(duì)訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行性能測(cè)試,并與原網(wǎng)絡(luò)的性能進(jìn)行對(duì)比,得到的性能曲線如圖9所示,圖中正方形點(diǎn)和三角形分別表示戰(zhàn)備完好率為1和0.8條件下得到的強(qiáng)對(duì)抗網(wǎng)絡(luò)性能。從圖中可以看出,戰(zhàn)備完好率為0.8條件下優(yōu)化的控制模型斜率更為平緩,表明其具有更好的魯棒特性,同時(shí)戰(zhàn)備完好率參數(shù)等于0.8時(shí)的紅方勝率相對(duì)提高了8.8 %。

圖8 神經(jīng)網(wǎng)絡(luò)參數(shù)、性能及RMS參數(shù)關(guān)系示意

圖9 不同戰(zhàn)備完好率優(yōu)化條件下的強(qiáng)對(duì)抗網(wǎng)絡(luò)模型性能

5 結(jié)論

本文基于GAN方法,探討建立強(qiáng)對(duì)抗網(wǎng)絡(luò)的方法,并根據(jù)歷史回放數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練。對(duì)訓(xùn)練得到的理想情況下的強(qiáng)對(duì)抗網(wǎng)絡(luò),采用可靠性仿真計(jì)算方法,得到不同RMS參數(shù)下對(duì)應(yīng)的強(qiáng)對(duì)抗網(wǎng)絡(luò)性能,并采用響應(yīng)面模型建立RMS參數(shù)與強(qiáng)對(duì)抗網(wǎng)絡(luò)性能定量公式。通過可靠性仿真計(jì)算,可以分析各RMS參數(shù)對(duì)于網(wǎng)絡(luò)性能的影響情況,為人工智能強(qiáng)對(duì)抗網(wǎng)絡(luò)與真實(shí)物理世界的連接提供了可靠性分析的技術(shù)途徑。為提高物理世界條件下強(qiáng)對(duì)抗網(wǎng)絡(luò)的可靠性,進(jìn)一步分析了在RMS參數(shù)造成強(qiáng)對(duì)抗網(wǎng)絡(luò)性能下降的原因,并提出在考慮RMS參數(shù)后進(jìn)行網(wǎng)絡(luò)性能優(yōu)化的方法,提升強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)在面臨復(fù)雜環(huán)境下裝備發(fā)生物理失效的魯棒特性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲精品天堂自在久久77| 91口爆吞精国产对白第三集| 午夜无码一区二区三区在线app| 亚洲男女在线| 国产精品任我爽爆在线播放6080 | 国产国语一级毛片在线视频| 亚洲中文久久精品无玛| 成人午夜视频网站| 99精品欧美一区| 国产呦精品一区二区三区下载| 国产精品.com| 五月激情综合网| 久久久久青草大香线综合精品 | 久久无码av一区二区三区| 国产精品无码一区二区桃花视频| 91无码人妻精品一区| 美女内射视频WWW网站午夜| 亚洲一级色| 成人日韩视频| 国产爽歪歪免费视频在线观看 | 91娇喘视频| 麻豆国产精品| 久久永久免费人妻精品| 欧美国产在线精品17p| 亚洲大学生视频在线播放| 久久久久久国产精品mv| 日韩大片免费观看视频播放| 亚洲中文久久精品无玛| 久久公开视频| 五月婷婷综合网| 中文字幕免费播放| 一级毛片视频免费| 久久婷婷综合色一区二区| 国产高清无码麻豆精品| 欧美午夜一区| 久久特级毛片| 97人妻精品专区久久久久| a级毛片在线免费观看| 青青草国产精品久久久久| 亚洲资源在线视频| 91无码视频在线观看| 中文字幕人妻无码系列第三区| 美女扒开下面流白浆在线试听| 日韩专区欧美| 亚洲综合二区| 手机在线免费毛片| 欧美成人午夜视频免看| AV无码无在线观看免费| 中文字幕va| 夜夜操狠狠操| 国产凹凸视频在线观看| 亚洲第一色视频| 欧美成人影院亚洲综合图| 伊人天堂网| 日韩av手机在线| 国产成熟女人性满足视频| 国产男人的天堂| 丁香婷婷在线视频| 成年A级毛片| 青青草一区二区免费精品| 久久综合一个色综合网| 51国产偷自视频区视频手机观看| 一级毛片在线播放| 国产精品女熟高潮视频| 免费国产黄线在线观看| 天天干伊人| 国产偷国产偷在线高清| 视频二区中文无码| 亚洲欧洲一区二区三区| 欧美国产中文| 国产青榴视频| 99精品国产高清一区二区| 2021国产精品自拍| 71pao成人国产永久免费视频| 手机在线免费不卡一区二| 国产中文在线亚洲精品官网| 亚洲无码37.| 成人日韩视频| 无码高潮喷水在线观看| 国产综合亚洲欧洲区精品无码| 97久久免费视频| 曰韩人妻一区二区三区|