基于生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)對(duì)抗控制模型可靠性分析方法

2021-03-19 03:14:02白樺孫旭朋黃文錚

環(huán)境技術(shù) 2021年1期

關(guān)鍵詞：模型

白樺，孫旭朋，黃文錚

（北京圣濤平試驗(yàn)工程技術(shù)研究院有限責(zé)任公司，北京 100089）

引言

在解決游戲和軍事等強(qiáng)對(duì)抗問題中，人工智能方法被寄予厚望[1]。人們迫切希望尋找一種建模方法能夠擊敗人類，相關(guān)的增強(qiáng)學(xué)習(xí)等強(qiáng)對(duì)抗建模技術(shù)得到關(guān)注。2016年AlphaGo圍棋人工智能的突破, 反映出最近興起的深度學(xué)習(xí)等人工智能技術(shù)解決圍棋這類完美信息博弈問題的優(yōu)異性能。圍棋屬于完全信息博弈問題，與軍事對(duì)抗相比有較大差距，近年來AI接連在多個(gè)對(duì)抗性即時(shí)戰(zhàn)略游戲中達(dá)到甚至戰(zhàn)勝人類最高水平選手。OpenAI訓(xùn)練的5個(gè)AI組成的戰(zhàn)隊(duì)，通過在線戰(zhàn)斗游戲Dota2的訓(xùn)練達(dá)到了人類無法比擬的指法操作熟練程度。DeepMind訓(xùn)練的星際爭霸人工智能系統(tǒng)擊敗世界上最強(qiáng)大的職業(yè)星際爭霸玩家。

美軍2014 年提出的“第三次抵消戰(zhàn)略”，就是以人工智能技術(shù)為核心發(fā)展能夠 “改變未來戰(zhàn)局” 的顛覆性技術(shù)群，來形成相較于對(duì)手的絕對(duì)軍事優(yōu)勢(shì)。未來戰(zhàn)爭是由物理域、信息域、控制域等多重域交疊構(gòu)成的具有跨域特性的作戰(zhàn)域。隨著人工智能技術(shù)的發(fā)展，應(yīng)用于未來作戰(zhàn)的強(qiáng)對(duì)抗系統(tǒng)將是高度復(fù)雜的大系統(tǒng)，具有可變的戰(zhàn)場(chǎng)環(huán)境、不確定的動(dòng)態(tài)因素干擾、多目標(biāo)的作戰(zhàn)任務(wù)。考慮真實(shí)物理世界，裝備在作戰(zhàn)時(shí)面臨可靠性、維修性和保障性（簡稱 RMS）等問題將有可能限制人工智能控制的性能。

當(dāng)環(huán)境信息輸入增大，指控的智能體（Agent）數(shù)量增多時(shí)，強(qiáng)對(duì)抗智能神經(jīng)網(wǎng)絡(luò)的參數(shù)增加結(jié)構(gòu)變得復(fù)雜，此時(shí)網(wǎng)絡(luò)訓(xùn)練存在難以收斂的問題。

GAN是由 Ian J.Goodfellow[2]等在2014年提出的一種基于深度神經(jīng)網(wǎng)絡(luò)的生成式模型。GAN以其學(xué)習(xí)高維、復(fù)雜的真實(shí)數(shù)據(jù)分布的潛力而受到機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注。具體地說，它們不依賴于任何關(guān)于分布的假設(shè)，并且可以一種簡單的方式從隱藏空間生成類似真實(shí)的樣本。它們?cè)趶?fù)雜和高維數(shù)據(jù)的處理能力可用于處理復(fù)雜智能控制領(lǐng)域，并在強(qiáng)對(duì)抗建模領(lǐng)域與增強(qiáng)學(xué)習(xí)中的DQN[3,4]等方法相結(jié)合。GAN方法加快神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化速度示意圖如圖1。

本文介紹強(qiáng)對(duì)抗控制模型GAN建模的方法，并針對(duì)仿真實(shí)例，采集對(duì)抗回放數(shù)據(jù)，分別設(shè)計(jì)鑒別器網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)進(jìn)行訓(xùn)練，在對(duì)訓(xùn)練好的表演者網(wǎng)絡(luò)按照DQN方法進(jìn)一步的訓(xùn)練優(yōu)化，得到優(yōu)化后的網(wǎng)絡(luò)后進(jìn)行可靠性分析，建立RMS參數(shù)與強(qiáng)對(duì)抗控制模型勝率的定量關(guān)系。在此基礎(chǔ)上，分析了物理世界可靠性問題對(duì)控制網(wǎng)絡(luò)性能的影響，并且提出了針對(duì)RMS參數(shù)的性能。

1 強(qiáng)對(duì)抗控制模型GAN建模方法

為了快速建立基于深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)對(duì)抗控制模型，采用GAN技術(shù)，利用收集到的強(qiáng)對(duì)抗歷史數(shù)據(jù)，對(duì)表演者神經(jīng)網(wǎng)絡(luò)進(jìn)行快速優(yōu)化使其能夠模仿這些歷史回放數(shù)據(jù)中采用的對(duì)抗策略，能夠生產(chǎn)歷史回放數(shù)據(jù)的策略。所需歷史回放數(shù)據(jù)可以人類玩家對(duì)局產(chǎn)生，或由編寫的已優(yōu)化的自動(dòng)化對(duì)抗規(guī)則程序產(chǎn)生，無需額外的人工標(biāo)記處理。

1.1 GAN鑒別網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)構(gòu)成

圖1 GAN加速神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度

GAN由判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A組成。其中判別網(wǎng)絡(luò)D對(duì)輸入對(duì)抗數(shù)據(jù)進(jìn)行分類，輸出0～1之間的標(biāo)量值判定輸入數(shù)據(jù)是否符合演示對(duì)抗策略，0為完全符合，1為完全不符合，因此判別網(wǎng)絡(luò)D的優(yōu)化目標(biāo)是盡可能對(duì)所有數(shù)據(jù)進(jìn)行準(zhǔn)確判別。表演者網(wǎng)絡(luò)A讀取對(duì)抗態(tài)勢(shì)（環(huán)境）數(shù)據(jù)，產(chǎn)生在這種態(tài)勢(shì)下應(yīng)采取的對(duì)抗命令，表演者網(wǎng)絡(luò)A的目標(biāo)是盡可能準(zhǔn)確地模仿演示對(duì)抗策略。判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A形成對(duì)抗關(guān)系，對(duì)這兩個(gè)網(wǎng)絡(luò)的交替訓(xùn)練，當(dāng)這兩個(gè)網(wǎng)絡(luò)達(dá)到平衡時(shí)，判別網(wǎng)絡(luò)D以接近同等概率對(duì)演示對(duì)抗數(shù)據(jù)和表演者網(wǎng)絡(luò)產(chǎn)生的對(duì)抗數(shù)據(jù)進(jìn)行判別，此時(shí)表演者網(wǎng)絡(luò)A學(xué)到了接近于演示玩家的對(duì)抗策略。

1.2 損失函數(shù)的構(gòu)造

采集到回放數(shù)據(jù)以后即可采用生成對(duì)抗網(wǎng)絡(luò)技術(shù)對(duì)判別網(wǎng)絡(luò)D和表演者網(wǎng)絡(luò)A進(jìn)行對(duì)輪交替訓(xùn)練，其中判別網(wǎng)絡(luò)D的損失為演示樣本與模仿樣本的判別損失總和：

交叉熵BCELoss計(jì)算公式如下：

因此，判別網(wǎng)絡(luò)D損失計(jì)算函數(shù)為：

式中：

判別網(wǎng)絡(luò)D的優(yōu)化目標(biāo)是最小化總體判別損失。判別網(wǎng)絡(luò)D是典型的二元分類神經(jīng)網(wǎng)絡(luò)，輸入為聯(lián)合對(duì)抗態(tài)勢(shì)+對(duì)抗命令列表的張量編碼，輸出為0～1二元分類標(biāo)量，其網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)規(guī)模可以考慮輸入數(shù)據(jù)特點(diǎn)進(jìn)行選擇，通常可以采用例如卷積網(wǎng)絡(luò)CNN或多層感知機(jī)MLP等，參數(shù)維度和網(wǎng)絡(luò)深度可以根據(jù)輸入數(shù)據(jù)屬性的數(shù)目和關(guān)聯(lián)關(guān)系復(fù)雜性進(jìn)行調(diào)整選擇。

表演者網(wǎng)絡(luò)A的結(jié)構(gòu)設(shè)計(jì)與強(qiáng)化學(xué)習(xí)中表演者網(wǎng)絡(luò)設(shè)計(jì)類似，輸入輸出維度以及網(wǎng)絡(luò)深度等參數(shù)需要考慮仿真數(shù)據(jù)特點(diǎn)進(jìn)行選擇調(diào)整。表演者網(wǎng)絡(luò)A的回報(bào)計(jì)算見公式（5）：

表演者網(wǎng)絡(luò)A的優(yōu)化目標(biāo)是最大化回報(bào)。表演者網(wǎng)絡(luò)A的損失函數(shù)見公式（6），式中不同種類的Agent以下標(biāo)i表示，同一種類的Agent不同的架次以下標(biāo)j表示。

式中：

pd—由表演者網(wǎng)絡(luò)A輸出的參數(shù)構(gòu)造的對(duì)抗命令參數(shù)概率分布，pd采用的概率分布類型可以根據(jù)參數(shù)特點(diǎn)進(jìn)行選擇，對(duì)離散參數(shù)例如命令類型可以采用Categorical分布等，對(duì)連續(xù)參數(shù)例如坐標(biāo)點(diǎn)x，y可以采用Normal分布等；

action—從構(gòu)造的概率分布取樣獲得的命令參數(shù)取值；

log_prob—概率分布在action取值的樣本點(diǎn)的log概率密度；

entropy—概率分布的熵；

β—超參數(shù)，控制最大熵目標(biāo)在表演者網(wǎng)絡(luò)損失中的占比，在訓(xùn)練時(shí)根據(jù)訓(xùn)練狀況進(jìn)行調(diào)整。

2 仿真平臺(tái)設(shè)置

本文以中央軍委裝備發(fā)展部主辦的2020全國“謀略方寸，聯(lián)合智勝”聯(lián)合作戰(zhàn)智能博弈挑戰(zhàn)賽[5]提供的仿真環(huán)境為應(yīng)用場(chǎng)景，在此基礎(chǔ)上，采用GAN方法建立了強(qiáng)對(duì)抗DQN模型。面對(duì)新的仿真環(huán)境缺少歷史回放數(shù)據(jù)的問題，采用規(guī)則編程驅(qū)動(dòng)紅藍(lán)雙方對(duì)抗，并且記錄對(duì)抗結(jié)果。

2.1 對(duì)抗場(chǎng)景

紅藍(lán)雙方對(duì)抗的空間范圍設(shè)為350 km*350 km。雙方對(duì)抗地圖如圖2所示。藍(lán)方目標(biāo)（防守方）：依托地面、海面和空中立體防空火力，守衛(wèi)己方島嶼2個(gè)指揮所重點(diǎn)目標(biāo)。紅方目標(biāo)（進(jìn)攻方）：綜合運(yùn)用海空突擊和支援保障力量，突破藍(lán)方防空體系，摧毀藍(lán)方2個(gè)指揮所重點(diǎn)目標(biāo)。雙方對(duì)抗仿真時(shí)間為2.5 h。

在戰(zhàn)場(chǎng)可見性中采用戰(zhàn)爭迷霧設(shè)置，紅藍(lán)雙方在各自Agent的探測(cè)范圍內(nèi)可見。雙方的攻擊手段為發(fā)射導(dǎo)彈，其中的戰(zhàn)斗機(jī)發(fā)射空空導(dǎo)彈，轟炸機(jī)發(fā)射空地導(dǎo)彈、驅(qū)逐艦發(fā)射艦空導(dǎo)彈、地導(dǎo)營發(fā)射地空導(dǎo)彈。紅藍(lán)雙方對(duì)抗兵力見表1。

2.2 仿真環(huán)境

各裝備底層控制律由仿真引擎操作，仿真環(huán)境接口僅提供高級(jí)命令語法包括命令種類和命令參數(shù)。例如戰(zhàn)斗機(jī)的攻擊指令，包括攻擊戰(zhàn)斗機(jī)的ID和被攻擊空中目標(biāo)的ID；轟炸機(jī)的定點(diǎn)攻擊指令包括攻擊轟炸機(jī)的ID、被攻擊地面目標(biāo)的ID、攻擊角度的攻擊距離。各Agent的控制律、攻擊毀傷概率等為黑盒。

圖2 紅藍(lán)雙方對(duì)抗地圖[5]

仿真環(huán)境提供Python語言開發(fā)的對(duì)戰(zhàn)流程控制，參與者負(fù)責(zé)開發(fā)的程序?yàn)閳D中“決策并下發(fā)指令”，而作為制定決策的輸入為“獲取態(tài)勢(shì)”。獲取的態(tài)勢(shì)主要包括三個(gè)方面的信息，一為己方信息，包括各Agent的種類、空間位置和速度信息、載彈量和燃油量信息、毀傷狀態(tài)信息等；二為對(duì)方信息，僅提供戰(zhàn)爭迷霧可視范圍內(nèi)的敵方Agent種類、空間位置和速度等信息；三為導(dǎo)彈信息，包括雙方發(fā)射導(dǎo)彈的種類、發(fā)射裝備、攻擊目標(biāo)、速度等信息。

3 強(qiáng)對(duì)抗實(shí)例GAN建模與訓(xùn)練

3.1 模型構(gòu)建

為簡單起見，主要介紹紅方模型的構(gòu)建，編程語言框架為Pytorch。首先構(gòu)建判別器D神經(jīng)網(wǎng)絡(luò)模型，判別器D采用深度卷積網(wǎng)絡(luò)加深度多層感知網(wǎng)絡(luò)，輸入量為聯(lián)合態(tài)勢(shì)與聯(lián)合動(dòng)作拼接成的向量，輸出為0～1之間的標(biāo)量，表示Agent行為符合演示對(duì)戰(zhàn)策略的概率。聯(lián)合態(tài)勢(shì)由己方態(tài)勢(shì)、敵方態(tài)勢(shì)以及導(dǎo)彈態(tài)勢(shì)構(gòu)成。單個(gè)對(duì)抗步驟的所有輸入數(shù)據(jù)拼接成一個(gè)1階向量，其維度為：

表1 紅藍(lán)雙方對(duì)抗兵力[5]

式中：

對(duì)輸入數(shù)據(jù)的預(yù)處理主要包括：

1）為了確保神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)不發(fā)生崩潰，對(duì)于所有的網(wǎng)絡(luò)輸入數(shù)據(jù)均進(jìn)行歸一化處理，并且對(duì)于取值為0的數(shù)據(jù)填充為ε小量。

2）每個(gè)對(duì)抗步驟輸入對(duì)己方和敵方Agent均按最大Agent數(shù)目進(jìn)行編碼，對(duì)所有在機(jī)場(chǎng)待命以及補(bǔ)給狀態(tài)的飛機(jī)按照其位于機(jī)場(chǎng)位置待命的狀態(tài)作為相應(yīng)類型的存活A(yù)gent進(jìn)行編碼。

3）空中導(dǎo)彈信息均附加到被攻擊的目標(biāo)Agent之后。

4）對(duì)動(dòng)作命令，按照每個(gè)對(duì)抗步驟己方每個(gè)Agent一個(gè)動(dòng)作指令進(jìn)行編碼，Agent的動(dòng)作命令編碼按照己方Agent順序進(jìn)行排列。對(duì)于在當(dāng)前對(duì)抗步驟實(shí)際未發(fā)出指令的Agent，采用之前發(fā)出的最后一條還在執(zhí)行過程中的指令進(jìn)行填充。

判別器網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。網(wǎng)絡(luò)損失函數(shù)的設(shè)置參照公式（4），優(yōu)化方法為Adam。

圖3 判別器網(wǎng)絡(luò)結(jié)構(gòu)

圖4 表演者網(wǎng)絡(luò)結(jié)構(gòu)

表演者網(wǎng)絡(luò)A同樣采用類似的深度卷積網(wǎng)絡(luò)加深度多層感知網(wǎng)絡(luò)，網(wǎng)絡(luò)輸入為聯(lián)合態(tài)勢(shì)，網(wǎng)絡(luò)輸出為動(dòng)作命令，表演者網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)輸出根據(jù)動(dòng)作命令類型進(jìn)行隨機(jī)采樣，其中分立指令參數(shù)如攻擊ID號(hào)等的采樣器為Categorical，連續(xù)指令參數(shù)如攻擊距離等的采樣器為Normal。表演者網(wǎng)絡(luò)的損失函數(shù)如表達(dá)式（6）所示，優(yōu)化方法為Adam。

3.2 模型的訓(xùn)練

為進(jìn)行GAN訓(xùn)練，需要輸入演示者數(shù)據(jù)。在仿真平臺(tái)未提供相關(guān)對(duì)抗的歷史數(shù)據(jù)的情況下，通過編寫紅藍(lán)雙方的規(guī)則對(duì)抗模型，并進(jìn)行多局對(duì)抗的方式來記錄數(shù)據(jù)，記錄的數(shù)據(jù)即包括紅方聯(lián)合態(tài)勢(shì)數(shù)據(jù)也包括紅方動(dòng)作命令數(shù)據(jù)。編寫的規(guī)則模型紅方勝率為0.53。考慮到規(guī)則模型中通常一個(gè)動(dòng)作命令會(huì)控制Agent多步驟的行為直到Agent接受另一個(gè)動(dòng)作命令，對(duì)命令轉(zhuǎn)換前的空白動(dòng)作命令進(jìn)行了填充。采集多輪次的演示者數(shù)據(jù)存入回放數(shù)據(jù)文件供GAN模型訓(xùn)練。

表演者網(wǎng)絡(luò)模型訓(xùn)練的時(shí)候，按照批樣本數(shù)量為200從回放數(shù)據(jù)文件中進(jìn)行隨機(jī)取樣。根據(jù)采樣得到的聯(lián)合態(tài)勢(shì)數(shù)據(jù)，運(yùn)行表演者網(wǎng)絡(luò)，根據(jù)網(wǎng)絡(luò)輸出進(jìn)行隨機(jī)采樣后，生成表演者動(dòng)作列表，將該動(dòng)作列表與輸入的聯(lián)合態(tài)勢(shì)進(jìn)行組合，生成模仿樣本數(shù)據(jù)，同時(shí)記錄抽樣概率 log_prob和 entropy。

判別器網(wǎng)絡(luò)模型訓(xùn)練時(shí)，回放數(shù)據(jù)文件中的聯(lián)合態(tài)勢(shì)和相應(yīng)的動(dòng)作命令組合成為演示樣本數(shù)據(jù)輸入到判別器網(wǎng)絡(luò)，計(jì)算演示樣本的損失函數(shù)；模仿樣本數(shù)據(jù)輸入到判別器網(wǎng)絡(luò)，計(jì)算模仿樣本的損失函數(shù)，總損失函數(shù)如表達(dá)式（4）所示。

由于判別器網(wǎng)絡(luò)和表演者網(wǎng)絡(luò)均未對(duì)不同Agent共享神經(jīng)網(wǎng)絡(luò)參數(shù)，訓(xùn)練需要明顯更多的輪次和更長的時(shí)間。第一次訓(xùn)練后期發(fā)現(xiàn)表演者網(wǎng)絡(luò)的回報(bào)區(qū)域穩(wěn)定周期的振蕩，但表演者的損失仍然較高，顯示網(wǎng)絡(luò)進(jìn)入過擬合階段，因此重新采用對(duì)抗仿真引擎采集新的一批樣本以提高多樣性進(jìn)行第二次訓(xùn)練，經(jīng)過第二次訓(xùn)練表演者網(wǎng)絡(luò)回報(bào)得到了進(jìn)一步提高。

訓(xùn)練網(wǎng)絡(luò)性能統(tǒng)計(jì)曲線如圖5所示，左上圖為判別器判別演示樣本的準(zhǔn)確率，右上圖為判別器判別模仿樣本的準(zhǔn)確率，左下圖為表演者網(wǎng)絡(luò)的損失函數(shù)，右下圖為回報(bào)值，從圖中可以看出回報(bào)值在1 200步左右達(dá)到了極值之后處于平穩(wěn)狀態(tài)，表明已經(jīng)完成模型訓(xùn)練。

3.3 模型的測(cè)試

訓(xùn)練量得到的表演者網(wǎng)絡(luò)模型與產(chǎn)生回放數(shù)據(jù)的藍(lán)方規(guī)則模型進(jìn)行對(duì)局，對(duì)局次數(shù)為200次。表演者網(wǎng)絡(luò)的作戰(zhàn)性能達(dá)到了所模仿的紅方規(guī)則模型，勝率達(dá)到了0.52。在完成GAN模型的訓(xùn)練后，在此基礎(chǔ)上進(jìn)行DQN網(wǎng)絡(luò)的訓(xùn)練，之后再次對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試，紅方網(wǎng)絡(luò)的勝率達(dá)到了0.63。

4 可靠性分析

4.1 可靠性分析流程

在采用GAN方法建立紅藍(lán)雙方的AI模型并通過模型訓(xùn)練后，固化模型參數(shù)。以固化后的模型為基礎(chǔ)，進(jìn)行相關(guān)的RMS仿真軟件開發(fā)。將RMS參數(shù)帶入功能模型，通過MC-MC方法以及多Agent方法仿真分析RMS指標(biāo)參數(shù)對(duì)于作戰(zhàn)性能的影響。

圖5 網(wǎng)絡(luò)訓(xùn)練性能統(tǒng)計(jì)曲線

在紅藍(lán)雙方博弈對(duì)抗的基礎(chǔ)上，以紅方的勝率作為紅方作戰(zhàn)性能的表征。對(duì)弈的藍(lán)方暫不考慮由于RMS造成的作戰(zhàn)性能下降問題，紅方的戰(zhàn)斗機(jī)集群和轟炸機(jī)集群考慮由于戰(zhàn)備完好率A、單機(jī)失效率λ和控制信號(hào)可用度C作為RMS核心參數(shù)，進(jìn)行MC-MC仿真，建立紅方集群無人機(jī)RMS指標(biāo)與作戰(zhàn)性能的關(guān)系。為了簡化計(jì)算，我們?cè)O(shè)定戰(zhàn)斗機(jī)和轟炸機(jī)的戰(zhàn)備完好率、單機(jī)失效率和控制信號(hào)中斷率的設(shè)定值取為相同。RMS仿真建模的計(jì)算程序如圖6所示。

4.2 可靠性分析結(jié)果

選取戰(zhàn)備完好率A、單機(jī)失效率λ和控制信號(hào)可用度C這三個(gè)RMS因素進(jìn)行仿真計(jì)算，每個(gè)因素選擇不同水平進(jìn)行組合后進(jìn)行紅藍(lán)雙方對(duì)抗，每種組合對(duì)抗200局以上，記錄紅方勝率。戰(zhàn)備完好率A范圍[0.8,1]，單機(jī)失效率λ范圍為[0,0.5h-1]，控制信號(hào)可用度范圍為[0.9,1]。對(duì)紅方勝率進(jìn)行三因素四階響應(yīng)建模，得到RMS參數(shù)與勝率的定量關(guān)系如表2所示。

圖6 RMS仿真計(jì)算流程圖

表2 RMS參數(shù)與勝率4階響應(yīng)面模型擬合結(jié)果

圖7 單因素RMS參數(shù)與勝率擬合曲線

從擬合結(jié)果分析，在理想情況下分別考慮單因素RMS參數(shù)對(duì)勝率的關(guān)系曲線如圖7所示。單因素下戰(zhàn)備完好率A范圍[0.8,1]時(shí)勝率為[0.5039088, 0.632325]；單機(jī)失效率λ范圍為[0,0.5h-1]時(shí)勝率為[0.2568787,0.632325]；控制信號(hào)可用度范圍為[0.9,1]時(shí)勝率為[0.616531, 0.632325]。

4.3 針對(duì)RMS參數(shù)的模型優(yōu)化

上一節(jié)分析結(jié)果表明，考慮真實(shí)物理世界軟硬件的RMS參數(shù)后，強(qiáng)對(duì)抗智能網(wǎng)絡(luò)的執(zhí)行性能比理想情況低。對(duì)于神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練是一個(gè)逐步逼近最優(yōu)解的過程，理想情況下經(jīng)過訓(xùn)練得到的強(qiáng)對(duì)抗智能模型最優(yōu)解并非是非理想情況下考慮了RMS參數(shù)約束后的最優(yōu)解，示意圖如圖8所示。

需要在模型訓(xùn)練的過程中將RMS參數(shù)作為約束條件帶入。在原先建立的GAN強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上，考慮戰(zhàn)備完好率的影響。假設(shè)實(shí)際的戰(zhàn)備完好率在0.8左右，暫不考慮單機(jī)失效率和控制信號(hào)完好率的影響，我們以此為約束條件，對(duì)GAN建立的DQN模型訓(xùn)練的每個(gè)episod中，通過抽樣隨機(jī)生成該episod可用的飛機(jī)數(shù)，并使得多次抽樣戰(zhàn)備完好率期望值為0.8。經(jīng)過這樣的設(shè)定后，經(jīng)過訓(xùn)練得到在戰(zhàn)備完好率0.8時(shí)得到性能優(yōu)化的強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)。對(duì)訓(xùn)練得到的網(wǎng)絡(luò)進(jìn)行性能測(cè)試，并與原網(wǎng)絡(luò)的性能進(jìn)行對(duì)比，得到的性能曲線如圖9所示，圖中正方形點(diǎn)和三角形分別表示戰(zhàn)備完好率為1和0.8條件下得到的強(qiáng)對(duì)抗網(wǎng)絡(luò)性能。從圖中可以看出，戰(zhàn)備完好率為0.8條件下優(yōu)化的控制模型斜率更為平緩，表明其具有更好的魯棒特性，同時(shí)戰(zhàn)備完好率參數(shù)等于0.8時(shí)的紅方勝率相對(duì)提高了8.8 %。

圖8 神經(jīng)網(wǎng)絡(luò)參數(shù)、性能及RMS參數(shù)關(guān)系示意

圖9 不同戰(zhàn)備完好率優(yōu)化條件下的強(qiáng)對(duì)抗網(wǎng)絡(luò)模型性能

5 結(jié)論

本文基于GAN方法，探討建立強(qiáng)對(duì)抗網(wǎng)絡(luò)的方法，并根據(jù)歷史回放數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練。對(duì)訓(xùn)練得到的理想情況下的強(qiáng)對(duì)抗網(wǎng)絡(luò)，采用可靠性仿真計(jì)算方法，得到不同RMS參數(shù)下對(duì)應(yīng)的強(qiáng)對(duì)抗網(wǎng)絡(luò)性能，并采用響應(yīng)面模型建立RMS參數(shù)與強(qiáng)對(duì)抗網(wǎng)絡(luò)性能定量公式。通過可靠性仿真計(jì)算，可以分析各RMS參數(shù)對(duì)于網(wǎng)絡(luò)性能的影響情況，為人工智能強(qiáng)對(duì)抗網(wǎng)絡(luò)與真實(shí)物理世界的連接提供了可靠性分析的技術(shù)途徑。為提高物理世界條件下強(qiáng)對(duì)抗網(wǎng)絡(luò)的可靠性，進(jìn)一步分析了在RMS參數(shù)造成強(qiáng)對(duì)抗網(wǎng)絡(luò)性能下降的原因，并提出在考慮RMS參數(shù)后進(jìn)行網(wǎng)絡(luò)性能優(yōu)化的方法，提升強(qiáng)對(duì)抗神經(jīng)網(wǎng)絡(luò)在面臨復(fù)雜環(huán)境下裝備發(fā)生物理失效的魯棒特性。