李 健 劉海濱 胡 笛
(中國航天系統科學與工程研究院 北京 100048)
武器系統的效能通常指的是在特定環境下武器完成任務的能力,是規劃、研發武器系統的基本依據,也是評價武器系統極其重要的指標,是軍事運籌研究的出發點和歸宿[1]。
由于武器系統的復雜性,導致其效能的評估變得尤其困難。武器系統的評估,必須要綜合考慮影響其效能的所有重要指標?,F階段評價武器系統的方法主要有神經網絡[2-3]、支持向量機[4]和模糊綜合評估[5]等方法,每種方法都各有優劣[6]。
基于神經網絡的評估方法簡單易行,但最終效果對于訓練集的大小有一定的依賴性。若訓練集太小,容易造成欠擬合,模型找到的規律不能很好地表現數據特征,進而不能準確地擬合預測結果。
基于支持向量機的評估方法對于小樣本數據有比較好的預測效果,但支持向量機對缺失數據敏感,同時對于非線性問題核函數的選擇沒有通用的解決方案。
基于模糊綜合評估法的模型,能夠將影響因素全部納入考量范圍,準確率較高,但其中的隸屬度函數和權值的選擇目前還存在不確定,需要人工進行選取。
本文主要是針對神經網絡評估的劣勢問題,提出了“生成對抗網絡+深度神經網絡”的解決方案。探索研究生成對抗網絡在樣本擴增方面的應用,結合深度神經網絡建立評估模型,并對其效果和性能進行了對比分析。
生成對抗網絡(GAN,Generative Adversarial Nets)是一種深度學習模型,最早由Goodfellow等[7]于2014年10月提出。GAN的優化過程是一個極小極大博弈問題,其優化目標是達到納什均衡[8]。
生成對抗網絡如圖1所示,包括兩部分,生成模型G和判別模型D。生成模型G用于獲取數據的分布,判別模型D用于估算數據來自于訓練樣本還是生成模型G的概率。G的訓練是為了使得D最大化犯錯誤的可能性。該模型類似于一個雙人博弈游戲,在G和D的函數解空間中存在著唯一解。伴隨著G得到訓練數據的分布,D輸出的概率逐漸趨于1/2。當G和D定義為多層感知器的情況下,整個系統可以通過反向傳播進行訓練。在訓練和產生樣本的過程中,不需要任何的馬爾可夫鏈或者近似推理網絡。

圖1 GAN算法的基本結構
生成模型G:一個生成網絡,通過接收噪聲z,產生偽數據G(z);
判別模型D:一個判別網絡,通過接收輸入樣本數據x,輸出數據是真數據還是G(z)的概率D(x)。
對于判別模型D,其目的是區分數據的真假,即來自于原樣本數據x的D(x)的輸出越接近于1越好,而對于D(G(z))越接近于0越好。對于生成模型G,其目的是使該模型產生的偽數據G(z)盡可能地騙過判別模型D,即D(G(z))越大越好[9]。因此,GAN中D與G的訓練便成為使用函數V(G,D)的二者博弈極小極大值問題:
minGmaxDV(D,G)=
Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
(1)
對應生成模型G和判別模型D的代價函數為:
minGV(D,G)=-Ez~pz(z)[log(1-D(G(z)))]
(2)
maxDV(D,G)=-Ex~pdata(x)[logD(x)]-
Ez~pz(z)[log(1-D(G(z)))]
(3)
深度神經網絡[10-11]如圖2所示,其內部結構可以分為三層:輸入層、多層隱藏層和輸出層。深度神經網絡是一種有效的多層神經網絡學習方法,其主要特點是信號前向傳遞,而誤差后向傳播,通過不斷調節網絡權重值,使得網絡的最終輸出與期望輸出盡可能接近,以達到訓練的目的。

圖2 深度神經網絡的基本結構
假設有m個訓練樣本,其中tk為對于輸入xk的期望輸出。其一般代價代價函數Ep為:
(4)
利用得到的誤差值進行逆向傳播,利用求導等方式得到神經元權值ω、偏執量b的修正:
(5)
(6)

(7)
(8)
可以看出,神經元權值和偏執量的變化取決于誤差,與激活函數無關。
支持向量回歸(Support Vector Regression,SVR)是Vapnik等在1996年提出的應用在數據擬合問題的向量機算法。與傳統的SVM(Support Vector Machine)相比,SVR的目的也是尋找最優超平面,但是SVR能找到更準確預測數據分布的平面[12]。目前,SVR算法在數據的擬合、預測等方面有著非常良好的效果。
SVR模型表示為:
(9)

(10)
經過拉格朗日函數及其求偏導數一系列變化之后可得到最終需要優化的目標W為:
(11)

由此可知,SVR的性能主要取決于參數C、ε、核函數類型以及核參數。常用的核函數包括:線性核、多項式核、徑向基核函數等。
本文運用GAN算法進行數據生成,同時利用深度神經網絡進行預測,實現諸多影響因素與最終結果之間的映射關系。其詳細過程如圖3所示。

圖3 模型構建流程圖
由于影響電子對抗的因素種類較多,且不同因素之間的量綱不同,不具有可比性。因此,在實驗過程中,首先對原始數據進行標準化處理,將其統一轉化到[-1,1]區間。每組影響因素之間的轉化公式為:
(12)
將標準化后的數據進行生成對抗網絡訓練,其中,主要是生成模型G和判別模型D的博弈。使用隨機噪聲和真實樣本數據訓練生成網絡和判別網絡,使得兩者達到納什均衡,最終獲得功能強大的判別網絡和可模擬原數據的生成網絡。
生成模型G是一個生成網絡,通過接收隨機高斯噪聲z,產生偽數據G(z)。假設已知訓練樣本的分布p(x),那么就可以在分布中隨機抽樣得到新樣本。生成模型就是在不斷循環和訓練中得到噪聲z和訓練樣本x之間的關系。在實驗中,隨機噪聲服從均值為0,標準差為1的高斯分布N(0,1)。
判別模型D是一個判別網絡,通過接收輸入x,輸出數據是真數據還是G(z)的概率D(x)。對于判別模型D,其目的是區分數據的真假,即來自于原樣本數據x的D(x)的輸出越接近于1越好,而D(G(z))越接近于0越好;對于生成模型G,其目的是使該模型產生的偽數據G(z)盡可能地騙過判別模型D,即D(G(z))越大越好。通過生成模型G和判別模型D的相互博弈和訓練,使得G和D的性能在迭代過程中不斷提升,最終達到納什均衡狀態。
GAN模型采用隨機梯度上升更新判別模型,同時采用隨機梯度下降更新生成模型,設置最大迭代次數T=500,判別模型的訓練步數k是一個超參數,實驗中k=Round(N/batch),Ronud(*)表示取整函數,N表示樣本量,batch表示每次取出樣本的數量。
從分布pz(z)、pdata(x)的m個樣本{z1,z2,…,zm}、{x1,x2,…,xm}中分別選取batch個樣本,利用式(3)計算其代價函數,通過隨機梯度上升更新判別模型:
(13)
待k次訓練更新判別模型之后,從分布pz(z)的m個樣本{z1,z2,…,zm}中選取batch個樣本,利用式(2)計算其代價函數,通過隨機梯度下降更新生成模型:
(14)
假設有真實數據data,可以看作一組向量,pdata(x)為真實數據對應分布。在整個訓練過程中,pz(z)逐漸地收斂于pdata(x)。對應有如下理論:
定理1固定G,得到最優的判別模型D:
(15)
證明:固定G,原最優函數轉化為求maxDV(D,G)。將原公式中的數學期望展開為積分形式。
V(G,D)=Ex~pdata(x)[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]=
(16)
求積分的最大值可以轉化為求被積函數的最大值。上式中不涉及判別模型D的項都可以看作常數項。因此,被積函數可以表示為f(D)=alogD+blog(1-D)。當被積函數導數為0時,D可以取到最大值。
(17)
計算可得:
(18)
定理2如果G和D有足夠的性能,對于上述定理1中的每一步,給定G,判別模型能夠達到最優,并且通過更新pz(x)來提高判別準則:
(19)
要使得上式值達到最優,則D*(x)=1/2,即pz(x)=pdata(x)。
證明:將定理1中的結果代入目標函數中:
C(G)=V(G,D*)=
(20)

(21)
從JS距離的定義可知,當且僅當KL(a‖b)中的a=b時,等號成立。所以當pz(x)=pdata(x)時:
C(G)=-log4+2JSD(pdata‖pg)≥-log4
(22)
當且僅當D*(x)=1/2,即pz(x)=pdata(x)時,該不等式取到等號,C(G)取到最小值。
由定理1和定理2可得,整個模型達到納什均衡后,生成模型已經得到原數據分布的良好的估計分布,即pz(z)=pdata(x)。
待對抗網絡訓練結束后,使用訓練后的生成模型生成一定量的偽數據F,與原始樣本數據R組成擴增樣本K。較原始數據相比,擴增樣本分布與其基本一致,但數據量有明顯提升。
使用擴增樣本K訓練基于BP神經網絡的深度網絡,深度網絡共11個輸入節點,中間多層隱藏層,一個輸出節點。通過誤差的反向傳播理論,利用式(4)-式(8)逐層反向傳播,修正偏執量和神經元權值。最終得到一個完整的生成對抗網絡和深度神經網絡的模型。
本文以電子對抗的效能評估為例進行說明。由于影響電子對抗的因素太多,這里選取干擾強度、干擾時間、檢索速率、干擾頻率、距離檢索范圍、距離追蹤范圍、距離追蹤精度、角度跟蹤精度、速度追蹤范圍和速度追蹤精度等作為影響因子[13-15]。
本文采用均方根誤差(Root Mean Square Error,RMSE)作為模型的評價指標。RMSE是預測值與實際值之差的平方和與數據總量比值的平方根。與標準差對比,均方根誤差用來衡量預測值和實際值之間的偏差,標準差則衡量一組數據自身的離散程度。
(23)
實驗使用226個測試數據作為原始樣本數據,利用生成模型生成偽數據的擴增樣本為1 800個。歸一化后的數據樣本如表1所示。

表1 歸一化之后的數據樣本
實驗中我們采用結果對比來驗證模型的優劣,對比的模型為:
? 遺傳算法得到最優參數的SVR。
? 原始數據訓練的深度BP神經網絡。
每次實驗從原始樣本中隨機取出10個作為預測值,剩余的數據作為訓練集分別對遺傳算法改進SVR、深度BP神經網絡進行訓練,然后使用除去預測值的擴增樣本訓練擴增深度神經網絡。
實驗總共進行了7組預測,表2為不同組別不同模型下的RMSE值。

表2 隨機測試數據在不同模型下的RMSE
從表2可以看出,原始數據訓練的神經網絡的擬合效果除了第3組和第7組優于SVR之外,其他5組擬合效果均不如SVR。這說明大多數情況下小樣本的擬合SVR是普遍優于神經網絡的,也一定程度上說明傳統的武器效能評估模型的不穩定性,使得在效能評估的時候難以抉擇合適的模型。但是,擴增樣本訓練的深度神經網絡的RMSE值均小于原數據訓練得到的神經網絡和SVR,說明該模型的擬合效果要優于SVR和小樣本訓練得到的神經網絡。另外,從第1組、第2組和第6組數據結果可以看出,本文提出的的模型要優于兩個對比的傳統模型,這種差異在圖4中表現得更加直觀。圖4為7組隨機測試數據在不同模型下的RMSE柱狀圖。

圖4 7組隨機測試數據在不同模型下的RMSE
為了更好地展示各模型的綜合優劣性,對7組RMSE求均值,如圖5所示。

圖5 7組隨機測試數據在不同模型下的RMSE均值
擴增樣本訓練的模型平均RMSE為0.046 5,原數據使用BP神經網絡訓練的模型平均RMSE為0.072 1,原數據使用SVR訓練的模型平均RMSE為0.067 6,較原數據神經網絡訓練結果小0.005左右,可見在武器系統的小樣本數據的效能評估方面,SVR要優于深度BP神經網絡,但優勢不是非常明顯。通過本文模型訓練得到的平均RMSE最小,比其他兩種模型分別小0.025 6和0.021 1,差值明顯。由此可得,從綜合效果來看,擴增樣本訓練得到的深度網絡模型要遠優于傳統的兩種對比模型。
選取其中一組的結果進行展示,圖6為第7組對應的實際值和預測結果。

圖6 模型預測結果和真實值對比
從圖6可以看出,原數據訓練的深度BP神經網絡和SVR擬合的效果各有優劣,但是擴增樣本訓練的深度網絡模型的擬合曲線明顯更契合原始數據點。從單組擬合效果來看,本文的模型優于傳統的兩種模型。
從上述所有結果中可以看出,無論從單組的誤差還是均誤差亦或是擬合效果,擴增樣本訓練的深度神經網絡都明顯優于其他兩個算法。這是由于擴增樣本通過擴充深度神經網絡中的訓練數據,使得其模型預測效果更佳。
在實驗過程中發現,對于某些異常值(如第4組實驗結果中的標記點),三個模型預測效果均比較差,如圖7所示。

圖7 模型預測結果和真實值對比(含異常值)
圖7中的標記點及其圖6中的第2個點,對應三種模型預測的結果都比較差,因此可以假設原專家給分或測試可能有誤,或其不是來自于統一標準。以往在專家或測試給出評測之后,無法得知此次評估是否與先前的經驗有較大的差別,而現在可將該系統的評估結果輸入到判別網絡對其進行打分,驗證其與先前的評估是否存在較大差異,進而決定專家是否需要再一次的進行討論評估或測試。
本文探索性地將生成對抗網絡與深度BP神經網絡結合建立模型,并將其應用于武器系統評估。利用對抗網絡可以產生更加清晰且接近真實的樣本,用以解決武器系統評估或測試中樣本量較少、無法滿足訓練深度網絡要求的問題。同時,判別網絡還對評估或者測試的結果是否存在問題為專家提供了一定參考。此外,模型中擴展樣本訓練的深度網絡,還為以往需要大量專家工作或者專業人員測試的評估問題提供了一種簡潔高效的解決方法。通過對比實驗,驗證了本文模型的可行性及其優越性,探索性地將深度學習方法融入到軍工方面。
雖然GAN模型崩潰和訓練不收斂的問題已經基本被解決,但是對GAN模型還存在一定的影響,同時GAN模型不適合處理離散形式的數據,例如文本數據等。這一系列的問題都使得GAN模型的應用受到了限制,因此其應用領域還需要不斷擴大與發展。本文的實驗模型雖然一定程度上解決了武器系統效能評估中少樣本的問題,但是對于幾十個甚至更少樣本量的武器系統的評估仍然無法達到令人滿意的效果,這一方向將是未來研究的重點。