田相軒, 石志強
(陸軍裝甲兵學院信息通信系, 北京 100072)
指揮信息系統是指具有指揮、控制、通信、信息處理、情報、偵察與監視功能的一體化、網絡化的各類軍事信息系統總稱,以提高多兵種一體化聯合作戰能力為目的,是信息化戰爭的最基本物質基礎[1-3]。實戰化的指揮信息系統訓練,存在費用高、安全隱患大、武器彈藥消耗多、戰場環境需求多樣、多兵種聯合協同難以及訓練后效能評估復雜等問題[4-6]。基于兵種建設模訓系統的指揮信息系統訓練,涉及指揮控制、情報偵察、信息傳輸、信息處理等多個專業方向,需要構建被訓對象的訓練目標、訓練對象模型、模擬裝備,需要提供作戰想定、戰場環境、主要事件、模擬設施、模型運算符法則、武器/裝備數據庫,需要在模訓實施前下發作戰想定、實施過程中對紅藍對抗雙方進行監督、訓練結束后進行評估與總結,整個過程需要模擬的對象和過程繁多復雜,涉及到的技戰術指標相互影響疊加,數據采集分析困難[7-9]。目前,技術支撐單位提供的樣本數據能夠淺表化地支撐模訓系統運行,但是對于針對性訓練、定制化訓練、重復場景的強化訓練、全元素的綜合訓練的支撐能力還不夠[10-11]。
目前,指揮信息系統模擬數據集生成的研究主要有兩類,一類是使系統能夠在小樣本的環境下運行,實現模型參數的優化。段萌等人提出采用卷積神經網絡的方法對大數據集進行訓練,獲取參數后,再應用到小樣本上進行模型初始化,實現小樣本下的模擬數據集生成,但是該方法需要大數據集對模型進行預訓練獲取權重參數[12]。任佳等人提出的算法利用專家經驗和領域知識,通過“軟約束”方法對模型參數進行學習,從而保證在小樣本條件下的精確性和有效性,但是專家經驗和領域知識的局限性無法克服[13]。該類方法能夠達到基本的要求,但限制了系統涌現性和自組織性的體現,某些特定環境條件地訓練無法展開,如針對海島、高原的訓練等。另一類是基于先驗知識,通過簡單地數據分析和選取特征后擴充數據。常沙等人基于數值模擬、統計特征及人工構建相結合的方法構建氣象水文環境想定,該方法對系統的非線性變量考慮較少,形成的模型不能真實模擬戰場環境[14]。Li等人基于支持向量機(support vector machine, SVM)聯合網格搜索實現模擬數據的生成,但是SVM對原始樣本中數據值缺失、異常值等特征比較敏感,導致生成的數據與原數據的線性回歸擬合不好[15]。楊懿男等人基于生成對抗網絡(generative adversarial networks,GAN)通過反向微調模型的內部參數(修正激活函數、刪除池化層),驅動生成器生成更加真實的樣本,主要是在工程優化方面做了一些工作,對于生成樣本與原始樣本數據分布的討論較少[16]。
強軍目標之“強”,很重要的體現在核心軍事能力上,這就要求我軍必須具有威懾和實戰兩個能力。在信息化加速發展的當今時代,我軍核心軍事能力的根本標志是基于信息系統的體系作戰能力[17]。基于信息系統下的體系作戰,強調的不再是某一兵種的強大,而是在體系下,系統的劣勢和優勢,各指標之間不再是相互獨立,而是相互關聯,呈現出多種關系,既有線性關系也有非線性關系。深度學習的相關技術以數據驅動為核心思想,通過分析數據內在規律,提取數據特征,克服人為建模的局限性[18-20]。本文基于深度學習的GAN,提出改進型GAN模擬數據生成(the simulation data generation based on evolutional GAN, EGAN-SDG)算法,構建指標體系,提出數據收集和清洗流程,基于GAN構建判別器與生成器,提出擬合度因子,通過靈活調參實現損失函數的收斂平衡,提高優化水平,實現復雜高維數據的學習訓練與生成。在此基礎上,采用互信息的方式對各指標體系間的關系進行描述,通過回歸擬合曲線驗證新數據集的概率分布和相關關系,檢驗生成數據的可信度,為指揮信息系統的全元素訓練提供數據支撐。
GAN的基本思想源自博弈論的二人零和博弈,由一個生成器和一個判別器構成,通過對抗學習的方式來訓練。生成模型和判別模型訓練和優化的過程就是一個“二元極小極大博弈”問題[21-22],訓練時固定一個模型,更新另一個模型的參數,交替迭代。最終,生成模型學習到樣本分布規律,生成足以以假亂真的樣本,使得判別模型無法確定生成模型生成樣本的真假性,GAN的架構如圖1所示。

圖1 GAN架構
判別模型通過對數據各維度特征的抽象,表達各類數據的差異,尋找不同類別之間的最優分類面。假設判別模型為D,其輸入是數據空間內的任意一個數據集x,輸出是一個概率值,表示屬于真實數據的概率[23-24],判別模型的優化目標是最大化地提高模型鑒別數據集的能力,獲取式(1)的極大值:
max(D)=Ex[D(x)]
(1)
生成模型是通過學習原數據的聯合概率密度分布,求取條件概率分布作為預測模型,生成模擬數據集。假設生成模型為G,其輸入是一個隨機變量z,z服從某種分布,輸出是一個數據集G(z),如果生成的數據集經過模型D后的概率值很高,就說明生成模型已經比較好地掌握了數據的分布模式,可以生成符合要求的樣本;反之則沒有達到要求,還需要繼續訓練。生成模型的優化目標是使生成的“假”數據集最大化地被判別模型鑒別為“真”,獲取式(2)的極小值:
min(G)=Ez[log(1-D(G(z)))]
(2)
因為GAN的兩個模型都是可微分的,可選擇任何類的梯度下降模型。系統的優化目標為生成模型目標函數獲得最小值,判別模型目標函數獲得最大值,可見最優化方程即最小最大博弈,算法的均衡點,也就是納什均衡,即實現全連接的神經網絡目標函數的最優化,以此判斷和監視學習訓練的成果[15]。
min maxV(D,G)=
Ex[logD(x)]+Ez[log(1-D(G(z)))]=

(3)
式(3)為系統的優化目標函數,pr和pg分別代表真實數據集與生成數據集判斷為真的概率分布,Ex[logD(x)]為使真實數據通過判別模型所得到的期望,Ez[logD(G(z))]為使生成模型生成數據通過判別模型所得到的期望。由于組成式子的兩部分積分的區域不同,當固定生成模型時,生成模型生成的數據集對應一個具體的x取值,所以pgxlog(1-D(G(z))可等價為pgxlog(1-D(x)),可得
maxV(D,G)=


(4)
(5)
(6)
(7)
V(D,G)=
Ex[logD(x)]+Ez[log (1-D(G(z)))]=
(8)
(9)
(10)
V(D,G)=-2log 2+2DJS(pr‖qg)
(11)
求解式(4)的最大值,需將被積分部分取最大值,可得式(5);對式(5)求導,得到式(6),令其為0,可得式(7),即取最大值時D*的值;將D*代回到式(3)中可得式(8),即判別模型取最大值時,V(D,G)的值;KL散度與JS散度如式(9)和式(10)所示,推導可得V(D,G)可表示為式(11)所示,即pr,qg的JS散度與常數-2log 2的和。
式(11)可解釋如下:首先優化判別模型,當判別模型取最大值時,即取值為D*時,判別模型達到最優化水平;固定鑒別模型,逐漸優化生成模型,當pg逐漸逼近pr,直至pg等于pr,DJS(p‖q)=0,mingV(D,G)取最小值為-2log 2,系統達到最優化水平(具體實現需要多次迭代),即系統對于生成模型生成數據判別為真或假的概率均為0.5,系統達到納什均衡。
EGAN-SDG算法流程如圖2所示,包含指標體系構建、數據收集與清洗、GAN數據生成、互信息數據真實度驗證4部分。

圖2 數據生成流程
針對目前合成旅指揮信息系統典型運用模式,本著簡單、可測、穩定、時效、獨立的原則,反映指揮信息系統從作戰方案的確定,情報獲取、情報分析、信息傳輸、火力協同、指揮控制與戰斗數據的收集,到完成作戰方案庫的不斷優化的完整過程,體現指揮信息系統履行使命任務的支撐能力[25-26]。通過研究篩選,根據指揮流程中各個能力的分析描述,構建指標體系如圖3所示,區分信息獲取分系統、信息傳輸分系統、信息處理分系統、輔助決策分系統、指揮控制分系統、資源管理分系統、系統對抗分系統七類系統,梳理為信息支撐能力、指揮控制能力、協同作戰能力、信息傳輸能力、系統穩定能力5種支撐能力,共計22個維度的信息。

圖3 指揮信息系統履行使命任務支撐能力指標體系
根據第2.1節中構建的指標體系,收集與清洗指揮信息系統運行過程中產生的數據,按照信息類型區分為結構化信息和非結構化信息兩部分,對數據進行預處理,提高數據學習效率,如圖4所示。

圖4 數據收集與清洗流程
非結構化信息主要是指揮信息系統運行過程中產生的格式化短報文、長報文和語音信息等。指揮信息系統中格式化報文信息數量有限,可通過預建信息抽取模型的方式,將非結構化信息轉換為編碼信息,數據收集與清洗的流程步驟如下。
步驟 1區分短報文、長報文、語音信息后,將長報文、語音信息轉換為短報文集的形式。針對長報文,需要進行短語識別轉換為短報文集;針對語音信息,需要進行語音識別,區分為長報文或短報文后,再作相應地處理。
步驟 2針對短報文或短報文集進行信息提取。首先,根據基礎詞典庫中的詞語組合信息,對短語字符串進行詞性分析,將字符串切分并作簡單標注,對字符串進行初步的結構化;其次,根據軍用詞典庫中的詞語組合信息,抽取相關詞組的類型定義、前后條件約束,采用軍用術語關鍵詞切分全句,將字符串切分成若干段,通過識別詞性獲取該詞的語義;根據語法規則庫中語法約束信息,判斷前后詞性是否符合約束規則,對實體進行完整性匹配,進行語法推理,獲取短報文語義。根據短報文語義,對短報文進行數據映射,建立短報文信息與編碼之間的對應關系集[27]。
步驟 3將處理完的非結構化信息與結構化信息進行數據清洗,目的是將同一時刻的多維度信息轉換成為表征指揮信息系統技戰術指標的時間切片信息。首先,進行數據格式轉換,數據矩陣橫坐標為維度信息,縱坐標為按照時間先后的編號;其次進行數據缺失值、異常值、噪音處理,即將重復、多余的數據篩選清除,將缺失的數據補充完整(拉格朗日中值法[28]),將錯誤的數據糾正或者刪除;最后進行規范化處理(最小最大規范化[29]),將數據歸一到[0,1]的范圍內,便于進行深度學習的數據訓練。
指揮信息系統模擬數據集生成的核心在于構建與之匹配的GAN,實現數據的學習、訓練與生成,難度在于提高生成數據集與原始數據的數據分布的相似度,避免局部收斂問題,達到判別模型與生成模型的均衡,實現系統目標的最優化。
本文基于互信息分析數據集之間的相關關系,提出將擬合度作為GAN系統的判別模型目標函數的修正因子,實現生成的模擬數據集與原始數據集的數據分布地快速擬合,從而提高GAN優化水平,具體實現流程如下。
步驟 1固定生成模型,訓練判別模型,判別模型的函數是:
maxV(D,G)=Ex[logD(x)]+Ez[log (1-D(x)]
(12)
設計判別模型為3層全連接神經網絡,輸入層節點數為22,隱藏層節點數為128,輸出層節點數為1,使用交叉熵作為判別器的損失函數,即提高將真實數據集判斷為真的期望,降低將生成數據集判斷為真的期望,最后一層輸出執行Sigmoid函數,獲得在[0,1]范圍內的實數值,通過目標函數最優,對判別模型進行訓練,實現梯度的快速下降,尋找最優解,提升判別模型的甄別能力。
步驟 2固定判別模型,訓練生成模型,生成模型的目標是使得生成的數據集使判別模型無法判別,其目標函數是:
minV(D,G)=Ez[log (1-D(G(z)))]
(13)
設計生成模型為3層全連接神經網絡,輸入層節點數為100,隱藏層節點數為128,輸出層節點數為22,使用交叉熵作為生成器的損失函數,目標是使生成模型生成數據通過判別模型的期望最大,獲得式(13)的最小值。
步驟 3定義判別模型和生成模型的優化方法均為Adam算法,重復步驟1與步驟2,即先固定生成模型優化判別模型參數;再固定判別模型,并把優化后的判別模型參數傳給生成模型,優化生成模型的參數,通過大量迭代后,逐步實現目標函數的最優化,使得生成樣本數據分布接近真實數據分布,判別模型處于納什均衡,判別模型對于生成模型產生的數據很難做出準確的判斷。
步驟 4每迭代n次進行數據分布擬合度校驗,修正判別模型的目標函數,從而提高向原始數據擬合的收斂度,其修正函數為
maxV(D,G)=SIN(Ex[logD(x)]+Ez[log (1-D(G(z)))])
(14)
式中,N=round(M/n),round(·)為取整函數,M為目前的迭代總次數;SIN為第N輪的擬合度值,其具體計算方法分為5步:
步驟 4.1針對迭代生成的模擬數據集,選取任意兩個隨機變量X,Y,使其分布在兩維的空間中,使用m×n的網格進行空間劃分,對落在各個網格的點數進行統計;
步驟 4.2計算落在第(x,y)網格的頻率P(x,y),同時計算落在在第x行的數據點的頻率作為P(x)地估計,同理獲得P(y)的估計[30],可表示為
(15)
步驟 4.3通過遍歷,改變m,n的值,變化網格的劃分,尋找使得a,b落在第(x,y)網格中的頻率的各種可能,獲得互信息最大的網格劃分參數[31],即隨機變量X,Y的互信息值,其中m×n
MICX,Y=f(X,Y)=
步驟 4.4根據上述方法,計算任意模擬數據集中任意兩個隨機變量的互信息值,通過歸一化,使互信息的值分布在(0,1)區間內,構建互信息鄰接矩陣。
步驟 4.5經過多次迭代,生成的模擬數據應該與原始數據集的相關性越來越強,為提高優化的效率,計算本輪與原始數據互信息鄰接矩陣之間的互信息值,得本輪數據集相似度SIN,設計第N輪的擬合度S為第N輪與第N-1輪相似度的比值,若第N輪相似度高于第N-1輪的相似度,則增強該方向梯度下降的信心,否則降低向該方向梯度下降的信心:
SIN=f(Matrix(MIC)N,Matrix(MIC)base)
(17)
(18)
(1) 實驗環境:利用實驗室仿真環境,采用Python3,Anaconda環境下,配合PyCharm,使用TensorFlow框架,搭建基礎實驗環境。
(2) 指標集構建:采用第2.1節的指標體系,忽略人為地層次化分類,從底層數據構建原始數據集,抽取數據集特征。
(3) 原始數據處理:本文原始數據來源于前期訓練收集積累的歷史數據,經過脫密處理后,為22維,共計200條數據,如表1所示。通過最大信息數計算方法,計算任意兩個隨機變量之間的互信息值,得到互信息鄰接矩陣,如表2所示。

表1 原始數據

表2 原始數據相關關系鄰接矩陣
按照第2.3節中的試驗方法,圖5是基于未改進的GAN中獲得的模擬數據集,在GAN迭代100 000次之后,觀測損失函數曲線,判別模型損失函數D_Loss函數的值在開始階段相對生成模型損失函數值G_Loss較小,表明開始階段判別模型誤差減小的速度較快,得到判別模型函數的較大值。隨著迭代次數的增加,判別模型的數據來源不僅是原始數據還包含生成模型產生的數據后,D_Loss的值隨之變大,判別模型性能下降后,而G_Loss的值隨之減小,生成模型生成數據判定為真的概率大大增加。在后半階段,各損失函數值達到平衡,從T_Loss=D_Loss+G_Loss的值可看到,整個迭代過程,相對平穩,即判別模型與生成模型相互對抗,相互博弈。

圖5 損失函數曲線(GAN)
圖6為GAN系統在學習訓練100 000次后,生成的模擬數據集情況,通過計算數據集任意兩維度之間最大信息系數,獲得數據集所有最大信息數的線性回歸線。

圖6 最大信息系數回歸曲線(GAN)
通過圖6可看到,原始數據集與為未改進的GAN生成的模擬數據集的最大信息系數的線性回歸線擬合不好,經過100 000次迭代后,雖然損失函數到達一定的平穩區間,但數據集的分布相似度并不高,數據走向趨勢不同。定義數據集真實度為生成數據集與原始數據集的線性回歸線的互信息,以此來度量生成數據集的可用性。通過計算,可得原始數據與未優化的GAN網絡迭代100 000次后生成的數據集的數據集真實度為0.42,有一定的相關性,但需要進一步修正。
圖7是基于EGAN-SDG算法獲得模擬數據集,在GAN迭代100 000次之后,判別模型損失函數D_Loss函數的值在開始階段相對生成模型損失函數值G_Loss較大,經歷過8~10輪的激烈對抗博弈后,基本達到平衡,可見判別模型獲得穩定的較大值,能夠較高精確度的判別數據集的真實程度。在最后階段達到平衡后,G_Loss的值隨之增大,生成可通過判別模型的數據集的能力降低。通過T_Loss值可以看到,最后階段系統總體性能基本穩定,上下幅度不大。進而可以得到,系統達到穩定階段,此時系統生成模擬數據接近原始數據分布的能力逐漸變強。
圖8為EGAN-SDG系統在學習訓練100 000次后,生成的模擬數據集情況,可見相比原始數據集,系統生產的模擬數據集,在數據集最大信息數的線性回歸線擬合上有了較大提升,可觀測到任意兩個維度之間的最大信息系數要優于原始數據,即對原始數據內在分布的關系呈現更加強烈,其中原始數據與EGAN-SDG系統迭代100 000次后的數據集之間的數據真實度為0.53,相比未改進的GAN網絡迭代100 000次后生成的數據集的相關性提高20.75%,未優化的GAN網絡迭代100 000次數據與EGAN-SDG系統100 000次迭代數據的相關性為0.46,具有一定的相關性,但是其訓練效率要低于EGAN-SDG系統。同時,采用經典的數據生成算法—合成少數類過采樣技術(synthetic minority oversampling technique, SMOTE)[32]生成數據,獲得SMOTE_data的回歸線,數據集的基礎數據特征(均值、方差)相似程度高,但是數據相關性的分布走勢與原始數據集差別較大,性能弱于未改進的GAN網絡迭代100 000次數據,求得與原始數據的數據真實度為0.12,相關性較低,該算法生成的數據集容易產生局部優化現象,導致分布邊緣化問題,無法全面反映數據的內部關系。數據真實度是本文提出的評估生成數據集與原始數據集非線性相似性的一種方法,仿真結果表明EGAN-SDG算法經過修正和多次迭代后,這種相似性向著預設的方向優化,證明了該方法的可行性。

圖8 最大信息系數回歸曲線(EGAN-SDG)
本文針對未來全軍指揮信息系統模擬訓練缺乏模擬數據集的問題,提出了改進型GAN模擬數據生成算法,構建了指揮信息系統履行使命任務支撐能力的指標體系,設計了數據收集與清洗的流程,基于GAN,結合數據之間的互信息,提出了擬合度因子,基于互信息驗證數據的可靠性,修正GAN損失函數,提高生成數據集與原始數據集的數據真實度。通過仿真證明本文算法生成的數據集與原始數據的數據分布的相似度較高,可為指揮信息系統的全元素訓練提供數據支撐。下一步的工作,將繼續研究原始數據分布內在的關聯,解釋數據內部之間的相關關系機理。