王澤璞,王建國,石又新,侯麒麟,劉廣才
(北方自動控制技術研究所,太原 030006)
訓練數據分析是軍事訓練中的一個關鍵環節,對提高訓練效率有著重要的影響[1]。某型火箭炮火控系統采用了嵌入式訓練技術,能夠在實裝上進行高逼真度的訓練,同時也生成了豐富、多元的訓練數據。對這些訓練數據,需要使用科學先進的方法加以分析,以達到對訓練效果的準確評估,提升訓練水平。
嵌入式訓練是指將訓練系統嵌入到實際裝備中,在真實的裝備環境下實施的訓練,可使受訓者獲得與實戰相符的心理與生理適應性,大幅提升訓練質量。嵌入式訓練系統會對參訓人員的訓練過程實時地進行全面詳細的記錄,為訓練評估提供了大量有價值的依據。
現代火控系統涉及多種類型的操作,數目眾多,而且有許多操作都比較復雜,既需要有一定的操作技巧,還要掌握合適的時機。要完成某一特定任務,還會有固定的操作順序。因此,首先應該建立一套科學全面的訓練評估指標體系。
根據火控系統嵌入式訓練的實際情況,結合炮班教練員和士兵的反饋意見,得出的嵌入式訓練的一級指標,如下頁圖1所示。每個二級指標都包括一些更為具體的三級指標。火箭彈發射評估指標體系如下頁圖2所示。

圖1 嵌入式訓練評估指標體系

圖2 火箭彈發射評估指標體系
成績評定采用模糊綜合評價法。模糊綜合評價法根據模糊數學的隸屬度理論把定性評價轉化為定量評價,即用模糊數學對受到多種因素制約的事物或對象做出一個總體的評價[2-3]。下面以二級指標火箭彈發射為例進行說明。
模糊綜合評價法需要建立因素集,評價集,權重集,隸屬度集。
因素集是指影響評判對象的所有因素的集合。設為:U=(u1u2u3)
U中元素分別代表火箭彈發射所包括的3個三級指標。
評價集是指所有評判結果的集合,本評估中共分為5個等級。設為

為實現量化,建立評價集與分數之間的模糊關系,給出分數集

權重集是指各因素對評判對象的重要程度的集合。運用層次分析法來得出權重集。
因素重要程度比例標度表如表1所示。
由此得到判斷矩陣為

初步得到的權重向量為

對判斷矩陣進行一致性檢驗,得


表1 比例標度表
判斷矩陣的最大特征根為

一致性指標

隨機一致性指標RI判定表如表2所示。

表2 隨機一致性指標RI判定表
一致性比率

所以判斷矩陣P的不一致性程度在允許范圍內,A可以作為權重向量。故權重集為

隸屬度集是對因素ui做出vj評判結果的可能性大小的集合。設為

表示第i個因素的隸屬度集。現取某一次火箭彈發射訓練的各因素的成績的隸屬度集,將所有因素的隸屬度集組成隸屬度矩陣為

模糊綜合評價模型為

B表示綜合考慮所有因素時,對評價集中每個評價結果的隸屬度。按照最大隸屬度原則,這次火箭彈發射的訓練評估結果為良。分數為

其他二級因素、一級因素和嵌入式訓練總體的訓練成績均按照此方法進行計算評估。
借助模糊綜合評價法能較好地解決模糊的、難以量化的問題,得到科學合理的訓練成績。
最普通的數據結構是一批數,被稱之為一個“批”。運用探索性數據分析[4]中的莖葉圖來對單批數據進行分析。圖3所示為某次訓練共41名士兵的嵌入式訓練成績莖葉圖。莖葉圖概括了這次訓練成績數據的形狀,同時又保留了數據的主要有效數字。這個特點能夠清晰地顯示出這次訓練成績的模式,比如總體偏向80分以上的高分,以及訓練成績數據在各區間的分布,比如離散程度總體比較平均,在85分~89分之間有特別的集中。
借助莖葉圖可以方便地得到多個批次的數據的分析結果。然后進行綜合的匯總分析,可以得到更為準確的士兵訓練水平的整體分布規律和特殊之處,從而可以為大多數士兵或者某些特殊的士兵制定針對性的訓練計劃,更高效率地提升訓練水平。

圖3 訓練成績莖葉圖
分析不同的數據項之間的相關關系是訓練數據分析的一個重要方面,比如訓練次數與訓練考核成績之間的關系。表3所示為某士兵某段時間內共20次的訓練考核成績表,其中每兩次的訓練考核之間該士兵都要進行5次訓練。這組數據的散點圖中散點的分布,刨除幾個特殊點之外,顯示出數據之間存在一定的線性關系。運用探索性數據分析中的三組耐抗線法[5]來擬合數據間的線性關系可以取得很好的擬合效果。

表3 某士兵訓練考核成績表
3組耐抗線法的基本步驟為:
將所有的數據(xi,yi)(其中xi表示序號,yi表示訓練考核成績)按照序號(自變量)的多少進行排序,然后均勻地分成3組。
在所形成的3個組內,先求組內x值的中位數,然后單獨求y值的中位數,得到總括點的x坐標和y坐標:

由于x和y獨立計算,得到的這3個總括點可能是數據點,也可能不是數據點。
以斜率和中心值(也稱為水平)來表示回歸直線通常更有用,中心值是在x=x或x=xM,或在其附近某個方便的值。為方便起見,選擇x=xM=10.5,初始線性回歸直線為

其中
故初始直線為

計算每個數據點的殘差

結果見表3。按先前的分組找出

利用3個殘差數據的總括點用相同的方法擬合直線,得到

用殘差擬合得到的斜率和水平對初始直線的斜率和水平進行調整,得到調整后的斜率和水平為


圖4 擬合直線
對于數據之間的曲線相關關系,可以先進行變量變換,使變換后的變量呈線性關系,然后再使用三組耐抗線法求出直線方程,最后將直線方程轉換為原變量的函數表達式。
三組耐抗線法運用中位數,很好地規避了特殊值帶來的不良影響。借助三組耐抗線法可以準確地擬合出訓練數據之間存在的線性關系,從而更好地對以后的訓練數據進行預測和分析。
除了數據之間明顯存在的相關關系外,一些表面看起來似乎沒什么關系的數據之間也可能存在一些隱藏的關聯。運用數據挖掘領域關聯規則中廣泛使用的FP-growth算法[6-7]有助于發現嵌入式訓練的數據中不易被發現的一些規律。
項的集合稱為項集。包含k個項的項集稱為k-項集。給定一個事務數據庫D,項集的出現頻率是D中包含項的事務數。如果項集的出現頻率大于或等于給定的最小支持度與D中事務總數的乘積,則項集滿足最小支持度。如果項集滿足最小支持度,則稱它為頻繁項集。支持度是項集在事務數據庫D中出現的概率。
關聯規則是形如A=>B的蘊涵式,其中A∩B=?。規則A=>B在事務D中具有支持度和置信度。支持度是指A和B同時出現在D中的概率,即P(A∪B)。置信度是指在事務數據庫D中包含A的前提下同時也包含B的概率,即P(B|A)。
首先將被分析的數據進行整理。然后將連續性的數據進行離散化處理,形成事務數據庫,比如將85分以上的成績轉換為A,60分~85分的成績轉換為B,60分以下的轉換為C。
然后根據實際情況和研究目標設置最小支持度和最小置信度。在此基礎上掃描一次事務數據庫得到頻繁1-項集。
FP樹由一個個的項節點構成,每個節點中會記錄該節點出現的支持度。構造FP樹首先新建一個根節點。再根據各項集的支持度大小分別對各事務包含的所有項進行重新排序。然后分別根據各事務中項的排序,依次向FP樹中插入新的項節點,每個事務中各個項在FP樹的同一個分支上,依次相連。若一個事務最初的n個項的排序與之前已經插入FP樹中的某個事務最初的n個項的排序完全一樣,則相同的部分無需重新建立新的項節點,只需將已經存在的相同項節點的支持度加1來表示插入新的項。直至所有事務均已插入FP樹中,FP樹構造完成,之后便無需訪問事務數據庫。
然后按照項的支持度從小到大的順序,進行FP樹的挖掘,找出頻繁項集。首先遍歷FP樹找到項的條件模式基。條件模式基是指包含FP樹中與后綴模式一起出現的前綴路徑的集合。然后將條件模式基按照FP樹的構造原則形成FP條件樹,并將條件樹中支持度小于最小支持度的項去掉。然后根據條件樹經過排列組合得到該項的頻繁項集。
最后計算各頻繁項集蘊含的所有關聯模式的置信度。將置信度小于最小置信度的模式去掉,得到最終的關聯規則。
借助FP-growth算法可以高效地得到關聯規則,從而為訓練評估提供新的思路。比如通過對大量數據的分析得出某個年齡段士兵的訓練成績起伏更大,同時在一天中某個時間段的訓練成績同比增幅更為穩定。根據這樣的結果,可以適當地增加此年齡段的士兵在此時間段內的訓練,減少在其他時間段的訓練,從而可以幫助此年齡段士兵的訓練成績獲得更穩定的提升。
嵌入式訓練代表了軍事訓練技術的最新發展趨勢,發揮著日益重要的作用。本文運用多種科學方法,對嵌入式訓練產生的數據進行了全方位、多層次的評估分析,得到了許多有價值的結果,為提高訓練水平提供了有力的支撐。
[1]管清波,馮書興.軍事訓練模擬系統中的數據與數據分析問題研究 [J]. 裝備指揮技術學院學報,2009,20(4):27-31.
[2]高桂清,史重建.常規導彈部隊戰術模擬訓練評價方法[J].四川兵工學報,2013,34(5):9-12.
[3]姜為學,鄧欽,李宗良,等.某型火控仿真系統模擬訓練質量模糊評判[J].彈箭與制導學報,2007,27(2):300-303.
[4]DAVID C,陳忠璉,郭德媛.探索性數據分析[M].北京:中國統計出版社,1998.
[5]孫麗君.探索性數據分析方法及應用[D].大連:東北財經大學,2005.
[6]HAN J,PEI J,YIN Y.Mining frequent patterns without candidate generation[C]//In:Proc ACM SIGMOD,2000:1-12.
[7]王新宇,杜孝平,謝昆青.FP-growth算法的實現方法研究[J].計算機工程與應用,2004,40(9):174-176.
[8]楊國振,常天慶,張雷,等.改進模糊層次分析法的火控系統故障診斷方法 [J]. 火力與指揮控制,2016,41(2):162-165.