張 磊,吳 昊,趙 強,王 幸,任新見,王繼民,孔德鋒
(1.軍事科學院國防工程研究院工程防護研究所,河南 洛陽 471023;2.軍事科學院,北京100071;3.河海大學計算機與信息學院,江蘇 南京211100)
武器毀傷效應是攻防雙方都十分關注的基礎性和共性的問題,對武器的研制、目標的防護設計、易損性研究和毀傷評估都具有舉足輕重的作用,是承接“進攻-防守-評估”作戰要素的核心環節。武器毀傷效應的主要研究手段包括實驗研究、理論分析和數值模擬[1],其中解析法一般需對毀傷過程做一定的簡化假定,只能適用于簡單條件;數值模擬則過度依賴于算法和模型,參數多且計算速度慢,無法滿足實戰要求;實驗研究是最可靠、最常用的手段。盡管隨著國防事業的發展,我國科研人員已經積累了一定數量的實驗數據(包括訓練、演習和實戰等數據)、經驗算法和毀傷判據等效應數據,但現有數據仍存在離散性大、數據缺失、數量少、噪聲大、分布不均勻、不連續、分布范圍窄等缺點,無法支撐毀傷效應計算和評估所需,其需要建立足夠精度、寬域分布且連續的毀傷譜。數據挖掘技術的出現為此類問題的解決提供了可行途徑,數據挖掘通常又稱“數據中的知識發現”,是從大量的、有噪聲的、不完全的、不連續的、模糊的、隨機的實測數據中提取有效的、新穎的、潛在有用的信息的過程,是將數據變成有價值信息的過程[2]。近年來數據挖掘技術已經在工業意外爆炸、高速穿甲、裝甲防護等領域中得到應用。He等[3]首次將過程挖掘技術應用于煤礦瓦斯爆炸事故的緊急救援領域,將2006年至2014年下半年期間我國煤礦發生的50起重大瓦斯爆炸事故作為日志數據,利用過程挖掘技術提取應急救援模型并在緊急事故救援中得到成功應用。Ryan 等[4]開發了一種多層感知器體系結構人工神經網絡模型用于預測鋁質彈丸超高速撞擊Whipple防護盾的貫穿極限,利用769次沖擊試驗數據訓練神經網絡模型,預測精度達92%,高于經驗方法的71%準確率。Ryan 等[5]還分析了超高速撞擊Whipple防護盾的研究中,傳統人工神經網絡在類似高維空間問題研究中的不足(特別是當試驗樣本不足、分布范圍窄且分布不均勻時,人工神經網絡預測精度會大大降低),并提出一種通過最少量額外實驗數據來補救采樣不良的參數空間影響的算法。李建光等[6]利用RBF神經網絡模型對混凝土侵徹深度進行預測。金勝兵等[7]利用數據挖掘技術進行了混凝土靶標侵徹深度的預測,綜合了k-近鄰(k-nearest neighbor,KNN)算法與BP神經網絡模型,提高了現有神經網絡模型的預測精度。
在現代戰爭中,大量具有戰略價值的目標被移入地下,依靠高抗力地下防護結構抵御來襲武器毀傷。為提高對地下目標的毀傷能力,鉆地武器研發和應用發展迅速。鉆地武器依靠動能來穿透防護層、鉆入工程內部或侵徹到地下一定深度后爆炸,從而對目標產生毀傷,近年來在實際戰場中得到多次應用。因此,常規鉆地武器對地下目標的毀傷效應和毀傷評估一直是研究熱點。楊秀敏等[8]曾對鉆地武器破壞效應的研究現狀和發展進行了系統的論述,指出常規鉆地彈毀傷效應包括侵徹效應和爆炸效應,其中爆炸效應包括巖土介質中的沖擊波(即地沖擊)和空氣沖擊波帶來的兩方面效應,研究結果表明:由于鉆地武器對地下目標毀傷效應的復雜性,以實驗數據為基礎的經驗統計方法具有重要作用。張國星等[9]就鉆地彈侵徹地下工程目標研究現狀進行了綜述,分析了實驗研究、解析方法和數值模擬的優缺點,并指出實驗方法是其中最為成熟的方法,同時也指出數值模擬方法也是重要的技術手段之一,但計算速度仍限制了其應用。此外,文獻[10-11]利用數值模擬進行了鉆地武器對地下工程目標的毀傷效應分析和評估,討論了影響毀傷效應的主要戰斗部參數和目標參數。綜上所述,在鉆地武器對地下目標毀傷的研究中,特別是在實戰條件下需要對戰場目標的毀傷進行快速評估的情形,實驗研究以及以此為基礎的經驗方法是一種重要的技術途徑。
目前通過數據挖掘進行毀傷效應分析,主要是基于實驗數據建立各種淺層或深層網絡預測模型,但是現有實驗數據存在離散性大、缺失明顯、數量少、數據噪聲大、樣本分布不均勻、不連續、分布范圍窄等缺點,以至于訓練出來的模型無法滿足參數域的需要。本文針對鉆地武器對地下工程目標的毀傷,構建基于效應試驗和經驗算法融合的數據挖掘毀傷效應算法:以效應源數據為基礎,通過數據異常分析算法剔除數據異常點,建立毀傷源數據庫;針對經驗算法適用范圍有限、計算精度不統一等局限性,建立經驗算法評價方法,分析不同參數域內最適用的經驗算法;利用實驗數據建立神經網絡預測模型;在此基礎上建立基于k-近鄰算法、經驗算法和BP神經網絡模型的毀傷效應“三階段”算法進行鉆地武器對地下工程目標毀傷效應計算。
源數據蘊涵分析對象運行的客觀規律,其完整性和可靠性是確保數據挖掘能否進行以及挖掘結果能否正確的前提,因此,源數據是數據挖掘的基礎和核心。以鉆地武器對地下工程目標毀傷效果評價為例,分析過程中所需源數據包括圖1所示的數據種類。

圖1 地下工程目標毀傷評估源數據結構Fig.1 Structure of source data for underground engineering target damage assessment
在源數據中,由于實驗條件的差別、量測技術和標準的差異、實驗誤差、人為因素以及記錄和數據錄入失誤等不可避免的因素,會導致一些樣本不符合數據模型的一般規則,或者與其他樣本存在較大的偏差,這樣的樣本即為“數據異常點”。異常數據會降低一些數據挖掘算法的效率,可能會在數據模型中引入非正態分布或其他的數據復雜性,從而很難以可行的計算方式找到準確的數學模型。因此,必須對進入數據庫的源數據進行數據異常點的檢測和清除。考慮到毀傷源數據維度高、各維度量綱和尺度不一致,且各個維度變量存在相互關聯性等特征,選用馬氏距離(Mahalanobis distance,記為di)作為數據異常性判斷參數,計算各數據與數據集均值的距離,距離均值超過± 3σ的數據點認為是異常數據。

式中:μ為均值向量,S 為協方差矩陣。圖2為數據庫中456個混凝土侵徹深度試驗數據樣本在剔除異常點前后馬氏距離分布頻率對比,在剔除16個與平均值相差超過± 3σ數據點后,保留下的440個數據樣本離散性明顯減小,其分布也更為吻合正態分布特征,選取這些數據樣本能有效消除偶然因素引起的數據異常,提高預測精度。

圖2 數據樣本頻率分布圖Fig.2 Frequency distribution of data sample
實驗研究盡管存在成本高、數據不連續以及適用范圍有限等缺點,但以此為基礎所建立的經驗公式,往往在實驗數據范圍內具有較高的預測精度,且其形式簡單,可根據幾個有限的控制參數快速給出能滿足實際工程精度需求的預測結果。但經驗算法也存在明顯的不足,經驗算法是根據大量現場或實驗測試數據,借助回歸、擬合等統計分析方法建立,由于現場或實驗測試數據都是在某些環境因素下得到的,因而具有一定的適用范圍或應用條件。如何評價這些算法在不同參數范圍內的優劣,是得到相對準確預測結果的前提。
本文采用如圖3所示的算法流程進行經驗算法適用性判別。首先計算經驗算法與實驗數據樣本的平均相對偏差,以與實驗樣本偏差小的算法作為最優算法;如果實驗數據樣本不足,再利用多個經驗算法生成“偽效應試驗數據”,計算不同經驗算法之間的相對偏差,以相對偏差小的算法作為最佳算法;如果通過以上兩個流程仍無法確定最佳算法時,則利用專業知識進行判斷,分別從理論分析和使用者評價兩個角度去判斷算法優劣。

圖3 經驗算法評價流程Fig.3 Evaluation process of empirical algorithms
BP神經網絡是應用最廣泛的神經網絡模型之一,其模型結構簡單且具有強大的非線性映射能力,幾乎可逼近所有非線性系統。它包括一個輸入層、若干個隱藏層和一個輸出層,輸入層和輸出層的節點數可以根據數據集的輸入輸出進行調整,隱藏層的層數和節點數可以根據訓練的需要進行調整,同一層上節點不相互連接,層與層之間的神經元相互連接,網絡中每一個節點都是一個獨立的神經元。
BP神經網絡的訓練過程是一個全局優化的問題,通過最小化損失函數,可以得到最優的網絡參數,它的訓練過程由信號的正向傳播與反向誤差傳播兩個部分組成。
式中:pi為預測的效應值,ti為樣本效應值,n為樣本數。
(2)在誤差反向傳播階段,誤差從輸出層輸入,然后沿著梯度下降的方向向隱藏層和輸入層逐層返回,并修改每一層神經元的權值和偏置項。當誤差減少到可以接受的程度或訓練達到指定的次數時,則模型訓練停止[13]。
鉆地武器對地下工程毀的傷過程涉及侵徹貫穿、空氣沖擊波、爆炸震動和爆炸震塌等不同的毀傷效應,需對每個毀傷效應分別設計神經網絡模型。為消除不同特征單位差異對模型的影響,對各效應的主要控制參數進行無量綱化:

式中: x1,x2,···,xn和Y 為無量綱化量。無量綱化可以消除各變量之間的相關關系,同時減少模型輸入變量,降低維度。
(1)模型輸入層
模型輸入為無量綱化產生的控制參數向量( x1,x2,···,xn)。
(2)模型隱藏層
Fletcher 等[14]的研究表明:一般三層的神經網絡就可以逼近任意的函數,而增加隱藏層的數量可以顯著提高模型的預測精度,但同時也會使得模型計算更加復雜,模型訓練需要更多的時間,一般可采用經驗公式計算隱藏層的數量。本文利用下式確定隱藏層的層數:

式中:N 為輸入層節點數量。在確定隱藏層的數量之后,對于每層的神經元節點數目的確定目前沒有較好的公式或方法可以參考,實際研究中一般使用人工試錯法和經驗法進行結合來確定。
(3)模型輸出層
輸出層神經元個數為1,表示輸出的效應量,即式(3)中的Y。
模型激活函數選用Relu 矯正線性單元激活函數,結合數值試驗調整學習速率為0.05,既能保證訓練的速度,又能保證模型的穩定性和精確度。
(1)實驗方法

(2)實驗數據
從源數據庫中抽取實驗數據837條,并通過異常分析剔除異常數據,最后用于建模的數據為815條,其中570條作為訓練集,245條作為驗證集。
(3)實驗結果及分析
BP 神經網絡和BRL、Young、NDRC和Forrestal經驗算法[15-18]計算后的在驗證集上的MAPE 指標見表1。由于所選取的測試集為隨機從效應數據庫中抽取,樣本分布比較離散,部分區間樣本點會超出經驗公式適用范圍,從而導致經驗算法整體預測效果不佳,而BP神經網絡在測試集上的MAPE明顯比其他四個經驗公式要低,其預測的總體效果要略優于其他四個經驗公式。

表1 經驗算法和BP 神經網絡模型MAPE值Table 1 MAPE valuesof empirical algorithms and BP neural network model
“三階段”數據挖掘算法充分利用了源數據、經驗算法以及BP神經網絡模型的各自優點計算毀傷效應,可提高不同參數區間的效應預測準確率?!叭A段”法的基本思想為:如果輸入參數與源數據(實驗數據)中的樣本接近,則認為通過實驗結果即可給出可靠的效應預測;如果輸入參數在經驗算法的適用范圍,則利用經驗算法可得比較準確的計算結果;否則,利用實驗數據組成訓練樣本,通過BP神經網絡充分挖掘數據中的規律,利用神經網絡模型給出預測結果?!叭A段”法的具體步驟為:首先采用k-近鄰算法從源數據中檢索與輸入參數相似的效應過程,結合專業知識判斷效應結果的合理性;若計算結果不滿足要求,則從該參數區間中選擇最優經驗算法進行效應計算;若上述兩種方法都無法給出合理結果,采用BP神經網絡進行效應預測。流程如圖4所示。

圖4 “三階段”法毀傷效應數據挖掘流程Fig.4 Flow of damageeffect data mining based on “three steps”
相近的輸入參數,其對應的效應預測輸出結果應該是相似的,因此采用k-近鄰算法[19]從源數據中檢索與輸入參數相似的k 個記錄,并按照與輸入參數距離的遠近排列輸出,供用戶判斷。
(1)毀傷效應主要控制參數
毀傷效應影響因素繁多,直接采用所有影響因素進行k-近鄰檢索會由于“維度災難”導致檢索效率低下以及結果不準確,因此需要對參與計算的數據進行降維。常用的數據降維方法有特征選擇和特征提取,其中特征選擇也稱特征子集選擇或屬性選擇,是指從已有的M 個特征中選擇N 個特征使得特定指標最優化,是從原始特征中選擇出一些最有效特征以降低數據集維度的過程;而特征提取是指利用已有的M 個特征計算出一個抽象程度更高的包含M 個新特征的特征集,并從中選擇N 個重要的子特征,最終被選中的每個特征都是原始M 個特征的線性或非線性組合。本文采用特征選擇進行數據降維。由于源數據實際采集的數據特征有限,而且一般常用經驗算法已經比較全面地考慮了不同控制參數對效應的影響,因此,本文根據專業知識以及常用經驗算法的控制變量來進行人工特征選擇,確定毀傷效應的主要控制參數以達到數據降維的目的。以混凝土侵徹深度為例,通過人工選擇,確定主要控制參數包括彈體質量、彈體直徑、靶標強度、靶標密度和著靶速度等。
(2)相似度量函數


圖5 基于KNN 的相似檢索流程圖Fig.5 Flow chart of similar searching based on KNN
如果輸入參數在實驗數據附近,那么直接通過檢索到的實驗數據就可以給出比較準確的效應計算結果;如果輸入參數距離實驗數據較遠,即使檢索到輸入參數的k-近鄰算法也無法得到準確的效率計算結果。為此,就需轉入第2步:基于經驗算法的毀傷效應計算。
利用輸入參數所在參數區間的最優經驗算法進行效應計算,并人工進行結果的有效性判斷。如現有經驗算法無法適用或計算精度較低,則轉入第3步:基于BP神經網絡模型的毀傷效應計算。
根據鉆地武器對地下坑道工程目標毀傷過程,模型所涉及的毀傷效應算法主要包括:巖石靶標侵徹深度算法、混凝土靶標侵徹深度算法、土靶標侵徹深度算法、分層巖土介質靶標侵徹深度算法、坑道內空氣沖擊波效應算法、爆炸震塌效應算法和爆炸震動效應算法。對每一類算法,通過圖3所示的算法評價流程,給出參數區間最優算法作為模型算法。
由于實驗數據分布范圍有限,經驗算法的適用范圍、計算精度有限,以及復雜效應經驗算法尚有明顯缺失。因此,在前兩者都無法給出合理結果的情況下,利用BP神經網絡模型進行計算,給出毀傷效應計算結果。具體建模過程已在第3節進行介紹。
鉆地戰斗部對地下工程目標毀傷是由侵徹和貫穿、爆炸震動和爆炸震塌、空氣沖擊波等多個有著前后順序的過程組成,每個獨立的過程對應一種毀傷元的毀傷效應。對每個過程都采用“三階段”法進行計算,并根據上一過程的計算結果確定下一個過程的初始條件,所需主要參數和毀傷計算流程見圖6。根據以上計算流程,開發計算軟件。
經人工特征選擇后確定的主要輸入參數如表2所示,主要包括彈體參數、著靶參數、坑道結構以及圍巖和襯砌材料特性等參數,其中彈體參數可根據戰斗部型號由計算軟件從底層數據庫中自動讀入,坑道類型、圍巖材料種類和襯砌材料種類根據模型所提供的參數選擇。
計算軟件采用圖6中的計算流程,首先根據彈體參數、著靶參數和圍巖及襯砌材料等參數,計算彈體侵徹深度。通過“三階段”算法,模型調用經驗算法計算侵徹深度,計算結果為1.99 m。根據侵徹深度計算結果、彈著點坐標、防護層厚度等參數,判斷爆心位置為“坑道頂部防護層內爆炸”。根據圖6的計算流程,需要計算防護層爆炸震塌以及爆炸震動毀傷,爆炸震塌采用“三階段”算法選用經驗算法,計算結果表明不會產生爆炸震塌;爆炸震動毀傷由于無相臨近實驗數據,無法采用k-近鄰算法,同時現有工程算法在適用范圍上無法滿足需求,因此模型會調用爆炸震動神經網絡模型進行計算。

圖6 地下工程毀傷效應計算流程圖Fig.6 Calculation flow chart of damageeffect to underground engineering

表2 地下工程毀傷計算所需主要控制參數Table2 Main control parametersrequired for damage calculation of underground engineering
本文以毀傷效應試驗數據庫為基礎,采用數據挖掘技術,實現了鉆地武器對地下坑道工程目標毀傷效應的快速計算。取得的主要研究成果如下:
(1)針對常規武器對地下工程目標毀傷實驗數據的特點,建立了基于馬氏距離的數據異常檢測算法,實現了對源數據的甄別、分析和清洗,提高了數據挖掘計算結果的可靠性;
(2)針對毀傷效應控制因素多、精確匹配檢索數據困難的情況,采用相似搜索技術檢索高維空間中與預測輸入向量相似的實驗源數據,提高了實驗數據匹配率,保證了充分優先利用大量的真實實驗數據,提高預測精度;
(3)建立了地下工程目標毀傷效應分析的“三階段”算法,利用實驗數據、工程算法和神經網絡模型進行毀傷效應計算,特別是在缺少工程算法的情況下,“三階段”算法可利用現有實驗數據建立神經網絡模型進行計算,從而實現基于實驗數據驅動的毀傷效應分析。