張磊,李世民,康淑瑰,王鐵寧,郭猛超
(1.山西大同大學 數學與統計學院,山西 大同 037009;2.63963部隊,北京 100072;3.陸軍裝甲兵學院,北京 100072;4.陸裝駐西安地區軍事代表局,陜西 西安 710032)
通過算法實現裝備保障需求的有效預測,是未來智能化戰爭中裝備保障的重要環節。隨著我軍各類高新武器裝備使用頻率和強度的提升,造成裝備故障損毀的隨機因素增多,且樣本數據量少,規律難以把握。因此,如何在少量歷史樣本信息的條件下合理有效地預測裝備維修器材需求,成為近年來的研究熱點之一。
目前,我軍裝甲裝備主要采用結合現有庫存標準數量進行定額計算的方法確定器材需求數量,不夠精確合理。因此基于小樣本裝備維修器材需求預測問題主要的研究方向集中于基于可靠性仿真的預測方法以及基于數據驅動模型的預測方法兩方面。基于可靠性仿真的方法往往需要假設維修器材的使用壽命服從某種具體分布,在少量樣本條件下運用蒙特卡洛法生成模擬隨機數據進而確定分布參數,效果比較理想。吳龍濤等提出了運用貝葉斯法和蒙特卡洛法預測威布爾型裝備維修器材需求的預測方法。陳頂等結合蒙特卡洛仿真方法,運用灰色生滅過程理論對裝備備件預測問題進行了研究。徐廷學等結合蒙特卡洛仿真和馬爾可夫模型研究了導彈裝備備件需求預測模型。基于數據驅動的預測模型依靠挖掘小樣本數據中的器材需求規律,對維修器材需求量進行預測。Chiou等運用灰色GM(1,1)模型預測了臺灣海軍裝備備件需求量。Chen等運用冪函數優化GM(1,1)模型研究了庫存、維修和大修器材需求預測模型。Hu等運用反向傳播(BP)神經網絡(BPNN)預測了農用機械備件消耗需求。Ju等研究了支持向量回歸(SVR)在電力消耗需求預測中的運用。張彤等運用SVR預測了彈藥消耗需求。
基于數據驅動的預測模型僅需利用樣本數據中的信息,不需要裝備承制單位提供各類器材的壽命分布類型或者具體分布參數,同時也可以兼顧裝備操作不當和任務需求等因素造成的器材隨機需求。而基于可靠性仿真的預測方法則受樣本數據不足的影響較小,結合具體分布特點得到預測結果,兩種方法均有廣泛應用。但是,裝甲裝備的構造和工況環境相對復雜多樣,受臨時任務、動用強度或操作經驗影響較大,且器材需求樣本數據少,在保障需求預測難度大的同時也具有較頻繁的預測需求。較理想的是預測方法能夠兼顧上述兩類模型的優勢,突破可利用數據不足這一條件的限制,充分發揮傳統依靠大樣本數據驅動的SVR和神經網絡等模型的運算優勢,改進預測效果,然而目前關于這方面的研究較少。
本文圍繞這一問題展開研究,首先以滾動機制預測模式為算法基礎,以不同時段器材累積消耗數量為相似度量改進了親和傳播(AP)聚類算法,通過不同時段器材消耗趨勢的相似度迭代,將具有相似累積消耗值的數據段聚類為同一類別,并將聚類為同一類別數據的各報告期器材相對消耗值考慮為正態分布數據。同時計算待預測數據與各類別數據的相似度,并計算待預測數據的正態隨機數字特征,最后生成適用于待預測數據的大樣本訓練集,提高了模型預測結果的可信性。
用于預測維修器材需求的數據驅動模型通常是以器材的歷史消耗數據為依據進行計算而得到預測結果。由于大項任務、裝備計劃、隨機動用以及臨時管理需求等原因,裝甲裝備因故障造成的各類器材消耗情況具有較強的階段性特點,在階段周期內根據器材的累積消耗情況進行預測所得的結果具有更好的可靠性。因此在確定各因素作用周期的條件下,運用滾動機制預測模型進行預測較為理想。
滾動機制預測是指運用時間序列中相對靠近待預測數據的部分樣本數據參與模型預測。在預測下一時間點數值時,最新的已知時間點數據補充進入模型解釋變量,而最遠離待預測點的變量退出模型解釋變量,從而確保解釋變量的數量不變。
對于含有個樣本值的器材消耗時間序列:()={(1),(2),…,()},其滾動機制預測值()的表達式為

式中:為用于構建訓練集的樣本維度,即基于前-1個數據構建預測模型,預測第個數據。()的訓練數據可進一步整理為

式中:L為訓練集中的樣本向量數。同時Y可進一步表示為

式中:y=[y(1) y(2) … y(n)],i=1,2,…,L,y(1)為第i個消耗向量分量中的基期消耗值,初始化后被統一為1,y(2),y(3),…為報告期的器材消耗量。
矩陣Y為L×n階矩陣,前n-1列為訓練集輸入數據,第n列為訓練集標簽值。由(1)式可知,不同行向量代表的消耗階段序列的時間起點不同,消耗總量也會產生較大差異,為便于分析不同時間段消耗規律的合理消耗差異,對Y的行向量y進行初值化,得到向量x:

由(4)式可以看出,歸一化后的x(2),x(3),…可以視為y(2),y(3),…相對于基期y(1)的相對消耗量。因此(1)式可表示為

而最終需求預測結果可以表示為

由于基期的器材消耗量統一為1,而隨后的第k個數值為報告期數據y(k)(k=2,…,n)相對于各自基期器材數據y(1)的消耗量,因而不同的x(k)之間具有相似的隨機特性。
裝備維修器材需求量主要與裝備故障損壞相關,許多導致裝備損壞的因素是呈階段性特點體現的,如計劃動用裝備或者因臨時任務隨機動用裝備時器材需求較多,而裝備封存或保養期間器材需求較少。雖然不同時間階段作用的隨機因素不同,但相似的作業和強度等隨機條件必然會導致相近的器材需求,因此本文通過改進AP聚類算法,將相似的隨機消耗數據段聚類到一起,挖掘相似條件下器材數據的變化規律,為進一步構建器材消耗訓練集數據做好準備工作。
AP聚類算法屬于無監督學習類算法,核心步驟是計算相似度矩陣s(i,p),然后運用相似度矩陣定義吸引度矩陣r(i,p)和歸屬度矩陣a(i,p),矩陣中的變量i和p均表示向量的角標,且相對于基期的相對消耗量時間序列同樣可以表示為x=[1 x(2) … x(n)],p=1,2,…,L;矩陣r(i,p)和a(i,p)均表示向量x和向量x之間的關系信息。AP聚類算法不同于其他無監督聚類算法,不需要提前人為指定數據類別的數量,僅通過數據點間的相似度迭代完成數據分類,分類效果極好。為避免在迭代過程中產生數據的震蕩,定義迭代式為

式中:v為僅能取正整數的迭代變量;λ為衰減阻尼系數,是介于0~1之間的實數,通常定義為0.5;矩陣r(i,p)描述了向量x適合作為向量x聚類中心的程度,表示從x到x的消息:

q為向量的遍歷角標;矩陣a(i,p)描述了向量x選擇向量x作為其據聚類中心的適合程度,表示從x到x的消息:

s為相似度矩陣,當i≠p時s(i,p)通常取向量x和向量x的歐氏距離負值:

當i=p時通常取整個相似度矩陣的最小值或中位數,經過固定步數的迭代并收斂后完成分類。
然而,對于不同階段的器材累積消耗情況,運用歐式距離作為標準將難以將具有相似消耗規律的訓練集數據聚類為同一類別(見圖1(b)),因此需對AP聚類算法的相似度標準進行改進。
在時刻t為1~4,器材的累積消耗值S可以表示為

式中:x(t)為器材消耗的時間連續函數(見圖1(a));S表示曲線x(t)、直線t=1、直線t=4以及x軸圍成的面積,在實際問題中,器材的消耗值是以離散值序列x(k)的形式體現的,k=1,2,3,4(見圖1(b))。
AP聚類算法的相似標準建立在向量與向量之間歐氏距離的負值基礎上,但在一段時間內難以直接反映器材需求累積量之間的相似關系。如圖1(b)所示,若:x=[1 x(2) x(3) x(4)],x=[1 x(2) x(3) x(4)]兩個向量采用歐式距離度量,則x與x存在較大差別,因此用(10)式進行相似度量標準進行迭代,將無法實現準確聚類。
由于在遂行任務時或操作使用因素導致器材損耗統計具有一定的階段性和滯后性,器材需求統計數據絕大多數情況下為離散形式(參照圖1(a)),且器材消耗向量序列應該為(4)式一樣更加一般化表達形式x(k),k=1,2,…,n。因此器材累計消耗量S可以表示為

(12)式用于計算近一段時間以來器材的消耗歷史總量,而經迭代聚類后聚類為同一類的消耗積累值勢必差別較小,因此(10)式可進一步改進為將(13)式作為相似度量代入(8)式和(9)式進行計算,通過循環迭代將具有相似消耗歷史的數據聚類在一起。



式中:l為第m類向量所含的樣本數。
由于數據容量限制,聚類為同一類別的器材數據雖然有相似的器材累積消耗特點,但遠未能將所有消耗情況反映出來,因此可以運用生成的隨機模擬數據擴充模型的訓練集,最終實現模型的合理預測。



同時,當樣本數量不足時,如果各已知樣本向量能夠體現相對全面的各類隨機因素作用效果(迭代聚類的類別數量較少),便可基于現有數據最大限度地挖掘其隨機特征,聚類為同一類別的報告期數據()也可進一步考慮為

式中:()為第類輸入向量中第個分量的樣本標準差,樣本均值和樣本標準差的具體表達式為

對于待測試數據的預測,由于最后一個報告期數據未知,無法準確估計測試向量所屬的類別。因此需要根據測試數據和各類別訓練集的相關程度合理確定測試向量各報告期數據符合的隨機特征,形成最符合待預測數據變化規律的大樣本數據。因而待測試向量分量x()的模擬隨機數字特征為

式中:w為待測試向量和第類訓練集向量的相關度權重,





時表明預測結果輸出穩定,最終得到預測結果。預測流程見圖3。

圖3 算法計算流程Fig.3 Calculation process of algorithm
為全面直觀評估基于模擬樣本數據的模型預測效果,本文引入相對誤差:

平均絕對誤差:

平均絕對百分比誤差:

擬合優度:

式中:相對誤差表示每一個預測結果和實際值的接近程度;平均絕對誤差和平均絕對百分比誤差則反映了總體預測結果和真實值之間的絕對差距和相對差距;擬合優度指標位于0~1之間,越接近1,表示總體擬合效果越好。
以裝甲裝備某型戰術維修器材需求預測為例,利用本文方法并基于MATLAB軟件進行分析討論。已知器材需求時間序列為()={234,260,258,275,285,329,347,365,396,432},取前8個值作為擬合模型訓練數據,后2個數據為測試數據。具體步驟如下。
1 由于數據量較少,取=4根據(4)式對數據進行初始化,根據(12)式計算各階段器材消耗積累值,取迭代次數為500,衰減阻尼系數=0.5,運用(7)式、(8)式、(9)式、(13)式進行迭代聚類,結果見圖4。圖4中不同顏色代表不同類別,初值化后的5組數據經過聚類后被劃分為3個類別,表明數據具有3種不同類別的器材需求類型。

圖4 算例1數據聚類結果Fig.4 Data clustering results of Example 1
2 由(17)式計算各類別數據的隨機數字特征,結果見表1。

表1 各類別數據的隨機數字特征Tab.1 Random number characteristics of each cluster of data
3 由(18)式~(21)式計算待預測輸入向量的隨機數字特征值,計算結果見表2。

表2 模擬數據的特征Tab.2 Random eigenvalue of simulated data
4 由表2中計算出的模擬數據數字特征,運用MATLAB軟件分別隨機生成大容量模擬數據。結合模擬訓練數據,運用裝備維修器材需求預測常用的大數據驅動預測模型支持向量回歸SVR和BP神經網絡兩種預測模型進行回歸預測,檢驗其預測效果提升情況。
SVR模型采用Sigmoid核函數,稀疏懲罰參數為0.01,運算采用Libsvm模塊。BP神經網絡的結構為3-3-1,迭代次數為500。模擬樣本數據容量由10開始,每增加10個模擬樣本,兩個模型都會計算并輸出。針對同一組待預測數據運用不同的模型進行預測比較,結果見圖5。
圖5(a)、圖5(b)分別為針對不同待預測數據的預測結果。BP神經網絡模型隨機賦予權值初始值,通過樣本信息不斷迭代,反向傳播誤差信息計算最優權值。但由圖5可以看出,由于前期采用模擬樣本容量較少,BP神經網絡易產生過擬合現象,因此計算結果穩定性較差,變化幅度較大。隨著模擬樣本數據容量增多,BP神經網絡的計算結果逐步趨于穩定。

圖5 算例1模擬數據的計算過程Fig.5 Calculation process of simulated data of Example 1
SVR采用不敏感損失函數,通過搜索最優解的方式確定最優回歸參數,但在模擬樣本數據容量較小時同樣存在預測結果變動幅度較大且結果輸出不夠穩定的情況。隨著樣本容量增大,輸出結果逐步穩定,表明較少數量的器材消耗樣本難以支持大數據驅動模型的合理預測。由圖5可以看出,模擬樣本數量大于2 000左右時,模擬樣本容量基本滿足模型針對這一組器材需求數據的預測需求。
同時由圖5還可以看出,隨著模擬樣本數據容量的增大,針對同一組待預測數據,SVR和BP神經網絡模型的預測結果基本穩定于同一數值附近。表明根據現有樣本信息中所蘊含的隨機變化情況已經隨著模擬樣本數據的增加而逐步被充分遍歷挖掘出來,不會因模型運算機理不同而得到不同的預測結果。同時也避免了因模型運算性能差異導致的運算結果可參照性不強,極大地提高了模型預測結果的可信性,進而為保障決策提供可靠參照。
為進一步分析大樣本模擬數據對于模型性能的提升效果,將后3 000步輸出結果的平均值作為輸出結果,分別運用GM(1,1)、SVR和BPNN的傳統方法預測結果進行比較研究,運用(23)式~(26)式計算結果評價指標,計算結果見表3。

表3 不同模型的計算結果比較Tab.3 Comparison of calculated results of different models
由表3可知,在小樣本條件下,SVR和BP神經網絡模型的預測效果并不比GM(1,1)效果理想,且由于模型運算機理差異的原因,預測結果差異較大。基于大樣本模擬數據SVR和BP神經網絡兩個模型的計算結果非常接近,且其、和等評價指標均優于傳統GM(1,1)、SVR和BPNN,表明大樣本模擬數據可在小樣本條件下,有效提升大數據驅動器材需求預測模型的預測效果。
同時由算例1可以看出,聚類的準確性很大程度上決定了生成模擬數據的合理程度,算例1中的數據被分為了3類。顯然,如果類別過多(如每個數據點單獨劃分為1類)則無法確定模擬數據的樣本標準差,進而無法根據數據的隨機特性生成數據,這類情況表明該類小樣本數據不具有可預測性。
為進一步驗證改進AP聚類生成模擬數據算法的運算性能,以另一組某裝甲器材倉庫某型器材需求歷史數據為例進行分析討論。器材消耗時間序列為:()={86,91,102,91,103,101,93,94,107,99},同樣取前8個值作為擬合模型訓練數據,后2個數據為測試數據。具體步驟和計算過程與算例1相同,數據聚類結果見圖6。

圖6 算例2數據聚類結果Fig.6 Data clustering results of Example 2
由圖6的分類結果可知,5組數據被劃分為同一類別,表明來自于同一樣本的5組數據雖然有細微的差別,但是所體現出的器材消耗累積規律全部相近,待預測輸入向量分量服從的體現各自隨機特征的正態分布數字特征和訓練樣本數據一致,在與算例1相同的計算條件下,計算輸出結果見圖7。
由圖7可知,與算例1相似,在模擬樣本數據量較少時,BP神經網絡模型和SVR的輸出結果均變化幅度較大,隨著模擬樣本容量增加,兩類模型的輸出結果趨于穩定,SVR的預測結果為103.72和96.23,BP神經網絡模型的預測結果為103.78和95.99。兩類模型的預測結果非常接近,表明模擬數據使大數據驅動模型預測結果的可信性得到了有效提升,同時也表明改進后AP聚類算法并不會因整體數據的較小差別而刻意劃分數據類別,具有很好的穩定性,從而為裝備器材高效率保障提供高效可靠的決策支持。

圖7 算例2模擬數據的計算過程Fig.7 Calculation process of simulated data of Example 2
本文將不同時間段的器材累積消耗數據作為基本相似度量,改進了AP聚類算法。經過迭代聚類后,劃分為同一類向量數據的各分量均服從正態分布。通過待預測輸入向量和各類別向量的相似度分析,求解待預測數據的正態分布數字特征,并運用數學軟件生成大量隨機模擬樣本驅動大樣本數據預測模型,完成小樣本維修器材需求預測。通過聚類分析和算法設計弱化相關度較低的類別數據對于訓練數據集的干擾影響,提升了模型預測結果的準確性。同時結合算法挖掘到的特征數據生成模擬數據,在已有數據特征的基礎上模擬各類數據變化的隨機情況。既可以突出可靠性仿真類模型的特點,形成具有合理分布特性的仿真數據源,也可給大樣本數據驅動模型提供足夠的數據支撐,充分發揮了大樣本數據驅動模型的預測優勢。
通過分析研究發現,本文方法可充分挖掘小樣本數據中的隨機信息,使大數據驅動預測模型輸出穩定預測值,且計算步驟簡單,避免因不同模型運算機理差異而導致預測結果不一致,有效提升了大樣本數據驅動模型進行小樣本維修器材需求預測結果的可信性。