郝萬亮, 邊英杰, 申獻芳, 鄭金磊
(1. 32145部隊,河南 新鄉 453000; 2. 66350部隊, 河北 保定 071000)
航空裝備保障涉及范圍廣,系統復雜性高,直接關系著航空裝備的性能及完好狀態。為了提高保障能力,需要對裝備狀態、裝備完好性以及航材備件消耗情況等進行預測,根據預測結果提前采取必要措施預防故障的發生,及時籌備足夠的航材備件,提高裝備的完好率。因此,科學地預測分析,在航空裝備保障工作中起著重要的作用[1]。
一般情況下,對于預測問題,在收集到的數據量較多時,通常采用概率與數據統計的方法進行分析。但是在航空裝備保障領域,大多數情況下收集到的數據量少,概率與數據統計方法不能達到較好的預測效果。因此,小樣本預測問題一直是不同領域研究的熱點和難點,即如何利用較少的數據和較短的時間來獲取相對準確的預測數據。近年來,支持向量機(support vector machine, SVM)理論快速發展。它是建立在統計學理論的VC維理論以及結構風險最小化原理基礎上,專門針對小樣本學習的方法,能夠有效避免非線性、高維數、過學習以及欠學習等常見問題。其特點是利用較短的訓練時間,達到較強的泛化能力,實用性強[2-5]。而支持向量機回歸是SVM的重要分支,在不同領域獲得了較為廣泛的應用[6-7]。航空裝備故障直接影響著裝備的完好性以及飛行安全,研究故障發生的規律對于航空備件的存儲也有著積極的指導意義。部分專家學者針對此問題采用了一元線性回歸、灰色模型、專家判斷等方法,取得了一定的進展[8]。本文采用支持向量機回歸分析方法,利用LIBSVM軟件包[9-11]對某機載設備不同時間段內的故障發生數量進行預測,取得了較好的預測效果。
支持向量機作為一種機器學習方法,是建立在統計學習理論基礎上,由Vapnik等人于20世紀90年代中期提出的。它最早應用于分類問題,能夠較好地解決樣本數量少、維度高的問題;后逐步應用到回歸問題中,稱為支持向量機回歸[12]。在實際應用過程中,根據是否需要進入高維空間,支持向量機回歸有兩種方法:線性回歸和非線性回歸[13]。
給定一個線性可分訓練樣本D={(xi,yi)|i=1,2,……,l},xi∈Rd,yi∈R,l為訓練樣本的個數,d為每個訓練樣本向量的維數。線性回歸的問題即求回歸函數:
f(x)=(ω·x)+b
(1)
式中,b∈R,(ω·x)為ω與x的內積,且滿足結構風險最小化原理。
常用的誤差函數有Laplace函數、Huber函數和ε不敏感損失函數,其中ε不敏感損失函數因具有較好的性質而得到廣泛的應用,其表達式為:
(2)
當樣本點與回歸函數的距離均小于ε時,求解式(1)即等同于求解下面的二次凸優化問題:
(3)
(4)
為求解式(4),引入拉格朗日函數L:
(5)
(6)
將式(6)代入式(4)中,得到對偶優化問題:
(7)
由式(6)可得出:
(8)
(9)
對于非線性回歸的情況,支持向量機的處理策略是首先在低維空間中完成計算,然后選擇一個核函數K(xi,xj),該函數能夠代替內積運算,并將數據映射到高維特征空間,解決在原始空間中的線性不可分的問題,從而在高維特征空間中構造出最優分離超平面,把不好分的非線性數據分開。將核函數加入優化目標函數中,則式(7)轉換為:
(10)
相應的預測函數則為:
(11)
常用的核函數有以下幾種:
線性核函數:
K(x,xi)=x·xi
(12)
多項式核函數:
K(x,xi)=(x·xi+l)d
(13)
徑向基(RBF)核函數:
(14)
Sigmoid核函數:
K(x,xi)=tanh(kx·xi+θ)
(15)
支持向量機非線性回歸利用核函數,將非線性問題轉化為線性,提高了對非線性問題的處理效果,避開了顯示表達式,具有算法簡單、數據計算量小、易于實現等特點。更重要的是,回歸函數由支持向量的樣本所確定,并非取決于樣本的維數,因此不會因樣本維數的增加導致計算量的劇增,不用擔心維數災難的出現。
為分析支持向量機回歸算法的預測效果,統計了某型直升機直流發電機控制器近三年在使用過程中的故障情況:共有33件發生故障,每件設備故障發生時間分布如表1所示。
表1 直流發電機控制器故障時的工作時間(h:min)
將直流發電機控制器故障發生時間按照從小到大的順序排列。為了便于分析,將其分成24個故障發生區間Ti=(0,30i),其中i=1,2,…,24,同時統計出每個區間的故障數量。統計結果如表2所示。
表2 各區間故障數量統計
24個故障區間內直流發電機控制器故障數分為訓練數據和測試數據兩組。訓練數據取前16個值,用于對訓練樣本進行擬合;測試數據取后8個值,用來驗證算法的擬合效果。計算時采用基于最小二乘法的二次多項式和支持向量機回歸兩種不同的方法對訓練數據進行擬合。
基于最小二乘法的二次多項式對訓練數據進行擬合,計算出的表達式為:
y=3.9×10-5x2+0.0353x+0.0196
(16)
利用支持向量機回歸對訓練數據進行擬合。支持向量機解決非線性回歸問題,最重要的是確定不敏感值ε、懲罰系數C以及所用的核函數的參數,因為這些參數直接影響著支持向量機的學習能力,決定著預測效果的好壞。對于核函數的選擇,并沒有一個確定的指導原則,但是徑向基核函數是普遍采用的核函數,其表達式如式所示。為了確定三個最優參數,可逐個分析參數變化對預測效果的影響;或者利用網格搜索法,通過在支持向量機中輸出學習誤差進行試驗,得到誤差最小時所采用的核函數參數值即為需要的最佳參數。經過分析最終確定的參數設置如下:ε不敏感值取0.002,懲罰系數C取23,徑向基函數相關參數γ取值2.1e-6。
分別利用二次多項式和支持向量機回歸預測模型,對訓練數據進行擬合,結果如圖1所示。利用兩種方法對測試數據的故障數進行預測,預測結果如圖2所示,預測誤差具體值如表3所示。
圖1 訓練數據擬合曲線
圖2 測試數據預測值
由表3可以計算出,二次多項式和支持向量機回歸預測誤差絕對值的平均值分別為6.44、0.51,最大預測誤差分別為12.70、1.71。由此可知,與二次多項式回歸預測相比,利用支持向量機回歸算法對直流發電機控制器的故障數進行預測,具有較高的預測精度。因此,支持向量機回歸預測方法在航空裝備故障預測領域具有較高的推廣應用價值,同時對航材備件消耗也具有較好的借鑒作用。
表3 測試數據預測值與實際值比較
支持向量機回歸作為一種針對小樣本數據進行預測的方法,具有較強的學習能力和泛化能力,在各個領域廣泛應用,且取得了較好的效果。本文將支持向量機回歸用于航空裝備故障數量的預測,建立了回歸模型。算例分析表明,該模型具有較高的預測精度。需要指出的是,不同的模型參數對預測精度有著非常大的影響,良好的預測效果需要準確的模型參數,因此對模型參數的確定方法需進一步深入研究。