謝 力 楊懷寧 尹相平 孫玉華
1海軍工程大學裝備經濟管理系,湖北武漢430033 2海軍裝備部裝備采購中心,北京100071 3海軍裝備部裝備招標中心,北京100071 4中國人民解放軍92493部隊,遼寧葫蘆島125001
艦船裝備維修費是保障艦船裝備持續良好運行、發揮戰斗力的關鍵所在。實現艦船裝備維修費科學準確的預測,對提高海軍裝備經費的使用效益,進而提高海軍裝備的戰斗力具有重要意義。但由于艦船裝備的維修活動受內部和外部各種復雜因素的影響,如艦船造價、使用強度、維修技術、物價變化、維修制度等,再加上我國相關數據的收集工作起步較晚[1-2],單一預測模型難以準確反映其變化規律。在實際應用中,費用分析人員一般根據不同來源的資料構建多種預測模型,對艦船裝備維修費進行組合預測[3-4],以提高預測的適應性和穩定性。
Granger和 Wei等[5-6]在回歸框架中對多種組合方法進行了討論,證明帶有常數項且不受約束(限制權重為非負且權重和為1)的回歸組合模型更具優勢。但由于艦船裝備維修費預測是典型的小樣本問題,因此多種預測方法都可對其進行預測。運用基于回歸的組合預測模型對其進行研究時,容易出現預測模型比用于組合預測的樣本數量多,導致回歸系數無法估計的情況。同時,Timmerman[7]發現在單項預測數量過多時,增加模型的代價(增加參數估計誤差)與相應的收益(精度的提高)不匹配,故主張從組合中剔除那些只增加少量信息的預測模型以解決該問題。但是根據Granger和 Aiolfi等[8-9]的研究顯示,對單一預測模型的修剪一般不存在一個普適的最優數量,且Aiolfi等[10]還發現,先前最好的模型在后來會變得最差,先前最差的模型在后來會變得較好。因此,通過剔除部分模型的方法并不能很好地解決該問題。并且,單項預測方法之間通常容易出現信息重疊的現象,即基于回歸組合預測模型中的多重共線性問題,也將影響組合預測模型的性能。
主成分分析(Principal Component Analysis,PCA)[11]通過Karhunen-Loève變換,產生一組稱為主成分的新變量,所有主成分互相獨立,其間不存在冗余,并通過保留前面含信息量最大的幾個主成分來實現降維。本文嘗試在建立基于回歸的艦船裝備維修費組合預測模型之前,先采用主成分分析對單項預測模型進行降維處理,以解決預測模型多于用于組合預測的樣本數量以及單項預測模型之間的線性相關問題,并結合實際問題進行應用分析。
主成分分析由英國生物統計學家Pearson[12]于1901年在對非隨機變量進行討論時引入,隨后數學家Hotelling[13]將其推廣至隨機變量。該方法將原來指標的信息重新組合成了一組相互獨立的少數幾個綜合指標,這些綜合指標可以盡可能保留原有指標所含有的信息,且各指標所含信息互不重疊。
設有m個指標組成的m維隨機向量Y=(y1,y2,…,ym)′,作指標的線性組合:

為便于討論,主成分分析將問題限制在單位圓中進行,即方程組(1)中的系數uij滿足。根據信息理論的觀點,一個系統所包含的信息量體現為其不確定性的大小。在統計分析中,一組數據的方差可以反映其不確定性,故數據中所含的信息量可通過其方差大小來度量。在方程組(1)中,Z1是 y1,y2,…,ym線性組合中方差最大的,因而含有最大的信息量,稱為第一主成分。為保證各指標所含信息互不重疊,Z1,Z2,…,Zm互不相關,依次類推得到各主成分。
根據不同的數據特征和分析的需要,目前在傳統PCA的基礎上還產生了非線性PCA[14]、概率PCA[15]和核 PCA[16]等多種主成分分析方法。
設 yt1,yt2,…,ytm是t時刻分別來自m個不同艦船裝備維修費預測模型的擬合結果,艦船裝備維修費實際值為 yt(t=1,2,…,n),則基于回歸的艦船裝備維修費組合預測模型可以表示為:

式中,ytc表示組合預測;w0為常數項;wi(i=1,2,…,m)為相應單項預測方法的權系數;εt為隨機擾動。
在我國裝備發展采用“多研制、少生產”策略的背景下,同型號艦船都是小批量甚至單件生產,艦船裝備維修費預測可參考的裝備較少。再加上我國艦船裝備修理實際發生費用數據長期統計不規范、裝備修理部門或工廠的信息封閉等原因,導致艦船裝備維修費預測時可利用的樣本量小。因此,在采用式(2)構建艦船裝備維修費組合預測模型時,經常會出現預測模型的數量比用于組合預測的樣本數量多的情況,直接導致回歸系數無法確定。針對這一問題,下面將采用主成分分析對單項預測模型進行降維處理,以滿足方程(2)求解的需要。
設各預測方法擬合值組成的矩陣為:

由于艦船裝備維修費各預測方法的擬合值并不存在量綱或數量級的差異,因此不需要對原始數據進行標準化處理,可以直接進行主成分分析,具體計算步驟如下。
步驟1:計算擬合值Y的相關系數矩陣 R=(rij)mm,其中rij是第i種預測方法與第 j種預測方法的相關系數。

步驟2:計算相關矩陣 R的特征值 λ1≥λ2≥…≥λm>0 ,及其相應的特征向量 u1,u2,…,um。其中 ui=(ui1,ui2,…,uim)(i=1,2,…,m),從而得到m 個主成分 Z1,Z2,…,Zm。
步驟3:根據上面得到的m個主成分,對第一主成分Z1作線性回歸:

將不同時刻 t=1,2,…,n的 y和 Z1的值代入方程(5),求回歸系數 α0和 α1,進行顯著性檢驗,并計算回歸方程的AIC(Akaike's Information Criterion)值[17],記為 AIC1。
步驟4:在方程(5)中增加主成分 Z2,并分別建立線性回歸模型:

求解回歸系數,進行顯著性檢驗,并計算回歸方程的AIC值,記為 AIC2。如果 AIC2>AIC1,則表示方程(5)為最佳組合預測模型,可以用其對艦船裝備維修費進行預測;如果 AIC2<AIC1且回歸方程統計上顯著,則在回歸方程中繼續逐個增加主成分,直到后一個統計上顯著的回歸方程的AIC大于前一個統計上顯著的回歸方程的AIC,否則,將所有主成分加入其中。最后,使用得到的最佳組合預測模型對艦船裝備維修費進行預測。
以文獻[18]中某單位艦船裝備維修費的后7組數據為樣本,另外增加幾種預測模型的預測結果作為本文提出方法例證分析的基礎。其中,以前面6組數據為校準樣本,第7組數據為檢驗樣本。艦船裝備維修費及各單項預測模型預測數據樣本如表1所示(單位為萬元)。

表1 某單位艦船裝備維修費及其預測Tab.1 Ship equipm entm aintenance cost and its budget
在表1中,因為用于組合預測的樣本僅6個,而用于組合的預測模型有7個,顯然直接采用基于回歸的組合預測無法求解,所以下面將采用本文給出的方法進行例證分析。
1)取前6組數據,計算各預測方法之間的相關系數,結果如表2所示。
從表2中可看出,各單項預測方法數據之間的相關系數都在0.97以上,即各單項預測方法之間高度線性相關。這在預期之中,因為各種預測方法的擬合值都與艦船裝備維修費實際值高度線性相關,因此它們之間自然也高度線性相關,即各單項預測方法存在多重相關性。

表2 各單項預測方法之間的相關系數Tab.2 Correlation coefficients between individual forecastm ethods
2)根據前6組數據,運用Matlab 7.1中的princomp()函數計算各預測方法的主成分系數和新坐標下各主成分的值,分別如表3和表4所示。

表3 主成分系數Tab.3 Principal com ponen t coefficien ts

表4 新坐標下各主成分的值Tab.4 Principal com ponent values in new coord inate
從表4中可以看出,在新坐標下,最后2個主成分不包含任何信息,原數據維數得到降低。
3)運用Eviews6根據式(5)建立回歸模型為:

將第2個主成分加入回歸方程,再次計算回歸模型,得到 AIC2≈7.891>7.780,即帶有一個主成分的回歸模型即為最佳組合預測模型。
4)將第7組數據中各方法的預測值轉化為主成分值,并將第一主成分值(計算過程見表5)代入上面的回歸方程:

同時,還采用算術平均法、誤差平方和倒數法、均方誤差倒數法、簡單加權平均法等常用組合預測[19-21]對本例進行了計算,結果如表6所示。
可見,通過本文提出的組合預測模型選擇方法能有效改善組合預測的性能。
1)在建立基于回歸的組合預測模型前,采用主成分分析對單項預測模型進行降維處理,可以有效解決預測模型多于用于組合預測的樣本數量的問題。
2)主成分分析可以有效解決艦船裝備維修費組合預測模型中的共線性問題。

表5 檢驗樣本新坐標下第一主成分的值過程Tab.5 Calcu lating p rocess of the first p rincipal com ponent values of testing sam p le in new coordinate

表6 各組合模型預測值與預測誤差比較Tab.6 Com parison of the forecast value and forecasterror am ong various com bination m odels
3)由于各種預測方法的擬合值都與實際值高度線性相關,因而艦船裝備維修費各單項預測方法之間也高度線性相關。
4)采用AIC確定主成分的數量客觀可行,可為在主成分分析中引入各種信息準則提供參考。
5)實例表明,基于主成分分析的艦船裝備維修費組合預測模型具有良好的預測精度,且明顯優于常用的組合預測模型。
此外,盡管本文給出的方法實現簡單、應用方便,但由于PCA是以線性假設為前提,當各單項預測方法之間出現復雜的非線性關系時,本文的方法不能準確描述其關系,從而約束了本文方法的有效性。此時,必須結合非線性降維方法來建模組合預測模型。
[1]XIE L,WEIR X,JIANG T J,et al.Generalized PLS regression forecast modeling of warship equipment maintenance cost[C]//16th International Conference on Management Science and Engineering.Washington:IEEE Press,2009:607-612.
[2]謝力,魏汝祥,于偉宗.艦船裝備維修費預測方法評價準則體系研究[J].中國艦船研究,2011,6(2):98-102.
XIE L,WEIR X,YU W Z.Evaluation criteria system of forecasting methods for maintenance cost of ship equipment[J].Chinese Journal of Ship Research,2011,6(2):98-102.
[3]謝力,魏汝祥,訾書宇,等.基于包容性檢驗的艦船裝備維修費組合預測[J].系統工程與電子技術,2010,32(12):2599-2602.
XIE L,WEIR X,ZISY,etal.Combined forecasting of ship equipmentmaintenance cost based on encompassing tests[J].Systems Engineering and Electronics,2010,32(12):2599-2602.
[4]WEIR X,XIE L,YIN X P,etal.Combined forecasting of ship equipmentmaintenance costwith AHP and odds-matrixmethod[C]//The Proceedingsof2010 Conference on System Sciences,Management Sciences and System Dynamics.China, Beijing:Publishing House of Electronics Industry,2010(4):115-122.
[5]GRANGER C W J,RAMANATHAN R.Improved methodsof combining forecasts[J].Journalof Forecasting,1984,3(2):197-204.
[6]WEIXQ.Regression-based forecastcombinationmethods[J].Romanian Journal of Economic Forecasting,2009,10(4):5-18.
[7]TIMMERMAN A.Forecast combinations[M]//ELLIOTTG,GRANGER CW J,TIMMERMAN A.Handbook of Economic Forecasting.North-Holland:Elsevier,2006:135-196.
[8]GRANGER CW J,JEON Y.Thick modeling[J].Economic Modeling,2004,21(2):323-343.
[9]AIOLFIM,FAVERO C A.Model uncertainty,thick modeling and the predictability of stock returns[J].Journalof Forecasting,2005,24(4):233-254.
[10]AIOLFIM,TIMMERMANN A.Persistence in forecasting performance and conditional combination strategies[J].Journal of Econometrics,2006,135(1/2):31-53.
[11]CAMACHO J,PIC J,FERRER A.Data understanding with PCA:structural and variance information plots[J].Chemometrics and Intelligent Laboratory Systems,2010,100(1):48-56.
[12]PEARSON K.On lines and planes of closest fit to systems of points in space[J].Philosophical Magazine,1901,2(11):559-572.
[13] HOTELLING H.Analysis of a complex of statistical variables into principal components[J].Journal of Educational Psychology,1933,24(6):417-441.
[14]馬麗艷,李宏偉.一種基于非線性PCA的卷積混合盲源分離算法[J].電子學報,2008,36(5):1009-1012.
MA L Y,LIH W.An algorithm based on nonlinear PCA for blind separation of convolutivemixtures[J].Acta Electronica Sinica,2008,36(5):1009-1012.
[15]宋懷波,路長厚,邱化冬.基于概率PCA模型的壓印字符集本征維數確定方法[J].光電子激光,2010,21(5):754-757.
SONG H B,LU CH,QIU H D.Determine the intrinsic dimension of protuberant characters based on probabilistic PCAmodelingmethod[J].Journalof Optoelectronics.Laser,2010,21(5):754-757.
[16]王洪斌,肖金壯,王洪瑞.數控系統連接相關故障的核PCA監測方法[J].制造技術與機床,2009,59(7):94-97.
WANG H B,XIAO J Z,WANG H R.Monitoring method on connection dependent faults in numerical control system using kernel PCA[J].Manufacturing Technology and Machine Tool,2009,59(7):94-97.
[17]KOLASSA S.Combining exponential smoothing forecasts using Akaike weights[J].International Journal of Forecasting,2011,27(2):238-251.
[18]訾書宇,魏汝祥,周萍.基于RBF神經網絡的艦船維修費預測[J].中國水運(學術版),2007,2(5):164-165.
ZISY,WEIR X,ZHOU P.Ship maintenance cost forecasting based on RBF neural network[J].China Water Transport,2007,2(5):164-165.
[19]ANDRAW IS R R,ATIYA A F,EI-SHISHINY H.Forecast combinations of computational intelligence and linearmodels for the NN5 time series forecasting competition[J].International Journal of Forecasting,2011,27(3):672-688.
[20]ANDRAWIS R R,ATIYA A F,EI-SHISHINY H.Combination of long term and short term forecasts,with application to tourism demand forecasting[J].International Journal of Forecasting,2011,27(3):870-886.
[21]DIKSC G H,VRUGT JA.Comparison of point forecastaccuracy ofmodelaveragingmethods in hydrologic applications[J].Stochastic Environmental Research and Risk Assessment,2010,24(6):809-820.