謝 力 魏汝祥 于偉宗 黎 利
1海軍工程大學 裝 備經濟管理系,湖北 武 漢 430033
2中國人民解放軍92848部隊財務辦,遼寧 大 連 116041
3中國人民解放軍91224部隊辦公室,上海 200235
艦船裝備維修費預測的數據預處理技術研究
謝 力1魏汝祥1于偉宗2黎 利3
1海軍工程大學 裝 備經濟管理系,湖北 武 漢 430033
2中國人民解放軍92848部隊財務辦,遼寧 大 連 116041
3中國人民解放軍91224部隊辦公室,上海 200235
在預測艦船裝備維修費時,收集足夠多的、準確的費用數據是關鍵。根據艦船裝備維修費的影響因素,將艦船裝備維修費預測的相關原始數據分為基礎數據、使用數據、維修數據和宏觀經濟數據,確定了相應的數據收集渠道。分析了收集到的原始數據可能存在噪聲、缺失或異常數據、沖擊擾動數據、不一致數據的問題,針對性地提供了相應的數據預處理技術,經過處理后的數據可以為艦船裝備維修費預測提供良好基礎,進一步提高預測的有效性。
艦船裝備;維修費預測;數據預處理
在艦船裝備維修費預測中,存在的問題之一是很難收集到足夠多的、準確的費用數據。因此在費用預測之前應做好數據的收集與預處理。如果沒有充足的、有價值的數據,費用預測將很難達到預期的效果。
數據預處理是應用模型對數據處理分析的第一步。數據預處理期望達到的目的主要有4個[1]:1)提高數據的質量。通過對數據的預處理,發現不符合要求的數據并將其剔除,從而提高數據的整體質量;2)轉換數據格式。有的模型要求一定格式的數據,對于不符合格式要求的數據,可以通過對數據格式的變換,達到模型的要求;3)提高處理效率。這是數據預處理的主要目的。通常數據預處理后,數據一般格式更為整齊,也更加簡單,因此會提高模型的處理效率;4)進行簡單的數據分析。一些簡單的數據分析功能也歸入到數據預處理模型中,比如簡單統計量的計算,自定義函數等。目前,數據預處理常用于許多領域的數據分析中,如化工試驗和處理[2-4]、變量選擇[5]、色譜分析[6-7]、信號處理[8]、模式識別[9]、曲線擬合[10]、數據挖掘[11],以及預測[12-14]、決策[15]等方面。 而其中涉及到的數據預處理技術,都是從具體的背景出發,從數據分析和建模需要的角度對特定的數據進行的預處理,研究相對片面,并不適于推廣應用。
本文將針對艦船裝備維修費預測收集到的原始數據中可能出現的幾種問題,嘗試應用不同的數據預處理技術,為艦船裝備維修費的預測提供良好的數據。
艦船裝備維修費具有時間跨度大、影響因素多及費用數據離散等特點。原始數據的獲取是艦船裝備維修費預測過程中最困難、最花費時間的活動之一。在進行原始數據的收集前,首先必須對所需的數據進行分類,然后根據不同數據的類型確定數據收集的來源。根據艦船裝備維修費的影響因素,可以將艦船裝備維修費原始數據分為:基礎數據、使用數據、維修數據和宏觀經濟數據。
1)基礎數據
艦船裝備維修費預測的基礎數據,是指艦船裝備生產后交付部隊使用時所具有的一些基本數據,它不隨艦船裝備的使用而發生變化。如艦船裝備的造價、排水量、下水時間以及艦船裝備的固有可靠性、維修性等。
2)使用數據
艦船裝備維修費預測的使用數據,是指在艦船裝備的使用過程中反映艦船裝備所處狀態的數據,它隨著艦船裝備的使用而發生變化,是動態性的數據。如艦船裝備的新舊程度和使用強度等。
3)維修數據
艦船裝備維修費預測的維修數據,是指在維修過程中反映艦船裝備維修情況的數據以及各分項維修費用的具體數據。如艦船裝備的維修級別、維修輪次、維修批量、維修地域、維修制度等。
4)宏觀經濟數據
艦船裝備維修費實質上是維修過程中的一種經濟活動的反映,任何經濟活動都是在其宏觀經濟條件下進行的。艦船裝備維修費預測的宏觀經濟數據,是指影響裝備維修費的國家宏觀經濟數據。如物價指數、反映資金的時間價值的基準利率等。
對于不同類型的數據,需要明確其相應的數據來源,便于有的放矢地收集數據。數據類型及相應的來源見表1所示。

表1 數據類型及來源
由于艦船裝備維修費預測中原始數據自身的一些特點以及數據收集過程中的一些特殊因素的影響,收集到的原始數據與最終數據分析時所需要的數據還存在一些差距,表現在作為統計過程,對數據表現形式和完整性的要求是很高的,而直接獲得的數據往往達不到這些要求,也就是收集到的原始數據可能存在一些不利于艦船裝備維修費預測的問題。
1)噪聲
由于種種能控制的或不能控制的主客觀條件的影響,以及數據傳輸過程中的錯誤等,使收集到的艦船裝備維修費原始數據中可能會存在噪聲。排除原始數據中噪聲的影響,把真正有用的信息從原始數據中提取出來,再對信息作進一步的分析,才能得到更加可靠的艦船裝備維修費預測結果。
2)缺失或異常
由于艦船裝備計劃修理的周期性,收集到的原始數據可能是不連續的,此外,由于資料上的管理不善或數據收集者認為某些屬性不重要而在數據記錄時忽略等原因也可能造成數據的缺失。數據的缺失可能會影響艦船裝備維修費預測的順利進行。由于一些特殊的情況的出現,有些原始數據可能并不能反映維修費變化的基本規律,也就是維修費預測中原始數據的異常值。這些異常值,可能會將艦船裝備維修費預測引導偏離真實規律的軌道。
3)沖擊擾動
收集到的艦船裝備維修費原始數據,有時會由于受到政策和環境的沖擊擾動而失真,亦即艦船裝備維修費數據序列未能確切地反映維修費真實變化規律。在這種情況下,如果不事先排除沖擊干擾,而用業已失真的數據直接建模、預測,則得到的定量預測結果很可能與人們直觀的定性分析結論大相徑庭,從而使預測結果令人感到難以置信。
4)不一致
由于艦船裝備維修費預測中的原始數據來源于多個不同的單位,信息龐雜,采集和加工的方法有別,數據描述的格式也各不相同,缺乏統一的標準。在這種情況下,如果不事先對原始數據進行處理,就沒法有效地對數據進行進一步的分析或導致對艦船裝備維修費的預測過程偏離實際。
根據上面的分析,由于艦船裝備維修費原始數據可能會存在一些問題,而影響其維修費預測。因此,要對所收集到的數據進行處理。
造成原始數據噪聲的原因有很多,針對噪聲問題,可以采用數據的橫向或縱向比較,對數據進行平滑處理[16]。橫向比較就是與同時期的類似裝備的比較,縱向比較就是不同時期樣本的變化規律的比較。
1)界限平滑
界限平滑,是指在比較過程中,通過設定一定的范圍(如±10%),當某個變量的數據超出(或低于)設定的范圍,則以該范圍的上限(或下限)來代替該變量值,以平滑噪聲對數據過大的影響。
2)指數平滑
指數平滑,是指通過設定一個加權系數,在原始數據與相應的正常數據之間進行加權求和。

式中,α是加權系數,根據原始數據特征設定;x0是正常數據,對于橫向那個比較來說,它是最相近艦船裝備相應的數據,對于縱向比較來說,它是前一時期的樣本值。
對于缺失值的處理一般有兩種處理方式:放棄和插值。由于艦船裝備維修費樣本數據具有小樣本的特征,放棄缺失值會進一步減小原始數據的樣本量,這顯然是預測者所不愿意的。此外,由于艦船裝備影響因素眾多,不同樣本中因素數據的缺失可能是不同的,如果因為樣本中個別因素的缺失而放棄整個樣本,未免代價太大。因此,對艦船裝備維修費預測中缺失值主要考慮插值處理技術。
插值是指人為地為缺失的數據插入一個數值,參與運算。根據插值方法的不同,可以有許多種類型。
1)純隨機插值
這是根據統計中的“同等無知原則”,不考慮所獲得的數據的情況,僅根據可能的選項,對缺失數據進行隨機賦值,例如對于艦船裝備使用強度假設有4種可能的情況(高、中、一般、低),缺失樣本中具體插什么值應當由計算機隨機完成,盡量不要有人為因素介入。純隨機插值沒有考慮選項實際的分布情況,如果各個選項的實際比例相差較大,則插值是非常不嚴格的。
2)就近插值
利用與缺失樣本相鄰近的樣本的值替代缺失樣本的真實值,這種插值法的理論依據是相鄰樣本在某些方面具有相似性,例如同型號艦船裝備相鄰兩次塢修費可能相差并不大。
3)按比例插值
根據提供的其他樣本原始數據的情況,對樣本中各種情況出現的頻率進行統計,然后按各種情況的比例對缺失值進行插值;或者根據各樣本中變量之間統計的相對穩定的比例關系,來對缺失值進行插值;或者根據缺失值鄰近的兩個值以一定的比例進行綜合,來對缺失值進行插值等。這種方式糾正了純隨機插值中不考慮原始分布情況的問題,也克服了就近插值只考慮了單邊鄰近值的缺陷,相對更具有科學性。
4)擬合插值
根據艦船裝備維修費影響因素之間的相關性,有針對性地對缺失部分進行預測建模,然后用建立的模型對缺失值進行擬合,用擬合值代替缺失值。這種插值方法有一定量的樣本要求。
針對沖擊擾動系統數據序列在建模預測過程中常常出現的定量預測結果與定性分析結論不符的問題,20世紀80年代末,劉思峰教授提出了緩沖算子的概念,可以有效地解決這一問題[17]。下面介紹兩種緩沖算子預處理技術:弱化緩沖算子和強化緩沖算子。弱化緩沖算子數據預處理技術,適合于原始數據由于受到沖擊擾動而導致其變化速度先快后慢的情況;強化緩沖算子數據預處理技術,適合于原始數據由于受到沖擊擾動而導致其變化速度先慢后快的情況。
1)弱化緩沖算子
設 X=(x(1),x(2),Λ,x(n))為系統行為數據序列,令 XD= (x(1)d,x(2)d,Λ,x(n)d)其中,

稱XD為X的一階弱化緩沖算子生成序列[18]。

稱XD2為X的二階弱化緩沖算子生成序列。
繼續進行弱化緩沖算子運算,可以相應地得到三階弱化緩沖算子,一直可以作用到r階算子,分別記為 XD3,…,XDr。
2)強化緩沖算子
設 X= (x(1),x(2),Λ,x(n))為系統行為數據序列,令 XD= X= (x(1)d,x(2)d,Λ,x(n)d),其中

稱XD為X的一階強化緩沖算子生成序列[19]。令XD2= XDD = (x(1)d2,x(2)d2,Λ,x(n)d2),式中

稱XD2為X的二階強化緩沖算子生成序列。
繼續進行強化緩沖算子運算,可以相應地得到三階強化緩沖算子,一直可以作用到r階算子,分別記為 XD3,…,XDr。
緩沖算子的性質及其證明,見文獻[20]。其他形式的強化緩沖算子[21-22]和弱化緩沖算子[23-25]的構建及其證明也得到了進一步的研究。
對于沖擊擾動數據的預處理技術,在具體的應用中,首先要考慮在具體的數據收集背景中,沖擊對數據變化趨勢的影響,進行定性分析,然后再考慮采用哪一種緩沖算子技術進行處理,使這種定性的分析融入到數據序列中,便于進一步的定量分析,實現定性與定量的綜合。
筆者認為,艦船裝備維修費原始數據的不一致主要表現為定性信息與定量數據的不一致、極端樣本數據與一般樣本數據的不一致、原始數據量綱的不一致。下面分別針對這幾種情況,介紹相應的數據預處理技術。
1)定性信息的量化處理
在收集到的艦船裝備維修費原始數據中,某些變量的數據可能會存在一些主觀的判斷,對于這些主觀的判斷需要將其轉化為量化的數據,才能夠進行進一步的預測模型的分析。
(1)統計近似處理
某些艦船裝備維修費影響因素,盡管難以收集到直接的定量數據,但是可以通過其他相關數據的統計,近似地得到相應的量化信息,這種量化處理方式,我們稱其為統計近似處理。如維修地區的差異對艦船裝備維修費的影響的量化處理。
(2)模糊隸屬度函數
某些艦船裝備維修費影響因素,收集到的數據只是一些定性上的判斷,這些判斷可以劃分為不同的等級。對于這種情況,我們可以采用設定模糊隸屬度函數的方式,將其轉化為明確的定量數據。如使用強度、維修任務的量化處理。
(3) 專家打分
有時某些影響因素很難或根本不能用適當的統計數據來衡量其優劣,也難以明確地將其劃分為不同的等級,就可以采用專家打分的方式來對其進行量化處理。如艦船裝備維修費預測中的維修制度的量化處理。
2)數據的無量綱化處理
影響艦船裝備維修費的因素很多,不同的影響因素從不同的側面反映了艦船裝備維修費的大小,由于大部分影響因素都具有各自不同的度量單位,導致這些因素之間不具有可比性,不利于比較它們對艦船裝備維修費影響的分析;此外,有些預測方法對輸入的變量具有一些特殊的要求,如神經網絡預測。下面分別介紹幾種常用的無量綱化處理技術。
(1)標準差標準化
標準差標準化處理可以使得各個變量數據的均值為0,標準差為1。處理公式為:

(2)極差正規化
極差正規化處理可以使得每個變量的最大值為1,最小值為0。處理公式為:

(3)數據百分化
數據百分化就是計算各個變量的百分比,處理后變量的和為1。公式為:

(4)向量規范化
向量規范化處理也是線性變化,處理后的變量滿足向量的模為1。

以上幾種數據的無量綱化處理技術各有特點,在艦船裝備維修費預測過程中,可以根據不同方法的要求,選擇合適的方法進行處理。
3)極端樣本數據的處理
有些時候各個樣本的原始數據往往相差極大,或者由于某種特殊的原因,只有某個樣本的原始數據特別突出,如果不作適當的處理,會使整個艦船裝備維修費預測結果發生嚴重扭曲。為此可以采用類似與評分法的統計平均-方法。具體的做法有很多,其中之一是設定一個百分制平均值M,將樣本集X中各個方案該變量的均值定位于M,再用下式進行變換[19]:


為了便于上面所給出的方法在工程實際上得到應用,下面采用模擬的一組艦船裝備維修費相關原始數據,并對其進行適當的數據預處理。假定經分析影響某單位艦船裝備維修費的主要因素為A和B,且收集到A、B以及艦船裝備維修費Y的原始數據如表1所示。

表1 維修費及其影響因素A和B原始數據(單位為基數)
從表1中的數據,我們發現因素A的增長率波動幅度較大,特別是2004年的增長率達到54.08%,而 2003 年的增長率為 9.22%,可以認為這主要是由于噪聲引起的,這里采用使用界限平滑法對A進行平滑處理,設定界限范圍為±25%,處理后的數據見表2(如處理后2004年的數據為3186× (1+25%)=3823.2)。
同時,在因素B原始數據中,2001、2002和2007年的數據缺失,這里采用相鄰兩個數據的等比例進行插值,插值后的數據見表2(如處理后2004 年的數據為 0.5×1083+0.5×1920=1501.5)。
對于維修費Y的數據,容易發現其前期增長率較小,而后期增長率較大,可以認為是由于沖擊的擾動所致,這里采用一階強化緩沖算子對其進行處理,處理后的值見表2(如處理后2004年的數據為(8-5+1)×712/(71+77+85+94)≈61.66)。

表2 預處理后的數據(單位為基數)
經過上述數據的預處理,表2中的數據已可以用于艦船裝備維修費的預測。此外,根據某些預測方法(如神經網絡方法)的要求,有時還需要對表2中經過預處理后的數據進行無量綱化處理,這里采用向量規范化方法進行處理,見表3。
如2004年Y的數據計算如下:


表3 數據的無量綱化處理
本文根據艦船裝備維修費的特點,將原始數據分為基礎數據,使用數據,維修數據和宏觀經濟數據,并匯總了各種數據收集的來源。根據不同艦船裝備維修費預測方法對輸入數據的要求以及收集到數據自身的特點,分析了原始數據可能存在影響預測效果的一些問題,根據艦船裝備維修費預測的需要,針對每一種問題提供了相應的幾種數據預處理技術,通過預處理后的數據可以為艦船裝備維修費預測提供良好的數據基礎,更好地保證預測效果。同時,本文歸納的各種艦船裝備維修費數據預處理技術,也可以推廣用于其他預測過程中存在類似問題的數據預處理中。
[1]張偉,顧朝林.城市與區域規劃模型系統[M].南京:東南大學出版社,2000.
[2]RICARDO J N,SILVA da B,FIGUEIREDO H,et al.E-valuation of sample processing and sub-sampling performance[J].Analytica Chimica Acta,2003,477:169-185.
[3]AZZOUZ T,PUIGDOMéNECH A,ARAGAY M,et al.Comparison between different data pre-treatment methods in the analysis of forage samples using near-infrared diffuse reflectance spectroscopy and partial least-squares multivariate calibration method[J].Analytica Chimica Acta,2003,484:121-134.
[4]GABRIELSSON J,JONSSON H,AIRIAU C,et al.OPLS methodology for analysis of pre-processing effects on spectroscopic data[J].Chemometrics and Intelligent Laboratory Systems,2006,84:153-158.
[5]PAPADOKONSTANTAKIS S, MACHEFER S, SCHNITZLEIN K,et al.Variable selection and data pre-processing in NN modelling of complex chemical processes[J].Computers and Chemical Engineering,2005(29):1647-1659.
[6]YAMAUCHI Y,NAKAMURA A,KOHNO I,et al.Quasiflow injection analysis for rapid determination of caffeine in tea using the sample pre-treatment method with a cartridge column filled with polyvinylpolypyrrolidone [J].Journal of Chromatography A,2008,1177:190-194.
[7]IDBORG H,ZAMANI L,EDLUND P O,et al.Metabolic fingerprinting of rat urine by LC /MS Part 2.Data pretreatment methods for handling of complex data[J].Journal of Chromatography B,2005,828:14-20.
[8]GNANI D,GUIDI V,FERRONI M,et al.High-precision neural pre-processing for signal analysis of a sensor array[J].Sensors and Actuators B,1998,47:77-83.
[9]KUZ'NIAR K,WASZCZYSZYN Z.Neural analysis of vibration problems of real flat buildings and data pre-processing[J].Engineering Structures,2002,24:1327-1335.
[10]HARLEY M D,TURNER I L.A simple data transformation technique for pre-processing survey data at embayed beaches[J].Coastal Engineering,2008,55:63-68.
[11]安淑芝.數據倉庫與數據挖掘[M].北京:清華大學出版社,2005.
[12]ESEN H,INALLI M,SENGUR A,et al.Forecasting of a ground-coupled heat pump performance using neural networks with statistical data weighting pre-processing[J].International Journal of Thermal Sciences,2008,47:431-441.
[13]張文哲,陳剛,吳迎霞.基于小波理論對負荷預測中不良數據的處理[J].重慶大學學報,2004,27(6):77-81.
[14]韋鋼,王飛,張永健,等.負荷預測中歷史數據缺損處理[J].電力科學與工程,2004(1):16-19.
[15]TERABE M,WASHIO T,MOTODA H,et al.Attribute generation based on association rules [J].Knowledge and Information Systems,2002(4):329-349.
[16]胡上序,陳德釗.觀測數據的分析與處理[M].杭州:浙江大學出版社,1996:85-106.
[17]劉思峰.沖擊擾動系統預測陷阱與緩沖算子[J].華中理工大學學報,1997,25(1):25-27.
[18]黨耀國,劉思峰,劉斌,等.關于弱化緩沖算子的研究[J].中國管理科學,2004,12(2):108-111.
[19]黨耀國,劉斌,關葉青.關于強化緩沖算子的研究[J].控制與決策,2005,20(12):1332-1336.
[20]劉思峰,黨耀國,方志耕.灰色系統理論及其應用[M].第 3 版.北京:科學出版社,2004:26-49.
[21]崔杰,黨耀國.一類新的弱化緩沖算子的構造及其應用[J].控制與決策,2008,23(7):741-744,750.
[22]關葉青,劉思峰.關于弱化緩沖算子序列的研究[J].中國管理科學,2007,15(4):89-92.
[23]謝乃明,劉思峰.強化緩沖算子的性質與若干實用強化算子的構造[J].統計與決策,2006(4):9-10.
[24]關葉青,劉思峰.強化緩沖算子序列與m階算子作用研究[J].云南師范大學學報,2007,27(1):32-35.
[25]關葉青,劉思峰.基于輔助函數的強化緩沖算子及其作用[J].統計與決策,2007(6):20-21.
Data Pre-Processing Techniques for Maintenance Cost Prediction of Ship Equipment
Xie Li1 Wei Ru-xiang1 Yu Wei-zong2 Li Li3
1 Department of Economic Management,Naval University of Engineering,Wuhan 430033,China
2 Finance Affair Office of the 92848thUnit of PLA,Dalian 116041,China
3 The 91224thUnit of PLA,Shanghai 200235,China
To collect data precisely and adequately is key concern to the maintenance cost prediction of ship equipment.This paper incorporates pre-processing techniques to deal with the cost prediction-related data.As a wide range of data will affect the prediction, data are to be categorized into different groups, such as basic data, operational data, maintenance data and macroeconomic data.However, by what means data acquisition can be achieved efficiently should be confirmed.The original data from different sources will likely to be of noise, default or abnormity and discrepancy.Various pre-processes are needed to handle these data respectively.The pre-processed data may provide a good basis for the maintenance cost prediction and improving the efficiency.
ship equipment; maintenance cost prediction; data pre-processing
U672.7
A
1673-3185(2010)06-87-06
10.3969/j.issn.1673-3185.2010.06.018
2009-09-07
海工自然科學基金(HGDQNJJ041)
謝 力(1980- ),男,博士研究生。 研究方向:系統工程,裝備經濟管理。E-mail:xieli_hg@ yahoo.com.cn