(中國人民解放軍92785部隊,河北秦皇島066200)
數學模型通常以某個單元為因變量,選取一些影響該單元的因素為自變量,用數學建模方法逼近自變量與因變量之間的關系。其中一個重要問題就是自變量的選擇,一方面為獲取全面信息,希望模型中包含的自變量盡可能多;另一方面獲取很多自變量會導致增加觀測費和實際操作難度。因此希望模型中包含的影響因素是最重要的且盡可能地少,即要在眾多的影響因素中找出對因變量具有重要影響的自變量,并排除各自變量之間的多重相關性[1]的干擾,簡化數學模型。
對于裝備費用模型的研究而言,其首要任務就是要確定費用與裝備的哪些影響因素有關。灰色關聯分析[2]的基本任務是分析和確定各因素間的影響程度或各因素對主行為的貢獻測度。因此,可以利用灰色系統理論中的關聯度分析技術,以確定費用模型中各影響因素對裝備費用的影響度。
由于灰色關聯分析法的分辨系數[3]、關聯度界值都是人為確定的,當部分自變量與因變量之間的關聯度相差較小時,對于它們之間能否相互替代,無法作出定性的判斷。因此,考慮應用模糊聚類算法對經過灰色關聯分析篩選出的影響因素進行聚類分析,進而再結合灰色關聯度[4]判斷出變量間的相互替代關系,排除多重相關性的干擾??紤]到各型裝備的研制時期不同,為強調近期研制裝備的重要性,在聚類分析中加入了偏好的思想,即對不同型號的裝備參數,賦予不同的加權值。
灰色關聯分析是灰色系統理論的重要分支,自鄧聚龍教授提出以來,得到了迅速發展和廣泛的應用。灰色關聯度理論是根據因素之間發展態勢的相似或相異程度,即“灰色關聯度”來衡量因素間關聯程度的一種分析方法。如果兩者在發展過程中相對變化基本一致,則認為兩者關聯度大;反之,兩者關聯度就小。關聯度分析根據曲線之間的相似程度判定曲線所代表的參數之間的相關關系,關聯度大的參數,表示曲線相似程度高,故相互之間可以代表;關聯度小的參數之間獨立程度高。
費用建模時,可以通過關聯度得出各影響因素同費用之間的關聯度,關聯度大則表明該因素對費用有較強的影響,關聯度小則表明該因素對費用影響程度較小,即應該刪去?;疑P聯方法具有原理簡單、易于掌握、計算簡單、排序明確、對數據分布類型及變量之間的相關類型無特殊要求等特點,故具有較高的實際應用價值。
設X0=x01,x02,…,x0n為系統行為特征參考序列,且X1=x11,x12,…,x1n,X2=x21,x22,…,x2n,Xm=xm1,xm2,…,xmn為系統行為特征比較序列。
首先對各數列進行無量綱化處理,令xij為第i個樣本的第j個指標數值,標準化數據變換的方法為

式中,x′ij為標準化變換后的數據,xij為原始數據,經過這樣的變換后,使得每個變量的均值為0,而方差為1,且消除了量綱的影響。
應用式(2)將數據轉化到[0.1,0.9],可以獲得新的數據表。

應用無量綱化的數據進行分析,則定義Xi與X0的關聯度為

式中,

灰色關聯度γ(X0,Xi)∈(0,1]表示了序列Xi與X0中的數據變化之間的相似性。Xi與X0的關聯度越大,則X0中數據的變化情況和Xi中數據的變化情況越相似,當關聯度為1時,X0中數據的變化情況就能代表Xi中數據的變化情況。
聚類是一種常見的數據分析工具,簡單地說,就是將物理或抽象對象的集合分組成為由類似的對象組成的多個類或簇的過程。由聚類所生成的簇是一組數據對象的集合,具有同一個簇中的對象彼此相似,不同的簇中的對象相異的特點[5]。
傳統的聚類分析是一種硬化分,它把每個待處理的數據對象嚴格地劃分到某個類中,具有“非此即彼”的性質,因此這種分類的類別界限是分明的。而實際上大多數的對象并沒有嚴格的屬性,它們在類屬方面存在著中介性,這種硬化分并不能真正反映對象和類的實際關系,而模糊集理論為此提供了有力的分析工具。模糊數學是采用嚴格的精確的數學手段來處理“模糊”現象以達到消除“模糊”的一門數學。實際上它是人類認識能力的深化和精確的反應。大量的事實表明許多事物過分追求精確反而使結果更模糊;相反,適當的模糊處理反而達到更精確的目的。其關鍵在于如何尋求適當的數學語言來描述事物的模糊性。在聚類時引入模糊邏輯的概念,應用模糊數學方法進行聚類分析,就是模糊聚類分析[6-8]。模糊聚類擴展了傳統聚類的思想,根據客觀事物間的不同特征、親疏程度和相似性等關系,通過建立模糊相似關系對客觀事物進行分類。通過模糊聚類分析,各特征量被分為若干類,每個特征量屬于且僅屬于其中的一類。
模糊聚類分析方法大致可分為以下四類:譜系聚類方法、基于等價關系的聚類方法、圖論聚類法和基于目標函數的聚類方法。各種方法都有其優缺點和適用范圍,聚類結果取決于所使用的方法和所依賴的聚類準則。
常用的模糊聚類算法是基于等價關系的模糊聚類分析。
設有n個樣本集:X=[x1,x2,…,xn],每個樣本xi有m個特征指標,即樣本xi可以表示為xi=[xi1,xi2,…,xim]T,i=1,2,…,n。
基于模糊等價關系聚類分析的具體步驟如下:
1)數據標準化處理
數據標準化處理是將各基準單元的統計量數據進行無量綱化預處理,以便消除量綱。經過相關處理之后,樣本的各特性指標值均落在區間[0,1]中。
2)構造模糊相似關系矩陣
應用主觀評定法、夾角余弦法、相關系數法、距離貼近度法、最大最小法等方法,這里選用最大最小法:

可以獲得模糊相似矩陣

顯然,R具有自反性,即rii=1,又具有對稱性,即rij=rji,但不具備傳遞性(R·R?R),從而不是模糊等價關系,不能用來進行模糊聚類分析,還需對相似矩陣進行傳遞閉包運算。
3)構造模糊等價矩陣
令R?為包含R的最小傳遞閉包,對一個相似矩陣R求其傳遞閉包的方法是平方法,即R2=R?R,R4=R2?R2,…。
用上述方法在有限步后便可求得R?=R2k=Rk,即得到模糊等價矩陣。平方自合成法構造傳遞閉包,至多只需要log2m+1步即可實現,其中m為模糊相似矩陣維數。
4)模糊聚類
對模糊等價矩陣R?,給定不同的置信水平λ,當λ=1時,各特征量自成一類,而后對λ每取一個水平對矩陣R?中的元素按下式進行一次代換,應用λ截集的特征函數:

它表示,論域U中的元素,凡對模糊集~r的隸屬度大于或等于λ的就屬于rλ?,否則就不屬于rλ?。
經過上述模糊處理變換之后,可以得到一個普通的等價關系,應用系統聚類分析法可以進行聚類分析。
為了強調近期裝備對費用預測的重要性,在進行模糊聚類分析時,首先針對每型裝備分別建立模糊相似關系矩陣:

式中,Rk(k=1,2,…,n)為第k型裝備的模糊相似矩陣。
其次,為每型裝備賦予不同的權值[9-11]:

式中,wk(1≤k≤m)為應用第k型裝備的權值,0≤wk≤1,
通過式(8)和式(9)可構造裝備的模糊相似矩陣R:

最后,利用模糊相似矩陣R進行進一步的運算獲得模糊等價矩陣。
實際應用中根據具體問題的特點,選擇不同的λ水平,即可得到相應的分類。隨著λ由1變為0的過程中,其對應的λ截陣確定的分類由細變粗,逐步回歸,得到動態的聚類圖。
就裝備費用模型而言,有些影響因素雖然存在較嚴重的多重相關性,卻都是費用模型中不可缺少的變量,一旦被篩選掉就會給模型意義的解釋帶來困難,甚至無法解釋;同時,許多變量之間的關聯度相差很小,舍去一部分就等于損失了這部分的信息。雖然由于影響因素的減少可以簡化費用模型,但也會影響模型的精度?;谔卣骷訖嗟哪:齽討B聚類和灰色關聯相結合的特征變量篩選模型就是在確保模型精度的情況下進行簡化。
在使用基于特征權值的模糊動態聚類法對各影響因素進行聚類分析時,還要同時參考各影響因素同魚雷壽命周期費用的灰色關聯度。針對不同的情況選取不同的λ值,并遵循以下原則:
1)在同一聚類組中去除影響因素時,排除與費用相關度較小的影響因素,保留與費用相關度較大的影響因素;
2)若同一聚類組中各影響因素同費用的相關度無明顯差別時,與費用相關度較小的影響因素,可以選取較大的λ值;與費用強相關的影響因素,越需要我們謹慎判斷,應選取較小的λ值。
為論證上述方法的實用性,采用某型裝備的費用模型進行驗證。x0為某同類型裝備的累積平均費用(萬元),收集到與該型裝備累積平均費用有關的參數有:x1為裝藥量(kg),x2為裝備長細比,x3為裝備質量(kg),x4為航速(kn),x5為航程(km),x6為裝備體積(10-3m3),原始數據如表1所示。

表1 原始累積平均費用 萬元(初始財年)
首先應用式(1)和式(2)對各組數據進行無量綱化處理,將各組數據均轉換到[0.1,0.9]范圍內。則可獲得標準化累積平均費用,如表2所示。

表2 標準化累積平均費用 萬元(初始財年)
應用灰色關聯度分析法,分別計算出表2中各變量同某型裝備的累積平均費用變量之間的灰色關聯度,并進行排序,排除關聯度相對較小的變量,獲得影響裝備費用的重要變量。
1)求取各參數與累積平均成本無量綱化之差

2)可求得兩極差

3)各參數的關聯度系數
取分辨系數ρ=0.50,則各參數與累積平均成本的灰色關聯度為:r1=0.782 5,r2=0.551 9,r3=0.819 0,r4=0.783 3,r5=0.661 3,r6=0.551 7,則r3>r4>r1>r5>r2>r6。
由結果可以看出,在裝備裝藥量、裝備長細比、裝備質量、航速、航程、裝備體積這6個影響因素中,相關因素同裝備費用的敏感度依次是裝備質量、航速、裝備裝藥量、航程、裝備長細比、裝備體積。
各因素同裝備費用的關聯度均大于0.5,且部分影響因素的關聯度相差很小。為了確定各影響因素之間是否存在多重相關性,我們使用模糊聚類的相關理論對各影響因素進行分析。
考慮應用模糊聚類理論對裝備裝藥量、裝備質量、航速、航程、裝備體積和裝備長細比六個特征向量進行聚類分析。
(1)使用表2中處理過的數據,應用式(5)所述的最大最小法分別求出7型裝備的模糊相似矩陣Rk(k=1,2,…,7)。
應用偏好的思想,賦予近期研制的裝備費用較大的權值。已知1~7型裝備是按照研制時間順序排列的,令w=(0.1,0.1,0.1,0.1,0.2,0.2,0.2)。利用式(10)可以得到7型裝備針對6型影響因素的模糊相似矩陣:

(2)通過模糊傳遞閉包法,可得

則R8=R4,即獲得模糊等價矩陣的R?:

從模糊聚類動態分析圖[12](圖1)中可以看出,裝備裝藥量、裝備質量這2個變量之間的多重相關性最強,航速與它們的多重相關性次之,而其他變量基本相互獨立。這從前面所討論的灰色關聯分析法獲得的結果可知,裝備質量、航速、裝備裝藥量這3個變量是影響該型裝備費用的最重要的變量,為了提高預測模型的精度,結合兩種分析方法,這里只排除裝備裝藥量這一影響因素。
應用裝備長細比、裝備質量、航速、航程、裝備體積這5個影響因素可建立較精確的裝備費用預測模型。

圖1 模糊聚類動態分析圖
在進行建模時,模型參數的選擇對模型的建立至關重要。通過建立基于特征權值的模糊動態聚類模型,突出了近期研制裝備的重要性,對影響因素進行聚類分析,排除影響因素間多重相關性的干擾。根據灰色關聯度的大小分析對眾多影響因素進行排序,找出主要影響因素,排除關聯度相對較小并同其他因素關聯度差異明顯的影響因素,減少次要影響因素對估算結果造成的干擾。保證了在參數費用模型中只剩下幾個對主變量裝備費用影響較大、相互獨立的影響因素,從而在保證計算精度的前提下使裝備費用模型簡化。在其他的模型特征變量選擇中,該方法具有普遍應用價值。
[1]ROBERTO V,GEORG G,MANFRED S.Functional Principal Component Analysis of FMAI Data[J].Human Brain Mapping,2004,24(2):109-129.
[2]劉思峰,楊英杰,吳利豐,等.灰色系統理論及其應用[M].7版.北京:科學出版社,2014.
[3]管維樂,劉健,申卯興.高超聲速目標類型的灰色關聯識別模型[J].空軍工程大學學報(自然科學版),2014,15(5):38-41.
[4]關欣,孫祥威,曹昕瑩.改進的K-Means算法在特征關聯中的應用[J].雷達科學與技術,2014,12(1):81-85.
GUAN Xin,SUN Xiangwei,CAO Xinying.A Novel Algorithm for Feature Association Based on Gray Correlation Clutter[J].Radar Science and Technology,2014,12(1):81-85.(in Chinese).
[5]周世波,徐維祥,柴田.基于數據加權策略的模糊C均值聚類算法[J].系統工程與電子技術,2014,36(11):2314-2319.
[6]汪培莊.模糊數學與優化[M].北京:北京師范大學出版社,2013.
[7]蔣德瓏,李盛,王克文,等.模糊聚類分析系統的研究與實現[J].計算機工程與科學,2011,33(12):121-125.
JIANG Delong,LI Sheng,WANG Kewen,et al.Research and Implementation of a Fuzzy Clustering Analysis System[J].Computer Engineering and Science,2011,33(12):121-125.(in Chinese)
[8]RUSPINI E H.A New Approach to Clustering[J].Information and Control,1969,15(1):22-32.
[9]郭東,胡亮,郭冰心,等.基于應用偏好模糊聚類的網格資源選擇[J].儀器儀表學報,2008,29(7):1403-1407.
GUO Dong,HU Liang,GUO Bingxin,et al.Grid Resource Selection Based on Preference-Based Fuzzy Clustering[J].Chinese Journal of Scientific Instrument,2008,29(7):1403-1407.(in Chinese)
[10]孔鵬,楊軍,胡國旗.最優指數加權積累相關包絡對齊方法研究[J].雷達科學與技術,2010,8(6):532-537.
KONG Peng,YANG Jun,HU Guoqi.Research on Accumulation Correlation Envelope Alignment with Optimum Exponential Weighting[J].Radar Science and Technology,2010,8(6):532-537.(in Chinese)
[11]劉赫,劉大有,裴志利,等.一種基于特征重要度的文本分類特征加權方法[J].計算機研究與發展,2009,46(10):1693-1703.
[12]盧紋岱,朱紅兵.SPSS統計分析[M].5版.北京:電子工業出版社,2015.