摘 要:給出了一種適用于多種評價數據源的主成份分析方法模型,該方法模型以變換信息損失最小為準則選擇對應不同的無量綱處理方法,以一定的累計方差貢獻率為閥值確定評價主成份,依據主成份與評價指標個數關系自適應處理待評價數據和生成評價結果,從而達到了提高評價精確度,降低非線性樣本數據維數的目的。最后,將提出的評價模型應用于汽車分隊安全評價中,并分析了評價結果,結果表明了提出模型可有效處理各種線性和非線性樣本指標的評價問題。
關鍵詞:自適應;主成份分析;汽車分隊;安全評價
引言
汽車分隊安全是影響部隊軍交運輸保障效能的關鍵因素,不僅影響著部隊的安全穩定,更關系到部隊的保障力、戰斗力的形成。汽車分隊安全評價是對影響一個分隊安全的各項因素分別考核打分,然后利用一定的方法形成綜合評價結果,來反映該分隊的總體安全穩定程度。研究汽車分隊的安全評價方法對于提高擔負軍交運輸任務部隊的管理能力和安全穩定水平具有重要意義。
在安全評價領域,目前國內外學者提出了很多統計學概念和評價方法,代表性的有模糊評價理論[1]、層次分析法[2]、灰色關聯度[3]、聚類分析法[4]、主成份分析法等。其中,主成份分析法利用降維的數學思想,將原始的多個指標重新組合成一組新的相互無關的綜合指標,同時根據需要從中選擇較少的幾個綜合指標,盡可能反應原來指標的信息,從而將安全評價中相互關聯的復雜的指標簡單化處理,提高了評價的效率。然而,在傳統的主成份分析法中存在一些不合理的、主觀的處理方法,嚴重影響了評價的效果。針對于此,很多學者提出了眾多改進的意見,文獻[5]針對傳統方法對原始數據標準化處理損失信息較多的問題提出了均值化處理的思想。文獻[6]討論了主成份分析法中樣本信息損失的問題,并提出了改進意見。文獻[7]分析了三種無量綱化處理方法和主成份選取問題。文獻[2,4]分別將主成份分析法與層次分析法、聚類分析法等相結合,提出了綜合的評價方法,達到了一定的效果。
雖然眾多學者對主成份分析法用于統計評價中存在的諸多問題進行了論證,并提出了改進建議,但是這些改進大多是針對該方法的某一個應用環節進行的優化,沒有形成一個通用的評價模型,本文在此基礎上,給出一個自適應的主成份分析評價模型,在評價流程的關鍵環節充分考慮了各種可能數據源特征,并對應采取了不同的處理辦法,從而使得評價結果更加真實,更能反應客觀實際。最后,文章在汽車分隊安全評價中對給出的模型進行了應用,并給出了汽車分隊安全管理的幾點意見。
1 問題模型
2 自適應主成份分析法
自適應的主成份分析法是在原有的主成份分析法基礎上,通過在原始數據無量綱化、相關系數矩陣求解、主成份確定等環節采用多種可選擇的優化算法,來提升算法在各種領域數據源評價的自適應性,具體流程見圖2。該算法的優點為可減少數據無量綱化處理的信息損失,提高非線性數據樣本降維效果,有效完成各種指標評價任務。
2.1 原始數據的無量綱化自適應處理
主成份分析對原始數據的無量綱化處理是多指標綜合評價的基本要求。目前廣大學者提出的處理方法主要包括:數據標準化、數據均值化、極差正規化和非線性處理等。但是,無論采用什么方法都會有信息丟失,因為無量綱化中相似變換改變了原始數據結構,同時改變了變量的差異信息。這里在文獻[7]中對常用變換方法處理前后的方差和相關系數分析的基礎上,聯合非線性中心對數變換處理方法,給出一個自適應的處理模塊,以信息損失最小為準則來選擇無量綱化處理的具體方法,提高評價的準確性。
如果選擇以上三種變換的一種使得選擇的主成份個數偏多(超過指標數的一半),則需要對原始數據進行非線性變換,一般常采用的非線性變換包括:對數變換、對數-中心變換、根值變換等,通過非線性變換能夠明顯提高數據的降維效果,本文以對數-中心變換為例進行算法描述。
2.2 主成份的自適應選取與分析
目前對于主成份個數的選取主要有兩種觀點。一是只用第一主成份,因為第一主成份能夠最大限度地反映樣本間的差異,是概括指標差異信息的最佳線性函數。另一種觀點是不僅要充分重視第一主成份,而且也要顧及其它主成份在綜合評價中所起的作用,主要做法是先按累計方差貢獻率不低于某一閥值(比如85%)的原則確定前幾個主成份,然后以每個主成份各自的貢獻率為權數將選定主成份線性加權求和來綜合評價樣本的優劣。后一種處理充分顧及了各方面的信息,而且具備以第一主成份綜合評價指標的優點。但是第二種方法仍存在很多問題,在有些多指標綜合評價實踐中,為了滿足累計方差貢獻率不少于85%的原則,就不得不取超過半數指標的主成份,這時失去了主成份分析法的降維效果明顯的優勢。
造成傳統的主成份分析法降維效果不明顯的原因主要是相關系數是反映指數間線性相關程度的,而在現實生活中,指標間的關系也有呈非線性關系的,如果這時非要用線性關系去反映,則會得到不正確的結論。據此,我們提出自適應主成份選取算法,該算法在主成份選取階段,首先檢測第一主成份的貢獻值是否足夠大(大于等于85%),如果第一主成份方差貢獻率足夠大,則選擇第一主成份作為評價對象,反之,如果第一主成份方差貢獻率不足,則選擇累計方差貢獻率達到某一閥值的多個主成份,且若選取主成份個數大于半數指標數,則算法返回重新對原始數據進行非線性變換。
2.3 自適應算法步驟
下面對給出的自適應主成份分析模型的具體算法步驟描述如下:
3 應用實例
下面將利用提出的自適應算法對汽車分隊的安全進行評價。影響一個汽車分隊的安全穩定的因素有很多,這里將綜合因素概括為人的因素、車的因素和管理因素三個方面:
(1)人的因素:主要包括分隊駕駛員的人均駕齡、累計駕駛里程以及年齡構成等。人是車輛駕駛的主體,駕駛員的駕駛經驗和心理成熟度等都對任務中面對事故風險時是否能恰當處置有很大決定作用。
(2)車的因素:主要包括車輛裝備服役年限、車輛無事故率以及車輛保養、安全技術檢測投入等。充分地保護和正確使用車輛可以延緩車輛壽命,減少事故發生的幾率。
(3)管理因素:主要包括訓練及安全管理方面采取的措施和取得的成績,如汽車分隊人員日常訓練考核結果、參與演習經驗、定期開展安全教育情況以及汽車分隊的紅旗車駕駛員獲獎情況等。分隊的日常教育和訓練演習是提高其任務執行能力和檢驗分隊安全措施是否到位的重要途徑。
這里選取4個汽車分隊,對10個具體評價指標進行模擬考核,具體成績見表2。
若對抽測樣本在傳統主成份分析法中進行評價,則求得其特征值及對應方差貢獻率如表3所示,由于該類型數據源指標間相關程度較低,相關系數矩陣求得的多個特征根差別較小,導致累計方差貢獻率不大,按照累積方差貢獻率達到85%以上的要求,就應該選取6個主成份。然而問題中的原始指標只有10個,但為了滿足累積方差貢獻率不得不選取超過半數指標的主成份,降維效果差。
為此,我們在自適應算法中對該類數據源進行評價,在算法Step1中求得,A=14,B=0.033,C=3.087,比較發現A值最大,所以采用標準化無量綱處理,同時由相關矩陣求特征值。然而在Step6中檢測發現主成份選取個數大于指標數的一半,因此返回Step2對原始數據進行步驟(4)對數-中心變換,再次計算對應協方差矩陣的特征值,求得第一主成份方差貢獻率為0.55,小于0.85,所以求累計方差貢獻率滿足條件的主成份個數,結果為3,小于指標數的一半,降維效果明顯。利用特征值對應的特征向量作為求主成份的加權系數,得第p個評價分隊的三個主成份依次為:
從最終評價結果可以看得出四隊的綜合成績是四個隊中最好的,三隊緊隨其后,好于一隊和二隊。這主要得益于四隊駕駛員隊伍平均駕齡較長,駕駛經驗豐富,此外在平時的日常訓練和安全防范資金投入等方面都要好于其它三個分隊。
4 結束語
本文在總結傳統主成份分析法的基礎上,針對傳統主成份分析法不能全面評價各種應用問題的情況,給出了一種自適應的主成份分析模型,該方法模型在原始樣本數據處理、主成份選取、評價結果確定等方面根據不同數據特點進行不同處理,提高了數據信息的損失率,增加了數據降維效果。最后,本文在汽車分隊安全評價領域的非線性數據評價中對提出的自適應算法進行了驗證,結果證明了提出方法的有效性。
參考文獻
[1]張軍,劉志鏡.基于模糊理論的行人異常動作檢測[J].模式識別與人工智能,2010,23(3): 421-427.
[2]李瓊,周建中.改進主成份分析法在洪災損失評估中的應用[J].水電能源科學,2010, 28(3): 39-42.
[3]馬麗葉,盧志剛,常磊,等.基于灰色關聯度的輸電網經濟運行指標體系研究[J].電力系統保護與控制,2011, 39(22):22-26.
[4]徐雅靜,王遠征.主成份分析應用方法的改進[J].數學的實踐與認識,2006,35(6): 68-75.
[5]葉雙峰.關于主成份分析做綜合評價的改進[J].數理統計與管理,2001,20(2): 52-55.
[6]劉長標,史金平.試論主成份分析法中樣本信息的損失問題[J].湖北大學學報(自然科學版),1996,18(2): 138-141.
[7]白雪梅,趙松山.對主成份分析綜合評價方法若干問題的探討[J].統計研究,1995,68(6): 47-50.
作者簡介:段鵬飛(1985,1-),男,蚌埠汽車士官學校裝備保障系汽車檢測教研室,助教。