余良武,郭文勇,黃家寧,伍哲,曹辰昊
(海軍工程大學(xué),武漢 430033)
綜合評價問題本質(zhì)上是多個指標(biāo)構(gòu)成的信息系統(tǒng)的決策問題,正確選擇評價指標(biāo)是決策準(zhǔn)確的基礎(chǔ)和前提。在綜合評價問題中,指標(biāo)體系初構(gòu)更多的是強調(diào)指標(biāo)的全面性,要求所選擇指標(biāo)能夠從多個角度全方位刻畫系統(tǒng),“求全而不求精”,因此存在一定程度的信息冗余。信息冗余一方面會增加指標(biāo)監(jiān)測和數(shù)據(jù)運算的工作量和成本,另外一方面還會因重復(fù)計算而給綜合評價結(jié)果的準(zhǔn)確性帶來負(fù)面影響,因此指標(biāo)的“全”和“精”是一對矛盾體,為了在二者之間尋求最優(yōu)平衡,需要采用合適的方法對評價指標(biāo)集進行約簡。指標(biāo)約簡是指標(biāo)體系從“全”到“精”的過程,也是綜合評價不可或缺的環(huán)節(jié)。本文系統(tǒng)地研究了目前常用的幾種指標(biāo)約簡算法的原理并對其應(yīng)用場合及優(yōu)缺點進行了綜述。
“屬性約簡”概念提法多見于粗糙集理論,是粗糙集理論的核心內(nèi)容之一,指在保持知識庫分類能力不變的條件下刪除冗余和不重要屬性,達到提取數(shù)據(jù)特征、簡化知識運算的目的[1]。應(yīng)用于綜合評價領(lǐng)域時,很多學(xué)者稱其為指標(biāo)篩選或指標(biāo)約簡[2-3]。延伸到粗糙集理論范疇之外,早期也有學(xué)者應(yīng)用統(tǒng)計學(xué)方法實現(xiàn)相似的功能,因此廣義的指標(biāo)約簡算法包括統(tǒng)計學(xué)方法和粗糙集理論兩大方面,如圖1所示。

圖1 典型指標(biāo)約簡算法
當(dāng)系統(tǒng)各指標(biāo)存在一定規(guī)模的較完備統(tǒng)計數(shù)據(jù)時,可應(yīng)用統(tǒng)計學(xué)方法進行指標(biāo)約簡,這也是粗糙集理論廣泛應(yīng)用前使用最多的指標(biāo)約簡和特征提取方法。主要思想是,通過分析統(tǒng)計數(shù)據(jù),判斷條件指標(biāo)之間或條件指標(biāo)與決策指標(biāo)之間的相關(guān)程度,進而通過一定的標(biāo)準(zhǔn)和方法刪除冗余指標(biāo)或構(gòu)造新的少數(shù)幾個不相關(guān)指標(biāo)。具體包括主成分分析法、因子分析法、極小方差廣義法、極大不相關(guān)法、灰色關(guān)聯(lián)分析法等。
主成分分析法(Principal Components Analysis, PCA)根據(jù)指標(biāo)間相關(guān)關(guān)系,通過線性組合,構(gòu)建線性無關(guān)的綜合指標(biāo)即主成分:
式中:Yi(i=1,2,…,p)為主成分;Xi(i=1,2,…,p)為原始指標(biāo),寫成矩陣的形式為
通過提取累積貢獻率達到一定水平,能夠反映原始指標(biāo)大部分信息的少數(shù)幾個主成分達到指標(biāo)約簡的目的;因子分析是主成分分析的推廣,可理解為主成分分析的逆問題[4],將各原始指標(biāo)分解為公共因子和特殊因子兩部分:
式中:Fj(j=1,2,…,m)為公共因子;εi為特殊因子。
寫成矩陣的形式為
同樣,通過抽取累積貢獻率達到一定水平的少數(shù)幾個公共因子達到指標(biāo)約簡的目的。因子分析中由于因子載荷具有不唯一性,相比于主成分分析法,能夠提高解釋能力。盡管如此,由于主成分分析法和因子分析法構(gòu)造了新的變量,這些新變量并沒有直接的物理意義,要對這些變量做出直觀解釋也是十分困難的。另外,主成分分析法和因子分析法所研究的指標(biāo)約簡大多存在于特征提取層面,能夠簡化后續(xù)數(shù)據(jù)處理和運算,但是必須以原始指標(biāo)測量值為基礎(chǔ),因此并未減少實際的指標(biāo)測量工作量。
廣義方差D(X)定義為X的協(xié)方差矩陣Cov(X)的行列式或者其他相應(yīng)函數(shù),能夠從整體上衡量指標(biāo)的分散性[5]。極小廣義方差指標(biāo)約簡算法的基本思想是:如果刪除某個指標(biāo)后條件廣義方差變化很小,則表明該指標(biāo)所包含的信息量在總體中占有很大份額,即具有很強代表性,因此,可根據(jù)條件廣義方差最小原則依次提取最具代表性的R個指標(biāo)作為約簡集。R值的設(shè)定沒有固定的理論依據(jù),一般根據(jù)評價者的主觀經(jīng)驗和需要設(shè)置,因此極小廣義方差法具有較強的主觀性。
極大不相關(guān)法以指標(biāo)間的相關(guān)程度為依據(jù),認(rèn)為和其他指標(biāo)相關(guān)程度較高的指標(biāo)所攜帶的信息可很大程度上由其他指標(biāo)描述,因此在約簡過程中可以刪除。具體過程為依次計算各指標(biāo)與剩余指標(biāo)的復(fù)相關(guān)系數(shù),剔除復(fù)相關(guān)系數(shù)最大的指標(biāo),重復(fù)操作,直到剩余預(yù)期數(shù)量的指標(biāo)。極大不相關(guān)法和極小廣義方差法類似,同樣也存在主觀性強的缺點。
灰色關(guān)聯(lián)分析法,定義了條件指標(biāo)的重要性測度和條件指標(biāo)之間的影響力測度,通過去重疊化計算條件指標(biāo)的絕對重要度,和約簡閾值比較,決定條件指標(biāo)是否進入約簡集[6]。該方法中約簡閾值的設(shè)置具有一定的主觀性,另外條件指標(biāo)重要度的概念是和決策指標(biāo)比較的結(jié)果,因此一般只適用于決策系統(tǒng),無法應(yīng)用于缺少決策指標(biāo)的信息系統(tǒng)。也有部分學(xué)者選擇最為重要的特定指標(biāo)來代替決策指標(biāo),在粗糙集指標(biāo)約簡方法研究中也有類似的做法,但是實際上這種做法的合理性有待商榷,決策指標(biāo)是所有條件指標(biāo)綜合作用的結(jié)果,是任何單一指標(biāo)無法替代的。
統(tǒng)計學(xué)指標(biāo)約簡算法常常結(jié)合聚類分析法和判別分析法使用,在進行指標(biāo)約簡前對所有指標(biāo)進行分門別類,一方面可減少約簡工作的計算量,另外一方面也保證了信息的全面性,這種做法和指標(biāo)體系層次構(gòu)造過程中所使用的思想是一致的。統(tǒng)計學(xué)指標(biāo)約簡算法通過挖掘數(shù)據(jù)本身蘊藏的信息,發(fā)現(xiàn)冗余并加以剔除,其優(yōu)點在于需要的先驗知識少,可以直接處理連續(xù)型數(shù)據(jù),無需離散化處理。但是,相對于基于粗糙集理論的指標(biāo)約簡算法,統(tǒng)計學(xué)指標(biāo)約簡算法的突出缺點是并不以保持知識庫分類能力不變?yōu)榍疤幔鄙偌s簡目標(biāo)導(dǎo)向,最終獲得約簡集的規(guī)模具有很大的主觀隨意性,常常出現(xiàn)約簡后分類能力改變的現(xiàn)象。
粗糙集理論(Rough Set Theory, RST)由波蘭的Pawlak教授于1982年提出,是一種研究不確定、不精確、不完備、不一致知識和數(shù)據(jù)的數(shù)學(xué)工具[7]。其應(yīng)用研究主要包括指標(biāo)約簡、規(guī)則獲取、基于粗糙集的智能算法等方面,目前已廣泛應(yīng)用于交通運輸、工業(yè)控制、社會科學(xué)、醫(yī)療衛(wèi)生和軍事等領(lǐng)域[8]。基于粗糙集理論的指標(biāo)約簡是一個N-P Hard問題[9-10],許多學(xué)者對其進行了研究,力求提高約簡效率,提出許多各具特色的算法。根據(jù)有無信息啟發(fā),可分為盲目刪除法和啟發(fā)式算法,盲目刪除法無任何信息指導(dǎo),依次刪除一個指標(biāo),檢驗知識庫分類能力是否改變,簡單易懂,但是存在組合爆炸問題,時間和空間復(fù)雜度都很高。啟發(fā)式算法以某種信息為啟發(fā),以指標(biāo)核為起點,選擇符合條件的指標(biāo)加入約簡集,能夠很大程度上減少搜索空間,降低時間和空間代價,是目前常用的方法[11]。
基于差別矩陣的指標(biāo)約簡算法由Skowron教授于1991年提出,差別矩陣在不同的文獻中也被稱為Skowron可分辨矩陣、可辨識矩陣、區(qū)分矩陣等。設(shè)知識表達系統(tǒng)S=(U,A,V,f),A=C∪D,其中C為條件指標(biāo)集,D為決策指標(biāo)集,且D≠Φ,差別矩陣MS為矩陣,元素mij定義為:
可以看出,mij為可以區(qū)分對象ui和uj所有條件指標(biāo)的集合。列出MS后可通過一定的運算規(guī)則求得相對約簡。對于基于差別矩陣的指標(biāo)約簡算法,為提高約簡效率,一直以來研究較多的是向核中添加指標(biāo)所依賴的啟發(fā)信息,其中包括指標(biāo)重要性[12-13]、指標(biāo)序[14]、指標(biāo)頻率等[15]。二進制差別矩陣可視為差別矩陣的延伸,基本原理大致相同,不同的是差別矩陣的構(gòu)建規(guī)則,二進制差別矩陣每一列對應(yīng)一個條件指標(biāo)ci,每一行對應(yīng)一個決策指標(biāo)不相同的對象對(up,uq),元素m((p,q),i)定義為:
由于使用了0、1編碼的二進制矩陣,相對于差別矩陣,空間復(fù)雜度至少降低一半,運算也更加簡便。基于差別矩陣的指標(biāo)約簡算法一般多用于決策系統(tǒng)的指標(biāo)約簡,在信息系統(tǒng)中的應(yīng)用較少。
基于信息熵的指標(biāo)約簡算法引用信息論中的信息熵概念,定義了指標(biāo)集合的信息熵、條件信息熵和互信息等概念,將條件信息熵或互信息作為啟發(fā)信息,以減少約簡過程中的搜索空間。其中比較有代表性的包括MIBARK算法、CEBARKNC算法和CEBARKNCC算法。MIBARK算法以核指標(biāo)集為起點,以條件指標(biāo)和決策指標(biāo)的互信息為啟發(fā),當(dāng)互信息相等時終止運算。CEBARKNCC算法和CEBARKNC算法均以決策指標(biāo)相對于條件指標(biāo)集的條件熵為啟發(fā),不同的是CEBARKNCC算法以核指標(biāo)集為起點,選擇使條件熵最小的非核條件指標(biāo)加入,而CEBARKNC算法以初始條件指標(biāo)集為起點,依次刪除條件熵最大的條件指標(biāo)。當(dāng)核值比靠近0時CEBARKNC算法具有較低的時間復(fù)雜度,當(dāng)核值比靠近1時MIBARK算法和CEBARKNCC算法具有較低的時間復(fù)雜度。
粒度化的思想首先由美國加州大學(xué)的L.A.Zaedh教授于1979年提出,主張知識是顆粒化的,通過把復(fù)雜問題化為“信息粒”,實現(xiàn)復(fù)雜問題簡單化,進而可利用粒計算理論中分而治之、多視角和多層次的思想方法處理信息和數(shù)據(jù)[16]。在后期的研究中L.A.Zaedh教授又指出人類的認(rèn)知基礎(chǔ)包括粒化、組織和因果關(guān)系3個基本概念,其中粒化是將整體分解為顆粒,組織是顆粒有機構(gòu)成整體,因果關(guān)系則涉及原因和結(jié)果的內(nèi)部聯(lián)系。從哲學(xué)角度看,粒計算是一種結(jié)構(gòu)化思想方法[17]。在粗糙集理論體系中,知識對應(yīng)的不可分辨關(guān)系表現(xiàn)出顯著的顆粒特征,因此粗糙集理論被視為除模糊集合理論和商空間理論外的另一粒計算所依賴的基礎(chǔ)理論[18]。基于粒計算的指標(biāo)約簡算法將知識粒度本身或其衍生出的重要性測度作為約簡過程中的啟發(fā)信息,能夠提高約簡效率,而且適用于完備或不完備信息系統(tǒng)的指標(biāo)約簡。
統(tǒng)計學(xué)指標(biāo)約簡算法的原理是挖掘數(shù)據(jù)本身蘊藏的信息,發(fā)現(xiàn)冗余并加以剔除,其優(yōu)點在于需要的先驗知識少,突出缺點是可能會出現(xiàn)約簡后分類能力改變的現(xiàn)象。基于粗糙集理論的指標(biāo)約簡算法優(yōu)點是以保持知識庫分類能力不變?yōu)榍疤幔哂絮r明目標(biāo)導(dǎo)向,缺點是大多適用于決策指標(biāo)集非空的決策系統(tǒng),同時計算量較大。具體到詳細(xì)的算法:主成分分析法和因子分析法構(gòu)造了無直接物理意義的新變量,難以做出直觀解釋,另外,這兩種方法所研究的指標(biāo)約簡大多存在于特征提取層面,能夠簡化后續(xù)數(shù)據(jù)處理和運算,但是必須以原始指標(biāo)測量值為基礎(chǔ),因此并未減少實際的指標(biāo)測量工作量。極小廣義方差指標(biāo)約簡算法R值的設(shè)定沒有固定的理論依據(jù),因此極小廣義方差法具有較強的主觀性,極大不相關(guān)法同樣也存在主觀性強的缺點。灰色關(guān)聯(lián)分析法約簡閾值的設(shè)置具有一定的主觀性,另外條件指標(biāo)重要度的概念是和決策指標(biāo)比較的結(jié)果,因此一般只適用于決策系統(tǒng),無法應(yīng)用于缺少決策指標(biāo)的信息系統(tǒng)。基于差別矩陣的指標(biāo)約簡算法要求決策指標(biāo)集非空,一般多用于決策系統(tǒng)的指標(biāo)約簡,在信息系統(tǒng)中的應(yīng)用較少。基于粒計算的指標(biāo)約簡算法將知識粒度本身或其衍生出的重要性測度作為約簡過程中的啟發(fā)信息,能夠提高約簡效率,而且適用于完備或不完備信息系統(tǒng)的指標(biāo)約簡。