[摘要] 本文從各種評價模型出發,提出了權重對于不同模型均具有重要意義,運用信息熵確定權重是行之有效的,本文介紹了信息熵確定權重的方法。
[關鍵詞] 信息熵不確定性概率權重
對于任何多指標的綜合評價模型,確定指標權重是模型中重要的一步,有時也是最困難的一步,指標權重不同有可能導致評價結果的不同。確定權重的方法通常有兩種。一種稱作主觀型:采用專家賦值,用統計專家組打分數,把指標得分率作為指標權重;或是按指標重要性進行兩兩比較,按1—9標度求取判斷矩陣,再用層次分析AHP求排序向量,則求得的歸一化后的排序向量的各個分量就是相應的指標權重。另一種是相對客觀型的方法,不是采用專家打分,而是根據實測數據,在數據分類的標準已知條件下,通過數據挖掘確定指標權重。前者好處是簡單易行,可充分應用專家經驗體現用戶需求;不足處是隨意性比較強,當專家的判斷與實際相差較大時,將導致錯誤的評價結果。后者雖相對客觀,但由于信息的不完整性,數據的波動和不準確性,經數據挖掘得到的知識有可能偏離真實的結果,也能導致錯誤的分類。總之,不管是主觀型還是相對客觀型的權重確定方法,都不可能完全真實地體現指標權重,都是一種近似地表達,從這個角度講,只要是分類或識別總不可避免出錯,即識誤率和拒識率在所難免。實際中只求識誤率和拒識率盡可能地小。實際應用中,兩種確定權重的方法常結合使用,特別是定性指標和定量指標并存時,通常無法避免主觀型權重賦值,對兩種權重賦值方法,不應該肯定一個,否定另一個,事實上二者是相輔相成的。我們可以嘗試用一種相對客觀型方法,即信息熵來確定權重。
一、什么是熵
從有k個等概結局的實驗著手研究。
顯見該實驗的不肯定性程度由k決定,k越大,不肯定性程度越大。k=1,實驗不是隨機的;k=2,k=3,…,k較大時,即有較大數目的不同結局,預言實驗結果就難了。
不肯定性程度的特征:是k的函數且滿足:k=1時為0;k的單增函數,記作。
看兩個獨立實驗,α:有等概的k個結局,β:有等概的個結局,現在考慮α,β這兩個實驗同時進行,所組成的復合實驗αβ,在這里對α的不肯定性,還要增加β結局的不肯定性,我們自然認為:實驗αβ的不肯定性程度等于α,β這兩個實驗所規定的不肯定性程度之和。因實驗α,β有個結局(等概),于是, 應滿足:。
這個條件使我們想到,若用 作為有k個等概結局的不肯定性程度的度量則同時滿足:
在此,對數以底為e,2,10,a是無關緊要的,這僅僅意味著不肯定性程度的度量單位的簡單轉換,在工程中總用2為底,這意味著在這里是取有兩個等概結局的實驗的不肯定性(擲硬幣)作為不肯定性程度的度量單位。這種單位叫做二進制單位。
但今后,總是采用10進制:即取有10個等概結局的實驗的不肯定性作為不肯定性程度的度量單位,稱作10進制單位。10進制單位是二進制的倍。
有k個等概結局的實驗,其概率表如下:
若實驗總的不肯定性等于,則可認為有概率的每個結局的不肯定性程度應該等于。即結局的概率乘以概率的對數值是該結局的不肯定性度量。
在此,k越大,不肯定性程度越大。符合人們對結局不肯定性度量的理解。
當實驗結果有如下形式的概率表如下:
自然認為結局A1,A2,A3的不肯定性程度分別為:對于有概率表如下:
的實驗α,這種最一般的情況,由前述可認為具有概率為的結局的不肯定程度是,則認為試驗α不肯定性程度的度量為K個結局的不肯定性度量之和:
稱數為實驗 的熵。則熵定量描述了整個試驗α的總體不肯定性程度。
熵的性質
1.當且僅當中有一個為1,其余全為0時,才有=0,事實上,這時實驗α是確定性實驗,根本不存在不肯定性:Ai中之一為必然事件(概率為1),其他的結局 為不可能事件,當然 是確定性實驗,不存在任何不肯定性。
2.當時,即每個結局的概率均為,這時實驗α是最不肯定的,記為。α0顯然有:H(α0)=logk可以證明對任何隨機實驗(有k個結局)當且僅當時,i=1,2….k時,取到最大值H(α0)=logk。證明略,其他性質略。
二、 用熵確定權重的方法
設樣本關于某種屬性的觀察值xij做樣本xi屬于k個類別的測度為:,滿足:即{uijk}具有某種概率性質。此時熵為:,當=時,H=10gk最大…即不肯定程度最大,即取值特別分散,從識別角度看,把隨機試驗的各種結局看做是樣本類別,則屬性使樣本xi處于k個類別中的任何一類的測度都是,可見,屬性對識別樣本xi的分類不起作用。反之,若中有一個為1,其余為0,則H=0,這時對應的實驗沒有不肯定性,即實驗是確定的;反映在識別上,則表明j屬性重要,因為它把樣本xi確定地劃分為某一個類別(k個別別中的一個)。如此看來關于第k個類別的取值越集中,即H越小,則指標對識別x的類別越重要,若令, 顯然0≤vij≤1,并且vij越大,H越小,即相對應的屬性在識別樣本xi的分類比較好,當vij=1,說明uij中有一個為1,其余為0,這時屬性的觀測值使樣本x處于第k1類的測度為1,處于其他類的測度為0,即把樣本xi確定的劃分為K類,沒有不確定性,說明對識別xi的分類具有最大重要性;若vij=0,即每個uij=,即把樣本xi劃分到各類去的測度都相同,說明對于樣本x的分類不起作用,c可作為冗余屬性去除。所以,uij的取值越集中,屬性對識別樣本的類別起的作用越大,令,則這樣,uij越大,對識別樣本類別越重要,故向量可作為屬性集的權重向量(識別樣本x類別重要性大小向量)。由上述討論看出:屬性的權重是由樣本xi關于的觀測值xij使樣本xi屬于各類的測度uijk(k=1,2…K)來確定的,故的權重與樣本xi有關;或說同一屬性關于不同的樣本xi具有不同的權重,因此,權重不是絕對的,是相對于樣本xi的相對權重,這是“變權的觀點”,這一點直觀上容易理解,比如同一條河流的各分段上的某種污染物的含量可以有很大的不同,若在水質評價中對不同河段上的同一種污染物用同一個權重去表示,顯然是不合理的。
上述討論中,只涉及結局概率,而不涉及結局內容,故有如下結論:熵由結局概率決定而與結局內容無關。
由α,β描述的兩個隨機變量的概率表看出:
1.兩個實驗的不肯定性程度是一樣的。
2.但是,兩個實驗存在本質差別,應該用不同于熵的完全另外的數值特征去估計,如均值,方差等。
所以熵 是由H(α)是由p(A1),p(A2)…p(Ak)完全確定與結局的具體內容無關,故在利用信息熵去說明什么問題時,應用背景是:只考慮實驗的不肯定性,不涉及結局的具體內容,并且熵是由各結局的概率完全確定。