范建平,趙 苗,吳美琴
(山西大學 經濟與管理學院,太原 030006)
數據包絡分析(DEA)是Charnes等[1]于1978年提出的,它是對一組具有多投入多產出的決策單元(DMU)進行相對有效性評價的非參數方法。傳統的CCR模型是基于自評的角度出發,這樣會高估決策單元的效率并很難做到完全排序[2],Sexton等[3]提出了DEA的交叉效率評價方法,該方法同時考慮了自評與他評,在一定程度上解決了CCR不能完全排序的問題,但是也存在一定的缺陷,即交叉效率不唯一。Doyle等[4]將二級目標的概念引入到DEA中,提出了仁慈型模型和進取型模型,目標函數為最小化或最大化其他所有決策單元構成的假想決策單元的效率分數,基于此Jahanshahloo等[5]在Doyle模型的基礎上將目標函數改為最大化或者最小化被評決策單元的效率分數。但是其所提的兩個模型都比較極端,認為所有的決策單元之間要么是競爭的關系要么是合作的關系,并且沒有給出在什么樣的情況下應該采取什么樣的策略的選擇依據。楊鋒等[6]提出了競合交叉效率模型,同時考慮了決策單元之間競爭與合作的關系,通過聚類分析將決策單元進行分類,如果分為一類則為合作關系,兩者之間采用仁慈型模型,反之采取進取型模型。關于交叉效率方法的改進有很多文獻,李春好等[7]參照TOPSIS的理想點構造方法對DEA交叉效率模型進行改進,范建平等[8]將熵和誤差傳遞引入到區間DEA中,Bagherikahvarin等[9]結合了DEA和偏好順序結構評估法(PROMETHEE II),對DEA的權重穩定區間進行約束,王慶等[10]給出了考慮相關系數的DEA共識度交叉效率評價方法。
本文在DEA交叉效率模型中加入了鄰域互信息和潛在信息函數,首先對區間數運用變量替換法分別利用進取型、仁慈型和競合交叉三個模型進行求解,這樣就避免了選擇策略的極端化問題,在競合模型中利用鄰域互信息進行分組,充分運用了數據本身的特征,分組更客觀。這里因三個模型其思路有差別,很有可能出現排名不一致或者不能完全排序的問題。之后利用潛在信息函數在處理小樣本數據時的優勢來對區間效率進行集結。潛在信息函數可以對現有的區間進行擴展,并且它認為處于中間位置的數值出現的概率更大,這也正與上述三個模型的原理相吻合,因為進取型和仁慈型認為所有的決策單元之間要么競爭要么合作,而競合模型同時考慮競爭與合作更符合現實,所以其模型效率值出現的概率更大。運用潛在信息函數求得每個決策單元在三個模型下的不同權重,運用OWA算子進行集結,求得每個決策單元的最終效率值,并且對決策單元進行排名。
1.1.1 傳統的DEA交叉效率
假定有n個決策單元,每個決策單元均有m種不同的投入和s種不同的產出,用xij表示第j(j=1,2,…,n)個決策單元的第i(i=1,2,…,m)種投入,用yrj表示第j(j=1,2,…,m)個決策單元的第r(r=1,2,…,s)種產出,對于被評價的決策單元DMUd,求解其效率Edd的CCR線性規劃模型如下:

其中,ωid(i=1,2,…,m)表示投入向量的權重系數,μrd(r=1,2,…,s)表示產出向量的權重系數。求解上述模型(1)得到決策單元DMUd的效率值Edd,以及最優投入權系數和最優產出權系數。求解模型n次就可以得到n個決策單元的自評效率值以及對應的最優權系數。在自評時通常會出現多個決策單元的效率值均為1,無法進行充分排序,于是Sexton等[3]提出了交叉評價的思想,利用DMUd的最優權重來評價DMUj的他評效率這樣就可以獲得n個決策單元的他評效率。對于任何一個決策單元,通過求解公式就可以得到每個DMU的交叉效率。
1.1.2 進取型模型和仁慈型模型
本文采用Jahanshahloo等[5]提出的對Doyle等[4]二級目標模型進行改進的進取型和仁慈型模型,其改進的仁慈型模型為在使自評效率分數保持最大的情形下,最大化被評決策單元的效率分數,對應的模型如下所示:

類似的,Jahanshahloo等[5]提出的改進的進取型模型是在保持自評效率最大的情況下,將目標函數改為最小化被評決策單元的效率分數。具體的模型為:

模型(2)和模型(3)中的Edd是DMUd自評效率分數,是由CCR模型(1)求得的,而Edj是他評效率分數,在求出1個自評效率分數和(n-1)個他評效率分數后通過求和平均就可以求每個決策單元對應的交叉效率分數。
1.1.3 競合交叉效率模型
楊鋒等[6]在Jahanshahloo等[5]模型的基礎上同時考慮決策單元之間競爭與合作的關系提出了競合交叉效率的模型,將決策單元利用聚類分析分為H類,設所有的決策單元的集合為Tt(t=1,2,…,H),若兩個決策單元為同一類則是盟友,采取合作的關系,否則為競爭關系的敵友關系。其思想是在保持自身效率最大的情況下最大化盟友的效率且最小化敵友的效率,線性規劃模型如下所示:

通過求解模型(4)就可以求得競合模型的他評效率分數,然后再用與1.1.2中相同的方法得到每個決策單元的交叉效率分數。
1.2.1 熵和互信息
在信息論中,互信息是用來測量一組樣本在兩個屬性上的相關程度的一種方法,常被用于特征選擇和決策樹問題中。互信息是由在Shannon[11]提出熵的概念之后出現的,它可以用來測量兩個隨機變量之間的相關性。下面給出熵和互信息的相關定義:
定義1[12]:A={a1,a2,…,an}是一組離散隨機變量,ai的概率為p(ai),A的熵定義為
定義 2[12]:如果B={b1,b2,…,bm} 也是一組離散隨機變量,那么A和B的聯合熵為logp(ai,bj)。
定義3[12]:A和B的互信息可以表示為MI(A;B)
1.2.2 鄰域互信息
Shannon熵和互信息很難估計數值型數據的概率分布,故其不能用來測量數值型數據的相關性,Hu等對Shannon熵進行了擴展,進而提出了鄰域互信息的概念,可以用來處理數值型數據,并將其應用到醫學鄰域[13],用于癌癥基因的選擇,并且從離散數據擴展到連續數據,同時Legg等[14]將鄰域互信息運用到眼底成像問題中。下面給出鄰域互信息的相關定義和性質。
定義4[12]:U是一個樣本集,xi∈?N,Δ是U上的一個距離函數。δ≥0,可以定義樣本x的鄰域為δ(x)={xi|Δ(x,xi)≤δ}。
定義5[12]:U為一個樣本集,S為該樣本的一個屬性,那么樣本xi在S上的鄰域表示為δS(xi)。xi的鄰域不確定為樣本集的平均不確定表示為
定義6[12]:R,S?F是兩個屬性子集,樣本集xi在S∪R子空間上的鄰域表示為δR∪S(xi),那么樣本集在屬性R和S上的鄰域互信息可以表示為NMIδ(R;S)=
在多屬性群決策問題中,不同的專家對若干個備選方案的評價結果就可以構成一個樣本集,該樣本中有的元素可能會相對較大或較小,賦予這些元素的權重往往較小,相對應地,處于中間位置的元素往往更貼近現實,權重更大,因此就有很多基于正態分布的方法[15]用來求對應的權重,因為通常當樣本數量較大時,基于正態分布的方法是合理的,但是當樣本集較小時,上述方法將不可行,就需要對已有的數據范圍進行擴展,于是就提出了潛在信息(LI)函數,本文通過現有數據及其在該組數據中所處的位置來求得該組數據的增長趨勢(IT)和下降趨勢(DT)以此對現有數據集進行擴展,并求得該組數據的偏好值,并通過該偏好值得到每個元素的權重。Chang等[16]利用潛在信息函數提高了小樣本的預測能力。而Wu等[17]利用潛在信息函數與OWA算子結合起來對區間樣本數進行排名。利用潛在信息函數求權重的計算步驟[17]如下:
步驟1:給定一組數據集X={x1,x2,…,xn},那么這組數據的范圍(range,R)表示為:R=xmax-xmin。
步驟5:求得擴展的上界(UB)和下界(LB):UB=xmax,其中表示集合中的
步驟6:這樣CT,UB和LB就形成了一個三角潛在信息函數,根據三角函數的性質,類似地,求出該組數據的潛在信息值νk(k=1,2,…,n):

步驟7:對νk進行歸一化處理,得到每個元素xk對應的權重
本文所提的區間DEA交叉效率評價方法中集合了鄰域互信息和潛在信息函數,具體的計算過程如下:
首先,基于投入產出的區間數用變量替換法根據模型(2)和模型(3)進行求解,分別得到仁慈型和進取型的效率分數。接著,基于定義6,得到決策單元兩兩之間在所有投入產出指標之間的鄰域互信息,然后對決策單元進行分組,再運用模型(4)求得競合交叉效率分數。在這里,已有的文獻均采用的是單值的鄰域互信息,本文的投入產出指標數據是區間值,提出的區間值的距離計算公式如下所示:

其次,將上一步求得的每個決策單元的三個效率分數看作一個樣本,由于競合交叉效率同時考慮了決策單元之間競爭與合作的關系,與進取和仁慈型模型相比,競合模型得到的效率值位于進取型和仁慈型模型區間內,更符合現實,所以其出現的概率較大。
然后,上述得到的三個效率分數可能會出現排名不一致或者不能充分排名的問題。于是需要對三個效率分數進行集結。而潛在函數在處理小樣本時相對比較合理,樣本較小時根據潛在信息函數對樣本進行一定的擴展,使數據的范圍擴大,根據1.3中相對應的公式可以得到數據的中心值(CT)、上限(UB)和下限(LB)以及中心位置(CT)、增長趨勢(IT)和下降趨勢(DT),中心值、上限和下限就形成了一個三角潛在信息函數,進而得到每個DMU的潛在信息值以及每個DMU所對應的三個模型的權重。
最后,根據OWA算子對每個決策單元的三個效率分數進行加權平均,就可以求得每個決策單元最后的一個集結的效率分數,并根據該效率分數進行排名。
本文采用Despotis等[18]用到的算例,包含5個決策單元,有兩個投入和兩個產出,并且投入和產出都是以區間值給出。具體數據見表1所示。

表1 原始數據
根據變量替換法[19]運用MATLAB軟件分別對模型(2)至模型(4)求解,得到5個DMUs的進取型、仁慈型、競合交叉效率分數,這里根據區間值鄰域互信息分組,得到決策單元1與3、3與4和3與5是合作的關系,其余的均是競爭的關系,結果如表2所示。

表2 三個模型下的效率分數和排名
從表2中可以看到進取型模型的效率分數均比較低,仁慈型模型的效率分數最高,而競合模型的分數處于中間位置,并且因分組中DMU2與其他DMUs均是競爭的關系,所以DMU2的進取型效率分數應與競合模型的效率分數相同,而通過模型的計算結果也一致,說明將鄰域互信息運用到DEA交叉效率中是合理的,也說明了本文提出的區間鄰域互信息計算的正確性。
由于競合交叉效率和仁慈型模型得到DMU3和DMU5均是有效的,不能完全排序。故根據1.3中關于潛在信息函數計算的步驟分別求得各個DMU的中心趨勢、下界和上界以及根據公式求得各DMU在三個模型下不同的權重,結果見表3所示。

表3 潛在信息函數中的相關值
最后根據OWA算子對效率分數進行集結,求得各個DMU的最終集結效率值,最后的結果如表4所示。

表4 效率分數及排名對比
本文得到的結果與文獻[8]運用該算例得到的結果僅在DMU3和DMU5之間有差異,其原因可能是因為文獻[8]是在傳統CCR模型的基礎上運用誤差傳遞計算的,而本文是基于不同的交叉效率模型求解的,不僅考慮了自評效率并且考慮了他評效率分數,并且考慮了決策單元之間的競爭合作關系,由分組結果也可以看出DMU3與其他除DMU2以外的所有決策單元均是合作的關系,所以用本文的方法求得的DMU3的效率分數會稍高,排到了第一位。從本文的結果看,DMU3和DMU5在仁慈型模型和競合交叉效率模型下不能充分排序的問題也得到了解決,該方法可以對5個決策單元進行充分的排序。
本文在區間DEA交叉效率中引入鄰域互信息,并提出區間值鄰域互信息的計算方法,根據決策單元在投入產出之間的相關性對其進行分組,充分展示了鄰域互信息在處理離散數據時的便捷性,以此對競合交叉效率模型進行改進,然后利用潛在信息函數處理小樣本數據的優勢,將三個效率分數進行加權平均得到一個最終的效率分數。本文所提的方法解決了交叉效率選擇策略不確定的難題,以及單一交叉效率模型排名不一致及排名不充分的問題。算例驗證了所提方法的合理性,但是關于區間鄰域互信息的距離計算方法和δ的確定有待進一步研究,且本文只是通過一個算例對所提方法進行了驗證,對實際案例中投入產出區間范圍較大時的可行性問題有待考證。