王 瑛,王 娜,肖 薇
(湖南大學 金融與統計學院,湖南 長沙 410079)
基于隨機森林賦權和改進ELECTRE-Ⅲ方法的科技獎勵評價研究
王 瑛?,王 娜,肖 薇
(湖南大學 金融與統計學院,湖南 長沙 410079)
針對科技獎勵評價中各指標權重的不確定性問題,提出隨機森林賦權法,利用可靠性分析計算專家評分數據的泛化誤差,根據最小錯誤率得到各評價項目的各評價指標權重,減少主觀賦權的影響;引入一致可信度、非一致可信度和凈可信度信息,提出改進的ELECTRE-Ⅲ方法,將某一評價項目優于其他評價項目的程度具體量化,解決專家評分數據為次序變量的問題.實證表明:隨機森林賦權法和改進后的ELECTRE-Ⅲ方法相結合,既提高了權重估計的精確度和可信度,又解決了難以給定門檻值和不能完全排序的問題,使評價結果更加科學、客觀、合理.
可靠性分析;隨機森林賦權;改進的ELECTRE-Ⅲ;科技獎勵評價
科技獎勵是科技創新的重要推動力.迄今為止,大量學者就科技獎勵評價技術進行研究,提出了許多有效的評價方法,然而大多數方法受主觀影響大,評價結果不夠科學合理.為此,進一步創新科技獎勵評價方法具有十分重要的理論意義和現實意義.
自20世紀80年代中期以來,中國的科技獎勵評價方法得到不斷的發展和完善,許多專家學者做了大量研究.王瑛、田煜明[1]等引入改進的未知測度模型計算指標權重,并利用綜合得分公式進行綜合評價,有效地解決了評審過程中出現的信息失真問題.金聰、彭嘉雄[2]等運用模糊神經網絡的方法構建了科技獎勵的智能評審模型,既考慮了專家建議,又有效地減少了由專家決策所帶來的主觀人為因素的影響.王瑛、曹瑋[3]等人引入“鄰差矩陣”,并結合CRITIC法和因子分析方法,建立了考慮專家信度的立體式科技成果綜合評價模型.張立軍[4-5]等分別就科技獎勵指標權重和專家權重問題進行了研究,提出了減少人為操縱因素影響的權重確定方法.王瑛[6]等采用改進的CRITIC法提高樣本數據的代表性,并利用逆向云模型降低了專家評分的主觀因素影響.
科技獎勵評價是一個多項目、多專家、多指標的多屬性群決策問題.目前科技獎勵評價指標權重多以主觀賦權法為主,受專家主觀因素影響較大;且專家評分數據通常為次序變量,使得被評項目難以得到客觀的評價結果.本文根據科技獎勵評價的特點引入隨機森林賦權法,對評價指標進行客觀賦權;并提出改進的ELECTRE-Ⅲ方法,處理次序變量的排序問題,使評價結果更加客觀、科學.
1.1 隨機森林賦權法的基本原理
隨機森林賦權法(RF)[7]是一種由多個分類樹組成分類器的方法,主要采用Bagging算法,從原始的N個樣本中有放回隨機抽取約1/3的數據組成一個新的訓練集,剩余的數據成為袋外數據(out-of-bag,簡稱OOB數據),這部分數據主要用于OOB估計計算泛化誤差和各輸入特征向量的權重.利用RF的Bagging算法中OOB數據進行特征向量的權重估計,即隨機改變OOB數據中某個特征向量X的值(稱之為特征向量X的噪聲干擾),得到一個OOB數據的準確率;然后將原始OOB數據的準確率與加入噪聲之后的OOB數據的準確率相減,得到的結果作為特征向量X在該組分類樹上的重要性度量值.照此方法計算出所有分類樹中特征向量X的重要性度量值,然后取平均數并歸一化,即得到該特征向量X的權重.
假設一個由一系列樹h1(X),h2(X), …,hk(X)和兩個隨機向量X(輸入向量)、Y(輸出向量)組成的隨機森林.I=(h(X)=Y)表示對特征向量X正確分類的Y的得票數,特征向量的權重估計步驟如下.
步驟1 特征向量權重估計的可靠性分析.
1)隨機森林分類樹收斂性估計:
定義mg(X,Y)為樣本點(x,y)的邊緣函數.
mg(X,Y)=avkI(hk(X)=Y)-
(1)
式中:Y表示正確的分類向量;I(·)表示指示器函數;avk(?)表示對函數值取平均值.該邊緣函數表示的是對于向量X正確分類的Y的平均票數超過其他同類型票數的程度.因此,邊緣函數越大,正確分類的置信度就越高,算法中分類器的效果越出色.
2)特征向量權重估計的錯誤率:
設PE*為隨機森林算法中分類器的泛化誤差,它反映的是分類器的分類效果.則
PE*=PX,Y(mg(X,Y)<0).
(2)
其用來衡量OOB權重估計的錯誤率.對于隨機森林模型hk(X)=h(X,Θ),若森林中樹的數目足夠多,上式會滿足大數定律:

(3)
式中:k表示森林中樹的數量.
步驟2 特征向量的權重估計.
設隨機森林中OOB估計的公式為
(4)
PK作為P(hk(X)=Y)的OOB數據權重估計,根據式(2)得到的最小錯誤率選取特征向量的權重.
1.2 改進的ELECTRE-Ⅲ的基本原理
法國人Roy提出了ELECTRE-Ⅲ法[8],該方法構造了賦值的級別高于關系.級別高于關系是一種定性的二元關系,而賦值的級別高于關系則是定量化的二元關系.它是解決有限個備選方案的多屬性群決策問題十分有效的方法.其內容如下.
1.2.1 構造優先關系
設面臨的決策問題A={K,C,W,G,U},其中令備選方案集K={kj,j=1,2,…,m};評價指標集C={ci,i=1,2,…,n};評價指標權重集W={wi,i=1,2,…,n};評價指標函數集G={gi,i=1,2,…,n},對于任意a?K,gi(a)表示方案a在評價指標ci下的評價值;決策者的偏好結構U={ut,t=1,2,…,r},r表示決策者的個數;各指標無差異閾值函數集Q={qi,i=1,2,…,n},qi(gi(aj))是無差異門檻值,表示方案aj與ak的屬性i值之差小于qi時,這兩個方案在屬性i上是無差異的;各指標偏好閾值函數集P={pi,i=1,2,…,n},pi(gi(aj))是偏好門檻值,表示方案aj與ak的屬性i值之差大于pi時,方案aj嚴格優于方案ak;各指標的否決閾值函數集V={vi,i=1,2,…,n},vi(gi(aj))表示方案ak與aj的屬性i值之差小于vi時,方案ak嚴格優于方案aj;其中qi(gi(aj))≤pi(gi(aj))≤vi(gi(aj));顯然,對于任意的屬性i都應該滿足:0≤qi(gi)≤pi(gi)≤vj(gj).
1.2.2 定義和諧性指數和不和諧性指數
定義1 和諧性指數C(aj,ak)是指在屬性i上aj優于ak的程度.
(5)
式中:ci(aj,ak)=
(6)
定義2 不和諧性指數di(aj,ak)是指在屬性i上拒絕“aj級別高于ak”,即指方案aj劣于方案ak的程度.
di(aj,ak)=
(7)
1.2.3 定義賦值的級別高于關系
定義3 賦值的級別高于關系.可用可信度s(aj,ak)來測量,它表示的是“aj級別高于ak”的可信程度.
s(aj,ak)=
(8)
式中:I(aj,ak)表示所有di(aj,ak)>c(aj,ak)的屬性的集合.
1.2.4 排序

②只確定S(aj,ak)≥λ-σ時的級別高于關系,此時:Q(aj)=流出aj的有向弧數量總和-流入aj的有向弧數量總和.
根據Q(aj)的大小比較方案優劣,進而進行各個方案的排序.通過以上方法進行排序,需要人工確定δ值,且只能針對S(aj,ak)≥λ-σ的部分方案進行排序.
針對上述1.2.4的排序過程中存在難以給定門檻值、計算難度大和不能完全排序等局限性進行改進,引入一致可信度Φ+,非一致可信度Φ-和凈可信度Φ[9],將方案優于其他方案的程度具體量化,簡化了計算,提高了可信度,實現了完全排序.改進的內容如下.
1.2.5 定義一致可信度
定義4 一致可信度Φ+(aj)是指方案aj優于其他所有方案的可靠程度.

(9)
1.2.6 定義非一致可信度
定義5 非一致可信度Φ-(aj)是指方案aj劣于其他所有方案的可靠程度.

(10)
1.2.7 定義凈可信度
定義6 凈可信度Φ(aj)是指方案aj優于其他方案的程度,是一致可信度與非一致可信度的差值.
Φ(aj)=Φ+(aj)+Φ-(aj),?aj∈K.
(11)
1.2.8 實現完全排序
按照方案的凈可信度Φ(aj)大小,對所有的備選方案進行排序.
本文選用國家科學技術進步獎(技術開發項目)評選中25位專家對24項科技成果的評分數據(資料來源于科技部國家科技獎勵辦公室,原始數據略),采用Matlab2012a軟件編程[10],實證分析步驟如下.
步驟1 確定評價項目集K.
根據被評對象為24個項目,定義評價項目集,K={kj,j=1,2,…,m}={k1,k2,…,k24}.
步驟2 確定評價指標集C.
現有的國家技術進步獎中技術開發項目的評價指標體系主要由“技術創新程度”“技術經濟指標的先進程度”“技術創新對提高市場競爭能力的作用”“已獲經濟效益”“推動科技進步的作用”5個定量指標構成.其中,技術創新程度是指項目的技術自主創新和解決關鍵難題的程度;技術經濟指標的先進程度是指總體技術水平、經濟、環境等指標與同類技術水平相比的優劣程度;技術創新對提高市場競爭能力的作用是指市場的需求度和國際市場的競爭優勢程度;已獲經濟效益是指使用該技術而產生的直接或間接的經濟效益程度;推動科技進步的作用是指是否實現技術水平提高的幅度,對行業科技進步的促進作用.該指標體系以國家科技獎勵條例精神、獎勵要求和目的為依據,符合社會學、統計學等關于指標體系構建的理論和我國的法律法規要求,滿足科學性、客觀性、可測性、相關性、系統性、簡捷性等原則,是一套較為公正、合理的評價指標體系[11].因此,本文在進行實證分析時,仍采用科技部國家科學技術工作獎勵辦公室現行的評價指標體系.
根據該評價指標體系,定義評價指標集C={c1,c2,c3,c4,c5}={技術創新程度,技術經濟指標的先進程度,技術創新對提高市場競爭能力的作用,已獲經濟效益,推動科技進步的作用}.
步驟3 確定各評價指標權重集W.
運用隨機森林算法測定科技獎勵評價中評價指標的權重時,將24個項目作為24棵樹,25位專家的評分作為25個獨立同分布的隨機向量ΘK,5個評價指標作為特征向量X,分別記為h1(x1,Θk),h2(x2,Θk), …,h24(x24,Θk)(其中k=1,2, …, 25).通過bagging算法,用OOB數據對5個評價指標的重要性進行估計,得到權重.
以科技獎勵中的技術開發項目為例,將24個項目的所有評價指標數據分別輸入隨機森林算法程序中,得到各評價項目的各項指標權重和OOB錯誤率,根據最小錯誤率得到各評價項目的各項指標權重,歸一化后的加權平均數作為每個指標的權重.計算結果見表1.
由表1可得,W={w1,w2,w3,w4,w5}=
{0.17,0.22,0.25,0.15,0.21}.
步驟4 確定各專家對各項目的各指標評分的平均結果集G.
根據技術開發項目原始數據和項目特點,評價指標值gi(aj),?aj∈K為專家對各個項目及指標打分的平均值[12],其結果見表2.

表1 最小錯誤率確定的指標權重

表2 25位專家對24個項目的5個評價指標評分的平均結果
步驟5 確定各指標無差異閾值函數集Q,偏好閾值函數集P,否決閾值函數集V[14].
根據表2中差值的大小,依據式(1)估算得出:qi(gi(aj))=0.1,pi(gi(aj))=0.2,vi(gi(aj))=0.3.
步驟6 完全排序.
將表1和表2的計算結果和步驟5的估算結果代入式(5)~(11),得到24個被評項目的一致可信度、非一致可信度、凈可信度,結果見表3,并進行排序,結果見表4.

表3 24個項目的一致可信度、非一致可信度、可信度

表4 24個項目的排名結果
1)針對科技獎勵評價中各指標權重的不確定性,提出隨機森林賦權法,利用可靠性分析,計算專家評分數據的泛化誤差,根據最小錯誤率得到各評價項目的各評價指標的重要性度量值,經歸一化處理后得到各評價項目的各評價指標的權重,提高賦權結果的精確度和可靠性,減少人為給定指標權重的主觀影響,使賦權方法更加客觀.
2)針對專家評分數據為次序變量的模糊性問題,引入一致可信度、非一致可信度、凈可信度信息,提出改進的ELECTRE-Ⅲ方法,將某一評價項目優于其他評價項目的程度具體量化,有效解決了難以給定門檻值和不能完全排序的問題,使評價方法更加科學.
3)隨機森林賦權法和改進后的ELECTRE-Ⅲ方法相結合對科技獎勵進行綜合評價,得出各參評項目的評價結果并排序,實現了次序變量與定量數據之間的轉換,評價結果更科學、客觀、合理,為多屬性群決策綜合評價提供了有效參考.
[1] 王瑛, 田煜明. 基于未確知測度評分模型的科技獎勵評價研究 [J]. 科技管理研究, 2009(9):106-110.
WANG Ying, TIAN Yu-ming.Based on the unascertained measurement grading model of science and technology reward evaluation research[J].Science and Technology Management Research, 2009(9) :106-110.(In Chinese)
[2] 金聰, 彭嘉雄. 科技獎勵的智能評審模型 [J]. 軟科學, 2002, 16(5): 6-9.
JIN Cong, PENG Jia-xiong. An intelligent evaluation model for the science and technology reward [J].Soft Science,2002,16(5):6-9.(In Chinese)
[3] 王瑛, 曹瑋,羅珍. 考慮專家信度的科技成果立體式綜合評價模型[J]. 軟科學,2008, 22(6):6-10.
WANG Ying, CAO Wei, LUO Zhen. The three-dimensional comprehensive evaluation model in science and technological achievements considered the expert reliability[J]. Soft Science, 2008,22(6):6-10.(In Chinese)
[4] 張立軍, 鄒琦. 基于路徑系數權重的科技成果獎勵評價模型 [J]. 科技管理研究, 2008(5):102-103.
ZHANG Li-jun, ZOU Qi. The rewards of scientific and technological achievements evaluation model based on the path coefficient of weight[J]. Science and Technology Management Research, 2008(5): 102-103.(In Chinese)
[5] 張立軍, 楊娟. 考慮專家權重的科技成果模糊綜合評價[J]. 科技與經濟,2011(24):1-5.
ZHANG Li-jun, YANG Juan. The fuzzy comprehensive evaluation of science and technological achievements with considered expert weight[J].Science & Technology and Economy, 2011(24):1-5.(In Chinese)
[6] 王瑛,蔣曉東,張璐. 基于改進的CRITIC法和云模型的科技獎勵評價研究 [J]. 湖南大學學報:自然科學版,2014,41(4):118-124.
WANG Ying, JIANG Xiao-dong, ZHANG Lu. Research on the evaluation of science and technological awards based on improved CRITIC method and cloud model[J]. Journal of Hunan University: Natural Sciences, 2014,41(4):118-124.(In Chinese)
[7] BREIMAN L. Random forests[J]. Machine Leaning, 2001,45(1): 5-32.
[8] 岳超源. 決策理論與方法 [M]. 科學出版社,2003:226-228.
YUE Chao-yuan. Decision theory and method[M]. Beijing: Science Press, 2003:226-228.(In Chinese)
[9] 王建軍, 楊德禮.ELECTRE Ⅲ的一種排序新方法 [J]. 系統工程, 2005,23(12):95-98.
WANG Jian-jun,YANG De-li. A new ranking method for ELECTRE Ⅲ[J]. System Engineering, 2005,23(12):95-98.(In Chinese)
[10]王小川, 史峰. MATLAB神經網絡43個案例分析 [M]. 北京:北京航空航天大學出版社, 2013:256-264.
WANG Xiao-chuan, SHI Feng. MATLAB neural network 43 case analysis[M]. Beijing: Beihang University Press, 2013: 256-264. (In Chinese)
[11]郝國杰. 科技成果獎勵評價指標體系及方法研究[D].長沙:湖南大學,2009:11-19.
HAO Guo-jie. Science and technological achievements reward evaluation index system and method[D]. Changsha: Hunan University, 2009:11-19.(In Chinese)
[12]張立軍, 林鵬. 基于序關系法的科技成果評價模型及應用 [J]. 軟科學,2012,26(2):10-12.
ZHANG Li-jun, LIN Peng. The evaluation model and application of scientific and technological achievements based on ordering relation[J]. Soft Science, 2012,26(2):10-12.(In Chinese)
[13]龔俊華. 集成的ELECTRE方法研究 [D]. 成都:四川大學, 2006: 23-24.
GONG Jun-hua. Research of integrative ELECTRE method[D]. Chengdu: Sichuan University,2006:23-24.(In Chinese)
Research on the Evaluation of Science and Technology Award Based on Random Forest and Improved ELECTRE-Ⅲ
WANG Ying?, WANG Na, XIAO Wei
(College of Finance and Statistics, Hunan Univ, Changsha, Hunan 410079, China)
To address the uncertainty of the target weight in assessing science and technology awards, the Random Forest Weighting Method was proposed. Reliability analysis was used to calculate the generalization error of expert evaluation data,and according to the minimum error rate, to obtain the evaluation project of each evaluation index weight and to reduce the impact of subjective weighting.Consistently reliable information, inconsistently reliable information and net reliable information were introduced. An improved ELECTRE-Ⅲ method was put forward to solve the problem of expert evaluation data for order variability. A specific number to measure a certain degree of an evaluation project is superior to other evaluation project. Empirical evidence shows that the combination of the Random Forest Weighting Method with the improved ELECTRE-Ⅲ method not only improve the accuracy and reliability of weight estimation , but also solve the problem of inability to set threshold level and rank completely, leading to more scientific, objective and reasonable evaluation results.
reliability analysis; random forest weighting; improved ELECTRE-Ⅲ; science and technology evaluation
1674-2974(2015)03-0140-05
2014-06-10
國家自然科學基金資助項目(71340003), National Natural Science Foundation of China(71340003);國家社會科學基金資助項目(14BTJ003)
王 瑛(1964-),女,湖南漢壽人,湖南大學副教授
?通訊聯系人,E-mail:wangying31106@163.com
G311
A