林 珠,邢 延,趙曉萌,周俊杰,吳海源
(1.廣東省科技基礎條件平臺中心廣東省高性能計算實驗室,廣東廣州 510033;2.廣東工業大學自動化學院,廣東廣州 510006)
實驗室是我國科研工作從事基礎研究和應用研究的重要載體,是國家、地區科研基地和科技創新不可分割的重要組成部分,在促進科研水平提升和解決重大科學問題中發揮著重大作用,有效推動社會經濟發展。《中共中央辦公廳、國務院辦公廳印發〈關于深化項目評審、人才評價、機構評估改革的意見〉的通知》[1]和《中共中央 國務院關于優化科研管理 提升科研績效若干措施的通知》[2]在優化科研項目和經費管理、創新評價激勵制度、強化科研項目績效評價等方面做出明確要求。廣東省高度重視科研績效評估工作,針對不同的機構類型、人才隊伍研究不同的評估體系,并制定《廣東省科學技術廳關于省財政科技支出績效評價的實施細則(試行)》等措施,以促進科研績效評估工作的順利進行。實驗室績效評估是對實驗室科研的投入成本和產出效益進行比較分析,對實驗室運行情況和效果進行有效監測,保障實驗室源源不斷的創新力和動力、提升實驗室的運行質量,使之能響應國家戰略的需求,適應當代科學的發展[3]。
現階段通常采用對實驗室各類績效產出構建評價指標[4-5],然后針對各指標進行專家評分,最后劃分評分等級。也有一些學者引入信息技術手段,如采用層次分析法、模糊評價法、物元分析法和屬性層次分析法等,以提高實驗室評估的有效性[6-8]。
然而目前在研究過程中仍存在不少問題,比如評估方法單一,基本上均采用設置指標并評分的方式進行,不能對實驗室進行全面、科學的評估;現有評估體系指標未能特別突出科研重點,只能用專家經驗判斷各指標重要性,并設置權重;評估指標體系比較繁瑣,難以統一度量標準;代表性成果選擇不限或關聯度不高等。因此,對實驗室科研績效評價仍然是一項值得關注的課題。在現行的績效評估體系基礎上結合聚支持向量機算法進行客觀評估和預測,對推動科研績效管理的智能化,實驗室績效高效管理具有十分重要的現實意義。
早在20 世紀50 年代,西方發達國家已開始進行實驗室考察評估工作,側重于對科研進展狀況的評估和管理情況的評估[9],英國作為科研績效評估發達國家的代表,其評估體系變遷路徑已經歷了“ 科研選擇評估 ”(Research Selectivity Exercise, RSE )、科研水平評估(Research Assessment Exercise, RAE)、科研卓越框架 (Research Excellence Framework, REF)等多種模式[10];美國科研創新績效評價方法從最開始的定性評價,演變為采用許多數學、運籌學、統計學以及經濟學的計量分析方法引入到科技評估中,試圖提高評估結果的科學性[11]。
相比于西方國家,我國起步稍晚,20 世紀末期,我國部分專家、學者開始對國家重點實驗室進行科學、合理的評估以滿足國家發展的需要。有些學者采用模糊綜合評價法、層次分析法等一些廣泛適用的評價方法,然而,雖然經過不斷地探索與努力,我國對重點實驗室的評價指標體系和評價方法在權威性、合理性方面仍有所欠缺,我國對國家重點實驗室整體的評估工作存在一定的提升空間[12-13]。現階段指標體系構建方法通常采用宏觀引導和專家經驗相結合的方式進行構建[14-15]。上層引導是指政府、管理層期望實驗室重點發展優勢能力,針對不同類型的實驗室將有不同的引導方向,比如針對學科類重點實驗室則側重于基礎研究能力的培育,強調考核其基礎研究的論文、科研項目等指標;針對企業類重點實驗室則側重于成果轉化能力,強調其產品擴展和行業帶動的指標。專家經驗判斷通常依據當前研究熱點、評估經驗等設置各類指標及權重,以區分各項指標的重要程度。
我國現階段實驗室評估指標體系通常由多維度、多級指標構成。指標設置遵循系統性、科學性、可操作性、投入產出等原則。現階段不同類型、不同地區的實驗室建設往往采用不同的評估指標。根據《國家重點實驗室評估規則》(國科發基(2014)124號),國家重點實驗室目前的評估指標體系由研究水平與貢獻、隊伍建設與人才培養和開放交流與運行管理三個一級指標構成[16]。
國內部分省市已建立對實驗室績效評估體系,以某省為例,根據其重點實驗室管理規范可知,該省評估的周期為兩年一次,評估結果也是分為四級,分別為優秀、良好、合格和不合格。對于評價為優秀的予以重點支持,反之對于評估不合格的將撤銷其“省重點實驗室”資格。通常情況下,主管部門對實驗室的績效評估包括定量評估和定性評估兩部分。定量評估往往通過年度調查、信息系統數據收集等方式,對科研成果、學術、技術水平、應用效益、人才培養等一些可以量化的指標進行評估。定性評估往往是針對不可量化部分的指標,比如研究成果及學術、技術水平、隊伍建設與人才層次、經費及設備實力、管理水平等方面進行定性描述[17]。
現階段通常采用綜合評議的方式對實驗室的績效進行評估,即對這些績效指標各項進行專家評分,然后根據權重統計評分結果,最終將得到對某個實驗室的績效評價[18]。該省指標體系分為三級指標(5 個分類指標、13 個大類指標和24 個小類指標),與國家及其他省市對比,較全面具體,也具有可操作性,因此采用該指標體系作為本論文的參考依據。
文章采用數據來源于某省級實驗室的歷年科研績效評估數據,共采集數據樣本188 條例 ,每條樣本指標屬性45 項。由于這些數據能夠很好地體現實驗室的科研水平,因此,將這些信息進行整合梳理,構成了面向機構等級劃分的數據記錄,形成數據集T1。科研績效評估等級劃分利用原始數據表格專家評審得分作為評價標準,其中以評審得分劃分為4類。評分在[100,85]區間為優秀標為S,在(85、75]區間為良好標為A,在(75、65]區間為一般標為B,(65,0]區間為差標為C,將S、A、B、C分別作為數據集T1 的數據標簽,從而形成帶標簽的數據集D1。
為更好地對這些信息進行挖掘,首先要對數據記錄進行預處理。文章采用數據校驗、缺失值處理、結構化轉換等預處理方法。數據校驗主要指異常值識別,并對數據真實性進行校驗,如某字段偏離往年平均值或合理值較大時,則進行人工溝通并修正,以確保數據準確性。缺失值處理是對某重要字段未填寫時進行缺失值補充,通常可采用該實驗室歷年該項平均值或參考上一年度值;結構化轉換是指將非結構化數據進行關鍵字提取,表述有限關鍵字,成形半結構化數據,再轉存入數據表,進一步可形成離散數據使用。
將數據進行預處理之后,最終數據的預處理結果如下表1 所示,形成數據集T2,表格只列舉到前10 個數據。

表1 數據的預處理結果(部分)
為更好地對現有評估指標體系進行綜合分析,文章將不僅對專家評估方法和結果進行分析,也將運用無監督學習、信息熵計算、決策樹模型[19]等數據挖掘方法進行分析,以便對評估指標進行更客觀、全面地分析。所采用實驗工具主要有SPSS 軟件及PyCharm 開發環境。SPSS 是IBM 公司所開發的“統計產品與服務解決方案”軟件,實驗使用利用SPSS軟件中的K-均值聚類算法包對數據進行分類。PyCharm 是python 語言的IDE,可調用各種機器學習算法庫進行數據分析與挖掘,本文將調用支持向量機工具箱LIBSVM 庫對數據進行訓練與預測的,LIBSVM 是臺灣大學林智仁教授所開發的SVM 模式識別與回歸工具包,其中主要用到的函數有svm_read_problem 與svmtrain 兩個程序函數。
本文首先采用無監督方法對績效評估數據進行聚類分析,讓數據自動劃分為四類,并采用現階段流行的、較權威的SVM 方法進行分類,并對兩者結果進行比較分析,以評估指標體系的整體效果;然后,對專家評估結論進行分析,通過對績效評估數據進行分類,并與無監督聚類情況進行比較分析,以識別主觀評估的有效性及不足;最后,運用信息熵計算、決策樹模型等方法進行具體的指標有效性分析。具體研究方法如下:
(1)聚類形成新的數據標簽。對T2 數據集進行無標簽的聚類分析,聚類分析是無監督學習的常用算法,它是指以樣本數據的特征或屬性作為出發點,將樣本數據中性質或特性相近的數據歸為一類。聚類分析是指將一組數據中性質相近的事物歸為一組的分析技術[20],文章將采用經典的K 均值算法(K-means)對數據進行分析,它具有原理簡單、容易實現、能處理大數據集、聚類效果良好、高效和伸縮性較強等優點,是目前作為研究最多和使用最廣泛的聚類算法[21]。實驗中根據S、A、B、C 四類的平均分值所在的科研機構作為聚類初始中心,調用SPSS 軟件中的K-均值聚類算法,最終將188 個實驗室機構聚為四類,形成新的數據集D2。
(2)整體評估現有實驗室指標體系的有效性。為使得評估結果更加客觀,本文將不采用專家評分作為評判依據,而以聚類后的結果D2 作為參考,采用支持向量機(Support Vector Machine,SVM)方法評估現在指標的有效性。SVM 是由Vapnik 在統計學理論基礎上建立起來的依據VC 維理論和結構風險最小化原則的模式識別算法[22],實驗中調用支持向量機工具箱LIBSVM 庫對數據進行訓練與預測,使用核函數進行分析和處理。
(3)引入專家評分結果進行對比分析。對比直接采用專家評分劃分的數據集D1 和聚類形成的數據集D2,發現主觀評價在現有評估結論中的不足,分析各類別實驗室機構在主、客觀的評估中存在的差異。
(4)高優指標選取。對T1 數據集進行信息熵值計算,信息熵是常用的反映信息量大小的有效指標,對于科研績效數據,其具體某項指標可以用熵值來判斷該指標的離散程度,其熵值越小,指標的離散程度越大,也意味著該指標對評價的影響就越大[23],如果某項指標的值全部相等,則該指標在評價中不起作用,可視為無效指標,因此,通過信息熵計算可剔除熵值較大的指標,形成剔除指標后數據集T3。
(5)采用決策樹識別關鍵指標。決策樹可以用于形成分類器,可以實現對未知數據進行預測或者分類。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹[24-25]。對T3數據集以D2標簽為參考,進行決策樹模型構建,從而識別關鍵性指標。
(1)現有評估指標體系整體分析。現階段評估指標體系所形成的績效評估數據在剔除專業評分標簽后,進行無監督學習,讓數據進行自動聚類,意味著科研水平相近的實驗室將聚為一類,給每類結果賦予標簽,以此結果作為參考對象,采用現階段常用的典型算法進行分類,若分類模型具有良好的分類效果,則證明該指標體系具有良好的數據可分性,可將實驗室科研水平進行較好地層次劃分。
該實驗采用無監督學習后形成新的數據集標簽作為訓練依據。基于支持向量機算法中核函數的選取是最為重要的一個環節,核函數的應用使得支持向量機算法在解決非線性問題時具有巨大的優勢,其將低維空間的非線性問題轉化為高維空間中的線性問題進行處理。而常用的核函數有線性核函數、多項式核函數、RBF 核函數以及Sigmoid 核函數,由于數據具有小樣本、非線性的特征,將采用RBF 核函數進行分類,實驗結果如表2 所示:

表2 為基于不同核函數的模型訓練結果
從實驗可知,通過無監督學習使得數據集自動聚類,然后依此聚類結果作為數據集標簽進行模型訓練,具有良好的分類效果。基于聚類結果與支持向量機算法的預測模型能夠相對準確地對實驗室進行分類,達到較高的準確率,能夠真實反映實驗室科研績效情況,因此,現行的績效評估體系能夠較好地反映并劃分實驗室的科研水平,具有良好的參考意義。
(2)引入專家評分結果進行對比分析。上文證明了績效評估的整體有效性后,引入專家評分的實際結果,考查其他實際應用中的效果。本次實驗通過對K 均值聚類算法的結果與現有的主觀績效評估方法進行比較分析,從而反映現有績效評估體系的合理性和準確性。通過實驗發現,專家評審得分與經過K 均值聚類的結果存在差異,主要表現在高評級的實驗室評審得分不高,或低評級的機構評審得分很高,且具有這種表現的實驗室不在少數。專家評分與聚類結果存在差異情況具體詳見表3。
觀察數據可知,評級為S 的實驗室中,機構4和機構113 的專家評審得分并不高,與聚類評級結果相悖;而評級為 A 的實驗室中,機構105、機構128 和機構120 等部分機構專家評審得分較高;評級為B 的部分實驗室對應的評審得分過高;評級為C 的部分實驗室評審得分較低,評級為 A 的實驗室中,機構105、機構128 和機構120 等部分機構專家評審得分較高。這些數據說明雖然專家評審能大部分體現實驗室的實際水平,但仍容易造成部分實驗室的評審結果存在差異。這說明現行的績效評價體系在實際運用中存在某些指標容易讓專家造成誤判,或者存在低優指標,或者各類指標權重設置不合理,導致最終的評價結果有時并不能正確地反映實驗室的實際情況。

表3 實驗室評審得分與聚類結果存在差異的比較
(3)采用信息熵+決策樹進行有效指標選擇。
1)基于信息熵的高優指標選取。首先,進行指標優化處理,對于高優指標(有益型指標,即數量越大,對實驗室評價越高的指標),處理公式(1)如下:

對于低優指標(有損型指標,即數量越大,對實驗室評價越低的指標),處理公式(2)如下:

然后進行歸一化處理,此時采用簡單的占比方式進行歸一化,如公式(3):

然后,進行熵值計算:

通過信息熵值計算,判斷各指標對評價的貢獻程度,熵值大于某一閥值的指標直接去除,從而達到剔除無效字段,達到數據降維的效果。
2)基于決策樹的關鍵指標識別。實驗在采用信息熵進行的高優指標選擇后,進一步采用決策權進行指標識別,通過模型分析并識別績效指標的重要程度。采用決策樹應用于實驗室績效評估指標選擇,是因為一方面決策樹可以用直觀的樹狀結構來表示,生成的分類規則容易理解;另一方面,它可以表示為直觀的樹狀結構,并且能夠直觀地顯示各個屬性的重要程度,節點所處于樹的層次越高,該節點上的屬性對決策樹的分類結果影響也就越大;反之,節點所處于樹的層次越低,該節點上屬性的影響就越小。再一方面,決策樹對訓練數據允許存在缺失屬性值的樣本,對于原始數據,很有可能會存在數據缺失或者不完整的情況,決策樹模型對訓練數據不挑剔,因此,適用于實驗室績效評估數據。該方法有助于識別關鍵核心指標,從而有助于研究實驗室績效評估的合理性和準確性。
實驗將數據T3 構造決策樹模型,以聚類后新生成的D2 作為數據標簽,采用CART 算法對目標數據集進行訓練,進行十折交叉驗證,得到基于所給綜合評分的模型,結果以及各項性能評估指標。實驗訓練所形成的決策樹模型如圖1 所示。

圖1 實驗室績效決策模型的樹形圖
根據實驗結果可知,對于決策樹圖而言,節點所處于樹的層次越高,該節點上的屬性對決策樹的分類結果影響也就越大。從圖1 所示的樹形圖可以看出,只有兩個屬性對分類結果有影響,分別是研究成果得分(Achievement)和承擔項目得分(Project),研究成果得分(Achievement)的影響較大。并且,從圖1 可以看出,決策樹結構比較簡單,生成的決策樹規則也相對簡單,容易理解。
在機器學習中,在建立好分類器模型之后,要想知道通過機器學習而得到的分類器是否有效,需要對分類器的性能進行評估。常用的分類器模型性能評估指標有:混淆矩陣(Confusion Matrix),準確率(Accuracy)、 精確率(Precision)、召回率(Recall)、F1值、敏感性(True Positive Rate, TPR)、特異性(False Positive Rate, FPR)、ROC 曲線及AUC。文章對形成的決策樹模型進行驗證和評估,分別繪制混淆矩陣、ROC 曲線以及計算精確率、召回率、F1 值、敏感性性能指標。
決策樹模型混淆矩陣如圖2 所示:

圖2 實驗室績效決策模型的混淆矩陣
決策樹模型ROC 曲線如圖3 所示。

圖3 實驗室績效決策模型的ROC 曲線
由圖2 所示的混淆矩陣,可知準確率為:

其他性能評估指標如表4 所示,可見,模型具有較優的分類結果,選擇科研成果及科研項目作為關鍵核心指標較合理。

表4 其他性能評估指標
本文在總結國內外相關的科研績效評價體系規則的基礎上,通過聚類分析、SVM 向量機、信息熵值計算、決策樹模型等研究方法對現行實驗室績效指標體系進行有效性分析。首先通過無監督學習對績效評估數據進行聚類,并與經典分類算法作比較,證明現行的評估指標體系整體具有可分性和有效性;然后引入專家評分結果進行實證研究,發現專業評分與聚類結果存在差異,分析可能存在部分低優指標或權重設置不合理;最后采用信息熵計算方法剔除低優指標,并用決策樹模型分析其重要指標,以引導權重設置。實驗分類器模型性能評估發現通過信息熵+決策樹的方法能夠較好地選擇有效指標。文章以實驗室績效評估數據為研究對象,以模式識別和機器學習的基本原理為基礎,以識別科研績效評估中的有效指標為目的,結合原理分析、算法實現和仿真實驗,研究、分析、比較科研績效評估過程中的各指標有效性,能夠輔助實驗室績效評估,對真實反映實驗室科研能力、提升實驗室的智能化評審水平具有重要意義。