劉鈺瑩,王一峰,李伯澤
(1.清華大學深圳國際研究生院,廣東深圳 518055;2.哈爾濱工業大學(深圳),廣東深圳 518055)
在當前世界百年未有之大變局的背景下,科技自立自強已經成為建設社會主義現代化國家的時代要求。科技創新不僅是國家發展的重要支撐,更是國際競爭力的重要標志。科技創新能力評價作為科技評價領域的重要內容之一,旨在對從事科研活動的主體(一個國家、地區或者一家科研機構等)的科技創新能力進行評估[1]。科技創新能力評價不僅可以定位科研活動主體的創新優勢和劣勢,激發其創新熱情,還可以為科技計劃的布局、科技政策措施的制定、科技資金的分配提供參考[2],推動科技創新發展,提升科技創新水平。
科技創新評估的起源可追溯至美國[3],而后日本、英國、德國等發達國家發展出具有本國特色的科技評估機制,科技創新評估逐漸成為世界各國科技制度中的重要組成部分。20 世紀五六十年代,科技創新評估處于起步階段,加菲爾德[4-5]和莫德[6]等人先后運用文獻計量學方法進行科技創新評估實踐,文獻計量學開始廣泛應用于科技創新綜合評價中。20 世紀七八十年代,科技創新評估進入定量分析階段,層次分析法開始被應用于科技評估中[7]。20 世紀90 年代后,科技創新評估進入多指標、綜合評價階段,科技評估方法逐漸多樣化,出現主成分分析法、模糊綜合評價法、灰色關聯分析法(GRA)、優劣解距離法、因子分析法等方法。近年來,以大數據、人工智能、文本分析等技術為基礎的評估方法也被越來越多地應用于科技創新評估領域,多源異構數據的融合應用成為科研評價和管理的趨勢[8]。
中國的科技創新評價起步較晚,發展路徑主要沿襲國外先進經驗。21 世紀以來,中國科技評價經歷了從傳統單一的技術評價到綜合評價的轉變,也開始注重評價方法的規范化。近年來,科技創新能力評價不斷深化和拓展,但仍未形成普適的綜合評價方法體系框架。從國內相關研究來看,中國科學技術發展戰略研究院[9-10]的《中國區域科技創新評價報告》和《中國企業創新能力評價報告》通過設定指標標桿,基于指數法進行多級綜合評價;中國科學技術發展戰略研究小組等[11]的《中國區域創新能力評價報告》通過專家評分法確定指標權重;Heng[12]采用非線性加權綜合評價方法對河南省大中型工業企業進行實證分析;趙勇等[13]應用層次分析法確定國家科學中心的多級評價指標權重;侯靜等[14]運用主成分分析法完成對評價指標降維和賦權;周晶晶等[15]使用因子分析法,根據累計貢獻率和因子荷載矩陣對中國14 個城市的創新能力進行綜合評價;馮偉等[16]針對科技資源評價指標所體現出的“灰色”特征,運用多層次灰色評價法構建了科技資源整合效果評價模型;桑秀麗等[17]將灰色分析理論中灰色關聯度結合優劣解距離法(TOPSIS)算法引入高校創新能力綜合評價當中;蔡曉琳等[18]結合熵權法應用優劣解距離法,基于評價對象與理想解之間的距離評價珠三角9 個城市的科技創新能力。張霞等[19]和蘆葦[20]認為,上述綜合評價方法都有各自的特點和適用條件,具有一定的局限性:專家評分法和層次分析法依賴大量前期專家的評分工作,工作量大,且評價結果的公正性和可信度易受人為主觀因素的影響;指數法和加權綜合評價法的計算較為簡單,但指數法的評價指標基準不易確定,評價數據質量會在很大程度上影響評價結果的可靠性;主成分分析法、因子分析法不適用于評價指標較多的多級綜合評價問題,在可解釋性、直觀性、可比性上存在一定局限;相比之下,灰色關聯分析法、優劣解距離法等綜合評價方法充分利用評價數據中蘊含的信息,評價結果更加精確,但仍存在應用場景的局限。因此,構建一個能夠提高數據可信度、實現可遷移性、適應多種算法的多級綜合評價算法框架,提升科技評價的效率、準確性和科學性具有十分重要的意義,符合科技評價改革的價值導向。
科技創新能力評估是一項復雜的綜合評價任務,涉及復雜的指標體系設計和深度的數據處理[21]。為此,本研究提出了一種基于指標聚合并集成指標清洗算法的綜合評價框架,構建可信度高、精確度高、穩健性強的評價模型,并從政府部門、第三方評估機構等監管主體的視角,對珠三角主要科研事業單位的科技創新能力進行綜合評價,以期幫助監管機構在科技計劃布局、科技項目審批、科技資金分配等方面進行綜合決策。
科研單位的科技創新能力評價指標體系應體現其創新能力的時效性、先進性、準確性和可比性。霍爾等[22]人強調了科研經費投入在科技創新評估中的重要性;姚笑秋等[23]、廖文國等[24]和陳國宏[25]等人均從創新投入、創新產出和創新環境等角度構建評價指標;谷景亮等[26]人還引入了與科技項目、科技獎項、創新載體相關的指標;鄭嘉穎等[27]探索性地提出廣東省基金項目績效評價指標體系。參考當前相關文獻,基于研究課題和評價數據的特點,遵從評價指標的科學性、重要性、可行性、導向性原則,結合實際情況,從創新基礎環境、科技創新產出能力、科技創新投入程度和科技項目承接能力4 個方面構建科研機構科技創新能力的四級評價指標體系(見表1)。該指標體系既覆蓋了科研機構科技創新能力的主要影響因素,又通過分級和賦權的形式體現了不同指標的重要性。其中,人均指標的計算定義均為對應的規模指標與人員規模的比值,比如人均專利申請數為專利申請數與人員規模的比值。此外,定義末級評價指標為不存在下級指標的指標(如項目實際專利申請數等)。

表1 科研機構科技創新能力評價四級指標體系
準確的綜合評價依賴于大量的指標構建,因而指標體系的層次關系復雜[28],但以往的研究往往將此類多級評價問題簡化為單層級評價任務,或者僅對某一層級指標設計評價算法而簡單處理其他層級指標,不能充分反映多層級指標體系結構對綜合評價結果的影響,為此,本研究提出了一種基于指標聚合的綜合評價框架,根據數據指標體系將原綜合評價問題分解為多個子綜合評價任務,從末級指標開始逐層向上聚合,從而得到更精確的綜合評價結果;同時設計了一種指標清洗策略,根據評價指標間的統計特性對數據進行清洗,以提升數據質量,增強評價結果的可信度。如圖1 所示,本研究提出的綜合評價框架包含三層算法:第一層為數據處理層,本研究提出的雙流指標清洗算法根據指標間關系提高數據質量從而提升綜合評價結果的可信度;第二層為指標聚合層,根據數據指標體系的層級關系,從最末級指標開始逐級向上聚合,上級聚合指標由次級特征的綜合評價得分生成,直到生成一級指標;第三層為綜合評價層,基于生成的一級指標數據,設定指標權重進行綜合評價,輸出最終的綜合評價結果。

圖1 基于指標聚合的綜合評價框架

圖2 指標聚合算法流程
根據綜合評價指標體系構建末級指標數據集X。設共有n個待評價對象,每個對象都有m個指標(屬性),則原始數據矩陣為:
在綜合評價任務中,評價數據往往來自多個渠道,數據質量參差不齊,可能存在數據缺失、格式不統一等問題[29];此外,存在不同評價對象在同一指標上取值差異巨大、指標間相關關系不一致的現象(比如某評價對象指標a與指標b取值差異遠大于均值,而指標a與指標c取值差異遠小于均值),可能是數據錯漏導致的。因此,設計有效的數據清洗算法是必要的。
實質上,指標間的關系是穩定的,可由數據的統計特性反映。因此,本研究提出了一種基于原始數據統計學性質的雙流指標清洗算法,根據指標相關性與指標數據間距離關系識別并修正數據中的異常點、極端值,使得數據與指標關系更加相符,從而提升數據質量,增強綜合評價結果的可信性。算法流程如下:
步驟1:將原始數據矩陣X標準化,得到標準化后的數據矩陣Z如下:
步驟6:記Pwmin為相關系數矩陣P中最小的w個元素構成的集合,Pw max為相關系數矩陣P中最大的w個元素構成的集合。檢驗相關系數矩陣中元素ppq是否屬于集合Pmini×γ+δ,其中γ、δ為超參數,表示相關系數的檢驗范圍的大小(設定γ=10,δ=10)。比如,d1max檢查對應的相關系數ppq是否屬于P20min,d2max檢查對應的相關系數ppq是否屬于P30min。若不成立,進行如下調整:在相關系數矩陣中,假設,那么根據l 特征進行指標清洗;在特征距離矩陣D中,考察判定條件是否成立,若成立,則將調整為:
在指標聚合流程中,本研究使用熵權法確定數據指標權重,使用結合TOPSIS 的灰色關聯分析法(GRA)進行指標聚合和綜合評價。實際上,本研究提出的綜合評價框架可適配不同的指標權重算法和綜合評價算法。
2.3.1 熵權法
熵權法是根據各指標所含信息有序程度的差異性來確定指標權重的客觀賦權方法,僅依賴于數據本身的離散程度。主要計算步驟如下:
步驟1:根據標準化后的數據矩陣Z計算各指標的熵值。即
2.3.2 結合TOPSIS 的GRA 綜合評價方法
TOPSIS 法對數據分布及樣本量沒有嚴格限制,只要求各效用函數具有單調性,數據計算簡單易行。作為一種常用的組內綜合評價方法,TOPSIS 法能充分利用原始數據的信息,精確地反映各評價方案之間的差距。而GRA 法根據有限評價對象與參考序列幾何關系的比較,計算參考數列與各評價對象之間的灰色關聯度,計算量較小,通常能夠與定性分析的結果吻合。因此,結合TOPSIS 的GRA 法,綜合了上述兩種方法的特點,能夠耦合距離相似度和形狀相似度進行綜合評價。算法流程具體如下:
步驟1:記數據清洗后的綜合評價數據集為X,其中n個待評價對象,每個對象都有m個指標(屬性)。
步驟2:原始數據正向化。TOPSIS 法使用距離尺度來度量樣本差距,需要對指標屬性進行同向化處理。通常將指標轉化為極大型(期望指標值越大越好)或極小型指標x(期望指標值越小越好),正向化后為x'。即
式(10)中:M為指標x可能取值的最大值。對于中間型指標x,正向化x'為
式(11)中:m為指標x可能取值的最小值。
對于區間型指x,正向化后x'為
式(12)中:[a,b]和[a*,b*]分別為指標x的最佳穩定區間和最大容忍區間。
步驟4:構造標準矩陣Z。即
步驟5:確定最優方案及最劣方案。其中,最優方案Z+由Z 中每列元素的最大值構成,即
步驟6:計算各評價對象與最優方案、最劣方案的距離相似度。即
步驟8:規范化各評價對象與最優方案、最劣方案的距離與關聯度。具體表達形式分別如下:
步驟9:計算各評價對象與最優方案、最劣方案的綜合關聯程度。表達形式分別如下:
步驟10:計算各評價對象與最優方案的貼近程度,作為該評價方案的綜合評價得分。即
2.3.3 指標聚合
本研究基于四級科技創新能力綜合評價指標體系,應用多層級指標清洗與聚合的綜合評價框架,從監管主體的視角對珠三角地區214 家主要科研事業單位的科技創新能力進行了綜合評價。
依托于深圳市科學技術創新委員會平臺和載體專項項目(國際科技信息中心)的支持,通過政府官方渠道、調研訪談和次級數據形成研究數據資料。其中,政府官方渠道,即查閱地區的財政、科技管理等部門的相關資料和政策文件等;調研訪談,即實地走訪受資助機構、相關受益人員,發放調查問卷并現場訪談;次級數據,即從政府公示網站和媒體新聞中公開的工作報告、公示欄及工作報告等查閱科技專項資助情況。數據時間周期為2016—2021 年。
從表2 的兩個實例來看,省級重點實驗室數量和項目實際新增的就業人數得到了修正。可見,本研究提出的雙流指標清洗算法能夠智能、精準地識別并修改數據異常點、錯漏值。

表2 樣本單位指標清洗實例
從表3 可知,在樣本指標形成的距離矩陣中,省級重點實驗室數量和本科及以上人員占比距離最大,而其相關系數為-0.139,不滿足檢驗范圍要求,應當調整;而項目實際新增的就業人數和項目實際培養技術工人數距離最小,其相關系數為0.193,不滿足檢驗范圍要求,應當修正。

表3 樣本單位部分指標距離矩陣
從圖3 可知,出版科技著作數與省級重點實驗室數量的相關系數最大,而出版科技著作數與省級重點實驗室數量的距離(1.004 9)不滿足判定條件,因此需修正省級重點實驗室數量的數值;由于省級重點實驗室數量大于均值1 倍標準差,故調整為1.00(標準化后指標均值均為0,標準差為1)。同理,項目實際培養工程師數與項目實際培養技術工人數的相關系數最大,而項目實際培養工程師數與項目實際培養技術工人數的距離(0.002 2)不滿足判定條件,因此調整項目實際培養技術工人數的數值;樣本項目實際培養技術工人數的數據點小于均值,且距離小于1 倍標準差,因此調整為-0.03。

圖3 樣本單位特征數據集部分指標相關系數
雙流指標清洗算法使得修正后的數據點更加符合標準正態分布,一方面能提升數據質量,降低數據錯漏點的影響,另一方面能在一定程度上抑制異常值的偏差程度。圖4 給出了這兩個數據點清洗前后在數據分布中的變動,其中空心四邊形點代表修正前數值,實心三角點代表修正后數值。

圖4 標準化后樣本單位指標數值概率分布
本研究提出的指標聚合算法可以依據指標數據分布和指標層級關系進行多級指標智能聚合。在保留原始數據信息的前提下,指標聚合得到的任一指標取值是精確的綜合評價量化分值,可以在橫向(不同評價對象)和縱向(不同評價時間)進行比較分析,提供直觀、客觀、精確、可量化、可對比的綜合評價信息。
3.3.1 實例分析
標準化后使用熵權法計算科技創新獎項對應3個次級指標的權重,結果如表4 所示;然后,應用結合TOPSIS 的GRA 綜合評價方法進行指標聚合,指標聚類取值分布如圖5 所示。可知,科技創新獎項取值范圍為[0,1],均值為0.377,標準差為0.100,取值分布形態與次級指標相似。

圖5 樣本單位科技創新獎項指標聚合取值概率分布

表4 標準化后樣本單位科技創新獎項指標權重
科技創新獎項得分反映科研事業單位在科技創新獎項方面的綜合評價分值及其相應的位次順序,表5 展示了2021 年科技創新獎項取值最大的5 家機構。其中,機構A1 在科技創新獎項上表現優異且遠超其他事業單位;而機構A2 在科技創新獎項這一指標的綜合評價得分不斷提升,具體如圖6 所示。

圖6 機構A2 科技創新獎項指標得分年度分布

表5 2021 年樣本中科技創新獎項綜合評價得分前五的單位
3.3.2 一級指標
圖7顯示了樣本單位的4個一級指標取值分布,均呈現右偏分布的形態,且均值在0.47 左右,標準差小于0.20。根據指標聚合算法獲取待評價對象的一級指標取值,各二級指標權重如表6 所示。

圖7 樣本單位的一級指標取值概率分布

表6 樣本單位的二級指標聚合權重
本研究構建的綜合評價模型能夠客觀地對科研型事業單位的科技創新能力進行量化綜合評價,樣本單位的4 個一級指標綜合評價的影響權重如表7所示;圖8 則展現了科技創新能力綜合評價分值分布,其取值范圍為[0,1],均值為0.49,標準差為0.17,整體呈右偏形態,偏度為0.55,中位數為0.46,分布整體較為平緩,峰度為-0.74。從數據分布來看,主要科研事業單位在科研創新能力上總體存在較大的差異,強弱對比明顯。其中,50%的單位綜合評分在0.35~0.61 分之間,表明大部分單位的科研創新能力還需要提高;25%的單位綜合評分低于0.35分,可認為這些單位的科研創新能力較為薄弱;而綜合評分高于0.61 分的單位分布不均,說明頭部科研事業單位存在顯著的科研創新能力差異。

圖8 樣本單位科技創新能力綜合評價得分概率分布

表7 綜合評價模型的一級指標權重
基于模型輸出的綜合評價結果,能夠進行整體分析、分檔管理、橫縱向比較、變化趨勢剖析、關鍵因素定位、提出發展建議等。此外,針對固定的綜合評價任務,多層級指標清洗與聚合的綜合評價框架可自動定期地運行,提升科技評價效率,節約人力和時間資源。
3.4.1 歷年變化情況
為更好地說明樣本單位的科技創新能力綜合評價結果,將評價框架輸出的綜合評價分值xi進行變換,表達形式如下:
本研究重點分析了每年綜合評價得分排名前50位的機構(以下簡稱“重點評價對象”)歷年變化情況,具體如圖9 所示。可知,珠三角主要科研事業單位整體科技創新能力近5年處于穩步增長階段,于2021 年達到峰值(其中2018 年分值下降主要因為數據量大幅減少)。具體來看,4 個一級指標綜合得分范圍相近,其中科技創新投入程度進步最為顯著,科技創新產出能力和科技項目承接能力上升明顯,而科技創新基礎環境有所波動、整體提升不顯著。另一方面,多層級指標清洗和聚合的綜合評價框架對評價對象的分辨率較好。其中,處于Top 2、Top2~Top10、Top10~Top20、Top20~Top30及Top30~Top50 排名的單位的創新綜合得分存在明顯差異,其中Top2~Top10、Top10~Top20、Top20~Top30 單位的科研創新綜合得分增長迅速,而Top2 機構的得分增長稍顯緩慢。

圖9 珠三角主要科研事業單位科技創新能力綜合評價得分
聚焦珠三角地區科技創新事業單位歷年綜合評價得分排名前十的機構(以下簡稱“Top10 機構”)(見圖10),近5 年間僅有13 所,可見珠三角地區科技創新頭部事業單位格局大體比較穩定,其中機構G1和G2穩居前兩位,是科技創新的排頭兵;機構G6和G8科技創新綜合評價分值以及排名均有長足的進步,是新興科技創新力量。

圖10 Top10 機構的年度科技創新綜合評價分值

圖11 機構G8 的科技創新能力得分
3.4.2 重點機構分析
由圖 11 可知,機構G8在近5 年科技創新能力提升顯著,在珠三角主要科研事業單位中的排名不斷提高,成為科技創新主體中不可忽視的部分;且其科技創新投入程度不斷加強,創新基礎環境改善明顯,科技創新產出能力不斷增強,但科技項目承接能力提升不明顯,科技創新產出能力仍然存在較大的上升空間。
由圖12 可知,機構G6和G8科技創新能力生長的路徑不同:科技創新投入程度的提升是機構G6科技創新能力增長的主要推動因素,而機構G8的科技創新產出能力更為突出。

圖12 2021 年機構G6 和G8 的科技創新能力對比
針對科技創新能力評價任務,本研究提出了一種多層級指標清洗與聚合的綜合評價框架,將原綜合評價問題分解成多個子綜合評價任務進行指標聚合,并設計雙流指標清洗算法,基于數據統計學性質增強整體綜合評價結果的可信度;并在這一框架指導下,對珠三角主要科研事業單位的科技創新能力進行了定量綜合評價,結果表明,基于該方法可以有效揭示珠三角地區不同創新主體的主要優勢、發展態勢、創新潛力以及薄弱之處。得到的主要結論如下:(1)珠三角地區主要科研事業單位在科研創新能力上總體存在較大的差異,整體科技創新能力近5 年處于穩步增長階段,但仍有進一步的提升空間;(2)各單位的科技創新投入程度提升顯著,科技創新產出能力和科技項目承接能力也明顯上升,但整體科技創新基礎環境仍有待改善;(3)科技創新頭部事業單位格局比較穩定,新興頭部科技創新事業單位的成長路徑不同,宜根據自身特點強化優勢補足劣勢。
另外,本研究提出的綜合評價算法框架可以靈活搭載其他不同的綜合評價算法,以應對各類科技創新綜合評價任務和其他綜合評價任務,構建自動化的綜合評價模型,對評價對象深入分級分析,定位劣勢、強化優勢,發揮評價活動“指揮棒”的作用,進一步助力智慧服務、智慧監管、智慧決策和政府數據化轉型,賦能科技創新發展。