劉玉婷 黃 芳
(首都醫科大學圖書館, 北京 100069)
隨著大數據技術的迅猛發展,對海量數據的處理已經成為計算機科學方面的重要任務,同時應用到各個專業的研究。其中,數據挖掘在大數據技術的發展中得到廣泛的發展。數據挖掘是指從數據中發現有效的、新穎的、潛在的、有用的、最終被理解的模式和知識的過程[1]。數據挖掘在高校學科建設工作中的任務是描述與預測,具體可以理解為從學科建設的數據集合中找到各個學科數據的規則和關系,這些規則可以用來評估學科的發展情況、與其他學校的數據進行對比、預測學科的發展趨勢等。
國務院2015年11月5日對外發布的《統籌推進世界一流大學和一流學科建設總體方案》[2],自2016年起針對大學以及學科建設明確提出了“雙一流”的任務要求,并分三個階段制定了時間表為我國建成高等教育強國明確了任務路徑。因此高等學校的學科建設是學校的重點工作,要對學科的發展進行評價,必須從基礎的數據開始分析。
文獻計量學指標是評價一個學校學科發展的客觀依據,沒有任何一個單一的文獻計量學指標能夠全面地評價科研績效[3],因此筆者選擇多個文獻計量學指標。大學的科研競爭力[4-6]應該由科研生產力、科研影響力、科研創新力、科研發展力這四個部分構成。這四個部分可以分別對應多個文獻計量學指標。本文應用因子分析法把一些具有錯綜復雜關系的變量歸結為少數幾個綜合因子,對復雜的文獻計量學指標進行分析和解釋,從而對中國高校臨床醫學科研競爭力進行評價研究。
本研究選取2012年教育部學位與研究生教育發展中心(簡稱學位中心)第三次學科評估臨床醫學參評高校50所。其中全國具有“博士一級”授權的高校共35所;具有“博士二級”授權和碩士授權的15所。在科睿唯安的InCites平臺,檢索這50所高校臨床學科的學科數據,文獻類型選擇Article和Reviews,同時檢索F1000數據庫中被推薦的論文數,數據檢索日期為2019年2月25日,檢索年限為2014年到2018年,從這些數據來分析各高校近5年的科研競爭力發展情況。
因子分析法[7-9]是從研究變量內部相關的依賴關系出發,把一些復雜關系的變量歸結為少數幾個綜合因子的一種多變量統計分析方法。它的基本思想是將觀測變量進行分類,將相關性較高,即聯系比較緊密的分在同一類中,而不同類變量之間的相關性則較低,那么每一類變量實際上就代表了一個基本結構,即公共因子。對于所研究的問題就是試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。
InCites數據庫對機構的文獻計量指標總共有48個,去除一些不能量化及許多高校沒有數據的指標,以及一些可以通過計算替代的指標,綜合F1000數據庫中推薦論文數指標, F1000數據庫基于同行評議對科研競爭力水平做客觀評價[7-12],共統計10個指標,具體數據詳見表1。對大學的科研競爭力一般由這些客觀指標來計算。其中學科規范化引文影響力( category normalized citation impact,CNCI)是按學科、出版年和文獻類型統計的規范化的引文影響力(引文影響力指論文篇均被引頻次);熱門論文百分比是入選基本科學指標數據庫(esseatial science indicaters,ESI)熱門論文(按領域和時間段統計的被引頻次排名0.1%)的出版論文百分比;H指數是機構或學者發表的N篇論文中有h篇每篇至少被引h次;國際合作論文數指含一位或多位國際共同作者的論文數。
把表1的數據用SPSS 19進行分析。在進行因子分析之前,用KMO與Bartlett球形度檢驗進行適合度檢驗。KMO值為0.837,Bartlett 的球形度檢驗近似卡方值為742.584,自由度為45,顯著性小于0.05,拒絕相關系數為0的假設,顯示這些指標變量適合進行因子分析,并且它們之間有相關性。
應用主成分分析法提取公共因子,根據原始特征值大于1的原則,提取2個公共因子,其特征值分別為6.443和1.696,方差貢獻度分別為64.431%和16.962%;累積貢獻率達到81.393%,表明這2個因子包含了10 個變量的絕大部分信息,能夠反映指標的內容,可以有效地反映各個醫學院校的科研競爭力,詳見表2。
根據旋轉成分矩陣(表3),可以看出,第一個公共因子F1在國際合作論文數、Web of Science論文數、被引頻次、F1000論文數、H指數五個指標上因子載荷較大,這些指標都和論文的總數量、被引頻次有關,尤其是國際合作論文數對F1的貢獻最大,其次是Web of Science論文數,因此把F1歸結為生產力規模量因子。第二個公共因子F2在CNCI、被引次數排名前 10% 的論文百分比、被引次數排名前 1% 的論文百分比、論文被引百分比四個指標上因子載荷較大,這些指標都是論文高影響力的指標,尤其是高水平論文的占比,因此把F2歸結為高影響力因子。這兩個公共因子從各高校論文的生產力規模量,高影響力兩個方面反映了高校的科研競爭力。
記X1*~X2*為表1原始數據標準化后的數值,應用SPSS軟件的回歸法得到成分得分系數矩陣(表4),根據該矩陣進一步得到50所高校因子得分表達式,其中aij表示第j個指標在第i個公因子上的得分系數Fi。

表1 各院校文獻計量學數據(部分)Tab.1 Bibliometric data of universities (Part)
CNCI: category normalized citation impact.

表2 因子分析的總方差Tab.2 Total variance of factor analysis

以旋轉后各因子的方差貢獻率占兩個因子總方差貢獻率的比重作為權重進行加權匯總,得到各個學校的綜合得分F,這個綜合得分可以看作各高校科研競爭力的得分,即F=(44.362*F1+37.031*F2)/81.393。
各學校各個因子得分見表5。

表3 旋轉成分矩陣Tab.3 Rotating component matrix
CNCI: category normalized citation impact.

表4 成分得分系數矩陣Tab.4 Component score coefficient matrix
CNCI: category normalized citation impact.

表5 各高校因子得分表(部分)Tab.5 Factor scores of universities (part)
以F1因子得分為x軸,以F2因子得分為y軸,以綜合得分F為氣泡大小,使用EXCEL畫出各個高校的科研競爭力氣泡圖,如圖1所示。
結合各個高校在兩個公共因子上的得分和綜合得分,可以對中國高等院校臨床醫學學科2014年到2018年科研競爭力的發展水平進行評價。
從圖1可看出,在第一象限的有上海交通大學、北京大學、復旦大學、中山大學、北京協和醫學院、南京醫科大學、華中科技大學、中南大學、天津醫科大學和中山大學,這十所大學的科研生產力規模量與科研高影響力這兩個公共因子都超過了0,具有很強的科研競爭力。在這7所高校中,只有協和醫學院和南京醫科大學是專門的醫科大學,其他高校都是合并了醫學院或者醫科大學之后的綜合性高校。
在第二象限的有同濟大學、第二軍醫大學、西安交通大學、哈爾濱醫科大學、廣州醫科大學、南京大學、武漢大學、大連醫科大學、江蘇大學、新疆醫科大學、南京中醫藥大學、寧波大學等。這些學校在科研生產力規模量上的得分低于0,但是科研高影響力上的得分大于0。這些學校是獨立的醫科大學較多,雖然科研生產力規模量不高,但是科研高影響力得分相對較高。

圖1 中國高校臨床醫學科研競爭力氣泡圖Fig.1 Bubble diagram of competitiveness of clinical medical research in chinese universities
Xaxis: F1;Yaxis:F2; bubble size: F.
在第三象限的有重慶醫科大學、廣西醫科大學、徐州醫學院、大連醫科大學、蘭州大學、山西醫科大學、錦州醫科大學、石河子大學等,這些學校科研生產力規模量和科研高影響力因子得分都不高,得分低于0。這些學校都是地方性大學,發展比較受限制,因此科研競爭力得分也不高。
在第四象限的有首都醫科大學、浙江大學、四川大學、山東大學、中國醫科大學、吉林大學、鄭州大學等。這些學校的科研生產力規模量因子分數超過了0,但是科研高影響力因子得分低于0。
從科研生產力規模量因子來看,前三位的學校是上海交通大學、北京大學、和復旦大學,從科研高影響力因子來看,排在前三位的是南京大學、寧波大學、南京中醫藥大學,這些院校的“被引次數排名前 1% 的論文百分比”與“被引次數排名前 10% 的論文百分比”上的表現比較突出。從綜合性的科研競爭力來看,排在前十位的院校是上海交通大學、北京大學、復旦大學、中山大學、北京協和醫學院、首都醫科大學、南京醫科大學、南京大學、中南大學、浙江大學,這些大學除了北京協和醫學院、首都醫科大學、南京醫科大學之外都是綜合性的學校,說明這些學校的科研競爭力比獨立的醫科大學科研競爭力要強。
用文獻計量學指標來評價高校的科研競爭力是客觀的方法,雖然有一定的局限性,但是也客觀反映了高校科研發展的狀況。當前已有一系列評價方法與指標體系[13-15],本文通過多源數據庫檢索,得到高校多個文獻計量學指標,然后通過降維的因子分析法,把這些復雜的指標歸結為兩個公共因子,限于數據本身情況,得到兩個公因子累積貢獻率達到81.393%,并不能完全替代原指標,但可以解釋大部分內容。本文通過因子分析方法將評價指標降維得出科研產出的規模量和高水平論文的比重是兩個重要影響因素,對于各個高校來說,為了進一步提高科研競爭力,加強學科建設,可以加大科研投入,增強創新力度,提高高校的科研創新力。對于科研生產力規模量比較高的學校,如首都醫科大學、浙江大學、四川大學、山東大學、中國醫科大學等,需要注意提高論文的質量,提高產出論文的影響力水平,尤其是要提高被引頻次排名前10%、前1%高水平論文的產出。科研影響力相對較高的學校,如南開大學、武漢大學、南京中醫藥大學、同濟大學、第二軍醫大學等,要注意提高論文發表的數量,鼓勵研究者多發研究論文,提高科研生產力。中國高校加強國際合作交流,建立健全國際合作交流的機制,從人才引進、國際合作項目、派出人員學習等各個方面制定制度,完善相關的人才激勵和考核政策,調動科研人員和教師開展國際合作交流積極性,從而提高人員的國際影響力[16],進而提高機構的科研影響力和競爭力。