2017年9月,國家教育部、財政部、發改委公布了世界一流大學和一流學科(簡稱“雙一流”)建設高校及建設學科名單[1],同時強調此次遴選認定不是一勞永逸,并非“終身制”,因此各高等院校對圖書情報服務部門實施建設成效動態監測的需求與日俱增。醫學高等院校既具備了作為高等院校基礎研究擁有較高學術產出的特征,也具備了在生物醫藥等應用研究領域較為活躍的特點,所隱含的“暗數據”廣度和深度符合對其進行可視化分析。
“暗數據”研究在我國尚處于起步階段。2015年2月22日,我國著名學者吳建中先生首次在其個人博客“建中讀書”里從理論探討角度論述了對“暗數據”的理解并做出了簡要的前景分析,受到了業界高度關注。隨后,網絡辭典“水滴學堂”率先嘗試在“暗數據”的定義、特征和應用場景3方面給予了簡單的揭示。二者的觀點不謀而合,均認為“‘暗數據’是深藏于海量數據之中、在商業應用上可能發揮重大作用的關鍵隱含數據。”它更強調“暗數據”的作用和影響力。目前,國內普遍認可的是美國權威的IT研究與顧問咨詢公司Gartner公司對“暗數據”的定義:“企業在開展正常業務活動期間采集、處理和存儲,但通常無法用于其他目的(如分析、商業關系和直接獲利)的信息”[2]。
在實踐研究方面,2008年,國際知名的開放出版機構生物醫學中心(BioMed Central,BMC)開始致力于藥物開發領域的暗數據研究,隨后全球最大搜索引擎谷歌(Google)開始致力于科技領域的暗數據研究。2012年開始,美國眾多企業在信息發布或微信等媒體上透露將關注“暗數據”信息。務實的IT業界內,包括惠普公司(HP)、美國慷孚系統公司(CommVault System,Inc)等,正致力于研究和推廣點亮“暗數據”的信息治理策略研究和智能歸檔解決方案[2]。
近年來,筆者曾發表過幾篇有關“暗數據”理論研究和應用趨勢分析的文章,國內學者崔小宜[3]于2005年發表了一篇相關文章,此外幾乎再無此類研究報道。筆者在3個國內數據庫(中國知網(CNKI)中心站的期刊全文數據庫、維普資訊的期刊全文數據庫以及萬方數據平臺的期刊全文數據庫)中,使用“暗數據”或“dark data”合并“雙一流”或“高水平”作為檢索入口詞,不限定檢索年限,截止到2019年2月1日,均未發現以“暗數據”可視化作為主要研究手段對高水平或“雙一流”建設為主要研究目標的相關研究文獻。說明國內對此研究接近空白[4]。
筆者認為,“暗數據”可以看作是大數據的子集,無論我們是否覺察或感知其存在,“暗數據”都是曾經投入過人力、物力甚至財力進行收集而來的未經處理和分析的存儲數據,并不是無用的數據。它也許包含未被發現的重要的價值或見解,就像宇宙中的“暗物質”,比起已知事物,“暗數據”的存在數量更大,但是潛在價值尚不明確,對其本身知之甚少,只能預測對未來產生一定推動或阻礙的可能性,也能為用戶提供更多、更廣泛的機遇[5]。現今的“雙一流”學科建設需要放眼全球范圍的一流高校及其優勢學科,因此本文以“暗數據”可視化為主要研究手段,使用Python語言、SQL數據庫等數據處理工具獲取每個對標機構的論文和指標等原始數據,基于以上數據進行全球基準值的統計和計算。同時,為了全面地對比分析,通常使用2~3個指標進行多角度揭示,所以涉及到論文的量級常達百萬甚至千萬篇。從分析的廣度來看,符合“暗數據”作為大數據主題的數據分析量;從分析的深度來看,可視化手段能夠為科技決策者制定合理的學科發展規劃政策和人才團隊建設提供更深入、精準的參考性意見和決策支持。
從2016年全國第四輪學科評估工作開始,教育部首次明確要求使用基本科學指標(Essential Science Indicators,ESI)作為衡量學術產出水平的重要指標。在“雙一流”建設過程中,各高校對ESI學科發展進行定期的動態跟蹤,并把學科能否進入ESI全球前1%作為學科水平高低的重要評價標準之一。ESI已成為全球反映學科論文質量、體現學科競爭力和影響力的權威工具,因此本文以進入ESI榜單的論文數量、學科排名、潛力學科等數據為主要研究對象,通過對ESI學科數據的定期抓取與分析,使用WOS-SCIE、InCites、ESI數據庫、Python語言和SQL數據庫,聯用文獻調研法、“暗數據”可視化分析法、線性回歸分析法和SWOT分析法,對ESI論文及其學科的歸一化產出、影響力指標、國際合作情況等定量定性的指標進行文獻計量學統計。
ESI是在匯集和分析Web of Science(SCIE/SSCI)所收錄的學術文獻及其所引用的參考文獻的基礎上建立的深度分析型研究工具,僅以總被引頻次進行排名,與文章數量無直接關系。它將SCIE/SSCI收錄的期刊分為22個學科(表1),以滾動10年為統計周期,每2個月更新一次[6]。ESI根據各機構論文的被引頻次的10年總和對機構進行排序,只有高校的學科論文總被引頻次排名進入前1%才能入圍該數據庫。這一分析評價工具核心指標的設置是經過國內外專家長期觀察篩選和計量分析后形成的。ESI及其相關分析越來越受到政府部門、各大高校、科研機構的關注和重視。本文主要針對ESI及其相關指標作為主要研究對象,擬從不同維度尋找“暗數據”可視化研究的耦合點。

表1 ESI提供的22個學科中英文對照表
高質量出版物的產量是衡量大學科研表現的重要指標之一,而ESI主要收錄引用頻次較高的SCI或SSCI期刊論文或綜述,正好與高水平出版物的理解相吻合。如圖1所示,近10年某醫學院校的出版物產量整體呈現增長的態勢,2018年的2 084篇比2008年的121篇增長了1 900多篇,增幅達17倍多。同時,用柱狀圖表示的引文影響力也低開高走,近10年呈現穩步增長的趨勢,增幅超過555倍,這一數據表明該醫學院校的論文增長速度超過了全球整體的增長水平。

圖1 2008-2018年某醫學院校總體出版物產量情況
如表2所示,國際合作最多的10個國家中合作最緊密的合作領域均為臨床醫學,這與該校的學科分布有關;與其合作論文的引文影響力均超過全球平均水平,其中與有的國家合作的論文引文影響力超過全球平均水平,說明加強國際合作有利于拓展學校在全球范圍的學術影響力,使學校得到更高的關注度和學術活化率。

表2 2008-2018年某醫學院校合作最緊密的10個國家及其合作表現
從SWOT分析的角度,定量研究ESI學科發展優、劣勢預估分析,開展多維指標與立體視覺對大學創新性與競爭力評價的耦合研究。圖2中,相對于全球的文獻產量占比(X軸)是用機構某學科的文獻產量占該機構文獻總產量的比例除以全球該學科的文獻產量占全球文獻總產量的比例的比值,因此它揭示了機構各學科的相對科研產出是否高于全球平均水平;X軸上全球均值為1。圖2中右上角的第一象限代表優勢,該區域的學科文獻產量占比高且具有高引文影響力;左上角的第二象限代表機會,該區域的學科文獻產量占比較小,但相對于全球平均水平而言具較高的引文影響力。這2個象限的所在學科,都是學校當前發展關注的重點對象。

圖2 某醫學高等院校22個ESI學科SWOT分析
基于目前的數據和4個象限制定的規則來看,位于優勢學科區域的臨床醫學、分子生物與遺傳學、神經科學與行為學、藥理與毒理學,其論文產出占比和引文影響力均超過了全球平均水平。此外,產出絕對數量較少但其引文影響力均超過全球平均水平的潛力學科,以及一些引文影響力接近1的受威脅學科如“綜合多學科”(Multidisciplinary),這些學科的產量目前占比不高,即發文量并不少,但影響力一直達不到被收錄的閾值,這可以為學校未來的規劃提供更為合適的建議,是機構未來發展規劃的重點關注對象。
從學科發展所需的數量來說,通過圖2的SWOT分析明確了學校當前的學科發展潛力后,對第二象限重點關注的潛力學科做進一步預測研究,可通過預測公式(公式1)估算。

此公式是按照ESI對近10年收錄論文規律的統計,并按照當前的發展速度進行推演的。但實際上,新出版的論文一般在出版的2~3年后才進入引用高峰期,“新增論文的被引次數”往往低于作為分母的“該校該學科的篇均被引次數”,而且該公式未考慮現有論文的被引次數繼續增加的情況。所以,一般來說所需新增論文數與實際存在一定的差距。
此外,由于ESI僅以總被引頻次進行排名,與文章數量無直接關系,因此目前各高校更多關注的是該潛力學科需要多長時間能進入ESI全球前1%。對于這個時間長度問題,筆者嘗試利用線性回歸算法建立某潛力學科的預測模型,根據近年來從INCITES數據庫定期更新并抓取下來的潛力學科數據,形成圖3的預測模型。

圖3 線性回歸算法預測潛力學科被引頻次與閾值差距模型
以下從研究熱點及投稿期刊影響力2方面進一步分析如何讓發表的論文得到更多關注。
為幫助科研管理人員更全面地把握當前全球重點研究方向的發展態勢,繼而為學校“雙一流”推進過程中進行學科布局規劃和重點培養建設人才隊伍提供客觀的數據支撐,著眼于分析當前全球的科研主題與研究前沿、熱點研究方向的關聯情況,從而為定位高校與研究前沿關聯度較高的科研人員與團隊提供有力的數據支撐,激勵科研人員提高自身及所在單位的科研競爭力及學術影響力。
使用ESI平臺提供的“Research Fronts”界面分析各ESI學科的全球研究熱點,但對于目前研究水平和科研投入與全球水平還存在一定落差的高校來說,還是不夠“接地氣”的。可以通過與對標高校對比分析,將當前國內外水平相當的高校與本校的研究熱點相結合,尋找意向合作或競爭追趕的研究契機。如圖4所示,選取一定數量的對標分析高校,對某ESI學科中被引頻次排名前10%的論文進行剖析,既能準確把握各自的當前優勢,又能進一步縮小研究范圍,以便實現下一步顆粒度更細的精準分析,如針對第一完成單位或者通訊作者單位進行數據清洗,或進行共被引分析找出學校未來突破的發展方向等。

(說明:氣泡大小代表機構在某ESI學科中被引頻次排名前10%的論文相對比例,紫色為本機構)
在某醫學院校發文最多的25種期刊中,有12種期刊位于Q1和Q2分區,說明發文最多的期刊中影響因子在同學科排名前50%的期刊占一半。但是,選取發文期刊時,一般只在投稿前期通過比較簡單直觀的影響因子(IF)和分區進行判斷,發表后的論文有多少處于完全未被引用的休眠狀態,哪些同學科期刊有更高的學術影響力和關注度,如何通過對標機構尋找同行投稿的突破口等,往往都被忽略了。如該校科研人員發文最多的為學術水平爭議較大的期刊Plos One,發文數量遠超過其他期刊。從期刊所屬的Web of Science學科來看,多數集中在Oncology(腫瘤學)、Medical Research & Experimental(實驗醫學)和Biochemistry & Molecular Biology(生物化學與分子生物學)相關學科中。通過精準的對標分析,合并使用歸一化處理的指標能較有效地借鑒對標同行的成功經驗。
為了體現規范化的引文影響力情況,本文對某醫學院校與對標高校構建引文影響力模型,如圖5所示。
從圖5可以看出,有相當比例的論文在發表后處于完全未被引用的休眠狀態,除了論文本身的議題或撰寫質量等因素之外,其投稿期刊在本行業內的口碑和學術關注度與單純判斷其影響因子IF和分區的結果存在一定的現實偏差。因而,通過分析對標同行的投稿習慣,并更多關注折線圖1~8區間(即引文影響力較高的期刊)情況,將有利于整體提升論文影響力。
ESI以SCIE/SSCI收錄的期刊,滾動10年為統計周期,每2個月更新一次,數據存在一定的時滯。如2018年11月研究的是SCIE/SSCI收錄的2008年1月-8月的期刊數據,部分最新數據呈現常態性缺失。此外,ESI嚴格限定為Article和Review兩種文獻類型,而最能體現學科發展前沿的國際會議信息則不被收錄,且對于準確計算各單位貢獻的通訊作者(含共同)或第一作者(含共同)均無法實現準確檢索與區分。相比之下,“雙一流”大學的學科發展建設更注重前瞻性,如何通過相對樣本量較大的數據進行全面統計分析,合理規避ESI數據平臺統計帶來的信息滯后問題,是本文首先面臨的難點。因此,本文擬通過聯用文獻調研法、比較分析法和SWOT分析法,交叉使用WOS-SCIE數據庫、InCites數據庫、ESI數據庫和DDA分析軟件等對后臺數據進行字段切分與深加工,分別從歸一化產出或影響力指標國際合作情況等定量定性的指標等不同維度對高校科研成果進行分析研究,客觀評價學科發展現狀。
ESI數據庫、INCITES數據庫及WOS-SCIE數據庫是科睿唯安公司提供的三大分析型數據庫,聯合使用這3個數據庫對全面和客觀掌握高校ESI學科的動態發展態勢更有利。盡管數據來源與加工深度基本一致,但由于存在著收錄范圍、更新速度、功能側重點不同等差異,在整理和統計分析過程中會出現統計口徑不一致,無法實現無縫對接等難題。對此,盡可能使用或訂購后臺所需的部分元數據,并充分利用DDA等統計分析軟件,邀請具備統計學、計算機編程、信息組織等知識背景的專業人員進行更準確、更全面的人工深加工,使ESI數據統計盡可能詳盡與客觀。
我國的學科是基于中國國務院學位委員會和教育部《學位授予和人才培養學科目錄》的學科分類體系,與ESI的22個學科分類體系有較大的差異,將高校現有的學科與ESI的學科分類進行匹配是本文要解決的關鍵問題。今后擬通過整理、分析ESI學科收錄的期刊清單,通過主要內容、引文學科歸屬等進行判斷,從而將歸屬于不同學科的論文分別對應到ESI的22個學科分類中,通過歸一化處理,形成口徑一致的雙向統計接口,以便于轉化為符合我國學科分類體系的高校學科發展動態現狀。
建設世界一流大學的目標已成為黨中央的戰略決策[7],世界一流大學和一流學科建設是繼“985工程”和“211工程”之后,中國高等教育領域的又一項國家級重點建設工程[8]。國家的“雙一流”建設,讓更多人認識了ESI。但ESI本身就是一個結果,只告訴人們哪些是全球最優。做到全球最優的方法、過程和途徑等問題,既是本文研究的主要關注點,也是“雙一流”建設以來不斷被反復拷問的。
在全國高校建設“雙一流”的過程中。高校圖書館的定位與服務已經在潛移默化中從“內核”開始發生了一定變化。由于主要承擔了ESI相關檢索與分析工作,也讓越來越多的人更清晰地認識到高校圖書館人的能力與責任感。圖書館除了承擔比以往更頻繁和更高要求的來自學校領導、科研團隊、研究學者等檢索、篩選工作之外,還涉及到跨學科、多技能的綜合統計、分析、評價和預測,甚至決策咨詢等深層次的服務要求。“雙一流”建設給高等教育事業的發展帶來了全新的契機,同樣也給高校圖書館人帶來了新的發展機遇和提出了更高的要求。作為圖書館人,都希望借高校“雙一流”建設的東風,占據越來越重要的位置。在實際工作中,僅密切關注跟蹤ESI 數據還不夠,今后要綜合使用更多的分析工具,嘗試將定量評價與同行評議等定性評價結合起來[9],深入研究挖掘其潛在數據價值。在把握機遇的同時,每位高校圖書館人更應努力提升“內功”[10],為“雙一流”建設提供更全面、客觀的科研支撐和決策參考。