趙麗梅,劉 雯
(1.黑龍江大學信息管理學院,黑龍江 哈爾濱 150080;2.黑龍江大學信息資源管理研究中心,黑龍江 哈爾濱 150080)
科學數據是對科學研究進程和結果的直接表征之一,是反映人類科技文明發展記錄的重要組成部分[1]。隨著互聯網技術的發展和信息化社會的來臨,科學數據得到了深入的內容分析和挖掘,產生再生數據,形成了一種新的研究范式[2]。在大數據時代,科學數據已經成為戰略資源,公眾對于科學數據的共享和研究成果的獲取更為迫切。我國“科學數據”首次出現在1981年的地質領域論文中[3],1996 年,中國科學院從地球科學、資源與環境科學研究領域開始了數據共享的研究[4]。充分表明我國從20世紀末就已經開始關注科學數據及數據共享,并逐漸展開了一系列的研究和實踐。目前,國內已有不少學者解讀了科學數據共享政策及細則,研究了科學數據共享平臺發展現狀和策略,分析了科研人員的共享意愿和分工合作框架,探討了科學數據共享機制和保障體系。也有學者深入系統地從共享過程中利益平衡和激勵機制、共享行為演化博弈等方面展開研究。
科學數據共享已然成為目前眾創時代知識創新的戰略保障,與科學共同體的集體意向乃至國家利益緊密關聯,該研究領域已經引起學者們的廣泛關注,并從多個維度對其進行了闡釋和解讀,但對其主流研究范式及前沿熱點,尚缺乏綜合測度分析。本文以我國科學數據共享領域為研究對象,利用文獻計量的方法,揭示國內科學數據共享領域的主流研究范式和前沿熱點,為系統知悉國內該領域的研究態勢和優化理論體系及完善實踐應用提供有效的參考依據。
本文以CNKI 期刊數據庫(CSCD、CSSCI)為數據源,檢索主題為“科學數據”OR“科研數據”AND“共享”,檢索日期為2021年7月2日,檢索時間截至2020年12月31日,剔除一些報道、序言、會議等噪音文獻后,得到有效文獻478篇。
(1)矢量動態模型法。所謂矢量動態模型法,是將統計數據模型化,從而更加直觀地觀察技術的發展動態,是由美國專利與商標局專利技術評價和預測辦公室提出的一種方法[5]。矢量動態模型法最初主要用于對專利技術發展狀況的分析、評價和預測。本文將該種方法進行衍化應用,將文獻數量與參與主體及研究主題領域予以結合以揭示科學數據共享的總體進展情況。
(2)科學知識圖譜繪制。以科學知識圖譜繪制為主要分析框架,以共現分析為主流方法根據關鍵詞之間共現情況構建共現矩陣并繪制成共現圖譜,以展示關鍵詞所代表的研究主題之間的語義關聯以及語義關系所揭示的知識結構和所彰顯的該領域的研究范式。
本文利用文獻計量方法,對我國科學數據共享研究的發展狀況、核心作者、機構分布、學科分布進行分析。通過篩選并合并高頻關鍵詞,利用Vosviewer 軟件繪制關鍵詞共現網絡圖,并通過SATI3.2軟件構建高頻關鍵詞的相異矩陣,從而利用聚類分析、多維尺度分析等方法來揭示我國科學數據共享領域的研究熱點和前沿趨勢。
本文主要用矢量動態模型的分析方法來分析我國科學數據共享研究的總體進展情況。具體來說,以文獻發表量(即論文數量)代表研究活動,所發表文獻的作者數量、參與機構數量、文獻所涵蓋的關鍵詞數量等代表對科學數據共享領域研究活動的參與狀況(見表1),分別統計科學數據共享研究領域文獻的發表量與上述其他變量的數據隨時間變化的情況。
以文獻發表量為X 軸,所發表文獻的作者數量、參與機構數量、文獻所涵蓋的關鍵詞數量等為Y軸,將統計數據用矢量形式繪制在坐標中,求其矢量和,并以矢量和的起點為相對坐標的原點,判斷矢量和所在象限,據此確定我國科學數據共享研究所處的發展時期,如圖1、圖2、圖3所示。

圖2 論文數量-機構數量矢量圖

圖3 論文數量-關鍵詞矢量圖
通過對有效文獻的數量進行統計分析,結果如表1 所示。數據表明,1999 年出現了科學共享方面的第一篇論文,直到2004 年才再次出現該領域的論文。1999年科技部啟動了一批急需的科技基礎數據庫的建設,在實踐初期發現了實現數據資源共享的必要性,并在之后的幾年時間里陸續啟動了數據共享試點和開通運行“中國基礎科研研究網”[6]。因此,數據共享的問題被我國學者們開始關注和研究。1999-2008 年,論文數量無明顯的增長現象,呈現出緩慢發展的態勢。可以說,這一階段是我國科學數據共享研究的萌芽期。2009-2011 年整體出現了一個負增長的現象。從 2009 年的 24 篇到 2011 年的 12 篇,可以說是該領域處于孕育期,一個研究的累積過程。2008 年大數據的提出,給該領域的研究和發展帶來了新的機遇和挑戰,學者們在探索大數據的同時,繼續研究科學數據共享,使該領域能更好地適應時代的發展。2012-2016 年的4 年間相關論文數量迅速增長,從2012 年的18 篇到2016 年的76篇,該階段科學數據共享研究開始快速增長。2016年以后,從刊載的論文數量來看,進入了穩步發展時期。
依據表1和圖1,我國研究科學數據共享領域的作者數量一直呈現著增長狀態。2004-2012 年之間,除了 2009 年的 23 位作者和 2010 年的 25 位作者以外,作者數量一直保持在15位以下,可見該領域的研究處于萌芽發展階段。出現此現象的原因有:一是2008年9月,美國《自然》雜志正式提出大數據概念[7],二是2009年10月,微軟公司在發布的《e-Science:科學研究的第四種范式》中首次全面描述了數據密集型科學研究[8]。大數據時代的到來和第四研究范式的提出,使得科學數據成為關注熱點,引起眾多學者的研究興趣。因此,2009年和2010 年的作者數量出現明顯的增長變化,但當人們慢慢接受和適應大數據和第四研究范式后,學者們對于該領域的關注也有了一定程度的減弱。2013-2018 年作者數量顯著增長,數據表明,2013年作者數量較2012年直接增長5倍,并且2013 年以后的作者數量都在此基礎上不斷增長,這說明科學數據的研究進入了快速發展階段。2019-2020 年,無論是發文量還是作者量都很接近,無顯著變化,由此看來,此階段該領域進入了穩步發展時期。

表1 論文、關鍵詞、作者逐年分布量

圖1 論文數量-作者數量矢量圖
根據表1和圖2的數據表明,參與機構的數量呈現出不斷增長的趨勢。2004-2012 年的參與機構較為平穩,除了2009年之外,無明顯的增長和降低現象,足以印證這一階段,我國科學數據共享領域處于起步階段,研究群體較為固定。2009 年的參與機構數量明顯增多,在于大數據時代給科學數據共享帶來了新的研究方向,受到不少學者的關注,從而使得參與機構數量增多,但總體的論文數量沒有發生變化,這一現象說明作者的合作意識在不斷增強。自2013 年開始,參與機構的數量快速增長,但2015 年論文數量較2014 年無變化,參與機構卻出現減少趨勢,已經出現較為穩定的研究團隊和研究方向。總體來看,科學數據共享研究受到了越來越多的關注和重視,正處于發展階段。2019-2020年的數據表明,無論是發文量還是參與機構數量都趨于穩定,無明顯增減,該領域已經形成穩定的研究成果。
從圖1-圖3 的分析結果(圖中虛線表示矢量和)可以看出,無論是“論文數量-作者數量”“論文數量-機構數量”的統計矢量和還是“論文數量-關鍵詞數量”的統計矢量和,都顯示出2004-2012 年之間的該領域研究處于初期發展階段,參與主體(作者和機構)和研究的主題領域都還處于萌芽發展階段;從2013年開始,無論是文獻數量還是參與主體以及研究主題都呈現出強勁的發展勢頭,2015年是比較特殊的一年,論文數量較2014年并未增長,但是作者數量增長幅度較為明顯,而機構數量和關鍵詞數量均呈現下降趨勢。機構數量減少而作者數量增多,說明該領域在2015 年呈現出大科學時代的研究特征,有穩定的研究隊伍,但是作者的合作程度增加。而關鍵詞減少,說明相對于2014年其研究主題相對集中;2018年所檢索的文獻是在該年7月份之前,檢出論文相對較少,出現了一定的回落情況,但是2016年和2017年相對于2015 年各個研究維度均呈現上揚的研究態勢。因此,從虛線所代表的矢量和來看,我國科學數據共享研究領域正處于穩健的發展階段。
文獻產出與學科帶頭情況。根據普賴斯定律的表述,可知杰出科學家中最低產作者發表的論文數量等于最高產科學家發表的論文總數的平方根的0.749倍[9]。即判斷核心作者的論文下限數可以表示為:m=0.749(nmax)0.5,其中nmax表示最高產作者的發文量。在篩選的578篇文獻中,第一作者發文量最多的是17 篇,所以代入公式,計算可得m=3.09,取臨近最大整數4,因此發文量為4篇以上的作者有17 位,發文量共97 篇,僅占研究論文總數的16.8%,遠低于普賴斯定律所描述的核心作者發文量應占總論文的50%這一規定值。從占比情況可以看出,這些作者在我國科學數據共享領域并不具備較大的影響力,沒有形成穩定的研究群體和核心作者群體。這也恰恰驗證了該領域正處在發展階段。本文按照發文量的高低排序列出了部分高產作者,如表2所示。

表2 高產作者(部分)
論文作者的所屬機構分布信息能夠幫助了解對于該領域的關注度和研究現狀的區域差異情況。根據研究文獻的作者機構信息,統計出第一作者所在機構的發文量情況,發現發文量10 篇以上的機構只有7 所(見表3),發文量僅1 篇的機構有273所。

表3 發文量10篇以上的機構
其中,武漢大學信息管理學院位于第一位,共發表54篇論文。其次是中國科學院、武漢大學、江蘇大學等知名高校和各級重點研究所。可以看出,科學數據共享領域的研究機構分布比較分散,沒有核心和穩定的發文機構,這與核心作者的分布情況類似,這足以說明科學數據共享在整個科研活動中發揮著重要的作用,吸引龐大的研究群體去分析,該領域的研究在一定程度上處于上升時期.
某領域的學科分布信息,有助于進一步了解問題研究的理論基礎和觀察視角。機械地根據期刊的學科類別來判斷文獻所屬學科存在一定的片面性[10]。因此,筆者通過綜合期刊的學科類別、作者的研究方向以及文獻的中圖分類號,判斷科學數據共享領域研究的學科分布情況。如表4所示,圖書情報與檔案管理的文獻數量已經達到總數的68.5%,成為該領域研究的核心學科,也有部分學者從醫學信息、地質、農業等方面開展了對數據共享的研究。

表4 我國科學數據共享研究的學科分布
根據帕累托的二八定律,在任何一組統計對象中,最重要的只占其中一小部分,約20%,其余80%盡管是多數,卻是次要的。該理論已成功應用于高頻詞界定中,因此以20%累計詞頻覆蓋率作為該領域的核心關鍵詞是合理的[11]。按照此類方法篩選高頻關鍵詞,需要先將關鍵詞按照詞頻從高到低進行排序,統計各自與總詞頻的占比和累積占比,統計發現應選擇頻次39 以上的關鍵詞。但是本文數據中詞頻大于或等于39的只有5個關鍵詞,范圍過小,無法代表該領域的研究熱點。因此,本文根據孫清蘭的高頻詞分解標準N=D0.5(D 是指不同的關鍵詞個數)[12],來判斷高頻關鍵詞的范圍。本文中D=1069,代入上述公式,N≈32.70,取最大整數,即選取33 個高頻關鍵詞。對同義關鍵詞進行合并后,選擇頻次前33個關鍵詞,結果如表5所示。

表5 高頻關鍵詞及頻次
利用VOS viewer軟件構建這33個關鍵詞的共現網絡關系圖。將478 篇該領域文獻的題錄信息導入VOS viewer,規定最小關鍵詞的出現次數為8,即獲得33個關鍵詞,對其進行可視化,如圖4左圖所示。圖中圓點和標簽越大,節點越重要,同一顏色的標簽屬于同一聚類[13]。然后利用Gephi 對所有關鍵詞進行共現圖譜繪制,選取K-core 不小于2的關鍵詞共現圖譜,再進行最大成分抽取,獲得圖4右圖,輔助左圖對科學數據共享研究熱點進行綜合分析。

圖4 關鍵詞共現圖譜
用數據說話已經成為認知世界的一種方法和理念[14],圍繞科學數據的核心概念是數據政策(包括政策)、科學數據的相關建設技術標準(元數據、大數據)、數據管理以及相關應用背景,科學數據共享概念得以彰顯,科學數據共享中的監管政策、數據監管通過數據生命周期和知識產權為科學數據共享提供了可持續的保障機制;科學數據管理與服務、開放獲取、基于數據期刊的數據出版為數據引用提供了實踐平臺,進而實現更大化的數據共享,圖書館作為人類文明存續傳承的重要載體,在科學數據管理中發揮著不可或缺的作用。以美國為例,科學數據共享主要兩種運行機制:政府主導生產和投資生產的科學數據納入“完全與開放”共享管理機制,私營公司投資而產生的科學數據納入“平等競爭”市場化共享管理機制。科學數據監管是為了降低科學數據利用過程中主體們所面臨的不確定性,保障科學數據生產主體和科學數據服務中消費主體的權益。
通過SATI3.2 軟件對高頻關鍵詞的詞頻進行統計后,生成相異矩陣,如表6所示。相異矩陣中兩個關鍵詞之間的數據越接近1,表明這兩個關鍵詞之間的距離越大、相似度越小;反之,兩個關鍵詞之間的數據越接近0,表明這兩個關鍵詞之間的距離越小、相似度越大[15]。

表6 關鍵詞相異矩陣(部分)
聚類分析能夠使同一類別的個體具有盡可能高的同質性,而類別之間則具有盡可能高的異質性。共詞聚類分析,可以使距離相對較近的關鍵詞聚集在一起,形成相似類團,從而清晰地呈現出該領域的研究熱點[16]。將相異矩陣導入SPSS25.0軟件中,在“系統聚類”中選擇“組間聯接”和“塊”,得到圖5。該樹狀圖更直觀地顯示出了高頻關鍵詞聚類的整個過程,上邊的橫軸方向,代表了各類別之間相對距離的大小[17]。由圖 5 可知,33 個高頻關鍵詞分成了六大類別,分別是數據出版、科研模式變革、科學數據共享與管理、科學數據監護、科學數據共享服務平臺和科學數據共享政策,具體分布如表7所示。數據出版模式和科研研究范式的研究較少,說明技術發展速度較快,在該領域中已成為穩定狀態,無需深入探究。科學數據的共享、管理和監護屬于研究熱點,已涉及該領域的諸多方向,并且未來有著深入研究的趨勢。
多維尺度分析(MDS)是一種利用研究對象之間的相異數據(距離)或者相似數據,擬合得到包含所有研究對象在低維空間中的位置結構關系的分析方法。基于位置機構圖(關系),可以進一步對研究對象進行分析和歸類。將相異矩陣導入SPSS25.0軟件中,在“標度”中選擇“多維標度”,將數據視為距離,結果顯示stress=0.370,RSQ=0.250(stress〉 0.2,RSQ<0.6),說明模型擬合度較差,因此對路徑進行改正,將“數據為距離”改為“根據數據創建距離—歐氏距離”,結果顯示stress=0.175,RSQ=0.949(stress<0.2,RSQ〉0.9),說明度量模型擬合度較好,結果如圖6所示。圖6中高頻關鍵詞的分布反映了彼此之間的關系和強度,有高度相似性的詞語會簇擁在一起,形成學術共同體,距離越近表明二者之間的研究方向越接近,處于邊緣或者沒有歸入研究團體的詞語則說明其研究方向狹小,或者正在過渡到其他方向[18]。

圖6 多維尺度分析結果
結合聚類分析和多維尺度分析的結果,將我國科學數據共享領域的研究分為四個研究范式:科研模式的變革、科學數據出版、科學數據開放共享政策、科學數據共享與數據共享平臺。雖然聚類結果顯示6個類別,但是仔細觀察后發現,科學數據的監護與管理屬于科學數據研究的另一個領域,只是少數學者在研究數據共享或者共享平臺的時候對數據監護和管理的問題有所提及,才會出現此類關鍵詞。因此,可以將這兩類一并歸入科學數據共享與數據共享平臺主題中。接下來就從四個方面對我國科學數據共享領域的研究進行深一步的分析和探討。
(1)科研模式的變革。隨著社會對于知識需求的不斷改變和網絡信息的快速發展,科學知識生產范式發生了重大的變革和轉型,從開放獲取、開放數據,再到開放科學時代,科學社區正在經歷著從傳統閉合式科學向高度開放科學范式的根本轉型[19]。趙艷枝等[20]總結了三者的關系:開放數據是對開放獲取的補充,開放獲取、開放數據是開放科學的前提和基礎,開放科學是目標、是愿景。黃磊等[21]采用文獻計量方法分析了開放獲取和開放科學的轉變過程,發現開放科學具有比開放獲取更廣泛的適應性,包括的內容和參與主體也更多。開放科學已經成為一個不斷發展和較為廣泛的研究范式,促使研究人員可以將自己的研究成果中的每個要素與他人共享,增進科研人員之間的合作關系[22]。但在開放科學的發展進程中,需要科研人員轉變“要么發表成果,要么淘汰出局”的傳統科學思想,需要相關主體制定相關政策法規去強制和激勵科學家們開放共享的行為,還需要設計和開發能滿足相應需求的軟件工具,以其推動開放科學的發展[23]。
(2)科學數據出版。科學數據出版是指將數據跨越時間和空間實現數據集成,即在互聯網上公開數據,并且支持原始數據提供者之外的研究人員或者組織機構下載、分析、再利用以及引用數據[24]。數據期刊和數據論文便是數據出版的兩種形式。何琳等[25]從科研人員、科研機構、期刊等3個方面闡述了科學數據出版的發展現狀、出版模式、關鍵問題和改善建議。王丹丹[26]通過分析不同出版模式下的3種數據質量控制情景,認為推薦或者制定數據知識庫能夠進一步保障數據質量。吳立宗等[27]從數據中心和傳統出版系統兩個角度出發,提出和完善了科學數據出版體系包括數據提交、同行審議、數據發布和永久存儲、數據引用和影響評價5個環節。邢文明等[28]提出增強出版驅動的科學數據出版主要存在5 種模式:基于紙質、基于網頁、基于數據庫/平臺、基于微信和基于App的增強出版。
國內學者們高度重視數據出版。科學數據出版是目前實現科學數據開放共享的最根本途徑,它離不開科研機構、科研人員、出版機構、資助機構和數據倉儲等主體的共同參與。數據出版雖能夠在一定程度上保證數據的真實性、完整性,避免時間和資金的二次投入等問題,但如何高效合理地對這些數據進行描述、傳播、存儲仍是需要研究的難題。
(3)科學數據開放共享政策。開放數據共享離不開相關政策的引導和支持,從結構層次上看,該領域的政策體系由三個層面共同組成:國家層面的宏觀政策、科研資助機構層面的中觀政策和科研機構、高校、出版機構等層面的微觀政策。近年來,我國政府非常重視科學數據共享活動,編制了“科學數據共享工程建設規劃”,制定了《科學數據共享條例》《國家科技計劃項目科學數據匯交方法》《科學數據共享工程管理辦法》《科學數據分類分級共享及其發布策略》和《科學數據管理辦法》等一系列的數據共享政策法規[29],但是這些政策法規都是指導性質的,沒有要求強制實施科學數據的開放共享。
國內不少學者從不同角度解讀相關政策法規,旨在推動我國科學數據共享實踐,更好地提高和規范其開放共享的水平和程度。如司莉等[30]從科研管理機構、高校制定的數據管理政策以及政府制定的數據公開政策等方面考察了美國、英國、澳大利亞三個國家的政策特點,認為我國政府也應制定完善的科學數據開放共享政策,從而推動對科學數據共享領域的指導和規范。張洋等[31]從生命周期的視角解讀了《科學數據管理辦法》的科學數據采集匯交、增值處理與分析、長期保存和共享利用四個方面,認為我國缺乏與《科學數據管理辦法》為之相配套的實施細則。也有學者基于政策層面去分析科學數據共享中存在的現實問題。如李秋月等[32]從多個政策出發分析了科學數據共享的權益主體、權益分配機制、救濟途徑及安全與質量保證問題。郭仕林[33]基于政策的角度從經濟、科研和法律三方權益關系構建出利益平衡機制,并提出相應的建立原則和建議。
我國的科學數據共享研究相對于國外起步較晚,目前出臺的政策也不夠完善,以至于不少學者選擇對國外發達地區的政策進行研究并總結經驗。近幾年,基于我國政策文本分析或者基于我國政策視角的研究有所起步,但數量較少,深度較淺,且理論研究遠多于實踐。我國應該加大學習國外的實踐經驗,基于實際發展現狀,制定和完善相應的科學數據開放共享政策。
(4)科學數據共享運行模式與機制。從個體的科學數據共享意愿到整體運行模式歸納以及利益均衡探討,從理論研究到調查分析和實證研究,加之大數據時代的到來和信息技術的發展,科學數據共享此方面的主題領域處于一個由淺入深的快速發展過程,成為學者們關注和研究的話題。
該類主題研究主要包括以下三個方面:(1)科學數據共享的驅動因素研究。何琳等[34]采用調查問卷收集數據,通過結構方程模型分析和驗證了影響我國科研人員數據共享行為意愿的因素。陳欣等[35]以扎根理論方法為指導,發現了社會科學數據共享中的新現象和新問題,并得出了社會科學數據共享驅動因素。(2)科學數據共享的模式和機制研究。如陳湘[36]提出大數據背景下我國科學數據共享的五種模式:大科學裝置模式、開放平臺模式、檢測網絡模式、聯邦服務模式和科學數據出版模式。張艷菊[37]分析了E-Science 環境下高校圖書館科學數據共享的需求問題和模式框架。張旺等[38]從心理契約和合同契約的角度,研究了科學數據共享策略演化機制和共享策略激勵機制,得出科學數據開放共享策略選擇的最優路徑。(3)科學數據共享平臺與項目研究。如今,我國已經有了諸多類型的科學數據共享平臺:科學數據開放注冊平臺,科學數據開放存儲與服務平臺和科學數據開放出版平臺[39]。如國家人口與健康科學數據共享平臺的架構研究,中國草地和草業科學數據庫的應用、各省份科學數據共享平臺的建設等設計問題。還有我國科學數據共享平臺的服務效能分析和績效評估研究等實際問題。
綜上可以看出,我國開放數據共享領域研究主題廣泛,涉及范圍較廣,涌現出了不少優秀的研究成果,但無論從理論還是從實踐而言,都處于起步發展階段,仍存在一些問題:一是缺乏我國科學數據政策的深度剖析,基于政策的文本研究較少,這樣不利于數據共享的發展;二是對于數據共享的利益權衡、激勵機制、協作機制等研究不足,缺乏深度;三是我國科學數據共享的理論研究偏多,缺乏實踐的調查分析和實證研究。因此,這也是該研究領域未來需要努力的方向。
本文以478篇論文為研究對象,基于文獻計量和共詞分析的方法,借助SATI3.2、Vosviewer、Gephi、SPSS25.0 等軟件構建高頻關鍵詞的共現圖譜以及相異矩陣,通過聚類分析、多維尺度分析等方法,揭示和分析了我國科學數據共享研究領域的主要研究主題,對了解國內該領域的研究現狀和未來方向具有一定的參考意義。其中,科學研究模式的變革是時代發展推動和科研人員能動性選擇的雙重結果,科學數據出版是科學數據共享實現模式,科學數據開放是科學數據共享的政策支持和引導,這三個方面都是宏觀維度的驅動要素,而微觀的驅動要素——個體層面的科學數據共享是目前需要攻克的難題,將宏觀背景驅動和政策支持與個體的主觀意愿以及權益融合是科學數據共享研究領域未來需要著重考慮的議題。