朱良涵,張新嶺,郭玲瓏
(南京郵電大學 管理學院,江蘇 南京 210003)
人類的生產生活利用信息技術實現了各類事物的交匯融合,促進了海量數據資源的爆發增長[1],引領我們進入了大數據時代。大數據時代,為提高數據資源的利用效率,需要對海量數據進行挖掘和應用,因而必須進行數據共享[2]。隨著科學技術的迅猛發展,數據已經滲透到當今每一個工業和商業領域,數據共享逐漸成為人們的共識。
數據共享早在20 世紀80 年代就已經出現在我國學者們的研究文獻中,可以將其定義為“共享者發布研究數據為他人所用”。大數據與區塊鏈等新一代的信息技術為海量數據的開放與共享提供了強有力的支持,我國開始逐漸重視數據共享的戰略價值,大力促進數據共享工程的發展進程。
我國學者對數據共享的研究取得了豐碩的成果,然而目前學術界卻少有針對相關研究進行的梳理和分析。本文意欲借助Citesapce 軟件對我國數據共享相關文獻進行可視化分析,對其歷程、現狀和趨勢進行系統研究,探索國內數據共享的研究熱點和研究趨勢,為進一步推動我國數據共享的發展提供參考。
Citespace 是一種文獻可視化的知識圖譜軟件,由陳美超團隊基于科學計量學和數據可視化發展研發而出,可以顯示科學知識的發展規律與結構關系圖形。Citesapce 軟件能夠探索學科前沿的變化趨勢,直觀地識別學科發展的演化路徑,彌補傳統文獻綜述的不足,目前已被廣泛應用。本文擬運用可視化分析CitespaceV5.7.R2 軟件繪制數據共享知識圖譜。
本文主要通過對國內數據共享主題文獻的關鍵詞進行詞頻、聚類、熱點以及突現詞分析。分析前需要進行原始文獻數據的采集工作,將研究樣本的數據來源選定為中國知網學術期刊數據庫(CNKI),檢索的主題詞為“數據共享”,文獻檢索時間段截至2020 年12 月31 日,通過手工篩選,剔除會議、報告和新聞等與數據共享主題無關的文章,最終檢索得到1998—2020 年的文獻數據共計1 223 篇。
文獻的發文量和發文時間可以反映出該領域不同階段的研究情況,圖1 是根據知網檢索的“數據共享”主題1998—2020 年的發文量繪制的折線圖。

圖1 文獻數量年份統計圖
以數字共享為主題的文獻最早出現于1998 年,20 世紀后相關研究逐步增多。自2011 年以來,圍繞數據共享為主題的文獻開始以指數形式增加,這與國家的政策導向密切相關——在“十二五”期間,教育部為建成數字化學習資源開放共享服務平臺,大力推動學習資源建設、開放與共享。黨的十八大以來,我國確定了數據強國的戰略建設目標,各領域都在不斷加強數據開發利用意識。國家近年來的措施體現了對數據共享的重視,也引發了學界對數據共享更多的關注,由此數據共享發文量在2017—2020年階段發文量增長速度更快,并于2020 年達到峰值。2017 年黨的十九大報告提出全面實施國家大數據戰略。2018 年,習近平總書記指出,中國愿意在數據共享方面同世界各國開展合作,共享數字經濟發展機遇。此外,黨的十九屆五中全會指出,“十四五”時期,要堅定不移建設數字中國,探索在各地區、各部門間形成共享共有的機制。共享共有機制的有效實施是數字經濟發展的有利工具,能夠彌補區域不平衡發展帶來的“數字鴻溝”,對我國經濟發展必將產生重要影響。
對發文機構網絡共現分析可以認識推動國內數據共享研究發展的主要力量。本研究運用Citespace軟件中的發文機構網絡共現功能,對數據共享發文機構來源進行統計,最終得到數據共享領域的主要發文機構共現圖(見圖2)。
網絡圖譜中的每一個節點代表一個發文機構,節點的大小表示該機構發文數量的多少,節點間的連線則表示兩機構之間存在合作關系。圖2 呈現出來的網絡圖譜共包含685 個節點,747 條連線,網密度為0.003 2,節點分布較為分散,機構間合作強度較弱。其中發文量排名前十的機構如表1 所示。

圖2 發文機構合作網絡
有研究表明,地理距離阻礙著科研合作關系,地理鄰近性越大,越有利于創新主體交流互動,促進研發合作[3]。根據圖2 和表1,可以發現在數據共享研究領域內的各大發文機構間存在較為明顯的地域間合作,且合作強度較弱,未形成強大凝聚力的科研群體,在合作共贏方面存在較大的發展空間:發文量最多的武漢大學信息管理學院的主要合作機構也僅是武漢大學信息資源研究中心;位于同一地區的中國科學院大學和中國科學院文獻情報中心等研究機構存在合作關系;其他的高被引機構位于不同區域,目前尚未形成合作關系,聯系強度不夠。
學者們在核心期刊的發文數量總數通常在一定程度上代表了該作者在該領域的學術地位[4],通過作者共現圖譜可以識別研究領域內的核心作者群體。作者間網絡合作知識圖譜中共有586 個節點,443 條連線,表明數據共享領域研究有586 名學者發文在2 篇以上,部分核心作者構建了自己的合作群體。
以上數據共享研究作者被引情況具有三大特點:一是構成合作關系的學者大多位于同一機構內,由于組織間的跨區域合作較少,所以跨組織作者間未形成較為固定的合作關系;二是獨立研究者較多,發文量位于前列的作者聚焦方向不同,未建立不同視角下數據共享問題的合作關系;三是高產作者的研究方向主要體現在科研數據共享管理和政府數據共享兩大方向,反映了數據共享研究緊跟時代熱點,體現了較強的政策性導向。

圖3 作者合作網絡
1.關鍵詞共現分析。研究熱點是某一學術研究領域內學者們關注的焦點,能夠表明該領域在某一時期所關注的重點問題[5]。經過對節點大小、位置的調整后繪制出的關鍵詞共現知識圖譜如圖4 所示:該圖譜共有694 個節點和1 178 條連線。圖4 中的圓圈大小表示關鍵詞在文章中出現的頻次,圓圈越大則表示關鍵詞出現次數越大,圓圈間連線的粗細代表關鍵詞之間的聯系緊密程度,連線顏色的深淺代表該研究熱點出現的時間。

圖4 數據共享研究熱點的知識圖譜

表2 數據共享排名前10 的高頻關鍵詞
數據共享研究領域內“數據共享”“科學數據”“大數據”出現頻次高且中心度較強,在數據共享領域內具有較強的控制力,在關鍵詞共現網絡中,連接著不同的聚類,起到了重要的橋梁中介作用,同時對關鍵詞網絡結構具有較強的影響力,據此展開的研究較多,是數據共享領域研究的熱點。
2.關鍵詞聚類分析。聚類分析是根據關鍵詞之間的共現強度,將共享強度較大的關鍵詞聚集在一起形成幾大聚類標簽。本文采用K 均值聚類,最大聚類個數設定為10 個,將聚類共現矩陣中最大的作為該聚類的主題詞,以此來反映該聚類的科研發展方向,呈現出來的聚類圖譜顯示輪廓系數S=0.8532(S>0.7)表示聚類具有高信度。

圖5 關鍵詞聚類網絡圖譜
我國目前的數據共享研究的發展方向主要集中于政府數據和科學數據共享,具體研究圍繞這兩大主題展開,如#0 科學數據管理、#3 科學數據、#5數字政府、#8 電子政務等。由于數據隱私問題層出不窮,數據治理問題不容忽視,#4 數據治理與#9 數據隱私也是學者們的研究重點。在大數據、人工智能快速發展背景下,政府治理改革趨向于政府數據治理改革,實施政府數據治理改革,推動數據治理革新,有助于政府數據治理績效提升[6]。
1.基于突現詞可視化的研究趨勢分析。突現詞是指在短時間內出現頻率較高的詞,結合關鍵詞突現圖譜研究各主題的演進情況,經過整理得到1998—2020 年數據共享研究關鍵詞突現圖譜,我國數據共享領域研究的關鍵詞突增始于2000 年,關鍵性主題詞的突現情況各不相同。
根據突現詞的突顯強度研究發現,“大數據”的(Strength=10.89)突現強度非常高,發現在大數據這一時代背景下,政府顯著提高了對數據共享的關注度,并且陸續出臺了相關政策引導政府數據的共享與管治。2015 年國務院印發的《促進大數據發展行動綱要》明確了之后5~10 年的五大發展目標,其中包括:2017 年底前形成跨部門數據資源共享共用格局;2018 年底前建成國家政府數據統一開放平臺;2020 年底前民生保障服務相關領域的政府數據集向社會開放,由此可見大數據在數據共享領域的相關研究扮演了重要的推動角色。

圖6 國內數據共享關鍵詞突現情況
2.基于時間可視化的研究趨勢分析。主題演化分析能夠直觀看到在數據共享研究領域內,隨著時間推移其相關主題強度和內容的演化情況。為分析數據共享1998—2020 年的主題演化軌跡,利用Citespace 軟件中基于關鍵詞網絡共現圖的操作,得到關鍵詞時區圖譜(見圖7)。圖7 是以時間為橫軸,節點代表熱點關鍵詞,節點大小表示詞頻,節點間的連線則代表了熱點在時間軸上的演進趨勢。結合主題演化圖譜,可將我國數據共享的研究經歷分為以下三階段:

圖7 數據共享關鍵詞共現時區圖譜
(1)第一階段:探索階段(1998—2004 年)。在探索階段就涌現出了不少的研究成果,熱點主要集中在“數據共享”“元數據”和“科學數據共享”等。數據是構成電子文件的背景信息的重要組成部分,對于元數據的整理和利用可以有效地實現信息資源的管理和共享。1998 年,江澤民在中國科學院會議上兩次提到“數字地球”,提升了數據共享在學術界的研究熱度。2001 年以來,科技部啟動了科學數據共享工程,召開了以“中國科學數據共享”為主題的科技會議,2003 年開始建設國家科技技術基礎條件平臺,這是我國共享平臺建設的開端,為共享平臺發展積累了實踐經驗。
(2)第二階段:緩慢發展階段(2005—2011 年)。
結合圖譜,可以直觀地發現此時期的研究成果較少,并沒有迎來數據共享熱點研究的爆發期,該階段出現的研究熱點主要包括“數據中心”和“科研數據”。數據中心的建立有利于科學數據資源利用,科學數據的共享行為驅動了科研協作[7]。教育部于2006 年7 月完成“十五”211 工程中設立中國教育科研網格重大專項工作,滿足了各大研究高校的科研需求。信息化的發展促進了不同學科間的交匯融合以及知識的轉移與轉化,必然推動科學的發展。
(3)第三階段:快速發展階段(2012—2020 年)。國內在數據共享領域研究的廣度和深度在此階段發生了變化,反映了未來的研究趨勢。2011 年后,在大數據背景下,科研創新的數據驅動促進了學術界對高校加強科學數據管理的熱點研究。2018 年,中央全面深化改革領導小組第二次會議通過了《科學數據管理辦法》,首次在國家層面以制度形式對科學數據的共享與服務實施管控。這是我國科研數據領域有法可依的重要法規,積極推進了科學數據資源開發利用和開放共享,為科學研究提供了有力支撐。
在此階段,政府數據開放共享在國內開始被中央高度重視,成為了時代的熱點命題。2013 年G8 峰會召開,八國領導人共同簽署了開放數據憲章,被稱為開放數據的標志性事件之一,推動了政府數據對公眾開放共享。2015 年3 月,中科曙光發布“數據中國”戰略,提出“讓全社會共享數據價值”的愿景理念;同年,國務院在《促進大數據發展行動綱要》中明確了對政府資源共享的主要任務是加快政府數據開放共享,推動資源整合、提高治理能力。
從政府信息公開到政府數據開放共享的過程體現了我國治理體系和治理能力的現代化和法治化,未來研究方向也勢必趨近政府數據共享的治理以及數據的開放共享,這既是國家大數據對于政府數據治理的需求,也反映了學術研究與時俱進的特點。
本文運用基于科學知識圖譜的可視化分析方法,借助Citespace5.7.R2 軟件以CNKI 數據庫中1998—2020 年與“數據共享”主題有關的研究文獻作為樣本數據,分析了我國數據共享研究領域的研究熱點和發展演進趨勢等內容,為未來我國學者對數據共享網絡綜合性研究提供了參考。
我國數據共享研究主要經歷了探索、緩慢發展、快速發展三個階段,核心研究主題主要集中在科學數據、政府數據管理與共享兩方面,隨著大數據、區塊鏈等新興技術的注入,政府數據治理已成為發展趨勢。目前,數據共享研究領域內的組織間合作松散、交流少,對科研發展形成不利影響。隨著數據共享相關研究的豐富,科研合作正是進行科研數據共享的有效方法之一,科研數據共享可以增加學術成果的利用率,推進學術進程。因此,數據共享領域內的科學研究機構、學術研究作者們應該邁出固有的研究機構和資源框架,廣泛開展科研合作,提升研究和創新水平。
歐美等發達國家已形成了一批國家級的科學數據中心或高水平數據庫,利用它們持續匯聚和整合本國乃至全球科學數據資源,推動了科研發展,我國高校應加強知識共享服務平臺建設,積極借鑒國外高校在數據管理與共享政策等方面的長處,消除科研信息“孤島”,提升我國在該領域內的學術研究成果。
基于上述分析,結合我國數據共享發展現狀,后續研究可以從以下幾個方面進行探索:
從國內數據共享實踐來看,國家在宏觀層面給予了強有力的支撐,國務院印發了《政務信息資源共享管理暫行辦法》,其中強調了國家對政府數據資源共享應做好規劃部署,保證政府數據開放與共享的有序進行。但目前宏觀政策研究體系缺乏整體性和協同性,各級政府應堅持以宏觀政策為指導,遵循合理布局、整合共享、分級分類、動態調整的基本原則,協同制定政策法規,規范責任主體,促進數據共享平臺建設。
隨著海量數據資源的爆發式增長,數據內容豐富且繁雜,如果不能及時有效存儲數據,那么數據利用率會在很大程度上降低。我國科學數據的管理與應用存在明顯的不足,具有高價值的科學數據沒有得到充分的共享和使用。宋佳指出,大數據時代科學數據共享應遵循FAIR 原則(可發現、可訪問、可互操作、可重用四項原則)[8]。為了能夠實現真正的數據FAIR,國家應該加強數據技術研發工作,健全科學數據共享評價機制。
區塊鏈是一種基于大數據技術(數據量大、開放流動)的基礎上產生的一種新型分布式數據治理的新興技術,可以用于任何形式數據的交換。其主要優勢體現在提高數據公開透明度、促進數據分級共享、提高數據開放效率和保障數據安全。2019 年,習近平總書記在中央政治局第十八次集體學習時指出:“要探索利用區塊鏈數據共享模式,實現政務數據跨部門、跨區域共同維護和利用。”區塊鏈的發展還處于成長期,其穩定性和擴展性等方面還不夠完善,隨著其技術的不斷優化升級,與大數據、5G等技術協同發展,建立以區塊鏈技術為核心的全國統一數據共享體系,為我國數據共享領域的發展創造增長動力。