(武漢大學信息管理學院 湖北武漢 430072)
隨著數據密集型、數據驅動的科研成為新的科研方式,科學數據的管理和共享迅速得到了國內外圖書情報界、信息科學和其他學科領域的高度重視。王巧玲等從時間、主題和期刊等方面對我國科學數據共享研究的論文進行了計量分析,〔1〕姜曉虹梳理了科學數據研究的進程,并提出了現階段研究存在的問題與不足以及未來重點關注的方向?!?〕這些研究對了解科學數據研究的發展現狀和趨勢及其研究進程和結構有較大的參考價值,但他們均利用頻次對文獻數量、作者、主題、機構、來源期刊等進行統計描述,缺乏基于內容的分析,在考察科學數據的研究現狀,尤其是對于當前科學數據的研究主題和熱點的揭示存在一定的局限性。
共詞分析法屬于內容分析方法的一種,其原理是對一組詞兩兩統計它們在同一篇文獻中出現的次數,以此為基礎對這些詞進行聚類分析,從而反映出這些詞之間的親疏關系,進而分析這些詞所代表的學科和主題的結構變化,鑒別某一學科或主題的主要知識結構和研究熱點?!?〕研究借助SPSS統計分析軟件,采用共詞分析方法探討當前科學數據的研究主題,并結合文獻梳理主要的研究內容,旨在更加完整、客觀地展示科學數據領域的研究現狀和結構。
研究所使用的數據來自CNKI全文數據庫,為了盡可能地保證查全率,檢索主題為“科學數據”或“科研數據”的相關文獻 (精確匹配),時間設定為2003年至2013年(檢索時間為2014年1月13日),共獲得2221條記錄。剔除與主題不符、重復刊載的論文和會議文獻,有效記錄為582條,下載相應的題錄數據,采用共詞分析法,分三個階段進行研究。
2.2.1 統計高頻詞和構造共詞矩陣
第一,關鍵詞的預處理。抽取題錄數據中的關鍵詞,在詞頻統計之前進行關鍵詞的消歧處理,如將“data curation”中文譯名統一為“數據監護”。第二,統計關鍵詞頻次和構建共詞矩陣。利用EXCEL統計分析功能統計關鍵詞的出現頻次,并截取頻次不小于5的48個關鍵詞作為科學數據領域研究方向和熱點的高頻關鍵詞。高頻詞不足以概括該領域的研究主題,需要兩兩統計這48個高頻詞在文獻中出現的頻次,利用EXCEL構造共詞矩陣。
2.2.2 基于共詞矩陣的因子分析
在共詞矩陣的基礎上,利用SPSS軟件進行因子分析,進而展示該領域的研究主題和結構。因子分析的目標是用盡可能少的因子去描述眾多的指標或要素之間的聯系,根據相關性大小把研究對象的變量分組,使相關性比較密切的幾個變量歸在同一類中,每一類變量就成為一個因子?!?〕因子分析中,為消除共詞頻次差異的影響,首先根據相關性將48×48的共詞矩陣轉化成斯皮爾曼相關矩陣。在此基礎上,利用主成分分析法(Principal Components)、協方差矩陣(Covariance Matrix)和平均正交旋轉方法(Equamax)進行因子分析,得到主成分列表,并根據各主成分內因子載荷的分布情況結合文獻內容對主成分進行命名。
2.2.3 研究結果的分析和討論
通過因子分析獲得了國內科學數據領域研究論文關鍵詞的聚類結果,結合相關主題的文獻對研究結果進行進一步的闡釋說明,確定我國科學數據領域的研究主題和結構,并深入分析相關主題的研究內容。
通過對582篇文獻的關鍵詞進行詞頻統計,共獲取1193個關鍵詞。按照詞頻由高到低進行排序,并截取詞頻不小于5的48個高頻關鍵詞作為共詞分析的基礎(如表1)??梢钥闯?,科學數據共享和科學數據是出現最為頻繁的關鍵詞,其頻次遠遠高于排在第三的元數據。

表1 國內科學數據研究論文的高頻關鍵詞(頻次>4)
將48個高頻關鍵詞兩兩組合,統計其在582篇文獻中共現的次數,形成48×48的共詞矩陣,如表2所示(版面所限,只列出共詞矩陣的局部)。由于科學數據共享本身出現的頻次遠遠高于其他關鍵詞,因此,科學數據共享與其他關鍵詞在同一篇文獻中共現的概率也是最高的。

表2 國內科學數據研究論文高頻詞的共詞矩陣(部分)
通過因子分析,最終可得到主成分列表(如表3)。圖1中列出了部分主成分,它們按特征根從大到小排列,放棄特征值小于1的主成分,前8個主成分解釋了總變量的89.893%,其中僅前3個主成分的信息解釋量就達到了63.914%。表3顯示了因子載荷大于0.5的關鍵詞在8個因子(主成分)中的分布情況。

表3 因子數與涵蓋的信息量

表4 因子分析確定的科學數據研究主題結構
結合表3和表4,因子分析的結果如下:
(1)因子命名。大部分關鍵詞都歸于相應的因子,只有1個關鍵詞——云計算,由于其載荷系數小于0.5而未能參加分類,說明這一關鍵詞代表的主題較新,還沒有很好地同其他研究方向相結合。根據因子載荷大于0.7就對因子解釋有幫助的原則,〔5〕并綜合因子中其他關鍵詞的屬性,筆者給8個因子依次命名為:科學數據共享和數據共享平臺、科學數據組織與分類、科學數據監護與服務、科學數據整合、科學數據政策與開放獲取、科學數據網格技術、科學數據挖掘、科學數據管理(見表4)。
(2)關鍵詞跨區分布情況。共有4個關鍵詞跨區分布。因子1和因子7中同時出現了數據共享平臺,因子3和因子8中同時出現了科學數據管理,因子1和因子3中同時出現了數據服務,因子3和因子5中同時出現了關聯數據。這表明了上述的兩兩因子包含的內容相互滲透和交叉,有一定的相關性。
(3)關鍵詞的因子載荷系數為負的分布情況。共有2個關鍵詞的因子載荷系數為負,分別為“數據集成”(系數為-0.588)和“關聯規則”(系數為 -0.584),同相應的因子構成負相關關系,一般對此類因子不予考慮。例如,在因子3中的“關聯規則”是負值,這表明關于科學數據監護與服務的研究可能涉及關聯規則方面的問題,但還是比較少。
本部分結合關鍵詞詞頻和因子分析的結果,確定了科學數據研究的8大主題。從數據庫中獲得相關主題文獻的全文,通過深入分析文獻內容,剖析這些主題的研究內容和結構,進而探討目前國內科學數據研究所呈現出的特征。
4.1.1 科學數據共享和數據共享平臺
國內對科學數據共享的研究主要涉及以下4方面:①科學數據共享的動力分析。如張晉朝采用問卷調查方法,通過結構方程模型分析了影響我國高校科研人員科學數據共享意愿的關鍵因素?!?〕②圖書館、科研機構等機構參與科學數據共享。如黃筱瑾等探討了研究型圖書館與科學數據共享的關系,指出不同類型圖書館應根據自身的服務能力及服務對象的需求提供不同類型的科學數據共享服務?!?〕③不同技術在科學共享中的應用,包括本體、元數據、網格等。如李麗亞等構建了基于Ontology的數據共享檢索體系,并實現了簡單的語義查詢功能。〔8〕④科學數據共享的模式和實踐。如左建安和陳雅提出了大數據環境下科學數據共享的4種模式:國家政策驅動、部門之間交換、企業發展帶動以及國際組織參與?!?〕
科技部在2002年和2003年分別啟動的“國家科學數據共享工程”和“國家基礎條件平臺建設”項目,引發了科學數據共享平臺建設與研究的熱潮。地球、氣象、林業、水利、機械、資源環境等不同學科和專業領域的學者均探討了相應領域中數據共享平臺中數據資源建設、數據資源分類與編碼、數據安全、數據匯交、網站總體設計、平臺的架構與實現、互操作等問題。如諸云強等基于Java EE環境,研制開發了分布式地球系統科學數據共享平臺,能夠實現跨部門、跨系統的部署。〔10〕
4.1.2 科學數據組織與分類
科學數據分類與組織是科學數據管理、集成和服務的基礎。早期的研究主要包括元數據和XML等數據標引技術、分類和編碼體系以及傳統的信息組織方法的應用。如耿慶齋等提出了多維組合的水利科學數據分類體系結構,構建了由科學屬性、獲取方法、數據載體和時空定位組成的多維水利科學數據分類體系,并對其進行了規范化的編碼設計?!?1〕
隨著對語義網技術研究的深入,數據資源的組織方法不再僅僅從數據資源的表面特征入手,而是逐漸深入至數據資源的概念和語義,出現了一些基于本體、關聯數據、生命周期的數據組織的理論與方法。如房小可指出圖書館可以從實體命名、實體資源描述框架描述、實體關聯胡和實體的發布等方面構建科學數據的組織模型。〔12〕
4.1.3 科學數據監護與服務
國外圖書情報界對數據監護(Data Curation,DC)的研究涉獵較廣,從其歷史背景、概念界定、戰略規劃的制定、數據標準、關鍵技術到相關法律制定等都作了很多探索性研究與實踐?!?3〕然而,DC在國內圖書情報界還是一個新興的研究領域,目前還沒有相關實踐探索,理論研究主要集中在:①國外的機構、組織及高校圖書館等有關DC的會議、培訓、項目和實踐活動及其最新進展。②國內圖書館可開展的DC服務,包括數據保存、數據共享和教育培訓等服務類型,分析開展此項服務面臨的問題,并提出相應的對策。〔14〕③在國內實施DC的方法和途徑,包括制定明確的DC規劃和發展策略、培訓數據監護人才、完善高校圖書館數字資源長期保存機制等?!?5〕
隨著科學研究逐漸向數據密集型科研轉變,科研信息服務也由傳統的文獻服務轉向科學數據服務。國內科學數據服務研究主要關注以下3個方面:①科學數據服務的內容與方式。主要包括數據存儲與發布服務、數據發現與獲取服務、數據管理規劃服務、數據分析服務、數據引用服務和用戶社區服務等?!?6〕②科學數據服務中技術的應用。涉及數據共享平臺的構建技術、數據存儲、訪問和獲取技術、SOA技術、語義集成技術、云計算和虛擬化技術等。③圖書館參與科學數據服務。研究主要包括科學數據服務引發的圖書館未來發展定位、戰略規劃問題、圖書館參與科學數據服務的角色定位、圖書館可提供的科學數據服務方式及基于科學數據服務的信息素養教育等?!?7〕
4.1.4 科學數據整合
整合集成海量與異構的科學數據資源是實現科學數據管理和共享的基礎。目前在實際應用中已經形成了一些較為成熟的整合方式,主要包括基于數據倉庫和基于中間模式的整合方式?!?8〕隨著數據倉庫應用和網絡技術的發展,基于數據倉庫的整合方式有了一些新的發展,如整合的對象由異構數據庫向Web數據發展、利用數據挖掘等技術實現決策服務等更深層次的服務?;谥薪槟J降恼戏绞街饕遣捎弥虚g件,中間件構建方法主要有兩種:基于XML和基于語義模型的構建?!?9〕基于中介模式的整合方式也有一些新的發展,如開始利用Web Service、網格中間件等相關技術實現面向服務的集成整合。另外,為了解決數據整合中的語義異構問題,研究者開始關注如何利用具有較強語義概念的本體來解決數據整合中的語義不一致的問題。
4.1.5 科學數據政策與開放獲取
科學數據的管理和共享需要政策的支持和引導,國外在科學數據政策的制定和研究起步較早。國內相關研究主要側重于對英、美和澳大利亞等發達國家科學數據政策的調查和分析。從結構層次上看,科學數據政策體系應該是由宏觀(國家)、中觀(科研資助機構)、微觀(科研機構、高校、出版機構等)層面分別制定的科學數據政策共同組成。從內容上看,科學數據政策體系的內容至少應該涵蓋數據產生與匯交政策、數據管理與共享政策、數據保管與利用政策、技術支持政策。裴雷結合我國科學數據相關政策進行了實證研究,構建了上下位政策概念的一致性指標測算框架,討論了12個領域數據共享政策在吸收、擴散和創新過程中的政策文本質量,并提出改進建議。〔20〕
相關的科學數據保存和共享政策,極大地促進了數據的開放獲取。國內對科學數據開放獲取的研究主要集中在科學數據公共獲取的障礙、開放科學數據的相關政策、科學數據的開放注冊和引用、開放科學數據倉儲與數據共享平臺等。陳傳夫較早地關注了科學數據的公共獲取問題,分析了科學數據獲取方面存在的障礙,提出促進科學數據公共獲取的建議?!?1〕隨后,劉細文和熊瑞分析了英美以及眾多國際組織與研究機構的開放獲取政策的特點,認為其體現出圍繞科學數據交流渠道的各環節的特征?!?2〕另外,黃永文等對國外3個開放科學數據倉儲進行了介紹和比較,指出唯一標識符(DOI)和CC協議的采用有利于科學數據的開放共享和再利用?!?3〕
4.1.6 科學數據網格技術
網格是一個集成的計算和資源環境,其目標是將分布在不同地理位置上的網絡、數據、計算資源、存儲、應用等在內的資源整合成一個無縫的計算環境?!?4〕科學數據網格(SDG)是其在國內的主要應用。SDG是中科院科研信息化環境建設中的一個試點項目,建立在海量數據資源的基礎上,旨在利用網格技術達到大規模、分布、異構的數據資源的集成和共享,并以網格服務的形式提供數據服務的發布、查找和調用。〔25〕
目前科學數據網格以Globus為基礎提供數據訪問和統一服務接口,但本質上還是C/S模型,在發布和發現服務上采用集中式模式,對海量數據訪問低效,周園春等在結合P2P特點的基礎上,提出了一種新的數據訪問中間件框架,具有可擴展性、數據訪問高效性等特點?!?6〕另外,科學數據網格環境下數據傳輸技術、數據資源節點信任評價系統、信息服務技術、分布式查詢處理技術的關注也不斷增加。
4.1.7 科學數據挖掘
科學數據海量增長的態勢,使得科學數據挖掘技術在數據分析、聚類、關聯、知識發現以及趨勢預測等各項應用中變得尤為重要。由于數據的高維度、時變、時空相關等特性,使得現有的數據挖掘技術不能夠完全適應這些特性,很多學者探討如何將傳統的數據挖掘方法包括基于決策樹的方法、基于神經網絡的方法、基于遺傳算法的方法、貝葉斯方法、基于粗糙集的方法等應用在科學數據挖掘中,提高挖掘的效率與精度。另外,針對當前對科學數據特征表示的深度不夠問題,孫巍提出了一種基于復合文本描述的科學數據特征的表示方法,提高了科學數據聚類的效果?!?7〕
4.1.8 科學數據管理
科學數據管理的研究主要集中在:①國外科學數據管理與服務實踐。如彭建波歸納了北美人文社會科學數據管理典型案例的特點,對我國開展人文社會科學數據管理提出了建議?!?8〕②科學數據管理工具與模式,涉及科學數據管理系統與平臺、科學數據可視化分析系統、科學數據管理的方法與程序和科學數據管理框架等。③科學數據管理政策。主要包括宏觀和微觀兩個層面,宏觀政策為科學數據的管理和共享提供法律上的依據,〔29〕微觀層面主要體現在組織、機構等的數據發展與管理政策。④科學數據管理的教育與培訓。主要是對國外培訓項目的介紹,目前國內圖書情報專業課程設置中還未曾見到與科學數據管理相關的課程。〔30〕
通過因子分析和對文獻內容的研究,國內學者對科學數據的研究已經形成了相對集中的主題領域,我們可以對科學數據的研究特點做進一步的探討。第一,從上述8大主題的研究深度來看,部分主題還停留在基礎理論的研究階段。以科學數據共享主題為例,主要探討了數據共享的方法與機制,并沒有深入探究科研人員對科學數據需求狀況、數據共享中利益平衡問題以及科學數據共享中的障礙因素。第二,許多新興主題研究力度不夠,難以單獨形成體系。通過對關鍵詞的統計分析,發現“云計算”、“關聯數據”等主題正在逐步成長為新的熱點,但由于關注度和研究力度不夠,使得他們在共詞分析中只能依附于其他主題。第三,部分研究主題內容相互交叉。例如,“科學數據共享和數據共享平臺”和“科學數據監護與服務”這兩個主題均涉及到科學數據服務的研究。
研究以近十年國內科學數據研究的582篇文獻的高頻關鍵詞為數據基礎,通過共詞分析方法對研究主題和結構進行了分析,揭示了國內科學數據8大研究主題,分別為科學數據共享和數據共享平臺、科學數據組織與分類、科學數據監護與服務、科學數據整合、科學數據政策與開放獲取、科學數據網格技術、科學數據挖掘、科學數據管理,對了解國內科學數據研究的關注主題具有較大的參考價值。需要指出的是,研究尚處于探索性階段,還存在著一些不足。首先,在高頻詞的閾值確定方面,沒有足夠的理論支撐,閾值的確定很大程度上依賴于以往的經驗,具有一定的主觀性。其次,所研究的文獻類型為期刊論文,并沒有包括學位論文等其他文獻,如果將其他類型的文獻統計在內,可能會對研究結論有一定的修正作用。另外,還可以利用CiteSpace等軟件對共引作者、機構等進行分析,展示當前科學數據領域的研究進展和前沿。
1.王巧玲,鐘永恒,江洪.我國科學數據共享研究的文獻計量分析.情報雜志,2008(7):128-130
2.姜曉虹.國內科學數據相關研究進展分析.圖書情報工作,2009,53(13):50-53
3.李武,董偉.國內開放存取的研究熱點:基于共詞分析的文獻計量研究.中國圖書館學報,2010(6):105-115
4.陸宇杰,張鳳仙,范并思.基于共詞分析的高校圖書館核心價值研究.大學圖書館學報,2012(6):34-40
5.馬費成,望俊成,張于濤.國內生命周期理論研究知識圖譜繪制.情報科學,2010(3):334-340
6.張晉朝.我國高??蒲腥藛T科學數據共享意愿研究.情報理論與實踐,2013,36(10):25-30
7.黃筱瑾,朱江,李菁楠.研究型圖書館參與科學數據共享服務研究.圖書館論壇,2009,29(6):177-179
8.李麗亞等.基于Ontology的科學數據共享檢索體系解析.情報理論與實踐,2009(5):81-85
9.左建安,陳雅.基于大數據環境的科學數據共享模式研究.情報雜志,2013(12):151-154
10.諸云強等.分布式地球系統科學數據共享平臺研究.計算機工程與應用,2009,45(1):245-248
11.耿慶齋,張行南,朱星明.基于多維組合的水利科學數據分類體系及其編碼結構.河海大學學報(自然科學版),2009(3):23
12.房小可.基于關聯數據的高校圖書館科學數據組織研究.圖書館建設,2013(10):31-44
13.吳敏琦.Digital Curation:圖書情報學的一個新興研究領域.圖書館雜志,2012(3):8-12
14.沈婷婷,盧志國.數據監管在我國高校圖書館的應用展望.圖書情報工作,2012,56(7):54-57
15.程蓮娟.美國高校圖書館數據監護的實踐及其啟示.圖書館雜志,2012,31(1):76-78
16.洪程.國外科學數據服務現狀研究.圖書館雜志,2012(10):31-34
17.肖瀟,呂俊生.E-science環境下國外圖書館科學數據服務研究進展.圖書情報工作,2012,56(17):53-58
18.馬文峰,杜小勇.基于數據的資源整合.情報資料工作,2007(1):41-45
19.白如江,冷伏海.“大數據”時代科學數據整合研究.情報理論與實踐,2014(1):94-99
20.裴雷.我國科學數據共享政策概念一致性與政策質量評估.情報理論與實踐,2013,36(9):28-31
21.陳傳夫.中國科學數據公共獲取機制:特點、障礙與優化的建議.中國軟科學,2004(2):8-13
22.劉細文,熊瑞.國外科學數據開放獲取政策特點分析.情報理論與實踐,2009(9):5-9
23.黃永文等.國外開放科學數據研究綜述.現代圖書情報技術,2013(5):21-27
24.宋佳等.人地系統科學數據網格.科研信息化技術與應用,2011(2):82-89
25.張西廣等.科學數據網格研究進展.計算機應用研究,2009,26(10):3601-3603,3624
26.周園春等.科學數據網格中數據訪問中間件的研究.微電子學與計算機,2006,23(11):44-46
27.孫?。环N基于復合文本描述的科學數據特征表示方法.現代圖書情報技術,2009(5):22-27
28.彭建波.北美人文社會科學數據管理的實踐及其啟示.大學圖書館學報,2013(6):33-37
29.孟祥保,錢鵬.高校社會科學數據管理的國際經驗及其借鑒——以UKDA和ICPSR為例.情報資料工作,2013(2):77-80
30.司莉等.2005年以來國外科學數據管理與共享研究進展與啟示.國家圖書館學刊,2013,22(3):40-49