基于“互聯網+”的圖書館科學數據服務與出版研究

2018-02-22 09:18:24陳瑩

圖書館學刊 2018年11期

陳瑩

（廣州市黃埔區圖書館，廣東廣州 510000）

1 “互聯網+”圖書館與科學數據出版服務

1.1 “互聯網+”圖書館

互聯網時代的到來影響著傳統行業的各項服務，“互聯網+”并不僅僅只是行業上簡單的疊加，而是互聯網與傳統行業之間的深度融合，傳統行業借助于“互聯網+”的數據處理優越性，“互聯網+”則借助于傳統行業的數據積累，共同構建出具有個性化的科學數據服務[1]。圖書館作為公共服務行業，在與“互聯網+”的深度融合過程中，產生全新的公共服務，形成網絡經濟與實體經濟共同發展的行業新模式。與傳統圖書館提供的數據服務模式不同，借助互聯網平臺的平等、開放、互動和去中心化等特點，基于“互聯網+”的圖書館將會構建完成資源融合、結構改革和服務創新等重要節點的改變，圖書館不斷適應全新的信息化時代數據的爆發，滿足各種用戶不斷發展的新需求[2]。“互聯網+”對圖書館公共服務的推動發展主要表現在3個重要方面[3]。

1.1.1 資源融合

不同于傳統圖書館僅僅將館藏資源作為主要資源依賴，基于“互聯網+”的圖書館可以實現資源的深度融合與跨界合作。圖書館可以依托互聯網將跨學科、跨領域的各項數據進行信息集成，并聯合社會各界公共服務部門進行數據庫的共享，完成跨界合作。

1.1.2 組織融合

傳統圖書館的各個機構之間基本上按部就班，相互之間并無多少交集和聯系，然而基于“互聯網+”的圖書館則可以促進圖書館內部機構之間構建深層的融合鏈接，以互聯網技術為基礎，提升服務質量和員工工作效率。

1.1.3 服務融合

“互聯網+”平臺可以促進圖書館各種服務的融合。以互聯網為基礎，通過定制統一的數據標準和數據標識符來集成圖書館的館藏文獻和數據語義集成，用戶可以在獲取文獻的同時獲取相關的數據，提升圖書館服務的效率和用戶體驗。

1.2 科學數據出版

數據出版工作是一種全新形態下的出版方式和服務，主要表現在[4]：數據出版方式與傳統的出版方式不同，傳統出版方式僅僅將數據文件上傳于網絡使得數據得以公開訪問，但是相應的數據并沒有保障服務以及數據相關的信息描述項，不能保證在網絡中長期存在并且不被損壞。科學數據出版能夠保證除作者以外的其他相關研究者也能夠訪問、下載和使用數據，保證了學術機構能夠從科學研究的角度對研究人員進行科學數據和相關信息的同行評審以及再加工，使數據符合統一的規范與標準，保證數據能夠被同行進行引用，提升數據的知名度。此外，數據出版相對于傳統出版來說更注重對在網絡上公開并共享的數據進行標準化、規范化處理，保障公開數據的質量控制和安全保護，具有開放性的存取模式。

數據出版在傳統出版的基礎上對科學數據的出版產生了深遠的影響[5]：數據出版是一種全新的數據共享機制，在保證學術文獻的知識產權基礎上能夠提升科學數據的引用價值以及科研價值。數據出版為數據在公眾視野內被發現、獲取和引用提供了便利途徑。在數據出版過程中，針對數據出版的同行評審環節能夠為數據提供質量保證。數據出版能夠保障數據集上傳到受信任的數據庫中，保障科學數據的安全性。由此可見，數據出版對于圖書館科學數據管理與共享具有良好的作用。

2 “互聯網+”背景下的科學數據出版存在的問題

“互聯網+”時代海量增長的科學數據需要更具個性化、更高效的數據出版模式，科學數據出版存在的根本性問題有科學數據標識問題、科學數據引用問題和科學數據評審問題等。

2.1 科學數據標識問題

“互聯網+”時代背景下，在海量的科學數據面前，對于統一的科學數據標識符的需求應運而生，經過統一標識符標識后的數據具有統一的標準，極大地提升科學數據標識服務的效率。在此背景下，數字對象標識符DOI號、統一資源名稱URN號以及開放鏈接OpenURL等統一數字標識符得到了廣泛的發展[6]。在這些統一數字標識符中，DOI號在科學數據出版中得到了廣泛的應用。DOI號的設計初衷是為了識別數字環境下各個對象的知識產權而構建的一組唯一的字符串，通過構建出網絡文獻出版的統一標識來保證出版內容的科學性。通過文獻出版過程中的DOI號，讀者可以快速獲取原文鏈接完成文獻的引用，文獻提供者能夠較好地完成數據的提供、保障以及知識產權等問題。在國際的統一標識標準中，DOI號由注冊代理機構和成員單位進行分配，覆蓋了世界各地，通過對各種語言的科學數據出版和文獻出版分配唯一標識符號，提升科學數據標識的標準。因此，在“互聯網+”的背景下，依托DOI號完成對科學數據的唯一標識，能夠極大地提升科學數據出版的標準，提升科學數據訪問的便利性。

2.2 科學數據引用問題

在科學數據的出版過程中，科學數據的公開發表和共享離不開數據的引用，針對數據和文獻的引用能夠極大增加提供者的貢獻以及使用者的便利。因此，眾多學者針對科學數據的引用問題進行了詳細的研究。在科學數據引用問題中，主要包括如何引用，引用什么以及何時進行引用3個主要方面。研究表明，當前國內外對科學數據的引用并沒有一致的標準，不同的知識庫或者不同類型的論文都具有不同的數據引用格式。當前主流的科學數據引用方式包括哈佛大學構建的定量數據學術引用標準、OECD組織構建的數據集和數據出版標準以及DataCite等機構發布的研究數據引用方案[7]。科學數據引用標準的構建是建立在規范的引用基礎之上的，需要被引用的科學數據具有良好的數據規范。所以，當科學數據是建立在DOI號的標準標識基礎上時，即可依托DOI號的統一標準，讓數據的引用能夠實現對數據版本的動態變更，以及數據地址的動態更新，數據受益者無需不斷改變引用地址，顯著地增加了科學數據引用的便捷性。另外，DOI號還有助于保障作者的知識產權和署名權，提升作者的名譽和知名度。目前，國內外的圖書館數據和情報中心等機構已經開始著手構建標準的科學數據引用方式。對于引用科學數據的作者來說，科學數據的引用是為了說明數據的來源并且保證科學研究在一定的標準范圍內，參差不齊的引用方式將會從很大程度上影響科學數據的引用率，減少科學數據的引用量。因此，構建科學的數據引用方式意義重大，能夠在規范科學研究的同時提升科學研究的引用量，加快科學研究的發展。

2.3 科學數據評審問題

科學數據評審是針對科學數據出版的質量控制手段，通過對公開的數據、文檔和代碼進行評估，保證文件是真實有效的，并且容易重復使用。實際上，與學術論文出版過程中的同行評審不同，針對公開科學數據的評審需要更為專業的團隊和更為標準的質量控制與評價手段。當前的公開科學數據出版的評審方法還未有統一的評審標準，事實上甚至對于科學數據是否需要評審也存在一定的疑問，學者仍在針對科學數據的評審進行研究和實踐。根據科學數據評審的含義，科學數據評審是一個包含有較多內容的復雜活動，包括對數據計算與結果分析的準確性等指標進行雙盲評審審查，具有較高的專業性，需要專業團隊合作完成。在針對科學數據評審過程中，主要是針對數據的科學性質量、技術性質量和監護性質量3個方面的評審。其中，科學性質量的評審是為了保證科學數據的完整性、真實性、準確性和有效性，一般由專業編輯或同行進行評審，戰略意義較大。技術性質量的評審則是針對數據形式和各種與數據相關的技術特點和細節進行評審，以保證數據格式的標準化以及數據對各種平臺的兼容性。

3 基于“互聯網+”的圖書館科學數據服務與出版新模式

為了解決科學數據在出版過程中存在的數據標識、數據引用和數據評審等問題，筆者在圖1中給出了基于“互聯網+”的圖書館科學服務與出版新模式。

圖1 基于“互聯網+”的圖書館科學數據服務與出版新模式

3.1 構建基于主體和客體相結合的科學數據出版新模式

“互聯網+”背景下，圖書館需要在傳統出版模式基礎上，構建基于主體和客體相結合的新型出版模式。其中，基于主體的科學數據出版模式可以分為：獨立數據出版、論文附件數據出版和網絡公開論文數據出版。總體來看，獨立數據通過具有合作關系的數據庫完成公開的上傳、評審和下載，依托于第三方的特性讓其可擴展性較弱。網絡公開論文數據出版則是將科學數據作為一種文本文獻方式進行出版，通常包含帶有專業數據庫的期刊論文出版以及綜合性的期刊論文出版兩種形式。

基于客體的科學數據出版模式也可以分為3種：自上而下模式、橫縱聯合模式以及自下而上模式。其中，自上而下的模式要求數據出版嚴格按照政策既定的要求執行，而橫縱聯合模式能夠將數據在區域或部門之間進行多元合作，提供更廣泛的數據公開和共享，自下而上的模式依托于非強制性科學數據的公開和共享，一般通過某些數據知識庫的存儲和管理服務。目前，由于“互聯網+”引入了海量的數據，通過大數據分析和數據挖掘方法在主體和客體的科學出版模式上形成了科學、高效的檢索，提升了數據出版后的可發現性以及被引用率。

3.2 構建基于數據資源融合的科學數據開發新服務

“互聯網+”為圖書館行業帶來海量的數據資源需求，針對當前圖書館科學數據的匱乏，構建出基于數據資源融合的科學數據開發新服務，具有重要的意義。圖書館的科學數據開發服務是通過對其自身館藏中的科學數據與其他機構之間的數據進行統一的收集和整理，針對各個機構之間的數據構建出科學數據共享平臺，并通過該平臺為用戶提供數據開發新服務?？茖W數據開發服務旨在提升科學數據的利用率，讓用戶更方便地獲取科研數據，提升工作效率，減少用戶在獲取數據上的無謂消耗。

“互聯網+”時代結合嵌入式服務和大數據發展產生的海量半結構化數據和非結構化數據對圖書館的科學數據開發提出了較大的挑戰。如何面向混合結構的數據完成有效的數據組織和開發，是當前絕大多數圖書館面臨的問題。在“互聯網+”背景下構建的科學數據開發新服務不同于傳統的圖書館科學數據開發服務，對跨學科和跨領域的科學數據進行深度有機融合，替代了傳統的線性疊加?？茖W數據的深度有機融合主要表現在，一是以互聯網為基礎的技術融合，通過元數據定義不同學科和領域之間的數據完成語義上的關聯；二是以圖書館等公益組織為基礎的組織融合，通過各個組織以數據共享的形式完成跨界合作，實現基于數據資源融合的科學數據開發新服務。

3.3 構建基于數據關聯技術的科學語義檢索新服務

科學數據出版的最重要目的是服務用戶，讓更多的用戶能夠享受到圖書館的科學數據出版服務。在科學研究的過程中，由于學科數據檢索是科研人員獲取資源的重要途徑之一，因此針對科學數據的檢索服務也逐漸成為了圖書館所要提升的項目之一。在“互聯網+”和大數據時代背景下，基于語義分析的科學數據檢索是當前圖書館數據檢索的重要發展方向。國外很多圖書館都通過各種形式的語義分析完成對科學數據的檢索，并將該服務提供給科研工作者，讓科研工作者能夠更快速、便捷地獲取所檢索的資源。相反，國內的圖書館在科學數據檢索服務方面還存在較多的問題，包括數據資源有限，僅僅只提供以館藏為主體的數據資源檢索，缺乏與其他公益機構之間的數據融合。另外，各專業學科之間的數據檢索較為分散，無法完成學科之間的數據關聯檢索。

“互聯網+”環境和數據挖掘為圖書館的科學數據檢索服務提供了有效的解決方案。在科學數據檢索資源中，圖書館可以與其他科研、商業和公益機構完成跨界合作和數據共享，讓圖書館擺脫傳統的僅僅依靠自身館藏數據完成檢索的局限。另外，在檢索技術方面，圖書館可以構建多維特征融合的數據檢索技術，包括構建元數據描述、數字對象標識碼等關鍵技術，讓不同學科在科研過程中的文獻和數據進行有效的深度鏈接，實現跨領域間的數據語義檢索，提升科學語義檢索效率。

3.4 構建基于云存儲分布式集群的科學存儲新服務

“互聯網+”時代下“井噴”的結構化數據、非結構化數據和半結構化數據也為圖書館科學數據的存儲服務帶來全新的挑戰。傳統圖書館的科學數據存儲服務只需要針對不同學科構建相應的數據倉庫，即可為該學科的科學研究提供數據存儲服務。科學的數據存儲服務能夠保證數據長時間的共享和復用，對科學研究具有重要的意義。然而，傳統圖書館提供科學數據存儲以自建數據庫為主，主要為科學研究人員提供存儲服務。隨著數據密集型科學研究逐漸成形，海量的多結構原始學科數據將會為圖書館的數據存儲帶來較大的壓力。圖書館將會面臨大量的昂貴設備維護和安全問題處理的難題，不但會造成大量的資金浪費，還會讓科學數據存儲服務便捷性更差。

基于“互聯網+”和云存儲的圖書館科學數據存儲形式，可聯合圖書館和各大科研、商業和公益機構建設分布式的云存儲服務。其優點如下：首先，合作機構的基礎云架構能夠減輕圖書館數據組織和維護的壓力。其次，云存儲構建的分布式集群能夠深化圖書館與其他機構之間的合作關系，將科學數據服務擴展至更多的非科學研究用戶，讓科學數據的存儲面向更多的受眾人群，提升服務范圍的同時增加圖書館的口碑，最終形成“互聯網+”的普惠服務。第三，各個行業或專業可以針對自己學科領域內的數據進行組織和維護，保障了數據公開和共享的長期有效性。

4 結語

“互聯網+”時代背景對圖書館的科學數據服務與出版提出了新的要求，通過構建主體和客體相結合的科學出版模式，開展數據資源融合的科學數據開發服務、數據關聯技術的科學語義檢索服務以及云存儲分布式集群下的科學數據存儲服務等，能夠形成“互聯網+”背景下圖書館科學數據服務與出版新模式。由此，科學數據服務與出版和用戶需求更加緊密相連，提升了科學數據服務與出版的便利性和有效性。