張連分 (石家莊郵電職業技術學院 河北 石家莊 050021)
面對數字化科研蓬勃發展帶來的機遇和挑戰,圖書館不應延續只提供文獻資料和學習場所的發展路徑,更應當提供創新性的科學數據管理服務,幫助科研人員解決數據管理難題,滿足科研資助機構的政策要求。進入21世紀以來,許多世界一流大學圖書館順勢而為,積極轉變圖書館業務定位,提供系列科學數據管理服務,建立了有效的服務模式。它們發揮自身優勢,加強與校內其他相關機構的協同,建設和管理數據資源集成和服務接入平臺,以科學數據管理生命周期為依據,以科研資助機構政策要求為導向,采取在線服務、人工咨詢、培訓研討等方式,提供數據管理計劃編制、數據存儲、數據分享系列化服務,取得了顯著成效。不僅為科研人員解決了數據管理難題,提高了科研效率和效益,保證了數據安全和有效分享,滿足了科研資助機構的政策要求,也加強了圖書館與校園內其他相關機構的合作,提升了圖書館的地位,使圖書館員成為科研伙伴和科技創新的參與者。
目前,我國出臺了國家層面的科學數據管理政策制度,建立了國家科學數據管理的總體框架。但是與發達國家的科學數據管理相比還有非常大的差距,主要表現在4個方面:一是我國開展科學數據管理服務的大學圖書館還很少,而發達國家的一流大學圖書館已經基本開展了科學數據管理服務,我國圖書館界需要加倍努力,迎頭趕上;二是我國大學圖書館提供的科學數據管理服務還很不完善,遠遠達不到全生命周期科學數據管理的要求;三是我國符合國際標準的科學數據庫數量很少,不能適應創新發展的要求;四是我國亟待加強科學數據管理的國際合作,成為科學數據管理國際協作網絡的重要參與者。為了貫徹落實國家加強科學數據管理的決策,縮小與發達國家的差距,我國大學圖書館需要認真研究借鑒國外一流大學圖書館開展數據管理服務的實踐經驗,總結提煉圖書館開展科學數據管理服務的關鍵要素和成功模式,找到提升我國科學數據管理水平的科學方法和路徑。
科學數據是指作為研究對象的數據,以及用于證明科學發現的數據[1]。從數據來源上看,它包括來自實驗、觀察、探測、仿真、調查等活動的一手數據,還包括來自公共部門或其他研究者的二手數據。從數據內容上看,它包括數據文件、說明文檔、用來處理數據的軟件等[2-3]。隨著數字化技術的深入發展,數字化數據已經成為科學數據的主體。數字化數據是指所有以數字格式生產的科學數據、已經數字化了的模擬數據、用于描述科學數據的數字化元數據[4]。自從2003年以來,數字化數據占全部新增數據的90%以上,其總量大大超過了紙質信息量[4],世界科研范式發生深刻變革,進入了數字化科研時代[5]。
數據量大、處理成本高是數字化科研的重要特點。從世界科學史的角度來看,世界科研產出量呈加速增長的趨勢。從17世紀中期到18世紀中期,世界科研產出量每年增加不到1%;18世紀中期到二戰前,每年增加約2%~3%;二戰后至2012年,每年增加約8%~9%,大概每9年就會翻一番[6]。近年來在數字化技術的推動下,科學數據量翻番速度顯著提高。以天文觀測、實驗物理、基因測序為代表的數據密集學科,其科學數據量大約每年翻一番[7]。2016年歐洲核子研究組織的大型粒子對撞機所產生的數據量甚至比2015年翻了5倍[8]。科研人員撞到了強大的數據墻,數據處理和分析占據了科研人員很大精力,一般占到實驗成本的1/4到1/2。對于數據密集學科來說,科研人員在獲得原始數據之后,往往需要成千上萬人編寫幾百萬行代碼,用于處理數據,耗費了大量人力物力[1]。因此迫切需要第三方機構特別是圖書館提供科學數據管理服務,以便降低數據處理成本,提高科研活動效率和效益。
可復制性是現代科研的重要要求,研究成果不能復制、主要實驗不能重復的科研活動,不但不被科學界認可,還會嚴重損害科研人員的科學信譽。而掌握高質量的科學數據是實現科學成果可復制的關鍵,因為科學數據是開展科研活動的重要條件,沒有科學數據的有效支撐,科研活動寸步難行,更談不上科研結果的有效復制。在數字化科研方式下,研究人員可以借助科學數據管理系統,實現全生命周期科學數據管理,提高數據處理的效率,做好數據計劃、數據收集、數據存儲、數據分析、數據發送等工作,保證數據安全和質量,支持可重復的科研工作。已完成的科研成果還要以科學數據為主要形式開放共享,用以支持將來的研究,幫助獲得新的發現,推動研究不斷深入,提高科研成果的社會價值。
為適應數字化科研的新要求,近年來許多國家的科研資助機構都制定了科學數據管理政策,把提交數據管理計劃和開展數據共享作為申請科研資助的必要條件和硬性要求。我國出臺《科學數據管理辦法》,要求適應大數據發展形勢,加強和規范科學數據管理,積極推進科學數據資源開發利用和開放共享?!犊茖W數據管理辦法》明確了我國科學數據管理的責任機構、管理流程、共享方式和安全保密要求,建立了國家總的科學數據管理框架[9]。美國國家科學基金、國家醫學基金、國家人文科學基金三大基金都對數據管理提出了明確政策要求。美國國家科學基金會(National Science Foundation,簡稱NSF)規定,基金申請人必須提供數據管理計劃,說明如何保存和管理科學數據,必須遵守相關數據分享政策。美國國家醫學科學院(National Institute of Health, 簡稱NIH)規定,申請50萬美元以上的研究項目要提供數據分享計劃,產生大量數據的基因研究項目無論資助額大小都要向后續項目開放分享數據。美國國家人文科學基金會(National Endowment for the Humanities,簡稱NEH)要求立項申請書中必須包括數據管理計劃,獲獎申請書中也必須包括數據管理計劃[10]。英國研究理事會(Research Councils UK ,簡稱RCUK)和英國威康信托基金會(Wellcome Trust)已經出臺了多項數據管理政策,鼓勵研究人員盡可能快地以盡可能小的限制公開他們的科學數據。英國研究理事會下面的工程和物理科學研究理事會(The Engineering and Physical Sciences Research Council , 簡稱EPSRC)還著重對研究機構提出了應承擔的數據分享責任,要求它們在全部數據生命周期上至少提供十年的數據管理服務[11]。加拿大也針對聯邦資助的科研項目制定了數據管理政策。2015年,加拿大衛生研究院(Canadian Institutes of Health Research,簡稱CIHR)、加拿大自然科學和工程研究理事會(Natural Sciences and Engineering Research Council of Canada, 簡稱NSERC)、加拿大社會人文科學研究理事會(Social Sciences and Humanities Research Council of Canada,簡稱SSHRC)三大國家科研資助機構,出臺了關于數據管理原則的草案。該草案明確了研究者、研究機構、資助者的相關責任,支持最大限度地開放政府資助項目數據,要求制定數據管理計劃,實現數據公開分享[12]。
除了科研資助機構對數據管理的要求之外,科技期刊也對論文作者提出了數據管理要求,要求作者提供充足數據,促進科學數據共享,保證科研成果的可復制性。著名科技期刊《自然》(Nature)要求作者向讀者及時提供與論文相關的素材、數據、代碼等[1]。《美國政治科學雜志》(American Journal of Political Science)要求作者使用腳注等方式為讀者提供數據,并且提供數據分析文檔以實現科研成果可復制。《美國政治科學評論》雜志(American Political Science Review)要求作者提供數據文檔,充分詳細地描述研究分析流程,便于讀者了解評價科研成果的來龍去脈。英國倫敦動物學會出版的期刊《動物保護》 (Animal Conservation)規定,在該刊發布的DNA數據必須存儲到EMBL、GenBank、DDBJ三大核苷酸數據庫之一,作者必須在論文中公布基因序列號,允許公開查詢[13]。
為了幫助科研人員管理好科學數據,支持科技創新,許多世界一流大學的圖書館較早開展了科學數據管理服務,已經建立了比較完善的信息基礎設施,形成了自己的服務方式,能夠提供比較規范和豐富的服務內容。
其實踐經驗主要包括如下3個方面:一是建立了數據管理服務綜合平臺,發揮資源集成和服務用戶的作用,提供數據管理系列服務,成為數據管理資源的富集地、數據服務和技術支持的聯系點、數據管理培訓和指導服務的提供者;二是通過協同方式來管理平臺和提供服務,充分發揮圖書館聯系用戶和服務用戶的優勢、信息技術部門的技術優勢、科研管理部門的管理優勢、研究機構和教學系部的科研優勢及教學優勢,以在線方式為主場、人工方式為輔助、現場培訓為縱深提供服務;三是從數據管理生命周期的視角、以數據管理政策為導向,抓住數據管理服務的著力點,重點提供數據管理計劃編制、數據存儲、數據分享等系列服務以及專家咨詢服務、教育培訓服務等延伸服務。
為了獲得有價值的信息,筆者甄別選取了國外5所較早開展科學數據管理服務的大學圖書館作為研究對象。這些圖書館經過多年的實踐,已經形成了比較成熟的數據管理服務方式,并取得了明顯成效。同時選取北京大學圖書館作為研究對象,因為北京大學圖書館是國內目前唯一開展科學數據管理服務的大學圖書館,其實踐經驗也具有較大的參考價值。
通過對國內外6所一流大學圖書館的深入研究,發現它們開展數據管理服務的基礎設施主要包括服務平臺、支持系統、數據標準等(見表1)。服務平臺是圖書館用于提供數據管理服務的專業化網站,數據資源庫是科學數據管理的支持系統,數據標準是科學數據管理的流程和規范。在服務平臺方面,6所大學的圖書館都開辦了專門的數據管理服務網站。在支持系統方面,國外5所大學圖書館都開發了自己的科學數據管理系統,其中麻省理工大學和哈佛大學的圖書館聯合開發了科學數據管理系統,北京大學引進了這一系統。在數據管理標準方面,美國的幾所大學圖書館和北京大學圖書館都依據DDI(Data Documentation Initiative)科學數據管理標準開展工作。DDI標準是由美國校際政治及社會研究聯盟發起研制的。而英國的兩所大學則依據DCC(Digital Curation Centre)科學數據管理標準開展工作,這個標準是由英國數據管理中心研制的,目的是為英國高校的科學數據管理提供規范。

表1 一流大學圖書館開展科學數據管理服務的方式
通過對比分析幾所世界一流大學圖書館的數據管理工作實踐,發現他們都按照國家科研資助機構的政策要求提供服務,依據科學數據管理生命周期標準所規定的流程和規范開展工作。從科學數據管理生命周期來看,科學數據管理包括編制數據管理計劃、數據處理、數據存儲、數據共享、數據分析、數據創新利用等環節。但是圖書館不可能包攬所有的工作,而是發揮自身聯系用戶和服務用戶的優勢,重點在編制數據管理計劃、數據存儲、數據共享等方面提供服務,并面向用戶提供與科學數據管理相關的專家咨詢服務、教育培訓服務。
3.2.1 提供數據管理計劃服務
提供數據管理計劃相關服務是圖書館的第一個著力點。數據管理計劃是一份正式文檔,用以說明研究者在項目研究過程中和項目完成之后如何處理科學數據。它為科學數據管理工作提供了藍圖,明確了數據管理流程和要點,改變了數據管理的無計劃狀態,可以有效避免數據丟失、混亂等問題,實現數據管理的規范化、流程化,保證數據質量和可復用性。同時數據管理計劃還是一份動態文件。因為科研是一種創造性活動,有時需要改變路徑、調整進度,數據管理計劃也應當隨著科研節奏和方向的調整而調整,只有這樣才能保證數據管理計劃的科學性和實用性,真正發揮它的作用。根據一些國家的實踐,圖書館可以在3個方面為用戶提供數據管理計劃服務:(1)在線提供本國政策指導。不同國家的科研資助機構都有自己的數據管理計劃編制要求,美國、澳大利亞、英國等國家的諸多學術圖書館都在線列舉和詳細說明了本國國家科研基金和相關科研協作機構的數據管理計劃政策,供本單位研究人員了解遵循。(2)在線提供外部參考資源。主要是收集整理國外的科研資助機構、大學和研究機構的資料,提供國外的數據管理計劃要求和數據管理計劃制作資料,供本單位的研究者參考。(3)提供在線編制工具。制作導引式數據管理計劃編制工具,提供外部機構的數據管理計劃編制工具,收集整理各類各級公共科研基金、各類學會、其他研究機構的數據管理計劃模版,提供給本單位的研究者作為范本。
3.2.2 提供數據存儲服務
數據存儲是圖書館開展數據管理服務的第二個著力點。這項工作由圖書館與高校的科研管理部門、信息技術中心等協作開發和運作。數據存儲服務主要包括保存、備份、長期保存3項重要內容,還提供相應的數據文檔制作、數據庫使用的指導和培訓:(1)保存數據。這項功能既能實現數據存儲,也能做到數據備份,還可以開展數據共享。(2)備份數據。主要防止因電腦損壞、重裝系統等原因導致數據丟失,保證數據安全,但是不能共享數據。(3)長久安全保存數據。這項服務為研究人員提供永久賬號,做到人走號不銷,能夠實現不同時期數據版本的永久保存和安全備份,克服短期保存和備份的缺陷。所有這些數據存儲服務都要依賴數據存儲系統來提供,一般有以下4種存儲系統:(1)高校和研究機構自主運行的系統。一些高校或研究機構自主開發數據管理系統來提供長久保存服務,服務范圍往往限于單位內部。例如斯坦福大學圖書館開發的數據資源庫系統(SDR),不會因為員工離職等原因而注銷賬號,可以永久訪問賬號的研究數據,能夠實現數據的長久保存、共享和分析。(2)高?;蜓芯繖C構統一購買存儲服務,免費提供給二級部門、員工和學生使用。(3)高校師生或研究機構的員工自費購買商業存儲服務。(4)資助機構和期刊社等規定存儲的數據庫,如有的機構規定DNA數據必須存儲到EMBL、GenBank、DDBJ三大核苷酸數據庫之一。
3.2.3 提供數據分享服務
數據分享是圖書館開展數據管理服務的第三個著力點。科研成果數據是研究者對社會的獨特貢獻,只有通過一定方式與他人分享才能發揮作用并得到社會的認可。數據分享有助于推動將來的科學研究和獲得新的科學發現。在數據分享方面圖書館可以為研究者提供4方面的服務:(1)圖書館作為數據管理服務的綜合聯系點,為用戶提供各類數據資源庫的入口,搭建數據生產者和消費者之間的橋梁,實現數據資源傳送和再利用。(2)在線提供數據分享政策。國家科研資助機構對所支持項目的科研成果有分享政策,要求項目成果出版物和電子化數據必須在國內分享,以促進本國企業和實體提高創新能力和競爭力,推動國家經濟發展。圖書館可以比較全面地收集整理國家科研資助機構對數據分享的政策要求,在線提供給研究者遵循,有利于提高科研項目的社會效益。(3)幫助用戶理清數據訪問限制。圖書館還可以在線提供國家關于知識產權保護、隱私保護、科研倫理等方面的法規和政策,了解用戶的知識產權和隱私保護要求,幫助用戶對敏感數據實行限制存取控制,從而保護科學數據安全和個人隱私。(4)在線提供元數據工具。元數據是用以揭示科學數據屬性的描述性信息,有利于數據生產者和使用者對科學數據達成一致性認知,是實現科學數據準確檢索和有效利用的重要基礎。圖書館的工作重點是收集提供各種元數據工具,幫助研究者選擇控制詞用于生成各種結構化的元數據,以揭示內容數據的屬性。
3.2.4 提供教育培訓服務
提供教育培訓服務是圖書館開展數據管理服務的第四個著力點。教育培訓服務的主要形式包括數據素養課程、針對某項數據管理技能的短訓班、針對特定群體或科研項目的研討班、在線自學教程等。其主要內容有兩個方面,首先是培養研究人員的數據管理意識。通過教學培訓課程,讓研究人員充分認識到良好的數據管理在現代科學和履行合規義務方面的重要性,掌握國家、國際機構、研究人員所在機構的數據管理政策和要求,遵循數據所有權、隱私權保護法規,提升研究人員和機構的信譽。
教育培訓服務的另一個重要方面是開設數據管理實踐教程,提高數據管理操作技能。圖書館員與研究人員成立開放式的研習會,共同針對相關主題的數據管理計劃進行溝通研討,就數據管理計劃提供針對性的培訓指導;提供比較集中的培訓和研習,幫助用戶掌握數據分享政策、數據保護要求以及數據發現方法等知識和技能;傳授創建描述性元數據的知識和方法,培養研究人員進行數據標引和數據檢索的能力,提高數據存取效率;評估比對各類科學數據資源庫,包括綜合性數據資源庫和特定學科數據資源庫的體系特點和使用方法,促進科研人員正確選擇和使用數據資源庫;面向正在或將要負責本機構數據管理的人員,開展數據管理內訓師項目,培訓培訓者,傳授所需專業知識和技能。
3.2.5 提供專家咨詢服務
提供專家咨詢服務是圖書館開展數據管理服務的第五個著力點。專家咨詢服務是針對研究過程中研究人員遇到的特定數據管理問題而提供的人工中介服務。首先,它不同于教育服務的通用知識和技能教育,而是組織安排數據館員、信息技術專家和其他技術支持人員,憑借他們的專業知識來滿足個性化的數據管理服務需求。其次,專業知識服務傾向于與研究過程本身并行運行,它們被研究周期不同階段的研究人員消費,而教育服務可以獨立于任何特定的研究過程而消費。
專家服務針對研究人員特定的科學數據管理問題提供決策支持和定制解決方案。研究人員可以通過“幫助熱線”就數據管理相關問題向專家詢教;也可以直接到圖書館向數據館員或聯絡館員咨詢協商;還可以根據自己需要,尋求定制的數據管理支持服務,學習了解數據管理計劃、元數據創建、數據準備、第三方存儲服務、數據訪問等方面的專門知識和技能。
提供科學數據管理服務是大學圖書館為適應數字化科研潮流而采取的主動行動。它為科研人員解決了數據管理難題,提高了科研效率和效益,也加強了圖書館與校園內其他相關機構的合作,提升了圖書館的地位,圖書館員的角色也發生了深刻變化。這一部分的評價數據主要來源于各大學的網站、DataCite組織。各相關大學的網站有平臺介紹、瀏覽人數、案例分析、評價文章等多種豐富資料,可以引導用戶正確使用和看待大學的數據管理服務,并作為其成效評價的重要依據。DataCite組織是由加州大學數字圖書館、英國國家圖書館等多個國家的科學數據管理機構共同建立的組織[14]。其目標是幫助科學界以可信方式來識別、檢索和引用科學數據。其所收錄的數據管理服務系統經過了嚴格的可信性檢驗,可以作為評價大學圖書館數據管理服務系統的重要依據。
數據管理平臺以多種方式開展數據管理政策的咨詢服務,全面匯集各類科研資助機構的政策要求、大學的政策要求、期刊的數據開放要求,以在線展示、人工咨詢、專題培訓的方式開展服務。通過各種咨詢和培訓,提高了科研人員的數據開放意識、編制數據管理計劃的意識,具備了按照數據管理計劃開展數據管理的技能,自覺在科研活動的全過程實施規范的數據管理,從而滿足科研資助機構的政策要求。
數據管理服務改變了本地分散存儲的狀態,提供多種集中化異地存儲方式,為科研人員解決了數據安全備份和長久保存兩個難題,克服了本地存儲數據易丟失、查詢不方便、存儲量小等問題。大學的科研人員在數據管理系統中擁有永久賬號,即使退休或離職其賬號和數據資源也會永久保存。有的大學提供多達三個地址的異地存儲和同步式鏡像存儲,達到很高的安全級別和操作便宜性。
在開放獲取理念的指引下,數據管理服務實現了較大程度的資源共享,達到了數據開放與知識產權保護、隱私保護的平衡。數據管理服務系統為數據生產者提供靈活的數據開放選擇,并提供知識產權和隱私保護法規和政策指導。生產者可以確定數據分享的范圍和內容,選擇項目內部開放、同行開放、校園內部開放、國內開放、國際開放等開放級別,屏蔽涉及知識產權、個人隱私的數據內容。
數據存取效率顯著提高。以PC機、硬盤、優盤等為代表的本地存儲呈現分散化的狀態,存儲介質之間轉換效率低,存儲內容不成系統,難以快速檢索數據對象,難以精準檢索特定的數據文檔版本。而集中化專業化的異地存儲賦予每個數據集永久性數字對象標識(DOI),利用元數據描述數據內容,進行數據內容封裝,實現了數據的有序存儲和精準檢索,大大提升了數據存取效率。同時,在數據引用的規范性和方便性上也大為改善。通過一定的標識技術和機制,標出數據來源、生產者、日期等要素,讀者可以很方便地查詢到相應的數據集,并促進了數據的知識產權保護,也便于進行數據引用情況的統計和分析[15]。
集中的異地存儲是有成本的,但是能夠控制在用戶可承擔的范圍之內。大部分大學實行分層次的成本控制,自有的系統針對本校職工提供完全免費的服務,購買的云存儲云計算服務收取一定費用。有的大學對于職工常規存儲不收取費用,而對于大規模數據存儲則要收取費用。

表2 一流大學圖書館的數據管理服務基本成效評價
世界一流大學圖書館站在時代前列,順應數字化科研發展潮流,積極開展數據管理服務,使圖書館的地位和作用發生了深刻變化[16]。一是大學圖書館拓展了服務,成功提供了數據業務;二是以新業務為平臺,增強了與大學各部門的聯系;三是提升了圖書館員的能力,創建了全新的數據館員崗位。
科學數據管理為大學圖書館開辟了一個富于挑戰的新境界。根據國外發達國家的經驗,大學圖書館能夠在科學數據管理服務中發揮重要作用。我國各類大學圖書館應當針對科學數據管理服務的迫切需求,找準定位和著力點,提升館員數據管理能力,實現圖書館數據業務的突破,建立全新的圖書館業務模式,成為科技創新的合作伙伴。
以提供文獻為主的時代即將過去,以科學數據管理服務為重心的現代圖書館正在形成。我國圖書館界應當順應時代趨勢,準確把握現代圖書館的本質特征,由以圖書為主體的傳統圖書館向以科學數據管理和知識交流為中心的現代圖書館轉變。一是把從事數據密集型科研的人員作為主要服務對象,成為數字化科研活動的創新伙伴[17];二是把科學數據作為重要管理對象,成為科學數據資源的重要富集地[18-19];三是建立集數據服務、文獻服務、場所服務為一體的復合化服務,服務內容覆蓋科研活動全周期;四是構建綜合服務平臺,成為知識交流中心和各相關方的綜合聯系點[20]。
科學數據國際化開放共享是一個重要趨勢。首先,我國在科學數據管理標準的制定中不能缺位,大學圖書館應聯合我國國內其他相關機構,主動支持和參與數據管理國際規范的研制,謀求我國應有的地位和話語權,緊跟世界最先進的科學數據管理標準和技術。第二,在發展我國的科學數據管理服務體系過程中,要與國際標準接軌,向世界一流大學圖書館看齊,站在世界的制高點上,建立開放的而不是封閉的數據管理體系,申請加入相應的國際科學數據管理網絡,實現與世界各國的交流和合作。
大學圖書館長期為科技創新提供文獻資源服務,具有科技信息服務的專業優勢。但是不要試圖包攬所有的服務環節,而應當發揮自身聯系用戶和服務用戶的長處,找準著力點,面向科學數據管理的迫切需求和國家政策要求,開展以編制數據管理計劃、數據存儲、數據共享為重點的系列化服務,提供專家咨詢、教育培訓等延伸服務[21]。
面向科技創新的數據管理服務是一項開創性工作,將推動圖書館建立新的信息基礎設施,形成新的業務模式,產生新的能力素質和人才需求。應當圍繞數據管理的人才需求,編制人才發展計劃,構建圖書館數據管理能力素質模型,建立數據管理崗位職責規范。按照人才發展計劃和能力素質模型的要求,開展數據管理能力培訓,引進數據業務人才,推動圖書館建立勝任數據管理業務的人力資源體系。