王 璞(上海海事大學圖書館 上海 201306)
可持續發展的科研數據管理信息基礎設施研究
王 璞(上海海事大學圖書館 上海 201306)
大數據科研環境下,對科研數據的高效管理、利用和長期保存需要建設新型的信息基礎設施。Data Conservancy項目是美國國家科學基金會的DataNet計劃支持的首批關于數據信息基礎設施建設的項目。Data Conservancy項目組基于OAIS參考模型設計了一種面向服務的軟件體系架構,并開發了數據管理軟件平臺。Data Conservancy實施者從技術選型及經費籌措的角度來探索項目的可持續發展策略。約翰·霍普金斯大學組建了專門的數據管理團隊開展數據管理服務,挑戰與機遇并存。在新型科研環境下,圖書館要重塑角色,為科研人員提供超出其滿意度的科研數據管理服務,并努力保持可持續發展及不斷進化的能力。
信息基礎設施 數據管理 數據監護 數據保存 可持續發展
在由大數據驅動的科研第四范式下,科研數據不再僅僅是研究成果,而是成為科技進步和學術創新的重要基礎和必要條件。在大數據科研環境下,人們面臨的一大挑戰就是:如何建設一種新型的信息基礎設施(Cyberinfrastructure),以實現對規模巨大、類型復雜、分布式的多學科數據的高效管理和利用[1]。鑒于此,美國國家科學基金會(National Science Foundation,簡稱NSF)于2007年發布了“科研數據可持續保存與共享網絡伙伴計劃(DataNet)”項目指南,旨在建立面向科研數據的保存及共享模式[2]。NSF希望通過該計劃建立一批具有顯著示范效應的新型信息基礎設施,以為長期的科學研究提供可靠的數據保存、訪問、集成和分析[3]。DataNet計劃自2009年起在5年時間內投入1億美元用于支持以圖書館為主體開展信息基礎設施及科研數據管理的研究與建設工作。由約翰·霍普金斯大學(Johns Hopkins University,簡稱JHU)圖書館主持的Data Conservancy(數據保存,下文簡稱DC)項目是首批獲得資助的兩個項目之一。本文以DC項目建設的兩項主要任務為線索,著重介紹DC軟件系統的技術框架以及DC可持續發展的策略,以及約翰·霍普金斯大學在DC項目基礎上開展的科研數據管理服務的情況,以給予國內科研數據管理信息基礎設施建設以及科研數據管理事業啟示。
1.1 Data Conservancy概述
DC項目總部設立于約翰·霍普金斯大學的謝里丹圖書館(Sheridan Library),由G.Sayeed Choudhury擔任首席科學家。DC項目主要采用群體合作的形式,其團隊成員來自美國的著名大學圖書館、國家數據中心、國家研究實驗室、圖情學院與商業公司等10家機構。DC項目試圖尋求一種制度性的解決方案,聯合科研數據管理涉及到的各利益相關者,研究、設計、實施數據管理的信息基礎設施,通過對科研數據的收集、保存和語義化的集成,實現跨學科的數據發現與融合。DC項目設定了4項任務[4]:①為支持跨學科研究,選擇天文學、地球科學、生命科學和社會科學這4門數據密集型學科,深入了解科研數據管理工具和方法,并比較分析其相關性和差異點;②開發并實施一個用于科研數據管理服務的信息基礎設施;③與科研群體加強交流與合作,深入探討數據管理技能培訓的需求,促進圖書館科研數據館員人才及隊伍的發展;④探索一種用于長期的科研數據管理的可持續發展模式。
1.2 Data Conservancy軟件系統特征
面對日益復雜的科研數據管理環境和需求,科研機構不僅需要先進的技術解決方案,更面臨組織架構變革及管理創新上的嚴峻挑戰。DC項目組認為:網絡及軟硬件基礎設施、學科信息及數據環境、數據服務設計、組織架構創新、數據政策及可持續發展策略都是數據管理解決方案的重要組成部分,而其功能核心是DC軟件系統(Data Conservancy Software,簡稱DCS)[5]。
DCS的設計面向大數據的應用環境,借鑒成熟的數據模型,支持各種學科數據的管理及關聯使用,并且能夠方便地與外部系統交互。DCS主要的產品特征包括[6]:①從技術上實現數據溯源(Data Provenance),確保數據的可持續管理與長期保存;②針對特定的學科環境,靈活定制人機界面;③參考PLANETS數據模型,方便管理和存儲多種類型的數據資源;④允許外部應用程序通過“數據檢索與取用API”構建基于DCS核心組件的新型應用;⑤具有特征抽取框架,即DCS可根據數據集的時間、空間、類別等特征值進行關聯匹配,從不同的數據源對數據進行抽取和匯聚,以用于實現特定的研究目的;⑥擴展性極強的存儲架構設計,可支持數以百萬計數字對象的管理與存檔。
1.3 DCS技術框架
DCS的開發借鑒了開放存檔信息系統(Open Archival Information System,簡稱OAIS)參考模型作為軟件技術框架結構的基礎[7]。DCS的技術框架包含4個層級,每一層級可與相鄰的層級互相通信,但是不能跨層級通信[5,8]:①第一層,應用層。應用程序通過應用程序接口(API)接入服務層使用特定的服務。②第二層,API層。DCS提供一系列可被客戶端程序調用的API。DCS的系統功能通過API與軟件服務進行通信。API層定義了技術規范,用于說明如何實現數據攝取、檢索和取用服務的接入和調用。API通過HTTP的請求服務來實現調用。③第三層,服務層。服務以模塊化的方式進行設計,包括數據的攝取、索引、檢索和取用等。應用程序通過API來調用這些服務。服務模塊以Java Web應用的形式進行分發,并使用了Apache Solr的全文檢索套件。④第四層,數據存檔層。存檔服務使用存檔模塊API對用戶的數據進行存檔或者取用。
大型科研信息基礎設施的建設需要投入大量的資金,如DC項目的建設經費就達到了驚人的2 000萬美元[9]。為了保障高價值、具有不可替代性的科研數據資源的長期有效性管理和利用,DC項目組必須全面考慮信息基礎設施可持續的長期發展策略,包括采用可持續演進的開放性技術、多渠道的經費來源模式、人力資源和技能的不斷補充和更新等[10]。
2.1 技術的可持續發展
技術的可持續發展是信息基礎設施的重要依賴因素之一,體現在技術的可靠性、適應性及可擴展性上。計算平臺要能夠適應快速變化的技術環境與用戶需求,采用更經濟的計算解決方案,如使用租賃的云計算和存儲模式,能夠大幅縮減軟硬件成本。DCS采用開源軟件技術,基于Linux環境開發可以安裝在支持Java運行環境的任何硬件設備和操作系統上。DCS以面向服務的架構來設計模塊化的框架和技術組件,并通過開放型接口和API實現層級和服務的松散耦合,有利于技術的無縫銜接及整合,同時提供了不同技術系統的互操作機制[11]。信息基礎設施的一項重要功能是通過數據溯源技術實現數據的長期保存,并確保原始數據和派生數據的真實性、可追溯性及可重用性[12]。萬維網聯盟(World Wide Web Consortium,簡稱W3C)的數據溯源孵化器小組在最終報告里將“數據溯源”定義為:“為源數字對象創建一條記錄,內容包括該對象生成以及后續衍變及傳遞過程中所涉及到的各種實體及處理方法。”[13]DCS定義了一個4層的數據管理模型,使用溯源流(provenance stream)與世系服務(lineage services)確保了數據在整個生命周期中的透明度,并保障數據的可持續利用[14]。
2.2 經濟的可持續發展
充足的資金保障是信息基礎設施可持續發展的基本條件,從政府機構獲取項目建設經費是主要資金來源,但是在項目結束之后如果不能持續的獲得資金投入則往往難以為繼。謝里丹圖書館積極向那些獲得NSF基金項目比較多的學院大力推介圖書館的DC項目以及數據管理服務,爭取院長的支持并獲得經費資助的承諾。2011年2月,圖書館與工程學院、藝術與科學學院、醫學院、商學院等學院的院長終于就DMS(Data Management Services,科研數據管理服務)的專項經費達到了一致意見[15]。根據最終建議,DMS的服務費用來源被分成兩種類型:一種是在基金申請階段,圖書館提供數據管理計劃的撰寫指導以及咨詢服務,這部分服務費用由學院經費承擔;另一種是面向成功獲得基金支持的項目,圖書館協助科研人員保障后續數據管理計劃的順利執行并為每個項目提供2TB的數據存儲空間以及5年的數據保存服務,圖書館收取2%的項目經費作為服務費。美國研究圖書館協會(Association of Research Libraries,簡稱ARL)2013年的一份關于圖書館開展科研數據管理服務情況的調研報告指出[16]:高達84%的數據倉儲系統依賴學校撥款,而依靠基金會贊助或者向用戶收費都只有較低的比例。
除了從NSF等基金管理機構以及學校獲取經費以外,DC項目組也認識到需要學習和創新其他的經費來源模式[16]。例如,①會員制。作為國際知名的社會科學數據倉儲系統,美國校際社會科學數據共享聯盟(In t eruniversity Consortium for Political and Social Research,簡稱ICPSR)是通過會員制獲取資金的典范。除了從政府和私人基金會獲得贊助以外,收取會員費已經成為ICPSR的重要資金來源[17]。②增值性服務。在建立合理定價的基礎上,通過為用戶提供增值性的產品和服務獲取收益,包括數據處理、數據分析、數據保存、元數據方案制訂、高級技能培訓課程等。③科研基金。NSF從2012年起就允許科研人員將項目經費用于“研究資料與成果及其他附屬材料(包括數據)的準備、出版、傳播以及共享”[18]。NSF作為美國最重要的科研基金來源,無疑是政策引領的風向標。可以預見,從科研項目的研究基金里撥款用于科研數據管理的支出將成為未來的一種重要趨勢。
3.1 數據管理服務與團隊構成
作為DC項目的主要執行機構,謝里丹圖書館首先安裝使用了DCS系統,并于2011年7月正式開展科研數據管理服務[17]。NSF要求基金申請人自2011年1月開始必須提交數據管理計劃(Data Management Plan,簡稱DMP)作為基金申請書的附件[19]。因此,謝里丹圖書館的DMS包括兩項主要內容:①幫助科研人員撰寫DMP,并提供咨詢與指導服務;②協助科研人員切實執行DMP內容,利用DCS搭建的數據倉儲系統實現數據的存檔與共享。經過幾年的實踐,謝里丹圖書館積累了豐富的科研數據管理經驗。David S.Fearon在2015年“新英格蘭地區圖書館員e-Science研討會”上的演講資料表明[20],截止到2015年4月,JHU累計有942人參與了數據管理培訓課程;2014年,全校共有545人參加了20場數據管理技能培訓班。培訓班的主題包括:如何撰寫DMP、數據管理最佳實踐案例分析、隱私數據的處理方法、電子表格數據的管理與分享等。JHU制定并發布了校級的數據管理政策,并面向全校教員規劃了相應的科研數據管理培訓課程,這都標志著DMS已經上升到了校級層面科研管理的高度[21]。
DMS團隊人員配置科學合理,包括數據咨詢館員、高級技術顧問、軟件工程師、系統管理員以及服務經理等。數據咨詢館員是整個服務團隊的核心角色,直接面向科研人員,承擔著包括DMP撰寫的指導、協助DMP的后續執行及數據存檔與共享等重要職責。JHU的數據咨詢館員通常具有某一學科的博士學位以及圖情學科的碩士學位,參加過數據管理的專業課程培訓,并具備經驗豐富的用戶服務技巧以及數據處理的實際經驗。
3.2 挑戰與機遇
在開展DMS服務的初期,謝里丹圖書館不可避免地會遇到各種挑戰。美國各個主要基金會有不同的數據政策和規定,對DMP內容的要求各不相同,而且不同學科的數據特性差異極大,給數據咨詢館員的技能要求帶來很大挑戰。因此,圖書館員和科研人員必須建立緊密的合作關系,發揮各自學科優勢,共同面對數據管理問題。新服務的推廣與營銷非常必要,圖書館要讓忙碌的大學科研人員認識到DMS的重要性和價值,逐漸培養并擴大用戶基礎,這是比數據服務本身更具有挑戰性的工作。隨著DMS的深入開展,圖書館的服務范圍從NSF擴展到了美國國立衛生研究院(National Institutes of Health,簡稱NIH)、美國國家人文基金會(National Endowment for the Humanities,簡稱NEH)、美國國防部(United States Department of Defense,簡稱DOD)等其他重要基金管理機構。從軟件系統的角度來看,謝里丹圖書館的數據倉儲系統體現出了基于DCS架構的功能特性和創新方法。DCS實現了跨學科的數據集成方法,為當前數據密集型的科研與發現環境提供了重要借鑒。
DC項目的愿景是建設一個示范性的、可持續發展的科研數據信息基礎設施,以應對當前大數據科研環境下的挑戰,幫助科學家快速、有效地解決21世紀重大的科研問題。DC項目成功地構建了一個學科無關性的數據信息基礎設施,并從信息技術、經費來源以及人才培養等方面來探討可持續發展的關鍵策略。DC項目在以下幾個方面顯著影響了科研數據管理的研究與實踐:①在更大范圍內,促成不同領域科學之間的廣泛合作,起到橋梁的作用,有顯著的示范效應,為學科融合與合作起到革命性的推動作用。②利用數據關聯與數據溯源技術,更容易構建知識關聯系統,從而更容易解決重大的科學難題。③以開放存取為主的數據倉儲鼓勵更多的科研人員參與到科研協作中來,加速信息的傳播與交流。④建立一種標準的合作模式,為共同解決科技問題、乃至社會重大問題提供數據依據。
圖書館在大數據時代將扮演更多與科研數據管理相關的重要角色,其功能和職責將從科研生命周期的下游(學術出版后)向上游(學術出版前)拓展和延伸[22-23]。具體來說,在下游的科研周期內,圖書館的作用在于數據選擇、數據處理、元數據方案規劃以及數據的管理與保存等服務。而在上游的科研周期內,通過從科研初始階段就與科研人員的密切合作,圖書館可以在信息基礎設施建設、數據管理原型和架構、標準規范甚至政策的制定中發揮作用。
就高校來說,在信息基礎設施建設以及數據管理的整個過程中,圖書館始終要勇于承擔主導者的角色,在校領導的支持和推動下,積極聯合其他利益相關者(包括IT部門、科研管理部門、學院、重點實驗室等),就科研數據管理的重要意義達成共識。再不能因循守舊,沿著原先的思路來設計新環境下的信息基礎設施,IT系統專家、科研人員、工程師、科研管理者以及圖書館員需要緊密協作,共同分析應用環境,考慮各方面因素,設計可擴展的隨需應變的解決方案,而不僅僅是著眼于解決技術難題。為應對當前及未來之挑戰,圖書館要善于利用數據資源、服務內容及信息基礎設施這三者之間的關系,使其有機融合并充分發揮數據管理服務之效能。在新型科研環境下,圖書館要重塑角色,為科研人員提供超出其滿意度的科研數據管理服務,并努力保持可持續發展及不斷進化的能力。
[1]Edwards P, Jackson S, Bowker G, et al.Understanding Infrastructure: Dynamics, Tensions, and Design [EB/OL].[2015-09-05].http://deepblue.lib.umich.edu/handle/2027.42/49353.
[2]National Science Foundation.Sustainable Digital Data Preservation and Access Network Partners (DataNet) [EB/OL].[2015-09-10].http://www.nsf.gov/funding/pgm_summ.jsp?pims_id=503141.
[3]Jae L, Jianting Z, Zimmerman A, et al.DataNet: An Emerging Cyberinfrastructure for Sharing, Reusing and Preserving Digital Data for Scientific Discovery and Learning[J].AIChE Journal,2009, 55(11):2757-2764.
[4]Mayernik M, Choudhury S, DiLauro T, et al.The Data Conservancy Blueprint for Data Management[EB/OL].[2015-09-15].http://dataconservancy.org/community/blueprint.
[5]Mayernik M, Choudhury S, DiLauro T, et al.The Data Conservancy Instance: Infrastructure and Organizational Services for Research Data Curation[EB/OL].[2015-09-18].http://www.dlib.org/dlib/september12/mayernik/09mayernik.html.
[6]Data Conservancy.Key Features of the Data Conservancy Software [EB/OL].[2015-09-20].http://dataconservancy.org/software.
[7]Consultative Committee for Space Data Systems (CCSDS).Reference Model for an Open Archival Information System (OAIS)Recommendation for Space Data System Standards[EB/OL].[2015-09-20].http://public.ccsds.org/publications/archive/ 650x0m2.pdf.
[8]Varvel V.Data Conservancy CyberInfrastructure Early Development Case Study [EB/OL].[2015-09-25].https://www.ideals.illinois.edu/handle/2142/30655.
[9]JHU Office of Communications.Sheridan Libraries Awarded $20 Million Grant[EB/OL].[2015-09-28].http://releases.jhu.edu/ 2009/10/02/sheridan-libraries-awarded-20-million-grant/.
[10]Lavoie B.Sustainable Research Data[M].London: Facet Publishing, 2012:67-82.
[11]Choudhury S, Hanisch R.The Data Conservancy: Building a Sustainable System for Interdisciplinary Scientific Data Curation and Preservation[EB/OL].[2015-10-05].https://jscholarship.library.jhu.edu/handle/1774.2/34018.
[12]Waters D, Garrett J.Preserving Digital Information, Report of the Task Force on Archiving of Digital Information[EB/OL].[2015-10-07].http://www.clir.org/pubs/reports/pub63waters garrett.pdf.
[13]Gil Y, Cheney J, Groth P, et al.Provenance XG Final Report: W3C Incubator Group Report[EB/OL].[2015-10-10].http://www.w3.org/2005/Incubator/prov/XGR-prov-20101214.
[14]Mayernik M, Dilauro T, Duerr R, et al.Data Conservancy Provenance, Context, and Lineage Services:Key Components for Data Preservation and Curation[J].Data Science Journal, 2013,12(22):158-171.
[15]Shen Y, Varvel V.Developing Data Management Services at the Johns Hopkins University[J].The Journal of Academic Librarianship, 2013(39):552-557.
[16]Association of Research Libraries.SPEC Kit 334: Research Data Management Services[EB/OL].[2015-10-10].http://publications.arl.org/Research-Data-Management-Services-SPEC-Kit-334/.
[17]Inter-University Consortium for Political and Social Research.Membership in ICPSR[EB/OL].[2015-10-15].https://www.icpsr.umich.edu/icpsrweb/content/membership/index.html.
[18]National Science Foundation.Award and Administration Guide,Chapter V- Allowability of Costs[EB/OL].[2015-10-17].http://www.nsf.gov/pubs/policydocs/pappguide/nsf11001/aag_5.jsp.
[19]National Science Foundation.Dissemination and Sharing of Research Results [EB/OL].[2015-10-20].http://www.nsf.gov/ bfa/dias/policy/dmp.jsp.
[20]Fearon D S.Origin and Development of Johns Hopkins Data Management Services[EB/OL].[2015-10-22].http://escholarship.umassmed.edu/escience_symposium/2015/program/2.
[21]Johns Hopkins University Data Management Services.JHU Policies[EB/OL].[2015-10-23].http://dmp.data.jhu.edu/ resources/jhu-policies.
[22]Gold A.Cyberinfrastructure, Data, and Libraries, Part1 A Cyberinfrastructure Primer for Librarians[EB/OL].[2015-10-26].http://www.dlib.org/dlib/september07/gold/09gold-pt1.html.
[23]Gold A.Cyberinfrastructure, Data, and Libraries, Part2 Libraries and the Data Challenge: Roles and Actions for Libraries[EB/OL].[2015-10-28].http://www.dlib.org/dlib/september07/gold/ 09gold-pt2.html.
Research on the Sustainable Cyberinfrastructure for Scientific Data Management
In the era of big data, it is necesary to develop a new-type cyberinfrastructure for scientific data management, using and long-term preservation.Data Conservancy project is one of DataNet initiative awards for building data cyberinfrastructure funded by the National Science Foundation.Based on OAIS reference model, Data Conservancy project team designed service-oriented software architecture, and developed sicentific data management platform.The executor of Data Conservancy explores a sustainable development strategy from the perspective of technology selection and funding.The Johns Hopkins University Data Management Services (JHU DMS) is described as an example of how the Data Conservancy can be deployed by a professional group, which faces challenges and opportunities.In the new scientic research environment, the library should remodel its role, provide scientifc data management service for researchers, and keep motivition on sustainable development and evolution.
Cyberinfrastructure; Data management; Data curation; Data Conservancy(DC); Sustainable development
G252
A
王 璞 男,1977年生,上海海事大學圖書館信息技術部主任,館員。
2015-12-23 ]