史艷芬 劉玉紅
基于科學數據管理生命周期的高校圖書館服務角色定位研究
史艷芬 劉玉紅
論文通過國內外高校社會科學數據管理平臺的調查與分析,探討了國內外科學數據管理現狀,指出高校圖書館開展科學數據管理的必要性,結合高校圖書館在學術信息資源管理中的作用,分析圖書館在科學數據管理中的職能作用,最后根據科學數據管理生命周期等有關理論,提出并詳細分析了高校圖書館開展科學數據管理服務的角色定位,并對未來開展相關服務提出建議。
科學數據管理生命周期角色定位高校圖書館
DOI 10.16810/j.cnki.1672-514X.2016.04.008
Science Data Management即科學數據管理,其目的是通過建立信息化的科學研究環境,為科研人員從事科學研究活動提供信息化的方式,其發展極大地影響了科學研究活動[1]。如何有效管理科學數據,以達到提升科學數據價值、加速科研進程的目的是近年來科學界和圖書情報界研究的熱點。目前,國內外各類學科科學數據管理項目開展得如火如荼。國外有如:LoCloud(Loca Content in a Europeana Cloud)是CIP ICT-PSP項目下的一個網絡平臺項目,該項目計劃從歐洲的各文化機構查找和添加超過4百萬條記錄,以擴充和豐富Europeana的內容[2];ARIADNE(Advanced Research Infrastructure for Archaeological Dataset Networking)項目是匯集和整合現有研究數據的基礎設施,使研究人員能夠使用各種分布式數據集,并將此作為考古研究方法的重要組成部分[3]。國內有如:2006年成立的北京大學中國社會科學調查中心;2012年10月,經教育部批準,由教育部和華中科技大學共同建設和管理的中國社會科學數據中心;中國科學院的“973計劃資源環境領域項目數據匯交管理中心”項目等。
通過檢索Web of Science,Emerald,CNKI等國內外圖書情報相關數據庫可以發現,科學數據管理逐漸成為一個新領域,在學術界和各行業發展中顯現出越來越重要的作用,國內外學者展開了一系列關于“科學數據管理”的研究和實踐。自Digital Curation最早在2001年的Web of Science數據庫出現后,關于其研究就源源不斷。早期研究中,外文文獻都集中在科學數據管理的理論研究方面。2006年之后,研究從科學數據管理的理論研究逐步轉向實踐研究。國外高校圖書館在這一過程中扮演了重要角色,NSF、JISC等相關機構也都致力于開展制定科學數據管理的政策、科學數據管理生命周期理論、管理流程和數據標準等工作。如:康奈爾大學的DataStaR平臺支持科學數據的出版與存檔,支持本機構的科學數據共享,為科研工作提供協作[4];伊利諾伊大學和普渡大學主要研究科學數據的具體管理內容[5];弗吉尼亞大學致力于科學數據咨詢服務[6]。國內關于“科學數據管理”的相關研究最早開始于2006年,圖書情報領域的研究人員近年來也越來越關注科學數據管理研究,從2010年起發表的文獻量呈逐步上升趨勢。科學數據管理成為圖書情報領域的研究熱點之一。分析研究論文的主題,主要集中在E-science環境下科學數據管理相關理論研究[7]、科學數據管理平臺構建的探索與技術[8]、圖書館科學數據服務存在的問題與對策[9]等方面,并且高校圖書館在高校科研數據管理服務方面也承擔著越來越重要的作用。美國大學與研究圖書館協會(ACRL)近期發布的《2015大學圖書館環境掃描報告》中對未來高校圖書館開展數據管理服務進行了趨勢分析,指出學術圖書館可以利用它們在數據監護、保存和數據管理上的專業知識和經驗來支持、教育和促進政府機構的數據和信息能更容易被公眾使用和訪問;未來科學數據管理服務將成為高校圖書館服務發展的重要趨勢之一;每個科學數據產出機構都面臨著科學數據管理的挑戰,但國內以機構為單位的科學數據管理研究和實踐都還處在起始階段,其中涉及的主體和主體責任尚不明確。A.Gold曾討論了E-science環境下圖書館所面臨的各種數據管理挑戰,認為首要的問題就是圖書館在數據管理中的角色界定還不明確[10]。
立足對國內外高校科學數據管理現狀的分析和對未來服務趨勢的把握,本文研究主要基于科學數據管理生命周期的高校圖書館服務角色定位。首先通過國內外高校社會科學數據管理平臺的調查與分析,探討了國內外科學數據管理現狀,指出高校圖書館開展科學數據管理的必要性;然后在結合高校圖書館在學術信息資源管理中的作用,分析高校圖書館在科學數據管理中的職能作用;最后結合科學數據管理生命周期等有關理論,詳細分析了高校圖書館開展科學數據管理服務的角色定位。
我們調研了國內外知名的六個社會科學數據平臺,即:英國The Archaeology Data Service(ADS)[11]、美國The Association of Religion Data Archives(ARDA)[12]、澳大利亞Australian Social Science Data Archive(ASSDA)[13]、中國人民大學中國調查與數據中心[14]、清華大學中國經濟社會數據中心[15]和復旦大學社會科學數據研究中心[16],并進行了詳細比較分析。
通過調查發現,國外的三個平臺建立時間較早,資源豐富,功能完善,界面友好,有些雖然要求注冊,但總體上來說使用極其方便。從數據資源分析,ADS、 ARDA和ASSDA在資源收集的學科上不同,數據均來源權威的機構和學者,數據或數據集有文本、圖片等格式,平臺對這些數據或數據集進行了詳細的描述,元數據的標準采用DC元數據;從數據訪問看,三個平臺均為OA平臺,訪問不受時間和IP限制,但注冊用戶享受更多的服務和權利;從數據檢索途徑看,三個平臺均提供基本的關鍵詞 檢索、瀏覽和高級檢索功能,ADS還提供地圖檢索,ARDA提供按下載量、字順和最新內容等方式瀏覽的功能;從數據分析功能看,ADS和ASSDA提供在線統計分析。此外,平臺比較注重用戶參與,ADS有自己的博客,ARDA允許其他科研人員為其提供數據;ADS有自動保存檢索歷史的功能,可以E-mail定制和下載數據。國內的三個高校社會科學數據管理平臺雖然走在我國社會科學數據管理實踐的前列,但就目前來看平臺還比較簡單,功能還不全面,有些平臺使用數據需申請。
通過對國內外幾個科學數據管理平臺的調研和對比分析,可以將國內外高校科學數據管理現狀歸納為以下幾點。
(1)國外具備完善的科學數據共享和公開法規和成熟的社會環境。歐美國家非常重視科學數據管理政策。美國科學數據管理實行的國家政策是“國有科學數據完全與開放共享國策”,是由聯邦政府統籌規劃科學數據的管理,利用行政、財政、政策和法規全面推進數據共享。英國的《信息自由法》和《科學與創新投資框架2004—2014》等均制定了相應的科學數據管理政策。2011年澳大利亞國家數據服務中心發布數據管理計劃,內容包括所有與數據相關的活動及對數據的直接使用,一些基金會已開始要求申請者申報項目時提供數據管理計劃[17]。
(2)國外學校管理層積極應對科學數據管理,并制定相關管理政策。國外的ADS、ARDA、ASSDA都制定了數據管理政策(或計劃)。自2011年1月NSF強制性政策出臺后,歐美各高校對于科學數據管理的支持和服務更為明確。ADS建立初期就制定和發布了一系列數據管理政策[18]——《ADS Collections Policy》《ADS Preservation Strategy》《ADS Disaster Recovery Plan》和《ADS Access Policy》等,并隨著科學數據管理的發展而不斷更新,NSF提出了申請要詳細說明對所收集數據的管理計劃的強制規定。ARDA不僅有詳細的科學數據管理政策,還提供各種培訓、建議、指導和模板,并為數據資產的存儲、保留和獲取提供配套機制和服務。ASSDA的數據管理政策由澳大利亞國立大學制定[19],規定除了隱私和機密的要求外,還要求研究人員必須決定哪些數據和材料必須保留,以證明科研成果,并考慮到那些特別難或者不可能重復的科學研究的科學數據對未來進一步研究的潛在價值,同時對科學數據的保留程序、訪問規則和機密數據的保存等都做了詳細的規定。
(3)科學數據管理趨向于合作與聯盟的管理模式。目前,國外科學數據管理和運行模式多采取合作與聯盟的管理模式。如:ADS目前由32個機構組成,成員有政府機構、高校、考古學專業機構或考古研究所、信息管理機構等。ARDA由美國賓夕法尼亞大學社會科學研究所、社會科學系和文科學院合作建設,這些研究所和院系共同成為ARDA數據的產生機構。雖然ADS、ARDA和ASSDA均提供免費的科學數據服務,但其科學數據的提供、篩選、保存、再利用等實際上是由其構成的各機構合作管理完成的。國內的科學數據管理項目也借鑒了國外的經驗基本采取合作的模式,如復旦大學社會科學數據研究中心就是由復旦大學圖書館、計算機學院和人文學院等多家單位聯合建設的。
(4)高校科學數據管理中圖書館的作用越來越明顯。2006年,美國研究圖書館協會(ARL)與國家科學基金(NSF)共同召集圖書館員、研究人員及數據管理項目代表召開研討會,最終形成“科學與工程領域數字科學數據長期保存”研究報告。2011年,NSF宣布新的強制數據共享政策后,美國研究圖書館協會迅速制定了“研究圖書館指南:NSF數據共享政策”,以幫助成員館的圖書館員理解NSF新的要求。從ADS的成員來看,近1/4都是大學圖書館。國內幾個社會科學數據管理平臺項目也都有圖書館參與,如復旦大學社會科學數據研究中心有復旦大學圖書館的參與。可見,高校圖書館在科學數據管理中的作用越來越重要。
(5)我國高校暫未形成科學數據管理制度。每年我國高校都有若干項目資助科研人員進行科研活動。訪問北京大學、復旦大學、武漢大學等國內知名綜合性大學網站,在各高校科研處的網站或相關的管理辦法中,對項目成果的界定基本上沿用省市科研項目管理辦法的要求,限定成果形式為論文、專著、調查報告等,均未對項目產生的科學數據提交提出具體要求。“CALIS三期機構知識庫建設及推廣”項目,試點高校圖書館的機構知識庫收集各種類型的文獻,主要包括專著、期刊論文、會議論文、數據集、圖片及科研計劃等,開始出現數據集和數據庫,但這些并非嚴格意義上的科學數據。國內科學數據管理雖然還處于起步階段,但可喜的是,CALIS三期設立了科學數據管理相關的預研項目,我國高校圖書館已經開始著手科學數據管理相關問題研究和實踐[9]。
高校圖書館長期以來一直在高校中承擔學術信息資源管理的職能,科學數據作為一種新型的學術信息資源,圖書館有必要將其納入管理范疇,為科研和教學提供科學數據服務,并促進所服務對象的學術交流活動。具體表現為以下兩方面。
(1)學術信息資源的篩選與組織。圖書館的工作首先是根據讀者需求或對信息資源本身價值的判斷篩選;其次按照一定的編排方式組織信息資源使其有序化,保證信息資源使用價值的實現,使信息資源得以傳播。
(2)數字學術信息資源的保存與獲取。高校圖書館經歷了長期的資源保存和保證資源獲取的發展,已經形成了成熟的信息資源保管和存儲方式,通過對信息資源進行組織,保障其可獲取。
在高校,科學數據作為管理的對象,其格式與文件的產生是由教授及其學生確定的,具體根據其專業、研究課題及采用的設備等;科學數據的元數據標準由圖書館確定,且建立相應的管理平臺;數據集元數據的創建則由科研人員處理,數據的傳遞、評估、保存和管理等由圖書館維護。圖書館所承擔的即是科學數據組織工作。同時圖書館還具有機構內保存的職能,主要是保證共享利用。在科研數據管理過程中,數據使用者為研究者、管理者、學生等人群;數據所有者則是在研究活動中產生科學數據并保存到科學數據館藏的人群;數據管理者則是負責科學數據庫的維護與操作的人群。在這個過程中,高校圖書館應作為此共同體中的數據管理者。
科學數據生命周期主要是以科研工作中社會科學數據本身為研究對象,研究其在生命周期各個階段的狀態和規律。根據以上分析,科學數據生命周期可分為數個階段,詳見圖1。

科學研究的每個階段產生的科學數據并非都是有效的,因此,要根據制定的數據管理標準,經數據分析后要對無效數據隱藏,以免影響正常的科學數據管理和科研工作。在此過程中,高校圖書館可以嵌入科學數據生命周期中發揮作用,并積極開展相應的數據服務,詳見表1。

表1 嵌入“科學數據管理生命周期”過程開展的圖書館數據服務
科學數據管理對圖書館來說還是新事物,科學數據與科學文獻不同,管理科學數據面臨巨大挑戰。首先,圖書館員無法像對科學文獻進行標題、作者等方面的標引那樣對社會科學數據進行標引;其次,科學數據是動態的,體現科研活動“過程”,圖書館員不了解學科以及科研過程,這也造成科學數據管理的障礙;再者,圖書館員的信任危機導致研究人員從其研究成果保護角度出發,不愿意提供共享其研究過程中的科學數據。對此,為更好地應對復雜的科研數據管理工作,圖書館需要做好人員配置和機構設置方面的工作。在數據管理和提供數據服務方面,美國、英國等研究型大學的圖書館已經面向不同學科領域開展了大量的實踐工作。例如,美國密西根大學構建的政治和社會研究校際聯盟(ICPSR:Inter-University Consortium on Political and Social Research)的主要目標是為多元化并不斷擴展的社會科學研究提供數據訪問,以及在數字管理和分析方法方面提供領導和培訓。麻省理工學院圖書館提供社會科學數據、地理GIS數據以及生命科學數據的機構數據保存和咨詢服務。在美國加州大學和康奈爾大學,圖書館員都參與到國家科學基金項目中從事科學數據創建和數據咨詢服務。以上經驗對國內高校圖書館開展數據服務有重要的借鑒意義。
目前,國內高校圖書館已意識到科學數據管理的重要性,在機構知識庫建設過程中已經開始了數據管理方面的嘗試和探索,如中國科學圖書館的國家科學圖書館機構知識庫[21]。因此,高校圖書館應成立科學數據管理部門或設置科學數據管理崗位,發揮圖書館在高校科研數據管理中的作用,在未來圖書館數據服務發展趨勢中承擔以下角色。
(1)科學數據管理協調者。國外科學數據管理和運行模式多采取合作與聯盟的管理模式,因此科學數據管理過程涉及到多個機構。高校圖書館參與其中應起到科學數據管理協調者的作用,在科學數據產生的最開始與相關科研管理機構、科研人員或機構共同協商制定科學數據管理有關政策、數據提交規則、保存機制,以及科學數據管理計劃。
(2)元數據組織和管理機構。科學數據管理中數據的組織是非常重要的一環,圖書館本來就是信息組織機構,可以設置元數據組織館員,承擔元數據組織和管理的角色,在數據管理過程中積極與研究者和機構確定合適的元數據方案、數據篩選機制等,量身打造數據保存策略,以確保數據的保存和訪問。
(3)科學數據長期保存機構。在數字化信息時代,數據在科研過程中是動態的,如何能保證數據長時間的儲存和利用是圖書館應該承擔的責任。目前,高校圖書館可采取構建機構庫的方式,對科研過程中的科學數據進行存儲,同時要加強對數據的長期保存機制的探索,以便數據未來再利用。
(4)數據質量監控者。科學數據對于科研過程是非常重要的,每一階段數據的準確性將關系到科研成果的成敗。因此在科學數據管理中,數據質量的監控就是一項重要工作。由于數據產生的過程是動態的,數據質量的監控就非常困難,不僅需要提高管理者的數據素養,還需掌握多種數據分析技能。圖書館是信息收集和保存的機構,在數據保存的過程中,有責任擔負數據質量監控的角色,可以設置數據監控管理館員,嵌入科學研究過程,在數據產生的各個階段為科研者提供建議和指導,及時評估數據質量。
(5)數據信息素養培訓機構。在科研數據管理過程中,數據使用者必須具備良好的收集數據、管理數據、分析數據、提交數據的意識和能力才能更好地使用科研數據,所以數據信息素養對于研究者是不可或缺的。圖書館作為信息素養培訓機構,要在信息檢索能力培訓、數據庫檢索培訓、新生信息素養培訓等基礎上,進一步提供有關數據素養的培訓,提高研究者的數據管理意識,以推動科學數據的利用和科研的效率。
當前,科學數據服務雖然并不在傳統的圖書館工作領域之內,但從國外發展來看,美國國家自然科學基金委員會(NSF)已明確提出以圖書館為主體實施科學數據管理;美國一些高校圖書館也開始增加科學數據管理部門,設置科學數據管理崗位,以幫助科研人員有效地完成其數據管理計劃;美國大學與研究圖書館協會(ACRI)和NSF還專門成立了工作組來探討圖書館在科學數據管理中的角色。國內高校科學數據管理雖處于發展的初始階段,但越來越重視實踐操作。未來科學數據管理服務必將成為高校圖書館服務發展的趨勢之一。
[1]黃國彬,孫坦.E-Science的特點及文獻情報機構的應對措施[J].圖書館雜志,2005(9):22-24.
[2]About LoCloud[EB/OL].[2013-11-16].http: www.locloud.eu.
[3]Aboutariadne[EB/OL].[2013-11-16].http: ariadneinfrastructure.eu/About.
[4]DataStar[EB/OL].[2013-09-03].http: datastar.mannlib. cornell.edu.
[5]Data curation profiles[EB/OL].[2013-09-03].http: www 4.lib.purdue.edu/dcp/overview.
[6]Scientific data consulting[EB/OL].[2013-09-03].http: www2.lib.virginia.edu/brown/data/.
[7]師榮華,劉細文.基于數據生命周期的圖書館科學數據服務研究[J].圖書情報工作,2011(1):39-42.
[8]李曉輝.圖書館科研數據管理與服務模式探討[J].中國圖書館學報,2011(9):46-52.
[9]燕今偉.專題:高校科學數據管理與服務機制及運行平臺研究:序[J].圖書情報工作,2013(6):11.
[10]GOLD A.Cyberinfrastructure,data,and libraries.Part 2:Libraries and the data challenge:Roles and actions for libraries[J].D-LibMagazine,2007(9/10):1-10.
[11]Archaeology data service[EB/OL].[2013-10-15].http: archaeologydataservice.ac.uk/.
[12]The Association of Religion Data Archives[EB/OL].[2013-10-15].http: www.thearda.com/.
[13]Australian Social Science Data Archive[EB/OL].[2013-10-15].http: www.ada.edu.au/social-science/home.
[14]中國人民大學中國調查與數據中心[EB/OL].[2013-10-15].http: nsrc.ruc.edu.cn/.
[15]清華大學中國經濟社會數據中心[EB/OL].[2013-10-15].http: www.chinadatacenter.tsinghua.edu.cn.
[16]復旦大學社會科學數據共享平臺[EB/OL].[2013-10-15].http: dvn.fudan.edu.cn/dvn/.
[17]Australian National Data Service.Data management planning[EB/OL].[2013-09-03].http: ands.org.au/guides/data-management-planning-awareness.pdf.
[18]Archaeology data service:Preservation policy[EB/OL]. [2013-09-03].http: archaeologydataservice.ac.uk/attach/preservation/PreservationPolicyV1.3.1.pdf.
[19]ANU data management policy[EB/OL].[2013-09-03]. http: libguides.anu.edu.au/content.php?pid=372387& sid=3050562.
[20]丁寧,馬浩琴.國外高校科學數據生命周期管理模型比較研究及借鑒[J].圖書情報工作,2013(6):18-22.
[21]張曉林.開放協同創新、推進機構知識庫發展[EB/OL].[2013-10-15].http: ir.las.ac.cn/handle/12502/5503
史艷芬同濟大學圖書館副研究館員。上海,200092。
劉玉紅同濟大學圖書館館員。上海,200092。
Research on the Role of University Libraries’Service Based on Science Data Management Lifecycle
Shi Yanfen,Liu Yuhong
By the investigation and analysis of social sciences data management platform in universities,this paper discusses the scientific data management status both at home and abroad,and points out the necessity of university libraries to carry out the science data management.Combining with the university library in the role of academic information resources management,it analyzes the function of library in science data management.Finally according to science data management lifecycle theory,it also puts forward and analyzes in detail the role of university library to carry out the science data management services,and proposes suggestions for the future to carry out the related services.
Science data management.Lifecycle.Role definition.University library.
G252
2015-10-08編校:曹曉文)