陳定權 諸葛列煒
被譽為“大數據商業應用第一人”的維克托·M·舍恩伯格指出,大數據時代最大的轉變就是放棄對因果關系的渴求,取而代之的是對相關關系的關注,這顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰[1]。數據監護(data curation)正是體現了維克托所指出的這一全新思維模式。數據監護是在e- Science 環境下圍繞如何持久保存數字資源,再進行整合加工,最后為用戶所利用的科學數據服務內容之一。高校圖書館擅長研究數據的關聯環境,并能很好地發現、理解和使用研究數據的特性。本文介紹數據監護在國內外研究與實踐的進展,比較和分析國內外數據監護研究和實踐的不同。基于數據生命周期理論,從高校圖書館的角度分析高校圖書館在數據監護活動過程中的地位和作用,為我國高校圖書館實踐數據監護和推出數據服務時提供決策支持。
2004 年英國聯合信息系統委員會(JISC)給出數據監護的定義:數據監護是為確保數據當前使用,并能用于未來再發現及再利用,從數據產生伊始即對其進行管理和完善的活動。對于動態數據集而言,數據監護意味著需進行持續性補充和更新以符合用戶需求[2]。2008 年Shreeves 和Cragin 在JISC 的基礎上,進一步闡述數據監護為科學數據帶來的價值及其包括的具體內容,即包括評價、篩選、重現及組織數據以供獲取和使用[3]。另外,Choudhury 在提出數據監護定義時更強調數據監護是為研究者以及科學家利用提供便利[4]。盡管定義有諸多不同,但都強調兩點:一是監護對象——科學數據,即通過存儲加工等活動后能得到再次利用;二是如何監護——方法,涉及數據形式、格式、元數據、管理策略等細節[5]。筆者認為,數據監護是基于數據生命周期[6]所開展的服務項目。所謂數據生命周期,是指對數字化資源進行保存及長期保存、提供獲取,最終用于支持研究、政策制定等再利用活動的整個過程,肯定了數據的動態存在[7]。數據監護工作存在于數據生命周期的過程中,如同檔案管理可以貫穿于文件生命周期一樣,可極大地提高數據監護的管理和利用效率。
高等院校一般都擁有眾多科研機構和大量的科學數據,而圖書館作為文獻保障和信息服務的陣地,完全可以將信息管理的理論與實踐自然遷移到數據監護中,是可以在數據監護方面有所作為的。
在數據監護方面,國內尚處在探索階段。雖然我國高校圖書館在數字資源長期保存領域的研究已有20 余年,但大多游離于數據管理流程之外。此外,單純的數據保存工作無法發揮圖書館在數據管理和數據增值方面的職業優勢。目前除積極介紹國外數據監護研究與發展概況[8-11]外,國內學者在兩個方面做了深入研究。
(1)研究在數據監護過程中高校圖書館的角色定位及功能。肖瀟于2012 年論述圖書館科學數據服務的未來發展規劃、角色定位、技術應用與合作等五方面服務的實踐探索[12],提出嵌入式學科化科學數據服務,為國內圖書館科學數據服務提供新思考[13]。
(2)以數據生命周期理論為基礎,探討圖書館的服務內容和服務形式。參考國外已開展的數據存儲與發布、數據發現與獲取、數據分析[14]等服務模式,推演出e- Science 環境下高校圖書館可以開展的服務方式,以指導圖書館的實踐工作[15]。
實踐方面,我國高校幾乎沒有開展數據監護的服務,但在科技部領導下,在科學數據資源整合、推動科學數據共享方面已作了大量奠基性工作,如2001 年底啟動的科學數據共享工程[16]。目前國內開展數據監護的機構很少且保存規模相對有限,如何建立相應的法律授權、技術標準、管理規范,尤其是通過可靠的示范系統提高圖書情報機構開展長期保存的信心和參與積極性是一個亟待解決的問題[17]。
數據監護最先出現在擁有大型數據的實驗室,從早期的實踐探索逐漸走向理論研究。目前比較熱門的研究主題包括對相關利益群體和規劃中所涉及的問題研究,對數據監護在圖書館開展中所存在優劣勢研究以及對圖書館開展數據監護內容的探討等,如Choudhury 闡述數據監護的概念以及功能[18],Pryor 通過提出數據生產者、數據管理者以及數據館員等角色的合作來實現數據監護服務目標[19]等。實踐方面,已有不少高校圖書館推出數據服務或相關的項目,下文對國外具有代表性的項目進行介紹和分析,力求全面了解數據監護。
(1)數據監護的戰略實施研究。美國國家科學基金會(NSF)于2007 年推出DataNet 項目。該項目以圖書館為主體,計劃用5 年時間資助5項數據監護重點研究課題計劃,如美國高校圖書館主持的DataONE(Data Observation Network for Earth) 項 目 和Data Conservancy 項 目[20]。DataNet 對圖書館,特別是高校圖書館提出了一項長遠的戰略發展計劃,內容包括搶占數據監護服務陣地、加快元數據建設、完成“數據監護員”角色轉變[21]。
(2)數據監護的發展策略研究。項目資助者大都提出一個要求:數據監護不僅要有強大的數據服務功能,還要具備自我生存能力。例如DataNet 計劃就明確要求被資助者要提出可行的經濟模式,即在5 年資助期滿后具備自我生存的能力[22]。
(3)數據監護的合作模式研究。圖書館在技術、學科等方面需要謀求與其他組織的合作[23]。數據監護的合作模式主要有三種:①協助研究者完成元數據的創建,如康奈爾大學圖書館的DataStaR(Data Staging Repository);②與專業學者合作完成專業數據庫以及元數據等建設,如普渡大學圖書館的D2C2 (Distributed Data Curation Center);③為研究者提供數據共享平臺,如加州大學加州數字圖書館的DataCite[24]。
(4)數據監護的內容研究。DCP(Data Curation Profiles)項目是對于數據監護內容方面的實踐,此項目為數據監護的元數據內容設定指標,從而利用高校圖書館為研究人員提供更好的數據服務,也能對數據進行更好的存儲、利用和完善[25]。
(5)數據監護工作應該開展教育和培訓。例如,IDEA(International Data Curation Education Action)工作小組就是一項為了促進教育領域和研究領域的人員在這一方面的合作而產生的職業教育交流項目[26]。另外,國外幾所高校已開設數據監護的研究生圖書情報項目課程,例如伊利諾伊大學圖書館與信息科學研究生院、美國麻省理工學院圖書館、美國斯坦福大學圖書館、愛丁堡大學圖書館都開設了數據監護教育項目。
在科學數據呈指數級增長的時代,高校圖書館在發揮科學數據保存和服務上具有不可替代的地位和作用[27]。在硬件上,依托高校擁有龐大的科研團隊及豐富的科學數據、提供技術平臺對數字研究內容進行收集和組織管理,為研究人員提供專業的服務、龐大的用戶群對數據監護的迫切需求以及完善的數據管理培訓系統等;在軟件上,高校圖書館擅長數據關聯管理,有利于科學數據的整合與共享;對元數據規范的熟悉程度高,有利于配合各領域專家建立元數據標準等。這些軟硬件顯示高校圖書館具備開展數據監護服務的可行性。數據監護作為一項知識服務,其數據處理和管理方法實際來源于信息管理,而這正是圖書館的強項。也正因為出現了這項新型服務,才引發了圖書館人對高校圖書館未來發展定位以及戰略規劃等問題的思考。雪城大學的秦健曾總結有關數據監護的項目和研究時指出,“科學家們都忙于研究,需要有人來幫助他們管理科研數據,進行保存,建立元數據,從而方便查找、使用以及在這個基礎做更深入的分析工作”[28]。這項工作落到高校圖書館身上,圖書館的職能不再僅僅局限于文獻保障和信息服務,而應拓展到為科研機構提供知識服務的新職能,即保證數據在需要時能被再次檢出并可以使用。當然,圖書館要想在數據監護上有所作為,作為主管機構的高校應該從多方面給予支持,包括科研管理政策的修訂、經費和人力投入、軟硬件建設、圖書館數據監護工作人員的職業技能培訓以及相關標準的制定等。
一個數據生命周期意味著通過數據管理和長期保存,實現資源發現和再利用,也可以理解為一次完整的數據生命周期需要經歷數據初次加工、數據再加工、知識抽取階段(如圖1)。數據初次加工包括數據存儲及長期保存、數據共享、數據發現及獲取等服務,是高校圖書館普遍存在的數據服務方式,該階段的服務主要以數據存儲為主,這本質上和圖書館的文獻保存相似。例如部分圖書館建立的機構庫有利于內部數據的共享,都是其在初級階段所提供的服務。數據再加工主要是對前一階段的完善,通過提供數據增值服務來更大范圍的發揮數據的作用,即圖書館可以開展數據可視化、增添數據鏈接、數據注釋等服務。目前已有高校圖書館嘗試給科學數據添加注釋及來源出處,實現科學文獻和科學數據的交叉鏈接。知識抽取階段則側重于知識服務,是對數據進行深層分析,將其轉化為知識的過程。圖書館可以通過與研究者合作提供數據挖掘、數據分析和數據融合以及提供相應的數據分析軟件等[29]服務。無論是哪一個階段,圖書館都應該確保其保存的數據能夠對外提供服務。
國外高校圖書館已積極參與到數據監護的實踐中,那么對于剛起步的我國高校圖書館而言,筆者通過理性分析數據監護在我國發展的優勢和劣勢,期望為我國高校圖書館開展數據監護服務時提供參考。
我國大多數高校圖書館對于數據監護服務的實踐處于觀望之中。雖然也出現過“科學數據共享工程”等項目,但還尚未大規模進入研究領域,沒有得到學界的普遍關注。

圖1 科學數據生命周期示意圖
資金和人力上的投入直接決定了高校圖書館能否積極開展數據監護工作。高校圖書館本身業務比較繁重,經費也很緊張,圖書館沒有更多的資源投入到數據監護工作上;科學數據在專業上的高門檻性,例如大氣工程、航天工程等就要求館員對所在學科有比較深入的認識;再加上科研管理體制的限制,圖書館難以在數據監護工作中找準角色。館內外的限制導致我國高校圖書館參與數據監護的條件還未成熟,如缺乏數據資源、專業人才,沒有統一的管理規范標準[30]。雖然在實踐上困難重重,但包括高校圖書館在內的業界人員都在積極開展對數據監護理論與實踐的探索,期冀為我國高校圖書館開展數據監護服務提供理論支持。
科學的數據監護離不開高校科研管理政策的支持。目前的科研管理政策對科研機構的數據監護工作沒有約束力,科研機構缺乏投身數據監護工作的積極性,圖書館也缺乏對應的工作規范和工作流程,難以對科研機構的數據監護工作提供科學指導。在高校相關部門的組織下,圖書館要主動承擔責任,全面充分了解科研機構的意愿和訴求,制定科學的數據監護工作和服務的相關規范和政策,為數據監護工作和服務保駕護航,確保數據監護工作和服務可持續發展。
除了必要的財力、人力以及政策支持外,圖書館也應積極謀劃,推動數據監護早日成為圖書館的一項服務。
從戰略布局來說,可以從四方面入手。首先,應盡早著手對科學數據的收集管理工作,推出數據監護服務;其次,應聯合各領域專家建立各學科的元數據標準,推動數據共享;第三,應積極宣傳數據監護項目,讓更多的科研機構和研究人員了解和參與;第四,借鑒并有選擇性地引進國外數據監護項目成果,做好漢化工作。
從服務內容看,首先,高校圖書館需要盡快明確館員以及用戶的角色及其職責。其中館員的角色多為“數據管理者”,其職責主要有:(1)利用社交軟件等有針對性地獲取科研人員的科研需求,在Web 空間中融入數據監護活動;(2)學習相關技術,如元數據標準、數據管理模型等,從而進行內容提供的服務;(3)聯合數據專家參與到數據監護人才培養計劃中。另外,高校圖書館擔負著培養數據監護人才的重任。2012 年3 月美國白宮科技政策辦公室發布的《大數據研究和發展計劃》,為高校圖書館聯合院系開展數據監護人才培養提供了強有力的推動力。再者,高校圖書館可以通過尋求大型企業(如微軟、谷歌、百度)的數據專家進行合作與交流,校企合作可以加深對實際的大數據問題的接觸,提高數據監護人員應對數據的能力。例如,2013 年創立的華東師范大學云計算與大數據研究中心就致力于發展與贊助企業的戰略合作關系,合作進行市場需求調研、聯合項目研究和科研成果轉化。
從數據生命周期的角度看,我國高校圖書館的數據監護服務主要停留在數據初級利用階段,即數據存儲服務,且存在數據存儲空間局限的問題,跟數據監護的本質要求還存在較大差距。國內許多高校圖書館針對數據存儲已紛紛建立自己的數據倉庫,如香港大學、浙江大學等圖書館,但這些數據倉庫往往只收集本機構部分最終研究數據,尚未能夠對研究的中間過程和機構以外的全部科學數據進行開放存取[31]。再者,高校圖書館可否利用目前的云計算基礎設施,從而減少數據本地存儲的壓力,為數據監護服務奠基。最后,國內高校圖書館也正在加緊探索為數據增加注釋與連接等再加工服務,為實施數據監護服務做好充分的準備工作。
[1] 維克托·邁爾·舍恩伯格.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社,2012:27- 28.
[2] JISC.e- Science Data Curation[EB/OL].[2013- 03- 11].http://www.jisc.ac.uk/media/documents/programmes/preservation/acfb51.pdf.
[3] Shreeves,S., M. Cragin. (2008) . Introduction:Institutional repositories:Current state and future[EB/OL].[2012- 12- 02].http://www.ideals.illinois.Edu/handle/2142/10679.
[4][18]Choudhury S.Data curation:an ecological perspective[J].C&RL News,2010(4):194- 196.
[5] 劉雄洲,王菲.國外數據存管實施現狀及其對國內高校圖書館的啟示[J].圖書館,2012(5) .
[6] Gold.A. Cyber infrastructure,data,and libraries. Part 1:A cyber infrastructure primer for librarians[J].D- Lib Magazine,2007(13) .
[7] Gold A. Conceptualizing the digital life cycle[EB/OL].[2013- 03- 13].http://www.iassistdata.org/blog/conceptualizing- digital- life- cycle.
[8][12][23]肖瀟,呂俊生.e- Science 環境下國外圖書館科學數據服務研究進展[J].圖書情報工作,20012(9) .
[9][13]肖瀟,呂俊生.圖書館嵌入式學科化科學數據服務研究[J].圖書館雜志,2012(21) .
[10][14]洪程. 國外科學數據服務現狀研究[J]. 圖書館雜志,2012(10) .
[11][15][29]師榮華,劉細文. 基于數據生命周期的圖書館科學數據服務研究[J].圖書情報工作,2011(1) .
[16][30]科學數據共享工程[EB/OL].[2012- 11- 29]. http://www.most.gov.cn/ztzl/kjzg60/kjzg60hhcj/kjzg60jcyj/200909/t20090911_72832.htm.
[17] 張玫,李麟,張曉林,等.中國圖書館數字文獻資源長期保存現狀調查[J].圖書情報知識,2009(2) .
[19] Pryor G,Donnelly M.Skilling up to do data:Whose role,whose responsibility,whose career?[J]. International Journal of DigitalCuration,2009(4):158- 170.
[20][21]楊鶴林.數據監護:美國高校圖書館的新探索[J].大學圖書館學報,2011(2) .
[22] NSF. Sustainable Digital Data Preservation and Access Network[EB/OL].[2012- 12- 22].http://www.nsf.gov/pubs/2008/nsf08021/nsf08021.jsp.
[24] DataCite Statutes[EB/OL].[2012- 12- 24]. http://datacite.org/docs/datacite- statutes- final.pdf.
[25] Data Curation Profiles[EB/OL].[2012- 11- 29]. http://www.datacurationprofiles.org.
[26] 數據監護范例分析——以DataCite、DCP 和IDEA Working Group 為例[J].大家,2012(9) .
[27][31]王學勤,Stout A,Silver H. 建立數據驅動的e- Science 圖書館服務:機遇和挑戰[J].圖書情報工作,2011(13) .
[28] 秦健.eScience 與圖書館服務新創舉[DB/OL].[2013-3- 21]. http://v.youku.com/v_show/id_XMjk3NTE4 MTMy.html.