●裴玉香(煙臺大學 圖書館,山東 煙臺 264005)
我國在21世紀初正式啟動“科學數據共享工程”,在推動數據共享的過程中,科研的最終成果受到了足夠的重視,但在科研過程中產生的大量數據卻一直受到忽視。近幾年,以美國為首的高校圖書館界開始注意并對這些科學數據掀起了數據監護(data curation)的熱潮,而我國對數據監護的理論研究剛剛起步,實踐仍處于空白。筆者結合我國高校圖書館界的實際情況,從教師退休或離職前接收其電腦中的科研資料著手進行數據監護,希望逐步建立起我國高校圖書館數據監護機制。
數據監護中的“數據”,無疑是科學數據,但其范疇是什么,卻有不同觀點。英國JISC(Joint Information Systems Committee,聯合信息系統委員會)將“數據”定義為“原始的研究數據”。[1]美國 NSC(National Science Foundation)認為“數據指所有能以數字化形式存儲并能以電子方式獲取的信息,包括數字、文本、出版物、感應器讀數流、視頻、音頻、算法、軟件、模型、模擬、圖像等”。[2]筆者認為,前者縮小了數據的范疇,“數據”不僅包括“原始的研究數據,也應包括研究過程中產生的一切數據”;而后者只是從數據的形態上給予了說明。因此,數據的范疇應是科學研究過程中產生的以數字化形式保存和存取的一切數據。
數據監護(data curation)中的“curation”一詞,在我國使用率并不高,到目前為止,其譯法也不盡相同,如保存、保管、典藏、醫療、診斷等等。北京高校圖書館2011年數圖年會上,崔宇紅提出“curation”來源于拉丁語,本意為照顧,原主要用于文化遺產領域,現廣泛用于多個領域,特別是對互聯網內容的選擇和編輯。因此對數據的監護形式應該既包括對科學數據的選擇、注釋、組織和存儲,又包括對科學數據再加工、剔舊和維護,使其產生附加價值,具有再利用的功能。
JISC在2004年就對數據監護做了定義:數據監護是為確保數據當前使用目的,并能用于未來再發現及再利用,從數據產生伊始即對其進行管理和完善的活動。對于動態數據集而言,數據監護意味著需進行持續性補充和更新,以使數據符合用戶需求。
從這個定義可以看出,數據監護的目的不僅是為了當前科學研究使用,更重要的是為了便利未來科學研究的再使用。從科學數據產生開始,就要對其進行監護,這個過程不僅僅是管理過程,更重要的是不斷更新、維護的過程。
目前,數據監護比較有影響力的是NSF于2007年啟動的DataNet計劃,明確以圖書館為主體,預算1億美元。此外,已經啟動并獲全額資助的課題有兩個,一是2009年8月啟動的Data One項目,該項目由新墨西哥大學圖書館主持,專門針對地球科學數據開發的;[3]二是2009年10月啟動的Data Conservancy項目,該項目由約翰霍普金斯大學圖書館主持,采取以用戶為中心的理念,使用OAI-ORE標準,在現有數字化系統和標準上開發數據監護系統,系統特色包括模塊化設計、互操作網絡、層存儲等。[4]另外三個數據監護重點研究課題也將在未來五年內受到資助并陸續開展。
有關數據監護的國內外研討會也分別在2010年底和2011年提上日程,其中2011年5月17日在臺灣大學圖書館舉辦了“E-Research:新時代學術研究之利器”研討會,[5]會議特邀請伊利諾大學與賓州州立大學專家學者參加,其中伊利諾大學香檳分校圖書館的Paula Kaufman館長的講題是《Whyisdatacurationan important role for libraries?》開啟了海峽兩岸有關Data Curation研討的先河。2011年國內學者也紛紛舉辦有關Data Curation的講座,Data Curation逐漸走進國內學者的視線并逐步受到關注。

表 2001-2010年Google Scholar檢索到的“Data Curation”發文量
2002年Jim Gray首次提出Data Curation概念,從表中可以看出,在這時期有關Data Curation的文章很少,到2006年底發文數量共計35篇,以后逐年增多,其中2009-2010年是2006-2008年的兩倍多。
可見,說數據監護作為一項新興課題,其理論體系尚在逐步完善中,目前國外開始啟動的有關項目也處在初期建設階段。因此,我國高校圖書館界應搶占數據監護先機,將數據監護工作開展開來,并在開展過程中隨著數據的收集、使用、分析、總結,摸索用戶需求及使用規律,逐步建立和完善數據監護機制。具體來說,可以從接收退休和離職的教師電腦中的科研資料入手,作為高校圖書館界數據監護的開端,有利于科學數據的保存和使用。
科學數據監護原因主要有:研究過程需要驗證、重復、鏈接和共享科學數據;研究數據的高投入、易損失和不可替代性;從現有數據中產生“新”知識的潛力;因此,高校圖書館應像接受圖書捐贈那樣,在教師退休或不再從事科學研究以后,接收其電腦中的科研資料,并向后來的研究者開放,以發揮其最大作用,既是非常必要的,又具有重要的理論和實踐意義。
老科研工作者承擔的多是“小科學”,這些項目存在分布散、規模小、缺乏數據存放統一標準,所以長期處于數據管理的盲區,缺乏分享機制,更缺乏長期利用策略。高校內 “小科學”的數量非常可觀,據不完全統計,高校內的課題85%的參與者都在3~4人之下。
老科研工作者的很多科研原始資料,都保存在自己的電腦中,隨其退休或離職,將會丟失不知所終,其他人要做同樣的研究,就得重復做,既浪費時間、經費,又浪費了不必要的人力。
老科研工作者的有些科研資料是無法重復的,如果科研資料隨其退休、離職而消失,將會對新科研工作者造成永久性無法彌補的損失。
關于數據的長期保存,好多老科研工作者會用刻光盤(包括過幾年再復刻一次)、大容量移動硬盤方式備份;在退休、離職之初,處于慣性和棄之可惜的念想,仍會對其定期維護,浪費了不少金錢。高校圖書館應像接受圖書捐贈那樣,在教師退休或不再從事科學研究以后,接收其電腦中的科研資料,對老科研工作者來說,是金錢和精神兩方面的解脫。
隨著網絡技術、信息存儲技術的發展,圖書館所處外部環境風起云涌,信息服務機構紛紛搶占服務地盤,使圖書館失去了原先固有優勢;核心業務的外包,使得圖書館必須將注意力逐漸集中在“做好讀者服務”的核心工作上。內外環境的變化使得高校圖書館只有通過加大學科服務的深度和廣度,進一步與高校科研融合,才能發揮自身優勢,體現自身價值,才能避免邊緣化。
在認知上,雖然對數據監護的必要性給予了高度認同,但對所接收的科研資料是否會因數據監護系統的各種問題導致缺乏可持續性、經費缺乏以及人為因素導致未來可能無法訪問,被調研人員也都表示出高度憂慮。在這一點上,領導們應轉變觀念,認識到數據監護對科研教學的重要性;認識到保證資金的投入是確保數據監護的可持續發展的前提。經費充足的圖書館可考慮建立一個本館電子資源的長期保存和管理平臺,實現對電子資源的長期保存,使用戶能隨時對這些資源檢索訪問。近年來,國際主流的開源倉儲軟件DSpace與Fedora比較受關注,這兩個開源軟件于2008年7月宣布合作,實現了對這兩個倉儲軟件開發的統一管理,促進了兩個平臺的互操作。有條件的圖書館可根據自身不同的需求,對兩系統作出一些適合自身的擴展;經費緊張的圖書館可將科研資料接收后先存檔,對其進行較低層面的保管(如僅存貯在較穩定的介質上),待條件允許再實施全面數據監護與提供服務。
圖書館對退休或離職教師電腦中的科研資料全盤接受后,應根據本校教學科研需要制定規程確定數據監護范圍,對在監護范圍內的科研資料加以保存、注釋、歸檔,建立一個系統來編排科研數據;使新科研工作者知曉這些科研資料并提供使用途徑;確保科研數據始終有用和可靠。為此,在接收前要特別關注包含保密性或敏感性的信息;在接受前要通過簽訂協議實施保存職責轉移;為了提高檢索效率,也為了減輕經濟負擔,一旦斷定數據資源失去了保存價值,就應考慮將其移出數據監護系統。在接收前很有必要與數據提交者說明并簽訂協議。
圖書館對退休或離職教師電腦中的科研資料接收后要制定一定質量標準,使其規范化、科學化,有利于后繼使用者的使用。一方面,圖書館作為數據監護的管理方,應采取一定程度的訪問控制,避免無度訪問導致錯誤膨脹;在提交之前,應由提交方對其提交資料的真實性、完整性以及合理性等方面進行梳理,或由學科館員組織、注釋(語義描述和元數據規范)之后由提交人認證無誤再保存。另一方面,可參考現行的學術論著引用規范來制定所提交資料的引用規范,相關機構(如出版界、學術機構等)加強監督,共同營造科研誠信氛圍。
只有擁有合格的數據監護人才,才能保證數據監護工作的順利進行。結合我國高校圖書館的實際情況,學科館員應該是數據監護人員的重點培養對象。一方面,高校圖書館界應密切關注國外數據監護教育的進展,將先進理論和教材及時介紹到國內,并在全國高校內組織數據監護方面的培訓,可借鑒Calis聯合目錄編目員資格認證方面的培訓,使學科館員了解數據監護理論,具有數據監護操作知識;另一方面,各高校圖書館應根據自身情況,盡快開始數據監護探索性實踐,如先對退休或離職教師電腦上的科研資料接收入手,通過探索性實踐,讓學科館員在原有知識結構基礎上,不斷提高數據監護實際操作技能。
對信息資源的開放存取在美國已經是自上而下的要求,目前這方面有加速的趨勢,并不僅僅是數據提交方、使用方有這方面的需求,而是提供研究基金的機構如NSF對數據監護提出要求,數據提交方不得不了解如何讓數據被別人共享,從而形成開放存取機制。高校圖書館作為一個長期穩定的信息機構,從教師退休或離職前接收其電腦中的科研資料入手,僅僅只是邁出了數據監護的第一步。圖書館應因勢利導,一方面推廣宣傳,使用戶知曉數據監護內容,了解使用途徑,從而擴大需求;另一方面,圖書館要與研究者互動,促進他們在科研課題結束后直接將數據提交到圖書館數據監護庫,并采取在職院系教授加入考評、院系科研年度情況報告等監督和管理措施,逐步過渡到校內所有科研項目結束后的科研數據上報,直至可以為整個高校提供一整套可靠的數據交流、發布和保存解決方案,使圖書館成為知識發布、保存、利用和管理的重要陣地。
[1]Lord P,Macdonald A.Data curation to e-Science in theUK:an audittoestablish requirements for future curationandprovision[EB/OL].[2012-09-27].http://www.jisc.ad.uk/uploaded-documents//e-ScienceRiport-Final.pdf.
[2]National Science Board.Long-lived digitaldata collections[EB/OL].enabling research and educationin 21 stcentury[2012-09-27].http://www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.
[3]DataONE[EB/OL].[2012-10-03].https://dataone.org/.
[4]DataConservancy[EB/OL].[2012-10-03].http://dataconservancy.org/.
[5]E-Research:新世代學術研究之利器研討會議程[EB/OL].[2012-10-03].http://210.70.94.83/upload/74/document/fd_ok4gi074_20110425092126_1.doc.