介鳳王娟
數據策管是為滿足當前和未來研究人員再次利用科研數據的需要,對一系列可信賴的數字信息進行管理保存,并對其加工增值的一個過程[1],是貫穿數據整個生命的持續性管理活動。數據策管超越了單一保存的層面,它包括了管理規劃、加工組織和保存三個階段[1]。國外一些國家的數據策管已經有了多年的實踐積累,并通過自發組織成立了全球科研數據聯盟 (Research Data Alliance,RDA)[2],為實現E-Science環境下科研數據更廣泛的再利用而努力。而我國還處于基礎理論研究階段,以概念分析、應用展望的成果為主,還未能從實踐的角度深入研究數據策管。因此,本文循著信息資源管理和服務實踐過程,將數據策管與我國高校圖書館的傳統資源管理相比較,分析科研數據作為新興資源在其策管過程中的挑戰,同時考慮數據策管相關的外力因素,厘清我國高校圖書館開展數據策管工作要面臨的挑戰,以及就如何應對這些挑戰展開討論。
高校以其在科學研究中占據的重要地位,成為科研數據生產的主力之一,而作為保存高校各種信息資源并為用戶提供服務的圖書館,具備了科研數據存儲和服務所需要的軟硬件設施、從事科研數據加工組織和存儲的經驗、開展服務的人力資源。因此,科研數據正成為國內外高校圖書館的研究對象,被納入館藏資源建設的范圍,并將成為圖書館館藏的重要組成部分。
科研數據開發和利用的現實環境與研究人員要求便利地再次利用科研數據之間的不匹配,迫切要求高校圖書館成為科研數據生命周期內的積極參與者,并為扮演重要角色而做好準備[3]。此外,科研數據自身的復雜性決定了其在策管和服務方面有別于傳統的書刊和文檔等館藏資源,從而也使得探索科研數據的采集、組織加工、管理和服務成為E-science環境下圖書館界新的研究熱點和實踐增長點。
雖然高校圖書館在內外部環境急劇變革的條件下,實施了按需采購,讀者驅動采購和讀者推薦等一系列創新采購文獻資源的做法,從而也吸收部分機構的用戶參與采購,如教務處、學院科研負責人、教師和科研人員等,但是,傳統信息資源采集的主動權仍把握在采訪館員手中。然而科研數據則迥異,它掌握在研究人員和師生手中,資源是否愿意出讓和與他人共享完全取決于掌握數據者個人的意愿。因此,為了實現科研數據的儲存和共享,一方面,迫切需要圖書館主動與科研成果和人事管理部門開展合作,以不損害數據擁有者的利益為原則,并根據科研數據利用的實際情況,制訂合理的科研數據呈交和管理保障制度,以促進科研數據的共享和再次使用價值的提升;另一方面,需要相關職能部門制定詳盡的鼓勵政策和強制措施,并加強對科研數據的管理和監督,進而保障科研數據的安全存儲和實現不同范圍的共享。
圖書館傳統資源的描述包括題名、責任者、出版機構、分類或主題等多個信息描述項,共同組成該資源的書目數據記錄,進而通過分類對信息有序化加工,實現書目數據記錄按照分類規則進行組織。科研數據的標識過程也包括外在特征和內容特征的標識,但是遠比傳統資源的描述要復雜。外在特征方面包括如科研數據集的數據所有者、聯系人、課題名稱等,還有實驗條件、數據記錄列表、數據生成步驟、數據模型文檔,以及數據用于分析的操作步驟等;內容特征則更為復雜,主要從語義角度解釋特定數據集內容、結構和含義。相對于傳統資源的一維描述,科研數據需要是多維度的,除數據本身的描述,還需要有同其他數據的關系、存儲位置、使用方法等的描述,為實現不同角度的信息與數據集的鏈接奠定基礎,從而實現被描述對象的分析和再利用。
科研數據的組織加工是針對科研過程中產生的數據和信息進行篩選、元數據標識、文檔之間的關聯,以及分類和主題標引等加工流程。除信息描述外,科研數據的關聯更為重要。數據的產生基于特定實驗條件和時間,背景屬性與數據集的關聯;同時,科研數據產生的生命周期賦予了數據動態發展的特性,不同階段產生的數據需相互關聯;數據的記錄、處理、分析等方法和工具等描述文件之間做關聯;以及數據與相關出版文獻的關聯等。對關系的描述成為科研數據加工的重要部分,而關聯關系呈指數型增長趨勢,這對信息資源組織和加工提出了新要求[4]。關聯數據為擴展科研數據資源的發現服務、語義檢索,以及與網絡資源的鏈接等創造了條件,進而將有助于研究人員方便再次利用科研數據,并將促進科研數據在學術研究和交流中發揮更大的作用。
科研數據的組織難度相對傳統資源較大,目前仍未有統一的標準和操作規范,國際自發組織RDA正在為之努力[2],但是其目標的實現仍需圖書館界共同努力。
傳統資源的管理涉及保存、評價和剔除等問題,而科研數據管理方面,筆者則認為其涵蓋的范圍更寬泛,不僅包括組織加工前期的數據篩選和質量審核,還包括科研周期內對數據集描述的增補,以及獲取訪問的認證管理等內容。相對傳統資源而言,科研數據管理更加需要實現從數據產生之初開始,直至覆蓋科研整個生命周期的過程管理,是一個動態跟進的過程。管理的目標是對科研數據或科研數據集進行標引以實現數據分析和知識發現,實現數據與其它出版物的關聯和聚合等[5];以促進保證科研數據的便于發現和再利用。
科研數據策管需要多方合作,從而使得數據提供服務也將涉及合作各方,以致與提供傳統資源服務相比增加了難度。因此,一些研究人員認為,圖書館在科研數據服務方面的作為有限。持這種觀點的代表之一Rich Luce認為,圖書館本身沒有能力存儲管理日漸增長的海量科研數據,應該堅持自身的核心競爭力,發揮數字圖書館在信息描述、檢索整合、保存文獻方面的優勢,而在技術、學科知識服務等方面需要與其他組織進行合作[6]。
但是,美國哈佛-麻省理工數據中心、愛丁堡大學圖書館建立的數據倉庫、哥倫比亞大學圖書館建立的數據門戶等多個案例證明了圖書館完全有能力開展科研數據服務[7]。實踐表明,圖書館可以結合自身的情況,開展不同層次的科研數據服務:管理咨詢、數據加工、保存、獲取的初級服務;數據鏈接、可視化分析和添加注釋等再加工服務;以及知識挖掘、分析服務等[8]。此外,鑒于科研數據產生的過程有別于論文、報告的生產,因此,開展對科研數據生產者進行提交、保存和共享方面的信息素養教育顯得尤為重要。為此,圖書館在對科研數據生產者開展信息素養教育時,應根據科研數據保存和再次利用的特點,變革科研數據信息素養教育的內容,創新傳統信息素養教育的方式。盡管數字圖書館在資源的加工、存儲、可視化、內容超鏈接和提供服務等方面積累了一定的經驗,但是基于科研數據本身的復雜性,以及隨著科研進程的快速發展,對服務內容和形式的創新提出了更高的要求。
高校圖書館開展科研數據策管與服務相關的因素很多,其中包括科研工作資助和管理機構的政策,科學傳播過程中圖書館上下游相關行業的變革,及科研人員對便捷利用科研數據的要求等都是影響圖書館策劃和管理好科研數據的重要因素。
經濟合作與發展組織(OECD)成員國2004年簽署的一個宣言,提倡所有受公共資金支持獲得的研究數據都應為公眾獲取、共享,并于2007年發表了《公共資助科研數據開放獲取的原則和指南》[9]。隨后,美國、英國等一些重要的基金機構也提出了數據開放政策指南,如美國國家科學基金會(NSF),從2011年開始,要求接受資助的項目提交科研數據的管理與共享計劃。2013年2月,美國科技政策辦公室(OSTP)簽署“提高聯邦政府資助的科學研究結果公眾獲取度”[10],提到由聯邦資金資助的研究項目,所產生的非保密的科學研究數據應該存儲并為公眾最大化提供免費訪問,可支持數據的檢索和分析。國外的科研數據服務正是在這些政策的推動下快速成長發展起來的。
國家和基金組織制訂的這些相關政策既有效地確保了數據的及時公開發布,又有效地保證了數據擁有者的著作權。從而成為推動圖書館加強科研數據策管的重要力量。同時也成為在堅持信息平等獲取條件下,圖書館承擔協助科研人員科研數據策管,并完成科研數據開放獲取和支持公眾獲取利用數據的重要歷史使命。
出版界作為商業機構也積極參與到了科研數據策管中來。以Elsevier集團的ScienceDirect(SD)為例,基于科技文獻和科研數據的互操作,建立關聯,管理數據集[11]。集團的目標是實現數據集和論文的無縫互操作,“無論數據集存儲在什么平臺上”。Elsevier目前正在做的一項工作是和一些組織合作,例如Gen-Bank、CCDC(Cambridge Crystallographic Data Centre)和 PANGAEA(Publishing Network for Geoscientific&Environmental Data)等,將論文內容中描述的實體與涉及的數據實現鏈接;同時在SD論文平臺上實現外部存儲數據集的實時統計、可視化操作應用。具體鏈接模式見圖1[11]。
從數字學術信息資源出版的趨勢看,科研數據出版逐漸成為可能,沿著最初為電子期刊提供科研數據集鏈接、科研數據與科學文獻混合出版、同行評議的科研數據獨立出版的發展路線演變[12]。圖書館與出版行業的緊密關系,決定了其在科研數據策管中也應積極行動。借助科研數據公開獲取的政策優勢,高校圖書館以共享科研數據為目標,加強與出版界的合作,在為科研人員提供科研數據策管和服務的同時,借助出版界的平臺加速科研數據的傳播,進而使得科研數據得到增值。
目前高校科研成果產出,即以科技論文和專利等形式發布的科技文獻作為科研機構績效考核的主要依據。然而隨著社會的進步和考核指標的修正,全社會越來越重視科研成果轉化所創造的社會和經濟價值,以及產生的社會影響力。
有科學家指出,在不久的將來,科研數據將以通過同行評議的方式獨立出版,這樣一來,即使數據的研究者自身沒有能夠從數據中提煉出新的科學發現,但因所提供的科研數據具有價值而贏得科學界的認可[13]。由此,將越來越引起全體科研人員對生產科研數據的重視。此外,科研數據本身的價值和科研人員進行科學創新迫切需要再次使用的要求,成為推動圖書館加強科研數據策管的根本動力因素。
總而言之,科研數據正在成為高校圖書館需要加強管理并提供服務的一種新型資源。從而使得圖書館既面臨著需要優化科研數據策管和服務的嚴峻挑戰,同時也迎來了圖書館通過拓展服務內容,進而提升自身地位的發展機遇。
在云計算環境下,僅以一館的力量已經根本無法承擔科研數據選擇、存儲和服務等方面的工作。為實現科研數據的知識挖掘和分析功能,這就需要圖書館界深入探索科研數據的組織加工方法,針對科研數據動態形成的特點實現嚴格的過程管理,以用戶需求出發而先于需求,開發潛在需求,指導用戶提升利用數據的能力等方面,協同技術等部門搞好協調和合作。
[1] 時婉璐,任樹懷.數據策管:圖書館服務的新創舉[J].圖書館雜志.2012,31(10):24-27.
[2]RDA-Research Data SharingWithout Barries[EB/OL].[2014-10-30].https://rd-alliance.org/.
[3]Tenopir C,Birch B,Allard S.Academic Librariesand Research Data Services-Current Practices and Plans for the Future[EB/OL].[2014-10-30].http://www.acrl.ala.org/acrlinsider/archives/6297.
[4] 錢鵬,鄭建明.基于資源描述框架的圖書館科研數據組織初探[J].情報理論與實踐,2012(3):100-102.
[5]Lord P,Macdonald A.E-Science Curation Report:Data Curation for e-Science in the UK:an Audit to Establish Requirements for Future Curation and Provision[EB/OL].Jisc.[2014-10-30].http://www.jisc.ac.uk/whatwedo/programmes/preservation/escience.aspx.
[6] Rick L.New Collaborative Relationships:The Role of Academic Libraries in the Digital Data Universe[C].Librarians and eScience:Focusing towards 20/20.Purdue.2008.
[7] 李曉輝.圖書館科研數據管理與服務模式探討[J].中國圖書館學報.2011,37(5):46-52.
[8] 師榮華,劉細文.基于數據生命周期的圖書館科研數據服務研究[J].圖書情報工作,2011(1):39-42.
[9] Science and Technology Policy-Organisation for Economic Co-operation and Development[EB/OL].[2014-01-30].http://www.oecd.org/sti/sci-tech/oecdprinciplesandguidelinesforaccesstoresearchdatafrompublicfund ing.htm.
[10] Expanding Public Access to the Results of Federally Funded Research|TheWhite House[EB/OL].[2014-01-30].http://www.whitehouse.gov/blog/2013/02/22/expan ding-public-access-results-federally-funded-research.
[11] Jan Aalbersberg I,Ove K.Supporting Science through the Interoperability of Data and Articles[J/OL].[2014-01-30].D-Lib Magazine.2011,17 (1-2).http://www.dlib.org/dlib/january11/aalbersberg/01aalbersberg.htm l.
[12] 錢鵬,鄭建明.高校科研數據組織與服務初探[J].情報理論與實踐,2011(2):27-29.
[13] Towards2020 Science:Roadmap[EB/OL].[2014-01-30].http://research.microsoft.com/en-us/um/cambridge/projects/towards2020science/downloads/T2020S_Roadmap.pdf.