陳建新
(江蘇食品職業技術學院圖書館 江蘇淮安 223003)
隨著信息社會的發展,產生于科學實驗、科學研究過程之中以及日常信息行為、社交網絡、移動終端的數據海量增加,由于數據產生來源、存儲媒介的不同,使得數據的類型、存在形態和結構都豐富多樣,隨著隱藏在這些數據背后的巨大價值被發現和利用,數據的科學價值逐漸被人們重視,致使科學研究工作向著數據密集型研究轉變,科研人員必須對大量的科學數據進行收集、分析、管理、保存和共享。作為社會信息、文獻的收藏、利用、加工、服務機構的圖書館,在科學研究進入到以數據為基礎,以數據密集為主要研究范式特征的大數據時代,科學數據服務值得關注和研究,也必將是未來圖書館服務的主要組成部分。
信息社會的發展,使得科研環境也向信息化、網絡化與數字化方向發展,在重構的科研環境下,各種實驗及設備、計算機及儀器產生的原生科學數據指數增加,其中包含著大量未被重視和處理或只出版公布了最終實驗結果而對實驗過程數據沒有記錄的數據,而事實上這些數據也有著大量的科學研究價值,因此,科學數據作為一個傳統的概念,隨著數據科學的興起以及在數字化科研背景下第四科學研究范式的形成,受到了越來越多科研人員的重視,其含義、組成及存在形態也都在發生著變化,如從科學數據來源來看,其既包括科研、實驗過程中的實驗數據、計算機中的存貯數據等數字化數據,如實驗記錄數據等,也包括原始的非數字形式數據,如神經圖像等;從數據組成類型與格式來看,其既包括傳統的結構化數據,如數值型數據、多媒體數據,也包括大數據時代的非結構化數據、半結構化數據,如文本數據、HTML 數據、社交數據等。
實現對需要進一步研究方可發現其蘊含價值和內容的科學數據的存儲、共享、利用與服務隨著科學數據大規模的產生而顯得愈發緊迫和必要,因為科學研究已不再是獨立的觀察某一實驗或領域的數據,學科間交叉合作研究和學科內繼續研究成為了科研發展趨勢,在這種大環境下,科學數據成為科研機構、科研人員學術交流的基本單元。作為社會知識服務機構的圖書館特別是為用戶提供科研、 教學支撐的高校圖書館向用戶提供科學數據服務,能有效保護數據免于丟失、提高數據曝光度,傳播和出版成果、實現數據共享、對科學質疑公開、鼓勵觀點多樣性、節約科研成本、完成研究資助方的要求等。
2012 年6 月,美國大學與研究圖書館協會出版了《學術圖書館與科學數據服務》白皮書報告,該報告調查了美國和加拿大的大學與研究圖書館協會的351 所成員館的科學數據服務情況,結果顯示盡管目前只有少數的美國、 加拿大的大學與研究圖書館協會成員館開展科學數據服務,但也顯示許多高校圖書館準備在未來一到兩年內開展科學數據服務。現有的科學數據服務以情報咨詢類服務為主,如科學數據服務培訓、數據管理計劃、數據查找與引用等,很多高校圖書館還將科學數據服務嵌入到科研過程中,鼓勵圖書館員直接參與到項目的過程之中。此外,科學數據的技術服務也是服務的主要類型之一,如提供數據標識、數據更新、技術支持等服務。但由于技術服務涉及到了科學數據的內容、存在形態、創建與更改等方面,對館員的技術素養要求較高,因而開展此項服務的圖書館數量較少,而大多數圖書館只是計劃在兩年內提供此類服務。值得一提的是,在提供科學數據服務的圖書館中,盡管大多數圖書館傾向于讓學科館員(71.1%)擔任數據館員職務,但也更愿意對現有員工進行相關業務培訓后重新上崗來從事此項服務,如參加課程進修、內部交流等培訓方式,只有較少比例的圖書館愿意采取雇傭新員工的方式來開展此項服務。
作為以社會或機構信息組織、服務、加工為主要職責的圖書館,因其服務的用戶在科研過程之中、所藏文獻信息開發之后均能產生大量的科學數據,故而其蘊含著大量的科學數據,嵌入式服務、學科服務的深入開展及大數據時代的到來,使得圖書館的科學數據含量變得更為豐富多樣,圖書館如何開發、挖掘自身的科學數據,搭建自己的科學數據開發、存儲、共享、服務平臺,變得尤為重要。因此,可以預見在圖書館的科學數據服務中,以科學數據的收集、整理、組織為主要服務內容的科學數據開發服務將得到圖書館的重視和開展,用以更深的揭示文獻資源和隱含的數據價值。
大量數據的產生,使得實現便捷的存儲與獲取成為了圖書館和用戶的一大問題,云計算的出現似乎解決了海量的存儲、高速的運算問題,但云計算天性存在的不安全性和高價格并不是所有圖書館或用戶都能解決的,圖書館通過自建或合建自身科學數據的管理存儲庫來實現科學數據的收集、共享與服務成為必然。如康奈爾大學圖書館建立的DataStaR 就是一個臨時的存儲庫,用戶可以上傳數據、自主選擇數據共享對象、數據出版等,同時支持小型研究團體的數據共享;普渡大學圖書館的D2C2是一個分布式數據保存項目,其中e-Data 作為數據管理服務的試驗平臺,圖書館員和各個領域的研究者合作進行數據收集; 澳洲國立大學建立的超級計算機設備(Australian National University Supercomputing Facility,簡稱ANUSF) ,也提供了大量項目范圍內的數據存儲服務。同時,從社會及圖書館事業發展的角度來看,合作與共享也是未來發展的主旋律,因此,圖書館尋求機構間或科研單位的合作存儲服務也將是發展的一大趨勢,如哈佛—麻省理工數據中心( Harvard-MIT Data Center,HMDC) 就是由兩所學校聯合建立的數據倉儲中心,以供兩所高校的教師存儲、獲取數據。
在已經到來的大數據時代,數據的挖掘、分析與組織將是圖書館等信息服務機構的主要內容,因此可以預見,通過對科學數據的分析來達到對科學數據的增值與深度揭示將是未來圖書科學數據服務的主要的內容之一,如對科學數據的關聯度分析、可視化分析、聚類分析等。如哈佛大學的“Dataverse Network”項目除包括有科學數據的出版、共享外,還包括有參考、抽取和分析等內容[8]。
技術的發展與海量信息環境中用戶需求的變化,使得圖書館的發現服務也發生著變化,目前主要以資源名稱檢索和鏈接,如數據檢索、數據導航等,來揭示資源存在與實現服務。其途徑也將隨著數據來源、類型、存在形態等的變化而借鑒谷歌、百度、搜狐等一站式搜索引擎和Google Scholar、SCIRUS、INFOMINE 等 學 術 搜 索 引 擎理念,實現一站式的資源發現服務將會是圖書館未來信息服務的發展方向之一。而這一服務類型主要就是科學數據服務,如科學數據的集成融匯服務等。知識發現服務系統的開發與大量應用將加速發現服務的發展,目前已開發和在圖書館大量應用的發現系統有Primo、EBSCO Discovery Service(EDS)、Encore 等,OCLC 也推出了自己的一站式知識資源發現與服務系統Worldcat Local,這些系統通過類似Google 的簡單檢索框,采用統一路徑以實現對圖書館各種資源的發現和獲取。圖書館界特別是高校圖書館已開始引進和應用這些資源發現服務系統,如北京大學圖書館、浙江大學圖書館、西安交通大學圖書館以及北京師范大學圖書館引進了Summon 系統, 清華大學圖書館、上海交通大學圖書館、中科院高能所圖書館、 農科院圖書館、 中國社科院圖書館引進了Primo 系統。
近年來,隨著科學數據服務在美國等發達國家的發展,我國圖書館界也開始對科學數據服務進行了探索,如中科院國家科學圖書館提出并開展的科學數據與科技文獻跨界集成服務、數據融合技術的研究和開發,利用數據SRU 技術實現了科技文獻、科學數據、字典等的服務融合;北京大學圖書館等還通過引入和應用信息資源發現系統,來向用戶提供知識發現等服務。同時,我國學者還對圖書館特別是高校圖書館的科學數據服務進行了學術研究,提出了多種服務模式。筆者以為,我國圖書館的科學數據服務,可以借鑒美國等發達國家的科學數據服務,開展以數據引用、數據查找等內容為主的咨詢服務,幫助科研人員對科學數據進行快速的查找與利用,在具有一定科學數據服務的基礎上延伸到其它高端領域,如技術支持、 數據關聯等,最終實現對科學數據的深度分析、價值挖掘等服務,擴大圖書館在科研支撐、數據保存于傳播、知識創造與應用中的作用。
西方的部分高校圖書館把科學數據服務也稱作為數據監管(data curation)服務,因而在2012 年美國大學與研究圖書館協會研究規劃與評估委員會的報告中將數據監管服務列為2012 年學術圖書館的十大趨勢之一。從美國的科學數據服務來看,一方面其服務人員主要是從內部挖掘,通過圖書館員的學術內部交流、課程進修來使其達到科學數據服務的基本素養;另一方面,圖書館專門設立數據館員崗位,通過對崗位的設置要求來促使數據館員來提高自身的服務技能與素養。我國圖書館特別是高校圖書館應借鑒這種崗位設置模式,設計數據館員管理制度,重視人才培養與素質教育,如數據館員的勝任條件、進修課程等,如愛丁堡大學的數據館員管理政策明確指出:“學校為科學數據館員提供培訓、支持、建議和適當的指導方針和指導”。
[1]錢鵬.高校科學數據管理研究[D].南京:南京大學,2012.
[2]ANU data management manual: Managing digitalresearch data at the Australian National University[EB/OL].[2012-11-29].http://ilp.Anu.edu.au/dm/ANU_DM_Manual_v1.03.pdf.
[3]Academic Libraries and Research Data Services: Current Practices and Plans for the Future[EB/OL].[2012-11-29].http://www.acrl.ala.org/acrlinsider/archives/6297.
[4]DataStaR[EB /OL].[2012-03-15].http: / /datastar.Mannlib.Cornell.edu /.
[5]D2C2[EB/OL].[2012-03-15].http://d2c2.lib.purdue.edu/.
[6]ANU supercomputer facility[EB /OL].[2010-09-01].http://anusf.anu.edu.au /.
[7]Harvard-MIT Data Center[EB /OL].[2012-03-15].http: / /hmdc.harvard.edu /.
[8]An open-source application for publishing,citing and discovering research data[EB /OL].[2012-03-15].http: / /thedata.org/book/features.
[9]北京大學啟用Serials Solutions Summon 發現服務[EB/OL].[2012-12-10].http://www.serialssolutions.com/news/serialssolutions-peking-university-summon-simplified.
[10]Prim 資源發現與獲取系統案例[EB/OL].[2012-12-10].http://www.exlibris.com.cn/support/casestudy.Html.
[11]項英,李向軍.高校圖書館資源發現服務系統應用研究[J].情報科學, 2012,(11):1682-1685.
[12]李春旺.圖書館集成融匯服務研究[J].現代圖書情報技術,2009,( 12) : 1-6.
[13]李春旺,王小梅,王昉等.基于SRU 的集成服務平臺設計與實現[J].現代圖書情報技術,2007,( 2) :12 -15.
[14]師榮華,劉細文.基于數據生命周期的圖書館科學數據服務研究[J].圖書情報工作, 2011, 55(1): 39-42.
[15]肖瀟,呂俊生.E-science 環境下國外圖書館科學數據服務研究進展[J].圖書情報工作, 2012, 56(17):53-59.
[16]ACRL Research Planning and Review Committee.2012 Top Ten Trends in Academic Libraries[EB/OL].[2013-01-07].http://crln.acrl.org/content/73/6/311.full.pdf+html.
[17]Research Data Management Policy [EB/OL].[2013-05-28].http://www.ed.ac.uk/schools-departments/informationservices/about/policies-and-regulations/research-data-policy.