沈婷婷 盧志國 (上海大學圖書館 上海 200444)
隨著科學技術的迅猛發展,科學數據的管理與共享問題也引起學者越來越多的關注。科技部原部長徐冠華院士曾說過:“科研是群體性的活動,數據是最重要的基礎,開展科學數據共享的重要性絲毫不亞于發表學術論文。”[1]然而,目前我國對于高校科研項目產生的科學數據缺乏管理,這些數據往往由科研人員自行保存,大部分數據資料無法共享,長期處于閑置狀態。
數據監管( Data Curation )是近年來國外高校對本機構的科學數據提出的管理方法,它是對科學數據收集、組織、查證和保存,并使科研人員在以后的研究中發現這些數據的新價值[2]。英國聯合信息系統委員會( Joint Information Systems Committee,簡稱JISC )對其的解釋是:為確保數據當前使用目的,并能用于未來再發現及再利用,從數據產生伊始即對其進行管理和完善的活動[3-4]。對于動態數據集而言,這意味著需要進行持續性補充和更新,以使數據符合用戶需求[3-4]。
科學研究是不斷創新、不斷進步的過程,科學數據也隨研究的進展而不斷更新。因而,與一般的數據保存相比,科學數據監管更強調動態性,它不僅簡單地保存數據,更需要不斷完善數據,使其能供以后的科研人員使用。
筆者曾對我國高校開展的科學數據監管服務進行了討論[5],并初步探討其服務模式,提出了基于科研項目的數據監管模式[6]。本文將對此模式進一步研究,分析科研項目不同階段的科學數據監管方法。筆者建議,圖書館員應深入科研過程,為科研人員提供個性化的數據監管服務。本文介紹了國內外科學數據的監管情況,分析了當前高校科學數據具有的多學科化、多樣化和大量化等特點,提出了科研項目在立項前、項目進行中、結項后3個不同階段的高校科學數據監管方法,探討了科學數據收集方法及公開方式。
近些年,國外對數據監管采取了一系列的措施,包括政府投入大量資金支持科學數據的長期積累、高效流動和低成本使用,并頒布了一系列有關科學數據共享的政策法規,從法律、政策等多方面保障科學數據的管理與共享服務。美國國家科學基金會(National Science Foundation,簡稱NSF)要求研究人員對由資助項目所產生的數據需要提交數據管理計劃[7]。澳大利亞政府成立了澳大利亞國家數據服務(Australian National Data Service,簡稱ANDS)合作中心,為科學數據的管理提供專業服務[8]。JISC資助建立了數字監管中心(Digital Curation Centre,簡稱DCC),以促進數字資源的管理工作[9]。
國際上很多著名的高校圖書館已經開始關注高校科學數據監管的問題,并為高校科研人員開展了相關服務。例如,約翰·霍普金斯大學圖書館、康奈爾大學圖書館、加利福尼亞大學圖書館等加入了由美國國家科學基金會DataNet計劃資助的相關項目,以實現高校科學數據的監管;普渡大學圖書館和伊利諾伊大學圖書館與信息科學研究生院共同主持的數據監管項目(Data Curation Profiles)旨在研究科學數據的具體監管內容和方式[10];康奈爾大學圖書館開展的數據倉庫項目(DataStaR)支持本機構的科學數據共享,為科研工作提供協作[11]。
此外,一些國外學者對高校科學數據監管也進行了研究。Loenen等總結了科學數據的開放原則[12];Walters以佐治亞理工學院為例,通過介紹該校數據監管計劃,建立了數據監管模型[13];康奈爾大學圖書館數字工作小組的研究報告論述了全球數據監管的發展環境,為該館開展相關服務提出了5個方面的建議[14]。
對于由中國科學院等單位負責的一些超大型研究項目,我國也非常注重數據監管。1994年,中國科學院地學部以咨詢建議的方式呼吁打破地球科學和資源環境科學數據壁壘,實現數據共享,得到了時任國務委員的宋健院士和原國家科學技術委員會的重視。黃鼎成[15]、孫九林[16]、劉闖[17]等學者也分別發文,探討我國的科學數據共享的理論機制等問題。
雖然我國高校尚未系統開展科學數據監管服務,但一些學者已經開始關注,其理論研究處于起步階段。2012年,在第六屆上海國際圖書館論壇上,上海圖書館副館長劉煒在“大數據時代的圖書館”的報告中指出,科學數據管理的研究將會成為大數據時代的重要研究方向之一。其他相關的文獻主要有,師榮華和劉細文推演出e-Science環境下圖書館可以嘗試開展的科學數據服務方式,并分析了相關案例[18];楊鶴林介紹了美國高校圖書館對科學數據監護的研究和實踐情況[4];錢鵬和鄭建明探討了高校科學數據的采集、管理,提出與科學文獻整合的學科服務[19];程蓮娟介紹了美國高校圖書館的數據監護規劃和發展策略以及其協作與教育情況,并提出培養人才,完善高校圖書館數字資源長期保存機制等啟示[20]。
本文所討論的數據是指任何以數字化形式存儲的內容,包括文本、數字、圖像、視頻、音頻、軟件、算法、動畫、模型等。在科學活動中,這些數據可以通過觀察、計算或者實驗等方式獲得。
首先,由于高校學科類別繁多,涉及文、理、工、商、法等學科,每個學科千差萬別,各學科產生的數據內容也有天壤之別。而且,由于學科、專業的交叉越來越頻繁,新學科不斷出現,數據間的邏輯關系非常復雜,增加了數據分類的難度。
其次,由于各學科的科學數據有很大差異,數據形式和儲存方法多種多樣。其形式除了常見的數字、文字、圖像外,還包括語音、影像等各種多媒體形式,儲存方式包括不同的數據庫格式、不同的電子文件格式及不同的科學儀器產生的專有格式等。
第三,由于人力、物力、財力資源的限制,高校科學研究往往無法達到龐大的研究規模,每個學科產生的科學數據量也相對較少。但是由于高校學科種類繁多,各學科的數據總量仍很大。因而與大型項目科學數據共享相比,更需要考慮哪些數據需要保存、如何保存等問題。
根據高校科學數據的特點,本文將探討基于科研項目的高校數據監管計劃,即以科研項目為單位,按項目名稱存儲科學數據,在原有機構庫的基礎上搭建科學數據平臺。按項目分類可以很好地處理多學科數據的存儲問題。
近年來,高校圖書館對數字資源的管理、共享等方面的實踐使其有能力為高校科研人員提供數據監管服務。圖書館員從科研項目立項之初就主動進入項目組,從科研項目的調研、開展具體研究到結題,提供全程的科學數據跟蹤式服務,這樣不僅能節約科研人員管理數據的時間,而且還能收集到高質量的科學數據,為以后的科學數據再利用奠定基礎。
此外,本文所討論的科研項目不包含保密項目,對涉及國家安全、具有重要軍事應用價值或者國家重要戰略資源的數據不在本文的討論范圍內。
在科研項目立項前,高校圖書館可以提供數據搜索分析服務,增強現有數據的使用價值,促進學術交流。圖書館平時要密切留意重要的學科數據庫的發展動態。例如,高校圖書館加強對學科數據庫的收集,整理、分析和跟蹤學科數據庫,并對學科數據庫進行評估、推介、導航服務[21]。對于科研人員的數據需求,圖書館可以通過現有數據庫幫助他們搜索,并對相關的科學數據進行評價、分類和整理,使他們能夠方便、快速地查找到所需的數據資源。圖書館員可以借助數據挖掘工具對收集到的數據進行分析,為科研人員提供加工提煉的信息。科研人員收到數據后,可以對數據內容進行評價,并判斷數據是否符合自己的使用要求。圖書館可以根據反饋建議,不斷調整數據存儲內容,評估哪些數據需要長期保存并優化長期保存計劃。而對于數據提供者,圖書館可以定期通知其數據的下載數量,讓他們了解自己提供的數據在什么時候、多大程度上被利用。同時將用戶對數據的評價反饋給數據提供者,以促進數據提供者與用戶之間的學術交流,活躍學術氛圍。
科研項目研究過程產生的需要不斷更新且未發表的科學數據不易完全公布。高校圖書館可以先提供數據存儲服務,指定學科館員幫助科研人員存儲研究過程中產生的數據,并及時更新。或者圖書館允許科研人員自行存儲數據,圖書館員可以指導他們規范地存儲并定期提醒其更新平臺上的數據。這就要求科研人員對提交的數據標注名稱、類型,并進行簡單描述(包括獲取數據的時間、地點、方式等信息),對于部分數據,還需要提交實驗設備和實驗過程簡述。對于已存儲的科學數據,圖書館要界定數據的保密范圍,合理劃分密級。對于平臺上的數據,圖書館應允許用戶查詢其標題、作者、摘要等信息,但不開放數據的具體內容。如果已存儲的數據需要在課題組成員或本校人員之間共享,那么由數據提交者向圖書館提供共享者名單,圖書館根據名單開放數據查閱權限。至于已存儲的數據是否需要長期保存,則要根據不同學科數據的使用情況而定。例如,康奈爾大學圖書館提供的DataStaR服務就允許研究人員自行上傳數據,對初始數據可以調整甚至刪除,并自行設定他人訪問數據權限,而圖書館員則幫助他們創建元數據并整理數據,與他們一起商討需要公開的數據等[22]。
科研人員在項目結題時通常會創造大量有價值的科學數據,此時高校圖書館主要提供數據共享服務。圖書館可以先公開已發表的學術論文涉及的各類相關科學數據。學科館員應與科研人員交流,確定最終的數據版本,幫助他們完成相關數據的提交,包括數據整理、格式轉換等。如果這些數據已保存在數據庫里,則只需要調整相應的訪問權限。如果該學科擁有使用范圍更廣的學科數據庫,那么圖書館員可以協助科研人員把整理好的數據提交到學科數據庫中。對于未發表的數據,圖書館根據不同學科,可以在數據保存一定年限后予以公開。對于科研項目結題后產生的、與該科研項目相關的數據,圖書館也要保存。圖書館員要定期與科研項目負責人聯系,確保及時更新數據庫中的數據,并與科研人員協商,確定數據開放范圍。對于這些數據的長期保存問題,需要通過后期的專業評估而定。
每位科學家都有權利享用國有科學數據資源,更有義務提供由國家投入而產生的科學數據和成果并為社會共享。當然,由于我國目前尚未規定對高校科學數據進行管理,以上方案的實施還需要得到科研人員的大力支持。因此,高校圖書館可以先與對數據監管服務感興趣的院系或者科研人員開展合作。
高校圖書館一直都是高校文獻保障體系的主體,是科研人員獲得信息服務和知識服務的重要場所。因而,圖書館有必要、有能力、也有義務為高校科學數據監管服務做出貢獻。高校圖書館應根據科研人員的數據需求,組織專業化的服務團隊,深入到科研人員的科研項目中去,滿足科研人員對數據服務的個性化需求。
[1]科學數據共享工作應該受到尊重和支持 :徐冠華院士訪問地球系統科學信息共享中心[EB/OL]. [2012-10-09]. http://www.cws.net.cn/CWSNews_View.asp?CWSNewsID=32356.
[2]Choudury S.Data Curation:An Ecological Perspective.College &Research Libraries News[J].2010,71(4):194-196.
[3]Lord P,Macdonald A,Lyon L,et al.From Data Deluge to Data Curation[C].Proceedings of the 3rd U.K.E-Science All Hands Meeting,EPSRC:Swidon,2004:371-375.
[4]楊鶴林.數據監護:美國高校圖書館的新探索[J].大學圖書館學報,2011(2):18-21,41.
[5]沈婷婷,盧志國.數據監管在我國高校圖書館的應用展望[J].圖書情報工作,2012,56(7):54-57,87.
[6]沈婷婷,盧志國.基于科研項目的高校科學數據監管[G]//智慧城市與圖書館服務.第六屆上海國際圖書館論壇論文集.上海:上海科學技術文獻出版社,2012:114-117.
[7]Cyberinfrastructure Vision for 21st Century Discovery[EB/OL].[2012-03-08].http://www.nsf.gov/pubs/2007/nsf0728/index.jsp.
[8]Towards the Australian Data Commons[EB/OL].[2012-03-08].http://www.pfc.org.au/pub/Main/Data/TowardstheAustralian DataCommons.pdf.
[9]Digital Curation Centre[EB/OL].[2012-03-08].http://www.dcc.ac.uk/.[10]Data Curation Profiles[EB/OL].[2011-10-09].http://www4.lib.purdue.edu/dcp/overview.
[11]Gold A. Data Curation and Libraries:Short-Term Developments,Long-Term Prospects[EB/OL].[2011-10-06].http://works.bepress.com/agold01/9/.
[12]Loenen B V, Onsrud H J. Geographic Data for Academic Research:Assessing Access Policies[J].Cartography and geographic information science,2004,30(1): 3-17.
[13]Walters T O. Data Curation Program Development in U.S.Universities:The Georgia Institute of Technology Example[J].The International Journal of Digital Curation,2009,4(3): 83-92.
[14]Steinhart G,Saylor J,McCue J,et al.Digital Research Data Curation:Overview of Issues,Current Activities,and Opportunities for the Cornell University Library[R].New York,The CUL Data Working Group,2008:1-49.
[15]黃鼎成.科學數據共享的理論基礎與共享機制[J].中國基礎科學,2003(2):22-27.
[16]劉潤達,孫九林,廖順寶.科學數據共享中數據授權問題初探[J].情報雜志,2010,29(12):15-18.
[17]王正興,劉 闖.科學數據可持續共享:關鍵是利益的均衡[J].中國科技論壇,2005 (6):92- 96.
[18]師榮華,劉細文.基于數據生命周期的圖書館科學數據服務研究[J].圖書情報工作,2011,55(1):39-42.
[19]錢 鵬,鄭建明.高校科學數據組織與服務初探[J].情報理論與實踐,2011,34(2):27-29.
[20]程蓮娟.美國高校圖書館數據監護的實踐及其啟示[J].圖書館雜志,2012,31(1):76-78.
[21]王學勤,Stout A,Silver H.建立數據驅動的E-Science圖書館服務:機遇和挑戰[J].圖書情報工作,2011,55(13): 80-83.
[22]Steinhart G. DataStaR:An Institutional Approach to Research Data Curation[J].IASSIST Quarterly,2007(3-4): 34-39.