




[摘 要]e-Research環境為圖書館科研數據服務提供了新的發展需求,圖書館應建立一套體系完整、靈活適配的科研數據選擇標準來支撐科研數據服務的開展。本文分析當前科研數據服務的需求特征,闡明科研數據選擇的必要性與基本原則,基于DAF框架搭建圖書館科研數據選擇的標準流程框架與科研數據的三級篩選標準,以期為圖書館的科研數據管理提供實踐參考。
[關鍵詞]e-Research;科研數據;標準;圖書館
[中圖分類號]G251[文獻標志碼]A[文章編號]1005-6041(2023)01-0061-05
e-Research源于20世紀末的英國,其概念起源于e-Science,本質上是一種運用高階運算思維的科學研究的系統性方法[1]。英國基于網格技術創建了e-Research基礎架構,進而通過相關基礎設施的完善與技術應用,整合利用遍布全國的資源與計算能力,實現了資源共享與協同研究,為新時期科學研究的跨學科、泛融合變化帶來了新的發展契機。國外世界一流大學圖書館在科研數據的管理服務方面起步較早,并已逐漸形成系統化的科研數據管理模式與管理體系[2]。國外一些高校圖書館在數字科研環境下提供了數字學術空間、數字人文服務、科學數據服務、數字學術研討與培訓、數字科研工具等多元化的科研數據利用服務[3]。與國外相比,我國圖書館在科研數據服務上仍處于起步階段,只有北京大學、同濟大學等部分高校圖書館提供了相對具體的科研服務支持項目[4]。此外,通過對國內一些高校圖書館的科研數據開放利用服務進行的網絡調研結果表明,國內高校開放科研數據服務的政策制訂、服務內容、標準體系構建等方面還有待進一步完善[5]。因此,圖書館應充分發揮專業所長,搭建一套科學完整的科研數據選擇標準,推動科研數據的共享利用,從而為圖書館科研數據服務提供有效支撐。
1 e-Research環境對圖書館科研數據服務的新需求
1.1 泛在的科研協作支持
隨著學術領域以及工業研究領域的不斷發展,對跨學科、多協作、異空間的科學研究需求逐漸增加,并逐漸演變成新的科研模式。傳統的將所有科研數據與科研過程集中在同一空間、同一平臺的研究方法逐漸被跨界協作、異地溝通、共享交流的新協作科研模式所替代。與此同時,數據密集型科研范式使學者們越來越重視科研數據的利用,科研成果的產出也離不開科研數據的有效支撐[6]。在e-Research環境下,科研不再僅是單一領域的科研,也不再是單一空間維度的科研,科研協作已成為科研質量提升和科學知識增長的重要因素之一。通過網格計算、云計算、可視化技術的支持,科研數據可以實現跨空間流轉,為科研協作提供有效支撐。圖書館是信息資源的重要存儲基地,不僅擁有資源選擇、處理、整合、利用的豐富經驗,而且在資源服務方面也已成體系,因此更應抓住新科研環境下科研用戶群體的新需求方向,為其科研協作提供更靈活、泛在的研究支持。
1.2 綜合集成的科研數據支撐
信息技術的快速發展使海量科研數據的存儲與共享成為可能,特別是云存儲、云計算以及可視化技術的快速發展極大地提高了科研數據的可訪問性。新技術環境下,科研合作呈現出的一個關鍵特征便在于對海量數據集合、大規模計算資源以及個性定制化的高性能可視化需求的產生。e-Research作為一個新的科學研究范式,不僅可以適用于自然科學、社會科學以及人文科學的多領域科學合作與研究,而且能夠囊括科研過程的方方面面,涵蓋從科研數據搜集、數據整合與分析、數據可視化、數據共享等科研數據生命周期的全流程(見圖1)[7]。e-Research的出現為科研人員提供了一個更高效、集成的科研協作環境,使科研人員獲得更加綜合、集成的科研數據支撐服務成為可能。e-Research作為一種新技術環境下的科研范式,依托于基礎設施與相關技術應用,為科研工作者、高校、企業多方之間搭建一個綜合集成的數據樞紐與研究平臺,為科學研究提供數據資源向知識資源轉換的工具,有效促進科研數據的流轉利用的最大化,提高科研的整體效率與成果質量。
2 e-Research環境下圖書館科研數據選擇的必要性與原則
2.1 圖書館科研數據選擇的必要性
科研數據的共享利用可以促進科學研究質量與科研效率的提高,促進學科之間的知識轉移與數據流動,為跨學科的科研創新研究提供契機。實驗科學、計算科學、理論科學以及其他數據密集型科學會產生大量科研數據,且數據類型、結構化程度以及冗余度各不相同,若不進行科研數據篩選與質量控制,將極大降低科研數據的可檢索性、可用性以及易用性。與此同時,隨著數據智能時代的到來,科研數據體量增長愈發快速,更需要建立一套完備的數據篩選標準保證歸檔科研數據的質量,控制科研數據的標準化、結構化,實現有價值的科研數據共享,從而真正推動科研工作的高質量、可承續發展。
2.2 圖書館科研數據選擇的基本原則
科研數據體量的快速增長已成為未來的必然趨勢。圖書館要想發揮科研數據“指揮官”的作用,就必須守住科研數據管理的第一道防線,做好科研數據篩選工作,這樣才能保證科研數據的存儲即價值,共享即可用。科研數據的篩選即是對科研數據的評估過程,必須要滿足系統性、科學性與客觀性的科研數據篩選原則[8]。
系統性原則要求在進行科研數據篩選時,需要綜合考察科研數據的所有權、科研數據的基本信息、共享利用的數據權限等,從而系統地了解科研數據的存儲價值與后續的可用性。科學性原則要求在進行科研數據篩選時建立一套科學、完整的指標體系作為科研數據的篩選依據,通過綜合指標對科研數據的價值進行科學評估,減少無用或者不可用的科研數據對存儲空間的浪費。客觀性原則是針對科研數據篩選評估人員的基本要求,科研數據篩選人員需如實按照科研數據的篩選標準進行選擇數據選擇,同時篩選人員需要具備一定的專業素養,可以有效進行數據分類,以便后續的共享利用。
3 e-Research環境下圖書館科研數據的選擇標準
3.1 基于DAF的圖書館科研數據選擇的標準流程框架
在e-Research環境下,通過建立一套科學、系統的科研數據篩選標準可以為圖書館科研數據管理服務的初期階段提供指導性實施方案,保證后期科研數據的流轉暢通與可檢易用。英國在數據資產的管理應用方面具有完備的實踐經驗,提出數據審計框架(Data Audit Framework,DAF)用以幫助高校與學院對數據搜集、數據管理和保存的實踐流程進行審計評估。無論是理論方法層面還是實踐管理工具層面都已經形成一套具有示范與應用價值的標準體系框架[9]。因此,以英國數據資產評估框架為基礎,搭建圖書館科研數據篩選標準不僅嚴謹,而且能保障評估方法的科學性與可操作性。基于DAF框架的圖書館科研數據選擇標準能夠幫助圖書館明確科研數據的來源、責任人與管理平臺,幫助圖書館在受控環境下促進科研數據的共享與利用。
一般而言,高校圖書館的科研數據來源基本分為三個主要部分。一是高校內部科研數據集合,包括專家學者以及高校學生在內的科研工作者在科研活動中產生的科研數據、來源于教學課程中的科研數據以及大學圖書館/檔案館等存儲的科研數據等。二是外部來源科研數據集合,包括國際/國家水平的科研項目數據庫以及以學科為中心的科研數據中心。三是一些科研數據開放合作平臺,如維基百科等。為了保證圖書館科研數據的服務效果,需要從數據來源層面保證科研數據儲備健全完整,因此這三種數據來源都需要圖書館予以考量。
基于DAF的圖書館科研數據選擇的標準流程框架(見圖2)具體涵蓋四個階段。第一階段是科研數據篩選計劃的制訂。圖書館可以從科研數據主題、科研數據來源等多角度組織開展數據篩選工作,一般可以以高校的優勢重點學科或數據密集型學科為依托進行主題與數據來源的確定。科研數據篩選工作需要專業人員對計劃篩選的數據集進行調研與預判,以保證數據篩選工作的可執行性。第二階段是科研數據的篩選與分類。在獲得科研數據文檔后,圖書館數據選擇專業團隊通過半結構化訪談、問卷調查等形式獲取有關科研數據的基本信息,如數據類型、存儲空間、用于分析的軟件、數據價值、存儲要求等,進一步建立科研數據清單,根據科研數據的特點與使用價值等進行評估、分類。第三階段是科研數據的綜合評估。科研數據經過一次分類后,實現了對數據主題、數據使用價值的初步判斷,考慮到科研數據生命周期對科研數據復用價值的影像,對那些初判具有重要使用價值的科研數據可進行二次評估,并對數據賦予元數據標識,便于科研數據重用。第四階段是科研數據篩選報告的發布。報告不僅可以從宏觀角度揭示科研數據選擇的階段性成果,同時可為后續圖書館科研數據服務提供參考。
3.2 基于DAF的圖書館科研數據選擇標準
筆者基于DAF構建了圖書館科研數據的多級篩選標準(見圖3)。從科研數據重用角度出發,根據科研數據的可用性、易用性與價值性,將科研數據篩選標準分為三級。在進行科研數據選擇之前,首先需要了解預選數據的基本情況。科研數據元數據是關于數據的數據,可以實現對科研數據外顯結構、形式特征與內部屬性特征的最佳描述[10],同時也是評估科研數據的重要手段。DAF框架中關于數據管理的元數據集合為描述科研數據提供了重要參考。一般而言,描述科研數據的元數據可分為核心元數據集和可選的擴展元數據集。參考基于DAF的科研數據元數據的核心元素與字段說明(見表1)。該核心元數據集涵蓋了科研數據的描述、所有權、溯源以及后續的存儲與管理等信息,是對科研數據的多維度與通用性描述。對于高校科研數據服務而言,還需依托高校自身的學科建設重點方向進行科研數據領域元數據的元素擴展。例如,武漢大學目前已基于Dspace構建了科研數據平臺,并提出了領域元數據標準——蝎物種與毒素數據庫元數據標準[11]。
基于DAF的圖書館科研數據選擇標準為三級標準。其中,第三級標準適用于對科研數據的初次評估,圍繞科研數據是否可用,具體就數據的法律、倫理與商業問題以及數據主題和所有權問題進行科研數據評估。第二級標準適用于對科研數據的二次評估與分類,圍繞科研數據是否易用,考察數據的規模性與復雜性以及科研數據結構、數據格式、元數據完備性等指標。一級標準適用于對重要科研數據的綜合評估,主要圍繞科研數據的價值性進行考察,包括科研數據的使用價值以及該數據集與現存數據集之間的關聯價值,該指標可以為圖書館提供數據服務提供重要的參考,同時也是圖書館科研數據服務需要重點維護的數據集合。通過對預選科研數據的三層篩選,可以從重要性角度將科研數據分為至關重要、重要與次要三個層級。具體而言,至關重要的科研數據需滿足數據仍處于持續更新中;數據支持科研復制(如可進行再驗證);數據可在研究中發揮關鍵作用;或該數據具有商用價值,可向外部機構或合作團體提供支撐服務等。重要科研數據需滿足數據仍具有使用價值,但使用頻率相對較低;數據可支持研究,但已不再更新;數據或具備向外部機構提供支撐的潛在商用價值。次要科研數據包括那些可移交專業第三方機構代為保管的一般性科研數據,此類科研數據或受限于數據特性或質量原因使用頻次更低,或是那些不受控的、無法獲取科研數據所有權的其他數據。科研數據的分級分類是多維度且緊密圍繞圖書館科研數據服務的,因此,科研數據的風險性與可靠性問題十分重要,并會直接影響圖書館后期科研數據的維護。
4 e-Research環境下圖書館科研數據的創新利用
4.1 e-Research環境下圖書館科研數據平臺的建設
科研服務平臺是圖書館提供科研數據服務的重要基礎設施,同時也是e-Research環境下,圖書館創新科研數據服務的重要抓手。隨著科研數字化進程的加快,科研人員對科研數據服務的要求日益提高,但當前高校科研服務的平臺建設卻仍處于起步階段。通過對國內一些重點高校圖書館的科研服務平臺情況進行調研發現,高校普遍具有良好的資源服務體系,但僅有北京大學、中山大學、同濟大學、復旦大學等少數高校具備獨立的科研數據平臺。例如,北京大學基于哈佛大學DataVerse架構開發的開放數據研究平臺,可以實現對科研數據的檢索、在線瀏覽、在線分析以及下載引用等功能,用戶可在該平臺創建自己的數據空間進行數據發布,并可以自由選擇是否公開分享數據。臺灣大學采用Dspace作為基礎架構建設了e-Research系統,采用彈性化、分等級的數據存儲方法,此外還建立了科研數據導引方便檢索。
4.2 e-Research環境下圖書館科研數據的創新利用
目前,美國、英國以及澳大利亞等國家已在e-Research環境建設上取得了重要進展,依托其先進的科研數字化、信息化環境,成功實現了對廣域數據資源的整合利用以及跨學科、跨空間的大規模科研數據協同應用。牛津大學成立了e-Research研究中心,旨在促進全國甚至全球范圍內的跨學科研究工作。例如,“SKA平方公里矩陣”項目,憑借牛津大學e-Research研究中心支持的高性能計算以及數據處理技術實現了對超規模觀測數據的處理與計算分析,從而實現對宇宙星系變化的復雜物理過程的研究。澳大利亞昆士蘭大學研究計算中心依托其全國性的超規模計算能力與領先的研究設施,幫助科研人員實現了跨學科協作科研,同時提供各種計算基礎設施與數字研究工具,有效促進了本校多學科的協同發展。
5 結 語
隨著跨學科研究的不斷發展,科學研究對科研數據的多元、融合、可獲取、易檢索、可利用的要求也日益提高。e-Research代表著創新科研模式的發展,同時也是應對數據密集型科研、跨學科與跨空間的協同科研發展趨勢的必然選擇。因此,做好科研數據的有效選擇與合理保存是促進科研數據高效共享、提高科研數據利用價值的前提與必要保證。但目前國內高校圖書館對于獨立的e-Research系統平臺建設仍未普及,在科研數據的選擇標準上也仍未達成統一共識。因此,需要圖書館承擔起科研數據選擇標準的建設任務,這也將對高校科研服務革新帶來重要影響。
[參考文獻]
[1]章惠娟,高林杰.高校圖書館科研數據管理服務體系研究[J].河南圖書館學刊,2022,42(8):62-65.
[2]安源,冷雪卓,王楊.e-Research環境下的高校圖書館科研數據管理服務探究[J].河北科技圖苑,2021,34(2):49-55.
[3]胥文彬.國外高校圖書館數字學術服務調查分析[J].情報雜志,2021,40(6):187-192,186.
[4]司莉,曾粵亮.世界一流高校圖書館科研支持服務調查與分析[J].圖書情報工作,2018,62(8):30-41.
[5]曹筱涵.開放數據環境下高校圖書館科研數據服務模式構建[D].上海:華東師范大學,2022.
[6]黃鑫,鄧仲華.國外高校圖書館科學數據的元數據服務研究[J].圖書與情報,2017(2):84-90.
[7]GUPTA S,MLLER-BIRN C.A Study of e-Research and Its Relation with Research Data Life Cycle:A Literature Perspective[J].Benchmarking,2018,25(6):1656-1680.
[8]李孟秋.論科學數據管理對數字科研檔案管理的啟示[J].浙江檔案,2022(6):31-35.
[9]陸穎,胡佳琪,史繼強,等.面向科研數據管理的高校圖書館學科服務研究[J].圖書館工作與研究,2021(3):41-48.
[10]DAFD Final Report[R/OL].[2022-10-21].http:∥www.data-audit.eu/docs/DAFDfinalreport.pdf.
[11]趙華,王健.國內外科學數據元數據標準及內容分析[J].情報探索,2015(2):21-24,30.
[收稿日期]2022-11-06
[作者簡介]陳 長(1978—),男,本科,館員,佛山市南海區圖書館。