孫繼周(南昌航空大學圖書館 南昌 330063)
·專題研究·
E-Science環境下高校圖書館開展科學數據管理與共享的路徑研究*
孫繼周
(南昌航空大學圖書館 南昌 330063)
E-Science是依托先進技術形成的全新科研協作模式,E-Science環境下科學數據增長迅速,但是存在缺乏共享機制等問題,要求高校圖書館承擔為科研服務的重任。高校圖書館是科學數據的過程監護機構、嵌入式管理機構以及科學數據存檔與教育機構,主要管理內容包括科學數據描述、組織、關聯集成等。高校圖書館在E-Science環境下應該根據科研需求構建科學數據管理模型,制定科學的管理規范,積極整合分布式數據,并推出E-learning服務,真正實現科學數據共享。
E-Science環境 高校圖書館 科學數據 管理與共享
〔引用本文格式〕孫繼周.E-Science環境下高校圖書館開展科學數據管理與共享的路徑研究[J].圖書館,2016(5):66-71
隨著科學研究工作的廣泛開展與學科合作的不斷深入,科學數據的數量逐漸增多。我國擁有的科學數據資源十分豐富,但是在數據共享方面情況并不樂觀。中華人民共和國科學技術部指出:要想提升我國的科技競爭實力,首先需要解決科學數據共享問題。高校圖書館是科研與教學的重要服務者,高校圖書館在科學數據管理方面扮演著重要角色,承擔著規則制定、數據監控以及教育培訓的職責。E-science為科研互動提供了更加開放的環境,讓科研人員的協作交流與信息共享成為可能。面對E-science環境下科研活動的新需求與新變化,高校圖書館應該積極調整自身角色定位,轉變科研服務方式,自覺參與到科研全過程中,努力掌握科學數據管理新技術,幫助科研工作者做好科學數據管理工作,以更好地為數據密集型科研活動提供支持,并實現科學數據共享。
1.1E-Science概念
E-Science是20世紀末產生的一種新型科研協作模式,也稱作電子科研。E-Science充分利用了網格技術、資源管理技術、分布式技術等信息技術,能夠實現對全球范圍內數據的采集、計算與處理,進一步形成全新的科研環境。E-Science的出現讓高性能可視化成為可能,提高了科學計算、信息技術應用與信息資源共享的層次。在E-Science環境下,分布于不同地理區域的信息資源、儀器設備等均能高效集成,并且能夠轉換為虛擬資源供科研人員使用,突破了科研數據獲取的空間、時間與邏輯阻礙。同時,E-Science實現了科研環境的信息化,不同領域的科研活動更具針對性。
1.2科學數據的內涵
科學數據是科研活動過程中產生的,用于描述反映科研活動特征,或者用于描述事物之間規律的數據集。它是科研活動的重要構成部分,也是現代科學研究的基礎性資源[1]。在科研活動中科學數據與所描述的對象是相互對立的,它只能發揮表征性的作用,也是從事相關科學研究或者創新的依據。科學數據的主要特點有增值性、主導性以及不對稱性等。其中科學數據在重復使用過程中能夠產生全新的價值,即體現了增值性。這與科學數據的使用程度以及本身價值有關。科學數據對人類認識世界,改造世界的全過程進行了客觀描述,并且對部分客觀事物具有主導性。科學數據的使用者不同,其產生的結果也各不相同,這與使用者的經驗、技術局限性有關,即體現了其不對稱性。
1.3E-Science環境下的數據挑戰
E-Science為科研活動提供了信息化環境,也提供了更為強大的技術支撐。E-Science環境下的科研活動開放度更高,更加提倡協同與共享。E-Science的出現讓科學數據成倍增加,也推動了科學數據互聯與共享。國際社會近年來加強了對科學數據的重視,ICSU成立了專門用于數據研究的世界數據中心。美國政府為了更好地利用科學數據,制定了“無償、開放”的科學數據共享政策[2]。科學數據不僅來源于大型科研項目,如人類基因圖譜研究等,也來源于各種小型科研項目中。這些小型科研項目多由高校科研人員發起,投入資金相對有限,在數據管理方面也不夠完善。但是小型科研項目產生的數據增長速度十分驚人,約為科研項目產生數據的三倍。由于科研方式的差異,并缺乏統一的數據共享標準,這些科學數據往往缺乏專人管理,更談不上有效的傳播與共享。鑒于此,高校圖書館作為存儲、傳播科學數據的主要場所,應該承擔起為小型科研機構服務的重任,制定有效的科學數據管理策略,以形成長效的科學數據共享機制。
2.1科學數據的過程監護
E-Science環境下的科學數據管理是一個動態的過程,其管理工作貫穿整個數據生命周期[3]。科學數據中蘊含的規律與深層知識,需要通過數據整合與處理分析實現。科學數據無法像紙質資源或者傳統的科研成果一樣,能夠被人們直接閱讀或使用,而是需要通過不斷篩選、完善,并且通過知識化才能被人們利用與共享。對于動態的科學數據集,在數據產生之初就需要密切監視,并且不但補充與更新,進而滿足科研者的需求,高校圖書館就發揮著科學數據過程監護的作用。在這個過程中,高校圖書館需要制定標準的數據處理格式,并對數據質量進行控制、評估,保障所有科學數據符合要求。
2.2科學數據的嵌入式管理
與其它科學數據管理機構不同的是,高校圖書館能夠對生命周期全程的科學數據進行管理。對于科研機構而言,他們希望能夠在數據管理方面獲得幫助,這就需要高校圖書館在科學數據管理生成前,積極加入到科研項目中,或者參與到科研人員的數據評估工作中。幫助科研人員確定合適的科學數據類型,或者制定合適的數據存儲方案。在科學數據產生前期,高校圖書館的自身定位在于明確科研者之間的關系,加強與科研機構的合作,以為后續研究活動奠定基礎。此外,高校圖書館在嵌入科研活動中的同時,也可以為科研人員提供資源支持服務,如幫助科研人員查找研究數據、提供科研技術或可視化工具等。
2.3科學數據的存檔與教育
E-Science環境下的科學數據是動態變化的,在科研活動開展的各個階段均會產生各類數據。部分數據需要長期存儲,而部分數據只需要暫時保存[4]。部分數據在存儲過程中,需要管理者對其進行有效維護,以便及時發現或者使用這些數據。科學數據作為科研工作者的智慧結晶,應該由高校圖書館承擔起長期保存的重任。在E-Science環境下,若高校圖書館無法調用自身在保存科研資源方面的經驗,無法盡快適應科研活動的需求,將很難保留可持續發展的動力。此外,高校圖書館作為開展素質教育的重要機構,在科學數據管理方面還處于摸索階段,需要不但積累管理經驗并加強學習,做好科研人員培訓工作,以提升他們的數據管理與利用意識。
E-Science環境下科學數據的共享,是建立在科學數據管理基礎上。高校圖書館科學數據管理的主要內容包括數據描述、數據組織以及關聯集成等。即要求高校圖書館對科學數據進行語義補充,深入挖掘數據之間的關聯,進而讓用戶獲得更為直觀、全面的數據。
3.1科學數據描述
高校圖書館按照特定的標準規范,分析科學數據的類型、主題以及形態等,進而滿足科學數據的組織需求,這就是數據描述。科學數據描述過程中需要關注多方面的因素,如數據產生環境、數據產生條件等[5]。首先,需要明確E-Science環境下具體的描述對象數據集。其次,依據元數據對科學數據進行描述,進而評估數據集的質量。元數據作為與數據描述相關的數據,能夠為高校圖書館提供完整的數據描述方式,并且能夠對分布廣泛的數據集進行整合,提升高校圖書館信息資源的拓展性與操作性。在科學數據管理中,元數據發揮著在管理者、用戶以及數據發布者之間傳遞數據集的作用。科研活動中的元數據包括原始數據集、相關文獻以及統計數據表等,元數據體系結構。見圖1。根據元數據進行科學數據描述后,能夠生產相關的文檔,進而為數據聚合分類提供便利。在確定統一的元數據標準后,科研人員可以根據相關標準進行數據集匯總,然后由學科專家對元數據質量進行評價,并于審核通過后發布。

圖1 科研活動元數據體系結構
3.2科學數據組織
高校圖書館采取必要的手段使科學數據有序化,這就是科學數據組織。即通過對數據集中知識元素的內在規律進行揭示,并讓這些數據按照一定的順序排列,能夠形成直觀的知識體系。科學數據組織方法分為主題法與分類法兩種,其中主題法基于知識語義網絡,適用于劃分領域與學科。而分類法基于知識聚合特點,適用于語義推理或數據挖掘中[6]。采用不同的組織方法能夠產生不同的效果,進而滿足不同用戶的知識需求。高校圖書館在科學數據組織方面應用較多的是分類法,根據圖書資源的特點與建設實際,高校圖書館已經形成了較多成熟的分類體系。E-Science環境下科學數據組織方法的確定,應該滿足使用者的多元化需求,并且符合數據組織的包容性、擴展性,例如分類組配法就是較好的科學數據分類共享法。
3.3科學數據關聯集成
E-Science環境下對科學數據進行關聯集成,最終目的就是為了實現資源整合。科學數據關聯集成包括兩個方面,一是對數據語義、語法上的集成,另一方面就是將與科學數據相關的文獻、信息等結合起來。數據集成即將存在關聯的數據結合起來,進而為用戶提供個性化信息。高校圖書館對科學數據進行描述、組織后,就已經形成了資源整合的基本結構單元,但是科學數據組織只是對數據的簡單分類,并不能體現數據之間的內在聯系,很難保障科研人員對數據的精確查找。這就需要高校圖書館引入概念圖等技術,對科學數據進行深入分析。當前對科學數據進行集成方面應用最多的當屬本體,這是對共享模型或主題進行規范化說明的一種有效方式,可以應用于任何學科領域。構建本體需要首先將數據進行抽象處理,然后再將抽象的概念變為詞表,并應用合適的編碼語言進行表述,以方面計算機識別與處理。
科學數據是我國重要戰略性資源,也是從事科學研究中的寶貴資產。科學數據管理是科研實踐與政策共同推動的結果,也是滿足科研數據共享需求的產物[7]。高校圖書館開展科學數據管理的主要目的,就是依據國家制定的科學數據管理規范,與科學數據專門管理機構一起推動資源共享。高校圖書館需深入分析與科學數據管理相關的各項因素,結合高校科研活動特點,構建符合學術信息資源管理需求的獨特模式。
4.1 科學數據管理的相關因素分析
E-Science環境下高校科學數據管理,應該充分考慮科研人員需求與基本管理模式,并且綜合以下幾個方面的因素:①對不同學科類型數據的處理。要保障科學數據管理的統一性,高校圖書館需要考慮不同類型數據的格式轉換,并制定合理的數據管理方案,明確數據的描述、組織與處理方式,在保障學科資源多樣性的同時,實現對不同類型科學數據的有效管理,達到不同學科間的交流與信息共享。②重視科學數據的特征。科學數據是與科研活動相輔相成的,有別于科學文獻,并具有科研生命周期特征。科學數據處于科研過程中,或者處于科學數據集中均有不同的特征[8]。③設置機構管理平臺。高校科學數據管理需要設置專門的管理平臺,在維持科學數據統一管理的情況下,實現對新知識、新學科的兼容,減少科學數據處理的隨意性。高校圖書館也需要加強對管理人員的科學素質的培養,讓他們能夠熟練應用該平臺為科研人員提供服務,有效管理、組織與共享各類數據。
4.2科學數據管理的模型架構
高校圖書館作為科學數據管理的主要機構,需要構建相應的管理系統來輔助實現各項職能。同時高校圖書館需要結合E-Science環境下的數據生命周期,設置能夠對多種格式數據進行科學管理的模型,以為科研協作共享提供支持。根據高校圖書館科研數據的特征,以及科學數據管理的相應因素,設計出高校圖書館科學數據管理的基本模型。見圖2。

圖2 高校圖書館科學數據管理的基本模型
該模型主要有數據采集與提交、數據分發、數據存儲以及數據管理等功能,也包括元數據錄入、資源關聯、個人資源管理等功能。其中系統根據提交數據的類型,設置相應的權限來完成數據提交,這就是數據采集與提交模塊的作用。數據提交內容主要為元數據,也包括與之相關的信息,多采用Web方式提交。只有經過系統認證后方可提交信息,提交者包括科研人員、圖書管理員等。由于部分科學數據存在版權限制,系統可支持用戶進行跨庫檢索或提供檢索出處,并支持進行元數據采集,進而為科研提供便利,這就是數據分發功能。數據管理模塊的主要功能,則是對高校圖書館存儲的科學數據進行訪問控制,實現對不同類型數據、不同用戶的分層管理。該模塊還能實現不同客體之間的功能交互,如科研人員與圖書館員之間、圖書館員與系統之間的互動,打破了數據單向流動的局限,并能夠對科學數據利用情況進行統計。
4.3科學數據管理的大致流程
高校圖書館在開展科學數據管理過程中,需要對元數據進行修正,保障這些數據更加符合生命周期的特征,進而更好地為科學數據共享做準備。高校圖書館科學數據管理的流程見圖3。首先由科研人員或者課題組提供元數據,之后存儲在臨時數據庫供研究人員使用,也支持科研相關者共享。然后通過對科學數據進行甄選分析與精確選擇,并對元數據進行規范處理后存入長期存儲數據庫。最后由學科數據庫收錄特定的學科資源,以供大眾使用或者出版發行。

圖3 高校圖書館科學數據管理流程
高校圖書館擁有高素質的人才隊伍,了解科學數據的管理與運作規律,是高校信息資源建設的首選機構,應該做好科學數據服務工作。目前我國很多高校圖書館已經構建了自己的機構知識庫,如廈門大學機構知識庫,并且在科學數據管理、組織方面進行了深入探索。高校圖書館應該充分發揮自身資源優勢,設置分工明確的科學數據管理崗位,以促進科學數據的科學管理與共享。
5.1 制定科學的管理規范
E-Science環境下,要求高校圖書館協調多方力量,通過網絡互聯與資源共享,以更好地滿足科研需求。要想保障科學數據管理的有序性,就需要制定科學的管理規范[9]。科學數據管理與共享的前提就是制度化,制定統一的科學數據管理標準能夠實現信息同構,也能夠增強信息資源的操作性。首先,高校圖書館需要統一元數據應用規范,并嚴格規定機讀形式編碼,以保障元數據應用功能的一致性。元數據承擔著提供數據訪問標準功能接口的作用,是高校圖書館發布、處理、評價資源的重要準則,因此制定統一的元數據應用規范十分關鍵。其次,高校圖書館可以選用開放式鏈接,解決異構系統無法進行信息傳遞的問題,實現圖書館信息資源的全面整合。開放式鏈接能夠統一數據傳遞格式,允許信息在用戶與服務商之間傳遞,并在保障平臺的獨立性的同時無縫鏈接所有資源。第三,設置基于網格的Web服務,進而實現不同系統之間的資源調用,使用戶在任何地方都可以輕松獲取所需資源。但是Web服務為單獨的交互式集成平臺,與語言無關,也需要遵循相關協議標準,包括WSDL、XML等,進而為用戶提供統一的訪問接口以及標準檢索服務,實現對用戶請求的快速處理、對檢索數據集的精確、以及對定位數據的及時反饋。第四,高校圖書館還需要解決知識產權保護、數據長期存儲等問題,這就需要制定與科學數據使用相關的政策,保障所有科學數據的利用與共享在規定范圍內。5.2 積極整合分布式數據
高校圖書館在E-Science環境下應結合用戶需求積極開發數字化資源,為科研人員提供所需的各項知識,加強科學數據整合與動態信息集成,進而構建適應科研活動需求的信息環境。同時高校圖書館應該做好日常知識管理工作,保障個人、團隊以及用戶知識系統之間的聯系,以實現知識的高效利用[10]。E-Science環境下對科學數據的整合方式包括數據集成與構建數據庫兩種,面對當前多類型、多形式的數據資源,用戶希望獲得更加快捷的數據獲取方式,并更加關注信息質量。高校圖書館是用戶獲取資源、支持科研的主要機構之一,需要積極整合分布式數據資源,構建分布式資源集成體系,實現不同類型資源的鏈接,以保障更加廣泛的科學數據共享。E-Science環境下高校圖書館通過分析整合數據,并根據需求從多個角度展開討論,為科研人員的數據后處理提供便利。網格技術是高校圖書館開展信息鏈接的基礎,通過該技術可以使高校圖書館形成一個知識網絡,形成縱橫交錯、節點眾多的網絡系統,讓不同數據庫的資源形成關聯,并在深入整合的基礎上形成知識元機構。實現與不同類型知識庫之間信息的循環流動[11],進而實現全球范圍內的數據資源共享。
5.3實現科學數據共享
科學數據管理是與科研活動密不可分的,只有對科學數據進行有效管理,才能為科研者利用科學數據提供保障。科學數據中不僅包括顯性知識,也包括潛在的規律或內容,即隱性知識。實現科學數據共享存在較大的難度,這是因為一方面E-Science環境下科研人員可以隨意發布信息,由于缺乏有效的監督、控制機制,很難保障信息資源的質量、穩定性。另一方面,非正式交流組織增多,科研人員的交流方式更加多樣,導致信息資源的質量參差不齊,增加了整合與篩選的難度。高校圖書館要想實現科學數據共享,首先應該明確實現科學數據共享五大要素之間的關系見圖4。科學數據共享五大要素之間是緊密聯系,不可分割的[12]。高校圖書館應該加強對五大要素的重視,根據科研需求引入先進的資源共享標準與技術,做好科學數據的組織與管理工作,不斷完善管理體系以滿足科研需求。其次,高校圖書館應該增加數字化資源的存儲量,為數據資源的重用創造條件。第三,E-Science環境使科學數據的長期保存成為可能,可以根據資源類型制定相應的數據保存機制,并對可行性、可靠性進行分析,以實現科學數據的長期存儲與廣泛傳播。此外,高校圖書館也需要借助E-Science環境下的信息處理技術,讓大量隱性知識顯性化,進而為科研人員提供更為直觀、準確的數據,解決隱性知識難以重復使用與共享的問題。

圖4 科學數據共享五要素關系
5.4推出E-learning服務
高校圖書館的科研信息化以及豐富的館藏資源,為推出E-learning服務創造了條件。E-learning可以理解為網絡在線學習,是一種利用網絡資源進行在線溝通與學習的方式。高校圖書館應該對戶需求進行調研,加強對專業文獻資源的組合與管理,并做好信息資源分類,以為科研人員提供最優質的科研服務。其次,高校圖書館應該順應科研趨勢,在整合分布式信息資源的基礎上構建E-learning平臺,對各種有價值的信息資源進行整合檢驗,并及時納入學習資源庫中。學習信息資源需不斷更新,需要不斷積累與沉淀,如此才能豐富學習資源庫,并形成開放的E-learning發展模式。復旦大學圖書館于2011年根據發展需求構建了科學數據共享平臺,能夠為科研人員提供數據存儲、在線交流學習以及數據共享服務,也具備為科研團隊提供、保存與傳播科學數據的功能。
E-Science環境為科研活動創造了良好的技術條件,也促進了科學數據的流通與共享。高校圖書館是科學數據的記錄者與科研項目的服務者,具有科研與教學相結合的獨特優勢。當前高校圖書館應該明確自身在科學數據管理方面的定位,充分發揮技術、管理團隊、資源等方面的優勢,加強與科研機構的合作,努力塑造在科研服務中的良好形象。
(來稿時間:2015年11月)
1.敖龍,李進華.E-Science環境下的科學工作流實現及其應用研究——生命周期與應用分析[J].情報科學,2011(1):113-117
2.錢鵬,鄭建明.基于生命周期的高校科學數據組織研究[J].情報理論與實踐,2011(11):83-86
3.楊鶴林.數據監護:美國高校圖書館的新探索[J].大學圖書館學報,2011(2):18-21
4.崔宇紅.E-Science 環境中研究圖書館的新角色: 科學數據管理[J].圖書館雜志,2012(10):20-23
5.謝春枝,燕今偉.國內外高校科學數據管理和機制建設研究[J].圖書情報工作,2013(6):12-17
6.李曉輝.圖書館科研數據管理與服務模式探討[J].中國圖書館學報,2011(5):46-52
7.程蓮娟.美國高校圖書館數據監護的實踐及其啟示[J].圖書館雜志,2012(1):76-78
8.賴劍菲,洪正國.對高校科學數據管理平臺建設的建議[J].圖書情報工作,2013(3):23-27
9.黃筱瑾.基于元數據的科學數據與科技文獻關聯研究[J].情報理論與實踐,2013(7):27-30
10.游毅,成全.基于關聯數據的科研數據資源共享[J].情報雜志,2012(10):146-151
11.丁寧,馬浩琴.國外高校科學數據生命周期管理模型比較研究及借鑒[J].圖書情報工作,2013(6):18-22
12.司莉,邢文明.國外科學數據管理與共享政策調查及對我國的啟示[J].情報資料工作,2013(1):61-66
Research on the Path of Scientific Data Management and Sharing in University Library under the E-Science Environment
Sun Jizhou
( Library of Nanchang Hangkong University )
〕E-Science is a new research and cooperation model based on the formation of advanced technology, scientific data in the E-Science environment is growing rapidly, but there is a lack of sharing mechanism, which requires the university library to undertake the task of scientific research service. University library is the process monitoring system of scientific data, the embedded management mechanism and the scientific data archiving and education institution. The main management contents include scientific data description, scientific data organization, scientific data association and so on. University Library in E-Science environment should be based on scientific research needs to build a scientific data management model, develop scientific management standards, actively integrate distributed data, and launch E-learning services, and then truly scientific data sharing.
〕E-Science environment University library Scientific data Management and sharing
G252
* 本文系江西省社會科學規劃課題“泛在知識環境下的昌北高校圖書館聯盟建設”(項目編號:14TQ02)及“基于競爭情報教育提升大學生就業能力的實證研究——以南昌市高校為例”(項目編號:14YD004)的成果之一。
孫繼周(1977-),女,碩士,南昌航空大學圖書館館員,研究方向:圖書館資源建設。