宋微
(福建師范大學協和學院,福建 福州 350117)
網絡信息時代數據呈現急速增長,大數據時代已經來臨。數據總量的高速增長以及復雜變化給用戶帶來了更加優質的服務體驗,但是海量的數據也給其監管和存儲帶來了諸多的困難,圖書館的數據管理也面臨這一難題。[1]圖書館在現代信息技術的沖擊之下,傳統的資源數據服務遭到了現代搜索引擎的巨大挑戰,用戶資源被大量分流,已經逐漸脫離了學術最佳聚合度的中心位置。大數據在大科學領域應用廣泛,但是處于數據長尾位置的小科學以及其他新興學科領域在整個科技研究中缺乏必要的關注度,這些長尾數據包括實驗數據的記錄以及存儲未能展現其真正的學術價值。[2]作為數據監管以及存儲的最佳機構——圖書館,此時就展現了對長尾數據的服務優勢。這也是本篇文章研究的目的所在。
有關學者的研究將長尾數據定義為:投資較小的非基金項目研究過程中產生的數據。圖書館對于數據監管的中心在于小科學領域,因此圖書館對于長尾數據的服務需求增長明顯。小的科學項目一般是由較小的科研團體推進,產生的數據量雖然小,但是匯聚起來總量很大,這種科研項目一般只注重研究結果,對于研究項目的前期、中期數據沒有詳細的記錄,這些數據有可能帶來全新的研究領域,因此具有重要的科研價值。這種長尾數據一般只保存在小型研究團體的科研人員手中,如果圖書館不提供服務進行存儲管理,不利于數據的永久保存。[3]
數據監管這個詞,在美國的學術界統一被稱為“Date Curation”,中國圖書館學者在引用國外專業術語時,將其翻譯為數據字典、數據監護、數據監管或者數據管理,不同的翻譯表示不同的意義。國外對于數據監管的定義,主要是從數據的全生命周期開始,從數據的產生、存儲、利用、維護以及再利用等活動出發。在國內,數據監管的定義主要歸納為兩個方面:一個是與國外數據監管相類似的數據選擇、存儲以及加工,另一個是挖掘數據背后的隱藏價值。[4]引用數據監管這一定義,更加注重數據的動態化以及周期性特點,強調數據監管不僅僅是在整個生命周期對數據進行管理,還需要能夠滿足用戶在數據全生命周期中對數據背后隱藏價值的利用,能夠更加有效地實現數據增值,并且為圖書館的可持續利用發展提供自己的動力。
有關研究表明,科學研究的數據來源主要是通過實驗的過程以及數據資源庫所獲得的第一手資料,大的科研項目一般都有專門記錄數據的機構,但是對科研項目中的長尾數據,高達80%左右未受到關注。如果要將這些長尾數據永久保存并加以利用,圖書館就必須有針對性地進行收集、存儲和監管,才有可能將其再利用。
圖書館的數據資源主要包括學位論文庫以及專業數據庫,同時包含一部分特色數據庫,比如CNKI、Elsevier等標準的數據資源,這些數據資源在圖書館網站上進行集成,構成了圖書館的網絡資源數據庫。圖書館的長尾數據庫,就是在這些數據資源基礎上針對小型科研項目的集中數據,包括相應的數據特征、數據的標準形式以及分布特點等,是圖書館整體服務內容的一部分。圖書館在當前面臨用戶資源被嚴重分流的情況之下,需要重新構建服務內容,讓用戶重新聚合在圖書館資源中心之下,這也是當前圖書館面臨的主要使命。
圖書館現有的數據管理主要以機構知識庫為主,數據庫包含有本校師生的期刊論文以及學位論文,但是科學研究中的實驗數據以及視頻和算法程序等其他數據并沒有得到有效管理,存在只注重科研的成果不注重相關支撐數據管理的問題。本文主要研究長尾數據監管中圖書館的服務內容,目的是為了科研數據能夠被后期科研再利用,提倡建立存儲規范,對科研產生的數據進行全過程存儲,以充分挖掘信息價值,達到信息增值的目的。圖書館作為一個非盈利性的服務機構,在向公眾提供服務的過程中,不可避免會出現長尾數據。圖書館管理人員應針對長尾理論聚合數據資源,滿足用戶需求,使用戶接觸到那些很少被利用的數據,并且運用到自己的研究之中。這也是圖書館在科研數據資源管理中所發揮的中心作用。
面對大數據時代的挑戰,傳統的圖書館服務模式已經不能夠滿足用戶的需求,需要對圖書館的功能進行重新定位,以便于為用戶提供更好的服務。今天出現的圖書館數據監管服務,是圖書館進行角色轉型的一種新形式。美國國家科學基金會最近規定,新申請的項目必須提交相關數據管理計劃,該管理計劃強調和重視的就是關于數據的存儲和保存方式。圖書館作為主體參與其中,必須適應大數據的時代背景,轉變服務方式,開展更高層次的信息資源服務,同時對數據的監管和實踐起到積極作用。
圖書館在長期的信息服務中積累了大量關于數據標準的技術文件,再加上本身具有的文獻管理優勢,能夠讓其在數據的分類組織、資源詳細描述以及對于數據資源編目檢索等領域具有較高的專業水平。圖書館在現有的資源數據庫的基礎上,由原來的關注科研項目的最終成果獎向關注支撐科研項目的數據材料轉變,由原來的資源被動收藏者變為主動的知識管理機構。圖書館提供的數據監管服務,能夠有效利用圖書館及其管理員的專業知識,且在數據監管服務過程中,相應平臺的建立、用戶需求的分析以及提供的數據標準形式,都能夠與圖書館的服務相結合。
在信息資源日趨集約化的今天,我們還沒有找到一個合適的模型來描述小型科研項目中數據的集合形式,這些數據集合在聚合中具有高度的異質性,往往是想要跨越長尾科學以及相關的數據監管形式,在新的生命周期下形成一種監管的新形態,以便于數據的使用。長尾數據自從被納入科學領域以來,就開始了新的生命周期形態。在后續的科學實驗設計、數據分析、得出結論以及資源使用等等都會產生一定量的科研數據,這其中就包括長尾數據的生命周期全過程。
圖書館在這一個生命周期之內,數據監管的中心在于數據的收集和整理,以及對于數據的挖掘,利用長尾聚合以及語義匹配等不同階段特點進行充分挖掘。這就要求圖書館在不同的數據階段進行科學的監管,提供不同的服務形態。在科研項目的前期假想實驗數據,圖書館對于實驗數據進行收集和整理,對數據形成動態的鑒定和選擇。然后與相關聯的科研工作者進行合作,制定相對應的監管計劃,對于長尾數據的產生類型、產生的數量、保存的期限、保存的形式以及訪問的權限等都有明確的規定。同時需要規定數據的標準形式,形成統一的格式標準,這樣方便統一操作。對于關聯數據的方式,可以全生命周期過程進行關聯,也可以讓不同項目的相似數據或者是同一項目不同研究者之間的數據進行統一的管理,以便于數據結構統一,形成一種資源的聚合效應。圖書館現有的資源平臺主要是數據資源庫、相關行業的制作標準以及部分流動的網絡集合數據,這些數據都可以為圖書館的數據監管提供有利條件。圖書館可以通過自己的技術搭建數據平臺,制定統一的數據格式標準,這樣才能夠有利于長尾數據的存儲。在圖書館進行后期服務中,更需要考慮對于數據支持的存儲和再利用,同時要特別關注產權的保護,這也是今后需要重點研究的內容。
在今天高速發達的科技時代,數據密集型是其主要特點,用戶需求發生了極大的轉變,圖書館應該發揮其在學術研究中的中心地位,展現其本當具有的學術價值,為中小型項目的科學研究以及教學提供數據監管服務,完善他們的科研數據全生命周期管理,同時也需要擴展其在數據長期存儲中所發揮的作用。
如果科研項目缺乏相應的監管計劃或者是管理制度不夠完善,如果科學數據保存在科研人員自己的手中,一旦這個科研計劃結題或者結束,那么所保存的相應數據就會被遺忘,達不到數據資源的共享和優勢再利用,數據價值因此會被丟失,就無法挖掘其隱含的價值。長尾數據的全生命周期形態,就是要求科研項目在進行項目申報時圖書館的數據監管工作就開始提供相應的管理服務,將原來的監管中心由注重收集研究的成果轉向對于科研數據的搜集。在科研項目開展的初期與研究人員進行緊密合作或者是直接加入到研究團隊之中,對于在項目中產生的中間數據或者是推導數據進行有效管理,這樣形成的最終成果數據,也具有一定的學術價值。當地圖書館要在國家制定的政策基礎上,結合自身的實際情況,制定相應的數據監管計劃,對于不同的數據類型以及數據形態進行分別歸類,弄清楚哪些數據是需要納入監管計劃的,同時考慮如何對數據進行標準化處理,形成統一的格式形態,對于統一的格式進行結構化和自動化處理,數據特點描述要統一,數據的更新周期、內容形式都要包括在共有的監管計劃之中,形成實時動態化的監管模式,這樣才能夠充分發揮數據的價值。
圖書館現有的長尾資源主要集中表現在讀者長尾、資源類型的長尾以及服務類型的長尾三個方面,要實現長尾數據的可持續發展,需要轉變其資源聚合方式。在科研項目研究前期以及研究中期所產生的數據不僅體量巨大,而且具有一定的動態性和暫時性,這就要求圖書館高度重視科研項目產出的數據內容,加強對這部分數據內容的收集和存儲,以便于進行長期保存。圖書館可以利用自身資源整合的技術優勢以及資源聚合的優勢,對長尾數據進行統一管理,聚合數字相關的資源,從而有效擴展圖書館的服務空間以及內容空間,同時也擴大圖書館的信息容量。需要長期保存的數據資源特別需要圖書館這一資源平臺進行數據的維護整理,以便于后期挖掘出隱含其中的長尾用戶的潛在需要,積極拓展長尾數據的資源,方便用戶發現和利用有效的資源,實現資源的循環利用價值。同時圖書館已經在世界各地形成一個廣泛的網絡,各大圖書館都有網絡進行連接,但是圖書館網的資源聚合程度還有待進一步發展,圖書館的資源數據平臺還只是單個體系,沒有形成一個統一的標準,相互之間的數據合作很難開展。在現實中圖書館的長尾數據聚合并不僅僅只依靠一個圖書館的力量就能夠完全實現,必須是圖書館在網絡環境中與其他圖書館進行聯網結合,形成一個有機的整體,各圖書館共同參與才能夠將數據資源充分納入到監管體系中,在方便用戶需求的同時也能夠對數據資源進行統一聚合發展。
圖書館在對數據資源的收集、存儲、上傳、保存、利用整個過程中都會涉及到數據的存儲方式、數據的存儲位置、合適訪問權限,數據是否共享使用等管理性的安全問題,這就意味著數據的整理工作牽涉到數據的知識產權問題。在科研項目中圖書館擁有巨大的長尾數據,如果沒有對數據的使用界限進行厘清,同時給予一定的使用界限,特別是一些軍隊院校牽涉到一些敏感的數據和項目,信息的使用權和所有權如果不作界定,很容易造成信息泄露,從而影響國家安全。這種情況與我們進行數據監管服務的初衷背道而馳,我們必須對這一問題高度重視。因此,圖書館在提供數據全生命周期的管理之外,對于長尾數據的知識產權保護也是一個重要的內容。鑒于數據備份的監管服務,國外的大學圖書館針對此類情況備份三份,即原始文檔備份、外部本地文件備份以及外部的遠程備份。同時根據相關簽署的版權許可協議以及保存規定,將數據存儲在資源數據庫中,或者是連接外部站點進行聯機發布,我國的圖書館可以借鑒國外這一做法。在對長尾數據的使用過程中,可以根據數據的不同涉密等級,建立相應的瀏覽權限,并且利用最新的技術對于訪問者的身份進行審核,同時要求數據的引用者在數據使用過程中注明出處以及作者的詳細信息,確保信息的安全訪問。只有保證數據提供者的知識產權受到保護,長尾數據才能夠不斷地被圖書館存儲和利用,這也直接影響到圖書館的可持續發展。
國外先進的圖書館已經專門設置數據監管的崗位角色,國外的圖書館管理員能夠被認為是解決科研項目數據資源的關鍵角色之一。圖書館的工作服務范圍已經擴展到數據服務的范疇,專業的圖書館管理員在與讀者進行交流的過程中,其角色定位、職責范圍和服務方式都發生了一定的轉變。數據監管員的職責就是在整個數據監管的全生命周期中,為了滿足用戶的需要以及需求的類別,結合小型科研項目的特點與小型項目的科研人員相互交換數據信息,提供圖書館與科研數據之間的連接入口,在研究開始的初級階段就參與到數據整理的操作過程之中,對于數據的框架和格式進行統一的管理,制定相應的數據管理規范,將數據背后隱藏的信息充分挖掘出來,這樣才能為數據共享提供相應的保障服務。這種長尾數據資源管理對于我國現階段圖書館管理人員的能力提出了比較高的要求,數據監管服務崗位越來越成為圖書管理的重要崗位,也代表了新形勢下圖書館服務職責的變化。這就要求圖書館在新形勢下做好數據監管人才的培養以及儲備,進行綜合知識的考量,做好重點培訓,使相關專業學科負責人成為數據服務人員,根據最新的科學研究成果,立足于長尾數據的管理,積極拓展整個長尾數據的使用技能,這樣才能夠更好地為用戶提供數據服務,保障整個圖書館在數據監管中的中心地位,使其在學術研究中重新回到主流學術中心的位置。
圖書館的數據監管服務為圖書館在大數據時代的生存和發展帶來了新的機遇和挑戰,特別是對于長尾數據的監管,更是契合了科研項目用戶的需求。但是長尾數據監管服務在國內的發展仍然不夠成熟,監管的界限也不夠明確,這就需要我國圖書館充分參與到科研項目中來,大膽進行進行創新,積極提供數據服務,在未來更廣泛的服務中更好地進行實踐,這樣才能賦予圖書館以新的生命力。