文/菏澤學院圖書館 龐鳳展
如今圖書館收集和存儲著海量的數據資源。館藏資源的最初目的是為了幫助科研人員和社會讀者能夠查閱到他們所需的信息。然而隨著社會的發展及科技水平的提高,圖書館數據量變得越來越龐大,數據格式也變得越來越多樣,這種情況對圖書館信息的使用效率產生了一定的影響。
2001年,美國學者Doug Laney在他的研究報告中首次提出了“大數據”的概念,從三個角度定義了數據增長的機遇與挑戰,即3V理論:數量(volume)、速度(volocity)、多樣(variety)。近幾年,大數據研究的重要意義已經得到了廣泛認可:大數據技術可以使我們對數據作出更深入、更有價值的挖掘和理解,從而幫助我們更及時有效地作出決策。
隨著大數據技術的日漸傳播和發展,圖書館也加入了應用大數據技術的行列,以便為研究人員與讀者提供更高效的服務。但是有一部分學者對圖書館數據是否屬于大數據存有疑問。本文將參照最為權威的3V理論,來探究一下這個問題。
(一)數量(volume)。根據維基百科的定義,大數據是由數量巨大、結構復雜、類型眾多的數據構成的數據合集,是基于云計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。然而數據的實際大小并沒有一個準確的定義,它的大小取決于實際應用場景。在另一方面,數據模型可以從館藏文獻中創建。
(二)速度(volocity)。圖書館數據中同樣可以找到大數據所具有的速度特征。各個圖書館的服務器上管理著大量的文件,分布在不同的地理位置,圖書館存在著各種內部的或者外部的文件移動。隨著更多研究的開展,越來越多的研究數據被動態地寫入圖書館數據庫。
(三)多樣(variety)。圖書館擁有各種形式的數據:書籍、期刊、報告、筆記等。其中有些形式的數據是缺少組織性的,非結構化的。此外,用戶在使用圖書館的系統和服務時,圖書館會收集用戶的使用習慣和交互數據。因此,在圖書館數據中也可以找到大數據所具有的多樣特性。除了以上三種特性外,圖書館數據還具有一些其他的屬性。
(四) 數據缺乏組織性。在大部分人看來,圖書館中的書籍和期刊都組織得很有條理,用戶使用類目就可以方便檢索到他們需要的資源。然而,圖書館中存儲的研究數據的情況卻是不同的。這些研究數據雜亂無章,缺乏系統的組織和描述,并且很難被長期重復使用。
不同于商業機構、醫療機構等,圖書館大數據的研究相對而言還處于起步階段。因此在數據轉化、管理及分析的過程中,可能會面臨一些困難。另外,圖書館所應用的大數據技術如數據存儲、軟件應用、人員操作上都與其他領域不盡相同。以下是圖書館大數據研究的一些常見問題:
(一)數據分析人員緊缺。當前各個行業中,數據分析人員都嚴重緊缺。圖書館行業面臨著一樣的境遇。數據分析人員不僅需要精通統計學和計算機的相關知識,同樣還需要擁有知識管理和項目協作的能力。圖書員處理大數據信息的能力是目前大數據在圖書館應用所面臨的主要挑戰。
(二)大數據采用能力較低。大數據產生于社會各個領域,但是目前很多的組織及機構并沒有做好應對大數據時代來臨的準備。圖書館的大數據研究比其他學科進展更慢。
(三)預算問題。雖然越來越多的人已經意識到大數據分析和應用的巨大價值,但是巨大的IT投入卻一定程度上阻礙了大數據的發展。因為預算問題,絕大部分的圖書館管理人員并沒有進行大數據研究與應用的想法。目前國內外很多圖書館開始引入大數據技術,但是我們需要認識到目前存在的挑戰與問題,如預算問題、技術問題等。
大數據是近年來熱門的話題,那么大數據可以怎樣運用到圖書館信息服務中呢?首先,圖書館的信息化建設使數字資源與日俱增,尤其是爆發增長的非結構化的原始數據,如音頻影像等流媒體數字資源、學術文獻的各種原始數據圖表等,這將會促進數據資源采集處理模式的優化,及圖書館系統架構的優化配置,以克服現有的數據信息中心不能適應海量及復雜的非結構化原始數據獲取、存儲和處理方面的不足。
面臨大數據時代,圖書館數據理所應當的屬于大數據的一部分。由于資金和技術問題,大數據在圖書館的實際運用還面臨著諸多挑戰。但毫無疑問,大數據會幫助圖書館提高服務效益,加快升級創新。