鄧鴻飛,周優軍
(1.廣西財經學院,廣西 南寧 530003;2.廣西科技師范學院,廣西 來賓 546199)
圖書館館藏一般由圖書、電子圖書、在線期刊、研究論文、會議記錄、研討會論文、機構知識庫等組成,包括專門為研究學者和其他用戶提供信息需求的信息格式。數據在信息和知識領域的不斷增長,使得大數據分析成為必要[1]。在這種情況下,圖書館從業人員迫切需要知道如何轉換、評價,并以信息或知識的最終形式呈現給用戶。傳統的數據庫管理系統難以處理復雜的圖書館數據,因此需要大數據技術進行分析和處理[2],然而作為圖書館從業人員,雖然在管理此類數據方面有許多有效的技術,但對于使用元數據來組織數字資源,如何使用大數據和云計算技術等工具的研究并不多。
“大數據”是當今最流行的術語之一,醫院、企業、高校、銀行等都在收集所謂的“大數據”。研究人員收集的常規數據類型是嚴格結構化的,例如輸入到具有特定行和列的電子表格中的數據。然而,大數據集可能包含非結構化數據和不同類型的數據。近年來,大數據研究的重要意義已經得到了充分的認識,大數據技術使人們能夠從數據中獲得更深入、更有價值的見解,并作出更及時的決策[3]。存儲和分析大數據的硬件和軟件成本較低、可用性強,這使得大數據技術引起了包括圖書館在內的許多用戶的興趣。
圖書館的大數據工作也非常重要,因為圖書館數據需要轉化為信息或知識,然后供用戶使用。因此,大量的研究工作都在探索圖書館大數據的問題和可能性,這樣做的最終目的是利用這些數據提供新的有用服務或提高效率。如果只考慮庫中的靜態集合,可能很難將其與大數據關聯起來。此外,數據庫管理系統應該能夠存儲和處理圖書館數據,基于大數據的定義,不需要像分布式系統這樣的大數據技術來分析圖書館中的數據。
一般來看,圖書館中的圖書、期刊等數據組織得很好,因為用戶可以使用類別來查找所需的內容。對于那些存儲在圖書館中的研究數據,情況卻不同。圖書館中的數據較為凌亂,研究人員習慣于通過自己的認識來組織數據。這些數據通常由項目管理,一旦項目完成并發表文章或報告,研究數據往往會封存起來。
研究數據往往缺乏標準和格式,雖然一些學科可能已經創建了數據標準,但由于在大多數學科中,諸如政治和社會研究等強大的集中式數據倉庫,常常不存在數據標準,特別是對于那些個性化的研究,即每個研究者定義了對項目重要的參數。數據格式是另一個問題,研究人員使用他們自己的格式來收集數據,即使對于同一個研究人員,不同的數據格式也可能用于不同的項目,這給集成這些數據帶來了困難。
數據庫中存在的數據無疑是一個大數據,但它不同于其他數據領域。在數據處理、轉換、分析和表示方面會存在問題。圖書館大數據應用的技術可能與其他領域不同,以下羅列出了一些圖書館數據和大數據共有需要解決的問題。
數據分析師不僅需要統計學和計算機科學的技能,還需要領域知識和協作能力的技能。因此,圖書館員面臨的挑戰是大數據信息的管理能力,當前看來,短期培訓似乎不足以掌握所需的技能[4]。
大數據來自各個領域,然而很多服務單位還沒有做好準備。研究表明,目前有一半以上的機構由于缺乏人員和平臺而無法處理大數據。圖書館大數據的研究發展甚至比其他學科要慢得多,其關鍵原因在于,數字圖書館往往是一個自成體系的組織單位。
雖然越來越多的人理解使用大數據分析的巨大好處,但是需要像分析服務器、高性能計算服務器這樣的較大投資。由于預算的縮減,大多數圖書館管理部門似乎還沒有將大數據擺上桌面。由于人力成本較高,項目管理的研究數據較少受到重視。多年前產生的大量研究數據仍然是相似的,這些資源的數字化不是一項簡單的任務,需要大量的時間。
大數據涉及捕獲、存儲、處理和呈現數據等技術,圖書館中的數據有不同的類型,可能有不同的表象,一些數據正在等待數字化;另一方面,大量數據往往包含一些無效數據或錯誤數據,正確地剔除這些數據需要一些工作。由于研究數據類型和格式的異構性,將其集成成為一項非常困難的工作。許多類型的研究數據在其原始狀態下的可用性比在其執行了過濾器、算法或其他處理之后的可用性要低得多。此外,由于大量數據的可訪問性,可能會出現新的系統入侵風險,丞待解決。
圖書館除了存儲數據、索引數據及運行查詢這些傳統功能外,還可以提供更多功能。例如利用圖書館的大數據,可幫助學生為一個項目進行統計,幫助研究人員有效地管理大數據集。在圖書館中,可以實現2個方面的數據挖掘:一是使用圖書館中存儲的數據;二是使用用戶使用圖書館服務過程中收集的數據。圖書館員面臨的新概念和挑戰是對大數據的強大分析,大數據是一種信息揭示工具,它以不同的方式呈現數據,并幫助用戶挖掘他們真正想要的信息。
圖書館能夠采用數據挖掘技術和文本分析來優化館藏內容,實現更精準的搜索結果,定向推送資源與實施人性化服務,充分有效利用圖書館資源[5]。
資源共享是圖書館的重要目標之一。聯機計算機圖書館中心一直致力于根據重新格式化的圖書館數據實現外部鏈接,可以在Web上實現交互,庫數據可以成為鏈接數據。
從單個作品中,可以很容易地提取出合作作者、引文、地理位置、日期、命名實體、主題分類、機構隸屬關系、出版商和歷史流通信息的關系。
利用大數據技術可以記錄和跟蹤圖書館用戶的活動,并將這些數據存儲在大規模的數據存儲中,然后進行數據分析,其結果可用于潛在地改善整體用戶體驗和用戶對圖書館服務的滿意度。
新興的大數據領域在所有學術領域都產生了巨大的影響,并有望在包括信息科學在內的各個學術領域,圖書館學和信息科學的其他潛在技能培養領域包括高強度性能計算、先進的統計和計算方法、虛擬現實系統、多樣性格式數據管理、數字保存和管理等。圖書館可以使用大數據技術來填補服務空白,為研究人員創建值得信賴的數據庫。此外,存儲和處理的數量已經增加了圖書館數據的復雜性,這項工作只能由數據科學家來完成,而不是傳統的圖書館員。研究數據的增長速度非常快,越來越多的研究者希望將收集的數據作為一個整體,以新穎的方式挖掘和組織信息。大數據為圖書館員提供了科學發展的另一個里程碑,使他們能夠在快速變化的信息環境中進行自我提升和發展。