杜曉國
文章編號:2095-6835(2016)13-0028-02
摘 要:隨著計算機技術的發展,很多領域都引入了大數據,以推動其自身發展。傳統的圖書館領域也是如此。將大數據應用于圖書館領域,既是一種機遇,又是挑戰。簡要論述了大數據時代下圖書館的發展情況,以期為日后的相關工作提供參考。
關鍵詞:圖書館;大數據;元數據;傳統網絡
中圖分類號:G250.7 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.13.028
1 大數據概述
在當今社會,人們對大數據的關注度越來越高,大數據的迅猛發展讓圖書館煥發了新的生機。2014年,全球信息交換存儲量已超過4.4 ZB。這個數量正在以每年40%的速度快速增長,這意味著大數據時代已經降臨。麥肯錫公司最早提出了“大數據”這個概念。2011-05,麥肯錫公司在大數據報告中提出,“數據對社會各個行業和業務職能領域的影響已成為決定因素?!逼浜?,大數據迅速成為社會各行業關注的焦點。哈佛大學知名教授在大數據發展報告中指出,“這是一場涉及技術和文化的、具有挑戰性的數據革命,龐大的數據資源使得社會各個領域開始量化進程,科技、政商、衛生、教育等領域都將開始這種進程”。這一變化使得大數據從對因果關系的渴求轉變為對相關關系的關注,人們只需了解是什么,而不必探求為什么。這就使人類的思維模式發生了質的變化,也就是人類在認知、社會交往上發生了本質的變化。
截至目前,還沒有一個完整、統一的定義來解釋什么是大數據。開始,大數據是指待處理的信息量迅速膨脹,在數據處理過程中,一般電腦的內存量已無法滿足龐大的信息處理要求,所以,必須改進數據處理工具。大數據究竟有多么大,“互聯網的一天”回答了我們。在一天中,互聯網的全部信息量刻滿2億張光盤,發出超過3 000億封電子郵件,谷歌公司每天處理的數據已突破24 PB。這意味著,互聯網每天的數據處理量是美國國家圖書館全部紙質出版物所有數據的上千倍。“面簿”是一間創立時間不到10年的公司,每天照片的更新量已經超過1 000萬張,人們每天在互聯網上點擊“like”按鈕或寫評論30億次。這為“面簿”公司挖掘用戶的喜好提供了有效的數據支持。同時,谷歌YouTube子公司每月接待的訪客超過8億,1 s就會有一段1 h長度以上的視頻在上傳。Twitter上的數據每年都要翻一番。截至2012年,互聯網每天發布的微博數量已超過4億條,數據量從TB、PB發展到EB、ZB。國際商業機器公司在大數據發展狀況研究報告中指出,“在人類文明所獲得的全部數據中,約90%的數據是在過去兩年產生的。預計到2020年,全球數據規模將達到今天的44倍?!?/p>
2 大數據下圖書館遇到的挑戰
在數字圖書館時代,圖書館的舊有模式發生了前所未有的變化。在變革的背后,大數據在帶來前所未有的時代發展先機的同時也帶來了決定性的挑戰。
2.1 傳統網絡結構與“大數據”不相適應
舊有網絡結構是垂直結構構架,即用戶端→服務器→用戶。在大數據時代,信息交換是平行的,即服務器→服務器。在大數據時代,繁雜的數據分布存儲在不同的服務器中,當用戶發出搜索、查詢請求時,信息交換是在服務器之間實現的。傳統的網絡構架已經不適應大數據時代網絡應用的需求。
2.2 數據中心面臨巨大的壓力
舊有的數據庫是利用“ETL”工具將數據從數字資源中分配到數據倉庫中管理和存儲,然后再整合數據,進一步從數據倉庫中讀取和分析。大數據時代下的圖書館存儲著大量形式多樣、內容豐富的數據資源,包括辦公文檔、圖表、報表、視頻、音頻和圖片等。移動、修改這些數據需要消耗大量的人力、物力和財力,而且移動數據會降低讀取效率。
2.3 可用數據少
在大數據時代,每天都會產生數量龐大的新數據,但真正能為用戶使用的數據相當少。用戶面對眾多數據,很難準確、快捷地檢索到所需的數據資源,而這些數據也無法形成系統的知識源供用戶使用。
3 圖書館應對策略
3.1 建立超大型元數據存儲
“超大型元數據存儲”是有效利用數字圖書館資源的途徑之一,它能夠滿足數據統一整合和一站式檢索的要求。在大數據時代,關鍵的技術問題是大數據的高效率存儲與訪問需求、對數據庫可用性和擴展性的高需求。隨著數據庫技術和云計算技術的快速發展與應用,復雜、龐大的數據存儲需要借助“NoSQL”“MqpReduce”和“Hadoop”等非關系型數據庫分析技術,它具有大規模并行處理、簡單易用的特點。此外,還可以采用基于云計算的分布式存儲技術實現對圖書館數據的有序統一。擁有數以萬計大型存儲設備的云系統,其存儲設備可容納海量繁雜的數據,實現實時更新,這一技術為圖書館持續增長的數據信息資源處理提供了可靠的技術支持。云計算實現了數字圖書館信息集成和資源互補。云計算通過“一個終端”和“一條網線”在非固定時間和空間獲取信息資源,它為圖書館數據信息提供了高層次的虛擬技術和自動化的匹配功能,圖書館服務的用戶、企業可以隨時隨地通過自有終端或其他終端,利用Web實現信息資源的共享。
3.2 非結構優化數據的分析
數據信息技術的發展帶動了圖書館深層次的變革。圖書館服務用戶必須以“以人為本、尊重人的社會價值和自我尊嚴”為出發點,傾聽用戶內心情愫,關心用戶現實需要,尊重用戶個性化要求,剖析、解讀讀者顯性行為,深度挖掘讀者隱性行為。由此可知,對數據的分析和深度挖掘是極其重要的。在圖書館大數據中,等待處理的非結構化數據與讀者的興趣密切相關。目前,普遍采用的是基于內容法和協同過濾法。協同過濾法是目前使用率比較高的方法之一,但是,其中仍然存在數據稀疏、讀者興趣變化、評分真實性和差異性等問題。在具體工作中,依據讀者數據信息搭建的個性化讀者行為模型,結合以讀者行為為基礎的協同過濾法發現模型中的規則,從而研究個性化服務值。
3.3 實現知識圖譜可視化
大數據中包括海量、繁雜的重要數據信息,通過對其的深層次分析,能從數據中獲取相關知識。知識圖譜可視化作為圖書館發展的關鍵服務理念和技術手段,在圖書館大數據復雜異構處理方面有很大的優勢。大數據下的圖書館充分利用異構數字資源融合、聚類和重組技術,為公眾提供統一的一站式服務。同時,還以物聯網、移動通信網和互聯網為平臺,實現信息資源轉向信息層、知識層的深層次服務,以時間軸、地域軸等知識圖譜可視化的方式將資源展示給用戶,為用戶提供可供電視、電腦、手機使用的多種接收終端,從而強化數據分析,實現個性化服務和資源共享。
4 結束語
數據信息的爆炸式增長催生出“大數據”概念,大數據已經漸漸滲透到圖書情報工作中,其挑戰與機遇是并存的。未來,在大數據時代,互聯網將從“網頁相聯”走向“數據相聯”和“知識相聯”。大數據技術的應用將是未來圖書館服務創新的重要領域。在大數據的影響下,圖書館出現了嶄新的數據管理和處理模式。
參考文獻
[1]李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9).
[2]李奕.計算機革命與數據價值——2012第二屆中國計算機技術大會專題報道[N].中國計算機報,2012-10-15.
[3]于良芝.圖書館學導論[M].北京:科學出版社,2006.
[4]維克托·邁爾·舍恩伯格.大數據時代[M].杭州:浙江人民出版社,2013.
〔編輯:白潔〕