杜曉國
文章編號:2095-6835(2016)13-0028-02
摘 要:隨著計算機技術(shù)的發(fā)展,很多領(lǐng)域都引入了大數(shù)據(jù),以推動其自身發(fā)展。傳統(tǒng)的圖書館領(lǐng)域也是如此。將大數(shù)據(jù)應用于圖書館領(lǐng)域,既是一種機遇,又是挑戰(zhàn)。簡要論述了大數(shù)據(jù)時代下圖書館的發(fā)展情況,以期為日后的相關(guān)工作提供參考。
關(guān)鍵詞:圖書館;大數(shù)據(jù);元數(shù)據(jù);傳統(tǒng)網(wǎng)絡
中圖分類號:G250.7 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.13.028
1 大數(shù)據(jù)概述
在當今社會,人們對大數(shù)據(jù)的關(guān)注度越來越高,大數(shù)據(jù)的迅猛發(fā)展讓圖書館煥發(fā)了新的生機。2014年,全球信息交換存儲量已超過4.4 ZB。這個數(shù)量正在以每年40%的速度快速增長,這意味著大數(shù)據(jù)時代已經(jīng)降臨。麥肯錫公司最早提出了“大數(shù)據(jù)”這個概念。2011-05,麥肯錫公司在大數(shù)據(jù)報告中提出,“數(shù)據(jù)對社會各個行業(yè)和業(yè)務職能領(lǐng)域的影響已成為決定因素?!逼浜螅髷?shù)據(jù)迅速成為社會各行業(yè)關(guān)注的焦點。哈佛大學知名教授在大數(shù)據(jù)發(fā)展報告中指出,“這是一場涉及技術(shù)和文化的、具有挑戰(zhàn)性的數(shù)據(jù)革命,龐大的數(shù)據(jù)資源使得社會各個領(lǐng)域開始量化進程,科技、政商、衛(wèi)生、教育等領(lǐng)域都將開始這種進程”。這一變化使得大數(shù)據(jù)從對因果關(guān)系的渴求轉(zhuǎn)變?yōu)閷ο嚓P(guān)關(guān)系的關(guān)注,人們只需了解是什么,而不必探求為什么。這就使人類的思維模式發(fā)生了質(zhì)的變化,也就是人類在認知、社會交往上發(fā)生了本質(zhì)的變化。
截至目前,還沒有一個完整、統(tǒng)一的定義來解釋什么是大數(shù)據(jù)。開始,大數(shù)據(jù)是指待處理的信息量迅速膨脹,在數(shù)據(jù)處理過程中,一般電腦的內(nèi)存量已無法滿足龐大的信息處理要求,所以,必須改進數(shù)據(jù)處理工具。大數(shù)據(jù)究竟有多么大,“互聯(lián)網(wǎng)的一天”回答了我們。在一天中,互聯(lián)網(wǎng)的全部信息量刻滿2億張光盤,發(fā)出超過3 000億封電子郵件,谷歌公司每天處理的數(shù)據(jù)已突破24 PB。這意味著,互聯(lián)網(wǎng)每天的數(shù)據(jù)處理量是美國國家圖書館全部紙質(zhì)出版物所有數(shù)據(jù)的上千倍?!懊娌尽笔且婚g創(chuàng)立時間不到10年的公司,每天照片的更新量已經(jīng)超過1 000萬張,人們每天在互聯(lián)網(wǎng)上點擊“l(fā)ike”按鈕或?qū)懺u論30億次。這為“面簿”公司挖掘用戶的喜好提供了有效的數(shù)據(jù)支持。同時,谷歌YouTube子公司每月接待的訪客超過8億,1 s就會有一段1 h長度以上的視頻在上傳。Twitter上的數(shù)據(jù)每年都要翻一番。截至2012年,互聯(lián)網(wǎng)每天發(fā)布的微博數(shù)量已超過4億條,數(shù)據(jù)量從TB、PB發(fā)展到EB、ZB。國際商業(yè)機器公司在大數(shù)據(jù)發(fā)展狀況研究報告中指出,“在人類文明所獲得的全部數(shù)據(jù)中,約90%的數(shù)據(jù)是在過去兩年產(chǎn)生的。預計到2020年,全球數(shù)據(jù)規(guī)模將達到今天的44倍?!?/p>
2 大數(shù)據(jù)下圖書館遇到的挑戰(zhàn)
在數(shù)字圖書館時代,圖書館的舊有模式發(fā)生了前所未有的變化。在變革的背后,大數(shù)據(jù)在帶來前所未有的時代發(fā)展先機的同時也帶來了決定性的挑戰(zhàn)。
2.1 傳統(tǒng)網(wǎng)絡結(jié)構(gòu)與“大數(shù)據(jù)”不相適應
舊有網(wǎng)絡結(jié)構(gòu)是垂直結(jié)構(gòu)構(gòu)架,即用戶端→服務器→用戶。在大數(shù)據(jù)時代,信息交換是平行的,即服務器→服務器。在大數(shù)據(jù)時代,繁雜的數(shù)據(jù)分布存儲在不同的服務器中,當用戶發(fā)出搜索、查詢請求時,信息交換是在服務器之間實現(xiàn)的。傳統(tǒng)的網(wǎng)絡構(gòu)架已經(jīng)不適應大數(shù)據(jù)時代網(wǎng)絡應用的需求。
2.2 數(shù)據(jù)中心面臨巨大的壓力
舊有的數(shù)據(jù)庫是利用“ETL”工具將數(shù)據(jù)從數(shù)字資源中分配到數(shù)據(jù)倉庫中管理和存儲,然后再整合數(shù)據(jù),進一步從數(shù)據(jù)倉庫中讀取和分析。大數(shù)據(jù)時代下的圖書館存儲著大量形式多樣、內(nèi)容豐富的數(shù)據(jù)資源,包括辦公文檔、圖表、報表、視頻、音頻和圖片等。移動、修改這些數(shù)據(jù)需要消耗大量的人力、物力和財力,而且移動數(shù)據(jù)會降低讀取效率。
2.3 可用數(shù)據(jù)少
在大數(shù)據(jù)時代,每天都會產(chǎn)生數(shù)量龐大的新數(shù)據(jù),但真正能為用戶使用的數(shù)據(jù)相當少。用戶面對眾多數(shù)據(jù),很難準確、快捷地檢索到所需的數(shù)據(jù)資源,而這些數(shù)據(jù)也無法形成系統(tǒng)的知識源供用戶使用。
3 圖書館應對策略
3.1 建立超大型元數(shù)據(jù)存儲
“超大型元數(shù)據(jù)存儲”是有效利用數(shù)字圖書館資源的途徑之一,它能夠滿足數(shù)據(jù)統(tǒng)一整合和一站式檢索的要求。在大數(shù)據(jù)時代,關(guān)鍵的技術(shù)問題是大數(shù)據(jù)的高效率存儲與訪問需求、對數(shù)據(jù)庫可用性和擴展性的高需求。隨著數(shù)據(jù)庫技術(shù)和云計算技術(shù)的快速發(fā)展與應用,復雜、龐大的數(shù)據(jù)存儲需要借助“NoSQL”“MqpReduce”和“Hadoop”等非關(guān)系型數(shù)據(jù)庫分析技術(shù),它具有大規(guī)模并行處理、簡單易用的特點。此外,還可以采用基于云計算的分布式存儲技術(shù)實現(xiàn)對圖書館數(shù)據(jù)的有序統(tǒng)一。擁有數(shù)以萬計大型存儲設備的云系統(tǒng),其存儲設備可容納海量繁雜的數(shù)據(jù),實現(xiàn)實時更新,這一技術(shù)為圖書館持續(xù)增長的數(shù)據(jù)信息資源處理提供了可靠的技術(shù)支持。云計算實現(xiàn)了數(shù)字圖書館信息集成和資源互補。云計算通過“一個終端”和“一條網(wǎng)線”在非固定時間和空間獲取信息資源,它為圖書館數(shù)據(jù)信息提供了高層次的虛擬技術(shù)和自動化的匹配功能,圖書館服務的用戶、企業(yè)可以隨時隨地通過自有終端或其他終端,利用Web實現(xiàn)信息資源的共享。
3.2 非結(jié)構(gòu)優(yōu)化數(shù)據(jù)的分析
數(shù)據(jù)信息技術(shù)的發(fā)展帶動了圖書館深層次的變革。圖書館服務用戶必須以“以人為本、尊重人的社會價值和自我尊嚴”為出發(fā)點,傾聽用戶內(nèi)心情愫,關(guān)心用戶現(xiàn)實需要,尊重用戶個性化要求,剖析、解讀讀者顯性行為,深度挖掘讀者隱性行為。由此可知,對數(shù)據(jù)的分析和深度挖掘是極其重要的。在圖書館大數(shù)據(jù)中,等待處理的非結(jié)構(gòu)化數(shù)據(jù)與讀者的興趣密切相關(guān)。目前,普遍采用的是基于內(nèi)容法和協(xié)同過濾法。協(xié)同過濾法是目前使用率比較高的方法之一,但是,其中仍然存在數(shù)據(jù)稀疏、讀者興趣變化、評分真實性和差異性等問題。在具體工作中,依據(jù)讀者數(shù)據(jù)信息搭建的個性化讀者行為模型,結(jié)合以讀者行為為基礎(chǔ)的協(xié)同過濾法發(fā)現(xiàn)模型中的規(guī)則,從而研究個性化服務值。
3.3 實現(xiàn)知識圖譜可視化
大數(shù)據(jù)中包括海量、繁雜的重要數(shù)據(jù)信息,通過對其的深層次分析,能從數(shù)據(jù)中獲取相關(guān)知識。知識圖譜可視化作為圖書館發(fā)展的關(guān)鍵服務理念和技術(shù)手段,在圖書館大數(shù)據(jù)復雜異構(gòu)處理方面有很大的優(yōu)勢。大數(shù)據(jù)下的圖書館充分利用異構(gòu)數(shù)字資源融合、聚類和重組技術(shù),為公眾提供統(tǒng)一的一站式服務。同時,還以物聯(lián)網(wǎng)、移動通信網(wǎng)和互聯(lián)網(wǎng)為平臺,實現(xiàn)信息資源轉(zhuǎn)向信息層、知識層的深層次服務,以時間軸、地域軸等知識圖譜可視化的方式將資源展示給用戶,為用戶提供可供電視、電腦、手機使用的多種接收終端,從而強化數(shù)據(jù)分析,實現(xiàn)個性化服務和資源共享。
4 結(jié)束語
數(shù)據(jù)信息的爆炸式增長催生出“大數(shù)據(jù)”概念,大數(shù)據(jù)已經(jīng)漸漸滲透到圖書情報工作中,其挑戰(zhàn)與機遇是并存的。未來,在大數(shù)據(jù)時代,互聯(lián)網(wǎng)將從“網(wǎng)頁相聯(lián)”走向“數(shù)據(jù)相聯(lián)”和“知識相聯(lián)”。大數(shù)據(jù)技術(shù)的應用將是未來圖書館服務創(chuàng)新的重要領(lǐng)域。在大數(shù)據(jù)的影響下,圖書館出現(xiàn)了嶄新的數(shù)據(jù)管理和處理模式。
參考文獻
[1]李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊,2012,8(9).
[2]李奕.計算機革命與數(shù)據(jù)價值——2012第二屆中國計算機技術(shù)大會專題報道[N].中國計算機報,2012-10-15.
[3]于良芝.圖書館學導論[M].北京:科學出版社,2006.
[4]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
〔編輯:白潔〕