王 浩
(黑龍江八一農(nóng)墾大學圖書館 黑龍江 大慶 163319)
大數(shù)據(jù)時代,數(shù)字圖書館發(fā)展與大數(shù)據(jù)密切相關。因為,一方面數(shù)字圖書館的建設為大數(shù)據(jù)技術的發(fā)展提供了一個很好的探索和實踐平臺,另一方面,大數(shù)據(jù)技術的不斷推進勢必對數(shù)字圖書館的建設過程、發(fā)展形態(tài)等造成深遠影響。本文在分析大數(shù)據(jù)內(nèi)涵與圖書館大數(shù)據(jù)的基礎上,闡述了大數(shù)據(jù)背景下數(shù)字圖書館建設所面臨的挑戰(zhàn),并提出了數(shù)字圖書館的建設新思路。
“大數(shù)據(jù)”通常被認為是一個用來描述海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的短語,關于大數(shù)據(jù)的定義目前還沒有明確的界定,但大數(shù)據(jù)的四個重要特征得到公認。第一個特征是數(shù)據(jù)量大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。第二個特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡日志、音頻、視頻、圖片等,數(shù)據(jù)多樣性對數(shù)據(jù)的處理能力提出了更高要求。第三個特征是數(shù)據(jù)價值密度相對較低。如何迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。第四個特征是信息處理速度要快,時效性要求高。這是大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。應該說,大數(shù)據(jù)時代的到來對人類數(shù)據(jù)的駕馭能力提出了新的挑戰(zhàn)。
圖書館在長期的工作中積累了大量數(shù)據(jù),雖然在規(guī)模和數(shù)據(jù)處理速度上尚未達到大數(shù)據(jù)的標準,但它們具有大數(shù)據(jù)的特征,筆者認為它們就是“圖書館的大數(shù)據(jù)”。我們要從大數(shù)據(jù)的角度去思考和分析,開展新的服務。
1.2.1 館藏數(shù)據(jù)
圖書館的紙質(zhì)資源、電子資源、音頻、視頻等各種館藏資源,其實質(zhì)都是知識數(shù)據(jù)的集合。圖書館的信息服務要從簡單的文獻服務,升級為復雜的知識服務的關鍵環(huán)節(jié)是從館藏數(shù)據(jù)集中尋找關聯(lián),加強知識挖掘與整合的力度,揭示規(guī)律或發(fā)現(xiàn)新知識。
1.2.2 書目數(shù)據(jù)
書目數(shù)據(jù)是圖書館界科學的、規(guī)范的結(jié)構(gòu)化數(shù)據(jù)。隨著越來越多的圖書館開放書目數(shù)據(jù)和發(fā)布關聯(lián)數(shù)據(jù),使得書目數(shù)據(jù)不僅可以用于檢索,還可以發(fā)揮出更多的價值,如用于出版行業(yè)的動態(tài)研究、書目數(shù)據(jù)的關聯(lián)化研究等。
1.2.3 讀者數(shù)據(jù)
讀者數(shù)據(jù)是讀者在使用圖書館過程中所產(chǎn)生的自然數(shù)據(jù),包括讀者信息、訪問數(shù)據(jù)、咨詢信息等,它能客觀地反映出讀者需求的變化趨勢,關注和分析這些數(shù)據(jù),可以了解和揣摩讀者的心理和興趣愛好,圖書館應該根據(jù)讀者的需求變化及時調(diào)整服務策略。
1.2.4 工作數(shù)據(jù)
圖書館工作的自動化,產(chǎn)生了大量的相關業(yè)務數(shù)據(jù),具體說來主要有:(1)采訪數(shù)據(jù),包括書商提供的書目數(shù)據(jù)、訂購數(shù)據(jù)、到館周期、到館率、入藏登記等;(2)編目數(shù)據(jù),包括已完成的書目數(shù)據(jù)、編目員個人信息、編目數(shù)據(jù)源、審核記錄等;(3)流通數(shù)據(jù),包括讀者到館率、文獻借閱率、流通率、借閱記錄等;(4)咨詢數(shù)據(jù),包括通過網(wǎng)絡軟件、通訊技術等途徑,在咨詢過程中產(chǎn)生的大量咨詢記錄。
2.1.1 分析讀者與資源以完善服務
大數(shù)據(jù)技術不僅可以幫助圖書館了解讀者行為、意愿和閱讀習慣,對其知識信息的需求進行預測,開展交互式知識服務。還可以通過對網(wǎng)絡資源、信息資源及軟硬件的運行狀況進行分析,來預測可能出現(xiàn)的問題,便于圖書館對資源運行情況的突然波動做出相應的應對策略,及時采取應對的措施。
2.1.2 建立智能化網(wǎng)絡信息資源組合方式
大數(shù)據(jù)將成為圖書館的核心資產(chǎn),從用戶體驗出發(fā),利用大數(shù)據(jù)技術,靈活、方便地從已有的數(shù)據(jù)資源中抓取有用的知識、模式和關系等,以打造個性化的網(wǎng)絡化信息資源的智能組合,獲得更加準確的讀者及服務人員的服務洞察,設計網(wǎng)絡化信息資源的智能組合,提供新型的知識服務方式。
2.1.3 建立模型輔助決策
可以利用大數(shù)據(jù)分析、預測及智能輔助決策技術建立具有特色的、實用的、科學的業(yè)務評估模型輔助機構(gòu)或者讀者進行決策判斷。例如圖書出版與收益模型、信息資源的采購與利用模型等。
2.2.1 基礎設施的挑戰(zhàn)
數(shù)據(jù)量的快速增長及非結(jié)構(gòu)化數(shù)據(jù)的增加,對支持非結(jié)構(gòu)化數(shù)據(jù)存儲與分析的基礎設施提出了更高的要求。首先,傳統(tǒng)網(wǎng)絡的架構(gòu)設計主要是垂直結(jié)構(gòu),大數(shù)所時代,強調(diào)的是水平結(jié)構(gòu)的橫向服務,要設計分層合理、分級存儲架構(gòu)。其次,要升級軟硬件設施,利用高性能計算機,新的數(shù)據(jù)表示方法、數(shù)據(jù)分析技術,建立具有經(jīng)濟高效的存儲與計算分析計算能力平臺,來保存PB級別的數(shù)據(jù)。最后,需要擁有保護分布式基礎設施和數(shù)據(jù)的安全可信的軟硬件應用系統(tǒng)平臺。
2.2.2 大數(shù)據(jù)深入分析的挑戰(zhàn)
大數(shù)據(jù)時代,信息海量增加,數(shù)字圖書館要為讀者提供高效信息就要進行數(shù)據(jù)分析。大數(shù)據(jù)分析是圖書館創(chuàng)新知識服務體系與完善讀者服務工作的基礎,對數(shù)據(jù)的分析,包括常規(guī)分析、時間順序分析、關聯(lián)數(shù)據(jù)分析、社會網(wǎng)絡分析、移動平均線等廣度及深度分析。通過對圖書館數(shù)據(jù)的分析,可以了解圖書館業(yè)務工作的開展情況,客觀反饋讀者對圖書館的需求與服務評價,快速地做出決策,了解最新知識服務趨勢,快速調(diào)整信息服務方向,利用大數(shù)據(jù)技術提升知識服務能力,降低知識服務成本。
3.1.1 數(shù)據(jù)存儲
支撐大數(shù)據(jù)的核心硬件是存儲系統(tǒng),當前網(wǎng)絡化存儲根據(jù)傳輸協(xié)議,分為網(wǎng)絡接入存儲(NAS)和存儲區(qū)域網(wǎng)絡(SAN)。大數(shù)據(jù)時代,隨著海量的非結(jié)構(gòu)化數(shù)據(jù)的不斷產(chǎn)生,“NAS+SAN”(也就是統(tǒng)一存儲),將是數(shù)字圖書館建設過程中主要的存儲解決方案。統(tǒng)一存儲的磁盤陣列配置多端口的存儲控制器和一個管理接口,允許存儲管理員按需創(chuàng)建存儲池或空間,并將其提供給不同訪問類型的主機系統(tǒng),可適應業(yè)務和應用變化的動態(tài)需求。
3.1.2 基于云計算的數(shù)據(jù)挖掘平臺
云計算的出現(xiàn)給數(shù)據(jù)挖掘帶來了新的機遇,通常認為云計算包括3個層次的服務,基礎設施即服務(IaaS)、平 臺 即 服 務 (PaaS)、軟 件 即 服 務(SaaS)[1]。基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)(如圖1所示),采用分層的思想,自下而上依次為:云計算支撐平臺層、數(shù)據(jù)挖掘能力層、數(shù)據(jù)挖掘云服務層。

圖1 基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)
云計算支撐平臺層主要是提供分布式文件存儲、數(shù)據(jù)庫存儲以及計算能力;數(shù)據(jù)挖掘能力層主要是提供挖掘的基礎能力,包含算法服務管理、調(diào)度引擎、數(shù)據(jù)并行處理框架,提供對數(shù)據(jù)挖掘云服務層的能力支撐;數(shù)據(jù)挖掘云服務層主要是對外提供數(shù)據(jù)挖掘云服務。
虛擬化技術是數(shù)據(jù)挖掘云服務技術的支撐,數(shù)字圖書館建設數(shù)據(jù)挖掘云服務平臺,要依賴于虛擬化技術,需要計算資源,需要自主分配和調(diào)度。在滿足讀者需求方面,要爭取大眾參與,有了大眾的參與,個性化和多樣化的需求就能夠得到更好的滿足。為增加服務的可信性,算法要通用、可查、可調(diào)、可視,并且要注重對隱私數(shù)據(jù)進行加密保護。
3.1.3 數(shù)據(jù)分析
大數(shù)據(jù)分析是指在研究大量的數(shù)據(jù)過程中,尋找模式、相關性和其他有用的信息,可以幫助圖書館更好地適應變化,并做出更明智的決策。在大數(shù)據(jù)處理分析過程中可用的工具有很多,如Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。具有高可靠性、高擴展性、高效性、高容錯性、成本低等優(yōu)點;Storm是自由的開源軟件,易于設置和操作,能可靠地處理龐大的數(shù)據(jù)流,并且可以應用到實時分析、在線機器學習、不停頓的計算、數(shù)據(jù)抽取、轉(zhuǎn)換和加載等許多領域。其他分析工具還有 Apache Drill、HPCC、RapidMiner等[2],各館可以根據(jù)實際需要進行選擇使用。
3.2.1 資源體系建設
大數(shù)據(jù)時代,文獻信息獲取方式與文獻資源發(fā)行方式都發(fā)生了巨大的改變。讀者對資源獲取的便捷性、可視化要求逐漸提高,而信息資源生產(chǎn)、組織與服務正在向著載體多樣化、開放獲取、泛出版方向轉(zhuǎn)變[3]。這就要求,圖書館必須重新定義資源建設,在整個數(shù)字空間發(fā)現(xiàn)、評估、登記、采集、描述和組織各類信息資源,植根于讀者環(huán)境,構(gòu)建開放化(多樣的信息對象與信息種類)、數(shù)據(jù)化(可計算的信息資源)、語義化(支持用戶驅(qū)動的信息資源環(huán)境)的信息資源體系。在信息資源體系建設的過程中要堅持三個原則:一是優(yōu)化夯實數(shù)字文獻資源保障體系,二是積極推進長期保存與本地倉儲,三是持續(xù)推進開放信息資源共建共享建設。
3.2.2 資源建設要注意的幾個問題
第一,原生特色資源開發(fā)問題。大數(shù)據(jù)環(huán)境下,圖書館沒有必要也不可能將全部館藏數(shù)字化,但應該對具有特色,形成了一定規(guī)模的、結(jié)構(gòu)比較完整的原生信息,進行開發(fā)整理。例如美國加州圣何塞大學的貝多芬圖書館,現(xiàn)在已經(jīng)發(fā)展成為歐洲之外最大的貝多芬文獻資源收藏地,出版有《貝多芬期刊》,提供在線目錄——貝多芬門戶,不僅為參觀者和研究者提供服務,還為喜歡貝多芬卻不能實地到訪的人提供服務[4]。第二,知識產(chǎn)權(quán)問題。要遵守知識產(chǎn)權(quán)法律法規(guī),慎重對待版權(quán)、著作權(quán)和網(wǎng)絡傳播權(quán)。第三,標準化問題。要推動數(shù)字資源建設的國際化進程,優(yōu)先采用國際已有的成熟標準,實現(xiàn)信息資源的無縫鏈接。第四,信息安全問題。在數(shù)據(jù)共享、數(shù)據(jù)公開的大趨勢下,需要從技術、管理和法律等多方面建立完整的安全體系。
3.3.1 個性化知識服務
數(shù)字圖書館應該在基于云計算等技術模式的支持下,進行數(shù)字資源的深層次開發(fā),使系統(tǒng)具備更強大的互操作性,并能夠在此基礎上進行系統(tǒng)定制。如可以從讀者滿意度調(diào)查、讀者興趣、資源利用、分布及發(fā)展趨勢等方面的海量數(shù)據(jù)中,篩選出有用信息,并通過可視化技術展示出來,進行多種角度解析,以便跟蹤并推送讀者所關注的信息,滿足讀者的個性化需求,拓展新型知識服務功能。
3.3.2 協(xié)作共享服務
數(shù)字圖書館應積極調(diào)動相關行業(yè)的優(yōu)勢力量,提升服務能力和運作效率,不斷充實自身的業(yè)務流程,實現(xiàn)不同用戶群體之間的信息共享與利用。如2009年,歐洲一些領先研究型圖書館和科技信息研究機構(gòu)建立了伙伴關系,致力于改善互聯(lián)網(wǎng)上獲取科學數(shù)據(jù)的簡易性,2012年5月,美國行政管理和預算局則發(fā)布了《數(shù)字政府:建立一個面向21世紀的平臺來更好地服務美國人民》的行政指令。
3.3.3 智能化服務
智能信息服務已成功應用在知識管理、智能軟件幫助、用戶服務、網(wǎng)上營銷等多個領域。現(xiàn)階段,智能短信服務、智能聊天機器人和智能搜索引擎等,已經(jīng)成為新的應用亮點,智能信息服務正在不斷走向?qū)嵱没痛蟊娀G迦A大學圖書館在這方面進行了有益地嘗試和探索,其應用的具有自動學習功能的機器人“小圖”就是在線咨詢服務的一種全新體驗。
[1]Peter M,Timothy G.The NIST Definition of Cloud Computing[S].Recommendation of the National Institute of Standards and Technology,2011.
[2]吳昱.大數(shù)據(jù)精準挖掘[M].北京:化學工業(yè)出版社,2014:3
[3]Youngsuk Chi(Y.S.Chi).數(shù)字時代的學術出版:最新進展、當前趨勢與未來展望[EB/OL].[2014-10-08].http://ir.las.ac.cn/handle/12502/6452.
[4]Fang.馬丁路德金圖書館內(nèi)有貝多芬博物館[EB/OL].[2014-11-02].http://blog.sina.com.cn/s/blog_4e276 d2c0102e453.html.