魯月 張秀蘭
摘要:文章簡要介紹了大數(shù)據(jù)技術(shù),分析了圖書館應用大數(shù)據(jù)技術(shù)的必要性,從讀者服務、自身業(yè)務工作兩個方面對目前我國圖書館應用大數(shù)據(jù)技術(shù)的實踐進行了總結(jié),最后,指出了我國圖書館在大數(shù)據(jù)技術(shù)應用方面存在的問題,并提出對策。
關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)技術(shù);圖書館
隨著云時代的到來,由維克托·邁爾-舍恩伯格及肯尼斯·庫克耶提出的大數(shù)據(jù)(big data)越來越多的得到社會各界學者的關(guān)注。大數(shù)據(jù)或稱海量數(shù)據(jù),是用來描述海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的專業(yè)術(shù)語,包括業(yè)務流程數(shù)據(jù)、企業(yè)大數(shù)據(jù)、社會大數(shù)據(jù)、個人大數(shù)據(jù)和科學大數(shù)據(jù)等。利用大數(shù)據(jù)技術(shù)分析挖掘圖書館中的數(shù)據(jù)信息,改善圖書館日常業(yè)務工作,提升圖書館的服務水平已成為大數(shù)據(jù)時代圖書館提高服務質(zhì)量的發(fā)展方向。
一、大數(shù)據(jù)及大數(shù)據(jù)技術(shù)概述
(一)大數(shù)據(jù)的涵義及特征
大數(shù)據(jù)一般指數(shù)據(jù)量在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù),與海量數(shù)據(jù)不同,大數(shù)據(jù)不僅代表著巨大的數(shù)據(jù)量,在數(shù)據(jù)流、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的處理速度及效率上也是驚人的。大數(shù)據(jù)的本身沒有意義,它的價值主要是通過數(shù)據(jù)挖掘及分析來體現(xiàn)。
大數(shù)據(jù)與過去的海量數(shù)據(jù)有所區(qū)別,具有數(shù)據(jù)量巨大、數(shù)據(jù)類型眾多、價值密度低和處理速度快四大基本特征。
(二)大數(shù)據(jù)技術(shù)
隨著大數(shù)據(jù)時代的到來,人們需要采用新一代的信息技術(shù)來對大數(shù)據(jù)進行分析處理,大數(shù)據(jù)技術(shù)主要分為五大類。
1. 基礎架構(gòu)技術(shù)
基礎架構(gòu)技術(shù)主要包括支撐大數(shù)據(jù)處理的數(shù)據(jù)中心管理技術(shù)、云計算平臺、云存儲設備及技術(shù)等。大數(shù)據(jù)處理需要云數(shù)據(jù)中心和具備高效調(diào)度管理功能的云計算平臺的支撐。
2. 數(shù)據(jù)采集技術(shù)
數(shù)據(jù)采集技術(shù)是進行數(shù)據(jù)處理的必備技術(shù),對海量的數(shù)據(jù)加以利用的前提是通過采集技術(shù)把數(shù)據(jù)采集上來,采集的過程既包括采集、轉(zhuǎn)換、加載等,也包括對數(shù)據(jù)的清洗、過濾、校驗等各種預處理過程,這一系列的過程都需要采集技術(shù)加以支撐。
3. 數(shù)據(jù)存儲技術(shù)
數(shù)據(jù)經(jīng)過采集和轉(zhuǎn)換之后,還需要進行存儲歸檔。數(shù)據(jù)存儲技術(shù)主要是將這些數(shù)據(jù)分布到多個存儲節(jié)點上,數(shù)據(jù)存儲技術(shù)還提供備份、訪問接口等服務。
4. 數(shù)據(jù)計算技術(shù)
數(shù)據(jù)計算主要包括數(shù)據(jù)查詢、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析、數(shù)據(jù)預測、數(shù)據(jù)挖掘等各項相關(guān)的技術(shù),這些同時也是大數(shù)據(jù)技術(shù)的核心。
5. 數(shù)據(jù)展現(xiàn)與交互技術(shù)
數(shù)據(jù)最終的結(jié)果是為人們生產(chǎn)、決策提供支持,因此需要恰當直觀的將數(shù)據(jù)展示出來。數(shù)據(jù)展現(xiàn)除傳統(tǒng)報表、圖形等,還可以結(jié)合現(xiàn)代的可視化工具及人機交互手段,如手機APP等增強現(xiàn)實的手段,來實現(xiàn)數(shù)據(jù)與現(xiàn)實的無縫接口。
二、圖書館應用大數(shù)據(jù)技術(shù)的必要性
隨著信息技術(shù)及數(shù)字技術(shù)在圖書館中的應用,圖書館資源數(shù)量越來越多,資源類型越來越復雜,資源內(nèi)容越來越豐富,圖書館需要充分有效地利用這些數(shù)據(jù)資源,拓展圖書館的服務內(nèi)容。
(一)圖書館工作符合大數(shù)據(jù)特征之處
1. 海量化的信息
據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心的監(jiān)測,全球在2010年正式進入ZB時代。與此同時,圖書館的資源收藏量也呈現(xiàn)出急速增長的趨勢,從TB級別躍升到PB級別。北京世紀超星技術(shù)發(fā)展有限責任公司建設的超星數(shù)字圖書館,擁有數(shù)百萬冊電子圖書,內(nèi)容總量超13億頁,數(shù)據(jù)總量約達976.56TB,其圖書資源量十分龐大;再如,國家圖書館資源類型十分豐富,不僅包括微縮制品、音像制品,還建成了中國最大的數(shù)字文獻資源庫基地,數(shù)字資源的數(shù)據(jù)總量超過1000TB,并以每年100TB速度增長;武漢圖書館截至2014年年底,館藏文獻總量達398萬冊,數(shù)字資源容量達到150TB。因此,目前我國許多圖書館從數(shù)據(jù)量上看已經(jīng)具備了海量化的數(shù)據(jù)。
2. 多樣化的數(shù)據(jù)
隨著信息技術(shù)的迅速發(fā)展,由圖像、聲音、超媒體等信息組成的非結(jié)構(gòu)化數(shù)據(jù)也隨之產(chǎn)生并逐漸增多。圖書館經(jīng)過多年的數(shù)字化建設,數(shù)據(jù)類型變得更加多樣化,除了紙質(zhì)文獻外,還擁有大量的數(shù)字資源,以及各種光盤、音頻、視頻資源等。北京大學圖書館大量引進和自建國內(nèi)外數(shù)字資源,其數(shù)字資源類型多樣,包括各類數(shù)據(jù)庫、電子期刊、電子圖書和多媒體資源等,從結(jié)構(gòu)上看主要包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)字資源。武漢圖書館已建成集印刷文獻、電子文獻、微縮文獻、視聽文獻、網(wǎng)絡文獻為一體,學科門類齊全、虛擬與實體館藏相結(jié)合的多類型文獻資源格局。綜合國內(nèi)圖書館具有的資源類型可以看出,圖書館已經(jīng)具備了多樣化的大數(shù)據(jù)特征。
(二)圖書館應用大數(shù)據(jù)技術(shù)的意義
1. 全方位數(shù)據(jù)推送服務
圖書館通過數(shù)據(jù)采集技術(shù)采集讀者信息,利用大數(shù)據(jù)分析技術(shù)對讀者的年齡、職業(yè)、喜好等采集到的數(shù)據(jù)進行分析,以不同層次讀者的需求為出發(fā)點,根據(jù)不同類型人群的喜愛提供有針對性地全方位地實時信息推送服務,這種推送服務不僅可以提供讀者所需資料,還可以將信息資料細化到某一摘要、關(guān)鍵詞,為讀者帶來全新的智慧體驗,很好地提高了圖書館的社會效益。
2. 建立新型圖書館資源框架
身處大數(shù)據(jù)時代中,面對網(wǎng)絡上種類繁多的信息和用戶對圖書館的多重需求,圖書館可以利用大數(shù)據(jù)技術(shù)構(gòu)建起新型數(shù)字圖書館資源框架。新型框架要具備以數(shù)據(jù)為中心的理念,除了包括傳統(tǒng)的文獻資源外,還應把數(shù)字資源、網(wǎng)絡資源嵌入其資源體系內(nèi),既包括文本信息,也包括圖像視頻信息,實現(xiàn)網(wǎng)絡的信息進行自動獲取。在新型的資源框架下,通過建立具有語義關(guān)系的大數(shù)據(jù)組織、檢索技術(shù),圖書館的信息采集和服務將全面提升。
3. 提高日常業(yè)務工作效率
在圖書館資源采購工作中,利用大數(shù)據(jù)技術(shù)對讀者的需求和喜好等信息進行分析和挖掘,可以在圖書館采購環(huán)節(jié)中合理分配經(jīng)費,將有限的經(jīng)費用于采購讀者所急需和喜聞樂見的信息資源,避免經(jīng)費的浪費。此外,在圖書館參考咨詢服務中,應用大數(shù)據(jù)采集和挖掘技術(shù),圖書館利用語義檢索功能和文本知識挖掘功能,使讀者更快更準確地檢索到所需要的信息資源,提高讀者滿意度。
三、大數(shù)據(jù)技術(shù)在圖書館工作中應用的實踐
大數(shù)據(jù)的研究及應用激勵著圖書館大數(shù)據(jù)體系和信息智能服務的構(gòu)建,目前國內(nèi)許多圖書館已經(jīng)開始將大數(shù)據(jù)技術(shù)應用于工作實踐之中。
(一)在讀者服務中的應用
1. 華中科技大學圖書館
華中科技大學圖書館綜合讀者借閱數(shù)據(jù)、書目瀏覽數(shù)據(jù)、電子閱覽室瀏覽數(shù)據(jù)等部署了大數(shù)據(jù)存儲與分析系統(tǒng),旨在對數(shù)據(jù)進行統(tǒng)一存儲和綜合挖掘,目前該系統(tǒng)已存儲各類數(shù)據(jù)記錄兩億余條。華中科技大學圖書館使用數(shù)據(jù)挖掘算法對存儲在系統(tǒng)中的數(shù)億條數(shù)據(jù)進行挖掘計算,以此進行讀者分類,針對不同層次讀者的特點,采取相應的服務措施;同時該館利用圖書自有的元數(shù)據(jù)及借閱數(shù)據(jù)等,進行圖書關(guān)聯(lián)度的挖掘,為讀者提供相似、相關(guān)圖書的推薦;根據(jù)讀者的屬性使用協(xié)同過濾方法在讀者群中找到興趣相似的讀者,綜合這些讀者對某些文獻的評價,對他們的喜好進行分析,進行實時圖書推薦,為讀者提供更方便的服務。
2. 上海圖書館
2015年,上海圖書館基于對信息系統(tǒng)內(nèi)海量數(shù)據(jù)的分析和挖掘,利用大數(shù)據(jù)的采集技術(shù)和可視化技術(shù),推出了“上海市中心圖書館即時數(shù)據(jù)展示屏”,對市中心圖書館實時流通情況、今日到館讀者數(shù)、今日借還情況等數(shù)據(jù)進行展示,使讀者可以隨時了解圖書館的最新動態(tài)。上海圖書館還采用數(shù)據(jù)展現(xiàn)與交互技術(shù),結(jié)合現(xiàn)代可視化工具,推出了的最新版本手機APP,將位置定位等常用的移動技術(shù)與圖書館服務相結(jié)合,通過這些技術(shù)讀者可以隨時隨地查看上海圖書館的熱門圖書推薦、館藏狀態(tài)等信息,為讀者帶來全新的智慧圖書館體驗。
3. 武漢圖書館
2014年,武漢圖書館在讀者行為模式研究中應用大數(shù)據(jù)分析技術(shù),開發(fā)讀者管理平臺,開展讀者行為“大數(shù)據(jù)”分析工作,通過分析讀者構(gòu)成、閱讀習慣、潛在需求等信息,為每位讀者提供個性化薦書服務,“假設一位讀者近一段時間經(jīng)常借閱經(jīng)濟類圖書,當他登陸數(shù)字化借閱端口,就會顯示相關(guān)經(jīng)濟類圖書供這位讀者參考,系統(tǒng)對每個人的推薦目錄都是獨一無二的”。武漢圖書館館長李靜霞說,此項服務可以積極引導市民培養(yǎng)閱讀習慣,推薦好書。
4. 清華大學的知識關(guān)聯(lián)網(wǎng)絡
目前清華大學圖書館的館藏中紙質(zhì)書達三百多萬種、電子書六百多萬種、近七萬種電子期刊,清華大學圖書館以這些海量數(shù)據(jù)為基礎,通過大數(shù)據(jù)分析及挖掘技術(shù),自動甄別出清華大學的目標學者(ThuRID),獲取學者的學術(shù)出版物及其信息,應用開放鏈接技術(shù)準確定位清華學者學術(shù)出版物的全文,并采用可視化視圖的方式直觀展示學者的學術(shù)歷程,建立學者為中心的科研網(wǎng)絡和知識關(guān)聯(lián)網(wǎng)絡。目前,清華大學圖書館已經(jīng)成功甄別出五十位目標學者,建立了以他們?yōu)橹行牡闹R關(guān)聯(lián)網(wǎng)絡,便于用戶查找某一學者的全部學術(shù)信息。
(二)在自身業(yè)務工作中的應用
1. 資源的合理配置
資源的采購和合理配置是圖書館日常業(yè)務中非常重要的環(huán)節(jié)。大數(shù)據(jù)技術(shù)對數(shù)據(jù)深層次地挖掘和分析,可以為圖書館的資源采購及配置環(huán)節(jié)提供幫助。上海圖書館館長劉煒說:“大數(shù)據(jù)的應用是上圖在保障用戶隱私的基礎上,使數(shù)據(jù)服務于讀者。通過數(shù)據(jù)分析,一系列閱讀指標一目了然,上圖可以基于流通量指標等數(shù)據(jù)更有針對性地合理配置采購、盤活館藏資源”。
2. 資源未來需求方向的預測
2013年12月,武漢圖書館首次使用大數(shù)據(jù)分析技術(shù)分析全年圖書借閱排行榜,結(jié)果發(fā)現(xiàn)經(jīng)典名著入榜,社科人文類暢銷書借閱率提高,網(wǎng)絡文學和通俗文學類圖書借閱率下滑,此分析對武漢圖書館的文獻購買提供了支持,武漢圖書館可以根據(jù)分析結(jié)果預測未來資源的需求量、需求方向,科學的制定采購政策。
深圳圖書館于2012年開始大數(shù)據(jù)的研究與應用,在構(gòu)建全市統(tǒng)一技術(shù)平臺和引進新技術(shù)的過程中,通過網(wǎng)絡系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和軟件系統(tǒng)的協(xié)同工作,采取大數(shù)據(jù)挖掘、聚類分析等技術(shù),對圖書館多個領(lǐng)域的數(shù)據(jù)進行分析挖掘。助力圖書館從大數(shù)據(jù)應用的視角,對不斷增長的數(shù)據(jù)進行統(tǒng)計分析和趨勢預測,預測未來圖書館服務發(fā)展方向,館藏資源的購買方向,推進圖書館向智能化、智慧型方向發(fā)展。
四、我國圖書館大數(shù)據(jù)技術(shù)應用的問題與建議
(一)問題
雖然大數(shù)據(jù)技術(shù)已開始在圖書館的讀者服務和業(yè)務工作中應用,但目前圖書館的應用還不普遍,在應用過程中也暴露出許多問題,值得我們總結(jié)和思考。
1. 眾多圖書館大數(shù)據(jù)技術(shù)應用的意識淡薄
雖然大數(shù)據(jù)技術(shù)在眾多領(lǐng)域得到廣泛的應用,但圖書館領(lǐng)域的應用并不充分,究其原因應用意識淡薄是首要的。目前,許多圖書館還沒有清醒地意識到大數(shù)據(jù)環(huán)境的到來,沒有認識到大數(shù)據(jù)在圖書館各項工作中的作用和價值,更沒有意識到大數(shù)據(jù)技術(shù)會給圖書館工作帶來的根本性的變革和創(chuàng)新,認為自己離大數(shù)據(jù)還很遙遠。因此,如何提高大數(shù)據(jù)環(huán)境下圖書館人對大數(shù)據(jù)技術(shù)的認知度是我們急需面對的問題。
2. 基礎設施不夠完善
身處于信息的海洋中,快速增長的數(shù)據(jù)逐漸超出了圖書館現(xiàn)有基礎設施的承受范圍,傳統(tǒng)圖書館的數(shù)據(jù)處理設備及方式常常顯得力不從心,許多圖書館能支持非結(jié)構(gòu)化數(shù)據(jù)存儲及分析的軟硬件設施還沒有建設起來,大量的有價值數(shù)據(jù)得不到很好地利用,其價值往往被埋沒,完善基礎設施建設是當下圖書館需要解決的另一大問題。
3. 圖書館員專業(yè)技術(shù)欠缺
當今社會,圖書館員應既是一名文獻工作者也是一名數(shù)據(jù)工作者。美國麻省理工學院的一個研究表明,圖書館員在數(shù)據(jù)監(jiān)護工作當中需要承擔的職責包括:數(shù)據(jù)集合的存儲、數(shù)據(jù)管理規(guī)劃、最佳實踐經(jīng)驗的傳播、收集與傳播數(shù)據(jù)集合以及數(shù)據(jù)保存標準的制定等。由此可見圖書館員應掌握大數(shù)據(jù)的各項技術(shù),才能完成圖書館資源地有效整合,從而更好的為讀者服務。顯然,我國目前多數(shù)圖書館還沒有滿足新技術(shù)環(huán)境對圖書館工作的新要求。
4. 數(shù)據(jù)安全面臨風險
數(shù)據(jù)安全和隱私保護是大數(shù)據(jù)發(fā)展的一大難題,也是圖書館大數(shù)據(jù)工作面臨的重要問題。首先,圖書館海量數(shù)據(jù)的存儲增加了數(shù)據(jù)安防的難度,數(shù)據(jù)損壞或丟失的系數(shù)增加;其次,大數(shù)據(jù)時代,網(wǎng)絡攻擊也威脅著數(shù)據(jù)安全,讀者行為等數(shù)據(jù)的泄露帶來的損失遠遠超出行業(yè)所能承擔的范圍,因此,圖書館大數(shù)據(jù)工作中數(shù)據(jù)的保存和維護變得十分重要,這些安全風險無法規(guī)避,會給讀者帶來重大損失。如何更好地保障數(shù)據(jù)安全也是圖書館大數(shù)據(jù)工作必須要解決的問題。
(二)建議
面對大數(shù)據(jù)帶來的機遇和挑戰(zhàn),圖書館應該積極把握機遇,迎接挑戰(zhàn),科學、合理地構(gòu)建圖書館大數(shù)據(jù)體系。
1. 提高認識,把握機遇
圖書館作為文獻信息的中心,擁有大量的資源數(shù)據(jù),這些數(shù)據(jù)不僅數(shù)據(jù)量巨大,而且類型復雜,所蘊含的價值極其豐富,圖書館應充分認識這些數(shù)據(jù)地分析利用會給自身帶來的發(fā)展契機,把握住大數(shù)據(jù)時代給圖書館的變革和創(chuàng)新帶來的機遇。
2. 完善設施,營造環(huán)境
大數(shù)據(jù)技術(shù)的應用需要相關(guān)設備的支撐,圖書館需要加強軟硬件設施的建設,積極引進能支持大數(shù)據(jù)處理的先進技術(shù)設備。在軟件方面要積極構(gòu)建大數(shù)據(jù)計算與處理平臺,展示與分析平臺,優(yōu)化升級圖書館數(shù)據(jù)存儲系統(tǒng)。此外,還要真正確立以用戶為中心的服務理念,制定數(shù)據(jù)管理計劃及政策,努力營造優(yōu)質(zhì)的大數(shù)據(jù)服務環(huán)境。
3. 培養(yǎng)人才,提升水平
圖書館要想充分發(fā)掘和利用大數(shù)據(jù)技術(shù),人才培養(yǎng)是關(guān)鍵,如前所述,目前我國圖書館館員在新的信息技術(shù)的掌握和使用方面還是一個薄弱環(huán)節(jié),因此,圖書館可以采取引進人才,已有館員的外出學習、培訓,參加館內(nèi)的相關(guān)實踐等多種手段,培養(yǎng)館員數(shù)據(jù)處理方面的技術(shù),為圖書館大數(shù)據(jù)體系建設提供人才保障。
4. 加強安全管理,確保數(shù)據(jù)安全
大數(shù)據(jù)在采集、組織、存儲、維護、協(xié)調(diào)等方面都有著不同于傳統(tǒng)信息處理方法的顯著特征,圖書館在從事大數(shù)據(jù)的業(yè)務時,首先要從思想上認識安全管理的重要性,在相關(guān)的政策性文件的框架下,制定相應的規(guī)章制度,加大數(shù)據(jù)安全管理的力度;其次,要健全技術(shù)防范和保障體系,充分研究利用包括入侵檢測技術(shù)、防火墻技術(shù)、防病毒技術(shù)、加密技術(shù)、認證技術(shù)等在內(nèi)的技術(shù)保護措施,建立健全各項技術(shù)防范和保障體系,確保系統(tǒng)的正常運行,保證數(shù)據(jù)安全,保護讀者隱私。
五、結(jié)語
目前圖書館在大數(shù)據(jù)技術(shù)的應用方面還面臨著許多挑戰(zhàn),但挑戰(zhàn)即機遇,圖書館要清醒的意識到大數(shù)據(jù)時代的到來,將大數(shù)據(jù)技術(shù)充分應用于各項業(yè)務工作中,使大數(shù)據(jù)技術(shù)能在圖書館未來的發(fā)展中發(fā)揮應有的作用。
參考文獻:
[1]李鵬云.大數(shù)據(jù)與圖書館服務[J].農(nóng)業(yè)圖書情報學刊,2013(09).
[2]A Mcafee,E Brynjolfsson. Big data: the management revolution[J].Harvard Business Review,2012(10).
[3]趙勇.架構(gòu)大數(shù)據(jù):大數(shù)據(jù)技術(shù)及算法解析[M].電子工業(yè)出版社,2015.
[4]關(guān)曉穎.淺談大數(shù)據(jù)技術(shù)在圖書館中的應用研究[J].金融理論與教學,2015(02).
[5]蘇新寧.大數(shù)據(jù)時代數(shù)字圖書館面臨的機遇和挑戰(zhàn)[J].中國圖書館學報,2015(06).
[6]江云,李鳳蘭.大數(shù)據(jù)在我國圖書館的應用及推進研究[J].圖書館工作與研究,2014(06).
[7]P.Bryan Heidorn.The Emerging Role of Libraries in Data Curation and Escience[J].Journal of Library Administration,2011(08).
*本文系國家社科基金項目“基于國際編目新規(guī)則的我國編目工作變革研究”成果之一,項目編號:14BTQ010。
(作者單位:遼寧師范大學管理學院)