關鍵詞:高校數字圖書館;大數據;互聯共享;策略
摘要:大數據技術推動了高校數字圖書館的建設進程,二者的內在屬性存在必然的關聯性。高校數字圖書館布局應從技術、資源、服務三個方面著力,以大數據技術高速處理數據的能力打造特色數據庫,為用戶提供智能化、定制化數據服務,進而探索更深層次的咨詢服務模式。
中圖分類號:G258.6文獻標識碼:A文章編號:1003-1588(2019)04-0042-03
互聯網的發展尤其是移動互聯網絡的發展,使信息數據以前所未有的速度遞增,衍生出新的數據類型,數據結構、數據存儲形式也發生了新的變化,大數據技術應運而生。高校圖書館是公共文化服務體系的組成部分,同時也是高校信息服務的主體,數字通信技術的發展改變了高校圖書館的服務模式,數字圖書館成為未來圖書館的發展趨勢。由于數字圖書館建設涉及標準、技術、管理、法律等多方面的問題,高校圖書館應在不斷學習中探索新的建設模式。大數據技術高速處理數據的能力為數字圖書館建設提供了技術保障,內在屬性的同質性是二者融合的基礎。大數據在支撐高校圖書館進行數字化轉型的同時,也為自身的技術升級找到了合適的試驗場所。
1大數據與數字圖書館內在屬性間的關聯性
1.1大數據的內在屬性
“大數據”一詞最早出現在麥肯錫公司2011年5月的一份調研報告中,隨后《華爾街日報》用一個專欄的版面對大數據進行了詳細介紹,2012年3月美國政府正式宣布將耗資2億美元進行大數據技術和應用研究工作,此舉標志著大數據具備了國家層面的官方身份。關于大數據的定義,目前學術界尚未形成統一認識,IBM公司對大數據的“3V”解讀得到了廣泛認同,即實時(Velocity)、量大(Volume)和多樣(Variety)。實時指數據的交互式訪問和數據分析結果實時完成,為用戶提供所需的二次數據,為未來研究和決策提供預測數據參考。量大指數據量級,由TB級向PB甚至EB級別發展。多樣指數據類型的多樣化,既包括非結構化、半結構化和完全結構化數據,又包括圖片、圖像、音頻、視頻等非結構化數據,這對數據處理能力和處理速率是一個嚴峻的考驗。大數據技術在從多樣的數據中實時提取有價值的二次數據信息的過程中,自身也在不斷迭代升級。
1.2數字圖書館的內在屬性
數字圖書館的概念早在20世紀90年代就被提出,指以計算機快速處理數據的能力、互聯網絡、多媒體技術為基礎,將圖書館的館藏信息資源轉化為二進制數字存儲形式,進而形成一個更易于管理和分享的大型數據庫。高校圖書館進行數字化改造,能給用戶帶來更好的閱讀體驗。電子期刊、電子圖書、館藏紙質文獻的數字化改造等數字信息資源建設,提升了高校圖書館的信息管理水平,加快了信息傳遞的速度。從數字圖書館建設的發展階段看,信息資源數字化、數據傳遞網絡化已完成,信息技術集成和共享技術能給用戶帶來更加方便、快捷的閱讀體驗。高校圖書館是大學信息化體系的主體,與公共圖書館一起構成現代圖書館系統,服務于教學和科研工作,是推動高等教育發展的學術性機構。信息技術引領了目前時代發展的潮流,高校圖書館要想實現可持續發展,就必須對數字圖書館進行升級改造。隨著信息數據量呈指數級增長及非結構化數據訪問量的增加,數字圖書館現有的數據存儲和訪問能力已難以應付,大數據技術為數字圖書館發展提供了新的出路。
1.3二者內在屬性的關聯性
1.3.1數字圖書館是大數據的應用場所之一。數字圖書館的收藏對象是電子信息資源,收藏空間是虛擬網絡空間,對館藏信息資源進行數字化整合,能為更多的用戶提供信息服務。數字圖書館是信息收集和訪問的集散地,大數據技術是對后臺資源進行整合和深入挖掘的技術助推力量,數字圖書館和大數據技術一為臺前、一為幕后,二者具有很強的關聯性。
1.3.2數字圖書館成為大數據技術升級迭代的試驗主體。數字圖書館是知識的集合體,隨著信息數據量的快速增長及用戶需求質量的提升,數字圖書館本身也具備了大數據屬性。大數據涉及的主要技術包括數據存儲、數據處理、數據分類及數據挖掘等,大數據技術與數字圖書館建設的結合使數字圖書館具備了處理復雜數據的能力,這也是未來數字圖書館的基礎功能。因此,大數據與數字圖書館的技術需求和發展趨勢是一致的。
1.3.3數字圖書館作為一個數據群,成為大數據群的一部分。對廣大用戶來說,大數據定向挖掘的二次數據信息是他們所需要的,數字圖書館存在的價值也正在于此。作為收集知識和信息的服務中心,數字圖書館能為用戶提供信息查詢服務。數字圖書館的持續深入建設需要大數據挖掘技術和應用技術的助力,只有大數據技術完備了,才能呈現一個高效的數字化平臺。數字圖書館為大數據技術提供了用武之地,也成為其升級的試驗場所和經驗反饋節點。
馬靜:高校數字圖書館建設在大數據時代的布局策略
2布局大數據時代數字圖書館建設思路
2.1技術要素發展路徑
2.1.1數據量不斷增長,由TB級向PB級發展。IDC發布的《數字宇宙》報告顯示,2011年全球拷貝和新增的數據總量達到1.8ZB,預計到2020年這個數值將增長到35ZB,數據增長量達到44倍之多。美國國會圖書館一直被視為美國乃至世界的知識寶庫之一,2011年其與微博客Twitter(推特)簽訂數據存儲協議,將公開的推特消息全部保存至其歷史檔案資料庫。截至2017年年底,已有1,800億條推特歷史信息被保存至美國國會圖書館,數據總量達到133TB。相關調查報告顯示,世界上最大的數據倉庫量級已接近100PB,復合年化增長率約為173%。數據量增長率遠大于數據存儲能力的增長量,大規模分布式數據庫存儲技術亟待開發。
2.1.2數據種類多樣,結構化與非結構化數據并存。結構化數據以二維表形式存儲,非結構化數據以圖片、音頻、視頻形式存儲。近年來,結構化數據的復合年化增長率為32%,非結構化數據的增長率高達63%,占2012年互聯網非結構化數據總量的75%。因此,如何管理這些非結構化數據成為一個技術難題。MapReduce計算框架具備快速處理大數據的能力,能實時、高效地處理復雜的結構化數據和非結構化數據,同時能適應云計算復雜的大數據分析環境。但是,MapReduce計算框架和Hadoop分布式文件系統在應用過程中也暴露出一些問題,如處理性能待提升、穩定性還達不到要求等,數字圖書館需要更高效、實用的大數據分析技術和管理手段。
2.1.3實時數據處理能力。數字圖書館區別于傳統圖書館的一個最顯著特點在于其數據服務的實時性,用戶的數據訪問和下載是交互、實時的。大數據技術能在短時間內完成數據處理,以300GB數據塊為例,常規處理時間需要一小時左右,而大數據技術可以在一秒內完成,高效的數據處理能力縮短了用戶的等待時間,提升了用戶的閱讀體驗。
2.1.4剔除冗余數據。數字圖書館利用數據倉儲與挖掘技術能尋找用戶的需求規律,挖掘一次數據的潛在價值,剔除無用信息,提升智能服務的水平,為用戶提供更具針對性、高質量的二次數據,滿足用戶的信息需求。
2.2信息資源建設步驟
數字圖書館建設應以資源建設為中心,以大數據分析和挖掘技術為依托,整合不同類型的資源,維護原生資源,突出特色資源,進而達到優化資源結構的目標。
2.2.1建立原生態信息資源數據庫。高校的原生態信息資源是在教學、科研、試驗過程中產生的,包括會議論文和教師發表的高水平論文、出版的專著及形成的研究報告,本科生、碩士研究生、博士研究生撰寫的學位論文及用于演講、匯報的調研報告、多媒體課件等。這些原生態信息是高校師生的智慧成果,是學術理論研究和教學成果的最集中體現,高校師生擁有絕對的知識產權,具有非常高的學術參考價值和實踐應用價值。數字圖書館建設以這些資源為主的原生態信息資源數據庫,是以較低的成本獲得了較高的文獻保障功用。
2.2.2打造特色數據庫。特色是事物保持活力的源泉,圖書館也是如此,失去特色也就意味著迷失了發展的方向。高校圖書館應立足于實際,結合學校的優勢學科,進行特色鮮明的數字圖書館建設,重點建設用戶急需和特色學科的數字信息資源,為高校師生的日常教學、科研提供服務,滿足師生的多元化信息需求。
2.2.3形成資源互通、共享機制。隨著信息資源數據量的增多及用戶信息需求的增長,任何一個圖書館都無法滿足用戶的多元化需求,圖書館間的相互協作、資源共享成為一種可行的解決方案。高校圖書館應打造統一、標準的數據交互平臺,形成資源互通、共享機制,共享軟硬件資源,通過統一的數據接口,打造區域數字圖書館,對區域內的館藏資源進行統一規劃和調度。
2.3數字圖書館的新型服務模式探索
2.3.1交互式的智能化服務。交互式智能化服務是以信息服務為特征,利用人工智能計算機模擬人的行為,為用戶提供智能化信息服務。以IBM公司2011年研發的人工智能機器人Watson為例,它具備較強的答題能力,其運算速率和準確性均超過人類參賽選手,并獲得當年的人機大戰冠軍。Watson裝備了大量高速處理器,它的閱讀量約為100萬冊書籍,并且仍在不斷學習,可以在三秒內完成數億頁資料檢索,尋找到準確答案。在不久的將來,數字圖書館可利用人工智能機器人為用戶提供實時、交互式的智能服務,幫助用戶從海量數據中檢索出所需信息。清華大學圖書館率先進行了探索,自主研發的“小圖”機器人可為用戶提供在線咨詢服務,同時還具備自主學習能力。
2.3.2差異區分的個性化服務。數字圖書館服務模式正在由大眾服務向個性化服務轉變,個性化的難點在于區分不同個體間的差異性。目前,數字圖書館以用戶登記信息、調查問卷、檢索記錄和研究方向分析為基礎,為用戶提供個性化服務。目前,數字圖書館的服務依據來源較為單一、缺乏靈活性,仍停留在個性化服務的初級階段,個體差異區分度不高,無法提供更優質的個性化服務。大數據時代,數字圖書館可借鑒大數據環境下的“猿題庫”模型,記錄用戶每次點擊的動態信息,將這些信息傳送至數據分析模型,建立動態的讀者閱讀習慣數據庫。數字圖書館利用大數據技術能實時在線關注讀者行為習慣的變化,并進行自適應調整,在不同時間、不同場景智能推送不同層次、不同類別的信息,為用戶提供差異化的個性服務。
2.3.3定制化的數據咨詢服務。在大數據技術出現前,數字圖書館的數據咨詢服務由具備專業檢索知識的館員負責,數據來源以參考書目、自建數據庫、外購數據庫為主。大數據時代,數字圖書館可利用大數據技術對咨詢課題進行檢索,通過數據比對、分析,實時檢索相關信息,在交互式圖形界面顯示查詢結果。數字圖書館使信息資源的獲取面得到了拓展,極大地縮短了檢索資源的獲取時間,能為用戶提供更加及時、優質的數據咨詢服務,并可在此基礎上開展更深層次的咨詢服務。
3結語
大數據技術為高校數字圖書館建設提供了技術支持,使更多的想象成為可能。高校數字圖書館是高校信息服務體系的主體,是生產、收集、存儲和處理數據的中心,其本身具有大數據屬性,同時又是大數據的載體。高校圖書館在數字圖書館建設過程中不僅能借助大數據技術的優勢,還能推動大數據技術的發展。高校數字圖書館是大數據技術的天然試驗場所和信息反饋節點,能推動大數據技術升級迭代;反過來,大數據技術也為高校數字圖書館建設提供了技術支撐,能給用戶帶來更好的閱讀體驗。
參考文獻:
[1]員立亭,郭莉,李秋月.基于SWOT分析的高校圖書館大數據應用策略研究[J].圖書館研究與工作,2017(6):32-36.
[2]畢強,閆晶,李潔.大數據時代數字圖書館服務轉型面臨的新形勢與新要求[J].情報理論與實踐,2017(12):12-16.
[3]孫羽佳.大數據時代高校數字圖書館的信息服務發展策略[J].河南圖書館學刊,2015(9):53-55.
[4]韓翠峰.“互聯網+”環境下的圖書館服務轉型與發展[J].圖書與情報,2015(5):29-32.
[5]李岱洲.“互聯網+”時代下高校圖書館應對策略[J].農業圖書情報學刊,2016(5):101-103.
[6]何勝,熊太純,周冰,等.高校圖書館大數據服務現實困境與應用模式分析[J].圖書情報工作,2015(22):50-55.
[7]郝晉清,王珺,王娟萍.新形勢下高校圖書館學科服務發展策略研究:以天津高校圖書館為例[J].圖書館工作與研究,2016(1):104-106.
(編校:孫新梅)