張曉梅
摘? ? 要: 信息通信技術(ICT)正向著ICDT轉變,這說明了大數據技術的重要性。高職圖書館正在進行數字化轉型,探尋其與大數據技術的結合具有現實價值。本文論述了二者內在屬性間的關聯性,分析了Hadoop平臺的各功能模塊,探討了大數據技術支撐下的數字化圖書館服務模式,推動高職數字化圖書館建設。
關鍵詞: 大數據? ? 高職院校? ? 數字圖書館
移動互聯網絡拓展了互聯網的覆蓋空間,信息數據的增長速度超過以往任何時代,新的數據類型、數據結構和存儲方式出現,大數據(Big-Data)技術隨著數據分析需求而出現。圖書館是高等院校信息服務體系的主體,同時是社會公共信息服務的有機組成部分,數字通信技術的出現改變了現代圖書館的存在形態,實時在線服務成為數字化圖書館的服務模式,涉及標準、技術、管理、法律等方面,在共同學習中探索新的建設模式。大數據技術的高速數據處理能力為數字圖書館建設提供了技術保障,二者的數字化本質是一致的,為其融合提供了基礎。同時,大數據技術在不斷實現自我完善和變革,在支撐數字化圖書館發展的同時,為自身尋找合適的數據反饋源和試驗樣本。
1.大數據與數字圖書館的內在屬性
1.1大數據的內在屬性
麥肯錫在2011年5月的一份報告中最早提出“大數據”的概念[1],《華爾街日報》開辟專欄對大數據技術進行全面分析,美國政府于2012年3正式宣布開展“大數據”技術和應用研究,前期投資2億美元,“大數據”首次獲得國家層面的官方身份認可。
對大數據的本質,不同國家、科研機構和組織間的認識略有差異,公認的是IBM公司提出的“3V”模型,即量大(volume)、實時(velocity)、多樣(variety)[2]。量大,是指數據總量,其計量單位由TB向PB發展,現在已達到EB級;實時,是指數據的處理與交互式訪問,用戶所需的二次數據結果處理實時完成,提供支撐決策的參考信息;多樣,是對數據類型,包含完全結構化數據、半結構化數據、非結構化數據,非結構化數據流包括視頻、音頻、圖像和圖片,數據處理速度和能力提升到下一個量級。綜合不同概念的表述和理解,大數據即從多樣的數據中實時提取有價值的二次數據信息。作為現實需求技術和未來發展方向,大數據是一種自我發展的技術。
1.2數字圖書館的內在屬性
二十世紀九十年代最早提出數字化圖書館概念,通過信息互聯網絡、多媒體技術、先進計算機的組合,完成圖書館館藏數據的二進制轉換,以數字化存儲形式構建新型圖書館。數字化改變了高校圖書館的服務方式,信息化、數字化服務與紙質資料服務并存,數據傳遞速度倍增,電子圖書、期刊成為圖書館制式的數據存儲形式。目前,數字化圖書館已經完成數據網絡傳遞、數據的二進制轉換階段,集成化的信息技術和實時訪問優勢將服務變得更加便捷[3]。
高校的數據信息體系以圖書館為主體,從各高校的圖書館建設中可以得到印證,作為學術性服務機構,推動教學與科研工作進步。隨著5G時代的來臨,信息技術即將實現萬物互聯,信息數據量呈級數級增加、非結構化數據訪問量增加、用戶數據檢索質量提升,數字圖書館現有的數據存儲和訪問能力難以應付,數字化圖書館是高校圖書館實現可持續發展的必由之路。
2.基于圖書館Hadoop平臺的大數據分析系統
選用Hadoop平臺作為數字化圖書館的大數據支撐平臺。Hadoop平臺底層支撐架構牢固,具有強悍的數據處理性能和易擴展性,尤其適用于海量數據處理,性價比優勢明顯。
典型的Hadoop平臺架構包含四個功能模塊:數據采集、數據冗余、維度定義和并行分析。各個模塊的功能定位詳述如下:
2.1數據采集模塊,完成海量圖書信息碎片的收集、傳輸與合并,確保傳輸速率、數據完成性與傳輸安全。
2.2數據冗余模塊,這是Hadoop平臺架構的關鍵環節。該模塊首先定義冗余維度定義器,然后定義需要冗余的維度信息及數據來源,將信息以指定的擴展方式寫入。在圖書信息數據處理過程中,隨著維度的增加,定義數據冗余模塊是必要的。
2.3維度定義模塊,屬于前端模塊,使用者為圖書信息管理員,對海量圖書數據以可視化的定義器定義維度和度量,可視化的分析器執行定義好的多維分析命令,最終生成一種多維分析語言。
2.4并行分析模塊,接收來自管理員的多維分析指令,核心模塊負責對命令的Map-Reduce解析,最后上交Hadoop分析集群,生成分析報表,展現在圖書分析報表中心[4]。
3.大數據技術支撐的數字化圖書館建設方案
數字圖書館建設應該以資源建設為中心,建立更加完備的資源庫、優化資源結構,以大數據分析和挖掘技術為依托,維護原生資源、突出特色資源、營造資源生態領域,整合不同資源類型,形成互通、共享的大數據資源池。
3.1對圖書館信息資源進行整合利用
圖書館職能的關鍵在于組織信息資源,在數據采集的基礎上對信息進行分析、描述、揭示,大數據技術使這種職能的面貌發生改變。依據麥肯錫全球研究所的調研報告數據,全球范圍內的有效數據利用率只有不到12.5%。在現代社會中,來自各種終端設備的數據資源超過50%,數據的簡單匯聚并不能產生有價值的信息和知識。一方面是已經生產的海量情報信息,另一方面是對有價值數據資源的需求,二者間的矛盾需要一種技術方案協調。要將固定的數據實時傳遞給不確定的個體,提供具備吸引力的服務內容和形式,實現數字圖書館的科學性和高可靠性。整合圖書館資源的目的在于提供用戶所需數據,對圖書、期刊、學位論文、多媒體資源、數據庫等依據固定的格式進行資源重組,便于讀者獲取所需資源信息。現有的大數據技術資源密度較低,資源整合操作可以有效彌補這種不足。
3.2提升數據推送的關聯度和準確性
數據推送服務是圖書館主動推送讀者所需的關聯信息,讀者客戶端可以是多種形式,包括個人電腦、手機APP、網頁賬戶等。現有的圖書館的推送服務屬于廣播式推送,不能滿足讀者的全部需求,不同領域間的差別顯著。預測性缺失,對于資料查閱和網頁瀏覽歷史數據,大數據可以對其全部行為數據予以記錄,細化到每一篇文章,甚至是具體詞組,匯集讀者的各類微小行為;推送服務分層次進行,層次劃分依據可以是興趣愛好、性別、年齡段、受教育程度等。基于用戶的數據瀏覽頻次,大數據提供個人的興趣偏好分析,涉及興趣度排序和變化趨勢,以對其需求變化進行預測,匯集不同讀者的需求信息,產生的數據可以為圖書館數據更新和采集提供參考,對讀者需求做到超前解讀和引領,提高數字化圖書館的社會效率。
3.3支撐個性化的細粒度知識服務
圖書館個性化服務增強了對讀者個體的針對性,現有的個性定制服務策略依據讀者的基本信息、研究領域、檢索集及調查問卷統計數據,依據單一、僵化,難以提供更加細粒度的個性化服務。棗莊科技職業學院的數字化圖書館建設引入“猿題庫”模式,細化捕捉讀者的每一次動態操作行為,建立靈活、定制化的讀者檔案,結合行業分析和學科分析數據,支撐數字化圖書館的個性化細粒度知識服務。大數據技術的靈活性體現在對讀者行為變化情況的自動監控;對不同層次、類別數據的自動調用與智能推送。
3.4更具象的數據咨詢參考服務
現有的參考咨詢服務依據圖書館藏檢索工具書、參考工具書、自建與外購數據庫或二者的結合,負責實施的館員可以是兼職也可以是全職,均具備良好的專業知識背景,熟悉檢索業務。大數據時代的課題咨詢服務,由系統依據特征值將查詢結果進行實時圖形展示,數據分析技術縮短資源獲取時間,延展咨詢館員的情報信息獲取邊界,更好地滿足讀者需求。尤其對企業用戶而言,深度參考咨詢服務提高圖書館數據利用率和價值水平。
4.結語
大數據技術的出現,給圖書情報領域帶來了前所未有的信息技術革命,是機遇也是挑戰。高職圖書館應及時更新理念,尋求與先進技術的深入融合,拓展用戶服務模式。大數據技術研究處于快速發展階段,其價值和應用前景正成為未來科技革命的核心。大數據技術與數字化圖書館的深度協作,成為圖書情報領域的信息化轉型方向,將實現數據價值的深度挖掘與新型服務方式的探索。
參考文獻:
[1]韓翠峰.“互聯網+”環境下的圖書館服務轉型與發展[J].圖書與情報,2017,159(05):29-32.
[2]李岱洲.“互聯網+”時代下高校圖書館應對策略[J].農業圖書情報學刊,2016,28(5):101-103.
[3]何勝,熊太純,周冰.高校圖書館大數據服務現實困境與應用模式分析[J].圖書情報工作,2018,59(22):50-55.