摘 要:大數據已經出現,如何有效的分析和處理海量數據,成為了信息技術的研究熱點。圖書館在數字化發展的過程中,也必須與時俱進,為此做好準備。文章探討了大數據帶來的若干問題,以及圖書館面臨的挑戰,分析了信息服務面臨的機遇和變化,并對大數據技術在圖書館工作中的未來發展進行了展望。
關鍵詞:大數據;圖書館;信息服務
1 引言
大數據(big data),或者叫海量數據。是指在信息爆炸的時代,數據呈現指數級的增長,在這種情況下,使用傳統的軟件工具或者技術手段,難以在合理的時間內提取、處理、分析并整理,或者根本無法進行處理。因此,必須使用新的處理模式與技術,以提高數據處理與流程優化能力。從某種程度上說,大數據是數據分析的前沿技術,是在建立在海量數據之上的數據快速分析技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。
“大數據”這個術語最早期的引用可追溯到Apache的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和GoogleFile System (GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。
大數據的4V特點:Volume、Velocity、Variety、Veracity。主要表現在四個層面:第一,數據量巨大。從TB級別,達到了PB級別;第二,數據種類繁多。不僅包含傳統的關系型數據庫,還有視頻、圖片、實驗數據、地理位置信息、觀測記錄等等。第三,價值密度低,商業價值高。在海量數據中,有價值的數據可能僅僅有微不足道的一部分,但這一部分卻非常重要。第四,也是區別于傳統數據挖掘技術的關鍵,就是處理速度快,1秒定律。
2 大數據引發的問題
目前,圖書館一般有獨立的機房,包括儲存設備與服務器組,并對其進行維護和管理。由于經費所限,機房設備一般只能運行網站、業務數據庫、冗余備份、以及少量數據鏡像,對大型的數據存儲往往力不從心。因此,若想在現有的平臺之上,擴展圖書館的數字化服務,圖書館更多的趨向于館際合作,共建共享等方式,通過行業間平臺,解決單個圖書館的基礎設施與經費限制。從傳統服務的角度來說,這種方式在很大程度上緩解了圖書館的數據需求與基礎設施不足之間的矛盾。
隨著信息技術的發展,數據的數量呈現出爆炸性的增長,信息的形式也不再局限于傳統的文獻,而是涵蓋了觀測數據、圖表、照片、多媒體等等各種類型的數據,簡單的說,只要是在科研過程中產生的,能存儲于計算機上的數字化資源,都是有知識價值的。
隨著數據的不斷增長,傳統的數據處理方式已經難以在合理的時間內進行分析和處理。人們需要在數據的海洋中找到方向,如何快速、有效的在海量數據中找到有用的知識,這就是大數據技術研究的內容。大數據催生了云計算,云架構使得硬件設施伸縮自如,用戶不需要自己購買硬件設施,不需要建設基礎設施環境,只需要網絡和終端即可使用。圖書館可以將數據存儲在云存儲服務商提供的服務器中,按需申請,按時付費。這使得突破硬件設施和人員限制成為了可能,擁有了靈活的擴展性,基礎設施在用戶角度看來是透明的,無窮的,低成本的。
但是,隨著大數據時代的來臨,傳統的研究型圖書館卻面臨著貢獻邊緣化的危機。由于數據龐大,數據本身對于用戶來說難以直接使用,因此,傳統信息服務方式將不能滿足用戶的需求。如何快速的獲得、分析海量的數據,幫助用戶科研、決策,提供更高層次的服務,這是大數據時代圖書館需要認真思考的問題。
3 圖書館信息服務的變化
3.1 科學數據管理
在大數據時代,圖書館不僅僅是數據的提供者,還應該是數據的管理和規劃者。
3.2 數據分析
對于用戶來說,數據量太大,在正常的時間范圍內,難以快速提取和使用,找到有價值的信息。因此,對基礎數據進行分析和處理,使之更精準、更有價值,應該是圖書館在大數據時代,信息服務的一個重要方面。
結合數據倉庫和數據挖掘技術,圖書館可以根據用戶的需求,制定數據分析策略,提取海量數據中潛藏的規律和知識,為用戶進一步科研、分析工作提供幫助。
3.3 用戶關系管理
圖書館的一切工作,都是圍繞著讀者,圍繞著最終用戶展開的。為了更好的為用戶提供服務,或者說,更精準的了解用戶的需求,提供其最需要的服務,進行用戶關系管理的研究是極其有必要的。用戶關系管理(Customer Relationship Management,CRM),是指通過與用戶的不斷交流,了解用戶的需求,并以此為依據,對服務進行改進和提高,以滿足用戶需求的連續的過程。
在大數據時代,能夠預見用戶的需求,根據用戶在圖書館數據使用規律的總結和分析,主動進行相關領域的數據推送,挖掘該研究領域的潛在知識,包括趨勢、關聯性等,為用戶研究決策提供幫助,將極大的提高面向用戶的信息服務工作水平。
3.4 智能網絡化信息資源組合方式
在大數據時代,數據類型多種多樣,圖書館應當不僅提供傳統類型的數據,對于非館藏數據,應當提供數據整合工具以及靈活適應用戶需求的資源組合方式。通過數據整合和清洗技術、以及Web挖掘等方式,圖書館可以將更多的數據類型整合,為用戶提供透明的,無差別的統一數據服務接口。
4 結束語
大數據初現端倪,隨著云計算與大數據技術的不斷發展,未來圖書館的信息組織結構與服務模式會有明顯的變化,如何應對這些變化和挑戰,是值得圖書館界同仁認真思考的問題。只有與時俱進,及時了解發展趨勢,轉變服務理念,才能更好的適應未來數字化圖書館的發展,更好的為讀者提供滿意的、高質量的信息服務。
參考文獻
[1][美]Anand rajaraman ,Jeffrey David Ullman.大數據:互聯網大規模數據挖掘與分布式處理[M].北京:人民郵電出版社,2012.
[2][英]邁爾-舍恩伯格,庫克耶.大數據時代[M].杭州:浙江人民出版社,2013.
[3]涂子沛.大數據;正在到來的數據革命[M].廣西師范大學出版社,2013.
作者簡介:朱玉斌,男,81年,南京大學軟件工程碩士,館員。