石岱
(黑龍江大學信息管理學院,黑龍江哈爾濱150080)
如今,大數據對于我們并不陌生,大數據這個詞也并不生疏,早在1980年代,美國就有人提出了大數據的概念[1]。而將“大數據”作為全球性發展戰略計劃,則始于2012年2月美國奧巴馬政府宣布推出的“大數據的研究和發展計劃”,該方案計劃投資兩億多美元,在美國國家科學基金、美國國防部等6家政府部門協作下,大力推動及改善與大數據相關的采集、組織、分析、決策工具及技術[2]。
業內對大數據沒有一個統一的概念,但是比較公認的是以下這種說法。大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。
大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(精確)。第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。以前的數據結構單一,現金則呈現出結構復雜的特點,結構化、半結構化、非結構化數據使對于大數據的處理更加復雜;第三,價值密度低,商業價值高。價值密度低體現在海量數據中可能僅有僅一少部分有效信息,但這少部分的有效信息卻富含商業價值;第四,處理速度快,1秒定律。這點也是與傳統數據挖掘不同的體現。
“大數據”與“海量數據”并不完全相同,“大數據”在數量上包含“海量數據”,但“大數據”在時間或速度維度上又區別于“海量數據”。結構的復雜化,處理數據的速度和效率都有別于“海量數據”。
1.3.1 大數據將成為一種新的決策工具
2009年爆發的甲型H1N1流感,谷歌公司通過google瀏覽器中隱藏的大量數據對用戶檢索進行分析,從而預知了流感的發生,并確定了傳播區域,從而帶給公共衛生部門極有價值的信息,大大縮短了研究時間,而這個預測比疾控中心的判斷提前了一兩周的時間。
美國的Farecast飛機票價預測系統,也通過各種旅游網站獲得大量數據進行分析,從而幫助乘客選擇最佳購票時機,并降低了購票成本。
大數據的預知與決策的功能將幫助我們更好地分析與決策,節省不必要的時間與成本,從而帶來更高的收益。
1.3.2 信息技術與各行業的深度融合
大數據時代下對各行業的發展都提出了新的挑戰。醫療、教育、金融、IT等行業都呈現出巨量增長的數據。而有專家則提出,未來10年,大數據及其分析將改變幾乎每一個行業的業務功能。美國大公司平均擁有的數據量,遠超過美國國會圖書館所有的數據量,而這些數據則有可能改變其業務功能。
1.3.3 大數據推動新發展
大數據的特點之一就是結構的復雜性,而這些復雜的結構需要更新的技術來支撐分析。大數據的到來無疑會帶動新的技術的發展,而大數據的有效利用,也依賴于技術的保障,只有更新、更有力的新技術才能更好地利用大數據。
由于信息技術的發展,尤其是大數據時代的到來,數據的積累與技術的結合,促進了圖書館中數字資源的產生。這種電子資源的數量和種類都與日俱增,正在超越紙本資源。據調查,全球新產出的信息量每3年翻一番,大約90%的信息都是以數據形式儲存[3]。如此巨大的數據增長,就需要圖書館對于數據存儲的能力有一定要求。
根據中國互聯網絡信息中心(CNNIC)今天對外發布《第32次中國互聯網絡發展狀況統計報告》顯示,截至6月底,我國網民規模達5.91億,較2012年底增加2 656萬人。新增網民中使用手機上網的比例高達70%,而半年期新增網民中農村網民占54.4%。網民數量的劇增與移動網絡的便捷都使得移動圖書館更加便利。
大數據的到來,對于數據處理的技術要求提升,傳統的數據處理滿足不了多結構化、海量信息的要求。館藏信息量的增大,要求圖書館的數據處理技術的提升。不僅是處理結構化、半結構化數據,非結構化數據的處理也成為數據處理的一部分,各種非結構化的數據又增加了大數據的復雜性。對數據的掌握將成為圖書館的核心資產,而對這些數據的利用則需要處理技術的支持。圖書館可以根據數據的分析來掌握用戶借閱習慣,根據數據分析服務消費記載,提高服務質量等。
在面對大數據的時候,圖書館人員對于大數據的認知和理解局限了對于數據的進一步分析加工,對于圖書館及其人員來說,大數據還十分陌生,并不是所有人員都能夠很好地處理分析所接收到的大數據,可能會將有可能有價值的信息忽略掉,從而使其失去價值,或者對于處理和分析大數據的能力尚未掌握,也會導致大量有效信息的流失[4]。所以這更需要圖書館相關人員對于大數據相關知識的進一步了解與認識。
現代完備的圖書館不僅有圖書借閱信息、借閱人員信息外,還大量存儲了圖書本身的資料數據,尤其是大型或者學校的圖書館,各類書目、內容與數量上都很多。當前大型圖書館每年的數據增量大約為20~30TB,如此浩大的數據量,對于一個擁有100TB存儲容量的圖書館也只能滿足3~5年的數據存儲需要。但是現今圖書館的存儲設備的利用率低,還不過總容量的一半,還有很多的空間可以挖掘。這需要圖書館在數據存儲方面作出改變,可以利用壓縮技術、消重技術、提高空間利用率等手段,對館藏數據進行整理整合,完善存儲[5]。
圖書館的智能化服務已經是大數據時代下圖書館發展的趨勢,不僅需要智能化的技術處理、分析數據,更需要智能化的服務來面對讀者。服務的內容和手段的智能化提高有利于服務對象的滿意度提高。智能化的分析大量并且結構復雜的讀者數據,了解讀者閱讀習慣,有利于推送等服務的開展,有利于圖書館服務的開展[6]。
大數據時代的到來,給很多領域帶來了機會和挑戰,對于圖書館情報領域也不例外。大數據的海量特征為我們能找到所需信息提供了可能性,但同時其結構的復雜性又對數據處理技術提出了更高的要求。圖書館作為現代社會中公共信息服務體系必要的組成部分,不可避免地會受到社會技術應用潮流的影響,對于大數據的掌握是將圖書館的發展走向現代化的必經之路。技術上的提高與圖書館相關人員知識的提升都影響著大數據時代下圖書管的發展,所以,圖書館若想在大數據時代良好的發展,應該了解大數據并合理利用大數據,對現在模式進行改善,從服務、人員培訓、技術更新等方面提出要求。提升其核心競爭力,以最優狀態在大數據時代中發展。
[1]張文彥.大數據時代的圖書館初探[J].圖書與情報,2012(6).
[2][4]樊偉紅,李晨暉,張興旺,秦曉珠,郭自寬.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012(11).
[3]朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013(5).
[5]羅彬,陽靜,袁赟.數字圖書館中大數據存儲的應用研究[J].科技與企業,2013(18).
[6]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1).