(商丘醫學高等專科學校,河南 商丘 476000)
淺析“大數據”對圖書館管理的影響
楊春玲
(商丘醫學高等專科學校,河南商丘476000)
隨著大數據時代的來臨,社會中的各類數據正以極快的速度增長,圖書館也不可避免地面臨著大數據信息浪潮的沖擊。大數據對圖書管理的影響主要包括:復雜數據計算能力、數據分析由傳統向深度挖掘帶來的挑戰及大數據時代對圖書館基礎設施的要求。未來圖書管理需從探索數據分析技術與工具、重視基礎設施建設和數據收集、提高圖書管理的智能化程度等幾個方面發展。
大數據;結構化;非結構化;圖書館
“大數據(big data)”是非?!皶r髦”的概念,在維克托·邁爾·舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據是指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法[1]39。我們通常所講的大數據指的是所涉及的數據規模巨大到無法通過目前日常所用的數據分析工具,在短時間形成可利用的有價值的信息數據。
“大數據”源于全球知名咨詢公司麥肯錫,之后逐步出現在各類媒體。真正風靡全球,成為時代“寵兒”是在近幾年。隨著智能手機、互聯網的普及和wifi等無線技術廣泛應用,社會中的數據量程幾何級增長,而伴隨著“云時代”的來臨,海量數據的計算和分析成為可能。所以,諸如IBM、oracle、惠普、騰訊、百度等一大批國內外企業加入了大數據研究應用的行列,通過收購與大數據相關的軟硬技術實現大數據的技術整合,力求在以云計算為基礎的大數據時代取得更加有利的競爭地位和競爭優勢。
圖書館所在的知識服務領域也被迅速卷入大數據的浪潮中。由于知識傳播與利用形式的不斷變化,各種新技術機制在知識創造、組織、傳播、和應用中扮演著愈加重要的角色[2]。本文主要探討在大數據背景下大數據的基本特征、給圖書館管理帶來的影響及解決的主要方式等。
IT界通常用4V(即Volume、Variety、Value、Velocity)來概括大數據的特征,擁有這四種基本特征的數據可稱之為大數據。
(一)數量巨大(Volume)
截至2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。國際數據公司(IDC)的研究結果表明,2008年全球產生的數據量為0.49ZB,2009年的數據量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當于全球每人產生200GB以上的數據。而到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍[3]。
(二)類型繁多(Variety)
數據通常被分為結構化數據、半結構化數據和非結構化數據。相對于傳統的以文本為主的結構化數據,網絡日志、音頻、視頻、圖片、地理位置信息等半結構化、非結構化數據越來越多。同時,近幾年出現的微博、微信等可通過移動互聯設備使用的電子交往形式使數據量和數據種類更加復雜化。
(三)價值不高(Value)
價值密度的高低與數據總量的大小成反比。以社會中常見的監控錄像為例,一天的監控記錄,有用數據可能僅有一二秒。如何將已有的結構化數據、半結構化數據及非結構化數據進行整合、分析,挖掘出更多有價值的信息,并通過強大的計算能力迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。
(四)要求高速處理(Velocity)
這是大數據區分于傳統數據挖掘的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。在如此海量的數據面前,處理數據的效率就是生命。
根據大數據的基本特征,經筆者分析,圖書館知識服務領域的未來大數據的來源主要有RFID射頻數據、傳感器數據、社交網絡和移動互聯數據等幾個方面。隨著圖書館數字技術的不斷提高,RFID將不斷推廣,這將是未來圖書館大數據的主要來源之一;由圖書館中的傳感器感知生成的數據,長時間積累后也將產生巨大的數據量;社交網絡已廣泛應用于社會各個方面,逐步成為人們交往的主要形式,其所產生的數據量遠超以往任何一個信息傳播媒介,由其生成的數據量是不可估量的;移動互聯網及移動互聯技術的不斷完善,使得圖書館可以靈活獲取移動電子設備、人員、資源、用戶行為和需求等信息,并對這些信息進行實時分析,從而幫助我們開展有效的智能輔助決策[4]32-45。
(一)海量數據處理考驗圖書館計算能力
大數據時代背景下,各類數據量迅速增長,數據產生的方式、范圍發生前所未有的變化,人們在社會中的各類行為都產生了大量的信息數據,信息數據的組成結構、格式類型、存在形態等都更加復雜。圖書館要對上述復雜的數據進行應用、存儲,將具有很強的挑戰性,不僅僅涉及云計算、大數量級數據存儲等技術問題,還可能促發圖書館服務模式、資源建設模式、管理模式與發展模式的轉變。
(二)數據分析方式轉變帶來的挑戰
隨著圖書館信息化程度的提高,以互聯網信息搜索、查詢為基礎的知識服務逐漸被更多的圖書館所采用。但不管是簡單的信息服務,還是結合了信息檢索、組織、分析等高級業務服務,都可歸納為就數據而進行的服務。大數據時代背景下要求圖書館不僅需要通過結構化數據了解客戶需求,也需要大量的非結構化數據、半結構化數據去挖掘、預測和分析當前和未來的用戶需求,社會大眾的需求也將隨著不斷變化的個性化的高滿意度服務出現而對圖書館的服務呈現出明確和迫切的需求。滿足用戶的需求,提供復雜數據的處理也將成為大數據時代圖書館的發展方向,如何處理好數據分析,將直接影響圖書館的生存與發展。
(三)大數據對圖書館基礎設施提出更高的要求
半結構化及非結構化數據的迅速增加,導致數據存儲、計算規模越來越大,其成本急劇上升。很多知識服務機構出于成本的考慮將應用由高端服務器轉向中低端硬件構成的大規模計算機集群[5]166-171,從而對支持非結構化數據存儲及分析的基礎設施提出了很高的要求。
(一)探索利用數據分析技術與工具
對圖書館來說,在大數據時代要想在激烈的市場份額競爭中爭得一席之地,避免邊緣化,開展必要的大數據分析服務顯得必不可少。圖書館開展的大數據分析服務業務,主要可以有以下幾種:首先是圖書館自身建設所需的大數據分析。這類分析一般以圖書館的現有數據為對象進行分析,如讀者的借閱方式、行為愛好等,是一種對現有資源的分析與挖掘;其次是客戶即讀者所需的大數據分析。這類分析業務類似于當今圖書館為企業等客戶群體所做的信息情報參考、競爭情報分析,但也有著很大的區別,如對于分析對象數據的不同、分析手段的不同、分析目的不同等,這類分析業務所依靠的大量數據可能并非圖書館所擁有,從而成為限制該項業務發展的瓶頸,如何解決此類服務的數據問題是突破該瓶頸的關鍵。麥肯錫發布的《大數據:創新、競爭和生產力的下一個前沿領域》報告中首次提出了“大數據”的概念,對大數據的分析技術與工具進行了列舉,如目前已為廣大圖書情報研究者所熟知的聚類分析、數據挖掘、網絡分析、可視化分析、數據融合與數據集成等,特別是聚類分析、可視化分析與數據挖掘技術。但這些現有的研究目前僅僅只是針對結構化數據和有限數量的關鍵詞進行聚類分析、共現分析等,并不能真正挖掘大量負責數據的存在與表現形態,更不能通過這些分析去預測未來的可能發展趨勢。當然,大量網絡社交等信息行為產生的大量非結構化數據、半結構化數據也讓許多學者開始思考去采集和利用這些信息,如蘇玉照等人[6]66-70就認為如果能夠采集到Web日志的數據,就能很好地滿足發現關聯規則、內容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進而對定制Web日志的數據模型、過程及方法進行探索。
(二)重視基礎設施建設
大數據時代,圖書館的核心競爭力不再僅是文獻數據信息的競爭,各類形式的海量數據以及對海量數據的分析、挖掘才是今后圖書館之間競爭的核心因素。因此,要跟上大數據的腳步,必須完善信息收集的基礎設施建設,加強各類信息資源的收集將成為圖書館資源建設的大方向。圖書館首先要明白“數據即生命”,解決數據存儲問題。大數據時代對于圖書館的數據存儲量要求極高。早在2007年,沃爾瑪就通過對消費者的購物行為等非結構化數據進行分析,創造了“啤酒與尿布”的經典商業案例[7]127。這樣的經典案例是通過對海量的多類型數據收集和分析得到的。因此,圖書館要掌握讀者用戶、館員乃至社會服務群體等的信息,既要有當前通用的數據記錄中的個人身份、借閱記錄等結構化數據,還要有存儲信息行為、搜索方式、行為痕跡等非傳統數據,這些都需要通過基礎設施的建設來支持。除此之外,圖書館還必須解決數據計算和數據分析問題。要積極利用“云計算”技術,搭建圖書館的云計算平臺,解決圖書館自身海量數據的存儲及運算能力與大數據對存儲能力的高要求之間的矛盾。
(三)提高圖書館服務的智能化程度
大數據背景下的圖書館服務的智能化程度也將達到一個新的高度。圖書館應用智能化技術進行自動的高級、復雜的數據收集及處理工作,既能在一定程度上節省大量的人力物力,也能解決人工可能無法實現的工作需求,如對海量信息數據的智能抓取、關鍵詞抽取等,使得節省下來的大量人力去研究圖書館建設的策略與更進一步的智能化投入。其次,從讀者來看,服務內容、手段的智能化程度提高與智能化技術、工具、平臺的服務實踐,所需的圖片、視頻、文本等信息將能輕易獲取,個體的信息如社交信息、生活數據等大量的非結構、半結構化數據也都能為圖書館的智能化決策提供分析參考。再次,從智能化服務中的知識流通來看,圖書館服務智能化程度的提高不但有利于知識從單個主體擁有向多個主體擁有的流通與傳播,更利于隱性知識向顯性知識的轉變,也有利于知識的發現、挖掘與組織[8]81。
[1] 維克托·邁爾·舍爾維恩,肯尼斯·庫克耶 .大數據時代[M].杭州:浙江人民出版社,2013.
[2] College of Nursing:Curriculum Support.http://www.ahsl.arizona.edu/curriculum/nursing/.2011-10-17(04).
[3] 百度百科http://baike.baidu.com/view/9424571.htm.
[4] 覃雄派,王會舉,杜小勇,等.大數據分析——RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(1).
[5] 張興旺,李晨暉,秦曉珠.構建于廉價計算機集群上的云存儲的研究與初步實現[J].情報雜志,2011,30(11).
[6] 蘇玉照,牛曉太,趙 妍.提高個性化推薦精度的定制Web日志方法[J].圖書與情報,2011(5).
[7] 高 勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學出版社,2008.
[8] 韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1).
[責任編輯袁培堯]
2014-05-08
楊春玲(1969- ),女,河南商丘人,商丘醫學??茖W校圖書館館員, 主要從事數據管理研究。
G251.4
:A
:1671-8127(2014)06-0119-02