容春琳 (浙江師范大學圖文信息中心 浙江 金華 321004)
隨著移動互聯網、云計算和云服務、物聯網等技術的飛速發展,加之網絡視頻、智能服務終端、網上商店等的快速普及,全球數據量呈現爆炸式的增長態勢;對大規模數據的獲取、分析和應用能力成為企業和管理機構能否取得成功的關鍵。于是,“大數據”(Big Data)應運而生,其是繼Web3.0、云計算、關聯數據之后,近兩年網絡熱炒和媒體高度關注的關鍵詞之一。全球知名的咨詢公司麥肯錫最早提出“大數據”時代已經到來[1]。自從“大數據”的概念提出以來,國際上特別是美國等發達國家掀起了大數據研究和應用的熱潮。美國將“大數據”作為一項全球性發展戰略計劃:2012年2月,奧巴馬政府宣布推出“大數據的研究和發展計劃”并投資2億多美元,在美國國防部、美國國家科學基金等6家政府部門的協作下,大力推動與大數據相關的采集、組織、分析及技術實現等[2]。Microsoft、IBM、Oracle等聲明顯赫的IT行業巨頭也都加入到大數據的行列,紛紛通過收購與大數據相關的軟硬件技術供應機構來實現大數據的軟硬件技術融合和大數據信息處理的技術研發,力圖在新的“大數據”時代、在新的信息競爭環境中處于主導地位[3]。中國工程院院士李國杰先生指出,大數據將成為信息科技的新關注點,并可能形成新型交叉學科——網絡數據科學[4]。圖書館歷來是新信息技術的研究和實踐重地之一,大數據不可避免地將會對圖書館產生一定的影響和沖擊。國外的圖書館學研究者參與了與數據有關的研究項目,如關聯開放數據運動(Linked Open Data Initiative)和圖書館數據監管(Library Data Curation)等。美國學者對圖書館員在大數據環境下的角色定位和專業技能做了調查與設想。另外,美國的密歇根州立大學、伊利諾伊州立大學等知名大學均開設了與大數據相關的課程和研究方向[5]。國外的這些研究為我國圖書情報界研究大數據提供了較好的參考借鑒。
筆者通過檢索數據庫得知,國內有關大數據的研究成果數量較多,大多集中在計算機科學類和企業管理類期刊,也有少部分發表于圖書情報類刊物。筆者現選取2012年發表的較新文獻進行述評。楊海燕研究指出,從大量的數據中分析潛在的價值將成為大數據時代圖書館的一大主要業務[6]。韓翠峰認為,在大數據時代,圖書館將在數據存儲、數據挖掘、數據分析等方面面臨巨大的挑戰與考驗,對大數據的分析與處理將成為圖書館的一大主要服務內容[7]。張文彥等人研究指出,大數據時代的來臨給圖書館帶來了根本性的變革,大數據在圖書館中的應用將會產生較多新問題[8]。黃曉斌、鐘輝新則分析了大數據對企業競爭情報研究的影響及大數據時代企業競爭情報分析的發展方向[9]。楊繹從文獻計量的角度對大數據進行了定量研究,并得出結論:目前國內對“大數據”的接受程度不高,應進一步展開研究[10]。樊偉紅等人探討了大數據可能給圖書館帶來的機遇和挑戰[11]。侯經川、方靜怡重點探討了大數據時代數據引證的研究進展與未來研究展望[12]。另外,國內與大數據相關的研討會議主要有:2012年8月23—25日,中國國防科學技術信息學會情報研究專業委員會在黑龍江省漠河縣召開了“大數據背景下的國防科技情報研究”學術研討會,在學術界首次以學術論壇的形式探討大數據背景下的國防科技情報研究工作[13]。2012年11月30日—12月1日,中國IT界技術盛會——Hadoop與大數據技術大會(HBTC 2012)在北京隆重舉辦,大會以“大數據共享與開放技術”為主題,展望了Hadoop和大數據璀璨的發展未來[14]。
在新信息化環境下,大數據將為圖書館對大規模數據的處理和分析、實現知識管理和知識服務模式的完善和創新、提升圖書館的業務服務水平等提供新的思路和方案。我國圖書情報界的學者基于不同的視角對大數據與圖書館的相關問題進行了研究,取得了一定成效,這對于加強大數據的研究、推動圖書館應用大數據的嘗試和探索具有較大的理論價值和現實指導意義。但目前國內圖書情報界針對大數據的研究還存在一些缺陷,如大部分研究主要是對國外實踐的介紹,提出獨創性觀點的較少;理論研究較多,而有針對性的實踐研究偏少;大多是從宏觀上談論大數據對圖書館的影響、挑戰等,顯得較寬泛,操作起來可行性不太強;有些內容前后重復。另外還有一個遺憾,那就是沒有專門針對公共圖書館應用大數據的研究文獻,這與時代的節拍不太相符。我國提出“文化強國”戰略,提出加強公共數字文化服務體系建設,這對于公共圖書館來說是義不容辭的職責。筆者認為,在大數據背景下,加強公共圖書館應用大數據的服務能力和策略的相關研究和實踐具有較大的參考價值和時代意義。巧合的是,2013年國家社科基金項目申報指南中的“圖書館、情報與文獻學”部分正好列有與大數據相關的研究主題[15]。這說明,“公共圖書館應用大數據”這一研究在國內尚屬于較新的研究領域,具有較大的研究潛力。
自從大數據的概念提出以來,學術界對于大數據含義的理解很難達成共識,基本上是仁者見仁,智者見智;這一點與云計算的概念剛提出時的情況類似。目前,各種不同的定義基本上是從大數據的特征出發,通過其特征的闡述歸納出來的。對于“大數據”,研究機構Gartner給出了這樣的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[16]。百度百科名片中這樣描述大數據:大數據,或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊[17]。維基百科對大數據的定義較為簡單:大數據是指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集[18]。
一般認為,大數據具有4個主要特征,業界將其形象地概括為4個“V”:首先,數據體量巨大(Volume),從TB級別躍升到PB、ZB級別;其次,數據類型繁多(Variety),如流行的網絡日志、視頻、圖片、地理位置信息等;第三,價值密度低(Value);以視頻為例,在連續不間斷的監控過程中,可能有用的數據僅僅才一兩秒;最后,處理速度快(Velocity),基本上貫徹1秒定律,這與傳統的數據挖掘技術有著本質的區別。
大數據的價值是通過數據共享、交叉復用獲取最大的數據價值;未來大數據將會如基礎設施一樣,有數據提供方、管理者、監管者等,數據的交叉復用將可能使大數據變成一大產業。雖然大數據目前在國內還處于初級階段,但是其商業價值已經顯現出來。首先,手中握有數據的公司處于有利的競爭地位,基于數據交易即可產生很好的經濟效益;其次,基于數據挖掘會有很多商業模式誕生。例如,數據分析人才幫企業做內部數據挖掘,或側重優化,幫助企業更精準地找到用戶,降低營銷成本,提高企業銷售率,增加利潤。另外,通過網絡工具挖掘用戶的行為習慣和喜好,從凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優化,這也是大數據的社會價值之一,大數據將日益顯現出對各個行業的推進力[19]。
大數據技術的價值在于應用,而目前人們談論最多的是大數據技術和大數據應用。移動互聯網與社交網絡的興起將大數據帶入新的征程。在移動互聯網領域,公司從開發者角度找到數據挖掘的方向,通過提供免費的技術服務,幫助開發者了解應用狀況;社交網絡產生了海量用戶以及實時和完整的數據,同時社交網絡也記錄了用戶群體的信息,通過深入挖掘這些數據來了解用戶,然后將這些分析后的數據信息推送給需要的品牌商家或是微博營銷公司。簡言之,大數據技術的應用領域主要包括商業智能、公共服務、市場營銷等[8]。
隨著云時代的來臨,大數據也吸引了越來越多的關注。大數據和云計算密不可分,云計算是大數據的基礎平臺與支撐技術;大數據分析常和云計算聯系在一起,因為實時的大型數據集分析需要諸如Map-Reduce的框架來向云端的電腦分配指令和工作。但是,二者也存在一定的區別,如表1所示。

表1 云計算與大數據的比較明細表
由于各種新信息技術的迅速發展,社會網絡的知識傳播與利用方式也發生了變革,公共圖書館的基礎服務體系得到加強;同時,用戶不斷增長的信息需求促使公共圖書館的拓展服務持續延伸,如讀者數據的深度分析和挖掘、知識服務的服務趨勢和競爭力分析、知識創新分析與預測等。公共圖書館歷來是新信息技術應用的重鎮,在當今的“大數據”時代也不例外。公共圖書館亦是大數據的主要來源地之一,其主要數據來源有:用戶借閱流通數據、館藏書目數據和電子數據庫、RFID(RadioFrequency IDentification,無線射頻識別)數據、社交網絡交互數據、移動互聯數據及各種傳感器數據等。大數據技術將給公共圖書館帶來較深刻的影響和創造性的變化,對其知識服務能力和知識服務機制產生較大的沖擊,可以幫助公共圖書館建立和完善新的知識服務方式。大數據為公共圖書館新型知識服務方式帶來的契機與幫助主要表現為:(1)幫助公共圖書館進行用戶流失分析,應對生存危機。由于諸多原因,公共圖書館的存在價值被逐漸淡化,用戶流失現象較為嚴重。公共圖書館借助大數據技術對用戶需求的數據進行分析,不僅可以了解用戶的信息行為、需求意愿及知識運用能力,還可以深度挖掘用戶在交互型知識服務過程中的潛在需求數據,從而有針對性地開展服務并吸引讀者,應對生存危機。(2)幫助公共圖書館建立更智能、靈活的社會網絡知識服務組合方式。公共圖書館可以通過分析各種數據資源的狀況來采取相應的對策,從圖書館的結構化和非結構化數據資源中抓取有用的知識和關聯關系等,完善新的知識服務方式。(3)幫助公共圖書館建立知識服務導航機制。如何利用大數據技術構建公共圖書館的新型知識服務導航機制,將會是公共圖書館界研究大數據的主要議題之一。大數據有助于推動公共圖書館建設新型知識服務導航機制,主要應考慮到用戶知識需求預測導航、多維數據資源的組織和分析導航、用戶信息行為智能分析導航、學術資源搜索導航、數據資源的推薦服務導航等[11]。
公共圖書館作為我國現代社會公共數字文化服務體系中的重要組成部分,理應審時度勢,延伸和拓展對用戶的公共服務,加強新信息技術的應用,提升自身的服務水平和社會價值,助推文化強國建設。隨著公共圖書館開展公共服務的不斷深入和完善,公共圖書館的服務基礎和社會民眾基礎也在逐漸擴大,所擁有的數據量也在不斷增長。對于公共圖書館而言,如何把握大數據帶來的技術優勢與數據分析方法,提高公共圖書館能夠分析的數據比例,提高和加強公共圖書館的知識服務能力,顯得重要而迫切。大數據技術將不可避免地對公共圖書館產生影響,其中大家較為熟知的云計算則是大數據的基礎平臺與支撐技術,主要牽涉到文件系統和數據庫系統、索引與查詢技術、數據分析技術等關鍵技術。目前最為流行的大數據處理平臺是Hadoop,另外還有較多大數據處理工具,如MapReduce等[16]。為了便于大數據的管理,公共圖書館需要建立優質的數據庫系統并構建高質量的索引,以便為讀者提供高效率的數據檢索功能,并且通過先進的數據分析技術從公共圖書館的大數據中提取有用的知識。大數據技術可以幫助公共圖書館獲得準確、及時的用戶數據,為公共圖書館開展公共服務提供強有力的技術支撐;同時,大數據技術在公共圖書館的應用有助于管理者及時了解圖書館最新知識服務的趨勢并作出決策、調整服務方向,進而贏得用戶的支持,提高公共圖書館的核心競爭力。
在新的信息化環境下,數據量急劇增長,數據類型不斷增多,用戶的社會網絡活動產生出大量的結構化和非結構化的數據信息,其數據的格式、類型、結構及存在形態等都變得更加多樣,這就增加了大數據的復雜性。公共圖書館要想形成新的知識服務范式,則必須要善于對海量的用戶數據加以分析,從大數據中發掘出有價值的現實問題。但目前公共圖書館的信息技術人才、數據處理技術和硬件基礎設施等難以滿足大數據的應用及用戶的知識服務需求,大數據的存儲、分析計算和應用等對公共圖書館提出新的嚴峻挑戰。首先,大數據對于公共圖書館的數據存儲能力和范圍、計算能力有著特別高的要求。公共圖書館自身擁有海量的數據,其存儲和運算能力受限,與大數據對存儲能力的高要求存在一定的差距,這就直接決定了公共圖書館擁有大數據的質量。其次,公共圖書館面臨硬件基礎設施和技術人才的挑戰。數據量的迅速增加對支持非結構化數據存儲及分析的硬件基礎設施提出了更高要求。大數據時代,公共圖書館要存儲和分析各類用戶及社會群體等的信息,需要擁有經濟、高效的存儲和計算能力,而這則需要建立在較先進、完備的硬件基礎設施和信息技術人才的基礎之上。因此,需要擁有復雜數據處理的網絡基礎設施、擁有大數據可靠分析和應用的軟硬件基礎設施以及擁有技術較為熟練的信息人才是公共圖書館針對大數據研究與應用的主要挑戰之一。
我國“十八大”的召開將國家信息化提到了較高的戰略高度,其提出要加強社會管理信息化建設、加快公共數字文化服務體系建設和健全信息安全保障體系。這給新形勢下公共圖書館的發展提供了良好的機遇,公共圖書館理應在社會信息化的浪潮中大展宏圖,發揮更積極的作用,如建設好特色數據庫、數字資源服務系統及富有個性的門戶網站等。近幾年,公共圖書館的數據處理也主要是限于將紙質文獻資源等進行數字化、網絡化處理,并購買一些電子數據庫等。這其中牽涉到的大部分是結構化的數據信息,可供分析的數據比例不大,要想從中挖掘出十分有價值的信息難度較大。大數據時代的到來促使社會公眾逐漸對大數據產生興趣,大數據的特征與優勢促使用戶的信息化需求發生變化,用戶迫切需要公共圖書館提供智能化、個性化、較大范圍的知識服務。為了適應國家信息化的發展,盡力滿足用戶不斷增長的信息需求,公共圖書館應該充分利用現有條件,挖掘潛力,改善基礎設施,提高對大數據的分析和處理能力,這是大數據時代公共圖書館發展的主旋律。在大數據時代,公共圖書館應及時變革圖書館的數據處理范圍和方式,根據用戶服務數據和社會網絡數據對用戶的借閱記錄、信息行為、微博日志等各類數據進行深入分析,挖掘出有價值的信息,改善和提高服務方案,提高服務效率。對大數據的分析、提煉與處理將成為新時代環境中公共圖書館的主要業務。
公共圖書館信息化建設程度的不斷提高,知識經濟和知識社會的到來使得知識服務成為當今公共圖書館服務體系中所崇尚和追求的理想服務模式之一。大數據促使公共圖書館服務方式和服務內容發生了改變:現有的公共服務演變為圍繞以數據為中心的知識創新型服務,數據分析和挖掘成為公共圖書館知識服務體系創新與完善的戰略制高點。大數據客觀上要求公共圖書館不僅需要通過數據了解現在知識服務的過程發生了什么、用戶需要什么服務,也需要利用數據對圖書館與用戶的交互關系進行數據挖掘、分析和預測可能發生的信息行為,還需要利用數據對圖書館與科研機構在合作交互型知識服務過程中將要發生的趨向進行分析和預測。在大數據時代,公共圖書館應該確立“以復雜的大數據為對象,以深度分析和數據挖掘為要求”的知識服務高標準,以便建立和完善新型的知識服務模式和營銷方式,積極應對用戶流失和未知的挑戰等風險。
隨著互聯網和社交網絡的發展,社會公眾將在不同的地點留下越來越多的數據痕跡,這些數據具有關聯性和累積性;如果將個人的較多信息行為從不同的獨立地點聚集在一起,其隱私將很可能被暴露,這也是人們較關心的大數據的隱私問題。大數據時代的隱私保護面臨人力和技術兩個層面的雙重考驗,應該在不暴露用戶個人隱私的前提下進行有效的數據分析和數據挖掘,這樣才能確保信息的安全和完整。公共圖書館將會面臨大數據的影響和挑戰,可能也會遭到用戶的質疑:“大數據時代公共圖書館能否有效地保護個人的隱私?”公共圖書館在保護讀者隱私權方面還是較令人滿意的:一向堅持保護用戶的個人隱私權。但在大數據時代這一舉動可能受到挑戰,因為公共圖書館為了改善服務方式、提供更優質的服務,需要通過廣泛的渠道提取用戶的數據信息并加以分析,了解其閱讀愛好和常見的信息行為,以便量體裁衣。那么,新時代下的公共圖書館員應該樹立良好的職業素養,高度關注和重視大數據的隱私問題,堅決維護用戶的隱私權,做到用戶的個人信息在合理、合法的范圍內有效傳播;達到“既充分發揮大數據的優勢,又不侵犯用戶隱私”的雙贏目的。
新興信息技術的出現及新環境的誕生將無可避免地影響包括公共圖書館在內的各類型圖書館服務的變革;大數據時代的來臨將促使用戶產生更高、更現實的知識服務需求。隨著信息通訊技術和社會網絡的發展,公共圖書館將日益產生規模越來越大的數據,從大量的復雜數據中分析、挖掘出其潛在的價值,從而有針對性地開展知識服務將成為大數據時代公共圖書館的一大主要業務和發展方向。筆者主要探討了大數據給公共圖書館帶來的契機與影響以及公共圖書館應用大數據的策略建議。但諸如“大數據在公共圖書館應用的前景如何?”、“公共圖書館應用大數據如何經受實踐的檢驗?”等問題,尚有待進一步研究。
[1]The New York Times.The Age of Big Data [EB/OL].[2013-03-02].http://www.nytimes.com/2012/02/12/Sunday-review/big-datasimpact-in-the-world.html?pagewanted=all.
[2]The White House.Big Data Across the Federal Government[EB/OL].[2013-03-02].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.
[3]The Wall Street Journal.Big-Data Success Stories: Splunk[EB/OL].[2013-03-02].http://blogs.wsj.com/venturecapital/2011/10/21/bigdata-success-stories-splunk/.
[4]中國科學院.李國杰院士:大數據成為信息科技新關注點[EB/OL].[2013-03-02].http://www.cas.cn/xw/zjsd/201206/t20120627_3605350.shtml.
[5]Corral S.Roles and Responsibilities: Libraries, Librarians and Data[G]// Pryor G.Managing Research Data.London: Facet Publishing,2012:212-218.
[6]楊海燕.大數據時代的圖書館服務淺析[J].圖書與情報,2012(4):120-122.
[7]韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.
[8]張文彥,武瑞原,于 潔.大數據時代的圖書館初探[J].圖書與情報,2012(6):15-21.
[9]黃曉斌,鐘輝新.大數據時代企業競爭情報研究的創新與發展[J].圖書與情報,2012(6):9-14.
[10]楊 繹.基于文獻計量的“大數據”研究[J].圖書館雜志,2012,31(9):29-32,37.
[11]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012,31(11):63-68,77.
[12]侯經川,方靜怡.大數據時代的數據引證研究:進展與展望[EB/OL].[2012-03-02].http://www.cnki.net/kcms/detail/11.2746.G2.20121213.1730.002.html.
[13]“大數據背景下的國防科技情報研究”學術研討會在漠河召開[EB/OL].[2013-03-02].http://d.wanfangdata.com.cn/Periodical_qbllysj201209031.aspx.
[14]HBTC 2012.2012 Hadoop與大數據技術大會圓滿落幕[EB/OL].[2013-03-02].http://hbtc2012.hadooper.cn/.
[15]全國哲學社會科學規劃辦公室.2013年國家社科基金申報指南:圖書館、情報與文獻學[EB/OL].[2013-01-28].http://www.npopss-cn.gov.cn/n/2012/1227/c219473-20030485.html.
[16]孟小峰,慈 祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[17]大數據[EB/OL].[2013-03-02].http://baike.baidu.com/view/6954399.htm.
[18]Big Data [EB/OL].[2013-03-02].http://www.en.wikipedia.org/wiki/Big Data.
[19]大數據定義[EB/OL].[2013-03-02].http://wenku.baidu.com/view/2db0c1de7f1922791688e8b6.html.