符雅諾
摘要:文章通過大數據這一概念的闡述和分析,結合行業對大數據的應用,引出在大數據時代背景下,高校圖書館應分析挖掘收集到的結構化、半結構化與非結構化數據中的重要信息,解讀其中的關聯性,整合關聯信息,預測服務方向,是圖書館未來創新服務的重要發展趨勢。
關鍵字:大數據;圖書館;服務
全球知名咨詢公司麥肯錫(Mckinseyand Company)于2011年5發布了《大數據:創新、競爭和生產力的下一個前沿領域》報告,首次提出了“大數據”這一概念,并在報告中指出“數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。”[1]2012年的美國總統競選期間,奧巴馬的競選團隊利用大數據來分析預測選民的結構組成、政治需求、社交關系、行為特征、生活習慣與興趣愛好,制定出基于大數據驅動的資金籌集和競選決策,并最終獲得競選勝利。之后奧巴馬政府宣布推出的“大數據的研究和發展計劃”,該方案計劃投資兩億多美元,在美國國家科學基金、美國國防部等六家政府部門協作下,大力推動及改善與大數據相關的采集、組織、分析、決策工具及技術[2]。
從提出到推廣應用,經過這幾年的發展,大數據的研究與應用已經滲透到全行業的各個方面,大到政策的制定,小到商品的銷售推廣,都與大數據的運用密切相關。大數據時代,如何有效利用大數據來發展圖書館的業務也是這兩年的熱點前沿。重視分析結構化數據,更深層的挖掘非結構化、半結構化數據,整合關聯信息,預測服務方向,是圖書館未來創新服務的重要發展方向。
一、大數據的特征及應用
1、大數據的四種特征。大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數據集合。”技術上,存儲數據的大小達到PB級或EB級的海量數據我們都稱之為“大數據”。但顯然,數據“大”不等于“大數據”。大數據不是對數據規模的定量描述,而是一種在類型繁多、數量龐大的多樣化數據中進行的快速信息提取的技術和思維[3]。
業界通常用4個V(即Volume、Variety、Velocity、Value)來概括大數據的特征:①數據體量巨大(Volume):數據量巨大,數量單位從TB躍升至PB,甚至EB級別,傳統的存儲與計算已經無法處理呈指數級別的數據增長速度;②數據類型繁多(Variety):傳統數據管理流程無法處理異構和可變的大數據,這些數據可能具備結構化、半結構化和非結構化屬性,如訪問日志、網絡檢索歷史記錄、Email、社交媒體、音頻視頻、和傳感器數據等,甚至包括隨時間演變、不一致的和沖突的數據格式;③處理速度快(Velocity):這是大數據區分于傳統數據挖掘的最顯著特征。數據即時生成,同時要求按需提供交互式的、實時或準實時的數據分析,而數據分析的新趨勢,則是超越常規數據分析模型的深度分析需求的增長,因為用戶不僅僅需要通過數據了解現在發生了什么,更需要利用數據及時地對將要發生什么進行預測;④價值密度低(Value):有價值的數據需要從海量的非結構化與半結構化數據中挖掘,并且如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下須臾解決的難題[4]。
2、大數據的商業應用。大數據最開始就是伴隨著經濟增長與互聯網云計算技術的發展應運而生的,就如麥肯錫報告里所說“海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來”。大數據最直觀的運用也是在商業智能和市場營銷這兩個方面。前期數據的抓取和信息分析關聯預測,為后期的商業決策及商品銷售提供了最有效的方案。阿里巴巴旗下的淘寶網就是大數據的“資深玩家”。我們可以發現,不同人群打開淘寶網頁所看到的廣告是不一樣的,關注養生的中老年用戶看到的保健品廣告居多,而愛美的女性看到的服飾、護膚品居多。這就是因為用戶在淘寶上每一次點擊、瀏覽都會留下痕跡,這些痕跡就是他們數據的來源。結合用戶的搜索、購買歷史,根據用戶的地域性、年齡段,來分析用戶的購買習慣,并且推測出用戶的購買需求,由此進行準確的有針對性的廣告投放,已期達到收益最大化。現如今,大數據的應用已經深入到社會生活的每一個角落。對圖書館來說,在大數據時代要想在激烈的市場份額競爭中爭得一席之地,避免邊緣化,開展必要的大數據分析服務也顯得必不可少。
二、大數據背景下圖書館的創新服務
隨著社會信息化進程的加快, 國內高校圖書館基本實現了以互聯網為基礎的信息化建設,以互聯網信息搜索、查詢為基礎的知識信息服務已經成為圖書館服務體系中不可或缺的一部分。大數據時代的高校圖書館依舊以互聯網為基礎,服務模式將從數據信息的提供轉變為對數據的挖掘。利用大數據技術去挖掘、識別、組織與分析隱含在用戶行為中的結構化、非結構化數據與半結構化數據信息,尋找他們的隱性訴求進而改進圖書館的服務,也使高校圖書館能夠找到更好的服務模式面對未來的挑戰[5]。
1、數據信息的收集。 大數據時代的高校圖書館服務所需的數據量也是海量的,當中既有當前圖書館正在建設的文獻資源、數字資源、網絡資源等結構化數據,也有目前圖書館還無法進行或暫時沒有建設的半結構化、非結構化數據,如大量的用戶信息行為數據,這些還未完整收集的用戶數據將極具價值。用戶查詢書目產生的OPAC日志,借還書產生的流通日志,檢索瀏覽下載電子資源產生的日志數據,訪問產生的流量數據及各種社交網絡等[6],這些數據不但記錄用戶的個人信息,還隱藏用戶的閱讀習慣、偏好,通過對這些數據進行挖掘提煉,描述用戶的行為,準確定位用戶的閱讀需求。
2、數據的關聯與分析。高校圖書館開展的大數據分析服務業務,主要基于以下兩個方面:圖書館自身建設所需的大數據分析。這類分析一般以圖書館的已有數據為對象進行分析,如讀者的借閱記錄、閱讀偏好等,是一種對現有資源的分析與挖掘。對這類數據進行深層次分析,挖掘其潛在的關聯性,可以對讀者需求發展趨勢進行準確的預測。用戶所需的大數據分析。這類分析業務主要服務于學科教學與學術研究。其依靠的大量數據可能并非圖書館所擁有,需要加強與院系之間的溝通與合作,從被動的角色轉變為主動的信息提供方。
3、圖書館服務的數據化、智能化。未來圖書館所提供的服務是基于大數據的智能化服務。圖書館根據所收集到的用戶閱讀行為和社會關系數據,準確分析、預測未來讀者閱讀需求和行為發展[7],向讀者主動提供信息推送服務,滿足其個性化的智能服務。圖書館降低運營成本和服務模式復雜度的同時,還提高服務效率和用戶滿意度。
4、應用案例——澳大利亞“圖書館立方”項目簡述[8]。2009年,臥龍崗大學圖書館(University of Wollongong Library,簡稱UWL)與該校績效指標管理中心(PerformanceIndicator Unit,簡稱PIU)合作開發了“圖書館立方”(Library Cule,簡稱LC)項目,將學生的圖書館使用記錄與PIU已有的數據庫相關聯,一方面評估圖書館在教學活動中的影響和價值,另一方面也希望通過收集反饋信息以擴大圖書館信息資源的影響和提高圖書館的價值,同時為學校的教學政策制定提供數據支撐。
工作人員通過“圖書館立方”的數據分析發現,臥龍崗大學學生的學習成績與其利用圖書館信息資源(電子或紙質資源)的情況密切相關,使用圖書館電子資源的時間越長,借閱館藏次數越多的學生,其學習成績可能越好;或者,學習成績越好的學生可能越長時間地使用圖書館的電子資源或更多的次數的借閱館藏。這充分體現了高校圖書館的重要性和價值創造作用。
工作人員分析數據時發現,圖書館紙質館藏和電子信息資源與學生成績之間的關系呈正比的同時,也存在一定的差異。分析其原因,主要有以下兩方面因素。
首先,2010年臥龍崗大學有接近30%的學生沒有借過 1 本書,而沒使用電子資源的學生只有8%;其次,館藏借閱次數最多和使用電子資源時間最長的學生平均分數之間差別較大,且它們與相對應的從不借閱館藏或使用電子資源的學生的平均分數之間的差距分別是 11分和19分。
這從另一個側面反映出隨著信息技術的不斷發展人們信息使用習慣的變化,即電子資源比傳統的紙質資源得到了更廣泛和便利的使用,這為圖書館的信息資源建設傳遞了重要信號。
上述研究表明,一方面“圖書館立方”項目的開展非常有利于圖書館向學校管理委員會和其他上級機構很好地展示其為學校的教學活動創造的價值;另一方面也獲得了一些預期之外的科學結論(如性別、年齡、成績等社會變量與圖書館用戶行為之間的關系),進而為圖書館未來的推廣活動提供準確的細分目標群體,以提高活動的針對性和執行效率。
三、結語
數字信息時代帶來的變革已席卷了整個IT相關行業,大數據的相關技術與思維也已經改變了許多行業的未來。同時,大數據的運用也已經漸漸影響到高校圖書館的服務模式和發展思路。服務是圖書館價值體現的核心,也是其存在的價值與意義所在。新的時代,如何更好的利用新的技術,提高圖書館的服務水平,提升圖書館的核心競爭力,將是日后我們應該更多思考的內容。
參考文獻
[1] Big data: The next frontier for innovation,competition,and productivi-ty.http:// www.mckinsey.com/Insights/ MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_ innovation.2012.08.01.
[2] The White House.Big Data Across the Federal Government[R/OL].[2012-8-10].http://www.whitehouse.gov/ sites/default/files/microsites/ostp/big_ data_fact_sheet.pdf.
[3] 韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2013(5):37-40.
[4] 樊偉紅,圖書館需要怎樣的“大數據”[J].圖書館雜志2012,30(11),68.
[5] 張曉林,李麟,劉細文,等.開放獲取學術信息資源:逼近“主流化”轉折點[J].圖書情報工作,2012,(9):42-47.
[6] 朱靜薇.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013(5),11-13.
[7] 江波,覃燕梅.掌上圖書館、手機圖書館與移動圖書館比較分析[J].圖書館論壇.2012(1),69-71,88.
[8] CoxBL,JanttiMH.Capturing Business Intelligence Required for Targeted Marketing, Demonstrating Value,and Driving Process Improvement[J].Li brary&InformationScienceResear ch,2012,34(4):308-316.