(蘭州商學院圖書館 甘肅蘭州 730020)
信息技術的發展與信息設備的普及使用,使得人們日常行為所產生的大量復雜數據都有可能被記錄與分析,進而根據深度的智能挖掘分析產生對未來的預測與分析,沃爾瑪的“啤酒+尿布”經典案例〔1〕就是從大量的顧客非結構化數據中分析得到的。這類復雜的數據就是大數據,隨著其所隱藏的世界越來越被人們所認識和感興趣,大數據引起了世界的重視,被譽為是未來的石油與黃金,美國政府也于2012年3月29日撥款2億美元推行“大數據的研究和發展計劃”〔2〕,如同喬治·布什將網絡信息化上升到國家戰略高度一樣,奧巴馬政府也將大數據上升到了國家戰略高度,并將世界帶入到大數據時代。在這一時代,復雜數據的產生與保存、分析等將對以信息保存、開發、利用為己任的圖書館服務提出挑戰,如何利用大數據技術去挖掘、識別、組織與分析如隱含在用戶行為中的結構化、半結構化數據信息,尋找他們的隱性訴求進而改進、拓寬圖書館服務,并對圖書館的服務趨勢需求進行預測,達到圖書館資源、服務與讀者需求的雙向理想控制已成為大數據時代圖書館的研究選題。本文在對大數據帶給圖書館的影響與挑戰分析基礎上,重點對大數據時代圖書館的服務創新進行了分析。
2011年5月,麥肯錫在《大數據:創新、競爭和生產力的下一個前沿領域》〔3〕報告中指出“數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來”,首次提出了大數據概念。之后,業界對大數據進行了多個定義,但截至目前還未形成統一,只是對大數據的認識達成了一個共識,即:大數據的“大”不是只代表海量,復雜化、多樣化且極具價值也是其屬性。為此,IDC總結了大數據具有的“4V”特性,即種類多(Variety)、流量大(Velocity)、容量大(Volume)和價值高(Value)〔4〕。大數據的這些特性也決定了其隱藏的深刻理念,具體如:①數據的深層分析與價值挖掘是大數據時代信息界的主要業務。②數據的形態多樣且富有價值。③數據的處理將形成新的產業。
大數據的這些特點與隱含理念,都說明了大數據將改變目前的IT架構,與大數據分析在數據對象、運用技術、價值去向等方面都有許多共同之處的圖書館必將在這一大時代產生巨大的變化。首先,圖書館的服務質量提升需大數據的支持。大數據時代,圖書館間的競爭不僅僅是館藏資源、建筑空間、服務水平的競爭,大數據的擁有量及對龐大的各類數據的挖掘與分析能力將成為大數據時代的圖書館競爭的一大關鍵指標,圖書館的發展策略制定將依賴于對大數據的分析與預測。其次,大數據將成為圖書館的核心資產。隨著人們對大數據價值認識的日漸首肯與業界對大數據分析技術的日漸成熟,大數據將變得越來越有價值,大量的如讀者借閱習慣、服務消費痕跡等能為圖書館的未來發展、服務模式進行趨勢分析、發展預測提供支撐的大數據都將成為圖書館的核心資產。再次,大數據處理為圖書館帶來機會與挑戰。大數據要求圖書館不僅需要通過結構化數據了解現在客戶享受了哪些圖書館服務,也更需要利用大量的非結構化數據、半結構化數據在圖書館-用戶的服務關系中去挖掘正在發生什么、預測和分析將來會發生什么,以便圖書館找到更好的服務營銷模式應對未知的危機及挑戰〔5〕。
大數據時代,圖書館的核心競爭力不僅僅是文獻數據信息的競爭,多類數據的擁有、融合、挖掘與利用水平才是圖書館行業間競爭的關鍵因素,加強對多類信息資源的采集與擁有也因此將成為大數據時代圖書館資源建設的一大內容。同時,大數據時代的圖書館服務所需的數據量也是目前擁有的所想象的,這些所需的數據中既有當前圖書館正在建設的文獻資源、數字資源、網絡資源,也有目前圖書館還無法進行或暫時沒有建設的非結構化數據,如用戶信息行為數據,這類目前還未完整收集的用戶行為等非結構化數據將極具價值,很多的圖書館服務只有對大量的用戶數據挖掘、分析才能得出圖書館所需的決策參考。
信息時代,人們的日常信息行為日益頻繁,不管是生活還是工作、娛樂、社交,都無法避免地在多種多樣的信息系統中留下各種信息行為數據,將這些散落在多個系統間的數據進行整合與分析,會再現一個社會個體的運行軌跡和發展全景,這也就是大數據分析。目前,在素有“印度硅谷”之稱的印度班加羅爾已有超過100家以數據分析為主要業務的新型數據公司,如Analytic Edge、Zinnov以及自稱是全球最大的專業性數據分析公司的Mu Sigma〔6〕。據印度全國軟件與服務企業協會(Nasscom)〔7〕2012年的最新預計,印度大數據行業規模在三年內將達到12億美元,是當前規模的6倍,同時還是全球大數據行業平均增長速度的2倍。全球大數據行業的規模預計將在3年內從82.5億美元增至250億美元。大數據分析的發展前景可謂巨大誘人。
對圖書館來說,在大數據時代要想在激烈的市場份額競爭中爭得一席之地,避免邊緣化,開展必要的大數據分析服務顯得必不可少。圖書館開展的大數據分析服務業務,主要可以有以下幾種:首先是圖書館自身建設所需的大數據分析。這類分析一般以圖書館的現有數據位對象進行分析,如讀者的借閱方式、行為愛好等,是一種對現有資源的分析與挖掘;其次是客戶即讀者所需的大數據分析。這類分析業務類似于當今圖書館為企業等客戶群體所做的信息情報參考、競爭情報分析,但也有著很大的區別,如對于分析對象數據的不同、分析手段的不同、分析目的的不同等,這類分析業務所依靠的大量數據可能并非圖書館所擁有,從而成為限制該項業務發展的瓶頸,如何解決此類服務的數據問題是突破該瓶頸的關鍵。
挖掘大數據的價值與隱藏在其背后的世界,簡單的定性、定量分析都不能發揮作用,技術工具的作用將得到進一步放大。因此,圖書館對技術、工具的應用需求也將更為迫切,這也對圖書館的技術應用水平提出了新的要求。《大數據:創新、競爭和生產力的下一個前沿領域》報告中不但首次提出了“大數據”的概念,還對大數據的分析技術與工具進行了列舉,如目前已為廣大圖書情報研究者所熟知的聚類分析、數據挖掘、網絡分析、可視化分析、數據融合與數據集成等。特別是聚類分析、可視化分析與數據挖掘技術。但這些現有的研究目前僅僅只是針對結構化數據和有限數量的關鍵詞進行聚類分析、共現分析等,并不能真正挖掘大量負責數據的存在與表現形態,更不能通過這些分析去預測未來的可能發展趨勢。當然,大量網絡社交等信息行為產生的大量非結構化數據、半結構化數據也讓許多學者開始思考去采集和利用這些信息,如蘇玉照等人〔8〕就認為如果能夠采集到Web日志的數據,就能很好地滿足發現關聯規則、內容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進而對定制Web日志的數據模型、過程及方法進行探索。
大數據背景下的圖書館服務,對技術將提出更高的要求,服務的智能化程度也將達到一個新的水準。首先,從圖書館主體本身來看,圖書館應用智能化技術進行自動的高級、復雜的數據收集及處理工作,既能在一定程度上節省大量的人力物力,也能解決人工可能無法實現的工作需求,如對海量信息數據的智能抓取、關鍵詞抽取等,使得節省下來的大量人力去研究圖書館建設的策略與更進一步的智能化投入。其次,從圖書館的服務對象——讀者來看,服務內容、手段的智能化程度提高與智能化技術、工具、平臺的服務實踐,所需的圖片、視頻、文本等信息將能輕易獲取,個體的信息如社交信息、生活數據等大量的非結構、半結構化數據也都能為圖書館的智能化決策提供分析參考。再次,從智能化服務中的知識流通來看,圖書館服務智能化程度的提高不但有利于知識從單個主體擁有向多個主體擁有的流通與傳播,有利于隱性知識向顯性知識的轉變,也有利于知識的發現、挖掘與組織。
圖書館服務是其價值體現的核心,也是其存在的價值與意義所在,技術的發展與社會的進步都為圖書館服務的發展注入了新的活力與動力,圖書館多年來的服務證明圖書館總是能抓住發展機會,滿足用戶日益增長的文化需求。但大數據時代的來臨,帶給圖書館的不僅是機會,更是挑戰,技術的開發與運用、數據的集成與處理、人才的培養與管理等都是大數據時代圖書館無法回避的問題。今天,圖書館不但面臨著極高的大數據跨入門檻,在市場份額競爭日趨激烈的環境中,還面臨著極高的管理風險,基礎設施、管理體制、發展戰略等都是其成功邁入大數據時代的關鍵因素。因此,圖書館想在大數據時代有所作為,需在對形勢有清醒的認識基礎上,利用大數據創新圖書館服務,提升圖書館的核心競爭力。
1.高勇.啤酒與尿布:神奇的購物籃分析.北京:清華大學出版社,2008
2.Big Data is a Big Deal.http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.〔2012-06-06〕
3.Big data:The next frontier for innovation,competition,and productivity.http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_The_next_frontier_for_innovation.〔2012-08-01〕
4.IBM 公司在大數據領域占有先機.http://it.hilizi.com/server/275232/372589013274b.shtml.〔2012-08-01〕
5.韓翠峰.大數據帶給圖書館的影響與挑戰.圖書與情報,2012(5):37-38
6.印度IT業迎來新生:大數據催生大批分析公司.http://www.chinadaily.com.cn/micro-reading/dzh/2012-10-08/content_7178432.html.〔2012-08-01〕
7.NASSCOM.http://www.nasscom.in/.〔2012-08-01〕
8.蘇玉照,牛曉太,趙妍.提高個性化推薦精度的定制Web日志方法.圖書與情報,2011(5):66-70