韋曉凱
(南京理工大學圖書館 江蘇 南京 210094)
大數據是繼web2.0和云計算之后近年來最受關注的焦點之一,它受到了信息科技領域研究人員越來越多的關注。麥肯錫研究院于2011年在《大數據:創新、競爭和生產率的下一個前沿》[1]報告中,提出“大數據”時代已經到來。2012年奧巴馬政府發布了“大數據研究和發展計劃”[2]。聯合國在2012年6月專門發布了大數據發展戰略[3],這是聯合國首次就一個單獨技術問題發布報告。“大數據”已經成為當前研究熱點之一。
目前,對大數據還沒有統一的定義。大數據研究機構Gartner對大數據的定義是:“大數據”是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。而維基百科對大數據的定義是:所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業經營決策更積極目的的資訊[4]。
首先,大數據是結構化數據、半結構化數據與非結構化數據的總和。據DCCI統計,2010年全球數據量達到了1.2ZB(1ZB=1024EB,1EB=10億GB),在如此龐大的數據中,只有10%的數據是存儲在數據庫中的結構化數據,其余則是由郵件、視頻、微博等產生的大量的半結構化和非結構化數據[5]。
其次,大數據的“數據”并非數據存儲,而是數據獲取和數據應用。因為存儲的數據并不具備價值,而大數據的數據是進行高速獲取和應用的數據。目前美國需要14萬到19萬名以上具備“深度分析”專長的研究人員,而對具備數據知識的經理的需求則超過了150萬[6]。
大數據主要有四個特點:(1)大量化(volume):大數據的數據量巨大。據統計,2011年全球產生的數據總量達到1.8ZB。預計到2020年這一數值將達到35ZB。可見大數據不但體量巨大而且增長速度極快。(2)多樣化(variety):大數據的數據類型很多,包括網絡日志、視頻、聲頻、圖片、地圖等。在海量的數據中非結構化數據所占的比例很高,如何獲取其中的價值,對傳統的數據分析處理方法和軟件提出了挑戰。(3)快速化(velocity):大數據要求對多樣化的海量數據進行實時處理,這對處理效率的要求非常高。這一點與傳統的數據挖掘技術有著本質的區別。(4)密度低(veracity):價值是大數據的意義所在,大數據的價值雖然巨大,但其價值密度卻很低,比如用戶在查找資源時,搜索引擎會提供海量資料,但對用戶有使用價值的可能只有少數幾條。這正是大數據分析的難點,即對海量數據進行挖掘分析。
隨著網絡技術的不斷發展,讀者獲取信息的途徑越來越多,高校圖書館很難像以往那樣僅靠館藏資源來吸引讀者。對大數據時代的高校圖書館而言,不但要提升館藏資源的種類和質量,還要為不同類型的讀者提供具有針對性的個性化服務,這樣才能真正吸引讀者,實現自身的可持續發展。
高校圖書館本身就擁有大數據,工作人員應注重對大數據的收集,高校圖書館的大數據主要包括:(1)數字化資源。目前數字化技術在高校圖書館的應用較為普及,經過多年的建設和維護,高校圖書館擁有了大量的數據庫、電子書等資源,這些資源總量較大,而且增長速度也比較快,是大數據的重要組成部分。(2)讀者瀏覽歷史所形成的非結構化數據。高校圖書館的館藏資源并不是大數據的全部,對讀者各種數據的收集就是大數據的空白。高校圖書館應該重視對讀者數據的收集工作,讓這些數據為我們所用,從而提高自身的核心競爭力。
大數據時代的到來不但改變了傳統IT結構和數據存儲、利用機構的職能,也對作為存儲信息、提供信息服務的高校圖書館產生了巨大的沖擊和挑戰。
大數據時代信息的產生方式日益增多,數據信息量激增。高校圖書館對這些復雜的數據進行存儲、管理和應用存在諸多挑戰。在解決這些問題的過程中,可能會促使高校圖書館管理模式、文獻資源建設模式和發展模式的轉變,但是實現上述模式轉變上面臨著兩個問題:首先,云計算雖然解決了海量數據的存儲和運算問題,但其自身存在的安全隱患等問題使用戶不能完全信任[7];其次,大數據對圖書館數據存儲范圍的要求極高。早在2007年,沃爾瑪就通過對消費者的購物行為等非結構化數據進行分析,創造了“啤酒與尿布”的經典案例[8]。因此,高校圖書館應在大數據時代主動嘗試掌握讀者、館員甚至社會人員的信息。
隨著社會信息化進程的加快,數字化、網絡化、智能化服務已成為我國圖書館服務的主要內容。截至目前,國內圖書館大部分實現了信息化,這為圖書館拓展服務提供了資源基礎和機制保障。但同時也發現了一些問題,一方面,圖書館特別是公共圖書館的服務主要還是依靠紙質資源的傳統服務;另一方面,圖書館所提供的數字化服務主要是基于數據庫以及紙質文獻資源的數字化,大部分都是結構化數據[9]。因此,大數據時代的到來,圖書館所存的數據結構將發生巨大變化,非結構化數據、半結構化數據將占據較大比例,大數據的特性與優勢將在日常的生活中逐漸凸顯出其巨大的優越性。民眾的需求也將隨著這些人性化、個性化的高滿意度服務出現而迫切希望圖書館等信息中心能提供大數據分析、處理等專業化知識服務。圖書館應緊跟時代步伐,把握事業發展主旋律,通過改善基礎設施、提高人才素質,來拓展和完善圖書館的大數據分析、處理業務。
圖書館信息化程度的提高,使得信息服務成為了當前圖書館服務的主要內容之一,使得以互聯網信息搜索、查詢為基礎的知識信息服務逐漸被更多的圖書館所吸納與實踐。但不管是簡單的信息服務還是結合了信息檢索、組織、分析等高級業務素養去完成的知識服務,都可歸納為只是就數據而進行的服務,盡管有了Web2.0等互動技術的推動后圖書館服務的個性化、人性化服務有了顯著提高,但交互性程度并不高,個性化、人性化服務也只是簡單的以用戶的結構化數據,如根據服務訴求、專業特長等數據,去完成一定程度上的差異化服務。但大數據則要求圖書館不僅需要通過結構化數據了解現在客戶需要什么服務,也需要利用大量的非結構化數據、半結構化數據在圖書館用戶的服務關系中去進行數據挖掘,進而分析可能發生的信息行為,還需要利用數據對圖書館與科研機構在合作交互型知識服務過程中將要發生的趨勢進行預測[9]。
隨著大數據時代的到來,高校圖書館傳統的服務模式以及文獻資源建設體系已逐漸跟不上發展潮流,對讀者的吸引力也日漸衰弱,導致到館人數和借閱量逐年遞減。為了提升圖書館的地位,充分利用館藏資源,配合學校工作,高校圖書館應加強以下工作:
高校圖書館應轉變觀念,改進服務模式,增強主動服務的意識,不斷探索、拓展服務體系。要實現以上目標,高校圖書館首先應該實現從“吸引讀者到圖書館來”到“將圖書館服務送到讀者中去”的轉變,針對不同類型讀者提供個性化的服務,通過對用戶數據的分析,提高自身個性化服務水平,開展跟蹤服務、上門服務、相關知識服務以及宣傳推廣等服務,做到能夠及時從海量數據中提取有價值的信息,建立用戶模型,從而提高服務質量。同時加強組織管理,完善文獻資源建設管理以及培訓、分析評價措施等科學管理體制,積極吸納用戶參與到圖書館的服務體系中,從而提高對讀者的吸引力,提高讀者對自身服務的滿意度。
高校圖書館應該建立交互式信息共享平臺并設置用戶互助、論壇等欄目,為館員與用戶之間開辟交流渠道。開設上述欄目既可以發揮圖書館館員的咨詢作用,也可以吸納讀者參與到圖書館建設和管理工作中,同時也可以了解讀者的最實際需求,進而切實地提高圖書館個性化服務的質量,并通過對信息平臺中反饋的讀者數據進行收集、分析,在宏觀上掌握科研熱點、教育重心等信息,為科研人員、學校教務部門提供決策支持,幫助他們盡早洞察科研和教育工作的最新走向,從而提高高校圖書館的作用和地位。
圖書館使用大數據分析可以更好地分析讀者偏好,對讀者進行個性化服務,提升服務品質。由于大數據分析難度較高,需要強大的硬件作為后臺支持,而高校圖書館的經費以及人力物力有限,因此,高校圖書館可以通過加強與兄弟院校圖書館的合作來緩解這一矛盾,積極拓展高校圖書館館際資源共享的覆蓋范圍,在此基礎上掌握好資源質量,以滿足讀者的需求,并且可以根據需要購買,以解決基礎設施以及人員方面的不足。
近年來,我國圖書館事業發展迅猛,數字化、智能化服務已成為高校圖書館發展的新方向,國家數字圖書館工程、CALIS、CADAL等數字資源建設項目極大地豐富了圖書館的館藏數字資源,也為大數據時代高校圖書館的發展提供了物質基礎和制度保障。圖書館應緊跟時代步伐,把握事業發展主旋律,通過改善基礎設施、挖掘服務潛力、提高人才素質,來拓展和完善圖書館的大數據分析、處理業務。
傳統高校圖書館的服務方式僅將文獻信息檢索出來,不能為讀者提供價值參考。隨著大數據時代的到來,海量的信息使讀者難以分辨哪些是自己實際需要的,往往迷失在大量的檢索結果中,白白浪費大量的時間和精力。針對諸如此類問題,高校圖書館需要在個性化需求和專業化資源組織之中尋求一個平衡點,既不能為了迎合用戶的需求而使資源組織混亂,也不能只考慮規范問題而使資源組織專深化。圖書館需要在傳統的學科分類、主題分類之外,增加一些人性化的資源組織方法,適當考慮用戶的用詞習慣。如提供自然語詞的檢索,在后臺對自然語詞和主題詞進行匹配運算,然后給用戶提供一些智能化的檢索提示,增強用戶的搜索體驗。
大數據的產生使得高校圖書館的服務從以文獻資源為核心轉向以數據信息為核心的知識創新服務,數據信息的相關服務成為高校圖書館創新服務的新動力。但在轉變過程中,用戶將更加重視對于個人信息的保護,如何解決好這個問題是高校圖書館將要解決的難題。高校圖書館在處理信息安全問題時,必須遵守職業道德、建立完善的保障體系、提供高水準的專業服務、進行合法的數據信息利用和傳播,從而實現既充分發揮大數據的優勢,又不侵犯用戶隱私的共贏目標。
大數據是變革性的高端技術,它對高校圖書館從業人員的素質要求非常高,因此,如何培養本土的大數據人才是目前亟待解決的問題。高校圖書館應該放開心態,努力學習先進技術,改變原有信息服務方式,積極培養數據處理人才,同時開展對可獲取數據的收集工作,為日后的發展打好基礎。
大數據技術的出現,改變了人們對數據的認識,人們可以憑借大數據技術探索隱藏在海量數據中的價值。高校圖書館在大數據時代的起步已經晚于其他行業。盡管高校圖書館有豐富館藏資源的優勢,但相比其他行業,高校圖書館在技術、資金、人力等方面的劣勢約束了自身的發展,如何避免被邊緣化將是高校圖書館即將面臨的一個難題。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL]. [2012-12-09].http://www.mckinsey.com/Features/Big_data.
[2]Big data is a Big Deal[EB/OL].[2012-11-19].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
[3]Big data for Development:Challenges&Opportunities[EB/OL].[2012-11-19].http://www.unglobalpilse.org/.sites/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf.
[4] 百度百科.大數據 [EB/OL].[2012-09-10].http://baike.baidu.com/view/6954399.htm.
[5]海量數據爆發 大數據時代來臨的五個轉變[EB/OL].[2012-08-01].http://labs.chinamobile.com/news/76217.
[6]數據分析人才短缺問題造成當前CIO必須面對的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322816/shtml.
[7]黎春蘭,鄧仲華.信息資源視角下云計算面臨的挑戰[J].圖書與情報,2011,(3):17-22.
[8]高勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學出版社,2008:2-5.
[9]王天泥.大數據視角下圖書館的發展對策[J].圖書館學刊,2013,35(3):42-44.