李 明
(福建工程學院,福州 350108)
近年來,“大數據”一詞經常出現,吸引越來越多的人關注與研究,大數據被譽為未來的石油和黃金,并已被廣泛地開發和利用。大數據時代,在數據收集、存儲、處理、挖掘及分析過程中,尋找數據中規律性的東西、提取有用的信息,是大數據的價值所在。高校圖書館在大數據時代,使用云計算、物聯網、智慧城市、移動互聯等新技術產生大量的數據,分析利用這些數據,改變現有讀者服務方式,使之向知識型、智慧型的方向發展很有必要。
目前,對大數據還沒有統一的定義。大數據研究機構Gartner對大數據的定義是:“大數據”是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。而維基百科對大數據的定義是:所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業經營決策更積極目的的資訊[1]。
首先,大數據是結構化數據、半結構化數據與非結構化數據的總和。據DCCI統計,2010年全球數據量達到了1.2ZB(1ZB=1 024EB,1EB=10億GB),在如此龐大的數據中,只有 10%的數據是存儲在數據庫中的結構化數據,其余則是由郵件視頻、微博等產生的大量的半結構化和非結構化數據[2]。其次,大數據的“數據”并非數據存儲,而是數據獲取和數據應用。因為存儲的數據并不具備價值,而大數據的數據是進行高速獲取和應用的數據。目前美國需要14萬到19萬名以上具備“深度分析”專長的研究人員,而對具備數據知識的經理的需求則超過了150萬[3]。研究發現,大數據一般具有4個特點:數據量大(Volume)、類型繁多( Variety)、價值密度低(Value)、速度快時效高( Velocity)。大數據收集、存儲、挖掘及分析需要新技術解決,如云計算即為大數據技術。
大數據時代信息的產生方式日益增多,數據信息量激增。高校圖書館對這些復雜的數據進行存儲、管理和應用存在諸多挑戰。在解決這些問題的過程中,可能會促使高校圖書館管理模式、文獻資源建設模式和發展模式的轉變,但是實現上述模式轉變上面臨著兩個問題:首先,云計算雖然解決了海量數據的存儲和運算問題,但其自身存在的安全隱患等問題使用戶不能完全信任[4];其次,大數據對圖書館數據存儲范圍的要求極高。早在2007年,沃爾瑪就通過對消費者的購物行為等非結構化數據進行分析,創造了“啤酒與尿布”的經典案例[5]。因此,高校圖書館應在大數據時代主動嘗試掌握讀者、館員甚至社會人員的信息。
圖書館要了解自身的數據收集、存貯、分析和挖掘現狀,還必須掌握用戶對圖書館的信息利用與需求度,在知己知彼的前提下,開展數據分析服務。目前,圖書情報界所熟知的聚類分析、數據挖掘、關聯規則、可視化分析、數據融合與數據集成等,這只是針對結構化數據和有限數量的關鍵詞進行聚類分析、共現分析等,并不能真正挖掘非結構化數據和半結構化數據,更不能通過數據預測未來的發展趨勢。一些學者開始思考去采集和利用網絡社交等信息行為產生的大量非結構化數據、半結構化數據,如蘇玉照等人就認為如果能夠采集到Web日志的數據,就能很好地滿足發現關聯規則、內容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進而對定制Web日志的數據模型、過程及方法進行探索。
隨著網絡化、數字化的發展,信息與知識的傳播手段不斷更新,讀者的信息需求也呈現出多層次、多元化的特點。 網絡化、數字化、信息化改變了人們的閱讀方式和學習方式,讀者的要求也從簡單的信息檢索、信息獲取轉變為信息的加工和分享、個性化的信息服務上。 讀者的閱讀方式由以往的紙質閱讀轉變為網絡閱讀、數字閱讀。 數字閱讀的內容也從文字和圖片擴展到了音頻和視頻。 這種全新的閱讀方式具有信息儲存量大、檢索便捷、便于共享等特點,可以使讀者隨時隨地快速獲取所需信息。但網絡閱讀也存在垃圾信息過多、閱讀內容膚淺、碎片化等弊端,有時不能逼真反映原作品的藝術效果。 淺閱讀、大眾閱讀成為一種隱患,它們在傳統經典文化知識的吸取方式上有快餐化、愉悅化取向。
大數據時代,數據搜集與存儲是必備條件,在商業市場中,數據分析被運用得淋漓盡致。如奈飛公司利用客戶的網上點擊記錄,預測其消費需求,進行客戶針對性精準營銷。高校圖書館亦可參考這一做法,根據讀者對館藏資源的點擊率,利用圖書館自動化系統,對館藏資源進行分類與排行,預測讀者喜好,在校園局域網平臺上,對讀者進行文獻信息分類,實現信息精準推送。首先,建立館藏資源大數據,對館藏資源進行精細化分類。利用自動化系統,以學科、出版年、文獻借閱率等不同的標準對館藏文獻進行劃分重組,按照不同的知識體系,以專業性、時效性和讀者喜好度等標準歸類,建立館藏資源的網狀結構系統,使每類館藏文獻體系都有相對應的讀者群,反過來,每類讀者群都有相對應的館藏分類體系,二者一一對應。其次,盡可能使館藏資源體系全面而不失個性化。在文獻采訪過程中,挖掘出館藏數據的價值與隱藏在讀者背后的閱讀需求,預測讀者的閱讀趨勢。目前,市場上的圖書采集器只能進行館藏文獻查重,無法實現按讀者需求采購,結合國外讀者主導式采購系統(簡稱PDA),利用書商提供的電子書單,通過圖書館網絡平臺,積極引導讀者參與圖書采購。
通過讀者數據科學決策讀者服務是大數據時代高校圖書館提升讀者服務能力的重要路徑。大數據時代,高校圖書館要充分利用讀者數據,分析、評估和決策讀者服務,營造一種“重視并回報利用大數據進行決策的文化”。這就要求圖書館必須有“數據優先”思維,把數據作為提升讀者服務能力的首要因素,要充分認識到大數據時代數據的重要性,努力使結構化數據、半結構化數據和非結構化數據為推動讀者服務發展發揮重大作用。為此,圖書館要有“數據驅動”和“數據決策”意識。所謂數據驅動意識,就是不能無視數據的存在及其作用,要在數據的驅動下積極作為。所謂數據決策意識,就是一切決策必須基于數據和數據分析,不能無根據地憑直覺盲目做決策。大數據時代,讀者需求變化前所未有,通過數據分析技術,實時跟蹤并適時分析讀者的閱讀偏好、借閱習慣、借閱記錄、檢索歷史等各種大量的半結構化和非結構化數據,精準把握并準確預測讀者需求及其變化規律,及時科學地做出調整,或變革讀者服務理念、服務內容、服務模式、服務手段和服務時間的決策,適時為讀者提供個性化推薦服務、個性化知識服務、學科化深層服務、嵌入式服務、動態服務、交互服務、電子郵件咨詢、經常性問題解答、即時視像咨詢、遠程數字化合作咨詢和便捷化定題服務等等,從而滿足讀者學習、教學和科研需求的多元化。
對于大數據的認識和應用,國內高校圖書館還處于起步階段,沒有針對大數據應用的管理結構進行調整,如建立讀者數據倉庫或設立數據館員類崗位。而國外一些高校已經設立了與數據管理相關的崗位,如數據館員、數據管理專家、社會科學數據服務館員等[6]。設立特定的崗位,負責和完成數據管理和服務工作,便于讓高校圖書館形成以數據為基礎的資源信息管理模式,建立完善的數據管理服務系統。大數據倉庫和大數據資源管理的建立和實施,都需要專業人才的技能和參與。整個數據收集、整合、集成、分析、共享等工作均需要專業人員的協助,因此,目前國內高校需要重視數據館員的作用。圖書館若要建立以大數據為基礎的采購系統或管理系統,不容忽視數據館員的存在。
主要參考文獻
[1]百度百科.大數據[EB /OL].[2012-09-10].http://baike.baidu.com/view /6954399.htm.
[2][作者不詳]海量數據爆發大數據時代來臨的五個轉變[EB/OL].[2012-08-01].http://labs.chinamobile.com/news/7627.
[3][作者不詳]數據分析人才短缺問題造成當前CIO必須面對的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322816/shtml.
[4]黎春蘭,鄧仲華.信息資源視角下云計算面臨的挑戰[J].圖書與情報,2011(3):17-22.
[5]高勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學出版社,2008.
[6]孟祥保,錢鵬.國外高校圖書館數據館員崗位設置與管理機制[J].圖書與情報,2013(4):12-17.