宓永迪
(浙江圖書館,浙江 杭州 310007)
大數據(big data)指的是:所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊?,F在人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。隨著社交網絡的逐漸成熟,移動帶寬迅速提升,云計算、物聯網應用更加豐富,更多的傳感設備、移動終端接入到網絡,由此產生的數據及增長速度將比歷史上的任何時期都要多,都要快。例如國內最主要的搜索引擎百度,光是其首頁導航每天就要從超過1.5PB的數據中進行挖掘,這些數據如果打印出來將超過5千億張A4紙。全部摞起來超過4萬公里高,接近地球同步衛星軌道,平鋪可以鋪滿海南島。如今,只需兩天就能創造出自文明誕生以來到2003年所產生的數據總量。哈佛大學的社會學教授加里·金說:“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!蔽覀円呀浻瓉砹艘粋€“大數據”時代[1]。
“大數據”的顯著特征表現為:“大量(Volume)、多樣 (Variety)、價值(Value)和快速 (Velocity)”。從互聯網的角度看,這可以歸結為三個基本原因。第一,網絡用戶的高速增長和用戶平均網絡使用時間的不斷延長,使得用戶網絡行為數據大增;第二,網絡服務從單一的文字形式走向圖像、語音和影像等多媒體形式,導致數據量大增;第三,網絡終端由過去單一的臺式機變為臺式機、筆記本電腦、平板電腦、電子書閱讀器、手機和電視等多終端,極大擴充了網絡服務的內容與范圍,大大提高了用戶對互聯網的依賴度,也就大大增加了數據量[2]。
目前,隨著圖書館向數字化、信息化邁進,圖書館擁有、掌握的數據也在日益增加。傳統圖書館的數據主要是流通、書目、采訪數據,數據量不大,一臺普通服務器幾十個GB的硬盤即可存放?,F在越來越多的讀者在網上訪問圖書館的文字和多媒體數字資源,也有越來越多的讀者攜帶自己的筆記本電腦、平板電腦、智能手機等移動終端來圖書館,通過無線網絡訪問圖書館內網和互聯網。這些趨勢使得圖書館的數據大為增加,除了大量本地多媒體數字資源外,還包括了相應的讀者對數字資源的訪問日志、網站的瀏覽點擊量、電子閱覽室的上網記錄、無線網絡讀者登錄數據;引入RFID技術后增加的RFID標簽寫入數據,RFID自助設備流通、盤點數據、書刊定位信息;門禁系統的讀者進出統計信息、視頻監控數據,已經需要TB級的存儲陣列才能滿足要求。今后隨著智能書架的應用,智能圖書館的出現,數據量還可能暴增,包括讀者實時閱覽數據,書刊實時架位信息、被取閱情況;館內電子支付信息,環境、設備監測信息等等。
雖然圖書館掌握的數據量在不斷增加,然而對這些數據的分析、挖掘、利用還遠遠沒有充分開展。各個部門的統計數據仍然是幾個較為傳統、粗略的項目:新增讀者量,讀者流量,圖書借閱量,采購書刊數量、種類,電子閱覽室讀者量等,既缺少總體層面上定量的綜合性分析、判斷、評估,更少見針對某個具體項目或服務的實時動態、精細化的數據表達和解析。如果能夠對大量的數據進行深入發掘,就可以更精確地了解圖書館書刊、資源的利用情況,以及讀者數量的變化趨勢、閱讀偏好、行為模式,各項服務的實際效果等,為實際的服務、管理工作提供及時、有效的數據參考和評價指標。
大數據時代為網絡業帶來了新的機遇。數據量的增加為網絡公司提供了精確把握用戶群體和個體網絡行為模式的基礎,如果能夠充分利用,就可以探索個性化、精確化和智能化地進行廣告推送和服務推廣等服務,創立比現有廣告和產品推廣形式性價比高得多的全新商業模式。同時,通過對大數據的把握,可以尋找出增加用戶粘性、開發新產品和服務、降低運營成本等更多的方法和途徑。淘寶的統計表明,當前商家80%以上的數據需求是針對消費者購買行為的分析,比如點擊量、跨店鋪點擊、訂單流轉量甚至旺旺聊天信息的收集和分析等,都是商家極為關心的[3]。
雖然圖書館的目的是為讀者提供公益性的服務,網絡企業的目的是贏利,但是都是秉承“以用戶為中心”的服務理念,在如何滿足用戶需要、節約用戶成本等方面有著許多共同點。因此,大數據時代同樣為圖書館更深入、準確了解讀者行為和館藏資源利用情況,并充分了解我們自己,提高自身服務、管理水平提供了過去無法獲得的寶貴數據和手段。
例如,通過對各個門類圖書借閱量的統計,而不是只統計一個總的流通量,就可以發現利用率明顯偏高和偏低的圖書種類,從而有意識地增加熱門種類圖書的采購品種和復本量,降低冷門種類圖書的采購數量;進一步分析新書上架后歷年的借閱情況,還能看到有些種類的圖書其借閱量隨時間下降很快,另外一些圖書的借閱量則隨時間緩慢變化,對于二者,就應該適用不同的剔舊年限,而非現在的一刀切方式。更可以在剔除時精確到單本書,對利用率特別高的熱門書暫緩下架。而分析OPAC讀者檢索情況,包括關鍵詞使用的頻率、檢索命中的結果數量、在檢索結果列表中點擊了哪條記錄以及預約續借等情況,可以了解讀者感興趣的內容和其檢索習慣、效果等。如有大量的續借,是否說明借期偏短;某本書預約排隊很長,是否意味需要追加采購量。
通過對讀者數據的分析挖掘,則有利于把握讀者的行為方式,并根據不同讀者的特點開展個性化服務。如分析本館讀者數據時發現,20到30年齡段的讀者占了讀者量的近60%,而他們的活躍程度則最低。因此,如果能吸引更多的年輕讀者,設法增加其粘度,就可起到事半功倍的效果。又例如在統計每年新增讀者基礎上,跟蹤新讀者隨注冊年限變化的動態借閱數量,即可估算出讀者的流失情況,如本館2011年新增讀者當年的借閱比例是80%,而2007年注冊讀者2011年的借閱比例只有20%多,這說明讀者的粘度不夠,圖書館在如何留住現有讀者方面還大有潛力可挖。進一步對讀者借閱情況按月份進行細分,發現讀者借書高峰期是3月到5月,而低谷出現在9月,暑假則是學生最集中的時段,這些數據有助于圖書館細分讀者群,以便在合適的時間開展針對不同讀者的活動。還可以分析每個讀者的閱讀喜好及其變化趨勢,有選擇地開展精準化的新書推薦、活動通知等服務。
圖書館網上的日志數據也為我們定量精確分析圖書館網絡服務提供了手段?,F在許多圖書館都建立了專門針對使用移動終端、主要是手機讀者的移動圖書館,還開展了全文數字資源的移動閱讀服務,但是效果究竟如何,特別是目前手機屏幕越來越大,分辨率越來越高,使用手機等移動終端的讀者是否還需要專門的移動圖書館?如果能對網站的服務器日志進行分析,統計出手機圖書館網站的訪問量與傳統圖書館網站訪問量之比,再更細化地從傳統網站訪問量中抽取出使用移動終端訪問的數量,就可以獲得相關的數據,得出比較有說服力的結論。又如目前圖書館電子閱覽室一般都可憑身份證免費上網,分析本館電子閱覽室的上網日志,可發現有一批以外地年輕打工者為主的讀者,經常用身份證上網卻不愿意花押金辦借書證。圖書館如能深入了解其需求,降低辦證門檻,激發引導其閱讀興趣,也許就能將這些“準讀者”中的很多人轉化為真正的讀者。
大數據對于圖書館的挑戰表現在幾個方面。首先,大數據挑戰著圖書館的戰略決策能力。大量數據提供的信息可能紛繁復雜,互相之間也可能有矛盾,或者和以前的觀念和思路相悖。這就需要能夠透過現象抓住本質,找出關鍵所在,以數據為王,同時綜合考慮其他方面因素,大膽進行工作流程和思路的調整。例如如果發現移動圖書館效果不佳,就應果斷叫停,把精力集中在傳統圖書館網站的改造上,以使其適合多種終端設備,在固定和移動終端上都能有滿意的讀者體驗。
其次,大數據挑戰著圖書館的技術開發、數據處理能力和組織能力。大數據的出現以及潛在的價值不僅要求圖書館配置使用更多的數據存儲設備和有關的軟硬件,而且更要求有專門的數據分析方法和體系。對海量數據的分析不能僅僅局限在一般數據規律和模型的把握水平上,而且要有理論思維和全面把握的綜合深入能力。一方面要從過去基于單個部門、服務、項目的碎片式靜態統計分析轉向全面、完整、動態、實時的分析方法;另一方面要能夠從大量的數據中篩選出真正對提高圖書館服務、管理水平有用的數據,并提煉出合適的算法、模型和表達方式。因此,圖書館既需要有數據工程師開發數據分析挖掘程序,也需要有專門的數據管理和分析專家,制定分析的思路、路徑,對結果進行比較、判斷,為決策提供可靠參考。
圖書館的數據正在日益快速增加,我們應該充分利用這些寶貴的信息資源,以改善圖書館的服務和管理,使得圖書館的服務和管理向精細化、定量化發展。
〔1〕大數據時代:個人信息安全該如何保障[EB/OL].http://www.cnw.com.cn/cloud-computing/htm2012/20120802_251525.shtml
〔2〕DCCI發布:大數據時代互聯網營銷的5個轉變[EB/OL].http://media.people.com.cn/n/2012/0727/c40728-18612202.html
〔3〕 迎 接 大 數 據 時 代[EB/OL].http://www.kaixin001.com/repaste/88276192_6865276452.html#rel ation=parent&message=%7B%22loginprobe%22%3A1%7D&_=0.6974899288499503