馬曉亭
據美國麥肯錫全球研究院2011年6月發布的《大數據:下一個創新、競爭和生產力的前沿》研究報告分析,“大數據已成為與物質資產和人力資本相提并論的重要生產要素,大數據的使用將成為未來提高競爭力的關鍵要素”。隨著大數據時代的到來,圖書館用戶服務保障能力建設重點已從以提高數據中心基礎設施結構科學性和運營效率為中心,向以滿足讀者需求為核心的用戶個性化服務轉變。圖書館有效采集、存儲和管理數據中心的系統運營與監控數據,用戶服務與業務管理數據,圖書館與客戶關系數據,以及讀者的個性化服務需求、閱讀模式、閱讀活動和情感、閱讀社會關系等數據,并對海量數據進行科學的分析、評價和決策,是關系圖書館全面、系統和深入了解用戶需求,并將運營與服務決策方式由傳統的管理層主觀經驗式決策,向依靠大數據的科學、定量化決策方式轉變的重要保證。圖書館只有堅持以用戶需求為中心構建大數據分析平臺,并采用科學的分析與管理策略,才能保證圖書館管理與用戶服務決策內容全面、準確、連續和可評估[1]。
大數據時代,圖書館數據主要由結構化數據、半結構化數據和非結構化數據組成。結構化數據主要是指關系模型數據,即以關系型數據庫表形式管理的數據,主要由圖書館數據中心系統管理數據、監控數據和部分符合關系模型數據特征的服務數據組成。半結構化數據主要指那些非關系模型的、有基本固定結構模式的數據,包括圖書館應用日志文件、XML文檔、JSON文檔和電子郵件等。非結構化數據主要指除去結構化和半結構化數據以外的數據。此類數據沒有固定的結構模式,主要由WORD、PDF、PPT、EXL文檔及各種格式的圖片和視頻等服務、監控數據組成。在圖書館的大數據資源中,非結構化數據約占據數據總量的80%以上,并以成倍的速度快速增長,大幅度增加了大數據系統的結構復雜度,以及數據采集、存儲、處理、分析過程的難度與成本,嚴重影響了圖書館對用戶個性化服務進行大數據分析與決策的科學性、準確性、可用性和可控性[2]。
大數據時代,圖書館通過數據中心系統監測設備、閱讀傳感器信息接收、射頻ID數據采集、移動閱讀終端識別、用戶閱讀行為和數據流監控等方式,獲取關于用戶服務過程和讀者閱讀行為的數據。
首先,圖書館數據中心的運營數據和龐大讀者群閱讀行為數據,具有海量、復雜、隨機、低價值密度和不可預測的特性,大幅度增加了數據的采集、存儲和標準化難度。其次,圖書館的大數據資源通常從多個用戶對象和數據源采集,數據類型包括圖像、文本、聲音、視頻等多種格式。同時,數據內容涉及讀者的閱讀模式、閱讀關系、閱讀愛好、地理位置和時間等信息,具有多源異構的特性。第三,圖書館所采集的數據中心系統和讀者行為數據,具有即時、海量的特點。要求大數據分析系統可通過在線實時分析過程,為用戶個性化服務提供快速的決策支持,滿足用戶個性化閱讀活動的實時性需求。第四,對雜亂無章的大數據資源進行深度挖掘和價值提取,并準確發現關系,是提高圖書館服務有效性和用戶滿意度的深層次知識,是建設智慧圖書館和為讀者提供智慧服務的關鍵。
圖書館通過對系統管理與運營、用戶服務和讀者行為數據的分析,才能獲取大量有深度和有價值的信息。此外,利用大數據的支持可提高圖書館服務系統的管理和運營效率,保證讀者個性化閱讀服務過程安全、高效、滿意。
首先,圖書館在管理、運營和服務過程中,不同的應用項目對大數據分析過程的數據處理性能、數據量、運算速度、精確性、實時性和多樣性要求不同。因此,在大數據分析過程中應結合不同分析對象、過程的特點,采用恰當的大數據分析方法與系統資源分配策略。其次,大數據分析過程應緊密結合讀者個性化服務需求,在對讀者個性化閱讀需求和閱讀行為分析深度價值挖掘的前提下,根據服務場景特點實現精確、即時的個性化服務推薦。第三,大數據分析結果應根據分析對象特點實現可視化的表現。圖書館可以交互的方式管理和分析數據,分析結果須反映用戶個性化閱讀活動和服務的多個屬性與變量,并以多種方式直觀、可視化地表現。
圖書館大數據環境具有數據海量、類型復雜、處理速度高和價值密度低的特點,因此,在大數據采集、存儲、處理和分析過程中,如果不根據分析需求采取有效的質量控制策略,則可能導致數據分析過程成本投入過高和分析效率下降現象發生。
首先,圖書館應制定科學、可控的大數據分析管理策略,提高數據采集、處理與分析過程的效率與管理有效性,實現數據對象、分析技術與決策結果應用三者的統一。其次,大數據主要由海量數據采集、存儲、管理、分析與挖掘、可視化表示和決策等技術組成,應根據圖書館數據分析對象和質量要求,選擇正確的大數據技術標準和大數據處理平臺,實現大數據分析資源、策略和平臺的最優化結合。第三,大數據分析過程應重點加強對數據可視化分析、數據挖掘與分析算法、預測性分析能力、數據采集質量和分析過程科學性的管理,最終實現大數據分析過程的質量可控[3]。
傳統IT環境下,圖書館在對讀者閱讀需求分析和服務模式定位時,通常會以自身工作經驗、感性認識和知識積累為依據,而不是依靠大數據分析結果為基礎獲得科學、理性的實證分析,因此分析過程和知識獲取具有較強的盲目性和局限性。隨著大數據技術在圖書館應用的不斷深入,圖書館應通過科學采集和分析大數據資源提升自身的運營效率、服務質量和競爭優勢。
圖書館大數據分析的目標首先應是對讀者閱讀需求、大數據服務環境、讀者閱讀行為和閱讀模式變革、個性化服務風險的精確定位和預測,為讀者個性化閱讀服務內容、方法與模式的變革提供可靠的數據支持。其次,可通過大數據挖掘來發現、優化圖書館服務資源的配置,不斷提高服務管理質量、決策水平、系統運營效率和用戶滿意度。第三,大數據分析應準確定位用戶服務的風險和市場競爭環境,及時分析、發現和預測用戶個性化服務過程中存在的安全威脅與不穩定因素,提高讀者個性化服務的安全性和可靠性。
大數據時代,圖書館大數據資源主要由傳感器設備采集數據、網絡監控和讀者服務調查數據、移動服務商共享數據、閱讀終端反饋數據、射頻ID數據等組成。首先,圖書館大數據資源呈現數據總量快速激增、分散存儲和異構數據協同整合的趨勢,導致數據管理、存儲、傳輸與分析難度增大。其次,隨著數據源的不斷擴展和結構復雜性增強,大數據資源呈現多樣性、低價值密度、價值挖掘難度大、錯誤或無用數據占數據總量比例上升現象。第三,數據分析師的專業素質、大數據平臺結構科學性、預測與分析軟件的可用性、分析結果對圖書館服務與讀者滿意度提升有效性等因素,也是關系圖書館大數據分析效率和風險可控的重要因素[4]。
圖書館大數據平臺信息分析流程圖主要由數據源、數據采集與存儲、數據過濾與價值提取、知識發現、預測分析與決策五部分組成,如圖1所示:

圖1 圖書館大數據平臺信息分析流程圖
圖書館大數據資源主要由系統監控器、視頻監控、射頻信號識別、閱讀終端設備、網絡監控器和閱讀傳感器等數據源組成。數據采集與存儲平臺利用云計算、數據集成等技術,對數據源進行數據的采集與存儲,為上層提供高效的數據存儲與管理服務。數據過濾與價值提取層,可對底層采集的海量數據進行數據過濾和價值提取,并在減少所采集大數據資源總量和提高價值密度的前提下,降低大數據挖掘與分析系統的負荷。知識發現層可對下層傳輸的信息進行深度挖掘,并從信息中發現知識,實現讀者需求、閱讀行為、系統管理和讀者群關系的精確發現。預測分析與決策層是分析流程的最高層,可對用戶需求、未來閱讀模式發展趨勢、服務系統運行、安全隱患和市場環境變化進行智慧分析和預測,并對圖書館個性化智慧服務的模式、策略、內容和安全防范措施進行決策與評估[5]。
2.2.1 增強圖書館對大數據資源的智慧分析能力
增強對大數據資源的智慧分析能力,是圖書館樹立以“智慧分析和決策”為核心的大數據戰略思想,以及高效整合大數據平臺價值體系和科學分配、調度系統資源,利用大數據支持提高圖書館讀者個性化服務風險預測、分析與決策、讀者閱讀體驗、系統運營整體效率和市場競爭力的重要內容。
首先,圖書館應依靠大數據資源的支持,提高對讀者閱讀需求、內容、方法和模式的預測和判斷能力,明確讀者未來個性化閱讀活動的時間、地點、對象、方法和內容,并在提高個性化服務針對性和質量的前提下,降低用戶服務的成本投入。其次,增強圖書館大數據的智慧分析能力,就是要將以大數據資源為核心的圖書館服務能力建設,轉變為以大數據資源采集、處理、建模、分析和系統反饋、優化全過程為核心的綜合保障,確保大數據智慧分析過程安全、高效、可用和可控。第三,圖書館應根據大數據分析的對象、內容和質量要求,選擇科學、高效、快速和經濟的分析算法,確保對大數據資源有較高的質量和知識提取效率,并且分析平臺可自動、智能地從數據中提取高價值密度的信息。第四,圖書館大數據的智慧分析平臺應具備實時分析和可視化分析能力,可將分析結果準確、快速、友好和多模式地表示,確保讀者個性化閱讀服務過程具有較強的前瞻性、即時性和可控性[6]。
2.2.2 大數據分析應以讀者個性化服務需求為中心
大數據時代,圖書館應以讀者個性化需求與服務為中心,逐步建立依據用戶需求、業務優先等級和服務收益為標準的大數據戰略目標,才能有效提高大數據采集、處理、整合、分析和決策的效率。
首先,圖書館應通過對用戶閱讀反饋與服務系統運營大數據信息的監測、分析,提高大數據平臺對用戶個性化服務安全隱患、突發事件、服務質量潛在風險的預測、判斷和評估能力,為安全防范策略的制定與實施提供科學的數據支持。同時,還應通過對用戶閱讀需求、閱讀內容和閱讀環境的準確預測,提高讀者個性化閱讀滿意度并降低客戶流失率。其次,大數據分析過程應以絕大多數讀者的海量閱讀行為數據為基礎,不能為了降低數據采集、存儲、處理和分析成本而采取用戶抽樣的方法,避免因所采集的個別讀者最小量行為樣本數據的片面、局限性,而影響分析結果的全面性和準確性。第三,大數據分析應以讀者閱讀時限需求為依據,對于用戶多媒體閱讀需求預測、用戶行為即時分析、安全風險監控與評估等大數據應用,應采用海量數據實時分析的方法,確保大數據服務過程具有較高的安全性、質量保證和可靠性。而對于離線統計分析、機器學習、服務策略評估與優化等實時性要求不高的大數據分析,則可采用離線數據分析的方法,在保證滿足系統管理和服務需求的前提下大幅度降低大數據分析成本[7]。
2.2.3 構建科學、高效和經濟的大數據分析中心
圖書館構建科學、高效和經濟的大數據分析中心,重點應加強大數據分析中心架構科學性、數據存儲效率和數據分析能力建設三部分內容。
首先,圖書館大數據信息具有數據源多樣性、數據海量、數據傳輸時效性要求高和處理速度快的特點。因此,大數據分析中心架構必須科學、開放、異構、透明、跨平臺和具備智能化管理的功能,并擁有較高的IT架構智慧管理、智能計算和低碳運營能力,可通過智慧管理實現數據采集存儲、計算、分析、決策的精細化管理與資源最優化配置。其次,隨著圖書館大數據資源總量和存儲標準的增長,圖書館應依據大數據源位置、數據分析流程和數據流傳輸時延,構建高性能的光纖通道存儲區域網絡,滿足大數據平臺實時分析過程對數據高速即時傳輸的需求。同時,數據存儲應采用虛擬化和分布式多節點存儲方法,將大數據資源存儲在位于不同地理位置的圖書館子數據中心里,在保證大數據資源準確、可控和可快速更新的前提下,確保大數據資源存儲管理安全、高效、快捷和經濟。第三,圖書館大數據分析能力的提升,是一個關系數據中心IT基礎設施架構科學性、數據分析算法有效性、數據中心系統整體優化、數據分析過程可視的綜合問題。因此,圖書館應重點解決好大數據平臺計算資源管理與分配、分析算法科學性與可擴展性、分析系統安全性與穩定性、數據傳輸網絡效率、數據分析平臺的能耗與低碳等問題。此外,還應加強大數據分析平臺的智能化與機器自我學習能力,保證分析系統可根據分析對象和內容的變化,對分析算法和過程進行智能的調整與優化[8]。
2.2.4 確保大數據資源具有較高的安全、可用性
大數據環境下,只有保證大數據資源具有較高的安全、可用性,才能保證圖書館大數據分析過程安全、高效、可控和經濟,才能保證分析結果全面、準確、可用和可對系統管理與用戶服務進行實踐指導。
首先,圖書館在用戶行為與閱讀社會關系數據采集過程中,應將讀者的個人隱私保護放在首要位置。讀者必須擁有對自身數據采集、存儲、分析和共享的知情權與決定權,圖書館不能隨意監測、采集、使用和泄露用戶隱私數據。其次,圖書館應建立科學的大數據資源采集、存儲和分析流程,不斷提高存儲架構科學性和分析過程可行性。同時,應通過對大數據資源的過濾和價值挖掘,不斷降低大數據資源總量并提高數據的價值密度,最終建立與讀者個性化服務相匹配的數據分析流程。此外,還應防止大數據分析過程出現經驗主義和長官意志現象。第三,大數據資源的安全與可用性保障內容,應重點放在提高數據準確性、存儲適用性、可搜索與查詢性、數據集可擴展性與穩定性四個方面,這樣才能確保數據采集、抽取、清理、分類管理、轉換和加載過程規范、標準化[9]。
大數據時代,讀者對圖書館個性化服務的內容、模式和服務質量有了更高的要求。同時,大數據環境數據量與數據結構復雜度的快速增長,也給圖書館大數據的準確、高效、快速和深度分析帶來了挑戰。圖書館在大數據平臺數據分析能力建設中,應堅持以用戶需求和服務質量保障為中心,重點加強在大數據資源采集、存儲、處理、分析和決策過程中的數據管理科學性與效率。同時,在大幅度降低大數據資源總量和數據分析平臺系統負荷的前提下,不斷提高大數據分析平臺的系統結構科學性、分析系統運行效率、分析算法可用性和大數據資源的價值密度,確保大數據分析過程安全、高效、快速和經濟,為讀者個性化服務和圖書館智慧管理提供科學、全面、即時和可靠的大數據分析與決策支持[10]。
[1][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013:1-15.
[2]李晨暉,崔建明,陳超泉.大數據知識服務平臺構建關鍵技術研究[J].情報資料工作,2013(2):29-34.
[3]張延松,焦敏,王占偉,等.海量數據分析的One-sizefits-all OLAP 技術[J].計算機學報,2011,34(10):1936-1946.
[4]覃雄派,王會舉,杜小勇,等.大數據分析:RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(1):32-45.
[5]漆晨曦.電信企業大數據分析、應用及管理發展策略[J].電信科學,2013(3):12-16.
[6]沈來信,王偉.基于Tree-Lib的大數據實時分析研究[J].計算機科學,2013,40(6):192-196.
[7]Russom P.Big Data Analytics[R].Tdwi Best Practices Report.Fourth Quarter,2011:15-21.
[8]王柯柯,崔貫勛,倪偉,等.基于單元的快速的大數據集離群數據挖掘算法[J].重慶郵電大學學報:自然科學版,2010,22(5):673-677.
[9]唐杰,楊洋.移動社交網絡中的用戶行為預測模型[J].中國計算機學會通訊,2012,8(5):21-25.
[10]王珊,王會舉,覃雄派,等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):1741-1752.