陳 臣 衛中亮
(蘭州財經大學信息中心 蘭州 730020)
2008年11月,IBM公司提出了“智慧地球”的概念。2009年1月,美國總統奧巴馬公開肯定了IBM“智慧地球”的思路。2009年8月,IBM又發布了《智慧地球贏在中國》計劃書,正式揭開IBM“智慧地球”中國戰略的序幕[1]。“智慧圖書館”作為“智慧城市”的重要組成部分,伴隨著世界各國“智慧地球”與“智慧城市”發展戰略的制定,受到了各國學者和專家的重視。特別是近年來隨著互聯網、云計算、大數據、移動寬帶通信技術、物聯網和空間地理信息等新一代信息技術在圖書館中的廣泛應用,圖書館的智慧化管理與服務模式、大數據環境、服務資源的融合方式、智慧圖書館的構建理念等也跟著發生了深刻變革。智慧圖書館構建模式與方法的科學性、效率、經濟性和可行性,已成為關系圖書館管理與服務過程智慧、綠色、低碳和可持續發展關鍵。
IBM定義的“智慧地球”由三個維度組成:第一,能夠更透徹地感應和度量世界的本質與變化;第二,促進世界更全面地互聯互通;第三,在上述基礎上,所有事物、流程和運行方式都將實現更深入的智能化,企業因此會獲得更智能的洞察[2]。因此,在“智慧圖書館”的構建中,也應當注重三個維度的建設。首先,智慧圖書館應能夠全面感知讀者的閱讀需求和閱讀模式變化;其次,能夠實現圖書館所有設備與閱讀終端的互聯互通;第三,基于所有設備、服務流程和讀者相關閱讀大數據的支持,圖書館能夠實現更智能的洞察與自主學習。在“智慧圖書館”三個維度的建設中,大數據具有海量(Volume)、高速(Velocity)、多樣性(Variety)、低價值密度(Value)和Veracity(真實性)的5“V”特性,可為“智慧圖書館”建設提供科學的數據決策支持[3]。此外,最早提出大數據時代到來的麥肯錫公司也表明:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來”[4]。在當今大數據時代下,圖書館可通過對大數據的采集、融合、分析和決策,精準和實時地發現大數據中蘊藏的價值屬性和事物關系,實現對外部服務環境的智慧感知、讀者閱讀需求的智慧預測、個性化服務的智慧定制、系統資源和服務安全的智慧管理,完成圖書館管理與服務模式從館員經驗決策向大數據科學決策的轉變。
2010年,IBM公司提出了“智慧的城市”愿景,認為智慧城市是由關系到城市主要功能的多類型網絡、基礎設施和環境等6個核心系統組成,主要為組織(人)、業務/政務、交通、通訊、水和能源[5]。“智慧圖書館”作為“智慧城市”的重要組成部分,按照其組織與系統功能的劃分,它就是傳統的圖書館與物聯網絡、云計算和智能化設備等的結合,通過物聯網來實現圖書館的智慧化管理和服務。“智慧圖書館”主要由圖書館員與讀者、IT基礎設施服務系統、物聯網基礎設施、大數據中心、云計算系統、高速數據傳輸網絡等6部分核心系統組成,可有效實現對讀者需求的全面感知、服務設備與閱讀終端的泛在互聯、基于大數據決策的智慧服務創新、圖書館發展的可持續創新等。歐盟對“智慧城市”的功能性從6個方面進行了總結,分別是智慧經濟、智慧治理、智慧生活、智慧人民、智慧環境、智慧移動性。依據“智慧城市”的功能性劃分原則,“智慧圖書館”可分為智慧環境、智慧管理、智慧服務、智慧閱讀、智慧館員與讀者、智慧監測等6個方面。智慧圖書館以讀者為中心,通過對知識、信息、服務資源和讀者進行智慧化的感知與管理,完成圖書館智慧知識服務內容、服務內涵和服務能力的實時增值,實現讀者的“綠色”閱讀和圖書館的可持續發展。因此,在智慧圖書館的構建中,應利用高科技實現單一圖書館知識網格的互聯互通和資源的最大化重復利用,使每一個圖書館都成為全球圖書館智慧化結構的組成部分。圖書館除為讀者提供傳統的信息搜索和知識傳遞外,還應通過語義技術對服務數據進行處理和知識提取,以及依靠傳感器和各種終端設備實現與讀者的互聯、感知,為讀者提供基于大數據決策支持的個性化智慧推送服務。
2.2.1 圖書館大數據的組成與特點
按照大數據的來源和決策對象劃分,圖書館的大數據資源可分為讀者閱讀行為相關數據、圖書館知識服務數據、業務流程數據、IT基礎設施設備運行與管理數據、傳感器網絡與閱讀終端數據、第三方服務商共享數據等。這些數據具有大數據的5“V”特性,是圖書館對服務環境智慧感知、所面臨服務風險的智慧預測與防御、讀者閱讀需求的智慧分析、讀者個性化服務內容的智慧化定制與推送、服務系統資源的動態與智慧優化、圖書館可持續科學發展的重要決策依據[6]。
麥肯錫發布的《大數據:創新、競爭和生產力的下一個前沿》報告指出,全球有將近 87.5%的數據并未得到真正的利用[7]。因此,如何提升圖書館大數據的可用性是關系大數據決策科學性的重要因素。首先,隨著圖書館服務模式多樣化和服務內容的快速增長,其大數據的數據總量與數據價值呈現幾何級數增長,而大數據的價值密度和可用性則呈現快速下降趨勢,大幅度增加了大數據價值提取和智慧決策的復雜度。其次,伴隨云計算和計算機集成制造技術的快速發展,數據中心對大數據的處理速度與存儲能力已不再是決定圖書館數據決策科學性的最關鍵問題,而大數據處理的方法及算法的科學性與正確性,才是關系圖書館智慧決策正確性、實時性和可用性的最關鍵因素。第三,圖書館大數據具有數據類型多樣的特點,其非結構化與半結構化數據占據大數據總量的85%以上,且隨著大數據復雜度的提升,非結構化與半結構化數據占據大數據總量的比例還將進一步提升,這對圖書館大數據系統的數據處理能力和處理方法提出更高的要求[8]。第四,如何通過有效的大數據噪聲過濾、數據融合和數據相關性分析,來提高大數據的價值密度、完整性、精確性和可用性,也是關系圖書館大數據決策科學性、準確性和實時性的重要問題。
2.2.2 從讀者相關大數據中可精準感知用戶的閱讀需求與行為
隨著讀者閱讀需求的快速增長和圖書館服務模式多樣化的變革,圖書館原有的服務生態系統和客戶關系也發生了巨大的變化。如何通過對大數據價值的挖掘和科學分析,全面掌握讀者的客戶屬性、行為特征、價值分層、閱讀需求和服務標準,已成為智慧圖書館構建和讀者閱讀質量評估的重要因素。首先,圖書館可將大數據科學分析與決策結果運用到讀者閱讀活動生命周期管理的全程中,完全、動態、實時、準確地與讀者進行智能化感知和交互,動態掌握讀者閱讀需求和興趣的變化趨勢,完成讀者個性化閱讀服務的智慧定制、優化與實時推送,實現圖書館服務從傳統的館員“經驗”決策向大數據“科學”決策轉變。其次,圖書館可通過大數據分析實現讀者客戶價值的定位與評估,按照讀者價值評估結果進行客戶分級、客戶結構優化、個性化服務定制、服務風險預警、CRM系統決策、服務滿意度評估、讀者忠誠度保證等,并依據“二八定律”科學分配系統的服務資源和提升20%關鍵客戶的閱讀收益率,最終實現圖書館綜合服務收益和讀者閱讀滿意度的全面提升。第三,對讀者閱讀行為相關大數據的高速、即時采集與分析,可保證圖書館實時跟蹤讀者閱讀興趣、需求、方式和收益率的變化趨勢,并對服務資源、服務策略和服務內容推送方式進行調整與完善,有效提升圖書館服務的智慧化和自動化水平。
2.2.3 實現圖書館個性化服務內容的精準推送與資源均等化分配
2004年10月,美國《連線》雜志主編克里斯·安德森提出長尾(Long Tail)理論,指出:商業和文化的未來不在熱門產品,也不在傳統需求曲線的頭部,而在于需求曲線中那條無窮長的尾巴[9]。將長尾理論應用到圖書館的服務中,就會發現如果圖書館希望大幅度提升其服務收益,則必須轉變其將讀者劃分為若干個特定用戶群,并為每個特定用戶群中的海量讀者提供無差異化服務的傳統做法,而是在服務中應強調讀者閱讀的“個性化”需求、“客戶力量”和“小利潤大市場”,通過為每個獨立個體定制個性化服務來提升個體讀者的服務收益,最終通過海量讀者個體收益的疊加而實現綜合收益的大幅提升。因此,圖書館可通過對讀者相關閱讀大數據的采集、分析與決策,以及閱讀服務內容的個性化精準定制、推送與優化,來提升圖書館的綜合服務收益。
2.2.4 應有效保護讀者智慧閱讀中的隱私數據
2013年6月,前中情局職員愛德華·斯諾登爆料美國國家安全局有一項代號為“棱鏡”的秘密項目,要求電信巨頭威瑞森公司必須每天上交數百萬用戶的通話記錄。同時,在過去6年間,美國國家安全局和聯邦調查局通過進入微軟、谷歌、蘋果、雅虎、Facebook、PalTalk、美國在線、Skype、YouTube等九大網絡巨頭的服務器,監控美國公民的電子郵件、聊天記錄、視頻及照片等秘密資料,此事件引發了人們對政府利用大數據分析侵犯公民隱私的擔心[10]。因此,對圖書館服務有效性與讀者閱讀收益而言,服務的安全性與讀者隱私保護的有效性,也是關系圖書館服務可靠性和讀者閱讀收益率、愉悅感的重要因素。
目前,我國民法還沒有把隱私權確立為一項獨立的人格權,只是借助司法解釋并通過保護名譽權的方式來維護公民的隱私權,采取的是間接保護方法。大數據時代,非法用戶可能會通過對讀者的個體特征數據、閱讀行為數據、移動位置數據、社會關系數據等海量強相關大數據進行不間斷的采集、處理、分析和決策,而準確地預測和發現讀者的思想、行為,并進一步威脅和侵犯讀者隱私。因此,智慧圖書館應具備對自身服務過程與內容可靠性,以及對讀者個體數據的隱私性與使用安全性評估的能力,并依據讀者閱讀活動和其它行為隱私保護的需求,智慧、動態地調整讀者相關大數據采集、存儲、處理、分析、決策應用的內容、方法和程度,才能保證圖書館服務安全、高效、可靠和可信。
在海量、復雜、多樣性、低價值密度的大數據環境下,提升圖書館大數據采集、融合、信息挖掘、知識發現和數據決策的能力,既是增強圖書館大數據的價值總量、可用性、經濟性和可控性的前提,也是確保智慧圖書館構建科學、高效,以及智慧服務精確、個性化、實時和動態優化的必要保證。依據智慧圖書館構建對大數據價值、可用性和決策相關性的需求,本文構建的圖書館大數據采集與融合處理系統如圖1所示:

圖1 圖書館大數據采集與融合處理過程流程圖
圖書館大數據具有海量、多樣性、低價值密度和數據環境復雜的特點,且大數據總量呈現指數級增長。過多高噪聲、低價值和不相關的大數據,會影響大數據分析與決策的科學性、精確度和可用性,進而降低大數據決策結果在智慧圖書館建設中的應用效率和可靠性。因此,圖書館首先應依據智慧圖書館建設的目標、功能和特點,以及大數據采集、處理、分析、決策和應用的內容,定義智慧圖書館建設中對大數據初始需求的對象、內容、范圍與格式,并制定科學、高效的大數據管理方案。其次,在大數據的采集與獲取流程中,圖書館應通過部署視頻監控設備、傳感器網絡、服務器監控設備、閱讀終端監控器、可穿戴設備和第三方服務商數據共享的方式,完成對智慧圖書館構建強相關大數據的完全采集。第三,在大數據的管理與深層加工環節,圖書館應通過數據的清洗與脫敏、數據的價值與可用性評估、數據融合、數據價值的二次發現與增值、數據的分析與處理等操作,大幅度提升大數據的價值密度、可用性和可控性,并通過數據的標準化處理有效規范圖書館大數據模式,為智慧圖書館的構建提供安全、準確、高價值、高可用和標準化的數據決策依據。
圖書館對服務環境與服務對象感知的完全性,以及決策大數據的數據價值總量、價值密度、相關性和可用性是關系圖書館大數據決策科學性的關鍵因素。此外,大數據分析系統的性能、效率和實時性,以及大數據決策支撐平臺的運行效率和可用性,也是保證圖書館大數據智慧決策科學、高效、經濟和可執行的重要因素。因此,本文在基于讀者相關大數據決策的智慧圖書館服務平臺構建中,重點加強了大數據感知層、數據管理層、數據分析層、系統平臺層和智慧應用層等5個關鍵系統平臺的建設,以此提升圖書館大數據智慧決策系統的科學性、實效性、經濟性、相關性和可用性。本文設計的基于大數據決策的智慧圖書館服務平臺系統架構如圖2所示:

圖2 基于大數據決策的智慧圖書館服務平臺系統架構
感知層是智慧圖書館服務平臺系統的最底層結構,由智能手機、閱讀終端、RFID(射頻識別)、傳感器、互聯網絡、無線網關、視頻監控設備等組成,主要負責對圖書館服務環境、設備運行、讀者閱讀行為與位置信息、數據中心服務器、網絡數據等進行自動感知和數據采集。感知層對相關大數據采集的完全性、價值總量、數據源廣泛性和決策相關性,直接關系到智慧圖書館建設和服務內容定制、推送的科學性與正確性[11]。
感知層采集的大數據經通信網、物聯網和互聯網絡傳輸至數據層,數據層將感知層傳輸來的大數據按照結構化與非結構化類型存儲。此外,數據層通過數據庫的配置管理、存儲管理、元數據管理、安全與審計管理等,過濾大數據中的噪聲信號和實現數據的融合,以提高大數據存儲、讀取、管理和傳輸的效率與安全性。
分析層是面向圖書館建設、讀者閱讀需求和業務場景的,主要對由數據層傳輸來的實時流數據與歷史批量數據進行價值挖掘與分析,并將所發現的數據價值轉換成知識與智慧,為智慧圖書館建設和讀者智慧閱讀服務提供科學、即時的大數據決策支持。此外,為了保證分析層具有較高的系統資源利用率、安全性和分析結果可讀性,系統管理員必須重點加強大數據分析模型的科學性、系統設置的合理性、系統資源分配的公平性和分析結果展示的可讀性建設,以此確保分析結果準確、高效、實時和動態優化。
依據圖書館智慧決策系統的構造和智慧服務平臺的功能劃分,平臺層主要由互聯網技術應用中心、通信應用與管理中心、大數據中心等3部分組成,主要為智慧圖書館的構建、管理、服務推送、服務質量保證、智慧決策結果的動態優化,以及大數據的智慧決策結果的科學性、可用性、經濟性和可控性等,提供互聯網技術應用、數據傳輸與服務、數據的處理與分析等方面的技術支持與服務保障。
應用層是圖書館智慧服務平臺系統的最頂層結構。它是智慧圖書館服務平臺系統與管理員、讀者,以及各種智慧應用程序、管理軟件和網絡之間的應用接口,其功能是直接向圖書館管理員、讀者和應用系統提供智慧的管理與服務。基于平臺層的大數據智慧分析與科學決策結果支持,應用層完成了圖書館的智慧決策與管理、服務資源智慧管理、智慧服務、智慧閱讀環境管理、智慧閱讀、智慧安全管理、智慧數字圖書館建設、智慧監控與報警等操作,不斷提升著圖書館的綜合智慧管理、智慧個性化服務與系統資源智慧優化能力。
3.3.1 必須將大數據的質量與安全管理貫穿于大數據生命周期管理全程
圖書館大數據采集的全面性與決策相關性,以及大數據的價值總量、可用性和安全性是關系大數據決策科學性、正確性的關鍵,因此,必須將大數據的質量與安全管理貫穿于圖書館大數據生命周期管理全程。
首先,大數據采集的范圍應包括圖書館服務系統管理與運營、用戶服務定制與推送、讀者閱讀活動、讀者社會關系、圖書館服務環境感知、用戶服務質量評估、服務系統運行效率與安全性管理等環節。同時,圖書館大數據的采集設備應堅持多樣化和標準化的原則,采用IT設備與網絡監控器、傳感器、視頻監控器、閱讀終端數據采集器、個人智能數字終端和第三方數據共享等多模式相結合的原則,才能實現大數據的全面、無縫和不間斷采集,才能有效擴展圖書館大數據的數據來源和價值總量。其次,要建立統一的大數據管理平臺。將大數據的清洗、處理、脫敏、存儲和可視化展示流程放在圖書館大數據平臺中統一調配與管理,不斷提升大數據管理的科學性、開放性和系統資源分配的合理性,才能確保大數據的價值總量、可用性、實時性和可控性能夠滿足圖書館大數據科學決策的要求[12]。第三,圖書館依據國家法規制定相應的大數據采集、傳輸和應用安全規范的同時,還應構建基于端對端的數據安全保障體系,特別加強對數據開放、交換訪問接口、數據共享、用戶隱私權保護、數據存儲與讀取等環節的安全管理,才能保證圖書館大數據資源安全、可用和不被侵犯。
3.3.2 大數據應用平臺應實現統一系統架構和自動化部署
隨著讀者閱讀需求的快速增長,圖書館的服務模式呈現多樣化發展趨勢,所采集的大數據具有海量、高速、多樣性、低價值密度和真實性的特點。目前,圖書館每天產生的服務器日志、監控視頻、讀者閱讀活動、用戶推送服務、系統監控與配置等數據已達到2個P的體量,傳統的數據存儲、處理與應用平臺已無法滿足智慧圖書館對大數據應用的高效需求。因此,必須采用科學的方法來構建新型的大數據應用平臺系統組織架構和應用部署方式[13]。
在大數據應用平臺架構的設計與組織中,圖書館應堅持與下游的數據采集、數據傳輸平臺系統,以及與上游的大數據決策、應用系統采用統一數據的接口和系統集成方案。大數據應用平臺建設應堅持開放和獨立的原則,才能保證平臺的系統結構可依據圖書館大數據的分析、決策需求而動態擴展,并具備較強的軟硬件系統兼容性和較低的系統運行故障率。其次,大數據應用平臺為圖書館不同的部門、人員、業務和系統單元提供服務,這些服務對象與業務對大數據平臺系統資源有不同的優先級別和時效性需求,如果將系統資源平均分配,將會導致系統資源利用率下降和使用成本上升。因此,管理員必須依據圖書館業務的優先級別、時效性、系統資源總量、現有業務處理實際情況等,通過系統任務的自動分配、部署和系統資源的動態分配,優先將系統資源分配在圖書館關鍵任務和對圖書館綜合服務收益率影響較大的業務上,才能提升圖書館的整體服務效率與性能[14]。
3.3.3 圖書館智慧服務決策應以讀者為核心
圖書館利用物聯網、互聯網、云計算和大數據等技術,對讀者相關大數據進行采集、傳輸、處理、存儲、分析和決策,不但完成了對讀者個體行為、愛好、需求的完整自畫像,而且實現了讀者閱讀需求、閱讀方式、閱讀環境的智慧感知和信息交互。為了提升服務效率和綜合服務收益率,圖書館必須依據“二八”法則對讀者的用戶價值量進行分析與平臺,依據讀者的價值量進行個性化服務的智慧定制與推送,才能實現讀者閱讀滿意度和圖書館服務總體收益的共同增長。圖書館可通過構建讀者價值評估模型、用戶閱讀收益和滿意度評估模型、客戶流失評測模型、服務風險預警模型等,并將所采集的讀者大數據傳輸至上述模型進行實時、關聯分析,準確發現影響圖書館服務收益、讀者閱讀收益和用戶滿意度的關鍵問題與服務風險,通過對圖書館服務策略的動態優化與智慧防控,將服務風險管理由事后完善變為事前預防。
圖書館智慧服務的另一個重要指標是讀者個性化服務的精準定制與推送。Amazon有句名言:“最成功的書籍推薦應該只有一本書,就是用戶要買的下一本書”[15]。圖書館可通過構建讀者行為大數據分析與需求預測模型,將讀者的閱讀歷史數據、閱讀社會關系數據、地理位置與移動路徑數據、閱讀行為數據等發送至模型,依靠模型對大數據的價值進行挖掘與實時分析,可準確發現讀者的閱讀需求及其動態發展規律,并依據大數據決策結果來定制、推送、評估和優化圖書館服務的內容和推送方式,最終實現傳統IT環境下用戶服務定制的“經驗主義”模式向大數據時代的“數據科學決策”模式轉變。此外,圖書館還應將數據深度挖掘、系統自主學習和人工智能等新技術運用到大數據應用中去,在提升圖書館構建、管理與服務智慧水平的前提下,不斷降低大數據的決策成本和增強決策結果的科學性與可用性。
3.3.4 數據分析效率與數據正確性是大數據分析的核心問題
在智慧圖書館的構建中,如何提升多數據源采集數據的相關性,以及實現讀者數據與傳感器采集數據、多類型傳感器采集數據之間的關聯分析,是圖書館全面挖掘大數據隱匿價值和實現數據價值的二次增值,也是有效提升圖書館基礎設施與用戶服務智慧水平的核心問題。
圖書館大數據的價值與可用性具有較強的時效性,是隨著時間的變化而動態變化的。依據大數據產生、價值發現、數據決策和價值總量遞減的發展規律,大數據分析也可根據數據時效性劃分為元數據的采集與加工、數據價值的發現與提取、大數據分析等三個過程。在這三個重要過程中,圖書館應重點關注兩個方面的內容:一是如何確保分析系統對大數據的透明、無縫和實時訪問,以及如何通過對大數據的動態決策來保證決策結果的智慧性與實時可用性;二是隨著圖書館業務復雜度和服務質量標準的提升,圖書館大數據分析平臺的系統模塊總量、結構復雜度、數據管理難度、平臺應用成本也將呈現快速增長態勢,因此,為了提升大數據平臺的可管控性和降低管理成本,圖書館應采取多平臺和系統模塊單點集中式管控的方式[16]。此外,還應增強圖書館的數據融合、數據知識發現、數據分析和數據決策結果的實踐指導能力,全面提升大數據分析結果在智慧圖書館建設與服務推送中的科學指導水平。
作為智慧城市的重要組成部分,智慧圖書館不受空間限制、同時又能夠被讀者切實感知。它是智能建筑與現代科技的完美結合和創新,使讀者擺脫了傳統圖書館在時間、地點、閱讀模式和內容上對用戶的束縛,可讓讀者在這個智慧體系中享受自由、快樂的閱讀。在當前眾多智慧圖書館的構建模式中,基于讀者相關大數據決策的智慧圖書館構建模式通過多樣性的感知與數據采集設備,實現了圖書館對外部服務環境、讀者、管理和服務的不間斷、完全感知;通過對感知大數據的處理、分析和決策,科學、準確地預測和分析了圖書館的外部服務環境、內部組織結構、讀者閱讀需求的動態變化趨勢。并依據大數據分析結果制定科學、高效、經濟和可控的圖書館管理與服務策略,實現了圖書館服務收益和讀者閱讀滿意度的最大化。
在智慧圖書館的構建中,大數據的完全性、準確性、實時性、經濟性和可控性既是保證圖書館大數據決策科學性的前提,也是保證圖書館智慧性的必要條件。因此,圖書館大數據決策應重點加強原始數據到元數據、元數據到信息、信息到知識、知識到智慧這4個重要數據生命周期環節的數據質量保證,堅持圖書館大數據決策以讀者需求和圖書館業務驅動為中心的原則,統一大數據采集、傳輸、存儲和應用的標準與格式。同時,在圖書館內部全面消除“信息孤島”和“數據壁壘”現象,堅持大數據分析與決策開放、共享、公平和經濟的原則,才能確保大數據決策結果在智慧圖書館建設與智慧服務推送中科學、高效、經濟和可控[17]。此外,還應將大數據應用擺在關系圖書館智慧發展戰略決策的層面,實現大數據價值在圖書館建設、服務中的二次增值與升華,并將大數據決策結果與當今高新技術相結合,才能提升圖書館的智慧管理與智慧服務水平,才能為讀者提供高效、低碳、個性化和可控的智慧閱讀服務。
(來稿時間:2017年10月)