陳臣 馬曉亭
圖書館大數據分析:挑戰、設計和展望
陳臣 馬曉亭
大數據分析始終是圖書館服務的重要環節,與傳統的圖書館數據分析相比,大數據分析具有數據海量、多樣、快速、真實的特點。論文提出了圖書館大數據分析領域數據存儲、弱可用性、數據建模、資源調度和個人隱私保護等五大關鍵性挑戰問題,最后,設計了一種大數據分析模型。該大數據分析模型明顯提高圖書館對海量數據的處理能力,能夠發現大數據之間存在的關系和規則,可有效預測圖書館服務未來的發展趨勢,從而增強圖書館服務決策的準確性和科學性。
圖書館大數據分析設計
DOI 10.16810/j.cnki.1672-514x.2016.03.011
當前,隨著圖書館服務模式的變革與發展,圖書館數據環境呈現出海量(Volume)、多樣性(Variety)、快速(Velocity)、真實性(Veracity)的大數據4“V”特征,圖書館已跨入大數據時代。
大數據分析是圖書館在海量數據環境下,對復雜數據關系的重新定義和深度價值挖掘,是通過對海量、多類型、快速增長和高價值的數據進行分析,從中發現可以指導圖書館進行發展變革、服務模式構建、服務系統運行和讀者QOS(服務質量)保障等決策活動所需的數據隱藏知識、相關關系和其他有用信息的過程。大數據分析在有效提示圖書館內部各要素之間相互關系、個體差異和隱藏知識的同時,也存在著數據采集與處理誤差、數據產生的異母體性、高計算成本、噪音干擾累積疊加、假相關性、外生性等問題[1]。因此,如何基于圖書館復雜數據環境和大數據決策需求實際,探索科學、高效、精確和經濟的大數據分析方法,是關系圖書館運用大數據進行決策,以及將大數據分析結果有效轉化為圖書館服務決策的重要步驟。
1.1 大數據呈現較強的弱可用性
大數據可用性通常由數據一致性、準確性、完成性、時效性、可控性和開放性等六個部分組成,是有效評估大數據可用性的重要標準。大數據時代,圖書館大數據呈現多數據采集源、多類型、結構復雜和低價值密度的特性,大數據經采集、處理、傳輸和存儲后,通常以雜亂無序的方式呈現給圖書館,給圖書館的大數據分析師帶來極大的不便和挑戰,因此,大數據的可用性成為決定圖書館大數據分析有效性的一個重要因素[2]。
為了保證大數據具有較強的可用性,要求圖書館在海量復雜數據環境下,能夠實現對數據源大數據采集真實性、時效性的自動檢測與修復,保證大數據采集真實、準確、客觀和有效。此外,還需要對所采集、存儲的大數據進行噪聲過濾、數據整合、價值提取等操作,保證大數據具有較高的價值屬性和密度,并具有全面、可控、準確和易操作的特性。其次,還應通過翔實的大數據描述框架和數據日志,對重要大數據源、大數據采集的方法和內容、大數據的結構及語義復雜性、大數據時限和數據完整性進行準確描述,大幅提升關鍵大數據的價值、可控性和可用性。第三,圖書館在大數據分析中,如何對海量和在時間序列上離散、不相關的大數據進行聚合、多層次、多維度的分析,并準確發現不相關大數據之間隱匿的關聯性和知識,是圖書館進一步挖掘大數據隱藏價值和規律,確保大數據分析科學、實時、精確和可用的關鍵[3]。第四,圖書館還應通過對底層大數據的抽象、凝煉,以及對海量、多源碎片化大數據的整合,提升圖書館大數據分析過程中數據挖掘的精度和深度,并將大數據分析結果以可視化的模式表現出來,不斷提升大數據分析結果的決策支持力。
1.2 圖書館大數據分析環境復雜
圖書館大數據具有較強的復雜性和不穩定性。當前,圖書館大數據采集源、采集方法和采集內容呈現多樣化特點,且數據的類型與模式繁多、結構不穩定、關聯關系繁雜、質量參差不齊,導致圖書館在大數據檢索、知識發現、語義和情感分析上變得異常復雜、困難。因此,如何定量、定性地對圖書館大數據復雜性、產生機理、價值本質、度量標準準確定義,是圖書館簡化大數據復雜性和獲得數據知識,構建科學大數據計算、分析模型和算法的前提。其次,圖書館大數據具有較強的計算、分析復雜性[4]。圖書館大數據資源具有海量、多源異構、不穩定、價值密度分布不均衡和可控性低的特點,傳統的機器學習、信息檢索、數據挖掘和數據分析算法,不能有效支持復雜大數據環境下數據的處理、計算、分析和決策活動。因此,圖書館需要對大數據的復雜性、可計算性、算法科學性和計算可控性重新研究、定義,通過廣泛采集海量大數據、過濾數據噪聲、簡化數據關系,以及堅持以大數據價值為驅動的新型數據計算、分析模式,不斷提高大數據計算、分析的安全性和效率。第三,海量、異構、低價值密度和快速計算的大數據4“V”特點,對圖書館大數據計算、分析系統的系統架構、計算框架、處理方法、運行效率和系統能耗提出了新的要求。要求大數據計算、分析系統具有較高的大數據計算能力、數據吞吐率、內部網絡傳輸效率、數據并行處理能力和計算精度,并有較低的系統結構復雜度、作業單位能耗和實際負載,可滿足圖書館大數據實時計算、分析和決策的需求[5]。
1.3 圖書館大數據的存儲、建模與分析難度快速增長
隨著讀者服務模式與保障方法的變革,圖書館大數據總量快速增長(從TB級快速上升到PB、EB'級),數據存儲任務也從傳統簡單的系統管理與運行數據、讀者服務數據、服務器監控數據等存儲,轉變為以圖書館服務系統管理與運行數據、讀者服務數據、讀者閱讀內容與行為數據、讀者特征數據與社會關系數據、圖書館監控等其它相關大數據為中心的,包含數據噪聲過濾、數據價值發現與提取、數據整合、數據存儲分析等在內的大數據存儲活動。此外,數據存儲也從傳統的靜態存儲,轉變為以大數據生命周期規律為依據的動態大數據存儲、增減、刪除和修改等操作,要求大數據存儲具有海量的存儲能力、高度容錯性、支持異構環境、可開放性和可擴展性,并具有較低的存儲分析與寫入延遲[6]。
大數據分析建模是圖書館科學分析大數據統計和語義特征,精確發現數據之間的關系和價值,并將大數據價值與數據關系轉化為客觀知識的數據分析模式,是為數據分析提供科學依據的重要步驟。當前,隨著大數據環境復雜度的增大和可控性的降低,圖書館數據分析模式已從若干個簡單分析模型組合,轉變為由大量分析模型組成綜合分析模型庫的方式,統一完成復雜大數據的分析與決策。大數據環境下,讀者閱讀行為具有較強的突發性,且讀者的閱讀習慣和需求也在快速變化,對大數據分析系統的實時性、準確性、自主學習能力和自動數據修正提出了較高要求。要求分析系統能夠通過大數據分析,快速找到圖書館服務模式和保障方式存在的瓶頸問題,通過優化服務策略和資源二次分配,來滿足讀者閱讀的個性化差異需求。
圖書館在大數據分析中,對內部不同部門的服務業務、讀者個性化內容需求、讀者閱讀行為和社會關系、圖書館服務與市場競爭發展趨勢等不同的分析算法具有不同的復雜度、效率和分析成本。因此,要求圖書館建立基于大數據分析效率與成本的計算資源彈性調度策略,并通過分析效率與成本的評估結果,反饋控制完成對計算資源的動態組合和優化,確保大數據分析過程安全、高效、準確和經濟。
1.4 大數據分析要求構建安全、高效的云數據中心
與傳統數據環境相比較,圖書館大數據環境具有數據海量、處理快速、多類型、難辨識、高價值、低價值密度和不可預測的特點。此外,大數據分析結果的可視化表現、數據挖掘算法的科學性、預測性分析能力、對語義知識的準確發現、大數據價值管理的有效性等,是關系大數據分析科學、準確、高價值和可用的幾個關鍵要素。因此,海量、級速增長的大數據對圖書館數據中心的數據計算、存儲、高速傳輸和快速響應能力提出了較高的需求,要求數據中心的構建必須堅持IaaS(基礎設施即服務)的原則,不斷完善、優化系統結構,保證數據中心的功能、資源可隨圖書館大數據分析需求進行二次調整。同時,在保證大數據分析資源需求的前提下,大數據分析系統具有較高的可用性、可控性和較低運營成本,具有最優化的云計算資源使用效率和大數據分析投資收益率[7]。其次,圖書館大數據分析要求對客戶和市場有清晰、準確的洞察,能夠對讀者個性化閱讀需求、讀者群價值屬性、閱讀模式轉變、精準營銷、產品推薦、服務風險和欺詐、服務市場競爭環境變化等有準確、實時、快速和全方位的分析、判斷。此外,要求圖書館可根據讀者群分布和數據分析負荷,建立多個位于不同地域的子數據中心,保證數據中心和子數據中心間具有T級的高速網絡互聯。可在降低云數據中心系統結構復雜度和不確定性的前提下,實現大數據分析過程中云計算架構、云資源和大數據分析負載的最優化匹配。
2.1 圖書館大數據分析平臺的系統架構
圖書館大數據環境除具有數據海量、類型多樣、處理快速和高價值的4“V”特征外,還存在著大數據采集來源廣泛、非結構化數據為主體、數據價值密度低、數據噪聲大、實時性要求高和可控性不強等問題。因此,要求圖書館大數據分析平臺必須堅持系統分層和功能化模塊構建的原則,在保證每一層中的組件保持內聚性的同時,與相臨各層間保持較松散的耦合性,確保大數據分析平臺安全、高效、開放、經濟和可控。
本文設計的圖書館大數據分析平臺系統架構如圖1所示。

該大數據分析系統主要由大數據采集層、大數據存儲層、大數據分析層、大數據分析控制層、大數據分析結果表現層5個部分組成。(1)大數據采集層主要由圖書館視頻采集設備、系統監控服務器、傳感器網絡、讀者管理信息系統、閱讀終端和第三方大數據庫組成,負責圖書館相關大數據的采集、噪聲初級過濾、存儲和傳輸等任務。(2)大數據存儲層負責將由大數據采集層傳輸來的數據,經過分布式緩存設備的一級緩存后存儲入大數據庫,通過對數據存儲過程的監控、存儲優化、存儲資源調度和反饋控制,確保存儲過程安全、高效、經濟和便捷。(3)大數據分析層基于大數據存儲層的支持,完成大數據的挖掘、價值發現、關聯分析、聯機分析處理、分析層系統的自主學習等。(4)大數據分析控制層負責對大數據分析過程進行監控、管理與安全預警、系統資源調度、系統分析的優化和實時分析管理等操作,并通過反饋控制來保證大數據分析層整體效率和分析結果最優。(5)大數據分析結果表現層基于底層服務的支持,完成圖書館大數據分析結果的處理與統計、可視化表現建模、可視化表現、分析結果的有效性評估,以及通過評估結果完成對分析控制層的反饋控制,實現大數據分析平臺系統運行的資源投入收益與評估結果整體最優化[8]。
2.2 圖書館大數據分析平臺系統的應用策略
2.2.1 確保圖書館大數據資源分析結果高價值和可用
圖書館大數據的內容除了傳統的讀者特征數據、用戶服務數據、服務器日志和服務器監控數據外,還包含了讀者閱讀行為的監控數據、讀者社會關系數據、讀者個體地理位置信息、閱讀終端配置與運行數據、圖書館管理與服務系統運營日志、用戶身份與訪問數據、應用系統數據、業務信息和外部市場競爭環境數據等,這些大數據具有不穩定、快速流動、相互關系復雜和可控性差的特點,嚴重影響了圖書館大數據資源的價值發現、提取和應用。
為了確保圖書館大數據資源具有較高的價值屬性和可用性,大數據采集終端首先應對所采集的數據進行初級篩選、標準化處理和整合等操作,然后按照數據采集對象、類型和作用對象進行劃分,將數據傳輸至大數據采集端初級數據庫,進行簡單的預存儲、查詢、處理和噪聲過濾工作,在降低數據采集端負載和減少采集端大數據總量的前提下,提升圖書館大數據的價值密度和可用性[9]。其次,應將由多個數據采集端采集、處理后的大數據傳輸至圖書館大數據存儲庫。大數據存儲庫應具備海量數據存儲能力和分布式集群運行的工作方式,可對大數據進行存儲優化、快速清洗和預處理等操作,具備復雜大數據的快速查詢、調度和計算能力,可有效保障圖書館管理與服務的適時分析、決策需求。第三,圖書館還應利用大數據的分析程序,對存儲的大數據進行類型分析、分類匯總、分類存儲等操作,在大數據存儲庫中完成大數據的初級預測、分類、價值挖掘和數據融合。
2.2.2 大數據分析應以讀者閱讀需求和QOS保證為中心
大數據時代,圖書館大數據分析面臨著管理與服務系統體系架構日趨復雜、分析數據海量多樣、傳統的分析平臺與方法不可用、數據關系復雜和知識發現困難等問題。為了確保大數據分析科學、可用、經濟和可控,圖書館必須以讀者閱讀需求和QOS保證為中心,不斷提升大數據分析對圖書館服務模式與方法變革的支持力。
行為大數據是圖書館分析讀者行為隨機模式、挖掘行為價值和明確讀者需求的基礎數據。讀者行為大數據主要有個性化閱讀內容定制、搜索、瀏覽、點評、取消、移動閱讀路徑、個體地理位置、閱讀社交活動、服務評價等,以及在第三方服務平臺上開展的與閱讀活動相關的行為數據。圖書館必須對讀者行為數據的類型、格式進行準確的規范性定義,并實施即時、動態、快速和便捷的大數據價值提取、分析和決策策略,才能確保圖書館服務決策隨著讀者閱讀需求的變化而動態變化,才能保證具有較高的讀者閱讀滿意度[10]。其次,圖書館應基于讀者閱讀活動質量與滿意度評估結果,對圖書館的業務流程進行修改和完善。在可視化分析技術的支持下,幫助管理員查找出關系圖書館業務流程效率的關鍵因素,發現業務流程與讀者閱讀忠誠度之間的關系,通過提升關系圖書館服務有效性的關鍵業務收益和應用系統效率,來提高圖書館服務的綜合收益率和讀者滿意度。第三,圖書館應依據對讀者閱讀需求和QOS保障有效性的分析結果,科學預測出圖書館服務理念轉化、服務模式變革、讀者閱讀需求變化、管理與服務系統IT基礎設施架構發展的趨勢,確保圖書館在發展戰略決策制定、服務模式變革、管理與服務的IT系統建設和市場競爭環境分析中,具有安全、科學、開放、低風險和低投入的優勢。并可根據大數據的決策支持,對未來用戶服務模式變革和讀者服務需求科學、任意和可控地擴展。
2.2.3 圖書館大數據分析應基于多維度動態的分析方法
非結構化數據占據圖書館數據總量的85%以上,主要由視頻監控數據、服務器運行日志數據、服務器與閱讀終端配置數據、讀者閱讀行為數據、讀者閱讀社交數據、讀者個體位置信息,以及來自設備或者其它數據庫的流數據等組成。如何制定科學的大數據分析機制,把非結構化數據統一標準、類型和分析流程,是圖書館多角度挖掘非結構化數據的價值和發現相關知識的前提。
當前,傳統的OLAP(聯機分析處理)方式存在的最主要問題是伴隨服務模式、業務的發展與變革,所構造的圖書館業務模型和數據分析模式也經常發生變化。數據分析師在依據圖書館業務維度和度量的變化對分析多維立方體重新定義和生成時,會導致數據分析的穩定性、可靠性和可用性下降。因此,圖書館可利用諸如Hadoop分布式系統基礎架構,在不需了解分布式底層細節的情況下,支持大數據分析師充分利用高速運算和存儲集群,將圖書館采集的大量冗余維度信息整合到事實表中,確保在冗余維度下靈活地改變大數據分析的角度。此外,還可利用Hadoop的強大并行化處理能力,保證大數據OLAP分析的開銷不隨分析維度的增加而大幅增長。大數據分析師通過對維度和度量精確定義后,可根據圖書館各部門的業務需求和變化將維度任意地劃分和重組,將業務的維度和度量直接翻譯成MapReduce運行并生成報表,為不同部門、層次的人員在圖書館發展變革、管理和服務過程中,提供大數據的分析與決策支持[11]。
圖書館基于多維度動態的大數據分析,還應注重提升將大數據匯聚成單一的信息邏輯集和可視化處理的能力,在分析時通過對結構化或非結構化物理數據的底層結構進行去耦合,來提高大數據分析的靈活性。特別要滿足大數據分析師、各部門業務人員、業務流程分析程序、關鍵性應用程序對重要大數據的實時獲取、更新需求,并利用圖書館獲得的第三方相關數據,對大數據的分析方法、分析流程和結果進行修正、完善后,將大數據分析結果與圖書館相關部門、人員的決策流程進行綁定,提高圖書館大數據分析、決策和結果修正的智能自動化水平。
2.2.4 確保大數據分析模型和方法科學、高效
圖書館在大數據分析中,大數據質量、管理有效性、數據挖掘算法科學性、分析結果可預測性、語義分析引擎可用性、分析結果可視化表現等因素,是大數據分析模型運行和分析結果呈現科學性應重點關注的幾個問題。
《信號與噪聲》的作者Nate Silver在書中描述道:“更多的數據意味著更多的噪聲。信號是真相,而噪聲卻使我們離真相越來越遠。”指出大數據只是數據分析的基礎和前提,而如何構建科學的大數據分析模型和采用有效的數據分析算法,則是決定大數據分析科學、可用的關鍵因素[12]。在現實的圖書館大數據分析中,數據分析師會習慣性地采用傳統的固定分析方式,對大數據進行分析、價值挖掘、解釋和預測,這些方式難以將噪聲信號從大數據中有效地分離出來,會影響大數據分析結果的真實性和可用性。因此,大數據分析模型應利用層次化的架構描述,明確大數據在不同層次上的表達,幫助圖書館挖掘出復雜數據關系中蘊涵的價值和決策過程中復雜抽象的問題。此外,圖書館還應對大數據分析所依賴的知識庫動態地添加、修改、刪除和更新,重點關注關系知識庫可用性的知識概念、實例、屬性和關系等。
大數據分析結果的可視化表現,是關系圖書館能否全面、有效地獲取大數據分析結果中的隱含知識,以及依據分析知識做出正確決策的重要問題。圖書館大數據可視化分析面臨的挑戰是分析對象的海量、高維度、多來源和動態變化,以及分析結果的真實、即時和全面可視化表現等問題。因此,圖書館對分析結果的可視化表現,應重點加強對大數據流的壓縮和冗余信息的刪除,以此降低大數據計算、分析和表現的復雜度,從多尺度、多層次和多方向上實現分析結果的科學表現和知識的可視化展示。
目前,圖書館已進入大數據時代,如何有效地采集、處理、存儲和挖掘大數據,并安全、科學、經濟和可視化地分析大數據,成為影響圖書館發展決策科學性、服務模式變革有效、QOS保證和讀者閱讀滿意度的重要問題。為了保證大數據分析過程科學、可用、可控和經濟,大數據分析結果能夠有效地支持圖書館管理層決策和各業務部門的讀者日常服務工作,圖書館必須將大數據分析全面融入到圖書館的變革、管理和服務全程,改變圖書館管理層與館員傳統的直覺、經驗分析決策模式,并在大數據分析中重點關注可視化分析、數據挖掘算法、預測性分析能力、語義引擎、數據質量和管理、用戶隱私保護等六個方面的問題,才能確保圖書館大數據分析科學、可用,才能為圖書館變革與服務提供可靠的大數據分析、決策支持[13]。
[1]何非,何克清.大數據及其科學問題與方法的探討[J].武漢大學學報(理學版),2014,60(1):1-12.
[2]官思發,孟璽,李宗潔,等.大數據分析研究現狀、問題與對策[J].情報雜志,2015,34(5):98-104.
[3]張春磊,楊小牛.大數據分析(BDA)及其在情報領域的應用[J].中國電子科學研究院學報,2013,8(1):18-22.
[4]覃雄派,王會舉,杜小勇,等.大數據分析:R DBMS與Map R educe的競爭與共生[J].軟件學報,2012,23(1):32-45.
[5]李晨暉,崔建明,陳超泉.大數據知識服務平臺構建關鍵技術研究[J].情報資料工作,2013(2):29-34.
[6]BELAUD J,NEGNY S,DUPROS F.Collaborative simulation and scientific big data analysis:Illustration for sustainability in natural hazards management and chemicalprocess engineering[J].Computers in Industry,2014,65(3):521-535.
[7]王意潔,孫偉東,周松,等.云計算環境下的分布存儲關鍵技術[J].軟件學報,2012,23(4):962-986.
[8]DURSUN D,HALUK D.Data,information and analytics asservices[J].Decision SupportSystems,2013,55(1):359-363.
[9]李廣健,化柏林.大數據分析與情報分析關系辨析[J].中國圖書館學報,2014,40(5):14-22.
[10]李建中,劉顯敏.大數據的一個重要方面[J].計算機研究與發展,2013,50(6):1147-1162.
[11]IBM accelerators for big data[EB/OL].[2015-07-02].http: public.dhe.ibm.com/common/ssi/ecm/en/imd144 14usen/IMD14414USEN.PDF
[12]王珊,王會舉,覃雄派,等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011,34(10):1741-1752.
[13]孫大為,張廣艷,鄭緯民.大數據流式計算:關鍵技術及系統實例[J].軟件學報,2014,25(4):839-862.
陳臣蘭州財經大學信息中心副教授。甘肅蘭州,730020。
馬曉亭蘭州財經大學信息工程學院副教授。甘肅蘭州,730020。
Big Data Analysis of Library:Challenges,Designs and Forecasts
Chen Chen,Ma Xiaoting
Big data analysis is always an important part of library services.Compared with traditional data analysis of library, big data analysis is volume,variety,velocity and veracity.This paper comes up with five key challenges in big data analysis of library,such as data storage,weak data usability,data modeling,resource distribution and personal privacy preservation.At last,it designs a big data analytical model which can greatly improve the processing capability of mass data of library,find the relationship and rule between big data,predict the future trend of library services,and improve veracity and scientificity of the decision-making in library services.
Library.Big data analysis.Design.
G250.76
2015-08-06 編校:劉明)