馬曉亭 (蘭州商學院信息工程學院 甘肅 蘭州 730020)
目前,隨著用戶服務模式和服務內容的變革,圖書館在不斷提高讀者個性化閱讀愉悅感和滿意度的同時,其數據中心的用戶服務數據、系統管理數據、系統運行監控數據和用戶行為數據呈現爆炸式增長,數據量正在以每18個月翻一倍的驚人速度累積,圖書館已跨入大數據時代。
全球暢銷書《社會消費網絡營銷》的作者拉里·韋伯認為:“所謂大數據包括企業信息化的用戶交易數據、社會化媒體中用戶的行為數據和關系數據以及無線互聯網中的地理位置數據。”[1]大數據資源的持續、快速增長在增強圖書館系統管理能力、服務能力、市場競爭力及為發掘商業價值提供可靠大數據分析支持的同時,也帶來了數據中心IT基礎設施架構龐大、管理復雜、能耗巨大、運維成本飆升和服務效率下降等問題。因此,如何通過大數據資源的高效整合來提高其價值密度和數據可用性,是關系圖書館大數據應用高效、大規模用戶個性化服務可用、系統運營綠色和經濟的關鍵。
首先,圖書館IT基礎設施架構的優化,應主要涉及IT基礎設施組織架構是否有利于大數據資源和系統硬件設施的整合,數據中心IT基礎設施資源是否易于擴展、管理和維護,數據中心是否具有較低的管理、運營和維護成本,并在異構環境中是否具有較強的安全性和可控性。其次,當數據中心系統因整合而減少IT結構復雜度和設備數量時,用戶服務和數據存儲將在少量的單點設備上運行,數據中心是否具有較低的單點故障率和數據存儲安全性。第三,虛擬化是IT基礎設施架構整合的關鍵技術。數據中心不能因虛擬化技術的大量應用,而導致系統安全隱患大幅增加和自身抗風險能力降低。第四,為了增強圖書館的用戶服務性能和系統可靠性,圖書館通常會在不同地域構建若干個子數據中心來提高其用戶服務的效率和可靠性。對位于不同地域的子數據中心數據進行有效的分析、挖掘和整合,也是關系圖書館IT基礎設施架構優化和系統運營安全的一個重要問題[2]。
首先,目前圖書館數據中心通常將關系系統安全、管理效率和用戶服務質量的關鍵應用部署在大型主機、Unix平臺上,而將一些非關鍵應用部署在Unix或x86平臺上,導致IT基礎設施架構多平臺化、應用多元化、系統異構、數據分散和信息孤島現象突出。其次,不同的操作系統、應用服務和虛擬化平臺的安全需求與安全標準不同,很難將大數據流的獲取、組織、管理、分析、決策平臺的軟硬件系統一體化和預先集成。第三,如何以用戶需求和圖書館服務能力建設為指導,在保證不同系統平臺效率的前提下,將數據中心原有系統和新開發系統在大數據層面上實現無縫整合,是提高大數據平臺綜合效率與大數據服務有效性的關鍵[3]。第四,圖書館系統異構主要可分為操作系統異構、系統運行平臺異構、數據庫管理系統異構、網絡協議異構、用戶平臺異構、認證機制異構、遠程執行方案異構、數據自身的異構等幾個方面,這些異構大幅度增加了數據整合的難度和復雜性。
IBM硅谷實驗室大數據項目總監Steven Sit,在2012年8月23日舉辦的以“技術維新,預見未來”為主題的2012 IBM軟件技術峰會上表示:“大數據現象才剛剛開始,估計到2015年全球將會有超過15個ZB的數據容量。”[4]同樣,隨著多媒體個性化服務、移動閱讀和智能閱讀終端的推廣與普及,圖書館數據將呈現海量遞增、多樣性、非結構化和時效性等特點。
首先,在大數據時代,圖書館服務已從過去以資源消耗為主,轉變為以大數據資源保障為核心的個性化“綠色”服務。因此,大數據資源的價值密度與可控性關系到圖書館的服務創新能力和市場競爭力。其次,隨著讀者需求和服務過程復雜度的增長,圖書館面臨著業務繁雜、數據存儲成本激增、計算需求增大、能耗巨大、成本控制和服務質量保證等挑戰,而大數據整合的有效性則是服務安全、高效、綠色和可控的保障。第四,大數據環境下,數據通常以碎片信息數據流的形式存在,單一、無規律的碎片信息數據無法呈現出大數據的分析、評估和預測價值。因此,圖書館必須以用戶服務需求為中心,對數據碎片進行系統性的細分、搭配、重組與整合,才能提高數據的價值密度、可用性和可控性,最終實現大數據向大服務的轉變[5]。
圖書館可利用大數據技術構建智慧圖書館,實現服務系統的智慧管理與智慧服務。
首先,圖書館只有通過對歷史數據與當前數據的價值發現、數據整合與度量,完成對圖書館系統構建要素關系、服務模式與內容、服務市場、服務對象的準確數據挖掘和現狀感知,才能正確把握圖書館基礎設施結構科學性、系統管理與服務能力、服務市場競爭環境和讀者個性化閱讀需求的實際情況。其次,圖書館只有對所采集的全量數據、流式數據和離線數據進行整合與關聯分析,以及對用戶需求態勢與服務效率進行判定與調控,才能完成對未來服務模式與內容變革、服務市場環境特點、用戶需求和個性化閱讀QOS(Quality of Service,服務質量)的判定標準進行準確預測。第三,智慧服務保障是圖書館智慧管理的最終目的。因此,圖書館大數據資源整合只有堅持以增強服務系統整體保障能力和服務資源綜合利用率為目的,才能提升大數據資源的價值密度和大數據服務的支撐力[6]。第四,數據整合的有效性和數據結構的科學性決定著大數據平臺處理海量動態、快速變化數據的效率與能力,關系著高速數據在短時間內的價值有效性和即時服務質量。因此,圖書館應通過大數據平臺對實時采集的數據流進行快速整合,以保證數據計算和存儲系統、信息發現和處理系統、業務決策系統和用戶服務系統的服務安全、高效、實時和優質[7]。
圖書館采集的大數據資源主要由用戶服務數據、系統管理與運營監控數據、用戶行為數據、用戶閱讀活動和社會關系數據、讀者論壇與博客反饋數據、讀者位置數據等組成。這些元數據的數據格式、標準和描述語法不統一,數據之間具有較強的沖突和不完整性。其次,數據資源之間結構復雜并缺少規律性,數據之間無法進行有效的語義關聯,大幅度增加了無關數據語義關聯和整合的難度。第三,數據整合流程的科學性和結構合理性以及實驗數據格式的互操作性與可控性,也是關系大數據資源整合有效性的關鍵因素。第四,為了提高大數據資源整合的效率和降低整合成本,圖書館通常采用虛擬化方式進行數據整合。如何擺脫數據物理存儲方式、途徑和位置對虛擬化存儲的限制,提高虛擬化融合模型的科學性和效率是圖書館應關注的一個重要問題[8]。
大數據資源整合是指共享或者合并來自于兩個或更多應用的數據,創建一個具有更多功能的企業應用的過程。因此,圖書館大數據資源整合平臺設計應采用多層次的系統結構設計,保證系統平臺具有較強的擴展能力和以松散耦合度方式運行。同時,任何功能模式的增加、修改和刪除,均不能降低大數據資源整合平臺整體的功能性、易用性和可控性。筆者設計的圖書館大數據資源整合平臺系統架構如圖1所示。
圖書館大數據資源整合平臺系統架構主要由管理操作層、數據預清洗與過濾層、數據整合層和大數據資源層四部分組成。管理操作層是用戶對平臺系統管理與應用的接口,管理員通過對該層的操作完成大數據資源整合平臺系統的控制、管理、維護和應用。數據預清洗與過濾層依據定義的數據清洗與過濾規則,對所采集的大數據資源進行錯誤與可用性檢查、數據質量分析、數據過濾與清洗,保證大數據資源進行數據整合時具有較高的價值密度和可操作性。數據整合層是將臨時數據庫中已進行預清洗與過濾的數據,通過數據源的讀取、數據轉換規則的解析和系統加載,將已轉換的數據寫入主數據庫,最終完成圖書館大數據資源的整合。大數據資源層主要由不同終端和監控設備采集的大數據資源、臨時數據庫、主數據庫和應用系統數據庫組成。圖書館采集的大數據資源暫時存放于臨時數據庫中,并根據預先定義好的規則進行數據清洗與過濾,在進行數據整合操作后導入主數據庫中。數據同步機制確保應用系統數據和主數據庫中數據具有一致性,為圖書館大數據應用提供了安全、高價值密度、可控和易用的數據支持[9]。

圖1 圖書館大數據資源整合平臺系統架構圖
2.2.1 實現數據中心IT基礎設施架構的高效整合與優化
據IDC(International Data Corporation,國際調查和研究公司)的研究表明,包含結構化和非結構化的大數據資源正在以每年60%的增長率持續增長,2020年全球數據總量將增長44倍,總量達到35.2ZB[10]。因此,圖書館必須加強數據中心IT基礎設施架構的高效整合與優化,才能統一圖書館系統異構平臺和大數據資源模式,才能對具有海量數據、種類繁多、實時性強和低價值密度的大數據資源進行有效整合。
首先,圖書館數據中心IT基礎設施架構的整合與優化,面臨著風險控制、降低成本、節約能耗和質量保證的需求。因此,IT基礎設施架構的高效整合應以計算、存儲、網絡和數據備份設備的虛擬化整合為核心,以產品整合、信息整合和業務整合為目標,將系統資源劃分為資源池的方式進行統一調度、使用,以減少IT基礎設施設備的冗余量,提高總體使用率。其次,IT基礎設施架構的高效整合與優化,應堅持統一數據環境和統一數據架構的原則,確保圖書館可在統一整合標準、動態和透明的環境中,安全、靈活、快速地部署、支持、管理和無縫訪問所有數據。第三,對于圖書館數據中心的用戶服務器、數據存儲集群系統和網絡傳輸平臺硬件等工廠基礎設施的虛擬化整合,應堅持安全、高效、可靠、低碳和可擴展的原則,確保大數據資源整合平臺可依據用戶的服務需求,進行數據的訪問、發現、清洗、集成和交付。第四,圖書館在數據中心IT基礎設施架構優化中,應保證IT基礎設施架構具備較強的靈活性、服務彈性和異構環境適應性,其可根據未來數據環境特點和整合需求進行靈活的擴展和伸縮,并具有智能、自動化的管理與維護功能[11]。
2.2.2 大數據資源整合平臺應具備較強的功能性和可控性
圖書館在大數據資源整合平臺的設計和采購中,首先應關注平臺系統功能模塊軟件的開源性和獨立性,確保系統功能強大、易于開發和成本低廉。此外,平臺系統架構應具備高彈性和可擴充特性,用戶可依靠其內嵌平臺定制開發Java、C++等組件完成系統功能的擴充,以滿足數據組合快速變動和提升整體績效的需求。其次,整合平臺在復雜的數據整合工作流程管理設計中,應采用工作排程的管理整合,將復雜的數據整合工作流程以創新的分布式架構執行。第三,按照用戶服務的實時性劃分,圖書館大數據資源整合平臺主要整合兩類數據。一類是數據海量但實時性要求不高的數據,主要為系統日志、用戶行為數據、閱讀關系數據、系統配置數據等;另一類是實時性要求高的數據,主要為讀者個性化閱讀即時需求、用戶實時服務數據、讀者位置信息、系統安全防范與實時控制數據。圖書館大數據整合平臺應具備對數據重要性和實時性優先級別的判定功能,在數據整合時可根據數據的實時性判定等級劃分順序進行整合。第四,圖書館在大數據資源整合平臺設計中,應注重利用原有關系數據庫系統在處理結構化數據方面的效率優勢,并在此基礎上加強系統對非結構化數據和流數據的整合,在不影響數據整合功能性和可用性的前提下,大幅度降低系統設計的成本投入。第五,圖書館應加強大數據資源整合平臺數據輸入和輸出接口的智能化管理,確保平臺輸入端口可識別數據的類型和整合需求,并將擬整合數據快速、準確地發送至恰當的處理模塊進行處理。同時,處理后的數據應自動發送至主數據庫和相關應用數據庫進行保存和使用[12]。
2.2.3 利用云計算技術確保數據整合的高效和經濟
隨著服務模式的變革和用戶需求的不斷發展,圖書館總數據量將呈現海量和級數增長的態勢。依靠增加IT基礎設施設備數量、提升數據處理和存儲的性能、增強數據存儲和搜索的科學性、降低用戶服務QOS標準等方法,已經不能有效解決未來復雜的大數據環境下大數據資源整合存在的問題。因此,圖書館必須依靠云計算的技術支持,為大數據整合提供安全、高效、經濟和可靠的云服務保障。
根據數據的重要性和對圖書館用戶服務質量影響力的大小,大數據資源可劃分為服務系統運營與安全監控數據、用戶個體特征與社會關系數據、用戶閱讀需求與行為隱私數據、用戶位置信息與行為預測等高安全級別的數據,以及系統運行日志、閱讀服務數據、用戶群需求數據、服務環境分析數據和客戶關系保障等安全級別低的數據。這些大數據資源具有數據總量增加快、時效性強、存儲與搜索難度大等特點。因此,圖書館必須將云計算技術與大數據整合需求相結合,才能確保數據整合的高效和經濟[13]。
首先,圖書館應根據自身的經濟實力、技術水平和大數據整合需求,采用自建私有云和租賃云服務商服務的方式,依靠外部云數據托管系統來存儲和備份他們的數據,以減少IT基礎設施硬件、軟件系統建設和數據整合成本。其次,圖書館應將安全級別較高的數據存放在私有云中,如果因經濟與技術實力等原因必須存放在公有云中時,應與云服務商簽署科學、詳細的數據存儲、維護和災難恢復協議,明確雙方的權利和職責。第三,云服務商對圖書館用戶進行身份識別和權限認證后,應提供相應的大數據資源Web遠程訪問、管理、部署和備份功能,保證大數據資源整合與管理過程安全、靈活、經濟和便捷。第四,所構建的云數據庫應具備較強的數據管理、搜索、分析和依據用戶需求構建數據模型的功能,不能影響已整合數據的查詢、下載和應用效率[14]。
2.2.4 以圖書館大數據服務QOS保障為目標
讀者作為圖書館個性化服務的承載者,具有較強的社會屬性。因此,圖書館大數據服務的模式、內容、方法和途徑也應具有較強的社會屬性,大數據整合應以用戶大數據服務的QOS保障為目標。
首先,大數據整合應有效保障圖書館運營從大生產向大服務的轉型。圖書館應依據大數據資源的整合優勢,將讀者服務競爭力從傳統IT環境下以數據中心硬件設備運營性能的競爭,向大數據環境下圖書館大數據分析與決策能力的競爭轉變,準確、快速和適時地分析、判斷讀者個性化閱讀需求,依據讀者閱讀需求變化為其提供相應的大數據個性化服務產品。其次,大數據整合應以優化圖書館服務流程、提升服務速度與時效、提高營銷管理效率和個性化用戶服務相關性為目標,將不同終端設備采集的大數據資源進行科學整合。第三,大數據資源整合應以提升圖書館業務的挖掘深度、服務針對性、用戶感知能力和用戶對服務產品的適應性為目標,實現大數據庫內部數據和服務資源的整合,最終完成以用戶大數據分析結果為依據,實現用戶服務內容和模式的定制與推送。第四,大數據整合應以提升圖書館對讀者閱讀關系、閱讀愛好、情緒與行為等數據價值獲取的能力為目的,依據數據分析結果來判斷所提供服務的準確性和用戶適應性。此外,圖書館還可依據大數據分析結果,實現圖書館與第三方大數據商、服務運營商的跨界整合,擴展大數據服務的內容和質量[15]。
2.2.5 統一系統數據架構和實現智能化整合
首先,在構建統一的數據環境時,圖書館會面臨系統管理與用戶服務過程中產生的各種新型數據類型和系統。這種新型數據類型與系統的多樣性會嚴重影響大數據價值發現、挖掘、分析與提取的有效性,也嚴重影響圖書館服務能力和業務洞察力的提高。因此,圖書館的大數據資源整合必須首先實現系統數據架構的統一與標準化。其次,在大數據資源整合平臺構建中,平臺系統設計者應保證系統平臺模塊之間的數據連接器可以安全、高效、透明、無縫地實現數據的輸入與輸出。同時,平臺系統可以根據主動監控事件和安全預警來識別風險和系統故障,并通過反饋控制進行智能化的安全管理和安全事件報警。第三,大數據整合平臺應擁有統一的管理界面和較低的系統復雜度,具備較高的系統運行效率與數據加載能力,可輔助管理員智能化地管理、分析海量的結構化、非結構化及多種結構化的數據。第四,大數據整合應以圖書館服務能力的提升和用戶需求為核心,以低碳、環保為目標,通過優化、整合軟硬件平臺系統,實現大數據資源的高效、“綠色”整合。同時,圖書館還應加強大數據資源整合過程中的法律和制度保障,以及圖書館在大數據備份、存儲、使用和共享過程的安全管理,并執行符合大數據資源整合生命周期管理的應用策略,確保大數據整合過程的可管、可控和可監督[16]。
大數據時代,數據結構的科學性、可共享性、價值量和易操作性,是關系圖書館系統運營安全性和效率、用戶服務模式與內容變革、服務能力提升和客戶關系管理有效性的重要因素。如何構建科學的IT基礎設施架構和采用科學、合理的策略,對低價值密度、海量、無序和分散的大數據資源進行采集、清洗、轉換和整合,使數據資源結構合理、高價值密度、可管理和易用,是圖書館獲取新的市場洞察和預測分析能力,科學匹配、優化服務資源和滿足讀者個性化需求的關鍵[17]。
因此,圖書館必須以提高讀者個性化服務保障力和大數據資源的價值總量為目標,構建科學的大數據整合、管理平臺和服務資源整合體系。同時,圖書館應結合用戶服務系統的保障需求與特點,仔細分析圖書館大數據資源的結構特征、價值屬性、可控性和可用性,并對不同數據源、數據格式、性質和應用對象的數據進行高效整合,才能增強數據之間的關聯性,消除信息孤島和提高知識發現的廣度與深度,為圖書館用戶服務決策的制定、系統管理與運營、服務資源的整體優化和客戶關系管理提供可靠的大數據支持[18]。
[1]Weber L. Marketing to the Social Web: How Digital Customer Communities Build Your Business[M].John Wiley & Sons,2007.
[2]劉雪瓊,武 剛,鄧厚平.Web信息整合中的數據去重方法[J].計算機應用,2013,33(9):2493-2496.
[3]葉煥倬,吳 迪.相似重復記錄清理方法研究綜述[J].現代圖書情報技術,2010(9):56-66.
[4]2012年IBM軟件技術峰會專題[EB/OL].[2013-05-01].http://tech.sina.com.cn/it/2012-08-23/11387538429.shtml.
[5]何 非,何克清.大數據及其科學問題與方法的探討[J].武漢大學學報:理學版,2014,60(1):1-12.
[6]白如江,冷伏海“.大數據”時代科學數據整合研究[J].情報理論與實踐,2014,37(1):94-99.
[7]周曉方,陸嘉恒,李翠平,等.從數據管理視角看大數據挑戰[J].中國計算機學會通訊,2012,8(9):16-20.
[8]Lee K P,Hu J K.XMLSchema Representation of DICOM Structured Reporting[J].Journal of the American Medical Informatics Association,2003,10(2):213-223.
[9]畢億默,盧 超,王 華. 一種數據交換整合平臺的設計與實現[J].計算機應用與軟件,2013,30(12):127-129,136.
[10]IBM展示業界最完整大數據解決方案[EB/OL].[2013-05-01].http://server.zdnet.com.cn/server/2013/0317/2148815.shtml.
[11]侯 麗,李 姣.健康信息資源公益性開發中異構數據整合方案的研究與應用[J].現代圖書情報技術,2013(4):83-896.
[12]管 進.基于關聯數據的圖書館知識服務策略研究[J].圖書館理論與實踐,2012(6):9-11.
[13]Heterogeneous Database System[EB/OL].[2013-03-14].http://en.wikipedia.org/wiki/Heterogeneous Database_System.
[14]程學旗.大數據的應用與科學問題探討[R].數學與大數據科學論壇.北京:中國科學院,2013:43-52.
[15]姜 山,王 剛.大數據對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54,79
[16]秦 鴻,錢國富,鐘遠薪.三種發現服務系統的比較研究[J].大學圖書館學報,2012(5):5-11,17.
[17]李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[18]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138.