陳臣

[摘要]圖書館數據是一種典型的天數據,大數據管理是目前圖書館面臨的一個復雜問題。為了解決傳統關系型數據庫在海量數據存儲和訪問效率中存在的瓶頸問題,本文提出了一種基于新型存儲的數字圖書館大數據分布式存儲架構。該存儲架構具有良好的可擴展性、容錯性和存儲性能。
[關鍵詞]數字圖書館;分布式;大數據;存儲架構
DOI:10.3969/i.issn.1008-0821.2015.01.019
[中圖分類號]G250.76 [文獻標識碼]A [文章編號]1008-0821(2015)01-0100-04
當前,隨著讀者閱讀需求和用戶服務保障模式的發展,圖書館數據環境呈現Volume(海量)、Variety(多類型)、Velocity(生成快速)和Value(高價值)的4V特點,圖書館已進入大數據時代。大數據時代,數據與勞動力、服務資本和科學技術一起,已成為圖書館服務生產力的重要組成部分。因此,如何有效采集、存儲、管理與分析數據,成為關系圖書館科學決策、降低服務成本、保證服務質量和增強讀者閱讀活動滿意度的關鍵。
維基百科將“大數據”定義為無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。面對復雜、海量、多類型和級數增長的大數據資源,傳統數據存儲系統的存儲效率、容量、可擴展性和設備生命周期使用效率,已不能滿足圖書館大數據采集、存儲、處理、分析和決策的需求。因此,圖書館只有結合大數據環境特點和讀者服務決策需求,以增強讀者QOs(服務質量)保障和用戶服務能力為目標,才能設計出滿足圖書館大數據采集、處理、分析和決策的存儲系統。
1.圖書館大數據環境特點與數據存儲需求
1.1傳統存儲系統已不能滿足大數據存儲、計算、分析和決策的需求
大數據時代,圖書館數據源多樣且數據總量海量,數據類型呈現結構化、半結構化及非結構化數據共存的復雜特征,管理類型單一、結構化關系型數據的傳統存儲系統,無法滿足海量、復雜大數據的存儲需求。其次,伴隨大數據總量的快速遞增,傳統的SNA(存儲區域網絡)的網絡傳輸帶寬,已成為數據向網絡存儲節點和計算節點傳輸的瓶頸,嚴重影響了大數據網絡存儲、計算和決策的效率。第三,圖書館大數據服務模式可能會需要對數據進行反復的過濾、融合、價值提取、遷移和計算。因此,要求存儲系統能夠為大數據應用提供統一或者兼容性強的讀寫接口,以及高效的數據存儲與讀取支持。第四,大數據應用要求存儲系統采用基于多存儲介質的分層存儲架構,可為不同數量、熱點、讀寫速度和安全需求的數據提供存取服務。
1.2云存儲不能完全滿足大數據的存儲需求
伴隨云計算技術的發展與應用,圖書館可通過租賃云服務商服務的方式,為讀者提供安全、高效、經濟、便捷的云閱讀服務。但是,隨著大數據環境復雜度和大數據應用需求的增長,云存儲已不能完全滿足圖書館大數據的存儲需求。首先,讀者閱讀活動的安全性是決定用戶閱讀愉悅感的關鍵因素。此外,讀者的閱讀歷史記錄、個體位置信息、閱讀社會關系和閱讀需求等信息,是圖書館發現讀者需求、預測閱讀服務模式、評估用戶閱讀活動滿意度的重要依據。如果將此類數據存儲在由第三方管理的云空間中,可能會由于圖書館喪失對數據的控制權而導致讀者隱私被侵犯,影響讀者大數據閱讀的安全性和可靠性。其次,大數據閱讀服務要求通過對讀者行為數據的即時分析,準確掌握讀者閱讀需求和閱讀方式的變化趨勢,進而實現個性化服務策略的精確、實時調整。而圖書館對存儲于云空間數據的超長時間存儲、定位和下載,則會影響圖書館讀者個性化服務決策與內容推送的實時、有效性。第三,隨著大數據總量的級數增長,日益增長的云存儲服務和數據網絡傳輸費用,也是影響圖書館大數據閱讀服務投資收益率的重要因素。
1.3大數據存儲總量呈現級數遞增
伴隨可穿戴技術的發展,利用可穿戴設備的軟件支持以及數據交互、云端交互的強大功能,提高讀者對外界的感應與信息獲取能力,是圖書館增強讀者個性化閱讀效率和滿意度的重要方式。圖書館大數據來源主要包括可穿戴閱讀設備記錄數據、服務器監控數據、傳感器網絡采集數據、讀者行為數據和讀者位置數據等,此類數據可達到PB級的數據規模,并呈現幾何級增長態勢。因此,要求存儲系統具備海量存儲和可無縫平滑擴展的能力,避免存儲孤島現象發生。其次,圖書館大數據庫擁有龐大的文件數量,大數據存儲系統對文件系統層累積元數據管理的有效性,是關系大數據文件快速查找、定位準確性,以及圖書館大數據分析、決策實時性的重要問題。第三,為了增強讀者閱讀服務的安全性與可靠性,圖書館會對讀者閱讀服務過程的關鍵設備和重要數據進行備份。這些大數據信息具有分布式、多類型和大流量的特點,要求存儲系統至少分配擬備份數據量一倍以上的存儲空間。因此,如何實現關鍵數據的安全、統一備份,是大數據存儲系統面臨的一個嚴峻挑戰。
1.4大數據分析要求存儲系統高效、即時和可擴展
大數據時代,圖書館數據管理目標應將傳統的以數據存儲為中心,轉變為以數據應用為中心。因此,圖書館在大數據存儲系統建設中,應堅持計算平臺靠近存儲系統部署的原則,通過降低大數據資源向計算單元應用程序數據傳輸的延遲,提高大數據計算、分析和決策的效率。其次,讀者大數據閱讀活動具有突發和不可預測的特點。如何準確、實時地對讀者需求變化進行分析、判斷,并實現廣告的準確投放和服務推送,是提高讀者閱讀滿意度的關鍵。因此,要求圖書館大數據存儲系統可支持并發的數據流,并具備較高的10Ps(每秒進行讀寫操作的次數)性能。第三,大數據存儲系統的存儲資源利用率、不間斷工作時間、低延遲性、主存性能和大數據管理算法的科學性,也是大數據存儲系統構建應關注的重要問題。
1.5圖書館大數據存儲的可控性與成本問題
大數據時代,分布式存儲系統采用可擴展的系統結構,依靠多臺存儲服務器共同分擔存儲負荷。同時,利用位置服務器定位存儲信息,具有高效、可靠、可用和可擴展的特點,是圖書館大數據存儲系統構建采用的主要模式。面對海量、復雜、多變和非結構化的數據環境,為了增強分布式存儲系統大數據定位的準確性、用戶訪問效率、易用性和可控性,存儲系統應采用基于文件屬性和內容的數據訪問方式。增強數據的表意性和查詢、存儲、下載效率。其次,在分布式存儲系統的設計中,還應關注存儲系統存儲能力、長期存儲有效性、系統結構復雜度可控性、系統建設成本、運營成本和能量損耗等問題,通過自動精簡配置、快照和克隆等技術手段,提高存儲系統的持久性、智能性、可靠性和可控性。第三,大數據存儲系統應采用數據壓縮、重復數據刪除和自動精簡配置等技術,精簡大數據存儲系統應存儲的數據總量。此外,還應采用相應的綠色存儲技術,精確控制磁盤介質運行狀態和讀寫速度,通過減少活動磁盤的總量來降低系統存儲能耗,并延長存儲介質的使用壽命。endprint
2.圖書館大數據分布式存儲系統架構的設計與管理
2.1圖書館大數據分布式存儲系統架構的設計
大數據時代圖書館存儲系統的設計,應堅持分布式存儲系統與計算系統相融合的原則,增強大數據存儲對大數據決策的服務保障能力。數據中心傳統以計算為中心的服務模式,應實現以數據為中心的服務模式轉變。
本文設計的圖書館大數據分布式存儲系統如圖1所示。
該存儲系統由若干個小型數據庫存儲從節點組成。為了降低數據庫建設成本和保證數據存儲效率,每個小型數據庫應將閃存做為內存與磁盤之間的緩存,在大幅度提高數據讀取速度的前提下,減少數據存儲對磁盤的寫操作次數和存儲能耗。位于同一個小型數據庫中的存儲從節點,由本地存儲節點控制器管理存儲從節點數據的存儲任務,并負責若干存儲從節點之間存儲負載的均衡。而本地計算控制器負責從若干個存儲從節點之中調取本地計算所需的數據,控制完成本地的數據計算任務。存儲主控節點負責管理圖書館所有的大數據存儲從節點控制器,實時對所有的存儲從節點進行監控、管理、檢測和控制,當某個從節點發生故障或者存儲負載過重時,由主存儲主控節點控制完成該存儲從節點數據和工作負載的遷移。并行計算主控節點負責管理所有的本地計算控制器,負責向所有的本地計算控制器發送計算任務和回收數據計算結果,通過有效管理和調度整個集群中的本地計算控制器,完成并行化程序的執行和數據處理。此外,控制每個從節點盡可能地對本地節點上的數據進行本地化計算。該系統可花費較低的成本部署在圖書館傳統存儲系統之上,具有較高的大數據計算、存儲效率和數據容錯特性,能夠保證管理員在不了解存儲系統分布式結構底層細節的情況下,實現大數據資源的高速存儲、運算、分析和決策。
2.2圖書館大數據存儲系統的管理策略
2.2.1實現大數據存儲的虛擬化管理
首先,在大數據存儲系統建設中,圖書館應依據當前讀者大數據閱讀服務對存儲系統的容量需求,以及讀者未來閱讀活動對存儲需求的增量,制定詳細的系統擴展方案,確保存儲系統可根據大數據結構、存儲環境、服務負載和存儲對象,完成存儲系統容量、結構和存儲模式的實時、動態擴展。其次,在存儲系統的構建中,圖書館應基于“軟件定義存儲”技術完成存儲系統的自動分層和精簡配置,將結構化、半結構化和非結構化數據統一存儲到+大的虛擬化邏輯存儲系統中,實現異構存儲空間的動態分配與管理。同時,應依據不同大數據資源在數據存儲安全性、效率、可控性和成本的差異,執行相應的大數據存儲策略,自動將數據放在恰當的存儲層中。第三,圖書館還應利用閃存等新型存儲介質快速、低延遲的特性,構建大數據臨時公共存儲池,實現對實時分析、計算、交換和整合數據的“彈性”存儲,避免大數據的過度往返遷移。
2.2.2大數據存儲應滿足圖書館大數據實時分析需求
大數據實時分析,是指圖書館利用大數據技術對海量數據進行高效、快速的分析,以期達到近似實時的效果,及時的反映數據的價值和意義。圖書館通過對相關大數據的價值挖掘和分析,可即時掌握讀者的閱讀需求變化,是圖書館精細、動態調整用戶管理和服務策略重要途徑。
在大數據實時分析過程中,存儲系統的響應效率、速度和數據傳輸延時是決定數據實時分析有效性的關鍵因素。因此,大數據存儲系統的構建可采用固態盤SSD(SolidState Drives)作為主存的擴展架構,以直連式存儲(DAS,Direct Attached Storage)的方式通過SCSI接口或光纖通道,直接連接到大數據的計算、分析平臺,確保大數據分析過程安全、高效、快速、便捷。而對于分析時限要求不高的異步大數據分析,可采用多存儲模塊或節點橫向擴展的方式,將Hadoop(一個能夠對大量數據進行分布式處理的軟件框架)運行在集群的不同節點上,由多個存儲模塊或節點分擔存儲負荷,以大數據并行分布式處理的工作方式完成異步大數據分析任務。
2.2.3大數據存儲的安全管理
為了保護大數據安全,阻止黑客對大數據的非法訪問、竊取和篡改,圖書館通常采用防火墻隔離和網關對訪問者身份認證的方式,有效審核訪問者的身份并限止訪問權限。但是,傳統Ⅱ環境下的防火墻隔離、網關認證與安全審計模式,無法有效管理來自圖書館內部用戶對大數據資源庫的訪問行為。此外,圖書館內部的不同部門,對所屬大數據資源的安全需求、訪問者身份控制、開放性、訪問效率和經濟性有不同的要求。因此,對于具有較高遷移性、共享性和融合需求的大數據資源,圖書館應采用構建公共大數據存儲池的方式,通過對存儲資源池添加必要的用戶身份認證和訪問權限控制,來確保內部大數據資源訪問安全、高效、經濟和可控。其次,數據備份是圖書館災難恢復和數據可用性保證的重要措施。圖書館可將讀者隱私數據、服務數據、系統日志數據和系統配置信息等機密數據,通過冗余備份的方式分別存儲于兩個以上的不同存儲節點上,并設置相應的管理策略確保主數據庫數據丟失、損壞和不可用時,可通過數據的自動恢復、重傳和任務轉移機制,確保大數據存儲安全和存儲服務不間斷。第三,在大數據庫建設中,圖書館在加強存儲系統運營成本控制和存儲經濟性的前提下,還應確保存儲系統具備強大的容錯軟件管理能力,可實時對存儲系統進行故障監控、重復數據刪除和存儲功能自動恢復。
2.2.4大數據存儲前應對數據進行過濾、分類和整合
大數據時代,以數據為中心、分布式存儲和上下整合的存儲架構,是圖書館大數據存儲系統的主要特征。為了進一步提高大數據存儲的效率和系統可控性,圖書館在構建科學大數據存儲架構的前提下,應加強對大數據資源的過濾、分類和整合。
首先,圖書館應通過對大數據資源的過濾、處理和整合,在大幅降低大數據存儲資源總量和遷移頻率的前提下,提高大數據資源的價值密度和可用性。其次,應實現大數據存儲系統與計算系統的融合度,將圖書館的大數據存儲系統、分析系統、數據挖掘與整合系統、決策系統整合為—個大的系統,在一個統一系統中實現數據的存儲、管理、分析和決策,避免數據在不同的子系統之間過度裝載、遷移。此外,還應堅持就近部署的原則,將大數據存儲系統就近部署在計算系統傍,通過降低數據遷移、傳輸延遲來提高大數據的決策效率。第三,大數據存儲系統應堅持基于流動數據架構的存儲管理模式,主動、智能、精細化和可擴展地實現對大數據資源的存儲管理,在降低大數據應用對存儲資源池容量需求的前提下,提高大數據存儲效率并降低存儲成本,增強大數據存儲對圖書館決策、服務的支撐力。
3.結束語
伴隨大數據時代的來臨,圖書館數據環境呈現海量、多類型、生成快速和高價值的4V特點,傳統的數據存儲系統已不能滿足大數據閱讀服務對數據存儲容量、性能、業務連續性和數據生命周期管理效率等方面的需求。大數據存儲的安全性、效率、經濟性和可控性,已成為關系圖書館大數據決策科學性和讀者服務有效性最為關鍵的因素之一。為了構建安全、高效、經濟、動態和彈性的大數據存儲系統,圖書館必須以大數據時代讀者閱讀需求和大數據決策保障為中心,堅持采用虛擬化存儲、并行分布式處理、自動分層、彈性擴展、異構資源整合和全局緩存加速等技術,才能構建安全、高10Ps(每秒讀寫操作的次數)、低延遲、可靠穩定的大數據存儲系統,才能大幅度降低大數據儲資源配置、存儲管理和數據決策的復雜度,才能為讀者提供安全、可靠和基于大數據決策的個性化智慧服務。endprint