岳陽 徐昆 康利剛
摘要:針對大數據高并發應用的特點,設計了基于云技術的分布式大數據存儲系統結構。該存儲系統結構采用帶外模式的大規模開放集群存儲架構,通過高速網絡將通用存儲服務器中的CPU、內存、網絡帶寬、磁盤轉速、總線性能進行整合,形成統一的存儲系統,使得存儲總體性能高于計算處理能力與網絡帶寬的傳輸速度,以此來屏蔽由于磁盤和總線性能提升緩慢造成的存儲性能瓶頸。
關鍵詞:大數據;數據管理;數據存儲;云技術
中圖分類號:TP393 文獻標識碼:A 文章編號:1007-9416(2020)09-0115-03
0 引言
大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合[1]。大數據提出者維克托指出,大數據是指[2]不用隨機分析法(抽樣調查)捷徑,而采用所有數據進行分析處理。大數據具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
大數據存儲是將這些數據集存儲在計算機中。大數據平臺系統主要為了支撐大數據存儲、分析、實時處理等使用場景,整體采用分布式系統的架構,該存儲架構通過云平臺、虛擬化、負載均衡等技術,將網絡上不同終端站點的數據資源形成邏輯上的共享資源,能夠根據用戶需求提供相應的存儲數據。
大數據存儲系統作為數據統一處理和服務的平臺,是位于各業務信息系統之下的一種支撐性數據訪問平臺。其定位是為大數據的采集、整合、存儲、查詢、分析構建統一的數據管理與服務,為上層應用提供數據運算、數據服務以及數據管理的能力。大數據存儲系統的核心意義[3]在于使數據存儲管理更為集中化,透明化,最終實現數據存儲服務平臺化,并且可以讓數據以資源和服務的方式對外提供。
1 大數據存儲系統功能需求
大數據存儲系統功能需求[4]如下:
(1)海量異構數據存儲。大數據存儲系統應具有通用化、平臺化、服務化的特點,能夠提供足夠的存儲空間和可靠的數據存儲能力,確保任何情況下數據可按需存取。存儲系統能夠將所有服務器的處理器資源進行整合,進行并發數據處理,以提升存儲系統效率,提升存儲系統整體的處理能力。
(2)高性能存儲。存儲系統應具有大容量、易擴展和快速高效的特點,以適應數據快速膨脹、變化的特點,滿足應用程序對存儲性能增長的要求。
大數據存儲系統設計目標:面向海量多源異構數據存儲管理需求,提供安全強化的異構對象存儲管理能力,能夠為多態對象數據提供統一的存儲管理,并提供高安全保障能力,為各類應用的狀態數據存儲、歷史數據管理提供支撐,具有非結構化文本數據的高效內容檢索能力,能夠為各類應用文檔數據提供精準的內容檢索。
2 大數據存儲系統功能設計
面向大數據的存儲系統功能主要從存儲可靠性、存儲維護性和存儲擴展性三方面加強設計[5]。
(1)存儲可靠性設計。大數據平臺存儲的數據集中、數據量大、數據價值高,因此大數據環境下的數據安全顯得尤為重要,存儲系統可靠性是系統整體可靠性的關鍵,設計的重點在于存儲功能的劃分及系統自動備份恢復、故障檢測判斷等。設計目標為不論系統發生任何故障,保證系統數據不丟失,同時保證數據使用的連續性和不間斷性,對上層應用不造成影響。
(2)存儲維護性設計。存儲系統內的服務器、硬盤等硬件設施采用通用化設計,便于用戶維護使用。系統平時自動監測各設備及硬件的運行情況,出現故障時能夠自動探測定位,并按照負載均衡策略自動進行數據備份或遷移操作,將出現故障的設備進行數據存儲隔離。
(3)存儲擴展性設計。新一代業務應用需要存儲系統能夠根據增加的數據量實時按需擴容,系統內的服務器及硬盤數量等存儲硬件無上限要求。此外,存儲系統需要具有分級存儲功能,可以設置數據存儲所使用的硬件設備,經常被訪問的數據放置在性能高的存儲硬件介質中,以此提升存儲系統整體性能,同時實現硬件設備按需分享。對硬件設備進行更新換代時,可在系統中按需添加最新的存儲硬件以滿足應用需求,提升存儲系統整體的靈活性。
3 大數據存儲系統結構設計
大數據主要有三種存儲架構[6],分別是基于嵌入式的存儲架構、基于X86的存儲架構以及基于云技術的存儲架構。基于云技術的存儲架構是目前使用比較廣泛的數據存儲結構,該結構在大數據的存儲可靠性、存儲擴展性、存儲維護性等方面有許多技術優勢。
基于云技術設計的分布式大數據存儲系統結構主要由五部分組成,分別是:硬件層、存儲層、管理層、協議層、接口層,系統結構如圖1所示。
硬件層:主要由存儲硬件及網絡設備組成,存儲節點采用標準X86架構平臺,通過軟件可將異構存儲設備、Flash存儲、存儲盤陣、分布式存儲和磁帶庫統一管理,不同的存儲設備池化管理。
存儲層:存儲管理層采用分布式文件系統,分別部署在集群存儲的各個節點上,各節點上的軟件相互通信并協同工作,將集群中全部存儲節點的硬盤空間通過存儲池虛擬化技術融合成統一命名空間。利用數據生命周期管理技術,根據文件元數據屬性(名稱、創建時間、修改時間、大小、路徑等)的不同,將文件的數據放置在統一存儲空間的不同的存儲池中,從而映射到不同的存儲硬件設備上。利用Flash設備進行存儲加速,可將對IO敏感的應用部署在Flash存儲設備上,根據Flash存儲池的空間使用情況自動遷移至普通磁盤或帶庫。
管理層:系統管理層實現集群管理功能和企業高級功能。實現集群化安裝部署和在線升級。同時具有集群網絡附屬存儲(Network Attached Storage,NAS)功能,可定義集群中的部分節點作為NAS網關節點,節點故障后,NAS服務IP會自動漂移至其它節點。同時具有企業級應用場景中需要的數據壓縮、權限、配額、災備站點數據同步等功能。
協議層:協議層是指與前端應用軟件之間進行數據通信的規程,可支持多種數據傳輸協議,以滿足用戶不同應用場景的需求。如可以通過POSIX、CIFS、NFS、FTP、HTTP等傳輸協議支持文件數據傳輸。
接口層:接口層是可提供的對外接口,管理員可對整個存儲系統進行監控和管理。
該存儲系統結構采用了云技術的特點和優勢,在系統的體系架構、數據的存儲結構、數據的備份與恢復、數據的獲取與使用、負載勻衡等方面進行了更合理及更方便用戶使用的優化設計,底層數據傳輸采用流媒體結構,能夠大幅提高數據的存儲性能。
組網架構采用存儲節點進行組網,這種組網方式為對稱式組網架構,統一存儲節點部署NCSFS元數據管理服務、集群監控服務、數據存儲服務等功能模塊,存儲節點部署集群監控服務及數據存儲服務等功能模塊,實際組網時,支持采用部分統一存儲節點+存儲節點的組網方式,也可以全部采用統一存儲節點進行組網。采用這種對稱式組網架構可以滿足大部分用戶業務需求,是目前主要應用的組網架構。
4 結語
針對大數據高并發應用的特點,設計了基于云技術的分布式大數據存儲系統結構。該存儲系統結構采用帶外模式的大規模開放集群存儲架構,通過高速網絡將通用存儲服務器中的CPU、內存、網絡帶寬、磁盤轉速、總線性能進行整合,形成統一的存儲系統,使得存儲總體性能高于計算處理能力與網絡帶寬的傳輸速度,以此來屏蔽由于磁盤和總線性能提升緩慢造成的存儲性能瓶頸。
前端的應用服務器和后端的存儲節點及元數據節點通過千兆或萬兆以太網絡互連,可以保證存儲設備的性能輸出達到最大化。帶外模式可以很好的消除元數據通路與數據通路的相互干擾。元數據服務器的集群化和存儲服務器的集群化,使得整個系統中不存在像NAS系統那樣的性能瓶頸點,因此能夠完全滿足高并發應用的需求。
參考文獻
[1] 孫莉娜.基于云計算的大數據存儲安全探討[J].網絡安全技術與應用,2018(2):77-78.
[2] 維克托.邁爾-舍恩伯格,肯尼斯.庫克耶.大數據時代[M].浙江人民出版社,2013:158-189.
[3] 王瑞通,李煒春.大數據基礎存儲系統技術研究[J].計算機技術與發展,2017,27(8):66-72.
[4] 陸云帆,諸振家.數據庫大數據量存儲結構的研究分析[J].電子技術與軟件工程,2014(11):200.
[5] 劉圓,王峰,楊明川.面向大數據的分布式存儲技術研究[J].電信技術,2015(6):35-38.
[6] 劉亮.基于虛擬化與分布式技術的云存儲研究[J].電腦知識與技術,2012(11):211-212.