摘要:文章主要研究了分布式存儲的定義及其特性,發現布式文件存儲系統拓展性強、容錯性高、成本較低。并對大數據存儲中分布式文件存儲系統的類型及其應用范圍作出了詳解。其中,GemFire系統具備較高的安全性并且能促進設備的智能化,是具有代表性、值得應用的系統之一。
關鍵詞:大數據存儲;分布式文件存儲系統;應用
引言
2021年1月28日,中國海量存儲系統MassStor100排行榜發布,這是我國國內首個存儲領域權威榜單。大數據環境下,信息收集與存儲技術逐漸成為人們生活當中不可缺少的部分。并且大數據推動了傳統存儲技術的革新,促進了現代化基于網絡技術的存儲系統的生成。且大數據存儲中分布式文件存儲系統能夠以快速、便捷的方式完成信息存儲與管理,并且可以為用戶提供個性化存儲服務。但是不同的存儲系統適用的范圍與效果皆有不同,為實現用戶選擇合適的分布式文件存儲系統,對大數據存儲中分布式文件存儲系統進行了深入研究。
1 分布式存儲的定義
在大數據存儲技術中,根據物理形態可以分成兩大板塊:集中式存儲與分布式存儲。集中式存儲與分布式存儲實現數據存儲的形式與方法完全不一樣,集中式存儲利用設備的疊加來實現擴增大數據容量,分布式存儲則基于軟件服務來實現大數據存儲。分布式存儲需要服務器、服務和軟件形成一個完成存儲的綜合體,并且這個綜合體是采用非標準程序協議的方式對其他服務器已有的存儲資源進行整合利用。再通過由主體設備的固有存儲資源與其他軟件的增容資源進行聯合處理,實現存資源池化,同時進行虛擬化處理,最終呈現給用戶“塊存儲”或“文件存儲”形式的大容量存儲空間。總的來說,就是將一些分散在不同機器設備中的磁盤空間數據,利用網絡技術和支持運行存儲的軟件對其進行有效整合,以此搭建一個可以延伸擴展、完整的結構系統,實現對海量數據的存儲服務。
2 分布式文件存儲系統的特性
2.1可拓展性
大數據存儲中分布式文件存儲系統一個較顯著的特點就是其具備可拓展性能。傳統集中式的存儲系統無法實現對其他機器設備的有效連接與延伸,而分布式存儲系統不但可以對不同的及其設備與軟件的進行有效連接,進行存儲資源整合,還能通過其擴展性優勢實現對數百上千臺機器設備的存儲利用,并形成一個覆蓋范圍較大的存儲集群[1]。
2.2容錯性
分布式文件存儲系統強大的容錯性效能,可以快速完成對服務器的故障檢測,并且可以對發生故障的服務器及時進行內部數據的高效自動化遷移。但是分布式文件存儲系統在內部數據的存儲與管理過程中,需要對其進行適當調整以實現存儲數的持久化,保障數據信息資源的穩定狀態。究其原因,是因為分布式文件存儲系統中的存儲拓撲結構較為復雜,而運行繁瑣則會對分布式文件存儲系統造成一定影響,會增加系統發生故障的概率。為了預防系統故障的可能,則需要分布式文件存儲系統切實保障存儲數據的一致性,這就需要分布式文件存儲系統通過自動容錯、自動遷移和并發讀寫等過程中完成數據一致性。
2.3成本低
分布式文件存儲系統對存儲設備的要求較低,常規服務器就能滿足分布式文件存儲系統的基本需求,支撐分布式文件存儲系統運行。因此分布式文件存儲系統所消耗的成本較低,這也是分布式文件存儲系統比較明顯的優勢與特點。同時,分布式存儲系統得到拓展性也大幅度降低了其對服務器的要求,進一步減少了分布式文件存儲系統運行所需的設備服務器成本。
3 大數據存儲中分布式文件存儲系統的應用
3.1 GemFire系統
當前被廣泛運用的分布式文件存儲系統主要包含兩個部分:Hadoop與NoSQL。Hadoop是分布式系統基礎架構,而NoSQL是非關系型的數據庫,兩者涉及和被應用的領域都較廣泛。除此之外,還有較前沿的NewSQL技術,三者之間的存儲原理存在一致性,都是基于對存儲空間進行合理利用與升級優化,從而保障數據存儲的有效性并促進資源優化分配。而分布式文件存儲技術已然成為大數據存儲中的核心技術,并且GemFire系統是比較具有代表性的分布式文件存儲系統。在實際運用過程中,GemFire系統主要設計成橫向擴展模式與其他機器設備的數據庫完成對接[2]。同時,GemFire系統還可以對數據存儲空間進行虛擬化處理,方便用戶對存儲空間進行集中化管理。并且GemFire系統不需要依靠特定的讀寫磁盤就能實現對數據的有效存儲,具有較高的穩定性,有利于提高存儲數據空間的可靠性和保障數據的安全性。目前GemFire系統就被應用到我國鐵道部的乘客信息安全與管理過程當中,所以在優先保障數據存儲安全與無讀寫磁盤限制時,可以選擇GemFire系統這類極限數據分布式存儲技術進行數據存儲。
3.2 Swift 系統
分布式文件存儲技術的成本要求具有多元化的特點,并且有一些分布式文件存儲技術只需較低的運行成本就能達到滿足用戶需要的存儲效果。這類低成本、低消耗分布式存儲系統與作用對象存在較大關聯,并且在實際過程中,這類分布式文件存儲技術會利用相關的網頁服務協議分離數據通道及其對應的控制通道,進一步完成分布式文件存儲系統對不同數據庫的管控與利用。另外,這種存儲技術能夠有效促進存儲對象提高自身智能屬性。比較有代表性的就是Swift 系統,主要由數據訪問系統和數據自檢系統組成其中,Swift系統所含的數據訪問系統需要專門的服務器才能實現,并且需要其他模塊設置成相對應的運行系統才能順利進行,尤其是要保障數據檢索功能的對應。Swift系統創建的各個數據存儲空間處于平等地位,并且內部的系統框架能夠形成對稱效果,進一步增強了Swift系統的擴展性,除此之外,當系統內某個存儲空間出現故障時也不會造成數據的丟失,具備較高的安全保護性能。
3.3自定義分布式存儲技術
自定義分布式存儲技術有利于用戶結合自身需求選擇適用的分布式文件存儲系統。自定義分布式存儲技術能夠結合機器設備、存儲軟件的需要,對內部系統進行調整與改進。當前市面上較為常見、應用較多的主要是Ceph系統,Ceph系統因其具備多個對外接口可以實現存儲軟件拓寬訪問渠道,并且可以結合用戶需求和軟件要求提供個性化的存儲模式,基于不同需求設置塊存儲、文件存儲、對象存儲等模式。此外,Ceph系統還可以對Librbd 存儲系統、Rados-GW 系統提供有效支撐。雖然Ceph系統通過將多種存儲模式融入存儲系統的整體框架當中,實現與不同存儲模式的系統進行有機結合,但是Ceph系統的存儲模式及其覆蓋范圍難以支持系統跨度較大的規模布置。
結語
大數據存儲中分布式文件存儲系統,由于其容錯性高、可拓展性強好消耗成本較低的優勢,在眾多領域中得到廣泛應用。并且根據其不同特性,用戶可結合自身需要進行選擇。分布式文件存儲系統的不同存儲模式對應的及其設備與存儲軟件也不盡相同,但是目前已有的GemFire系統、Swift 系統等,對數據存儲的保護作用較強,還能實現對資源的優化分配,對用戶來說都是不錯的選擇。
參考文獻
[1]劉蘇英. 分布式文件存儲系統在電子通信大數據存儲中的應用[J]. 九江學院學報(自然科學版),2021,36(02):78-80.
[2]高尚建,魏國,楊功. 基于海量數據優化管理的分布式文件存儲系統應用研究[J]. 科技創新與應用,2020,(18):181-182.
作者簡介:劉建斌(1990年5月),男,漢族,籍貫:山西省忻州市人,學歷:碩士,職稱:助教,研究方向:數據存儲技術。