貴州省信息中心 袁繼會
芻議面向大數據分析的分布式文件系統關鍵技術
貴州省信息中心袁繼會
隨著我國互聯網應用技術水平的提高,互聯網企業正在加強對數據處理能力的研究與提高,以便于能夠很好地應對多樣化和大規模信息數據的處理需求。基于當前的發展新形勢,數據儲存量大是典型特征,現階段分布式文件系統的傳統性能已經不能滿足當前的發展需求,為此,需要注重數據的擴展以及操作的一致性。本文就面向大數據分析的分布式文件系統關鍵技術進行分析。
大數據;分布式;關鍵技術
當前,我國互聯網發展正是迎來大數據時代,數據信息的處理以及分析技術成為了相關人士關注的重點。數據量的不斷增加使得文件數量也在不斷增加,這是當前存儲數據的典型特征,其對延遲的文件訪問和元數據的性能也提出了更為嚴格的要求。就當前的問題,相關學者應該依據互聯網數據和分布式文件的特點,優化技術手段,以減少數據遷移產生的成本,實現系統空間的擴大和優化,提高數據的處理效率和質量。
海量非確定性異構數據產生的原因比較復雜,其應用也和以往有所不同,主要表現在:隨著數據應用規模的擴大以及應用領域的擴張,數據量會不斷增加,數據存數量也會有很大漲幅。在非確定數據的一般應用中,其數據來源較多,數據類型多元化,數據訪問形式也各有差異。元計算、物聯網應用日益普及,數據的產生量和訪問方式都是發生較大改變,此時的數據具有時效性和空間性特征,且訪問量較大。非確定數據應用中需要海量數據的支撐,這就要求對數據的存儲體系結構進行調整和優化。第一,海量數據的組織結構可以采用分布式數據管理模式,其更加適用于非確定數據應用以及數據組織方式;第二,因為海量數據不斷積累的,在積累的過程中,需要較大的存儲空間,其性能也需要擴張,這就需要建立與之匹配的存儲組織模式和索引機制。
對于海量不確定性數據的處理,采用傳統的信息存儲結構以及對象查詢方法,運行效率低下,所以需要采用新型的元數據組織結構以及查詢方法,這樣可為用戶提供更加高效的服務,也可提高數據查詢的準確率。因為在分布式環境中,數據源分布的網絡結點有所不同,這就會使得網絡傳輸的性能較為弱化。同時,因為各個數據源自治性較強,其需要通過改變自身的結構實現數據的高效更新,提高數據的實時性,這就會給數據集成系統的一致性造成阻礙。因為數據的非確定性,對于大量的非確定性異構數據來說,其集成難度就會提高,因此可以采用分布式處理技術實現計算資源以及存儲資源的統一管理。
數據的海量性、非確定性、異構性是數據挖掘算法需要改進的重點,因為數據的異構、海量、分布性以及決策控制的實時性,需要對數據挖掘引擎的布局和多引擎進行調整。結構化和非結構化數據都和數據的存儲以及管理息息相關,這是因為當前用戶對于大數據的應用需求所造成的,使得數據邏輯結構和物理存儲方式都需要做出相應的改變和調整。
3.1元數據的高可擴展服務
第一,全域名空間,即每個文件都有其自己的名稱,用戶可以直接搜索名字查詢并閱覽文件,且無需知道文件的具體存儲位置。StorageTank就技術層面來說其已經可以起到協調復數服務器的作用,并對系統進行分化,實現各個分布的獨立,但相互依存,每個部分都有單獨的服務器,但是多個部分共同作用,以快速解決過載問題,也提升了系統的可靠性。第二,緩存,分布式系統的錄入通常分為兩種形式,即write-back、write-through。第三,可用性,分布式系統一般由多個節點共同構成,其需要相互協作才能實現服務功能。一般情況下,可以通過RAID技術保證磁盤的實用性和可靠性,并且保障數據源的穩定性。第四,擴展性,分布式系統可以通過擴展規模的途徑以獲取大存儲空間和較高的性能,其中比較核心的技術類型為虛擬化存儲,Virtualization,該技術的應用可基本滿足分布式系統的擴展性要求。
3.2高可用的元數據機制
3.2.1恢復元數據服務器狀態機制
很多的元數據服務器都有特定的狀態,就目錄中文件數據信息的存儲來說,其需要各個服務器之前的連接與協調,從而保證通信的順暢,若在重啟過程中出現故障,則需要在短時間內回復元數據,在此過程中Hadoop分布式文件系統可以依據文件的不同,共享存儲池中可以良好保存數據信息,也可以將其轉化為鏡像文件形式,在數據恢復之后,以保證運行狀態正常。可以將虛擬存儲池當做共享存儲池使用,存儲以及加載元數據文件,可以在重啟發生故障的服務器之后通過一定的邏輯卷試圖形式實現對文件信息的構件以及深度分析,并且通過統一的手段實現對數據的校正,避免訪問失敗等問題的發生。
3.2.2基于共享的存儲池節點熱備
對于共享的存儲池節點熱備來說(如圖1所示),若元數據服務器群體中某個元數據服務器發生故障,則不能提供空間名字狀態的維護和提供服務,這就會對上層文件系統的出入造成影響。基于此,若需要恢復數據的相關狀態信息,則需要重啟等待,但是此操作耗費的時間較長。同時,也可以通過備份實現元數據信息的重新加載,保證元數據的完整性,在共享的存儲池節點熱備基礎上可以采用影子節點的方法,對不同的元數據服務器進行熱備,采用專業的機械設備快速排除故障。

圖1 基于共享存儲池的節點熱備
綜上所述,大數據是我國當前的互聯網發展形勢,需要對以往的分布式文件系統進行優化,從而實現對數據文件信息的深化分析,也可以采用相關的技術手段避免操作故障,提升操作系統的穩定性和可靠性,擴展存儲空間。
[1]姜博.大數據分析的分布式MOLAP技術[J].通訊世界,2015(24):331-332.
[2]董守斌,趙鐵柱.面向搜索引擎的分布式文件系統性能分析[J].華南理工大學學報:自然科學版,2011,39(4):7-14.
[3]宋杰,郭朝鵬,王智,等.大數據分析的分布式MOLAP技術[J].軟件學報,2014,25(4):731-752.
[4]王鵬,黃焱,劉峰,等.大數據技術中計算與數據的協作機制[J].成都信息工程學院學報,2014,29(1):1-12.