劉建斌 王明乾
摘要:隨著移動信息技術不斷得到發展,傳統的數據存儲系統已經無法應對海量數據信息的沖擊。在此背景下,Hadoop技術因為其開源免費的特點,能夠在構建科研大數據存儲系統節省不少經費開支同時,還能為科研大數據存儲系統提供較強的存儲可靠性?;诖耍疚耐ㄟ^分析Hadoop技術下科研大數據存儲系統的需求,為Hadoop技術下的科研大數據存儲系統提供設計理念和思路。
關鍵詞:Hadoop技術;科研大數據;存儲系統
Hadoop最早是由Apache基金會所發布的一款分布式系統基礎架構。借助Hadoop技術,可以使用戶在完全不了解分布式底層細節的情況下,開發分布式程序,并利用其中的集群功能進行高速運算和存儲。此外,Hadoop還具有可靠性高、擴展性強、容錯率大等顯著特點,將其應用于科研大數據存儲系統的設計構造中,能夠滿足現代社會日益擴大的海量存儲需求[1]。因此,在Hadoop技術下對科研大數據存儲系統展開研究,具有與時俱進的現實意義。
1Hadoop技術下科研大數據存儲系統的需求
1.1海量存儲需求
當前階段,隨著數據量逐漸由TB、PB朝著EB的量級方向發展,傳統的存儲系統已經無法快速處理海量的存儲需求。因此,在Hadoop技術下的科研大數據存儲系統,首先要具備處理海量數據信息,并根據大數據采集信息,對信息做出分析、決策的能力[2]。其次,面對用戶的數據存儲需求,科研大數據存儲系統需要具備數據的快速存儲、查詢、讀取、傳輸的能力。最后,科研大數據存儲系統通常具有多種結構類型或數據源,導致其存儲方式主要以半結構化存儲為主。因此,為了滿足這一需求,基于Hadoop技術的科研大數據存儲系統還要具備存儲格式、存儲介質并存的能力。
1.2安全性需求
隨著互聯網的發展,數據的安全性問題被不斷提及。因此,確保系統擁有足夠的安全性,將成為Hadoop技術下科研大數據存儲系統研究的重點。首先,科研大數據存儲系統應該確保數據時刻處于完整狀態,并確保數據不會被截獲、接聽、丟失或破壞。同時,還應借助監控功能為系統中的大數據傳輸提供安全保障。其次,對科研大數據存儲系統的用戶權限加以限制,以防止用戶通過獲取超級權限侵犯數據庫安全。再次,科研大數據存儲系統要想順利運行,需要依托互聯網。因此,需要確??蒲写髷祿鎯ο到y運行的互聯網絡,并通過檢查運行日志的方式,確保其安全性。最后,為了確保大數據存儲的安全性和準確性,快速備份功能十分重要。另外,為了不讓數據過于冗余,還需要對數據庫中的過期信息進行及時清理,從而為新數據騰出空間。
1.3可靠性需求
對于Hadoop技術下的科研大數據存儲系統,除了安全性外,最重要的就是系統的可靠性。首先,傳統的存儲系統在數據備份時,通常使用將數據強行寫入磁盤的方式進行。這種方式雖然能夠提升系統的準確性,但是在使用成本以及效率方面,和Hadoop技術相比均處于劣勢。其次,傳統的存儲系統主要基于SAN和NAS網絡運行。身處這兩種網絡中,其網絡帶寬將明顯小于大數據傳輸的速率,從而延緩大數據傳輸的效能。而在Hadoop技術下的科研大數據存儲系統,則能夠借助直連式存儲(DAS)大幅度降低網絡帶寬延遲,從而提升系統的可靠性。再次,為了在確保大數據運行效率的同時,降低系統運行成本,Hadoop技術是當前階段的最好選擇。最后,科研大數據存儲系統通常要面對多用戶登陸使用的情況,因此科研大數據存儲系統還應該具備在多用戶訪問情況,大數據傳輸穩定、可靠的能力。
2Hadoop技術下科研大數據存儲系統設計
2.1文件系統設計
在文件系統設計中,通常以節點作為數據的劃分點,并分為數據節點和非數據節點兩種。其中,數據節點包括DateNode節點,非數據節點包括Master節點。在Hadoop技術下的科研大數據存儲系統中,DateNode節點的作用在于讓系統保持正常運行。而Master節點的作用在于能夠為整個系統狀態提供監控。
2.2文件塊存儲策略
在文件塊存儲過程中,文件塊的主副本有且只有一個。簡單而言,在科研大數據存儲過程中,文件塊的更新完全由主副本進行控制。因此,可以基于Hadoop技術設計控制信息快。首先,主副本節點編號。在節點添加過程中,可以借助Hadoop技術中的Master節點得出節點編號。其次,副本數量。副本數量包含主副本和其他副本。通過查詢,如果結果顯示為1,則沒有其他副本。如果結果顯示為0,則沒有此文件塊。最后,副本節點編號列表。通過保存節點編號的方式,對編號地址進行訪問?;诖?,科研大數據存儲系統先通過Master節點為用戶生成快照,然后借助快照創建文件塊。
2.3科研資源網架構
為了方便用戶隨時查詢、檢索、使用科研資源網,需要通過Hadoop技術重新設計科研資源網架構。一方面,通過向云計算服務商發送申請,然后借由云存儲中的NameNode找尋Block中的ID,然后憑借該ID獲取所需的數據信息。在此過程中,為了有效節約服務器的存儲空間,將由系統管理員決定是否對發送過的數據進行刪除。另一方面,當NameNode將數據發送至云計算服務商DataNoe時,數據將在映像文件中保存,并通過Sceondary、NameNode等對數據進行備份。
結語
Hadoop技術作為一種面向海量數據信息的分布式系統,能夠有效應對TB量級以上的數據量。因此,將Hadoop技術應用于科研大數據存儲系統中,并通過文件系統設計、文件塊存儲策略、科研資源網架構、數據庫訪問層構建四個方面的設計,充分發揮Hadoop技術的效能,從而為科研大數據存儲系統的建立奠定技術基礎。
參考文獻
[1]李特,楊萌.基于Hadoop技術的科研大數據存儲系統設計[J].信息與電腦(理論版),2021,33(16):114-116.
[2]謝翌.基于Hadoop架構的高??蒲袛祿鎯ο到y設計[J].現代電子技術,2021,44(11):182-186.
第一作者簡介:劉建斌(1990年5月),男,漢族,籍貫:山西省忻州市人,學歷:碩士,職稱:助教,研究方向:數據存儲技術。
第二作者簡介:王明乾(1989年12月),男,漢族,籍貫:河北清河,學歷:碩士,職稱:助教,研究方向:云計算。