基于Hadoop分布式架構的云存儲系統設計

2024-09-14 00:00:00曹陽

電腦知識與技術 2024年23期

摘要：為滿足海量數據的便捷化、智能化存儲和分析需求，充分發揮和利用Hadoop分布式架構的運行成本低、容錯性高等優勢，應用Hadoop分布式架構設計一款新型、先進的云存儲系統，從系統架構設計和系統數據庫設計兩個方面入手，完成系統總體設計。根據系統功能列表，依次設計文件上傳、文件下載、文件瀏覽、其他操作等模塊。在Hadoop分布式架構的應用背景下，文章中所設計的云存儲系統具有內存開銷率低、集群讀取效率高、安全可靠等優點，符合預期設計標準和要求。

關鍵詞：Hadoop；云存儲系統；預取緩存；數據讀取

中圖分類號：TP393 文獻標識碼：A

文章編號：1009-3044（2024）23-0046-03

開放科學（資源服務）標識碼（OSID）

在智慧醫療、電商、網絡社交媒體等行業的迅猛發展下，包括小文件在內的網絡數據呈現出急劇增加的趨勢，HDFS（分布式文件系統）在整個Hadoop集群中主要用于海量數據的存儲[1]。然而，目前HDFS存儲機制缺乏一定的健全性和完善性，存在集群文件規模不易拓展、內存消耗大、訪問數據不便捷等問題。云存儲系統的設計和應用可以解決這些問題。該系統主要運用Hadoop分布式架構、云存儲等技術，具有運行性能高、文件讀寫速率高、訪問效率快、存儲能力高等特點，為實現數據安全化存儲和管理提供重要的平臺支持[2]。因此，在Hadoop分布式架構的應用背景下，如何科學地設計和實現云存儲系統是技術人員必須思考和解決的問題。

1 相關技術介紹

1.1 Hadoop分布式架構概述

Hadoop作為一種重要的分布式系統基礎架構，可以為用戶提供存儲平臺和計算平臺。Hadoop主要是由Apache基金會研發，主要包含以下兩個組成部分：1）分布式文件系統。分布式文件系統憑借著自身拓展性高、容錯性強、可用性高等特點，被廣泛地應用于集群設備數據分布式存儲領域中。2）分布式運算編程框架。分布式運算編程框架為開發人員提供多個接口，開發人員可以在無須了解底層實現細節原理的情況下，對分布式程序進行有效開發和設計。與其他傳統分布式文件系統相比47aG8h4Yrf1PiCLJ+2lykbr10zc36M9DTX/OYHTM5PU=，Hadoop具有運行性能高、安全穩定、開源免費等特點，完全滿足大數據時代海量數據存儲和管理的需求。借助Hadoop技術，用戶可以方便地完成Hadoop集群的安裝和部署，這為后期構建分布式云計算平臺和存儲數據提供了重要的技術支持。

1.2 云存儲技術概述

云存儲技術主要是在延伸和拓展云計算相關技術的基礎上形成的新型、先進產品形態。云存儲作為一種常用的存儲資源池，主要由數據存儲設備、數據管理設備等組成。借助應用程序編程接口，云存儲可以為用戶提供靈活性強、公開透明的云系統，便于用戶根據存儲需求分配資源存儲空間，實現最大化利用存儲空間。此外，授權的用戶可以通過互聯網與云存儲系統有效連接，隨時隨地存儲和分析海量數據。云存儲技術主要包含以下幾種。

1.2.1 分布式存儲技術

分布式存儲主要是指使用網絡存儲的方式，將所需數據傳輸和存儲到分布式服務器上。在數據存儲過程中，借助分布式文件系統將數據存儲到相應的服務器上，為用戶提供強大的數據管理服務。為了確保分布式存儲系統的設計質量，需要充分發揮和利用分布式存儲技術的透明性、自治性等優勢。

1.2.2 存儲虛擬化技術

存儲虛擬化是一種層次接口封裝與抽象的過程。通過應用虛擬化技術，封裝層次接口，可以減小系統硬件在容量、接口方面的差異性。然后，將虛擬化產品安裝和部署到系統硬件上，確保硬件細節與業務相互分離。通過虛擬化技術，可以實現對系統硬件資源的虛擬化處理，為用戶提供簡潔友好、操作智能的人機界面。存儲虛擬化作為一種常用的虛擬化技術，可以實現對各種虛擬化方法和相關先進設備的統一化存儲。通過應用存儲虛擬化技術，可以實現對存儲資源的有效隔離，確保網絡資源與存儲數據分開，方便后期針對不同資源信息的管理。

2 系統總體設計

2.1 系統架構設計

本文系統設計主要運用B/S設計模式，將系統架構劃分為以下幾個層次：1）用戶訪問層：該層次將系統操作界面簡潔、友好地展示給用戶，方便用戶進行相關功能操作。2）應用接口層：結合用戶多樣化的使用需求，提供相應的應用程序編程接口，并將用戶的操作映射到分布式文件系統操作中，屏蔽底層架構的細節。3）數據管理層：該層次包含分布式文件系統的操作接口，為系統的二次開發提供重要的技術支持。4）存儲層：存儲層主要用于重要數據的存儲，利用Hadoop框架，實現多個PC機的組合和使用，為用戶提供更優質的分布式存儲服務體驗。

2.2 系統數據庫設計

本文系統在具體設計時，主要使用了Oracle MySQL數據庫。該數據庫具有運行速度快、體積小、免費等優點，通過與SSH空間充分結合，可以有效開發中小型系統的數據庫。此外，MySQL數據庫功能穩定、強大，完全滿足用戶個性化使用需求。在本文系統中，MySQL數據庫主要用于統一存儲和管理用戶信息、管理員信息，方便相關人員通過系統數據庫進行數據的增加、刪除、修改和查詢[3]。在實際存儲過程中，系統業務文件主要使用Hadoop集群。本文創建了用戶信息表和管理員信息表，表1和表2展示了其屬性信息。用戶信息表包括用戶編號、登錄名、用戶名稱、學號、登錄密碼、密保問題、密保答案、注冊時間等屬性；管理員信息表包括管理員編號、登錄名、管理員名稱、登錄密碼等屬性。

3 系統功能實現

3.1 系統功能列表

為了充分發揮和利用Hadoop分布式架構和云存儲等技術的優勢，確保云存儲系統的穩定性和實用性，技術人員應嚴格按照圖2所示的系統功能模塊設計示意圖完成用戶管理模塊、目錄管理模塊和文件管理模塊的設計。在實際設計中，選擇使用Eclipse作為開發工具，以Java為主要開發語言。在整個Web展示中，主要采用了JSP技術、Spring技術和Hibernate技術這三種技術。具體而言，用戶管理模塊應用JSP技術，目錄管理模塊應用Spring技術，文件管理模塊應用Hibernate技術。

3.2 用戶注冊模塊

在用戶注冊與登錄模塊的具體設計中，需要嚴格按照注冊相關的標準和要求，有效地注冊用戶信息，并調用MySQL數據庫的Create（）方法來創建用戶信息表。在用戶進行登錄和注銷操作時，需要借助系統數據庫來驗證用戶名和密碼的有效性[4]。通過文件上傳模塊，用戶成功登錄系統并進入文件上傳界面后，點擊“上傳”按鈕，可以實現批量上傳多個文件或快速上傳單個文件。通過文件下載模塊，用戶登錄系統并進入文件下載界面后，可以自行下載感興趣的文件。這些文件一方面可以來自用戶之前上傳的文件，另一方面可以來自其他用戶分享的文件。通過文件搜索模塊，用戶登錄系統并進入文件搜索界面后，可以使用關鍵字匹配的方式對所需文件進行精確搜索。其他操作模塊主要包括文件刪除、文件重命名、目錄新增和目錄刪除等操作。其中，文件刪除操作主要調用File_delete（）方法，文件重命名操作主要調用File_rename（）方法，目錄新增主要調用List_create（）方法，目錄刪除主要調用List_delete（）方法[5]。

3.3 文件上傳模塊

文件上傳模塊主要是將用戶從本地系統上傳的文件存儲到Hadoop集群中。在用戶與Hadoop集群進行交互時，需要通過文件系統類進行設計和實現。首先，調用create（）方法完成所需文件的上傳。由于本文系統支持用戶批量上傳文件，因此，在實現文件上傳模塊時，開發人員使用了Jquery的Uploadify上傳插件，該插件可以將文件的當前上傳進度展示給用戶。在文件上傳過程中，分布式文件系統采用流式上傳的方式，將文件從Web前端上傳到Web服務器，再由Web服務器將文件上傳到Hadoop集群中。為了避免服務器性能限制導致系統響應時間延長，本文在設計文件上傳模塊時為每個用戶設置并分配了單個線程。然后，按照一定的上傳順序批量上傳多個文件，以確保在某一用戶同時上傳多個文件時，其他用戶可以正常查找和獲取感興趣的文件。此外，在上傳文件時還需要分析和判斷文件的大小。當所上傳的文件大小低于5MB時，需要將多個小文件合并為一個大文件，然后將其上傳到Hadoop集群中[6]。

3.4 文件下載模塊

在進行文件下載操作時，用戶需要向Web服務器發送文件下載請求指令。此時，Web服務器會結合用戶請求指令并檢測系統的緩存情況，判斷系統是否存在需要請求的文件。如果存在，系統會自動向用戶返回相應的文件數據；如果不存在，Web服務器會借助分布式文件系統，發送用戶的下載請求。在分布式文件系統中，各個客戶端之間的連接關系是公開透明的，Web服務器不需要了解內部原理的實現，只須調用文件系統類的方法即可完成對文件的操作。通過使用FileSystem接口內部的Open方法，獲取所需文件的輸入流，然后調用Read方法，將讀取的文件數據流直接傳輸給指定用戶，實現文件的下載目的。

3.5 文件瀏覽模塊

文件瀏覽模塊是本文系統的重要組成部分，主要用于獲取和顯示當前登錄用戶所對應目錄中的文件列表。在設計該模塊時，會調用getFileStatus（）方法來獲取所需目錄對象，并調用ListStatus（）方法將文件狀態數組直接返回到前端頁面。前端頁面會將相應的文件列表信息展示給用戶，方便用戶全面了解和掌握文件狀態的詳細信息。這為后期實時共享和最大化利用文件狀態信息打下了堅實的基礎。

3.6 其他操作

在設計和開發其他操作模塊時，首先需要調用分布式文件系統的開發人員對本文系統的其他操作模塊進行相應的設計和實現。這些操作模塊包括文件刪除、文件重命名和文件新建等功能。通過調用文件系統類中的Delete（）方法、Rename（）方法和Create（）方法，可以實現文件的刪除、重命名和新建，并為用戶提供這些其他操作功能。然而，在設計文件刪除、文件重命名和文件新建等其他操作模塊時，如果文件名或存儲位置發生改變，就需要及時更新當前用戶目錄下所對應的信息，以確保系統的準確性和一致性。

4 結束語

綜上所述，本文應用基于Hadoop分布式架構設計的云存儲系統具有強大的文件上傳、文件下載和文件瀏覽功能。該系統不僅能夠提高小文件的存取質量和效率，還能將名稱節點內存開銷量降至最低。此外，本文系統采用B/S訪問模式，并使用圖形界面將相關操作直觀地展示給用戶，以滿足用戶多樣化的使用需求。盡管本文系統取得了一定的設計成果，但仍存在一些需要優化和完善的方面：名稱節點內存消耗仍然是Hadoop面臨的最大挑戰，需要通過分布式存儲文件元數據、拓展Hadoop集群的存儲容量來進一步提高文件的執行速度，從而提升用戶的使用體驗。

參考文獻：

[1] 謝帆，彭玉濤.基于Hadoop分布式架構的云存儲系統、文件存儲實現研究[J].電腦與電信，2022（10）：102-105.

[2] 劉姝.基于 Hadoop 的云存儲系統的設計與研究[J].鄭州輕工業學院學報（自然科學版），2014，29（5）：60-63.

[3] 鄭海清.基于MongoDB的數據密集型云存儲系統設計[J].電子設計工程，2021，29（1）：106-109，114.

[4] 孫惠芬.基于云計算的海量大數據存儲系統設計和實現[J].信息與電腦，2022（23）：147-149.

[5] 張曉陽，許佳豪，胡燏翀.云存儲系統中的預測式局部修復碼[J].計算機研究與發展，2019，56（9）：1988-2000.

[6] 徐翔，張光亞.基于Hadoop的云盤存儲系統設計與實現[J].電腦知識與技術，2023，19（3）：78-81.

【通聯編輯：張薇】

電腦知識與技術2024年23期

電腦知識與技術的其它文章: 人工智能課程中融入思政元素的規范應用研究; 基于產教融合的應用型本科高校計算機文化基礎教學研究與實踐; 操作系統課程融入思政元素的探索與研究; 基于OBE理念的計算機組成原理翻轉課堂教學模式創新研究; 新工科背景下計算機組成原理課程混合式教學的改革探索; 新工科背景下應用型本科計算機類專業課程體系建設探索