浪潮信息

HDFS(Hadoop Distributed File System)作為通用的分布式文件系統,可為用戶提供具有高可擴展性、低成本、高可靠性的海量數據存儲,并廣泛應用于大數據存儲和分析方向。
近年來,伴隨著5G、物聯網、人工智能等領域的快速發展,數據量規模不斷增大,同時隨著大數據應用的多樣化發展,對數據的利用也更加成熟與深入,更大的數據量以及更加靈活的數據處理場景對HDFS的數據存儲與數據讀寫吞吐提出了更高的要求。為應對這些挑戰,浪潮著力研發面向分布式文件系統的智能存儲管理技術Smart Storage Management(簡稱SSM)。通過多項新技術及特性解決存儲場景中的各類挑戰,助力大數據產品提供更加高效、智能的存儲解決方案。
存儲技術所面臨的挑戰
基于異構存儲介質的數據存儲管理
從硬件平臺來看,HDFS的設計初衷是基于通用的廉價硬件提供可靠、高吞吐的數據存儲及訪問。但隨著硬件的迅速發展,傳統的磁盤性能和存儲容量都已達到瓶頸,固態硬盤、非易失性內存和SMR磁盤等受到廣泛關注。
目前,HDFS已有的功能雖然可以兼容多類型的異構介質,實現對異構存儲介質的訪問和使用,但沒有很好的機制讓其智能感知不同設備的I/O特性,并根據數據的訪問特征動態改變存儲方式,在異構的環境下最大程度發揮各類硬件的性能優勢。
大規模存儲的容量壓力
為實現系統的可靠性,傳統HDFS通過副本策略來保障數據的安全,通常默認為三副本,但存儲利用率僅為1/3。如果使用糾刪碼來替換副本策略確實可以提供與副本相同的容錯能力,并使用較少的存儲空間,但在典型的糾刪碼中若要求存儲額外開銷不超過50%,則相應的糾刪碼將占用更多的計算資源,所以當系統面臨存儲壓力時,用戶通常希望將不常使用的數據使用糾刪碼存儲,降低存儲壓力。
但是,目前的HDFS技術僅支持基于目錄的副本到糾刪碼轉換,轉換后業務訪問文件的路徑將發生改變,導致無法形成便捷的自動化運行模式。
應用負載的自適應存儲挑戰
從上層應用來看,一方面在大數據Hadoop生態系統不斷發展的過程中,HDFS因其自身的穩定可靠、簡單易用、擴展性高等優點使越來越多上層應用和系統將其作為統一的底層存儲,其上存儲的數據類型和支持的分析負載也越來越多元化。
此外,在企業中不同部門和用戶經常基于同一份全量數據進行查詢分析,帶來同一份數據服務多樣的查詢負載。在這種應用場景下,基于人工制定策略的存儲優化就難以生效,勢必需要提供基于應用負載的自適應優化技術來應對。
智能存儲管理技術
SSM(智能存儲管理技術)被定義為面向HDFS的智能管理架構,主要提供針對新型存儲設備、高速網絡、新計算的存儲優化與數據優化解決方案,實現端到端的數據管理服務,聚焦點可以概括為“兩核心、三場景、四技術、五特性”。
兩大核心
SSM的核心是基于數據熱度的智能化管理來實現自動化面向存儲的全生命周期優化。在數據熱度方面,典型的應用場景中通常80%的計算工作負載用于處理20%的數據,在動態變化環境中針對局部數據進行優化尤其困難。面對該問題,SSM通過收集文件系統操作數據與狀態信息,利用多項指標分析數據訪問模式,從文件級別定義數據熱度,針對熱度信息統籌規劃相應地優化數據管理方式。
在智能決策方面,SSM建立了基于規則的智能決策體系,圍繞現有的大數據存儲模式智能地構建了實用的解決方案。未來,SSM將利用歷史數據和指標學習功能,使系統具有預測數據訪問模式與持久學習能力,實現穩定可持續的智能化管理。
三種場景
SSM適用于數據存儲模式豐富的應用場景,可以提供更加靈活的存儲模式選擇;在數據優化上則提供了小文件合井、數據災備、數據壓縮等新功能,適用于對數據優化有需求的應用場景;智能化管理是面向大規模集群的數據管命周期的自動化管理。
四項技術
SSM主要通過四項技術實現智能的存儲管理。
第一,通過分布式集群自治技術,解決管理服務的高可用問題,以實現存儲管理集群的去中心化。
第二,利用分布式事件驅動技術,實現面向高并發場景的輕量級計算服務與監督機制,提升管理操作執行效率與容錯性。
第三,基于規則的智能存儲管理技術,解決存儲數據量大、數據增量高、數據類型混雜難以管理的問題,實現數據生命周期的智能化管理。第四,憑借數據熱度感知技術,解決存儲資源利用不均、資源浪費問題,實現數據冷熱分層。
五種特性
面向用戶場景,SSM體現在五類典型的特性增強。
第一,異構存儲增強。結合智能規則管理與數據熱度感知,充分發揮異構存儲訪問效率。
第二,糾刪碼增強。針對文件級的副本與糾刪碼、糾刪碼間快速轉換,效率提升30%;訪問路徑不變。
第三,小文件合并增強。自動感知小文件,減緩NameNode壓力,讀性能提升一倍。
第四,自動化數據災備。全自動跨域數據增量備份。
第五,透明化自動壓縮。自選壓縮模式,無感知壓縮。