一、前言
近年來,以GPT-4、PaLM為代表的千億級參數(shù)大模型推動了人工智能技術(shù)的跨越式發(fā)展,但其訓(xùn)練過程對存儲系統(tǒng)的性能、擴(kuò)展性和成本提出了前所未有的挑戰(zhàn)。研究表明,大模型訓(xùn)練任務(wù)中的大量時間消耗在數(shù)據(jù)I/O與存儲協(xié)同上,而傳統(tǒng)存儲方案因協(xié)議割裂、資源孤島等問題,難以滿足數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、訓(xùn)練、驗證、推理全流程的差異化需求[。例如,GPT-3訓(xùn)練中單次Checkpoint寫入量高達(dá)7TB,若存儲帶寬不足 20GB/s ,單次存儲耗時約5分鐘,以30分鐘保存一次為例,GPU集群的閑置率將超過 15% 。
現(xiàn)有的單一協(xié)議存儲方案(如HDFS、S3、NVMe-oF)雖在特定場景中表現(xiàn)優(yōu)異,但無法兼顧大模型訓(xùn)練的階段性需求。例如,HDFS的元數(shù)據(jù)擴(kuò)展性缺陷導(dǎo)致預(yù)處理效率驟降,對象存儲的高延遲特性則嚴(yán)重影響Checkpoint恢復(fù)速度。為此,基于多協(xié)議互通的統(tǒng)一存儲架構(gòu),通過全局命名空間、協(xié)議無損轉(zhuǎn)換與智能數(shù)據(jù)分層技術(shù),實現(xiàn)存儲資源的動態(tài)優(yōu)化分配。
二、大模型訓(xùn)練流程及其存儲需求
大模型訓(xùn)練可劃分為四個階段,各階段的數(shù)據(jù)訪問模式與性能需求差異顯著[2]。
數(shù)據(jù)采集:數(shù)據(jù)收集階段需要處理來自多源的原始數(shù)據(jù),包括文本、圖像、語音等非結(jié)構(gòu)化數(shù)據(jù)。例如,GPT-4的訓(xùn)練數(shù)據(jù)覆蓋約45TB的互聯(lián)網(wǎng)文本、數(shù)百萬小時的語音及圖像數(shù)據(jù)。此階段要求存儲系統(tǒng)具備海量數(shù)據(jù)存儲能力與元數(shù)據(jù)管理效率。對象存儲(如AWSS3)憑借無限擴(kuò)展性和低成本優(yōu)勢成為主流選擇,但其扁平化命名空間導(dǎo)致數(shù)據(jù)來源追蹤困難。例如,當(dāng)需要回溯某批數(shù)據(jù)的采集時間、版權(quán)信息時,需額外構(gòu)建外部元數(shù)據(jù)庫,增加了架構(gòu)復(fù)雜度。
數(shù)據(jù)預(yù)處理:原始數(shù)據(jù)(圖像、文本、音視頻)需經(jīng)過清洗、標(biāo)注、格式轉(zhuǎn)換等操作,生成結(jié)構(gòu)化訓(xùn)練集。涉及數(shù)據(jù)清洗、標(biāo)注、格式轉(zhuǎn)換等操作。
訓(xùn)練與調(diào)優(yōu):該階段訓(xùn)練流程的核心需支持多機(jī)、多卡并行計算與頻繁的參數(shù)更新。以混合并行訓(xùn)練為例,Megatron-TuringNLG530B模型在數(shù)千塊GPU上運(yùn)行時,每個計算節(jié)點(diǎn)需以微秒級延遲訪問模型參數(shù)分片。HDFS等分布式文件系統(tǒng)雖能通過數(shù)據(jù)分塊提升吞吐量,但其小文件處理能力不足的問題在訪問數(shù)千萬個中間狀態(tài)文件時尤為突出。同時,模型調(diào)優(yōu)過程中產(chǎn)生的臨時數(shù)據(jù)(如梯度矩陣)需要高速存儲介質(zhì)的支持,而對象存儲的高延遲特性難以滿足實時寫入需求。
推理部署:該階段強(qiáng)調(diào)低延遲與高可用性。當(dāng)訓(xùn)練完成的模型部署至生產(chǎn)環(huán)境時,存儲系統(tǒng)需保障權(quán)重文件的毫秒級加載能力。塊存儲(如iSCSI)通過直接掛載卷提供極致性能,但在多云環(huán)境下存在協(xié)議兼容性問題。例如,當(dāng)模型需同時在本地數(shù)據(jù)中心和公有云上部署時,跨平臺的塊設(shè)備映射可能導(dǎo)致配置復(fù)雜度指數(shù)級上升。
三、典型存儲協(xié)議分析
(一)文件存儲
文件存儲以目錄樹結(jié)構(gòu)和字節(jié)級隨機(jī)訪問為核心特征,典型代表包括GPFS、Lustre等。在數(shù)據(jù)預(yù)處理階段,文件存儲可有效支持Python、Spark等工具鏈的本地化文件操作,但其擴(kuò)展性受限于集中式元數(shù)據(jù)管理。例如,當(dāng)存儲1O億個文件時,Lustre的MDT(MetadataTarget)服務(wù)器響應(yīng)延遲可能超過 500ms ,導(dǎo)致數(shù)據(jù)清洗作業(yè)的整體完成時間增加 30% 以上。此外,跨集群文件同步依賴定制化工具(如rsync),在數(shù)據(jù)收集階段難以實現(xiàn)多地域數(shù)據(jù)源的實時聚合。同時,面對海量文件時,目錄樹結(jié)構(gòu)會顯著增加元數(shù)據(jù)管理的復(fù)雜性,系統(tǒng)在處理文件查找、權(quán)限校驗等操作時容易成為性能瓶頸。這種集中管理模式還可能引發(fā)單點(diǎn)故障問題,導(dǎo)致整體系統(tǒng)的魯棒性降低,無法滿足大規(guī)模分布式數(shù)據(jù)處理的高并發(fā)需求。
(二)對象存儲
對象存儲采用扁平命名空間和RESTful接口,適合海量非結(jié)構(gòu)化數(shù)據(jù)存儲[]。AWSS3等商業(yè)對象系統(tǒng)在數(shù)據(jù)收集階段表現(xiàn)出顯著優(yōu)勢,單個存儲桶可容納數(shù)萬億對象。然而,對象存儲元數(shù)據(jù)管理能力薄弱,對象標(biāo)簽僅支持簡單的鍵值對屬性,無法描述復(fù)雜的數(shù)據(jù)血緣關(guān)系。例如,在醫(yī)療大模型訓(xùn)練中,原始數(shù)據(jù)可能涉及患者ID、檢查時間、診斷記錄等多維屬性,傳統(tǒng)對象存儲難以構(gòu)建高效的聯(lián)合查詢機(jī)制。更嚴(yán)重的是,對象存儲的最終一致性模型可能導(dǎo)致模型調(diào)優(yōu)階段出現(xiàn)數(shù)據(jù)版本沖突,當(dāng)多個訓(xùn)練節(jié)點(diǎn)同時讀取標(biāo)注數(shù)據(jù)集時,可能獲取不一致的數(shù)據(jù)快照。此外,對象存儲在高并發(fā)訪問條件下,接口調(diào)用瓶頸尤為明顯,系統(tǒng)響應(yīng)延時易受影響。用戶需額外設(shè)計備份策略,防范數(shù)據(jù)丟失風(fēng)險,這些缺陷促使業(yè)界不斷優(yōu)化元數(shù)據(jù)管理和一致性算法。
(三)塊存儲協(xié)議
塊存儲(BlockStorage)將存儲空間劃分為固定大小的塊(通常為 512B~4KB ,通過邏輯塊地址(LBA)直接訪問,不感知文件系統(tǒng)結(jié)構(gòu)。典型的塊存儲協(xié)議包括iSCSI、NVMe-oF等。塊存儲提供低延遲與高IOPS,但其缺乏跨節(jié)點(diǎn)共享能力,且硬件成本高昂。在部分千億參數(shù)大模型存儲系統(tǒng)中,NVMeSSD硬件成本可以占總預(yù)算的 40% 。此外,塊存儲難以支持EB級數(shù)據(jù)擴(kuò)展,面對不斷增加的存儲需求,需頻繁停機(jī)擴(kuò)容,破壞訓(xùn)練連續(xù)性。
(四)HDFS
HDFS作為大數(shù)據(jù)生態(tài)的基石,通過數(shù)據(jù)本地化計算優(yōu)化吞吐量。在模型調(diào)優(yōu)階段,TensorFlow等框架可利用HDFS的分塊機(jī)制實現(xiàn)高效數(shù)據(jù)讀取。但其架構(gòu)存在根本性缺陷:NameNode單點(diǎn)故障問題雖通過HA方案緩解,但聯(lián)邦命名空間機(jī)制導(dǎo)致數(shù)據(jù)訪問路徑復(fù)雜化。例如,當(dāng)訓(xùn)練任務(wù)需要同時訪問存儲在HDFS集群A的原始數(shù)據(jù)和集群B的預(yù)處理數(shù)據(jù)時,必須通過跨集群復(fù)制或自定義訪問接口實現(xiàn),顯著增加開發(fā)運(yùn)維成本。此外,HDFS對小文件的支持效率低下,存儲百萬個KB級標(biāo)注文件時,NameNode內(nèi)存占用可能超過50GB,遠(yuǎn)超典型服務(wù)器的硬件配置。
四、多協(xié)議互通存儲方案
隨著大模型訓(xùn)練場景的復(fù)雜化,單一存儲協(xié)議難以滿足全流程需求。多協(xié)議互通存儲通過打破協(xié)議壁壘、實現(xiàn)數(shù)據(jù)共享,成為解決存儲資源孤島與效率瓶頸的關(guān)鍵技術(shù)。為打破協(xié)議壁壘,業(yè)界提出多協(xié)議互通存儲方案,其核心在于構(gòu)建協(xié)議轉(zhuǎn)換層,實現(xiàn)數(shù)據(jù)跨協(xié)議共享。此外,多協(xié)議互通存儲系統(tǒng)通過靈活設(shè)計的協(xié)議轉(zhuǎn)換層與全局元數(shù)據(jù)管理,實現(xiàn)不同數(shù)據(jù)格式的高效融合,有效減少冗余復(fù)制和傳輸延時。同時,它優(yōu)化資源利用,降本,保障全流程高效運(yùn)行,解決了傳統(tǒng)單一協(xié)議在大模型訓(xùn)練中遇到的瓶頸問題。
(一)互通核心邏輯
多協(xié)議互通指同一份數(shù)據(jù)無需格式轉(zhuǎn)換即可通過不同協(xié)議(如文件、對象、塊存儲)訪問,其核心在于數(shù)據(jù)語義無損與存儲資源全局共享,優(yōu)勢包括以下幾點(diǎn):
存儲成本優(yōu)化:避免冗余副本,節(jié)省存儲空間與網(wǎng)絡(luò)帶寬。以天文觀測場景為例,傳統(tǒng)多協(xié)議存儲需為不同處理階段保留多份數(shù)據(jù)副本,而融合存儲方案可減少這些冗余存儲開銷。
流程效率提升:消除數(shù)據(jù)轉(zhuǎn)換延遲,加速訓(xùn)練任務(wù)迭代。
架構(gòu)簡化:統(tǒng)一管理界面降低運(yùn)維復(fù)雜度,全局權(quán)限聯(lián)動機(jī)制允許用戶通過任意協(xié)議修改權(quán)限,其他協(xié)議實時生效,減少管理沖突。
(二)典型互通范式
1.基于協(xié)議網(wǎng)關(guān)
該方案通過硬件或軟件中間件實現(xiàn)協(xié)議轉(zhuǎn)換。例如,AWSStorageGateway可將本地NFS文件接口映射為S3對象接口,使得預(yù)處理工具可直接訪問對象存儲數(shù)據(jù)。但這種架構(gòu)存在顯著的性能損耗。測試表明,通過網(wǎng)關(guān)訪問對象存儲時,隨機(jī)讀延遲增加約 40% 且?guī)捓寐氏陆抵谅憬饘俅鎯Φ?65% 。此外,協(xié)議轉(zhuǎn)換導(dǎo)致元數(shù)據(jù)語義丟失,文件屬性(如創(chuàng)建者、修改時間)無法完整映射為對象標(biāo)簽。
2.基于虛擬文件系統(tǒng)
該方案采用虛擬文件系統(tǒng)實現(xiàn)協(xié)議透明化訪問。典型的實現(xiàn)方式(如CephFS)通過RADOS統(tǒng)一存儲層同時支持POSIX文件接口和S3對象接口,用戶可將同一數(shù)據(jù)集分別以文件目錄或?qū)ο笸暗男问皆L問。這種方式雖簡化了協(xié)議兼容性問題,但不同接口間的語義差異仍可能引發(fā)數(shù)據(jù)一致性問題。例如,當(dāng)通過S3接口追加寫入日志文件時,文件接口讀取可能無法實時獲取更新內(nèi)容,導(dǎo)致模型調(diào)優(yōu)階段出現(xiàn)訓(xùn)練數(shù)據(jù)缺失。
3.基于統(tǒng)一元數(shù)據(jù)
該方案基于統(tǒng)一的元數(shù)據(jù)層,實現(xiàn)跨協(xié)議語義統(tǒng)一。以JuiceFS為代表的現(xiàn)代存儲系統(tǒng),通過分布式元數(shù)據(jù)庫(如Redis、TiKV)統(tǒng)一管理文件、對象、塊存儲的元數(shù)據(jù)。在數(shù)據(jù)收集階段,原始數(shù)據(jù)以對象形式存入存儲后端,同時其元數(shù)據(jù)(如數(shù)據(jù)來源、格式、權(quán)限)被記錄在全局?jǐn)?shù)據(jù)庫中。在預(yù)處理階段,工具鏈可通過文件接口訪問這些對象,系統(tǒng)自動將POSIX操作轉(zhuǎn)換為對象存儲指令。此方案在AlphaFold訓(xùn)練任務(wù)中取得顯著成效,數(shù)據(jù)準(zhǔn)備時間減少 58% ,但面臨元數(shù)據(jù)事務(wù)處理的性能挑戰(zhàn),當(dāng)并發(fā)寫入百萬級文件時,元數(shù)據(jù)庫可能成為新的瓶頸。
4.互通技術(shù)挑戰(zhàn)
盡管多協(xié)議互通存儲顯著提升效率,但其實現(xiàn)仍面臨多重技術(shù)挑戰(zhàn):一是協(xié)議語義差異,文件存儲的目錄鎖機(jī)制與對象存儲的覆蓋寫入語義不兼容,導(dǎo)致并發(fā)訪問沖突;二是額外的性能損耗,協(xié)議轉(zhuǎn)換需消耗額外計算資源;三是提升運(yùn)維復(fù)雜性,統(tǒng)一存儲架構(gòu)需管理多協(xié)議元數(shù)據(jù)與權(quán)限策略,對運(yùn)維人員技能要求極高,分布式融合存儲的故障排查耗時較傳統(tǒng)方案大幅提升。
五、統(tǒng)一存儲技術(shù)解析
為克服傳統(tǒng)多協(xié)議互通的局限性,當(dāng)前面向AI大模型訓(xùn)練的存儲系統(tǒng)需要實現(xiàn)統(tǒng)一存儲架構(gòu),該方案需要在三大方面實現(xiàn)技術(shù)創(chuàng)新。
(一)統(tǒng)一命名空間
通過虛擬化技術(shù)整合文件、對象、塊存儲資源,形成全局?jǐn)?shù)據(jù)視圖。通過全局視圖,文件系統(tǒng)可將對象存儲桶掛載為目錄節(jié)點(diǎn),訓(xùn)練用戶可通過文件路徑直接訪問對象數(shù)據(jù)。在數(shù)據(jù)收集階段,多源異構(gòu)數(shù)據(jù)可直接寫入統(tǒng)一命名空間,避免傳統(tǒng)架構(gòu)中必須進(jìn)行跨協(xié)議數(shù)據(jù)遷移的額外開銷。測試數(shù)據(jù)顯示,在GPT-3訓(xùn)練任務(wù)中,該技術(shù)使數(shù)據(jù)聚合效率提升 72% ,且存儲空間碎片化問題減少 85% 。
(二)全局元數(shù)據(jù)管理
基于分布式鍵值數(shù)據(jù)庫實現(xiàn)跨協(xié)議元數(shù)據(jù)一致性。Ceph的MDS(MetadataServer)將文件系統(tǒng)的inode信息與對象的元數(shù)據(jù)標(biāo)簽統(tǒng)一存儲在RADOS層,確保通過不同協(xié)議訪問同一數(shù)據(jù)實體時獲得一致的屬性視圖。例如,當(dāng)用戶通過S3接口更新數(shù)據(jù)標(biāo)簽時,對應(yīng)的文件修改時間、權(quán)限屬性同步生效。在模型調(diào)優(yōu)階段,這種機(jī)制可避免因元數(shù)據(jù)不一致導(dǎo)致的訓(xùn)練中斷。
(三)智能數(shù)據(jù)分層
依據(jù)數(shù)據(jù)熱度動態(tài)遷移存儲介質(zhì),實現(xiàn)性能與成本的平衡。NetAppFabricPool在數(shù)據(jù)預(yù)處理階段將活躍數(shù)據(jù)集保留在NVMe閃存層,提供微秒級延遲。當(dāng)數(shù)據(jù)進(jìn)入模型調(diào)優(yōu)階段后,系統(tǒng)根據(jù)訪問頻率自動將冷數(shù)據(jù)下沉至QLCSSD或?qū)ο蟠鎯印T?LLaMA-2[4] 的訓(xùn)練任務(wù)中,該技術(shù)使得存儲成本降低 42% ,同時保障熱點(diǎn)數(shù)據(jù)的讀取帶寬維持在 25GB/s 以上。更先進(jìn)的系統(tǒng)(如DellPowerScale)引入機(jī)器學(xué)習(xí)模型預(yù)測數(shù)據(jù)訪問模式,其LSTM網(wǎng)絡(luò)對未來24小時數(shù)據(jù)熱度的預(yù)測準(zhǔn)確率達(dá)91% ,使得分層決策提前量縮短至5分鐘。
六、統(tǒng)一存儲與大模型訓(xùn)練的適配
在實際的大模型訓(xùn)練場景中,統(tǒng)一存儲通過多維度優(yōu)化創(chuàng)造顯著價值。
在數(shù)據(jù)生命周期管理方面,統(tǒng)一存儲支持從原始數(shù)據(jù)到訓(xùn)練產(chǎn)物的全流程貫通。NVIDIADGXSuperPOD采用VASTData統(tǒng)一存儲方案,在訓(xùn)練5300億參數(shù)的MT-NLG模型時,數(shù)據(jù)收集階段直接寫入對象存儲層,預(yù)處理工具通過文件接口訪問并處理數(shù)據(jù),最終模型權(quán)重通過塊接口掛載至推理服務(wù)器。這種端到端的數(shù)據(jù)流避免了傳統(tǒng)架構(gòu)中多次的數(shù)據(jù)拷貝操作,使整體訓(xùn)練周期大為縮短。通過端到端數(shù)據(jù)流方案,各階段數(shù)據(jù)無縫對接,有效避免了傳統(tǒng)架構(gòu)中數(shù)據(jù)反復(fù)拷貝引起的時間延遲和資源浪費(fèi)。同時,統(tǒng)一存儲不僅簡化了數(shù)據(jù)管理流程,減少了數(shù)據(jù)搬遷環(huán)節(jié),還大幅提升了訓(xùn)練效率與模型迭代速度,確保系統(tǒng)穩(wěn)定、響應(yīng)迅速,為超大規(guī)模模型訓(xùn)練提供堅實的數(shù)據(jù)基礎(chǔ)保障。
在資源利用率優(yōu)化方面,智能分層技術(shù)顯著降低存儲成本。例如,GoogleTPU-v4集群配合統(tǒng)一存儲系統(tǒng),將預(yù)處理中間數(shù)據(jù)的熱層保留時間從12小時壓縮至2小時,冷層數(shù)據(jù)壓縮率提升至1:6。在 PaLM-540B[5] 模型的訓(xùn)練中,該策略使得存儲總體擁有成本(TCO)下降 38% ,同時保障了模型檢查點(diǎn)(Checkpoint)的秒級恢復(fù)能力。此外,該方案將熱數(shù)據(jù)智能緩存于高速存儲介質(zhì),避免多余數(shù)據(jù)復(fù)制與傳輸延遲,同時冷數(shù)據(jù)高效壓縮顯著降低長期存儲成本,確保數(shù)據(jù)調(diào)用響應(yīng)迅速,全面提升系統(tǒng)資源利用率,保障模型訓(xùn)練高效穩(wěn)定運(yùn)行。
在運(yùn)維管理層面,統(tǒng)一監(jiān)控與策略引擎簡化了混合負(fù)載管理。例如,AzureML的存儲服務(wù)集成Prometheus和Grafana,可實時追蹤文件、對象、塊存儲的IOPS、延遲、容量等200余項指標(biāo),并自動生成協(xié)議使用優(yōu)化建議。當(dāng)檢測到某次訓(xùn)練任務(wù)頻繁訪問小文件時,系統(tǒng)自動將這些文件合并為對象存儲中的大文件,使元數(shù)據(jù)操作量大幅減少,從而提升GPU的利用率。在運(yùn)維管理層面,統(tǒng)一監(jiān)控與策略引擎大大簡化了混合負(fù)載管理流程。以AzureML存儲服務(wù)為例,其集成Prometheus和Grafana工具,實時監(jiān)控文件、對象和塊存儲的IOPS、延遲、容量等200余項關(guān)鍵指標(biāo),為運(yùn)維人員提供全面數(shù)據(jù)支持。當(dāng)系統(tǒng)檢測到某次訓(xùn)練任務(wù)頻繁訪問小文件時,便自動觸發(fā)優(yōu)化策略,將這些小文件合并成大文件存儲,極大地減少了元數(shù)據(jù)操作次數(shù),不僅降低了系統(tǒng)負(fù)載和管理復(fù)雜性,還有效提升了GPU的利用率,確保模型訓(xùn)練和實時推理過程更加高效穩(wěn)定,同時為運(yùn)維團(tuán)隊減輕了日常監(jiān)控和故障排查的壓力,進(jìn)一步提升了整體系統(tǒng)的可靠性和響應(yīng)速度。
七、結(jié)語
大模型訓(xùn)練的存儲需求正在推動存儲架構(gòu)的范式轉(zhuǎn)變。統(tǒng)一存儲通過統(tǒng)一命名空間、全局元數(shù)據(jù)管理、智能分層等技術(shù),在性能、成本、管理復(fù)雜度之間實現(xiàn)動態(tài)平衡。未來,隨著存算分離架構(gòu)的普及和持久內(nèi)存技術(shù)的成熟,統(tǒng)一存儲將進(jìn)一步與AI框架深度集成,形成智能協(xié)同范式。對企業(yè)而言,構(gòu)建面向大模型的多協(xié)議統(tǒng)一存儲系統(tǒng),不僅是突破存儲瓶頸的技術(shù)選擇,更是提升AI競爭力的核心戰(zhàn)略舉措。
參考文獻(xiàn)
[1]秦小林,古徐,李弟誠,等.大語言模型綜述與展望[J].計算機(jī)應(yīng)用,2025,45(03):685-696.
[2]蔡睿,葛軍,孫哲,等.AI預(yù)訓(xùn)練大模型發(fā)展綜述[J].小型微型計算機(jī)系統(tǒng),2024,45(10):2327-2337.
[3]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(01):1-44.
[4]Touvron H,Martin L,Stone K,etal.Llama 2:Open foundationand fine-tunedchatmodels[J].arXivpreprint arXiv:2307.09288,2023.
[5]Chowdhery A,Narang S,Devlin J,et al.PaLM:Scaling Language Modeling with Pathways[J].Journal of Machine Learning Research,2023,24(01):113.
作者單位:海裝駐某地區(qū)代表室
■責(zé)任編輯:王穎振 鄭凱津