基于多協(xié)議互通的大模型訓(xùn)練存儲系統(tǒng)

2025-08-20 00:00:00周宗和

信息系統(tǒng)工程 2025年7期

一、前言

近年來，以GPT-4、PaLM為代表的千億級參數(shù)大模型推動了人工智能技術(shù)的跨越式發(fā)展，但其訓(xùn)練過程對存儲系統(tǒng)的性能、擴(kuò)展性和成本提出了前所未有的挑戰(zhàn)。研究表明，大模型訓(xùn)練任務(wù)中的大量時間消耗在數(shù)據(jù)I/O與存儲協(xié)同上，而傳統(tǒng)存儲方案因協(xié)議割裂、資源孤島等問題，難以滿足數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、訓(xùn)練、驗證、推理全流程的差異化需求[。例如，GPT-3訓(xùn)練中單次Checkpoint寫入量高達(dá)7TB，若存儲帶寬不足 20GB/s ，單次存儲耗時約5分鐘，以30分鐘保存一次為例，GPU集群的閑置率將超過 15% 。

現(xiàn)有的單一協(xié)議存儲方案（如HDFS、S3、NVMe-oF）雖在特定場景中表現(xiàn)優(yōu)異，但無法兼顧大模型訓(xùn)練的階段性需求。例如，HDFS的元數(shù)據(jù)擴(kuò)展性缺陷導(dǎo)致預(yù)處理效率驟降，對象存儲的高延遲特性則嚴(yán)重影響Checkpoint恢復(fù)速度。為此，基于多協(xié)議互通的統(tǒng)一存儲架構(gòu)，通過全局命名空間、協(xié)議無損轉(zhuǎn)換與智能數(shù)據(jù)分層技術(shù)，實現(xiàn)存儲資源的動態(tài)優(yōu)化分配。

二、大模型訓(xùn)練流程及其存儲需求

大模型訓(xùn)練可劃分為四個階段，各階段的數(shù)據(jù)訪問模式與性能需求差異顯著[2]。

數(shù)據(jù)采集：數(shù)據(jù)收集階段需要處理來自多源的原始數(shù)據(jù)，包括文本、圖像、語音等非結(jié)構(gòu)化數(shù)據(jù)。例如，GPT-4的訓(xùn)練數(shù)據(jù)覆蓋約45TB的互聯(lián)網(wǎng)文本、數(shù)百萬小時的語音及圖像數(shù)據(jù)。此階段要求存儲系統(tǒng)具備海量數(shù)據(jù)存儲能力與元數(shù)據(jù)管理效率。對象存儲（如AWSS3）憑借無限擴(kuò)展性和低成本優(yōu)勢成為主流選擇，但其扁平化命名空間導(dǎo)致數(shù)據(jù)來源追蹤困難。例如，當(dāng)需要回溯某批數(shù)據(jù)的采集時間、版權(quán)信息時，需額外構(gòu)建外部元數(shù)據(jù)庫，增加了架構(gòu)復(fù)雜度。

數(shù)據(jù)預(yù)處理：原始數(shù)據(jù)（圖像、文本、音視頻）需經(jīng)過清洗、標(biāo)注、格式轉(zhuǎn)換等操作，生成結(jié)構(gòu)化訓(xùn)練集。涉及數(shù)據(jù)清洗、標(biāo)注、格式轉(zhuǎn)換等操作。

訓(xùn)練與調(diào)優(yōu)：該階段訓(xùn)練流程的核心需支持多機(jī)、多卡并行計算與頻繁的參數(shù)更新。以混合并行訓(xùn)練為例，Megatron-TuringNLG530B模型在數(shù)千塊GPU上運(yùn)行時，每個計算節(jié)點(diǎn)需以微秒級延遲訪問模型參數(shù)分片。HDFS等分布式文件系統(tǒng)雖能通過數(shù)據(jù)分塊提升吞吐量，但其小文件處理能力不足的問題在訪問數(shù)千萬個中間狀態(tài)文件時尤為突出。同時，模型調(diào)優(yōu)過程中產(chǎn)生的臨時數(shù)據(jù)（如梯度矩陣）需要高速存儲介質(zhì)的支持，而對象存儲的高延遲特性難以滿足實時寫入需求。

推理部署：該階段強(qiáng)調(diào)低延遲與高可用性。當(dāng)訓(xùn)練完成的模型部署至生產(chǎn)環(huán)境時，存儲系統(tǒng)需保障權(quán)重文件的毫秒級加載能力。塊存儲（如iSCSI）通過直接掛載卷提供極致性能，但在多云環(huán)境下存在協(xié)議兼容性問題。例如，當(dāng)模型需同時在本地數(shù)據(jù)中心和公有云上部署時，跨平臺的塊設(shè)備映射可能導(dǎo)致配置復(fù)雜度指數(shù)級上升。

三、典型存儲協(xié)議分析

（一）文件存儲

文件存儲以目錄樹結(jié)構(gòu)和字節(jié)級隨機(jī)訪問為核心特征，典型代表包括GPFS、Lustre等。在數(shù)據(jù)預(yù)處理階段，文件存儲可有效支持Python、Spark等工具鏈的本地化文件操作，但其擴(kuò)展性受限于集中式元數(shù)據(jù)管理。例如，當(dāng)存儲1O億個文件時，Lustre的MDT（MetadataTarget）服務(wù)器響應(yīng)延遲可能超過 500ms ，導(dǎo)致數(shù)據(jù)清洗作業(yè)的整體完成時間增加 30% 以上。此外，跨集群文件同步依賴定制化工具（如rsync），在數(shù)據(jù)收集階段難以實現(xiàn)多地域數(shù)據(jù)源的實時聚合。同時，面對海量文件時，目錄樹結(jié)構(gòu)會顯著增加元數(shù)據(jù)管理的復(fù)雜性，系統(tǒng)在處理文件查找、權(quán)限校驗等操作時容易成為性能瓶頸。這種集中管理模式還可能引發(fā)單點(diǎn)故障問題，導(dǎo)致整體系統(tǒng)的魯棒性降低，無法滿足大規(guī)模分布式數(shù)據(jù)處理的高并發(fā)需求。

（二）對象存儲

對象存儲采用扁平命名空間和RESTful接口，適合海量非結(jié)構(gòu)化數(shù)據(jù)存儲[]。AWSS3等商業(yè)對象系統(tǒng)在數(shù)據(jù)收集階段表現(xiàn)出顯著優(yōu)勢，單個存儲桶可容納數(shù)萬億對象。然而，對象存儲元數(shù)據(jù)管理能力薄弱，對象標(biāo)簽僅支持簡單的鍵值對屬性，無法描述復(fù)雜的數(shù)據(jù)血緣關(guān)系。例如，在醫(yī)療大模型訓(xùn)練中，原始數(shù)據(jù)可能涉及患者ID、檢查時間、診斷記錄等多維屬性，傳統(tǒng)對象存儲難以構(gòu)建高效的聯(lián)合查詢機(jī)制。更嚴(yán)重的是，對象存儲的最終一致性模型可能導(dǎo)致模型調(diào)優(yōu)階段出現(xiàn)數(shù)據(jù)版本沖突，當(dāng)多個訓(xùn)練節(jié)點(diǎn)同時讀取標(biāo)注數(shù)據(jù)集時，可能獲取不一致的數(shù)據(jù)快照。此外，對象存儲在高并發(fā)訪問條件下，接口調(diào)用瓶頸尤為明顯，系統(tǒng)響應(yīng)延時易受影響。用戶需額外設(shè)計備份策略，防范數(shù)據(jù)丟失風(fēng)險，這些缺陷促使業(yè)界不斷優(yōu)化元數(shù)據(jù)管理和一致性算法。

（三）塊存儲協(xié)議

塊存儲（BlockStorage）將存儲空間劃分為固定大小的塊（通常為 512B～4KB ，通過邏輯塊地址（LBA）直接訪問，不感知文件系統(tǒng)結(jié)構(gòu)。典型的塊存儲協(xié)議包括iSCSI、NVMe-oF等。塊存儲提供低延遲與高IOPS，但其缺乏跨節(jié)點(diǎn)共享能力，且硬件成本高昂。在部分千億參數(shù)大模型存儲系統(tǒng)中，NVMeSSD硬件成本可以占總預(yù)算的 40% 。此外，塊存儲難以支持EB級數(shù)據(jù)擴(kuò)展，面對不斷增加的存儲需求，需頻繁停機(jī)擴(kuò)容，破壞訓(xùn)練連續(xù)性。

（四）HDFS

HDFS作為大數(shù)據(jù)生態(tài)的基石，通過數(shù)據(jù)本地化計算優(yōu)化吞吐量。在模型調(diào)優(yōu)階段，TensorFlow等框架可利用HDFS的分塊機(jī)制實現(xiàn)高效數(shù)據(jù)讀取。但其架構(gòu)存在根本性缺陷：NameNode單點(diǎn)故障問題雖通過HA方案緩解，但聯(lián)邦命名空間機(jī)制導(dǎo)致數(shù)據(jù)訪問路徑復(fù)雜化。例如，當(dāng)訓(xùn)練任務(wù)需要同時訪問存儲在HDFS集群A的原始數(shù)據(jù)和集群B的預(yù)處理數(shù)據(jù)時，必須通過跨集群復(fù)制或自定義訪問接口實現(xiàn)，顯著增加開發(fā)運(yùn)維成本。此外，HDFS對小文件的支持效率低下，存儲百萬個KB級標(biāo)注文件時，NameNode內(nèi)存占用可能超過50GB，遠(yuǎn)超典型服務(wù)器的硬件配置。

四、多協(xié)議互通存儲方案

隨著大模型訓(xùn)練場景的復(fù)雜化，單一存儲協(xié)議難以滿足全流程需求。多協(xié)議互通存儲通過打破協(xié)議壁壘、實現(xiàn)數(shù)據(jù)共享，成為解決存儲資源孤島與效率瓶頸的關(guān)鍵技術(shù)。為打破協(xié)議壁壘，業(yè)界提出多協(xié)議互通存儲方案，其核心在于構(gòu)建協(xié)議轉(zhuǎn)換層，實現(xiàn)數(shù)據(jù)跨協(xié)議共享。此外，多協(xié)議互通存儲系統(tǒng)通過靈活設(shè)計的協(xié)議轉(zhuǎn)換層與全局元數(shù)據(jù)管理，實現(xiàn)不同數(shù)據(jù)格式的高效融合，有效減少冗余復(fù)制和傳輸延時。同時，它優(yōu)化資源利用，降本，保障全流程高效運(yùn)行，解決了傳統(tǒng)單一協(xié)議在大模型訓(xùn)練中遇到的瓶頸問題。

（一）互通核心邏輯

多協(xié)議互通指同一份數(shù)據(jù)無需格式轉(zhuǎn)換即可通過不同協(xié)議（如文件、對象、塊存儲）訪問，其核心在于數(shù)據(jù)語義無損與存儲資源全局共享，優(yōu)勢包括以下幾點(diǎn)：

存儲成本優(yōu)化：避免冗余副本，節(jié)省存儲空間與網(wǎng)絡(luò)帶寬。以天文觀測場景為例，傳統(tǒng)多協(xié)議存儲需為不同處理階段保留多份數(shù)據(jù)副本，而融合存儲方案可減少這些冗余存儲開銷。

流程效率提升：消除數(shù)據(jù)轉(zhuǎn)換延遲，加速訓(xùn)練任務(wù)迭代。

架構(gòu)簡化：統(tǒng)一管理界面降低運(yùn)維復(fù)雜度，全局權(quán)限聯(lián)動機(jī)制允許用戶通過任意協(xié)議修改權(quán)限，其他協(xié)議實時生效，減少管理沖突。

（二）典型互通范式

1.基于協(xié)議網(wǎng)關(guān)

該方案通過硬件或軟件中間件實現(xiàn)協(xié)議轉(zhuǎn)換。例如，AWSStorageGateway可將本地NFS文件接口映射為S3對象接口，使得預(yù)處理工具可直接訪問對象存儲數(shù)據(jù)。但這種架構(gòu)存在顯著的性能損耗。測試表明，通過網(wǎng)關(guān)訪問對象存儲時，隨機(jī)讀延遲增加約 40% 且?guī)捓寐氏陆抵谅憬饘俅鎯Φ?65% 。此外，協(xié)議轉(zhuǎn)換導(dǎo)致元數(shù)據(jù)語義丟失，文件屬性（如創(chuàng)建者、修改時間）無法完整映射為對象標(biāo)簽。

2.基于虛擬文件系統(tǒng)

該方案采用虛擬文件系統(tǒng)實現(xiàn)協(xié)議透明化訪問。典型的實現(xiàn)方式（如CephFS）通過RADOS統(tǒng)一存儲層同時支持POSIX文件接口和S3對象接口，用戶可將同一數(shù)據(jù)集分別以文件目錄或?qū)ο笸暗男问皆L問。這種方式雖簡化了協(xié)議兼容性問題，但不同接口間的語義差異仍可能引發(fā)數(shù)據(jù)一致性問題。例如，當(dāng)通過S3接口追加寫入日志文件時，文件接口讀取可能無法實時獲取更新內(nèi)容，導(dǎo)致模型調(diào)優(yōu)階段出現(xiàn)訓(xùn)練數(shù)據(jù)缺失。

3.基于統(tǒng)一元數(shù)據(jù)

該方案基于統(tǒng)一的元數(shù)據(jù)層，實現(xiàn)跨協(xié)議語義統(tǒng)一。以JuiceFS為代表的現(xiàn)代存儲系統(tǒng)，通過分布式元數(shù)據(jù)庫（如Redis、TiKV）統(tǒng)一管理文件、對象、塊存儲的元數(shù)據(jù)。在數(shù)據(jù)收集階段，原始數(shù)據(jù)以對象形式存入存儲后端，同時其元數(shù)據(jù)（如數(shù)據(jù)來源、格式、權(quán)限）被記錄在全局?jǐn)?shù)據(jù)庫中。在預(yù)處理階段，工具鏈可通過文件接口訪問這些對象，系統(tǒng)自動將POSIX操作轉(zhuǎn)換為對象存儲指令。此方案在AlphaFold訓(xùn)練任務(wù)中取得顯著成效，數(shù)據(jù)準(zhǔn)備時間減少 58% ，但面臨元數(shù)據(jù)事務(wù)處理的性能挑戰(zhàn)，當(dāng)并發(fā)寫入百萬級文件時，元數(shù)據(jù)庫可能成為新的瓶頸。

4.互通技術(shù)挑戰(zhàn)

盡管多協(xié)議互通存儲顯著提升效率，但其實現(xiàn)仍面臨多重技術(shù)挑戰(zhàn)：一是協(xié)議語義差異，文件存儲的目錄鎖機(jī)制與對象存儲的覆蓋寫入語義不兼容，導(dǎo)致并發(fā)訪問沖突；二是額外的性能損耗，協(xié)議轉(zhuǎn)換需消耗額外計算資源；三是提升運(yùn)維復(fù)雜性，統(tǒng)一存儲架構(gòu)需管理多協(xié)議元數(shù)據(jù)與權(quán)限策略，對運(yùn)維人員技能要求極高，分布式融合存儲的故障排查耗時較傳統(tǒng)方案大幅提升。

五、統(tǒng)一存儲技術(shù)解析

為克服傳統(tǒng)多協(xié)議互通的局限性，當(dāng)前面向AI大模型訓(xùn)練的存儲系統(tǒng)需要實現(xiàn)統(tǒng)一存儲架構(gòu)，該方案需要在三大方面實現(xiàn)技術(shù)創(chuàng)新。

（一）統(tǒng)一命名空間

通過虛擬化技術(shù)整合文件、對象、塊存儲資源，形成全局?jǐn)?shù)據(jù)視圖。通過全局視圖，文件系統(tǒng)可將對象存儲桶掛載為目錄節(jié)點(diǎn)，訓(xùn)練用戶可通過文件路徑直接訪問對象數(shù)據(jù)。在數(shù)據(jù)收集階段，多源異構(gòu)數(shù)據(jù)可直接寫入統(tǒng)一命名空間，避免傳統(tǒng)架構(gòu)中必須進(jìn)行跨協(xié)議數(shù)據(jù)遷移的額外開銷。測試數(shù)據(jù)顯示，在GPT-3訓(xùn)練任務(wù)中，該技術(shù)使數(shù)據(jù)聚合效率提升 72% ，且存儲空間碎片化問題減少 85% 。

（二）全局元數(shù)據(jù)管理

基于分布式鍵值數(shù)據(jù)庫實現(xiàn)跨協(xié)議元數(shù)據(jù)一致性。Ceph的MDS（MetadataServer）將文件系統(tǒng)的inode信息與對象的元數(shù)據(jù)標(biāo)簽統(tǒng)一存儲在RADOS層，確保通過不同協(xié)議訪問同一數(shù)據(jù)實體時獲得一致的屬性視圖。例如，當(dāng)用戶通過S3接口更新數(shù)據(jù)標(biāo)簽時，對應(yīng)的文件修改時間、權(quán)限屬性同步生效。在模型調(diào)優(yōu)階段，這種機(jī)制可避免因元數(shù)據(jù)不一致導(dǎo)致的訓(xùn)練中斷。

（三）智能數(shù)據(jù)分層

依據(jù)數(shù)據(jù)熱度動態(tài)遷移存儲介質(zhì)，實現(xiàn)性能與成本的平衡。NetAppFabricPool在數(shù)據(jù)預(yù)處理階段將活躍數(shù)據(jù)集保留在NVMe閃存層，提供微秒級延遲。當(dāng)數(shù)據(jù)進(jìn)入模型調(diào)優(yōu)階段后，系統(tǒng)根據(jù)訪問頻率自動將冷數(shù)據(jù)下沉至QLCSSD或?qū)ο蟠鎯印Ｔ?LLaMA-2^[4] 的訓(xùn)練任務(wù)中，該技術(shù)使得存儲成本降低 42% ，同時保障熱點(diǎn)數(shù)據(jù)的讀取帶寬維持在 25GB/s 以上。更先進(jìn)的系統(tǒng)（如DellPowerScale）引入機(jī)器學(xué)習(xí)模型預(yù)測數(shù)據(jù)訪問模式，其LSTM網(wǎng)絡(luò)對未來24小時數(shù)據(jù)熱度的預(yù)測準(zhǔn)確率達(dá)91% ，使得分層決策提前量縮短至5分鐘。

六、統(tǒng)一存儲與大模型訓(xùn)練的適配

在實際的大模型訓(xùn)練場景中，統(tǒng)一存儲通過多維度優(yōu)化創(chuàng)造顯著價值。

在數(shù)據(jù)生命周期管理方面，統(tǒng)一存儲支持從原始數(shù)據(jù)到訓(xùn)練產(chǎn)物的全流程貫通。NVIDIADGXSuperPOD采用VASTData統(tǒng)一存儲方案，在訓(xùn)練5300億參數(shù)的MT-NLG模型時，數(shù)據(jù)收集階段直接寫入對象存儲層，預(yù)處理工具通過文件接口訪問并處理數(shù)據(jù)，最終模型權(quán)重通過塊接口掛載至推理服務(wù)器。這種端到端的數(shù)據(jù)流避免了傳統(tǒng)架構(gòu)中多次的數(shù)據(jù)拷貝操作，使整體訓(xùn)練周期大為縮短。通過端到端數(shù)據(jù)流方案，各階段數(shù)據(jù)無縫對接，有效避免了傳統(tǒng)架構(gòu)中數(shù)據(jù)反復(fù)拷貝引起的時間延遲和資源浪費(fèi)。同時，統(tǒng)一存儲不僅簡化了數(shù)據(jù)管理流程，減少了數(shù)據(jù)搬遷環(huán)節(jié)，還大幅提升了訓(xùn)練效率與模型迭代速度，確保系統(tǒng)穩(wěn)定、響應(yīng)迅速，為超大規(guī)模模型訓(xùn)練提供堅實的數(shù)據(jù)基礎(chǔ)保障。

在資源利用率優(yōu)化方面，智能分層技術(shù)顯著降低存儲成本。例如，GoogleTPU-v4集群配合統(tǒng)一存儲系統(tǒng)，將預(yù)處理中間數(shù)據(jù)的熱層保留時間從12小時壓縮至2小時，冷層數(shù)據(jù)壓縮率提升至1：6。在 PaLM-540B^[5] 模型的訓(xùn)練中，該策略使得存儲總體擁有成本（TCO）下降 38% ，同時保障了模型檢查點(diǎn)（Checkpoint）的秒級恢復(fù)能力。此外，該方案將熱數(shù)據(jù)智能緩存于高速存儲介質(zhì)，避免多余數(shù)據(jù)復(fù)制與傳輸延遲，同時冷數(shù)據(jù)高效壓縮顯著降低長期存儲成本，確保數(shù)據(jù)調(diào)用響應(yīng)迅速，全面提升系統(tǒng)資源利用率，保障模型訓(xùn)練高效穩(wěn)定運(yùn)行。

在運(yùn)維管理層面，統(tǒng)一監(jiān)控與策略引擎簡化了混合負(fù)載管理。例如，AzureML的存儲服務(wù)集成Prometheus和Grafana，可實時追蹤文件、對象、塊存儲的IOPS、延遲、容量等200余項指標(biāo)，并自動生成協(xié)議使用優(yōu)化建議。當(dāng)檢測到某次訓(xùn)練任務(wù)頻繁訪問小文件時，系統(tǒng)自動將這些文件合并為對象存儲中的大文件，使元數(shù)據(jù)操作量大幅減少，從而提升GPU的利用率。在運(yùn)維管理層面，統(tǒng)一監(jiān)控與策略引擎大大簡化了混合負(fù)載管理流程。以AzureML存儲服務(wù)為例，其集成Prometheus和Grafana工具，實時監(jiān)控文件、對象和塊存儲的IOPS、延遲、容量等200余項關(guān)鍵指標(biāo)，為運(yùn)維人員提供全面數(shù)據(jù)支持。當(dāng)系統(tǒng)檢測到某次訓(xùn)練任務(wù)頻繁訪問小文件時，便自動觸發(fā)優(yōu)化策略，將這些小文件合并成大文件存儲，極大地減少了元數(shù)據(jù)操作次數(shù)，不僅降低了系統(tǒng)負(fù)載和管理復(fù)雜性，還有效提升了GPU的利用率，確保模型訓(xùn)練和實時推理過程更加高效穩(wěn)定，同時為運(yùn)維團(tuán)隊減輕了日常監(jiān)控和故障排查的壓力，進(jìn)一步提升了整體系統(tǒng)的可靠性和響應(yīng)速度。

七、結(jié)語

大模型訓(xùn)練的存儲需求正在推動存儲架構(gòu)的范式轉(zhuǎn)變。統(tǒng)一存儲通過統(tǒng)一命名空間、全局元數(shù)據(jù)管理、智能分層等技術(shù)，在性能、成本、管理復(fù)雜度之間實現(xiàn)動態(tài)平衡。未來，隨著存算分離架構(gòu)的普及和持久內(nèi)存技術(shù)的成熟，統(tǒng)一存儲將進(jìn)一步與AI框架深度集成，形成智能協(xié)同范式。對企業(yè)而言，構(gòu)建面向大模型的多協(xié)議統(tǒng)一存儲系統(tǒng)，不僅是突破存儲瓶頸的技術(shù)選擇，更是提升AI競爭力的核心戰(zhàn)略舉措。

參考文獻(xiàn)

[1]秦小林，古徐，李弟誠，等.大語言模型綜述與展望[J].計算機(jī)應(yīng)用，2025，45（03）：685-696.

[2]蔡睿，葛軍，孫哲，等.AI預(yù)訓(xùn)練大模型發(fā)展綜述[J].小型微型計算機(jī)系統(tǒng)，2024，45（10）：2327-2337.

[3]李學(xué)龍，龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué)：信息科學(xué)，2015，45（01）：1-44.

[4]Touvron H，Martin L，Stone K，etal.Llama 2：Open foundationand fine-tunedchatmodels[J].arXivpreprint arXiv：2307.09288，2023.

[5]Chowdhery A，Narang S，Devlin J，et al.PaLM：Scaling Language Modeling with Pathways[J].Journal of Machine Learning Research，2023，24（01）：113.

作者單位：海裝駐某地區(qū)代表室

■責(zé)任編輯：王穎振鄭凱津