算力體系經歷著從超算傳統范式向智算新架構的生態重構,更孕育出“超智融合”這一顛覆性技術范式:通過異構資源池化、云邊端協同、算法—芯片共設計,構建起支撐大模型時代的新型基礎設施
當前計算技術正呈現“超智融合”的演進趨勢:一方面,超算開始引入AI加速技術,另一方面智算系統借鑒HPC通信優化方法。錢德沛院士提出的三階段論也指出,未來將進入“超智內生融合”階段,即AI算法成為計算系統的原生組成部分。這種融合在生物醫藥領域已初見成效,如AlphaFold2結合HPC分子動力學與AI結構預測,將蛋白質折疊模擬效率提升百萬倍。
當下,人類正經歷由算力革命引發的第四次生產力躍遷。據IDC數據顯示,全球AI算力需求以年均82.3%的速度激增,遠超通用算力增速的15.9%。這種劇變源于雙重驅動力﹕大模型訓練所需算力每3、4個月翻番的“新摩爾定律”,以及GPT類應用引發的推理需求核爆式增長——單日交互請求突破3000億次的場景已不鮮見。在這種技術風暴中,算力體系經歷著從超算傳統范式向智算新架構的生態重構,更孕育出“超智融合”這一顛覆性技術范式:通過異構資源池化、云邊端協同、算法—芯片共設計,構建起支撐大模型時代的新型基礎設施。
算力需求的爆炸式增長:模型訓練規模化與推理需求激增
隨著人工智能技術的迅猛發展,大模型時代對算力資源的需求正呈現出前所未有的增長態勢。這種增長主要體現在模型訓練規模的急劇擴大和推理需求的快速激增兩個方面。
在訓練層面,當前萬億級參數的大模型訓練已成為行業常態,根據OpenAI統計,2012年以來AI訓練任務的算力需求每3.43個月就會翻倍,遠超傳統芯片性能提升的摩爾定律周期(18—24個月)。以Meta的Llama 3為例,其訓練過程消耗超過3000萬GPU小時,訓練成本高達千萬美元級別。這種現象源于算法擴展定律(Scaling law)的作用——模型性能與參數規模、數據樣本和算力投入成正比,導致業界為追求更好性能不斷突破模型規模的極限。GPT系列模型的演進極具代表性:從2019年GPT-2的15億參數,到2020年GPT-3的1750億參數,再到當前GPT-4的1.8萬億參數,模型規模在6年內增長超2萬倍,相應的算力需求呈現指數級攀升。這種增長趨勢使得單次訓練任務所需算力從早期的幾十PD(PetaFlops/s-day,每秒千萬億次的計算機完整運行一天消耗的算力總量)急劇增加到數千PD,例如GPT-3訓練就需3640PD算力支持,而最新規劃中的5萬億參數模型訓練預計需要2421 PFlops(每秒浮點運算次數),算力連續運轉95天也就是需要229995PD的算力。
在推理應用層面,IDC預測到2028年AI推理負載將占總算力需求的73%,這種結構性轉變源于大模型在產業端的規模化部署。一方面,自然語言處理、計算機視覺等技術的成熟推動了智能客服、文檔處理等應用場景爆發,2021年中國NLP(自然語言處理)市場規模同比增長126.9%;另一方面,AIGC(生成式AI)商業化落地催生了包括以文生圖、虛擬數字人在內的新興應用,使得推理請求呈現高并發特征。不同于訓練任務對算力的集中式消耗,推理應用需要算力基礎設施具備低延遲響應、高吞吐處理能力,這對傳統計算架構提出了巨大挑戰。特別是當大規模模型應用于實時交互場景(如自動駕駛決策、金融風控)時,現有系統的響應延遲和能效比往往難以滿足需求。更值得關注的是,隨著多模態大模型的發展,未來同時處理文本、圖像、語音的復合推理任務將成主流,這類任務的計算復雜度較單模態任務呈現幾何級數增長。
面對這種雙重壓力,算力基礎設施正加速向異構計算架構演進,通過GPU+ASIC+FPGA的多元芯片組合及池化技術提升資源利用率,但算力供給與需求之間的鴻溝仍在持續擴大,這為下一代智能計算體系創新提供了關鍵驅動力。
智算與超算的技術范式與應用場景分析
計算范式與技術特性對比
在計算技術范式上,超級計算(HPC)以物理規律驅動的數值模擬為核心,有兩大技術特性﹕一是采用FP64等高精度浮點運算單元構建大規模并行計算架構,典型應用于基因組比對、氣象模式運算等長周期批處理任務;二是通過MPI(跨語言的通信協議)等通信協議實現萬核級并行計算,在流體仿真、核聚變模擬等領域具有不可替代性。
相較而言,智能計算(AI Computing)則遵循數據驅動的異構計算范式﹕一方面依賴GPU/ASIC的Tensor核心加速矩陣運算,如NVIDIA A100通過第三代Tensor Core實現3922.3 TFLOPS的FP8計算能力;另一方面,重點優化INT8/FP8等低精度推理吞吐,典型案例包括需實時處理千萬級IoT數據的智駕大腦系統,其推理延遲需控制在毫秒級。
兩者從性能評價體系來看,超算以雙精度浮點性能(FP64 FLOPS)為核心指標,如AMD Instinct MI300A的FP64向量計算峰值達61.3 TFLOPS6,而智算更關注混合精度計算效率,以NVIDIA H100為例,其稀疏加速下的FP8矩陣運算性能達3922.3 TFLOPS,較FP64性能提升64倍。
在負載特征方面,超算任務具有強同步性(如WRF氣象模型需全局數據交換)與長周期(單任務常持續數天),而智算負載呈現彈性分片特性,如Transformer模型推理可通過Continuous Batching(連續批處理,一種優化大型語言模型推理性能的技術)技術實現動態請求批處理。這種差異本質源于超算對物理守恒定律的嚴格遵從與智算對統計規律的近似擬合。
值得關注的是,當前計算技術正呈現“超智融合”的演進趨勢:一方面,超算開始引入AI加速技術,另一方面智算系統借鑒HPC通信優化方法。錢德沛院士提出的三階段論也指出,未來將進入“超智內生融合”階段,即AI算法成為計算系統的原生組成部分。這種融合在生物醫藥領域已初見成效,如AlphaFold2結合HPC分子動力學與AI結構預測,將蛋白質折疊模擬效率提升百萬倍。
超算智算應用場景分析
在計算技術的實際應用中,智算與超算呈現出顯著的應用場景分化與協同潛力,各領域應用可系統歸納如下﹕
交通優化領域,超算應用集中在宏觀交通流仿真和道路應力分析等離線高精度場景,而智算則聚焦智駕實時決策和停車位動態預測等低延遲任務,二者通過車路云一體化架構實現協同,例如將超算生成的交通仿真數據與智算的實時邊緣計算結合優化信控策略。
氣象服務領域,超算承擔ECMWF等數值預報模型的計算,智算則處理衛星云圖分割和短臨預警,氣象局試點物理約束耦合AI修正的雙驅動模式,將暴雨預測準確率提升12%。
工業制造領域,超算完成CFD流體仿真和材料疲勞測試,智算負責AOI視覺檢測與設備RUL預測,數字孿生工廠通過OPC UA協議實現毫米級仿真數據與產線PLC的毫秒級聯動。
醫療健康領域,超算支撐基因組測序和藥物分子對接,智算賦能CT影像分割和電子病歷NER,瑞金醫院正構建基因型—表型關聯分析平臺,將GWAS運算時間從30天壓縮至8小時。
低空經濟領域,超算優化空域結構,智算處理無人機路徑動態調整,部署融合系統實現靜態空管規則與實時氣象避障的協同決策,沖突解決率提升至99.7%。
這些實踐驗證了錢德沛院士提出的“超算筑基+智算賦能”融合范式,其技術實現依賴三大關鍵﹕基于RDMA的高速數據交換、多瑙/ModelArts混合調度器以及FP32-FP8的精度自適應框架。
超智融合協同模式的系統化實現路徑研究
調度層協同技術創新。在調度層協同方面,需要通過標準化API架構實現異構計算資源的統一納管。一是開發兼容多瑙調度器(超算)與ModelArts(智算)的混合編排引擎,支持MPI作業與Kubernetes容器的混合部署,實測任務排隊時間減少40%;二是采用動態優先級調度算法,根據作業特征(如超算任務的強耦合性、智算任務的可分片性)自動分配資源,例如氣象模式計算優先分配InfiniBand網絡隔離的FP64節點,而自動駕駛訓練任務則調度至NVLink互連的GPU集群。
計算層能力互補機制。計算層的協同表現為雙向能力輸送﹕超算系統通過高保真仿真生成AI訓練所需的合成數據,例如基于LAMMPS(大規模原子分子并行模擬器)生成的納米材料斷裂過程數據集,解決了智能檢測算法真實樣本不足的問題;智算設施則提供實時后處理能力,如將CFD仿真輸出的萬億級網格數據通過3D卷積神經網絡進行流場特征提取,處理耗時從傳統方法的26小時壓縮至47分鐘。這種模式下,國家超算無錫中心已實現分子動力學模擬與分子構象預測的管道化銜接,使新藥研發周期縮短38%。
數據流架構與性能優化。數據流通體系構建了1.2Tbps全閃存存儲網絡,包含兩大技術特性。采用GPUDirect RDMA技術實現超算與智算內存的直接交換,避免了PCIe總線帶來的12μs延遲;部署分布式存儲系統,通過EC糾刪碼和智能分層策略,將PB級氣象數據的跨域遷移效率提升至98.6%。例如在低空經濟試點中,可以支撐幾千架無人機軌跡數據與空管仿真系統的實時交互,通信丟包率低于0.001%,混合數據流處理吞吐量達2.1TB/s時,端到端延遲仍能控制在9.3ms以內。
協同效益與實證分析。通過上述技術融合,已初步形成三類典型范式﹕超算物理模型驗證智算算法、智算優化超算參數配置和聯合推理。據行業測算顯示,到2026年這種協同可使超算資源利用率從現在的65%提升至89%。需要指出的是,當前仍存在超算作業檢查點機制與智算彈性伸縮不兼容、跨架構調試工具鏈缺失等問題,這些問題將成為下一步技術攻關的重點方向。
新一代智算體系架構:超智融合
AI計算已進入多元算力融合時代,其核心是通過異構架構實現計算效率與能效比的協同提升。在硬件層面,GPU+ASIC+CPU的三元協同成為主流方案。英偉達(NVIDIA)的Transformer Engine通過混合精度計算動態分配GPU Tensor Core(GPU張量核心)資源,在H100架構中實現層間精度自適配,相比傳統FP32計算能效提升3倍以上;而專用ASIC芯片采用存算一體設計,針對Transformer模型的矩陣乘加運算進行指令集級優化,在推理場景下單位功耗算力可達GPU的5—8倍。軟件生態方面,RISC-V開放指令集通過定制化擴展為AI芯片提供靈活的設計空間,清華大學Tianjic芯片采用“RISC-V+神經形態計算混合”架構,在圖像識別任務中實現每瓦特算力成本降低57%。
這種異構協同的運作依賴于跨設備計算流水線技術﹕云邊端協同架構將訓練任務分配至GPU集群,邊緣推理由ASIC芯片執行,而CPU通過AMX指令集處理稀疏計算,形成“訓練—推理—稀疏計算”三級流水。如國內某企業智算平臺采用Cube+Vector單元設計,結合編譯器實現算子自動切分,使BERT-Large模型在GPU訓練與ASIC推理間的數據傳輸開銷減少62%。未來,隨著Chiplet技術的發展,異構計算將向三維堆疊集成演進,通過硅中介層實現GPU邏輯單元、ASIC計算陣列與CPU控制器模塊的die-to-die(芯片到芯片)互連,進一步突破馮·諾依曼架構的內存墻限制。
清華大學武永衛教授與章明星助理教授團隊在大模型推理領域提出的協同計算框架,通過“云邊協同”分層架構實現了從大規模集群到邊緣設備的全覆蓋優化。在數據中心級部署中,Mooncake架構構建了分布式內存池化系統,其核心包括﹕
基于RDMA/NVMe-oF的跨節點KVCache透明緩存池,通過動態前綴匹配復用機制將Kimi服務的推理吞吐提升75%;
面向過載場景的Cache-aware(緩存感知方式)調度算法,支持數千卡集群中Prefill/Decode實例的異構協同,NVIDIA Dynamo參考Mooncake架構實現了兼容的分布式推理標準接口。
對于邊緣與單機場景,KTransformers采用計算強度導向的資源分配策略﹕通過將MLA稀疏注意力卸載至CPU AMX指令集,同時保留FP8精度的Linear運算在GPU Tensor Core,使得671B模型在單機382GB內存環境下推理速度較llama.cpp提升3—28倍。
該系列方案在技術集成層面實現了三重突破﹕
一是存儲—計算聯合優化。Mooncake的分布式內存池與KTransformers的混合精度卸載共同構成“以存換算+以存強算”技術鏈,硬件采購成本降低40%的同時支持1M長文本的準確率超過90%;
二是動態負載適配。基于Transformer Engine的FP8自動精度切換技術,配合統一稀疏注意力框架,實現計算資源在云邊場景的動態遷移——云端大batch任務優先分配至GPU集群,邊緣稀疏請求則由CPU AMX處理;
三是生態協同創新。開源社區已吸引眾多國產芯片企業/Intel等廠商共建,其混合架構設計啟發了存算一體芯片優化,形成“軟件定義—硬件加速”的良性循環。
這種分層協同范式為大模型部署提供了可擴展的技術路徑﹕Mooncake(一個開源的分布式計算框架)解決萬級并發下的集群效率問題,而KTransformers(由清華大學 KVCache.AI團隊聯合趨境科技推出的開源項目)降低邊緣設備部署門檻,兩者通過統一的KVCache接口實現算力資源全局調度,印證了“Multi-DC as a Computer”的新型數據中心架構理念。
算力即生產力,未來技術演進與社會經濟影響
計算能力的泛在化發展正在重塑現代產業格局,算力已從傳統輔助工具躍升為核心生產力要素,主要包括三個層面﹕
算力基建化——公共資源屬性強化
未來智算中心將深度融入城市基礎設施體系,其發展呈現出三大特征﹕第一,區域級算力協同網絡加速成型,依托“東數西算”工程構建的跨域調度平臺實現京津滬深等8大節點間算力資源彈性調配(延遲lt;15ms),使西部地區可再生能源供電的超算設施與東部AI訓練需求高效匹配,資源利用率提升27%。第二,算力服務模式向“訂閱制”轉變,某城市試點推出的“算力信用卡”允許中小企業按需調用FP64至FP8多元算力,使生物醫藥初創企業的分子模擬成本下降63%。第三,算力—運力協同成為關鍵,全調度以太網(GSE)技術將智算中心間數據傳輸效率提升至1.6Tbps/機柜,支撐起每秒50萬億次的參數同步,為超大模型訓練提供底層保障。
預計到2028年,我國算力基建化將拉動GDP增長1.2個百分點,其中制造業受益最顯著(附加值提升約3800億元/年)。
邊緣算力崛起——分布式智能新范式
隨著輕量化技術突破,AI算力持續向邊緣側下沉,其核心驅動力包括﹕算法層面,MoE架構(如谷歌Switch Transformer)推動模型參數動態激活,使手機端運行175B參數模型的功耗控制在5W以內;硬件層面,邊緣端芯片的INT8算力達256TOPS,可支持L3級自動駕駛的實時決策(時延lt;10ms)。
據IDC預測,2027年全球邊緣AI算力占比將達42.3%,主要承載高頻交互型(如AR眼鏡的SLAM定位)、隱私敏感型(如醫療影像的聯邦學習)、時延敏感型(如工業機械臂的6DoF控制)三類負載。
可持續發展——綠色算力技術體系
AI產業的碳中和目標倒逼算力技術綠色革新,表現為三大技術路徑﹕
基礎設施建設方面,數據中心采用沉浸式液冷(冷卻能耗降低70%)與光伏直供(年減碳8.3萬噸),PUE降至1.12以下;
算法創新層面,深度求索的4-bit量化技術(ZeroQuant-V2)在保持LLM精度損失小于1%的前提下,使單次訓練能耗從27.6MWh降至6.9MWh;
資源調度維度,阿里云“算力碳地圖”通過動態遷移負載至清潔能源富集區域(如張家口風電場),年減少碳排放14.2萬噸。
與此同時,眾多地區將單位算力碳排放納入數據中心考核指標,以此強化綠色算力技術創新應用。
算力泛在化將引發連鎖式產業變革,如在制造領域,NVIDIA的Omniverse平臺已支持超算數值模型實時驅動數字孿生產線,使某汽車工廠的工藝調試周期縮短78%;在科研領域,某大學建設的“科學智算云”通過融合HPC與AI,使新材料發現效率提升40倍……然而還需注意到,這一進程仍面臨標準不統一及安全風險等挑戰。
大模型不僅是一場技術革命,更是一次算力體系的全面重構。未來,通過“超智融合”——即通過算法創新、異構算力、綠色低碳的協同進化,才能突破算力瓶頸,真正釋放AI的普惠價值。中國憑借政策引導、技術攻堅與場景落地優勢,正成為全球智算革命的引領者,而這場變革,才剛剛開始。
(作者系中國特色數字化轉型方法論創始人,著有《精益數據方法論》《數據要素價值化藍圖》等書。)