算力作為人工智能三大“底座”之一,是傳輸處理數據的關鍵能力,是工業智能化轉型和數據安全可信的重要保障,為提升我國人工智能競爭力、促進經濟高質量發展提供了重要支撐。
中國算力規模全球第二,算力基礎設施持續完善,數據中心機架數量約810萬架,市場規模超2470.1億元,基礎電信運營商全網智算規模超過每秒30百億億次浮點運算,上海、呼和浩特等地萬卡集群初步實現多元異構,中國總算力水平居全球第二。但中國在高端算力芯片及生態、算力結構、算力協同與效率等方面存在諸多短板弱項亟待補齊。
一是高端算力芯片短缺。中國大陸無全球排名前15的半導體廠商,自主量產工藝落后國際先進水平2~3代,加上美國對我國禁售A/H100、A/H800、B100、B/H200等高端智算芯片和ASML高端光刻機,將華為、龍芯、寒武紀、曙光、海光等企業列入實體清單,中國芯片進口和芯片制造先進工藝受限,導致中國缺乏高端算力芯片。而美國有8家半導體廠商全球排名前15,在電子設計自動化(EDA)和半導體制造設備(SME)上處于絕對優勢,其核心算力芯片性能領先中國2~3代。
二是算力配套軟件生態不完善,不能滿足客戶需求,導致其銷售不佳、發展乏力。據不完全統計,2023年騰出貨量十幾萬塊,英偉達H/A100、L40S等芯片出貨199萬塊。與之對比,英偉達CUDA生態完備,有550個SDK,是中國相關企業的上百倍,加上芯片性能強勁,已占全球85%市場份額。
三是算力結構不平衡。目前,中國通用算力規模占比最高,超算、智算算力總體規模較小,大模型訓練、無人駕駛等AI專項算力、高性能算力缺口較大,整體算力結構有待優化。2023年,中國2200多個算力中心的算力規模超0.23ZFLOPS(每秒十萬億億次浮點運算),智算算力占比約30%,仍有很大提升空間。因智算占比少、智算需求放大導致智能算力不足,如Kimi高峰時期提示算力不足。
四是算力利用不充分。中國工程院院士劉韻潔指出,“通用算力和超算算力,我們國家的利用率都不高”。數據顯示,中國IDC 機柜上架率在58%左右,MFU(模型算力利用率)普遍在30%左右,頂尖集群利用率約50%,整體算力利用率不足30%,通用算力利用率低于20%,很多數據中心服務器長時間閑置,CPU平均利用率僅5%~10%,完成同樣任務用電量為美國的8倍。貴州、寧夏、甘肅、內蒙古等地受技術、成本、機制等多重因素制約,一些數據中心利用效率不高,“存多算少”,如中衛集群以存儲為主,調用計算頻次低。
五是算力協同面臨技術及統籌挑戰。由于我國異構算力兼容性不足、不同算力節點間的網絡傳輸時延較高、數據交換帶寬不足等原因,導致算力協同效率不高。首先,我國各算力平臺硬件配置、軟件資源、服務接口各不相同,不同構架芯片、操作系統、固件、數據庫、整機之間存在各種兼容性問題。其次,智算中心內應用層端到端時延需求在微秒級,而目前全國主要城市算力樞紐節點處于20 ms時延圈,如北京與呼和浩特的端到端時延為12 ms,是集群內應用層端到端時延的千倍以上。而英偉達InfiniBand技術讓多服務器節點間延遲低至微秒級。再次,以一臺DGX-1工作站配置8塊NVLink V100 GPU,每塊GPU配置100 Gbit/s的網卡測算,單機架兩臺GPU服務器間需1.6 Tbit/s帶寬,而通常每機架僅配置百兆帶寬,要實現GPU高效協同,存在海量帶寬缺口。最后,算力協同缺乏統一規劃、調度、指揮的體制機制,各單位獨立研究大模型,“百模大戰”,難免低水平重復。
我國應構建全國一體化的創新、協調、綠色、開放、共享的高質量算力體系,實現智算技術先進、算力生態優美、算用協同高效的發展目標。
一是加強自主研發創新。構建國產萬卡大模型訓練平臺;借助人工智能技術提高芯片設計能力;優先研制訓練芯片、推理芯片、3D視覺芯片、類腦芯片等細分領域AI芯片;加強異構計算創新,整合CPU、GPU、ASIC、FPGA、NPU、DPU多元芯片,x86、ARM、RISC-V、MIPS多元架構,形成異構算力。
二是構建綠色、靈活、可持續的高質量算力。充分利用蒙、甘、青、新等地區豐富的風電、光伏、水電等清潔能源,減少“運營碳”;優化服務器和芯片設計,減少“隱含碳”;新建萬卡智算基地電能利用效率(PUE)在1.2以下;算力服務分層解耦、靈活替換,不綁定廠商;建立關鍵組件和資源戰略庫存、加強供應鏈上下游合作協同、多元化供應鏈,實現供應鏈可持續;算力芯片及配套軟件升級迭代必須兼容,實現技術可持續。
三是共建全球開放、開源共享的算力體系。用開源共享打破算力芯片生態壟斷,共建基于國際標準的開放統一的智能計算軟件棧;發力RISC-V+AI開源技術,力爭成為全球主力貢獻者;向“一帶一路”沿線國家提供算力租用服務,實現互利共贏發展。
四是營造優美算力生態環境。建立與算力芯片協調適配的軟件生態,基礎軟件先行,研制AI編程語言和編譯器,支持異構處理器并行程序,實現算力的跨平臺部署、多場景兼容;研制兼容各類AI芯片和訓練/推理框架的智算操作系統,實現高效管理多類資源,異構智算集群靈活調度、彈性擴展;研制面向PC和小模型的桌面AI操作系統。建立與算力協調適配的運載能力,研發NV-Link、InfiniBand類似技術,提升芯片間、集群間互聯能力;推動新式網絡基礎設施優化升級,構建空天地一體化衛星互聯網,推進5/6G基站建設,提升算力帶寬;加快光傳送網(OTN)、網絡切片、分段路由(SRv6)、IPv6等技術應用,推動智算中心間直達。構建算力安全可靠體系,加強算力核心軟硬件技術研發,實現從元器件、芯片、固件、XPU通信的自主創新和全產業鏈的整體技術突破。
五是優化算力結構,提高算效和算用協同能力。進一步提升智能算力占比,力爭到2030年智能算力占比達50%;充分利用14個國家級超算中心,優化軟硬件協同,設計在超算上做大模型訓練;發揮算力的國家戰略力量作用,整合多方力量,形成算網及大模型研究建設應用合力;構建全國算網協同指揮系統,統籌調度通用算力、智能算力、超級算力、量子算力,保持總算力與美國同等量級,實現八大智算中心十萬億參數大模型分鐘級訓練;將西部智算樞紐城市納入城市算力網建設;著重考核算力中心XPU效率指標,對XPU平均效率低于40%的重點優化;推動數據中心智能化升級,優化自動化管理和調度,提升液冷算力;豐富東西部協同算力應用場景,建立公共算力服務體系,優化算力產品,培育優質算力應用項目并推廣復制。
作者單位:重慶市綜合經濟研究院