郭勇
作為人工智能三大核心要素之一,算力也被譽為人工智能“發動機”。
ChatGPT用戶數快速增長,需求量火爆引發宕機。ChatGPT自發布以來用戶數量快速增長。在龐大用戶群涌入的情況下,ChatGPT服務器2天宕機5次,火爆程度引人注目的同時也催生了對算力基礎設施建設更高的要求。以ChatGPT為例,其在模型訓練階段每次升級需要投入約3422萬元,該筆投入相較于運營階段來說規模較小。在模型上線運營階段,機構測算每億活躍用戶將帶來13.5EFlops的算力需求,需要6.9萬臺NVIDIADGXA10080G服務器支撐。
根據中國信通院數據,2021年全球計算設備算力總規模達到615EFlops,其中超算算力規模為14EFlops。換而言之,在每個用戶每天收到1500字回答的情況下,以2021年全球超算算力的規模,僅能支撐ChatGPT最多擁有1億日均上線人數。假設全球6家科技巨頭能夠在未來3年內各自擁有一款活躍人數2億的ChatGPT類應用,則有望帶來162EFlops超算算力需求,超算算力需求較目前提升空間超過10倍。

不同服務器之間需要頻繁的大量數據交換,數據互聯的帶寬往往會限制整體任務的性能,這成為數據中心引入超高帶寬基于硅光子的數據互聯的主要理由。而CPO共同封裝光子是業界公認未來高速率產品形態,是未來解決高速光電子的散熱和功耗問題的最優解決方案之一。
共封裝光學CPO(co-packagedoptics),指的是將光引擎和交換芯片共同封裝在一起的光電共封裝。較之傳統方案中(實現光電轉換功能的)可插拔光模塊插在交換機前面板的形式,CPO方案顯著縮短了交換芯片和(實現光電轉換功能的)光引擎之間的距離,使得損耗減少,高速電信號能夠高質量地在兩者之間傳輸,同時提升了集成度并能夠降低功耗,整體優勢顯著。在最新的OCP峰會上,英偉達代表表示AI所需的網絡連接帶寬將增加32倍,當前光模塊速率已無法滿足這一帶寬提升需求。繼續使用光模塊會帶來成本翻倍和20%-25%的額外功耗。為此需要新的激光器和調制器設計,并且CPO方案可能將功耗降低50%。
技術和經濟上的雙重優勢,讓科技巨頭們爭相涌入CPO賽道,目前AWS、微軟、Meta、谷歌等云計算巨頭,思科、博通、Marvell、IBM、英特爾、英偉達、AMD、臺積電、格芯、Ranovus等網絡設備龍頭及芯片龍頭,均前瞻性地布局CPO相關技術及產品,并推進CPO標準化工作——
在數據中心領域,CPO技術可以實現更高的數據密度和更快的數據傳輸速度,可以應用于高速網絡交換、服務器互聯和分布式存儲等領域。例如,Facebook在其自研的數據中心網絡FabricAggregator中采用了CPO技術,將光模塊和芯片封裝在同一個封裝體中,從而提高了網絡的速度和質量。
在云計算領域,CPO技術可以實現高速云計算和大規模數據處理。例如,微軟在其云計算平臺Azure中采用了CPO技術,將光模塊和芯片封裝在同一塊PCB板上,并使用微型化的線纜連接光模塊和芯片。
在5G通信領域,CPO技術可以實現更快的無線數據傳輸和更穩定的網絡連接。例如,華為在其5G通信系統中采用了CPO技術,將收發器和芯片封裝在同一個封裝體中,從而實現了高速、高密度、低功耗的通信。
AIGC熱潮驅動下,全球科技龍頭的軍備競賽已經打響,CPO正站在風口的風口,既處在未來“卡脖子”數據傳輸通道,有著大廠們的集體背書,也有多個大賽道的加持,這背后除需要企業投入資源競爭外,更需要管理層的支持。
2020年,業界開始對發展CPO標準形成共識。國外COBO和OIF等行業組織成立了工作組,國內中科院計算所牽頭成立CCITA聯盟(中國計算機互聯技術聯盟),為制訂前沿互聯技術標準籌備相關工作。現階段,國內外CPO標準進程基本相近,均已初步完成規格草案的撰寫。CCITA聯盟于2021年5月啟動在中國電子標準化協會的國內CPO標準立項工作,聯合了超過40家會員廠商,規劃交換機及網卡CPO應用場景的規格標準。
不過我國光芯片產業起步較晚,技術實力與國外企業相比有一定差距,國內相關企業僅在2.5G和10G光芯片領域實現核心技術的掌握,根據ICC的數據,2.5G及以下速率光芯片國產化率超過90%;10G光芯片國產化率約60%,II-VI、Lumentum等外企牢牢占據高功率光芯片主要市場份額,而近年來隨著天孚通信、新易盛、聯特科技等布局“CPO技術”的核心企業崛起,我國有望在硅光、CPO等前沿技術領域取得突破。