


DOI:10.19850/j.cnki.2096-4706.2024.01.005
收稿日期:2023-08-14
摘? 要:以大模型為代表的人工智能快速發展,為信息通信行業帶來新的機遇和挑戰。電信運營商作為數字信息基礎設施建設的主力軍,也迎來智算發展的新機遇。文章詳細分析了智算中心的相關概念、主要作用和發展趨勢,并在智算中心整體技術架構基礎上提出了規劃建設中需要重點考慮算力規模、算力能耗和智算網絡三方面關鍵要素并進行分析,最后提出相關建議。
關鍵詞:人工智能;數據中心;智算中心;算力
中圖分類號:TP18? 文獻標識碼:A? 文章編號:2096-4706(2024)01-0022-06
Analysis and Suggestions of Key Points for Planning and Construction of Artificial Intelligence Computing Center Based on Telecom Operators' Perspectives
YIN Kaikai
(Beijing Branch of China Telecom Co., Ltd., Beijing? 100032, China)
Abstract: The rapid development of Artificial Intelligence represented by big models has brought new opportunities and challenges to the information and communication industry. Telecom operators, as the main force in the construction of digital information infrastructure, also usher in new opportunities for the development of AI computing power. This paper analyzes in detail the relevant concepts, main roles and development trends of AI computing center, and puts forward and analyzes three key elements that need to be considered in the planning and construction of AI computing center, namely, the scale of computing power, computing power energy consumption, and AI computing network, on the basis of the overall technical architecture of AI computing center, and finally puts forward relevant recommendations.
Keywords: AI; data center; AI computing center; computing power
0? 引? 言
2022年11月30日美國OpenAI人工智能公司發布全新對話式AI模型ChatGPT,引發大模型和人工智能熱潮。根據2023年5月發布的《中國人工智能大模型地圖研究報告》顯示中國10億參數規模以上的大模型已發布79個。推動以大模型為基礎的生成式AI快速發展的三要素是數據、算力和算法,其中算力是承載人工智能應用發展的基礎。智能算力中心(或稱智能數據中心(AIDC)、人工智能計算中心,簡稱智算中心)又是融合計算、存儲和網絡能力,承載算力資源,對外提供高性能算力服務的關鍵新型基礎設施。
電信運營商作為數字信息基礎設施建設的主力軍,也迎來智算發展的新機遇。本文詳細分析了智算中心的相關概念、主要作用和發展趨勢,并提出了布局建設中需要重點考慮算力規模、算力能耗和智算網絡三方面關鍵要素并進行分析,最后提出相關建議。
1? 研究背景
1.1? 智能算力和智算中心概念界定
算力,通俗理解即計算能力。中國電信李正茂等學者認為算力包含通用算力、智能算力、超算算力及前沿算力(如量子計算、光子計算)[1]。中國信通院將算力分為通用算力、智能算力、超算算力和邊緣算力[2]。通用算力以CPU芯片輸出的計算能力為主,超算算力主要是以超級計算機輸出的計算能力為主。智能算力則以GPU、FPGA和AI芯片等輸出的人工智能計算能力為主,具備渲染、推理和模擬能力,可面向智能駕駛、人臉識別、大模型等人工智能應用提供智算服務的一種算力服務形態[3]。
智能算力以智算中心為承載體。智算中心是基于最新人工智能理論,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的公共算力新型基礎設施[4]。
1.2? 智算中心主要作用及服務內容
智算中心作為新型人工智能算力基礎設施,作用主要體現推進AI產業化、賦能產業AI化、助力治理智能化和提升產業集群化四個方面[4]。同時能帶來顯著成效和經濟價值,經研究測算“十四五”期間,對智算中心的投資可帶動人工智能核心產業增長約2.9~3.4倍,帶動相關產業增長約36~42倍[4]。
隨著人工智能產業不斷發展,智算中心服務對象和內容日益多元化,其主要服務提供方式分為:數據服務、算力服務、算法服務和生態服務。
圖1描述了智算中心數據、算力和算法的服務過程,其中:1)表示客戶購買智算中心算力服務進行訓練,訓練完成后在自有數據中心部署推理服務的過程。2)表示客戶購買智算中心數據服務,生成訓練用的算據。3)表示客戶購買智算中心的算法服務進行訓練。4)表示客戶購買智算中心的推理算力,對最終用戶提供推理服務。
1.3? 智算中心與其他數據中心的區別
智算中心從概念上可簡化理解為以數據中心為基礎的人工智能的基礎設施[5],與數據中心和超算中心既有相似之處又有典型區別,具體如表1所示。
2? 智算中心發展現狀與趨勢
2.1? 智算算力發展情況
當前全球算力規模呈現快速增長趨勢,各國均在推動CPU、GPU等異構算力發展。隨著人工智能應用加快向縱深發展,智能算力的需求和規模勢必將在未來幾年迎來爆發式增長。數據顯示預計2021—2026年期間中國智能算力規模年復合增長率達52.3%,2026年中國智能算力規模將達到1 271.4EFLOPS(FP16)[7]。
2.2? 智算中心政策支持情況
我國高度重視人工智能產業發展和算力基礎設施建設,從中央、國家到部分經濟發達城市,近幾年密集出臺了一系列支持政策,內容涉及人工智能基礎設施、標準體系、應用場景等多個方面,初步形成較為完整的政策體系,為加快推動算力基礎設施規劃建設指明方向。表2梳理了近期出臺的部分與智算中心發展相關政策。
2.3? 我國智算中心建設情況
從2020年開始,各地方政府、企業掀起智算中心建設熱潮。據國家信息中心與相關部門聯合發布的《智能計算中心創新發展指南》顯示,目前全國有超過30個城市正在建設或提出建設智算中心。根據投資建設主體劃分,目前主要分為三類,分別為政府主導、互聯網公司/云商主導、電信運營商主導。
電信運營商作為新型云、網、算力等信息基礎設施服務運營者,自身擁有優質網絡、算力和云服務能力和產業鏈優勢[8]。目前運營商在持續推進算力資源建設,優化算力網絡布局,加快建設企業級智算中心,大力發展智能算力,提升算力規模。根據相關數據中國移動預計2023年算力投入分別為452億元,同比增長35%;中國電信預計2023年算力投入分別為195億元,同比增長40%。
2.4? 智算中心發展趨勢
智算中心作為人工智能時代承載算力的關鍵基礎設施,在政策、市場的雙重驅動下,應用前景及賦能潛力逐步凸顯。當下,智算中心的發展呈現出以下發展趨勢,即算力多元化、產業協同化、服務一體化、能耗低碳化、價格普惠化、部署超前化、技術可信化。以此為基礎,智算中心在打造新型算力基礎設施基礎上,正逐步向搭建集公共算力服務、數據開放共享、智能生態建設和產業創新聚集四大功能于一體的綜合平臺方向轉變,有助于匯聚行業和產業力量,營造智能算力良好發展生態。
3? 智算中心規劃建設關鍵要點分析
3.1? 智算中心整體技術架構
智算中心整體技術架構如圖2所示,主要包括4層,支撐保障層、基礎設施層、智能作業層和應用服務層。支撐保障層主要包括標準規劃、運維管理、安全保障、容災備份等體系?;A設施層主要包括機房環境、網絡環境、存儲設備、以GPU芯片和服務器為代表的計算設備等,可實現將異構算力、數據、存儲、算力網絡等轉化為有效的算力與服務資源。智能作業層基于基礎設施層提供的算力,利用人工智能算法和智能算力調度進行通用或者行業大模型的訓練和推理。應用服務層,基于多類綜合平臺能力提供數據、算力和算法服務。
圖2? 智算中心技術架構
3.2? 智算中心規劃建設關鍵要點
智算中心規劃建設工作是一項系統工程,需要綜合考慮計算、存儲、網絡、平臺、基礎設施、設備等多種因素。同時既需要滿足國家、行業有關數據中心的標準規范,也要滿足智能算力發展需求。根據行業實踐經驗,本文重點分析影響智算中心規劃建設的算力能力、算力能耗和智算網絡三方面因素。
3.2.1? 算力能力分析
智算業務往海量參數的大模型方向發展已經成為一個主流技術演進路徑。如圖3所示,現在自然語言處理和多模態大模型參數已經達到了千億級別,而且還在增加。AI大模型在上線前需要在智算中心完成預訓練和微調,大模型參數增加給智算中心算力能力和規模提出了更高要求。
大模型訓練和推理所需算力不同。訓練過程需要部署高性能GPU服務器搭建多機多卡訓練集群,GPU卡間高速互聯,滿足大模型訓練等高算力需求。推理過程對算力的要求不高,數據中心或者邊緣DC部署的GPU服務器即可滿足要求。為評估承載大模型的智算中心算力規模,需測算大模型完成訓練需要多少算力,本文以參數量1750億的GPT-3為例測算。2021年Narayanan D等學者發表論文,給出GPT-3模型算力需求的計算方法并得出GPT-3一次迭代的計算量為4.5 EFLOPS,完成全部訓練計算量為430 ZFLOPS[9]。以上只是理論上數據。
以NVIDIA A100芯片的FP16計算能力按照50%計算效率計算,可得出表4關系。即可理解為如有1萬張A100 GPU完成GPT-3模型訓練,需要3.19天;如有1張A100完成訓練,約需要87年。由此可見大模型訓練需要智算中心提供巨大算力支持。
大模型訓練是計算密集型處理,需要高性能AI集群提供算力支持,智算中心內的AI芯片、AI服務器和AI集群是算力來源和生產單元。AI集群一般采用模塊化方式構建,可以實現大規模的算力擴展,AI集群的基本單元是AI服務器。數十臺AI服務器可以組成單個POD計算模組,POD內部通過多塊支持RDMA技術的高速網卡連接。在此基礎上以POD計算模組為單位實現橫向擴展,規??啥噙_數千節點以上,從而實現更高性能的AI集群。AI集群的構建還需依賴三方面因素發揮作用,分別是低延遲、高帶寬的網絡互連;高性能、高擴展、多層級的智能存儲;多機多卡、超大規模集群以及異構算力的納管、加速、統一調度的智算平臺。
3.2.2? 算力能耗分析
智算中心屬于高密、高算力的信息基礎設施,算力業務需求持續推升服務器和芯片性能和功率,導致整個智算中心呈現高能耗、高成本特點。智算中心能耗主要取決于大模型訓練和推理階段的算力消耗。本文嘗試估算智算中心能耗情況。
能耗估算的結論。英偉達服務器DGX A100 單臺最大額定功率6.5 kW,含8卡GPU,智算中心PUE按照1.2測算。以GPT-3大模型的訓練階段為例,1萬張A100卡,1次訓練所需時長為3.19天,共需消耗74.6萬度電(單日23.29萬度)。
通過上述測算可知,智算中心能耗需求約746 MW,遠高于現有單棟數據中心的能耗(單棟功耗100 MW),對大型/超大型智算中心的選址、建設和運營影響較大。在“雙碳”宏觀形勢下,政府部門對數據中心PUE(電能利用效率)監管要求不斷提高,比如明確要求國家算力東、西部樞紐節點數據中心PUE分別控制在1.25和1.2以下。在此背景下,液冷技術逐步成為一種新型制冷解決方案。液冷技術通過冷卻液體替代傳統空氣散熱,液體與服務器高效熱交換,提高效率,降低PUE。數據中心近年已開始普遍使用液冷方案。其大致可以分為兩種技術路徑:冷板式(Cold Plate)與浸沒式(Immersion),前者是通過冷板將發熱器件的熱量間接傳遞給封閉在循環管路中的冷卻液體,后者則直接將發熱器件以及電路板整體直接置于液體中。相比較而言冷板式液冷應用更為成熟和廣泛。
3.2.3? 算力網絡分析
高質量算力網絡是智算中心提供算力服務的基礎要素,也是影響客戶感知的重要因素。智算中心的典型業務流程對南北向的流量要求極?。ǖ皖l上傳數據場景除外),網絡應該重點關注智算中心內高速無損網絡。
智算中心內網絡。為滿足大規模訓練集群高效的分布式計算,大模型訓練流程中通常會包含數據并行、流水線并行及張量并行等多種并行計算模式,不同并行模式下均需要多個計算設備間進行集合通信操作[10]。另外,訓練過程中通常采用同步模式,需多機多卡間完成集合通信操作后才可進行訓練的下一輪迭代或計算,因此智算網絡需要滿足高帶寬、低時延、零丟包、超高穩定性和網絡自動化部署等要求。目前業界一般采用InfiniBand或RoCE組網,提供超低時延無損算力網絡,確保集群內訓練POD間及計算、存儲的高速互聯。兩種組網方式對比如表6所示。
南北向網絡。一般表現為突發性大帶寬(低頻)和多線接入,可以在數據中心內部預留多線接入間,滿足客戶遠端操作,傳輸、下載訓練數據等需求。
智算中心間網絡如圖4所示。智算集群對網絡時延需求為微秒級,因此均為單節點運行,智算中心間對雙活、低時延和大帶寬等高質量網絡無特別需求。在后續區域算力交易、算力調度等業務,保證智算中心間網絡可達即可。
4? 運營商布局建設智算中心建議
以大模型和智算中心為代表的智算基礎設施是電信運營商立足大模型時代乃至智能時代的根本。電信運營商在現有的連接和算力資源基礎上,建設智算基礎設施,滿足未來大模型訓練和推理需求,打造繼云業務之后的第二增長曲線尤為重要,因此加快布局建設智算中心布局是大勢所趨。電信運營商建設智算中心定位與對內自用和對外提供服務使用,從布局及選址評估角度,應綜合考慮大模型應用場景、能耗及建設成本、網絡資源等影響因素,實現智算中心效率及成本最優。
從布局選址方面,優先在“東數西算”八大樞紐節點,尤其是國家西部、北區樞紐節點布局集中化、大規模、低成本大型智算中心,至少具備上千PFLOPS算力規模。其次是聚焦北京、上海、廣州、深圳、成都等大模型產業活躍城市,積極聯合地方政府、上下游合作伙伴,優先采用合作建設、合作運營、部分自建等方式,加快智能算力中心布局建設,具備至少幾百到幾千PFLOPS算力規模。
從建設運營方面,面對智算中心的高密度、高能耗、高成本,傳統機房條件、制冷方式很難滿足,應加快液冷等節能新技術應用落地,提升智算中心能效。同時大型訓練資源池需要部署高性能服務器,應考慮大規模高功率機架需求和機房空間合理利用原則,提前進行機柜改造。目前典型配置英偉達8卡A100服務器額定功耗達到6.5 kW,采用H800芯片服務器的全風冷機柜功率達到10 kW,采用H800芯片服務器的全液冷機構功率已到40 kW。因此參考業界典型智算一體化交付方案,原則單機柜功率應達到10~40 kW才能滿足需要,并提前進行高功率機柜和液冷機柜改造。
從訓練和推理算力部署方面,首先是訓練算力池,建議電信運營商集團層面應統籌考慮智算中心的建設布局,在低成本園區統一建設幾個算力規模幾千P的大型公共訓練池,滿足為超級客戶提供大規模低成本智算訓練或自用大模型訓練需求。省公司層面,尤其是經濟熱點一線城市需積極布局算力中心,規??傮w達到幾百到幾千P。更重要的是關注行業客戶的業務需求,按需布局建設和擴容。其次是推理算力池,可在現有的云資源池中增加GPU算力池,具體部署位置可以按省份規劃。
從投資回報方面,當前由于需求激增,英偉達和部分國產GPU、服務器的交付周期普遍較長,同時溢價較高。在綜合考慮整體投資回報率以及業務發展的可持續性,充分評估項目戰略意義,按照“規劃+訂單”雙驅動方式適度超前建設智算中心。
5? 結? 論
以大模型為代表的人工智能快速發展,為信息與通信行業帶來新的機遇和挑戰。一方面,電信運營商企業作為建設網絡強國和新型數字信息基礎設施的主力軍應該積極擁抱機遇,適度超前進行算力基礎設施建設,形成布局合理,梯次分步的智算資源格局。同時積極開展智算技術研究,創新數據中心發展模式,加快向智算中心演進升級。另一方面,智算中心“規、建、營、維、服”是一項系統工程,需要與眾多產業鏈合作伙伴一起,推動智算中心相關的標準、技術、規范等成熟與落地,引導產業良性發展,從而在新一輪的人工智能技術革命浪潮中把握先機。
參考文獻:
[1] 李正茂,王桂榮.論算力時代的三定律 [J].電信科學,2022,38(6):13-17.
[2] 中國算力大會.中國算力白皮書(2022) [R/OL].(2022-08-17).https://www.odcc.org.cn/news/p-1559872438149832705.html.
[3] 郭亮.數據中心發展綜述 [J].信息通信技術與政策,2023,49(5):2-8.
[4] 丁宜.國家信息中心聯合浪潮信息發布《智能計算中心創新發展指南》 [N].機電商報. 2023-02-13.
[5] 楊明川,劉倩,趙繼壯.人工智能數據中心研究 [J].信息通信技術與政策,2021,47(4):1-7.
[6] 張嗣宏,張健.以ChatGPT為代表的生成式AI對通信行業的影響和應對思考 [J].電信科學,2023,39(5):67-75.
[7] 浪潮信息.2022-2023中國人工智能計算力發展評估報告 [R/OL].[2023-01-24]. https://www.inspur.com/lcjtww/resource/cms/article/2448319/2734787/2022122601.pdf.
[8] 劉亮,張琛,楊學燕.生成式人工智能技術對通信行業的影響研究 [J].郵電設計技術,2023(7):1-7.
[9] NARAYANAN D,SHOEYBI M,CASPER J,et al. Efficient Large-Scale Language Model Training on GPU Clusters [J/OL].arXiv:2104.04473 [cs.CL].(2021-04-09).DOI:10.48550/arXiv.2104.04473.
[10] 中國移動通信研究院.面向AI大模型的智算中心網絡演進白皮書 [R/OL].(2023-05-28).https://www.douban.com/note/849553536/?_i=38359589EIJstn.
作者簡介:殷凱凱(1986.11—),男,漢族,山東東營人,工程師,碩士研究生,研究方向:數據中心、智算中心等算力基礎設施規劃、建設、運營管理。