齊健
Graphcore是一家總部位于英國的創新公司,其主要業務是研發專門應用于AI技術的創新芯片——IPU(Intelligence Processing Unit)。自2016年成立以來,就受到了業界、市場和資本的高度關注。截至目前,Graphcore的總融資額超過4.5億美金,其全球辦公室遍布歐洲、亞洲和北美。
隨著Graphcore IPU(智能處理器)硬件及其開發軟件Poplar在人工智能行業的日益升溫,日前,Graphcore又發布了Graphcore IPU的第二代產品Colossus Mk2 GC200,以及可以用于大規模系統級產品的IPU- Machine: M2000(IPU-M2000)。第二代IPU具有更強的處理能力、更多的內存和內置的可擴展性,可處理龐大的機器智能工作負載。
“從單一芯片來看,Colossus Mk2 GC200處理器是目前世界上最復雜的單一處理器,基于臺積電的7納米技術,我們在一顆823平方毫米的IPU處理器中集成了將近600億個晶體管。Colossus Mk2 GC200擁有250 TFlops AI-Float的算力和900MB的處理器內存儲。處理器內核從第一代IPU的1 217個獨立的處理器內核提升到了1 472個,這樣一個IPU處理器有將近9 000個單獨的并行線程。相對于第一代產品,其系統級的性能提升了8倍以上。”Graphcore高級副總裁兼中國區總經理盧濤介紹說。
IPU處理器的顛覆性突破
相比于Graphcore的第一代IPU產品,Colossus Mk2 GC200在技術上實現了三大顛覆性的突破:計算、數據和通信。
在計算方面,Colossus Mk2 GC200處理器繼承了上一代IPU的簡潔架構,在單顆芯片中集成了1 472個獨立的IPU-Tiles的單元,并設置了8 832個可并行執行線程,In-Processor-Memory從上一代的300 MB提升到900 MB,每個IPU的內存帶寬為47.5TB/s,與上一代IPU相比Colossus Mk2 GC200的峰值算力提高了兩倍。同時Colossus Mk2 GC200還包含了IPU-Exchange以及PCI Gen4跟主機的交互接口,在芯片之間具備帶寬為320 GB/s的IPU-Links互聯。
在數據處理方面,Colossus Mk2 GC200具備900 MB超高速SRAM,在每個處理器內核旁邊都設有大量RAM,以實現最低能量訪問。從數值上看,Colossus Mk2 GC200的處理器存儲容量比前代的300 MB提高了三倍,但在芯片內部,可供算法模型使用的激活、權重存儲容量比上一代提高了六倍以上,對于提升有效的運算效能大有幫助。
此外,Graphcore的Poplar軟件提出了全新的交換式存儲概念——IPUExchangeMemory。通過IPUExchangeMemory訪問Streaming Memory,可以支持具有數千億個參數的最大模型,每個IPU-M2000都可以支持密度高達450 GB的IPU ExchangeMemory,以及180 TB/s的帶寬。與采用HBM技術的芯片相比,Graphcore在每個IPU-M2000設備中通過IPU ExchangeMemory技術,可以提供近100倍的帶寬以及大約10倍的內存容量,這對于很多復雜的AI模型算法是非常有幫助的。
在通信方面,Graphcore專門為AI橫向擴展推出了全新的IPU-Fabric結構。IPU-Fabric結構主要由三種網絡IPU-Link、IPU Gateway Link和IPUoverFabric三種網絡組成,其可以實現2.8 Tbps的超低延時,并且支持AI運算中的集合通信以及全縮減(All-Reduce)操作。此外,通過IPU-Fabric技術,用戶可以通過直聯,或者以太網交換機實現IPU的橫向擴展,把設備集群從一個、幾個、幾十個、幾百個甚至幾千個無縫擴展至最高64 000個IPU。
在Colossus Mk2與Mk1的系統級對比中,Graphcore分別選擇了利用IPU-Link連接8個C2 PCIe卡的IPU服務器和利用IPU-Fabric擴展的8個IPU-M2000進行對比。在BERT-Large訓練、BERT-3Layer推理和EfficientNet-B3訓練三個典型的應用場景中,BERT-Large訓練實現了9.3倍的性能提升,BERT-3Layer推理實現了8.5倍的性能提升,EfficientNet-B3訓練實現了7.4 倍的性能提升。盧濤表示,“相較于前代產品,不管是典型的NLP應用,還是CV類的應用,在8個C2的IPU服務器和基于8個M2000的服務器的系統級性能對比中,Colossus Mk2 GC200都可以實現平均八倍左右的性能提升。”
大規模可擴展的IPU-M2000刀片卡
IPU-Machine:M2000(IPU-M2000)是一款即插即用的機器智能刀片式計算單元,采用Colossus Mk2 GC200內核,并由Poplar軟件棧提供全面支持。其設計便于部署,并支持可擴展至大規模的系統。這款纖薄的1U刀片機可提供1個PetaFlop的機器智能計算,且擁有450 GB的ExchangeMemory,以及可以為用戶提供超低延時通信的2.8 Tbps IPU-Fabric。IPU-M2000目前的建議零售價是32 450美金。


IPU-M2000有多種配置形態,用戶可以根據自己的需求利用IPU-Fabric對IPU模塊進行橫向擴展。同時,Graphcore還推出了基于IPU-M2000的全新模塊化機架規模解決方案IPU-POD64,可用于極大型機器智能橫向擴展,為用戶提供更大的AI計算可能性,以及完全的靈活性和易于部署的特性。
IPU-M2000是IPU-POD的一個基本組件,一個IPUPOD64的參考架構里支持16個IPU-M2000,可以根據不同的工作負載進行不同的配置,并且具有64顆IPU、16PFlops的算力、58GB的In-Processor-Memory,以及7TB的流存儲。此外,IPU-POD64支持2D-Torus的拓撲,最大化IPU-Link的帶寬,全縮減(All-Reduce)的效率比網狀拓撲快兩倍。
利用Graphcore最新的IPU-Fabric技術,用戶可以在整個數據中心內連接IPU,把IPU-M2000從一個機架式本地系統擴展到高度互連的超高性能AI計算設施中的1 000多個IPU-POD64系統。IPU-M2000的設計使客戶可以在IPU-POD配置中構建最多64 000個IPU的數據中心規模系統,這樣一個64 000個IPU的集群可以為用戶提供16ExaFlops的機器智能計算能力。
Graphocore在多核協同應用方面,應用了針對IPU協同的BSP(Bulk Synchronization Parallel)機制,通過軟件+硬件+編譯的協同機制,實現超大規模線程的同步。Graphcore中國區技術應用總負責人羅旭介紹說,BSP機制其實并不是一個新的概念,很早之前在超算領域就被人提出過,而Graphcore在BSP機制的基礎上把IPU芯片以及整個編譯器結合起來,利用IPU-Fabric,實現了IPU的多核協同工作,并保證大規模并行處理過程中的性能提升線性。

圍繞IPU構建的開發環境
Graphcore的IPU應用軟件Poplar包括了PopART(run time)和PopLibs(SDK)兩個部分。Poplar支持的算法框架包括PyTorch、TensorFlow1、TensorFlow2和ONNX,對百度PaddlePaddle的支持也會盡快發布。開發者通過PopART和PopLibs連接Poplar的compute graph,再通過graph compiler在整個處理器軟件跟硬件結合最緊密的地方生產計算圖,并把這個計算圖加載到對應的硬件,也就是IPU-M2000整個這一系列的產品中。
Graphcore最新發布的PoplarSDK1.2可以完全支持主流數據中心的操作系統,包括ubuntu、RedHat和CentOS等。Poplar SDK 1.2還優化了卷積庫和稀疏庫,開放了可擴展的Poplar庫,集成了很多先進的機器學習框架,進一步開放了低級別的API,為上層的算法提供低層次的API接口,并開放了Graphcore的獨特技術IPU Exchange Memory的相關API和管理功能,幫助用戶對模型性能做出最大程度的調優。
Graphcore還為用戶提供了基于圖形的分析工具Graphcore PopVisionGraph,可以做到基于算子層面檢測整個系統。以圖形界面的形式呈現內存使用、算力使用等信息,并針對IPU的特性進行性能調優。

GraphcoreIPU開發者云
目前Graphcore在中國的首款IPU 開發者云已經在金山云平臺完成了部署,其中使用的IPU產品包括三種: IPU-POD64、浪潮IPU服務器NF5568M5,以及戴爾IPU服務器DSS8440。Graphcore的IPU開發者云支持當下最先進、最復雜的AI算法模型的訓練和推理的工作,例如ResNeXt和EfficientNet等以分組卷積為代表的機器視覺應用,LSTM、RNN和GRU等基于時序分析的應用,還有自然語言、廣告推薦和金融算法等方面的模型。
Graphcore的IPU 開發者云為商業用戶提供三周左右的試用期,對于高校、研究機構和個人開發者則提供六個月左右的免費試用,Graphcore還為應用機器智能輔助人類突破人類潛力的研究者,例如針對新型冠狀病毒COVID-19的相關研究提供優先訪問使用權。
在用戶社群建設方面,Graphcore一直在努力籌備中國的創新社區,并在微信、知乎、微博,以及GitHub等平臺與開發者、創新者及研究者積極互動,Graphcore的中國官網“擬未科技”也將于近期上線。
后記
“Graphcore當下的主要工作分為三個部分:第一部分是專門為AI應用從零開始設計的IPU處理器。第二部分是基于IPU處理器以及面向AI應用的Poplar軟件棧,以及相關開發工具。第三部分是圍繞硬件和軟件共同打造IPU平臺。”盧濤介紹說,“Graphcore的愿景是在CPU和GPU之外‘畫出第三個圓,因為我們認為不管是CPU還是GPU都沒有從根本意義上解決AI的問題。AI是一個面向計算圖的計算任務,跟CPU的標量計算和GPU的矢量計算都是不一樣的。Graphcore希望IPU能夠幫助創新者在機器智能中實現下一步算法的突破。Graphcore芯片架構的特點能夠為模型開發、算法迭代帶來速度的提升,從而實現進一步的突破。”