李實
提到AI計算芯片和加速卡,人們第一時間想到的往往是英偉達推出的A系列、T系列產品。實際上隨著國內芯片設計的發展,目前國內也有多家廠商推出了和AI計算相關的加速芯片和加速卡,比如百度、阿里等。日前,燧原科技推出了他們旗下最新的AI計算芯片和加速卡,從規模來看,燧原科技這次推出的產品可謂中國目前最大,在性能方面也和國外同檔次產品有一戰之力。下面,我們就和你一起走近燧原科技,了解一下其推出的邃思芯片和云燧加速卡。
燧原科技是位于上海的一家半導體初創企業,其英文名為“Enflame”。燧原科技的兩位創始人分別是CEO趙立冬和COO張亞林。其中,趙立冬擁有清華大學電子工程學士和美國猶他州立大學電子計算機碩士學位,曾在S3、AMD、紫光、銳迪科等企業工作過,最高職位是紫光集團副總裁。張亞林則是復旦大學電子工程學士學位獲得者,同樣有AMD工作背景,并領導定制開發了Xbox One主芯片,管理和發展了AMD上海、北京研發部門等。從燧原科技兩位創始人的背景可以看出,他們均有專業電子、集成電路的學習、工作背景,都曾經在全球領先的一線企業擁有多年工作經驗和豐富的行業資源。
燧原科技將自己定義為一家“專注人工智能領域云端算力平臺,致力為人工智能產業發展提供普惠的基礎設施解決方案,提供自主知識產權的高算力、高能效比、可編程的通用人工智能訓練和推理產品”的企業。目前,其推出的人工智能訓練和推理產品品牌為云燧,芯片產品品牌為邃思,軟件品牌為馭算。
在了解了燧原科技的基本情況后,讓我們一起來看看本次燧原科技發布的全新產品的相關信息。
國內最大的AI云端訓練芯片:速思2.0
本次發布會最大的驚喜就是邃思2.0芯片。從基板尺寸來看它是目前國內最大的AI芯片。邃思2.0芯片的封裝尺寸長寬均為57.5mm,整體封裝面積達到了3306.25mm2,不過這個數據是否包含了基板長度暫時不得而知。相比之下,英偉達的A100計算芯片同樣采用了HBM方案,其不包括HBM存儲的A100計算芯片面積僅為862mm2,和邃思2.0的數據相比差異相當大,其主要原因可能是廠商統計數據的方法存在差異。
和這種計算芯片通常采用7nm甚至更高端的5nm工藝有所不同的是,邃思2.0采用的是格芯(格羅方德)的12nm工藝。有關工藝制程的信息,在發布會上并沒有做太多介紹,但是可能使用的就是格羅方德在2018年發布的12nm FD-SOI工藝。這個工藝的優勢在于能夠實現極高的集成度,并且FD-SOI技術的引入也使得整個芯片的功耗下降、性能提升。格芯的數據顯示,FD-SOI技術引入之后,他們的12nm工藝能夠以低于16nm FinFET的功耗實現基本等同于10nm FinFET的性能,或者說相比16nm FinFET工藝性能提升15%,功耗降低50%。
雖然格芯12nm FD-SOI工藝的整體表現在同代工藝中算是佼佼者,但是考慮到半導體制造的代差碾壓現象的存在,如果燧原科技能夠采用臺積電的7nm工藝或者更新的5nm工藝來制造產品的話,那么整個芯片的規模、性能、功耗等應該會再上一個臺階。那么,為什么燧原科技選擇了比較老舊的工藝來制造這款產品呢?其主要原因可能還是綜合考慮了成本、市場以及產品等因素。
對燧原科技這樣的初創公司來說,臺積電的7nm、5nm工藝自然是好的,但是高昂的流片費用和相關制造成本在沒有較大的市場來分攤的情況下,最終體現到產品上就是昂貴的單片售價。市場是敏感的,初創公司的新品在技術、性能上沒有絕對優勢的前提下,如果成本和價格再沒有優勢的話,那么相比成熟公司或者跨國企業的產品,初創公司的產品就很難得到市場和買家的關注。因此很多初創企業在早期都會提供相對于市場上成熟產品大致相當的性能,卻低得多的價格,或者背靠某個大企業進行定向采購,畢竟對芯片這種產品來說,有人用才能實現有效迭代。寧可早期少賺、不賺甚至略虧,都一定要在自己的能力范圍內維持整個市場的存在感和自己的產業生態圈,才能在—次次迭代中不斷升級,形成自己在技術、產業和生態上的競爭優勢。
從這點來考慮,燧原科技在邃思2.0上采用12nmT藝是合理的,也是目前市場競爭條件下的最優解。
邃思2.0采用2.5D圭寸裝設計,整合79顆芯片。從芯片的外表面可以看出,邃思2.0擁有一個計算核心和4個HBM2E存儲芯片,加起來一共有5個芯片。考慮到它封裝79顆芯片,那么可能在下部還集成74顆HBM2E芯片,最終達成了64GB的規格。
繼續來看產品的相關參數。算力方面,邃思2.0的單精度FP32算力為40TFLOPs,單精度張量TF32算力為160TFLOPS,整數INT8算力為320TOPs。此外,燧原科技宣稱邃思2.0支持目前所有的AI精度,包括FP32、TF32、FP16、BF16和INT8,不過由于發布會給出的消息不多,燧原科技沒有給出部分數據精度格式下的算力情況,比如BF16(不過后文的性能測試有從側面透露出一些信息)。另外對于一些特殊情況下的算力優化情況,發布會上也沒有進行介紹。
相比目前最快的英偉達A100,A100的FP32算力為19.5TFLOPS,TF32算力為156TFLOPS,BF16算力為321TFLOPS,INT8算力為624TOPS。雖然從絕對理論數值上來看,A100 GPU的在FP32、TF32算力都要落后于邃思2.0。但是最核心的問題在于,A100在目前AI計算比較常用的BF16和INT8格式上算力大幅領先邃思2.0。不僅如此,在計算目標是稀疏矩陣的情況下,A100 GPU的TF32、BF16和INT8算力會直接翻倍,這就不僅僅是硬件規模可以決定的內容了,
邃思2.0芯片采用了HBM2E的存儲方案,最高可以支持64GB容量的本地存儲,帶寬最高為1.8TB/s。外部接口則采用的是PCIe 4.0 x16,這也是目前主流的AI計算設備上常用的接口之一。
值得注意的是,邃思2.0在擴展性上擁有獨特設計。其芯片內部設計了專用的通道,被稱為GCU-LARE燧原智能互聯總線,單路可以實現雙向50GB/s的帶寬。邃思2.0內部擁有6路設計,總計可以實現300GB/s的雙向互聯帶寬。由于獨特的互聯端口,邃思2.0可以提供互聯擴展算力的功能。這個功能非常重要,這意味著邃思2.0擺脫了傳統芯片僅僅依靠PCIe總線溝通系統和互聯的設計,而是可以依靠自己定義的總線自組織成網,這就為邃思2.0芯片的大規模、集群化應用打好了基礎。
除了上述內容外,燧原科技沒有詳細地對整個芯片的架構、設計等內容進行介紹。希望未來能公布更詳細的資料,使得大家也可以一窺芯片的架構和設計。
燧原科技的加速計算卡:云燧T20和云燧T21
除了芯片產品邃思2.0外,燧原科技還在此次發布會上推出了加速計算卡新品,其產品型號為云燧T20和云燧T21。
先來看看云燧T20,這款產品采用的是傳統PCIe設備外觀,需要占用雙插槽。從外觀來看和一般的顯卡沒有太大差別。不過云燧T20外殼沒有設計散熱器,應該是放置在機架中進行統一散熱。云燧T20和云燧T21的TDP功耗分別為300W和400W。
除了云燧T20外,燧原科技還推出了云燧T21,采用的是OAM模組設計。所謂OAM,是指OCP Accelerator Module,也就是OCP加速模塊,這是百度、微軟等企業聯合推出的標準,用于標準化AI硬件加速模塊的系統設計。OAM標準定義了一整套方案,包括AI加速硬件在主板、機箱、供電、散熱等方面的規范,通過OAM規范,類似云燧T21這樣的產品就可以在不同的AI加速設備中兼容使用。從外觀上來看,云燧T21和我們傳統印象中的PCIe設備差別很大,更像是自帶了散熱器和底座的CPU模塊。
目前云燧T20和T21全系列產品都支持單機多卡互聯、多機多卡互聯和超大規模集群互聯。其中單機多卡互聯適用于主流AI服務器,單機支持8張加速卡互聯,適合中小型深度學習訓練場景。多機多卡的規模進一步擴大至數百張卡,可以支持中大型企業、院校運行深度學習訓練的場景。最大的則是超大規模集群互聯,支持以干為單位的節點互聯,適用于云計算、超算中心等場景。
值得一提的是,由于邃思2.0加入了相關互聯總線設計,因此組建多卡互聯系統很方便。在發布會上還展示了燧原科技和合作伙伴打造的云燧智算集群CloudBlazer Matrix 2.0。這個集群中包含了8192張云燧訓練卡和DTU芯片,能夠以80%的線性度輸出性能,最高可以實現1.3E級別的單精度計算能力。目前,全.球尚未有其他設備能夠以1.3E(大約130000TFLOPS)的算力輸出性能,云燧智算集群是首個能夠達到這樣高度的產品。
在發布會上燧原科技還介紹了旗下馭算Topsrider 2.0架構的相關內容。目前馭算Topsrider 2.0主要支持更高算力,支持更便捷高效的開發和更靈活通用的場景。燧原科技展示了馭算Topsrider 2.0的架構圖,最底層是云燧T10系列和云燧T20系列硬件,通過驅動層,進入上層SDK層之后,馭算Topsrider 2.0可以支持TensorFlow、Pytorch、MxNet、OnnX等主流框架,最后再進入應用層。目前馭算Topsrider 2.0也提供了非常完善的編譯器、工具鏈、圖形化整合開發環境、自編譯支持以及高性能運行支持,非常方便。
比肩業內頂級的部分性能
和國內目前很多AI芯片廠商的產品“只聞樓梯響,不見人下來”,性能總是模模糊糊相比,燧原科技在發布會上大大方方地展示了云燧T20系列的性能。雖然競爭對手只寫了“友商旗艦”,但考慮到就算不是英偉達A100,而是上代旗艦產品,也說明了云燧T20產品已經頗具市場競爭力,要知道這還是一款12nm工藝制造的產品。
從燧原科技展示的信息可以看到,云燧T20在TF32性能的圖像識別和分類、NLP、目標檢測、圖像分割等方面,基本上和友商旗艦水平相當。其中比較弱勢的是NLP和目標檢測,最差情況下只有對比產品的60%和80%性能。較好的是圖像分割、圖像識別和分類,基本擁有超過友商旗艦的性能。在和友商次旗艦的對比中,云燧T20的性能領先幅度分別在1.5倍到4.5倍之間,整體性能不錯。
在和兩款GPU對比的情況下,云燧T20的FP32算力是GPU1的2.1倍、TF32算力是GPU1的8.6倍,其余的BF16算力、內存帶寬、內存容量和互聯帶寬基本上可以達到GPU1的1~2倍,但是不如GPU2。考慮到云燧T20只是燧原科技的第二款產品,這樣的性能已經值得肯定了。
燧原科技還使用云燧T20和上代云燧T10進行了對比。從數據來看,云燧T20的性能基本上是云燧T10的1.5~6.7倍,顯示出不小的進步,尤其是TF32算力暴增6.7倍,這顯示云燧T20在架構上針對TF32進行了充分優化。不過在BF16方面,云燧T20的整體性能提升幅度還不夠。此外,在稀疏矩陣的性能優化上,云燧T20也沒體現出明顯優勢,這是未來燧原科技需要努力加強的部分。
燧原產品定律發布,性能穩步提升
在發布會上,燧原科技還發布了未來的產品路線圖。其計劃在2023年發布新的云端訓練產品T30和T31,每瓦特性能大約是2020年發布的初代T10和T11的14倍,大概也是最新發布的T20和T21的3.5倍左右。如此巨大的性能提升,新的產品在架構更新的同時,可能會采用全新工藝,使用更多的晶體管來實現更高的性能。
目前,燧原科技擁有推理計算產品云燧i10,即將發布的云燧i20的每瓦特性能是云燧i10的4倍,2023年發布的云燧i30的每瓦特性能應該是云燧i10的16倍左右,值得期待。
除了產品路線圖,燧原科技還發布了“燧原產品定理”,那就是燧原科技的每一代產品相比前一代產品,在“平均業務”中,每瓦特性能要達到前代產品的至少3倍,每單位價格性能要達到前代產品的至少2倍,并且保持軟件兼容性和可靠性等。
總的來看,燧原科技通過此次發布會展示了自己強大的技術研發能力和產品規劃、應用能力。作為一個初創公司,燧原科技的AI加速芯片產品已經具備一定水準。同時燧原科技對未來產品的規劃以及“燧原產品定理”的出現,也給人們展示了這家公司堅定自主研發、提升產品性能的信心。希望在未來的道路上,燧原科技能夠堅持現在的研發主線,將自主AI芯片做得越來越好,越來越強。星星之火,可以燎原。