李實
2020年是一個不平凡的年份。由于特殊時期的大量展會被取消,企業轉而改用線上的形式發布今年的新品或者發展計劃。6月19日,英特爾召開線上發布會,向全球用戶公布了旗下2020年面向企業和商業用戶的全新產品和技術。其中硬件方面包含了內置AI加速技術的第三代至強處理器、傲騰200系列持久內存、高容量3DNANDSSD,以及首個為AI優化的FPGA產品,軟件方面則展示了英特爾在OneAPI計劃上的一些進展和英特爾對企業級用戶在IT管理方面的一系列精選方案升級等。接下來,我們就一起來了解一下,英特爾在2020年究竟會為用戶帶來怎樣的驚喜。
支持AI計算加速的全新至強處理器
至強處理器是英特爾在服務器和數據中心領域的核心產品。在本次發布會上,英特爾推出了全新的第三代至強可擴展處理器。第三代產品包含11款新品,其中白金系列產品為6款,金牌系列產品為5款。其中,最頂級的處理器型號為XeonPlatinum8380HL,擁有28核56線程,基礎頻率為2.9GHz,睿頻可達4.3GHz,TDP功耗為250W,緩存為38.5MB。內存方面支持DDR43200(1DPC)或者DDR42933(2DPC),最大內存容量支持每個插槽4.5TB,支持4路或者8路配置。在8路配置下,最多可以在一個機架中實現224個處理器核心和448路線程的配置方案,這也是英特爾目前提供的最強大處理器之一。
相比上代產品,新的第三代至強可擴展處理器在工藝制程和核心數量上沒有太多的變化,其主要升級放在規格和對AI加速的支持上。新的第三代至強可擴展處理器帶來了對Bfloat16規格的支持。所謂Bfloat16,是一種數據格式,也可以被稱為BF16或者Truncated16-bitfloatingpoint截斷16bit浮點數。Bfloat16的主要形成方法是將一個完整的FP32浮點數的前16位截斷生成。這個數據格式是由谷歌提出,最早使用在谷歌專用的TPU中。Bfloat16的優勢在于,其計算精度和FP16相當,但是又具有和FP32一樣的大動態范圍,所以Bfloat16只需要一半的比特數(或者計算量)就能達到和FP32類似的模型精度。不僅如此,Bfloat16還能夠解決深度學習計算中由于精度不足導致底層的降低梯度消失等問題。比如每一層深度學習計算的梯度相乘得到的小于1的浮點數,層數越來越多之后,這個數會進一步縮小至難以使用,而使用Bfloat16就能避免出現這種問題。
在引入了Bfloat16支持后,英特爾帶來處理器在AI計算方面性能的躍升。英特爾的數據顯示,在其自家的深度學習測試環境中,相比之前常用的FP32數據格式,新的Bfloat16數據格式擁有1.93倍的訓練性能,同時還能夠輸出幾乎一樣的結果;或者帶來1.9倍的推力性能,同時也輸出一樣的結果。英特爾還在更廣泛的范圍內對比了Bfloat16數據格式和FP32數據格式的性能差異。比如阿里云使用Bfloat16運行NLP計算的吞吐量達到傳統格式的1.58倍,推理計算達到傳統格式的1.83倍;在海鑫科金的生物統計學計算中,Bfloat16數據格式的計算吞吐量是FP32數據格式的1.97倍;在騰訊云的查詢引擎中,Bfloat16數據格式的計算吞吐量是FP32數據格式的1.68倍,在TTS計算中的吞吐量也達到了1.54倍,推理計算更是達到了1.89倍。
除了Bfloat16數據格式外,英特爾還帶來了對INT8數據格式的支持。這種數據格式計算負載更低,但是計算精度同時也有一定程度的下降,適合在要求較低的場合使用。英特爾的數據顯示,在AI的推理計算中,以第三代至強可擴展處理器為例,FP32的性能指數是2.04,這還是動用處理器內置AVX-512加速模塊的情況下,而INT8的性能則高達6.25,Bfloat16的性能也高達3.66,這三種推理計算都能得到合理的結果,顯然在這種條件下采用INT8格式是更為合理的。
在相關處理器芯片組的選擇上,英特爾本次也帶來了C620A芯片組和新的第三代至強可擴展處理器搭配的案例。新的C620A芯片組能夠提供最多20條PCIe3.0通道、最多10個USB3.0接口、最多14個SATA3.0接口以及支持包括PlatformManageability、ASR、StorageManageability等技術。英特爾展示的案例中,C620A搭配了4路第三代至強可擴展處理器,每一個處理器都提供了6通道DDR4內存、最多48條PCIe3.0通道的規格,并且四顆處理器通過英特爾UPI總線兩兩鏈接,整體規格令人咋舌。
另外,英特爾還在發布會上提到了處理器的發展路線圖等問題。2020年目前發布的至強可擴展處理器采用的架構代號是CooperLake,平臺被稱為Cedarisland,支持4~8路處理器。今年還將發布基于10nm生產工藝,架構代號為IceLake、Whitley平臺的新產品,只支持1~2路處理器,這應該是面向中小企業或者個人用戶的產品。在2021年,英特爾還將發布1~8路、架構代號為SapphireRapids的處理器和名為“EagleStream”的平臺,并加入下一代深度學習加速技術AMX。當然現在沒有太多有關這些新技術的消息,只有等待英特爾接下來再為我們揭示了。
全新的英特爾200系列傲騰持久內存
英特爾的傲騰持久內存是近幾年IT業界最大的技術創新之一。隨著英特爾的推廣和其本身技術的發展和優勢的顯現,越來越多的IT廠商開始考慮這種介于DRAM和SSD之間的存儲產品。在本次發布會上,英特爾宣布有超過200家500強企業使用了傲騰內存產品,帶來了包括存儲性能改善、數據吞吐量大幅度提升以及更快的處理時間等優勢。如今,英特爾又推出搭配第三代至強可擴展處理器的200系列傲騰持久內存。其主要技術特性包括最大容量可以提升至每處理器4.5TB、以及25%的內存帶寬提升等。這所有存儲性能的提升都帶來了I/O瓶頸效應的降低、更快的數據處理速度以及更好的應用性能等。
新的200系列傲騰持久內存目前有三款產品,容量分別是128GB、256GB和512GB,TDP除了512GB的產品為18W外,其余兩款產品都僅為15W。速度方面,根據不同的讀寫場景,128GB和256GB款最大速度可達6.8GB/s,最小速度也有0.45GB/s和0.58GB/s,512GB款最大速度降低至5.3GB/s,但是最小速度能達到了0.47GB/s。當然,200系列的傲騰持久內存是配合第三代至強可擴展處理器推出的,暫時不清楚是否可以使用在之前的產品或者普通用戶電腦中,這還有待英特爾給出更多的相關資料才能確定。
全新的英特爾3D NAND固態硬盤
英特爾在SSD產品上一向以高可靠性、高性能和大容量著稱。這一次英特爾發布的兩款新品SSDD7-P5500和SSDD7-P5600面向的是需要大容量存儲用戶。這兩款新SSD采用了英特爾最新的TLC3DNAND技術以及全新低延遲PCIe控制器,能夠滿足AI及分析工作負載的密集I/O需求,并具有提高IT效率和數據安全性的高級功能。英特爾的數據顯示,相比前代產品,這兩款SSD最多可降低40%的延遲、提高33%的性能。具體到每款產品來看,P5500可以提供高達2倍的順序性能、P5600提供最高44%的隨機混合工作負載性能提升。另外,這兩款新品都能夠降低幾乎所有場合下高達80%的隨機4K讀取延遲。
在安全性能方面,這兩款新的SSD提供了一些固件增強功能,用于提高IT效率和數據安全性,包括動態名稱空間管理支持更多用戶擴展、支持TCGOpal2.0和內置了AES-XTS256加密、增強的SMART監控、可以在不中斷I/O數據流的情況下向外界報告驅動器運行情況、新的Telemetry2.0數據日志、優化的TRIM功能、新的電源損失保護方案等。
在產品規格方面,D7-P5500包含1.92TB、3.84TB和7.68TB這三種規格,并均支持PCIe4.0x4接口和NVMe1.3c規范,128KB數據的最大讀取速度為7000MB/s、最大寫入速度為4300MB/s。隨機4K性能為讀取/寫入1M/130KIOPS。D7-P5600則更看重隨機性能,其容量包含1.6TB、3.2TB和6.4TB三種,也支持PCIe4.0x4接口和NVMe1.3c規范,128KB數據的最大讀取速度為7000MB/s、最大寫入速度為4300MB/s,隨機4K性能則大幅度提升至讀取/寫入1M/260KIOPS。這兩款產品的最大功耗都為20W,且都提供5年質保,可見英特爾對自家產品信心十足。
英特爾首個為AI優化的FPGA產品
英特爾本次發布會上帶來了旗下首個為AI計算優化的FPGA—Stratix10NX。根據英特爾的描述,這款產品是英特爾首個針對高帶寬、低延遲AI加速所設計的FPGA類產品,它能夠針對自然語言處理、欺詐識別、智慧城市等需要極高計算需求的場合進行定制化、重配置、可擴展AI加速等操作。Stratix10NX使用了HBM內存、板載高性能網絡接口以及全新的AITensorBlock。值得一提的是,新加入的AITensorBlock替代了之前的DPS模塊,其內部包含了大規模的低精度乘法器密集陣列,能對目前主流的AI計算所需要的乘加計算進行加速,這極大提升了FPGA在AI計算方面的效能。
在相關產品特色方面,新的FPGA加速計算核心能夠以前代產品15倍的速度實現對INT8數據格式計算的加速,并且其硬件可編程的特性使得用戶可以根據自己的AI計算需求對硬件進行重新定義。內存帶寬方面,在使用了HBM內存之后,Stratix10NX大幅減輕了數據帶寬約束,釋放了更多的計算效能。在網絡性能方面,Stratix10NX配置了最大57.4G的收發器搭配英特爾以太網絡模塊,并且這個規格也是可以根據用戶需求進行定制和改善的。最后,Stratix10NX還可以根據不同的場合和應用環境,以Chiplet的方式搭配客戶指定的ASIC芯片,以實現整個系統的效能最大化。總的來看,英特爾將AI計算和FPGA結合起來,顯然是瞄準了定制市場對AI計算的需求,在擁有了Stratix10NX這樣的產品后,大量的計算將更有效率地在新的FPGA上運行,這將進一步推動定制化市場AI的發展速度。
計算創造無限未來
從本次發布會來看,英特爾在搭建自己的面向企業和商用的AI計算平臺的道路上又前進了一步。無論是支持全新Bfloat16格式的第三代英特爾至強可擴展處理器家族,還是與之相配的200系列傲騰持久內存,全新的大容量SSD產品,以及首個為AI優化的FPGA產品,都帶來了英特爾2020年在AI計算加速上的重大突破。未來的世界是不是AI的世界,目前還有待進一步觀察,但是當下AI計算的火熱,給所有參與其中的企業帶來了一個切入市場熱點的最好機會。英特爾目前要做的,就是提供最合適和最強大的計算能力,讓計算創造世界的未來,也創造英特爾自己的未來。