重回顯卡市場(chǎng)，還是另有所圖?英特爾Xe CPU架構(gòu)初探

2020-04-14 04:41:41張平

微型計(jì)算機(jī) 2020年4期

張平

當(dāng)英特爾在2018年宣布自己將研發(fā)高性能獨(dú)立GPU時(shí)，人們不禁紛紛猜測(cè)，在高性能獨(dú)立GPU市場(chǎng).上屢次折戟的英特爾，這一次是否會(huì)真的成功？除此之外，英特爾重新研發(fā)高性能獨(dú)立GPU是否還瞄準(zhǔn)了其他的市場(chǎng)？在經(jīng)過(guò)了一年多的等待后，英特爾在2020年的CES上公布了全新的Xe GPU，并且開(kāi)始瞄準(zhǔn)目標(biāo)市場(chǎng)進(jìn)行研究和推廣。那么英特爾的Xe GPU究竟帶來(lái)了哪些改變和新特性，又有哪些不同？

在2018年的最后一天，英特爾宣布了自己即將在2020年回歸高性能獨(dú)立GPU市場(chǎng)。而在2019年年底和今年初的CES上，英特爾又先后發(fā)布了不少的消息。其中，大部分的消息來(lái)源于英特爾和美國(guó)能源部簽訂的合同，即在阿貢國(guó)家實(shí)驗(yàn)室建造百億億級(jí)別超級(jí)計(jì)算機(jī)Aurora。美國(guó)能源部和阿貢國(guó)家實(shí)驗(yàn)室希望開(kāi)發(fā)人員能夠盡早地了解目關(guān)硬件信息，以便能夠在超級(jí)計(jì)算機(jī)搭建完成后在盡可能短的時(shí)間內(nèi)開(kāi)始工作，并盡可能高效率地利用算力。因此，在超級(jí)計(jì)算機(jī)尚未完成之前，英特爾就必須公開(kāi)一部分研發(fā)資料和硬件信息。

現(xiàn)在，英特爾公布了很多有關(guān)XeGPU的信息，比如其研發(fā)代號(hào)，PonteVecchio-即維琪奧橋，這座橋梁始建于1345年，是意大利佛羅倫薩最古老的橋梁。采用這個(gè)代號(hào)的原因是英特爾Xe項(xiàng)目的首席架構(gòu)師Raja Koduri喜歡吃這座橋附近一家冰淇淋店的冰淇淋，因此就這么簡(jiǎn)單粗暴了。

“老玩家”的新任務(wù)——英特爾GPU研發(fā)歷史

英特爾實(shí)際上是GPU業(yè)界的“老玩家”，并且是全球GPU市場(chǎng)占有率第一的企業(yè)。不過(guò)，英特爾這樣的業(yè)績(jī)往往來(lái)自于嵌入式和集成式圖形計(jì)算解決方案。比如目前我們所熟知的“核芯顯卡”，將GPU計(jì)算部分和CPU集成在一起并一起銷(xiāo)售，大幅度提高了自已產(chǎn)品的市場(chǎng)占有率。

回顧歷史，英特爾首次開(kāi)發(fā)獨(dú)立GPU的嘗試是在1998年2月12日。這一天英特爾發(fā)布了旗下首款獨(dú)立GPU產(chǎn)品——英特爾i740 AGP顯卡。這款產(chǎn)品最主要的貢獻(xiàn)在于推廣了AGP接口。其實(shí)際效能和功能設(shè)置則表現(xiàn)一般，在各項(xiàng)測(cè)試中都落后于市場(chǎng)上競(jìng)爭(zhēng)對(duì)手的方案，比如Voodo0 2以及英偉達(dá)的RIVA TNT。1999年8月，英特爾宣布i740徹底退市。

在i740徹底下市之前，英特爾還研發(fā)了i752和i754，不過(guò)前者發(fā)布后沒(méi)多久就宣布撤回，后者甚至沒(méi)有正式發(fā)布，性能方面i752相比i740提高得很有限。隨后，英特爾宣布這兩款GPU的內(nèi)核將被直接用在.810和i815的芯片組中，成為集成顯卡的核心。在2000年9月，英特爾最后一款在研的GPU架構(gòu)Ca pitola也被宣布取消，英特爾首次GPU研發(fā)計(jì)劃徹底終止。

英特爾第二次計(jì)劃研發(fā)高性能獨(dú)立GPU則是在2009年，這一年，英特爾宣布了新的Larrabee計(jì)劃。Larrabee的本質(zhì)是基于x86架構(gòu)的圖形處理器，英特爾試圖使用和英特爾CPU相同代碼路徑的寬矢量引擎來(lái)打造一款擁有高端圖形性能的GPU產(chǎn)品，并且這款產(chǎn)品還可以在標(biāo)準(zhǔn)CPU代碼中進(jìn)行編程處理。在發(fā)布后不久，Larrabee就進(jìn)行了一些圖形演示。不過(guò)在2010年英特爾又宣布這款產(chǎn)品最終不會(huì)用于民用圖形市場(chǎng)，而是進(jìn)入了高性能計(jì)算市場(chǎng)。開(kāi)發(fā)人員發(fā)現(xiàn)，英特爾Larrabee的產(chǎn)品可以很好地執(zhí)行5組512位寬的矢量計(jì)算，這最終帶來(lái)了AVX-512指令集，這個(gè)指令集目前存在并將持續(xù)存在于英特爾的至強(qiáng)可擴(kuò)展系列高性能處理器、部分消費(fèi)級(jí)處理器中。Larrabee隨后被賦予了一個(gè)產(chǎn)品名，那就是“XeonPhi”。Xeon Phi在大量的超級(jí)計(jì)算機(jī)中出現(xiàn)，還拿下了不少大獎(jiǎng)。不過(guò)XeonPhi只持續(xù)了幾代，最后一代“KnightsHill”并未實(shí)際部署就結(jié)束了整個(gè)系列的壽命。

英特爾可能在很早之前就已經(jīng)放棄了Larrabee或者類(lèi)似的產(chǎn)品進(jìn)入普通民用圖形市場(chǎng)。在Larrabee之后，英特爾的研發(fā)層進(jìn)行了一些調(diào)整，高管們又重新拾起了對(duì)傳統(tǒng)類(lèi)型GPU的興趣，并再次決定進(jìn)入高性能獨(dú)立GPU市場(chǎng)。新的項(xiàng)目大約在三年前啟動(dòng)，但是英特爾的官方消息和正式宣布日期應(yīng)該是始于英特爾在2017年12月聘請(qǐng)AMD首席圖形設(shè)計(jì)師Raja Koduri以及著名的SoC專(zhuān)家Jim Keller。Raja Koduri本身的資歷極其深厚，他先后在AMD和蘋(píng)果擁有超過(guò)20年的圖形解決方案經(jīng)驗(yàn)，因此英特爾授予其首席架構(gòu)師的職位，這也顯示了英特爾對(duì)新的高性能獨(dú)立GPU項(xiàng)目的重視程度。

從2017年12月開(kāi)始到現(xiàn)在，英特爾都在努力加強(qiáng)自己在GPU研發(fā)上的實(shí)力。在此期間，英特爾也動(dòng)用大量手段從競(jìng)爭(zhēng)對(duì)手AMD以及其他廠(chǎng)商那里廣泛挖人，僅僅AMD跳轉(zhuǎn)英特爾的高級(jí)人才就包括AMD營(yíng)銷(xiāo)總監(jiān)ChrisHook、AMD顯卡技術(shù)市場(chǎng)總監(jiān)DamienTriolet、AMD顯卡高級(jí)市場(chǎng)總監(jiān)DarrenMcPhee、AMD視覺(jué)技術(shù)副總裁/多倫多地區(qū)副總裁Ari Rauch等人，尤其是Ari Rauch還幫助英特爾建立了新的營(yíng)銷(xiāo)數(shù)據(jù)和分析師團(tuán)隊(duì)。

終于，英特爾在2018年12月的架構(gòu)日上披露，全新的GPU家族即將到來(lái)。英特爾將提供一個(gè)全新的圖形解決方案，從上到下覆蓋所有市場(chǎng)，不論是低功耗還是高性能平臺(tái)，甚至連集成顯卡也不會(huì)遺漏。當(dāng)時(shí)英特爾表示主要有2個(gè)GPU微架構(gòu)，全部基于Xe體系結(jié)構(gòu)建立。Xe的意思是“每個(gè)人的eXascale（百億億級(jí)）”，英特爾希望高效能和高效率的新架構(gòu)能夠滿(mǎn)足任何市場(chǎng)。

現(xiàn)在，英特爾進(jìn)一步披露了全新架構(gòu)的消息，絕大部分內(nèi)容來(lái)自于英特爾、美國(guó)能源部和阿貢國(guó)家實(shí)驗(yàn)室，大量的產(chǎn)品內(nèi)容和技術(shù)消息是面向HPC也就是高性能計(jì)算的。雖然迄今為止還是不清楚英特爾在民用級(jí)別的GPU上打算如何做，但是我們可以根據(jù)現(xiàn)有的消息管中窺豹，對(duì)英特爾新的Xe架構(gòu)和未來(lái)的GPU計(jì)劃進(jìn)行一個(gè)預(yù)覽。

英特爾的百億億次計(jì)劃

在介紹有關(guān)Xe產(chǎn)品的相關(guān)架構(gòu)之前，有一個(gè)疑惑需要進(jìn)一步闡述。闡述清楚這個(gè)問(wèn)題，有助于更加深入地認(rèn)識(shí)英特爾為什么執(zhí)著于GPU這一類(lèi)超大規(guī)模并行計(jì)算架構(gòu)，而不是持續(xù)加強(qiáng)CPU或者其他什么產(chǎn)品。

英特爾在之前就表示，人們對(duì)更快、更節(jié)能的計(jì)算設(shè)備擁有“永不滿(mǎn)足”的需求。不僅如此，現(xiàn)有計(jì)算規(guī)模還需要進(jìn)一步擴(kuò)大，下一個(gè)目標(biāo)是達(dá)到百億億級(jí)別，也就是10的18次方級(jí)別，也被稱(chēng)作Exascale Flops或者E級(jí)超算。相比之下，目前人類(lèi)掌握的最強(qiáng)大的超級(jí)計(jì)算機(jī)的計(jì)算能力大概是Petaflops，也就是10的15次方級(jí)別，千萬(wàn)億次，被稱(chēng)為P級(jí)超算，和E級(jí)超算差了三個(gè)數(shù)量級(jí)。目前超算排行榜第一的IBM Summit，計(jì)算能力大概為148 Petaflops，離E級(jí)超算還有大約10倍的差距。英特爾將2020年以及以后定義為“百億億次”時(shí)代，并且宣稱(chēng)這個(gè)時(shí)代，沒(méi)有任何計(jì)算能力可以滿(mǎn)足前沿研究計(jì)算的需求。

更重要的是，英特爾指出，目前市場(chǎng)上已連接設(shè)備的數(shù)量還在快速增加。幾年前，分析師預(yù)測(cè)2020年到2023年大概有500億的IoT設(shè)備（50B），英特爾在演講中表示，到2020年代中期以及以后，將有超過(guò)1000億個(gè)設(shè)備需要某種形式的智能計(jì)算。無(wú)論是訓(xùn)練端還是推理端，實(shí)現(xiàn)AI計(jì)算都意味著性能和計(jì)算將無(wú)處不在，這種計(jì)算將超越網(wǎng)絡(luò)、超越移動(dòng)設(shè)備、超越云端。這種龐大的計(jì)算市場(chǎng)規(guī)模，是英特爾對(duì)未來(lái)的一種愿景和期望。

為了進(jìn)一步實(shí)現(xiàn)這種遠(yuǎn)景，英特爾將計(jì)算分為四個(gè)特定的類(lèi)別，分別是標(biāo)量、矢量、矩陣和空間。標(biāo)量計(jì)算是絕大部分系統(tǒng)運(yùn)行的日常標(biāo)準(zhǔn)計(jì)算，向量計(jì)算正在轉(zhuǎn)向并行指令計(jì)算。矩陣計(jì)算或者張量計(jì)算是當(dāng)前的熱門(mén)話(huà)題，張量?jī)?nèi)核和AI芯片之類(lèi)的產(chǎn)品都可以?xún)?yōu)化矩陣吞吐量。空間計(jì)算則由FPGA完成，這也是FPGA'市場(chǎng)延伸出來(lái)、一種非常復(fù)雜的稀疏計(jì)算（一般是指針對(duì)稀疏矩陣的計(jì)算，所謂稀疏矩陣，是指矩陣中數(shù)值為O的元素?cái)?shù)目遠(yuǎn)遠(yuǎn)多于非O元素的數(shù)目，并且非O元素分布沒(méi)有規(guī)律的一種矩陣類(lèi)型，與之相反還有周密矩陣。稀疏矩陣被廣泛使用在諸如流體力學(xué)、統(tǒng)計(jì)物理、電路模擬以及圖像處理、納米材料等計(jì)算中）。對(duì)于這種計(jì)算，F(xiàn)PGA可以使用其非標(biāo)計(jì)算引擎進(jìn)行優(yōu)化，然后加速解決。顯然，英特爾的目標(biāo)是覆蓋所有的計(jì)算場(chǎng)合，包括標(biāo)量CPU、矢量GPU、矩陣AI以及空間FPGA。

CPU可以執(zhí)行任何類(lèi)型的計(jì)算，唯一的問(wèn)題在于效率，無(wú)論是計(jì)算效率還是電源效率。比如CPU轉(zhuǎn)移到FPGA時(shí)，硬件上越來(lái)越專(zhuān)業(yè)化，但是自由度大幅度降低。此外，諸如GPU、AI和FPGA這樣的產(chǎn)品，其軟硬件的專(zhuān)業(yè)化和更高的使用難度提高了用戶(hù)的門(mén)檻。這意味著較高的使用成本和學(xué)習(xí)成本。鑒于此，英特爾對(duì)不同的計(jì)算推出了oneAPI計(jì)劃，后文還有進(jìn)一步的介紹。

聚焦到Xe上，英特爾宣稱(chēng)Xe架構(gòu)將是所有GPU硬件的基礎(chǔ)。Xe對(duì)當(dāng)前圖形架構(gòu)進(jìn)行了全新設(shè)計(jì)，并吸收了之前英特爾在Larrabee、Atom、酷睿甚至安騰系列產(chǎn)品中掌握的經(jīng)驗(yàn)。英特爾之前已經(jīng)宣布自己拿到了全新的Xe芯片硅片，并進(jìn)行了諸如電源循環(huán)和基本功能測(cè)試。

有關(guān)Xe的性能，英特爾在一張幻燈片中展示了其雄心勃勃的計(jì)劃：?jiǎn)蝹€(gè)服務(wù)器計(jì)算節(jié)點(diǎn)的性能。2021年在Xe架構(gòu)的輔助下，將是2019年傳統(tǒng)節(jié)點(diǎn)的500倍。值得注意的是，英特爾在這里并沒(méi)有指出相關(guān)的對(duì)比參數(shù)。考慮到英特爾在數(shù)據(jù)對(duì)比中，可能使用2019年單個(gè)6核心的Xeon Bronze，以標(biāo)量模式運(yùn)行矢量代碼，并對(duì)比2021年具有六個(gè)Xe GPU優(yōu)化的雙路處理器系統(tǒng)，因此結(jié)果存在很大的不確定性。

Xe系列產(chǎn)品概述

在HPC DevCon公開(kāi)Xe相關(guān)信息之前，英特爾曾表示，旗下Xe產(chǎn)品即Xe架構(gòu)，將從集成顯卡—直延伸至中端圖形市場(chǎng)、企業(yè)級(jí)圖形市場(chǎng)以及數(shù)據(jù)中心、AI加速、虛擬化等現(xiàn)在所有的主流應(yīng)用場(chǎng)景和功能。在入門(mén)級(jí)市場(chǎng)也就是Xe-LP，其用戶(hù)期望性能大約能夠達(dá)到TeraFLOPS，在企業(yè)級(jí)市場(chǎng)也就是Xe-HP，這個(gè)性能會(huì)提升至PetaFLOPS，所有的用戶(hù)所對(duì)應(yīng)的產(chǎn)品都會(huì)分布在這個(gè)性能差距為1000倍的區(qū)間之內(nèi)。

之前英特爾宣稱(chēng)在整個(gè)范圍內(nèi)會(huì)有兩個(gè)版本的Xe產(chǎn)品，不過(guò)新的消息顯示，Xe將有第三款產(chǎn)品出現(xiàn)，并且其名稱(chēng)似乎指出了相關(guān)的定位和差異性。

在入門(mén)級(jí)產(chǎn)品中，英特爾將使用Xe-LP核心，LP表示Low Power也就是低功耗。這個(gè)核心將覆蓋所有的集成圖形解決方案。英特爾宣稱(chēng)Xe-LP產(chǎn)品的功耗定位為20W，但是這個(gè)設(shè)計(jì)是可擴(kuò)展的，最多可以擴(kuò)展至50W，不過(guò)在這個(gè)功耗下能耗效率會(huì)有所降低，目前暫時(shí)沒(méi)有推出50W Xe-LP產(chǎn)品的計(jì)劃。通過(guò)這種方式，英特爾有可能在傳統(tǒng)45W的高性能移動(dòng)處理器中使用Xe-LP架構(gòu)，并且可能出現(xiàn)在SoC形式的臺(tái)式機(jī)處理器中。這樣一來(lái)，Xe-LP的主要設(shè)計(jì)目標(biāo)就是移動(dòng)和集成核芯顯卡，并且不太可能以獨(dú)立顯卡的方式提供。

對(duì)于中端用戶(hù)、發(fā)燒友或者數(shù)據(jù)中心，英特爾拿出的是Xe-HP核心，HP是High Performance的意思。這個(gè)版本的核心將是英特爾獨(dú)立顯卡的基礎(chǔ)，能夠支持50W-250W或者更高功率的產(chǎn)品。考慮到獨(dú)立顯卡的重要性，英特爾不得不為這類(lèi)產(chǎn)品提供全面的軟硬件支持，包括Day-0驅(qū)動(dòng)等產(chǎn)品。目前英特爾尚未公布有關(guān)Xe-HP核心的消息，但是據(jù)估計(jì)英特爾應(yīng)該在2020年某個(gè)時(shí)候宣布這個(gè)產(chǎn)品線(xiàn)的具體信息。

第三個(gè)也就是之前未公開(kāi)的一個(gè)全新的產(chǎn)品系列：Xe-HPC，HPC是高性能計(jì)算的意思。Xe-HPC將作為Xe-LP和Xe-HP的變體，將重點(diǎn)放在提高原始吞吐量上，這也是高性能計(jì)算最關(guān)注的點(diǎn)。Xe-HPC可以從Xe-LP的最高層—直擴(kuò)展至整個(gè)Xe-HP，甚至超越Xe-HP。由于使用Xe-HPC的超級(jí)計(jì)算機(jī)部署會(huì)比普通的PC或者服務(wù)器擁有更好的適配，能容納高功耗產(chǎn)品，因此Xe-HPC的相關(guān)功耗設(shè)定可能會(huì)高達(dá)400W甚至更高，實(shí)際上現(xiàn)在已經(jīng)有TDP高達(dá)500W的PCle產(chǎn)品出現(xiàn)了因此這—點(diǎn)是完全可行的。

Ke系列架構(gòu)概述

每一個(gè)GPU設(shè)計(jì)基本上都是建立在其矢量寬度上，GPU在本質(zhì)上可以看作一個(gè)矢量處理機(jī)器，因此必須能夠提供超寬矢量的高效率計(jì)算，同時(shí)也允許微小矢量并行處理。矢量寬度的一個(gè)重要決定性因素就是圖形計(jì)算本身：處理器被要求在正確的時(shí)間內(nèi)使用矢量計(jì)算一定數(shù)量的像素，處理來(lái)自?xún)?nèi)存中不同位置的數(shù)據(jù)，甚至處理不同內(nèi)核提交的不同數(shù)據(jù)集。

矢量寬度還定義了很多軟件和相應(yīng)的優(yōu)化。作為公開(kāi)內(nèi)容的一部分，英特爾稱(chēng)經(jīng)過(guò)研究后發(fā)現(xiàn)，試圖把一個(gè)較大矢量寬度構(gòu)建的代碼轉(zhuǎn)換較小的矢量寬度，實(shí)際上極為困難。因此Xe架構(gòu)在矢量寬度上選擇了可變矢量寬度的模式。

Xe架構(gòu)包含了兩個(gè)基本單位，SIMT和SIMD。本質(zhì)上SIMD也就是單指令多數(shù)據(jù)類(lèi)似于CPU，可以在具有多個(gè)數(shù)據(jù)源的單個(gè)元素上執(zhí)行。而SIMT也就是單指令多線(xiàn)程涉及到在數(shù)據(jù)塊上使用相同的指令，并作為整個(gè)“矢量”處理的一部分。在實(shí)際操作中，可以按照正確的順序使用多個(gè)SIMT和SIMD模塊構(gòu)建Xe架構(gòu)，以精確處理不同細(xì)分市場(chǎng)的工作任務(wù)，也就是所謂的“樂(lè)高”風(fēng)格——搭建符合需求的積木模塊。

英特爾表示，和SIMT和SIMD-樣，新架構(gòu)中的每一個(gè)部分都可以協(xié)同工作以實(shí)現(xiàn)最高性能的模式。如果可能的話(huà)，這聽(tīng)起來(lái)似乎像是將潛在的SIMT命令擴(kuò)展至SIMD單元上。英特爾同時(shí)也表示，每個(gè)單元的設(shè)計(jì)都是可擴(kuò)展的（為了達(dá)到萬(wàn)億級(jí)）。在這種情況下，英特爾非常熱衷于在HPC市場(chǎng)推廣Xe架構(gòu)，因?yàn)檫@種架構(gòu)的SIMT和SIMD單元可以輕松擴(kuò)展至數(shù)干個(gè)以上，帶來(lái)強(qiáng)大的并行計(jì)算能力。

英特爾展示了一個(gè)Xe的擴(kuò)展網(wǎng)絡(luò)。在這個(gè)擴(kuò)展網(wǎng)絡(luò)中，Xe被擴(kuò)展至8x8網(wǎng)格，點(diǎn)擴(kuò)展則為14xll網(wǎng)格。英特爾似乎想展示Xe的自由擴(kuò)展特性，但是沒(méi)有更多的說(shuō)明。英特爾內(nèi)部模擬顯示，SIMD和SIMT的組合將在某些方面提供幫助：一些例子將只使用SIMT單位，因?yàn)檫@些標(biāo)準(zhǔn)的SIMT代碼沒(méi)有得到任何加速，比如雙調(diào)排序、月光光線(xiàn)追蹤以及矩陣乘法（一個(gè)巨大的矩陣乘法案例）。其他代碼則可以使用SIMD和SIMT組合來(lái)提高性能，比如矩陣轉(zhuǎn)置、Nbody、光線(xiàn)追蹤以及提升最明顯的FastWalsh等。

該圖表明，英特爾Xe的架構(gòu)對(duì)于完全針對(duì)SIMT優(yōu)化的代碼不需要額外的SIMD進(jìn)行優(yōu)化，并且后者將保持空閑狀態(tài)。對(duì)于某些依賴(lài)串行工作的代碼比如Nbody代碼，或者對(duì)于以不同方式編程的光線(xiàn)追蹤器，當(dāng)內(nèi)核需要執(zhí)行某些串行工作時(shí)，可以將這些線(xiàn)程轉(zhuǎn)移至硬件的SIM D/CPU部分進(jìn)行繼續(xù)執(zhí)行，并且不需要返回CPU-這對(duì)很多代碼加速非常重要。但是對(duì)于那些已經(jīng)針對(duì)矢量計(jì)算進(jìn)行充分優(yōu)化的加速代碼而言，SIMD單元的存在僅僅意味著浪費(fèi)晶體管，這是非常重要的。

Xe-HPC的執(zhí)行單元設(shè)計(jì)：驚鴻一瞥

英特爾展示了一部分Xe單元的內(nèi)部設(shè)計(jì)，但是沒(méi)有給出太多說(shuō)明和解釋。需要指出的是，英特爾給出的幻燈片是Xe-HPC的單元，這意味著Xe-LP和Xe-HP架構(gòu)可能和其極為相似，但是功能權(quán)重完全不同。英特爾同樣沒(méi)有說(shuō)明給出的信息是SIMD還是SIMT，但是根據(jù)幻燈片的情況來(lái)觀察，可能是SIMT單元。

熟悉架構(gòu)圖的讀者看到這樣的圖片，可能會(huì)覺(jué)得眼熟。實(shí)際上Xe-HPC展示的信息類(lèi)似于之前英特爾Gen架構(gòu)的升級(jí)版本。之前Gen架構(gòu)基于7路管道方案，每個(gè)EU具有7個(gè)線(xiàn)程。在Xe上，英特爾將每個(gè)EU升級(jí)到了8個(gè)管道，每個(gè)周期能夠并行處理8個(gè)線(xiàn)程，這一點(diǎn)在圖中顯示得很清楚，當(dāng)然前提是英特爾給出的架構(gòu)圖是真實(shí)的。

對(duì)于Xe架構(gòu)的EU單元內(nèi)部結(jié)構(gòu)，英特爾沒(méi)有給出任何信息，因此目前還不清楚英特爾對(duì)EU內(nèi)部做出了如何的改進(jìn)，每個(gè)不同的區(qū)塊都能執(zhí)行怎樣的計(jì)算。一些業(yè)內(nèi)人士猜測(cè)，EU單元內(nèi)部還是有一些特殊功能模塊，比如為AES指令或者內(nèi)存加載、存儲(chǔ)端口、本地緩存等功能設(shè)計(jì)的獨(dú)立模塊等。

另外一個(gè)出現(xiàn)在Xe-HPC上非常重要的改進(jìn)就是雙精度計(jì)算了，尤其是在高性能計(jì)算領(lǐng)域。對(duì)高性能計(jì)算用戶(hù)而言，雙精度目前已經(jīng)變得越來(lái)越重要。早期當(dāng)GPU編程和CUDA到來(lái)的時(shí)候，科研人員開(kāi)始大規(guī)模使用FP32，也就是單精度浮點(diǎn)。對(duì)當(dāng)時(shí)的大部分應(yīng)用來(lái)說(shuō)，單精度浮點(diǎn)速度快且能夠提供比較高的計(jì)算精度，是足夠的。不過(guò)隨著計(jì)算任務(wù)的變化，一些模擬類(lèi)和科學(xué)計(jì)算類(lèi)任務(wù)需要更高的精度才能更好地?cái)M合或者實(shí)現(xiàn)結(jié)果時(shí)，單精度就不夠用了，需要及時(shí)切換到雙精度也就是FP64。不過(guò)，雙精度帶來(lái)了更大的計(jì)算負(fù)荷，包括寄存器、緩存方面都存在更大的壓力。

英偉達(dá)對(duì)這個(gè)事情的解決方案是同時(shí)提供單精度和雙精度計(jì)算能力，但是后者將由額外的雙精度計(jì)算單元加強(qiáng)，兩者的計(jì)算能力比值為1：1或者1：2，后期也有1：3，當(dāng)然這樣的比值—般只針對(duì)計(jì)算卡和專(zhuān)業(yè)用戶(hù)。對(duì)民用用戶(hù)而言，英偉達(dá)的產(chǎn)品往往會(huì)刪除掉雙精度計(jì)算單元，從而只提供1：32的雙精度：?jiǎn)尉扔?jì)算能力比值。一般而言，這樣的做法是鼓勵(lì)對(duì)成本比較敏感的學(xué)生使用高性能技術(shù)的市場(chǎng)策略。如果真的需要高成本的雙精度進(jìn)行生產(chǎn)力計(jì)算，那么這些用戶(hù)終將會(huì)考慮購(gòu)買(mǎi)更高端的產(chǎn)品。

長(zhǎng)期以來(lái)，F(xiàn)P64-直在計(jì)算方面占據(jù)統(tǒng)治地位，帶來(lái)了高精度計(jì)算市場(chǎng)的繁榮。不過(guò)隨后AI計(jì)算的興起，又使得低精度計(jì)算市場(chǎng)進(jìn)一步發(fā)展壯大。AI計(jì)算更偏向于吞吐量，并且廣泛使用INT8、FP16這樣的低精度進(jìn)行訓(xùn)練計(jì)算。因此，現(xiàn)在有兩個(gè)方面的市場(chǎng)需要照顧：—方面是高精度、用于模擬器的FP64，使用場(chǎng)合是石油、天然氣、地質(zhì)學(xué)、天氣動(dòng)態(tài)、財(cái)務(wù)分析等;另一方面是低精度，AI訓(xùn)練主要使用BF16和FP16，AI推理則更為簡(jiǎn)單，INT8和FP16都能很好地完成任務(wù)。

對(duì)于雙精度計(jì)算，英特爾宣稱(chēng)Xe-HPC相比之前的產(chǎn)品能夠帶來(lái)40倍的性能提升，不過(guò)，英特爾沒(méi)有說(shuō)明是和誰(shuí)相比，如果和Gen架構(gòu)相比的話(huà)，那么這可能只是宣傳上的用語(yǔ)而已。

Xe-HP和Xe-LP規(guī)格概述：全面覆蓋

在民用級(jí)別GPU，也就是Xe-HP和Xe-LP的搭建上，很大一部分內(nèi)容和Xe-HPC的模塊相同，但是面對(duì)民用和圖形計(jì)算用戶(hù)，又需要專(zhuān)門(mén)的優(yōu)化。和Xe-HPC-樣，在Xe-HP和Xe-LP上，一個(gè)EU內(nèi)部依舊有8個(gè)計(jì)算管道，也可以被稱(chēng)為8個(gè)計(jì)算單元。現(xiàn)有資料顯示，英特爾將16個(gè)EU單元組成子片塊（sub-slice），一個(gè)子片塊內(nèi)擁有128個(gè)計(jì)算單元。接下來(lái)，6個(gè)或者4個(gè)子片塊將會(huì)進(jìn)一步結(jié)合成一個(gè)片塊（ Slice）。片塊是Xe GPU的最小可工作完整單位，根據(jù)子片塊的個(gè)數(shù)不同，單個(gè)片塊中擁有768個(gè)（6個(gè)子片塊）或者512個(gè)（4個(gè)子片塊）計(jì)算單元。一個(gè)Xe-LP核心可能只擁有一個(gè)容納了6個(gè)子片塊的片塊，總計(jì)768個(gè)計(jì)算單元。對(duì)于Xe-HP核心而言，英特爾展示的樣品擁有4個(gè)片塊，每個(gè)片塊包含4個(gè)子片塊，256個(gè)EU單元和總計(jì)2048個(gè)計(jì)算單元。

同時(shí)英特爾意外泄露的消息也證實(shí)了以上的推測(cè)，定位入門(mén)級(jí)的GPU DG1擁有6個(gè)子片塊，因此其大概擁有96個(gè)EU單元和768個(gè)計(jì)算單元。此外，前文所說(shuō)到的Xe-HPC產(chǎn)品中的一個(gè)型號(hào)規(guī)格也被泄露了出來(lái)，它擁有2個(gè)較小的片塊，每個(gè)片塊內(nèi)部有4個(gè)子片塊，因此其總計(jì)有128個(gè)EU單元和1024個(gè)計(jì)算單元。

除了上述內(nèi)容外，英特爾還給出了3款DG2產(chǎn)品的型號(hào)，分別是DG2H P128、DG2HP256和DG2HP512。女口果后三位數(shù)表示EU單元的數(shù)量的話(huà)，那么這三款GPU分別有1024、2560和4096個(gè)計(jì)算單元。這和英特爾之前宣稱(chēng)將挑戰(zhàn)600美元以上的GPU市場(chǎng)，以及成為印度人設(shè)計(jì)的最大GPU言論相符合。

不過(guò)也有一些證據(jù)顯示，英特爾還將推出具有3個(gè)片塊的產(chǎn)品，計(jì)算單元數(shù)量為1536。考慮到良率和市場(chǎng)區(qū)分等原因，可以合理推測(cè)出英特爾可能通過(guò)屏蔽不同的片塊來(lái)實(shí)現(xiàn)產(chǎn)品檔次的劃分或者良率的提升，這一點(diǎn)也正是英偉達(dá)和AMD在中高端GPU上常用的手段。因此英特爾通過(guò)屏蔽1個(gè)、2個(gè)或者3個(gè)片塊，能夠劃分出擁有2個(gè)到8個(gè)不同片塊的GPU產(chǎn)品。

另外在功能方面，英特爾之前的—篇公告宣布，英特爾Xe架構(gòu)路線(xiàn)圖將包含對(duì)英特爾渲染框架API和光線(xiàn)追蹤硬件加速的支持。英特爾沒(méi)有給出更多細(xì)節(jié)。但是硬件加速則說(shuō)明英特爾可能會(huì)在Xe架構(gòu)中加入光線(xiàn)追蹤相關(guān)的單元。不過(guò)英特爾的另外—篇博文也指出，英特爾在光線(xiàn)追蹤方面更傾向于“整體解決”，也就是同時(shí)使用CPU和GPU來(lái)完成計(jì)算。因此，雖然GPU有可能成為英特爾提高光線(xiàn)追蹤效能的主要手段，但是英特爾也不放棄采用傳統(tǒng)CPU來(lái)完成一部分光線(xiàn)追蹤任務(wù)。考慮到英特爾依1日是GPU產(chǎn)業(yè)界的新手，因此這樣的選擇無(wú)疑是正確的。

Xe M F：全新具有RAMBO CACHE的可擴(kuò)展存儲(chǔ)結(jié)構(gòu)

目前英特爾在Xe架構(gòu)的計(jì)算規(guī)模擴(kuò)充上顯得特別賣(mài)力，甚至可以擴(kuò)充至超過(guò)1000個(gè)EU單元。不過(guò)如果沒(méi)有一個(gè)很好的方法將數(shù)據(jù)移出或者移入計(jì)算核心，那么英特爾這所有的設(shè)計(jì)就沒(méi)有意義。在這一點(diǎn)上，英特爾宣布已經(jīng)設(shè)計(jì)了全新的存儲(chǔ)結(jié)構(gòu)，被稱(chēng)為Xe MF。請(qǐng)注意，這里的存儲(chǔ)結(jié)構(gòu)描述的是Xe-HPC版本，和未來(lái)民用的GPU版本可能存在很大差異。

根據(jù)英特爾資料，Xe MF有下列特點(diǎn)：首先，Xe MF和每個(gè)Xe-HPC計(jì)算單元有三個(gè)連接，和HBM通道只有1個(gè)連接。帶寬上形成了3：1的態(tài)勢(shì)，這可能是硅片外部數(shù)據(jù)傳輸?shù)南拗扑隆Ｆ浯危總€(gè)Xe-HPC的計(jì)算模塊可以直連且存在三個(gè)連接通道，不過(guò)，Xe-HPC的計(jì)算模塊只能和最近的2個(gè)計(jì)算模塊通訊。當(dāng)然，在圖中可能為了簡(jiǎn)化省去了不少信息。

第三：與此類(lèi)似，每個(gè)HBM通道可以和相鄰的兩個(gè)HBM通道進(jìn)行連接，無(wú)需經(jīng)過(guò)中間交換設(shè)備，如果這一切可能的話(huà)，那么這將是一個(gè)全新的設(shè)計(jì)方案。除了上述三點(diǎn)外，英特爾在Xe MF中最為獨(dú)特的一點(diǎn)是加入了一個(gè)名為RAMBO的緩存。RAMBO緩存的作用是為Xe的計(jì)算模塊提供大量的緩存空間，以供調(diào)用和存儲(chǔ)數(shù)據(jù)以備不時(shí)之需。英特爾還給出了一張圖片展示RAMBO緩存的作用，圖中數(shù)據(jù)顯示，RAMBO到計(jì)算模塊的帶寬比緩存到HBM的緩存部分大約有3：1的改進(jìn)，因此RAMBO緩存的重要用途在于為計(jì)算模塊提供更高的數(shù)據(jù)存取速度。英特爾的資料暗示RAMBO緩存在Xe MF芯片內(nèi)部，但是另—方面英特爾又說(shuō)Foveros技術(shù)可以用于RAMBO緩存，因此可能這個(gè)緩存分布在整個(gè)GPU中，為所有部分都提供數(shù)據(jù)緩沖服務(wù)。

為了展示Xe MF的性能優(yōu)勢(shì)，英特爾還給出了一個(gè)FP64矩陣的例子，但是沒(méi)有說(shuō)明是數(shù)據(jù)傳輸還是計(jì)算。在沒(méi)有RAMBO緩存的情況下，8x8的矩陣可以在峰值速度下計(jì)算，隨后可能會(huì)在64x64或者256x256矩陣后性能開(kāi)始下降，直到4096x4096矩陣計(jì)算，瓶頸全部轉(zhuǎn)移至數(shù)據(jù)存取部分。英特爾宣稱(chēng)，RAMBO介入后，即使在4096x4096矩陣計(jì)算的強(qiáng)度下，峰值性能（不青楚是傳輸還是計(jì)算）和8x8是—樣的，這有利于大量的仿真計(jì)算。

維琪奧橋：從架構(gòu)到實(shí)現(xiàn)

經(jīng)過(guò)上文對(duì)Xe-HPC架構(gòu)的概述和解讀，接下來(lái)本文將進(jìn)入具體的產(chǎn)品實(shí)踐部分。英特爾首個(gè)Xe-HPC架構(gòu)下的產(chǎn)品代號(hào)為Ponte Vecchio（簡(jiǎn)稱(chēng)為“PVC”），前文已經(jīng)有過(guò)介紹。

根據(jù)英特爾給出的展示圖來(lái)看，PVC和之前我們看到過(guò)的任何一款GPU都是不同的。PVC實(shí)際上包含了2個(gè)部分，每個(gè)部分有8個(gè)小型計(jì)算芯片，多個(gè)Xe MF芯片和HBM顯存。在進(jìn)一步介紹PVC的相關(guān)技術(shù)之前，我們先了解—下英特爾在多芯片封裝、堆疊技術(shù)方面的進(jìn)展。

目前的消息顯示，EMIB和Foveros技術(shù)都將使用在英特爾全新的GPU上，當(dāng)然，這兩個(gè)技術(shù)成本目前是比較高昂的。因此它可能會(huì)被最先使用在Xe-HPC這樣面向高端市場(chǎng)的產(chǎn)品中，PVC是第一個(gè)同時(shí)使用這兩個(gè)技術(shù)的產(chǎn)品。值得注意的是，EMIB技術(shù)和Foveros技術(shù)并不只是在GPU等產(chǎn)品上使用，英特爾計(jì)劃將其擴(kuò)展至CPU、FPGA、AI以及其他所有的設(shè)備之中。

在完整的PVC產(chǎn)品示意圖上，它擁有16個(gè)Xe-HPC小芯片和8個(gè)Xe MF芯片，這些芯片被分為2組，每組8個(gè)Xe-HPC芯片和4和Xe MF芯片，每—組都可以訪(fǎng)問(wèn)4個(gè)HBM堆棧，每個(gè)HBM堆棧都通過(guò)EMIB和10芯片連接。

從英特爾的官方幻燈片中可以看到，似乎8個(gè)Xe-HPC小芯片和4個(gè)Xe MF芯片被作為一個(gè)獨(dú)立完整的封裝進(jìn)行工作，并且下方實(shí)現(xiàn)了完整的BGA連接。實(shí)際上下方的中間層上還有一些芯片存在，并且也獲得了EMIB技術(shù)連接。此外，HBM和10芯片都被放置在底層進(jìn)行封裝。這意味著，英特爾在GPU部分就擁有三層封裝，如果每個(gè)Xe-HPC小芯片也是堆疊的話(huà)，那么總計(jì)會(huì)有四層封裝。

在本文中，我們認(rèn)為每個(gè)Xe-HPC小芯片都是堆疊的，采用了Foveros技術(shù)。現(xiàn)在的問(wèn)題在于英特爾將什么芯片堆疊在了一起？一種猜測(cè)是10和計(jì)算芯片，另一種猜測(cè)是將像Lakefield那樣的多個(gè)計(jì)算芯片進(jìn)行了堆疊。有一種不太合理的結(jié)論是，計(jì)算芯片和緩存堆疊在一起。但是需要特別注意的是，GPU傾向于在計(jì)算芯片邊上放置本地緩存，鑒于此也有人估計(jì)是兩個(gè)計(jì)算芯片進(jìn)行堆疊，一種可能是SIMD，另一種是SIMT，當(dāng)然，如果兩者相同并且采用模塊化設(shè)計(jì)的話(huà)，那么制造起來(lái)就容易很多。

此外，英特爾還在Xe-HPC的基板上放置了不少金屬墊片，這種墊片可以幫助不同的芯片矯正高度，這也是堆疊和多封裝所需要的必要技術(shù)。在芯片尺寸方面，目前看起來(lái)Xe-HPC小芯片f以乎比Xe MF芯片要小一些，可能后者包含了高速緩存，或者說(shuō)這兩款芯片的制造工藝節(jié)點(diǎn)完全不同。在功能方面，PVC支持所有內(nèi)存和緩存的ECC和奇偶校驗(yàn)，還納入了Xeon級(jí)別的RAS功能和被稱(chēng)為“現(xiàn)場(chǎng)修復(fù)（in-field repair）”的功能。

OneAPl：英特爾的軟件解決方案

在硬件設(shè)計(jì)完成后，軟件環(huán)境就顯得特別重要了。英特爾指出，在新的oneAPI計(jì)劃實(shí)施之前，英特爾整個(gè)公司內(nèi)部擁有200多個(gè)軟件開(kāi)發(fā)項(xiàng)目。oneAPI的用處在于能夠?qū)⑦@200多個(gè)不同角度、不同用途的軟件開(kāi)發(fā)項(xiàng)目放在一個(gè)API中，并為開(kāi)發(fā)人員提供一個(gè)單一的入口點(diǎn)，使得開(kāi)發(fā)人員可以自由訪(fǎng)問(wèn)CPU、GPU、FPGA和AI計(jì)算。

oneAPI有一個(gè)口號(hào)，叫做“notransistor left behind”，直譯是“沒(méi)有晶體管被忽視”，也就是“每個(gè)晶體管都有用”。實(shí)際上，oneAPI僅僅對(duì)英特爾的硬件有效，對(duì)其他廠(chǎng)商的產(chǎn)品沒(méi)有太多用處，因此此處應(yīng)該改為“no inteltransistor left behind”。

對(duì)英特爾這樣龐大的公司來(lái)說(shuō)，單個(gè)入口點(diǎn)無(wú)法面對(duì)所有開(kāi)發(fā)人員的工作。英特爾也知道這一點(diǎn)。因此oneAPI的意義在于統(tǒng)一軟件堆棧，這樣使用高級(jí)語(yǔ)言的程序員就可以在不考慮硬件的情況下做自己喜歡做的事情，而想要在最低級(jí)別對(duì)特定硬件進(jìn)行微優(yōu)化，使用低級(jí)語(yǔ)言的程序員也可以做到這一點(diǎn)。

oneAPI給出了新的架構(gòu)介紹。oneAPI所有的內(nèi)容都將通過(guò)oneAPI堆棧進(jìn)行驅(qū)動(dòng)，堆棧的底層是硬件，頂部是工作負(fù)載。英特爾將在這五個(gè)領(lǐng)域內(nèi)解決軟件開(kāi)發(fā)的問(wèn)題。在系統(tǒng)編程部分，英特爾展示了調(diào)度程序管理、對(duì)等通信、設(shè)備和內(nèi)存管理、跟蹤和調(diào)試工具等內(nèi)容。

對(duì)于編程語(yǔ)言而言，英特爾依賴(lài)于分布式并行C++標(biāo)準(zhǔn)或者DPC++，后者是C++和SYCL的組合，由英特爾負(fù)責(zé)維護(hù)。英特爾還計(jì)劃構(gòu)建具有OpenMP編譯器的Fortran和具有OpenMP編譯器的C++，以及也可以和oneAPI其余部分一起使用的Python分發(fā)網(wǎng)絡(luò)。在庫(kù)文件方面，英特爾也準(zhǔn)備好讓那些非常受歡迎的工作負(fù)載加入庫(kù)，類(lèi)似的還有英特爾Math Kernel Library（MKL）庫(kù)或MPI庫(kù)。

另外，英特爾要面對(duì)的一大問(wèn)題就是遷移工具。英特爾希望有工具能夠?qū)⒅С諧UDA的程序轉(zhuǎn)為支持英特爾硬件，之前Raja Koduri在AMD的HIP產(chǎn)品上已經(jīng)嘗試可以做到這一點(diǎn)。HIP工具在某些情況下表現(xiàn)很出色，但是在絕大部分情況下還需要手動(dòng)調(diào)整代碼使得部分CUDA代碼能夠在AMD硬件上運(yùn)行。Raja表示，在CUDA向AMD轉(zhuǎn)移時(shí)，問(wèn)題在于遇到的是在寬矢量機(jī)制下編寫(xiě)的代碼轉(zhuǎn)移至窄矢量機(jī)制，但是在Xe上并不存在這一點(diǎn)，因?yàn)橛⑻貭柌捎昧丝勺兪噶繉挾龋虼薿neAPI遇到的問(wèn)題可能比較少。

首個(gè)Xe-HPC架構(gòu)的超算——Aurora

前文我們也提到了美國(guó)能源部和阿貢國(guó)家實(shí)驗(yàn)室的Aurora超算，這臺(tái)超算預(yù)計(jì)2021年交付。不過(guò)之前這臺(tái)超算預(yù)計(jì)是2020年交付，圍繞英特爾的Xeon Phi平臺(tái)構(gòu)建。雖然后來(lái)英特爾停止了Xeon Phi產(chǎn)品線(xiàn)，但是又帶來(lái)了Xe，因此目前英特爾宣稱(chēng)Aurora將由Xeon和Xe-HPC聯(lián)合組建。

Aurora超算的每個(gè)節(jié)點(diǎn)將由2個(gè)Xeon處理器和6個(gè)Xe-HPC GPU組成。由于發(fā)布時(shí)間還比較早，因此Aurora超算的處理器采用的是代號(hào)為SapphireRapids的全新Xeon處理器。SapphireRapids處理器將使用lOnm工藝制造，具有8個(gè)內(nèi)存通道，可能支持DDR5和PCle 5.0，是英特爾首款支持全新CXL標(biāo)準(zhǔn)的企業(yè)級(jí)CPU。

在GPU上，英特爾拿出的是PVC，從產(chǎn)品圖上來(lái)看，這些專(zhuān)門(mén)為超算定制的GPU顯然不會(huì)使用PCle接口，可能是OAM或者SXM2，或者當(dāng)時(shí)更新的標(biāo)準(zhǔn)。每個(gè)GPU都可以通過(guò)CXL直接相互通訊。英特爾給出了一顆命名為XeLink的全新芯片，這顆芯片將管理6個(gè)GPU之間的通訊，另外還可以實(shí)現(xiàn)統(tǒng)一的內(nèi)存管理，Xe Link也基于CXL技術(shù)實(shí)現(xiàn)。英特爾在預(yù)告超算的架構(gòu)的同時(shí)，也順便宣布PVC將采用全新的7nm工藝制造。

Aurora的每個(gè)節(jié)點(diǎn)將包括8個(gè)結(jié)構(gòu)端點(diǎn)，大概有200個(gè)機(jī)架，總計(jì)10PB的內(nèi)存和230PB的存儲(chǔ)空間。從這些數(shù)據(jù)推測(cè)的話(huà)，整個(gè)Aurora大概只使用5000個(gè)新的Xeon處理器和15000個(gè)PVC GPU產(chǎn)品。如果Aurora確實(shí)是百億億級(jí)別的產(chǎn)品，考慮到CPU提供的計(jì)算性能很有限，因此假設(shè)忽視CPU的算力，只利用GPU進(jìn)行計(jì)算的話(huà)，百億億次計(jì)算能力除以15000個(gè)GPU，這樣每個(gè)GPU的平均計(jì)算性能將在66.6TFLOPS左右。相比之下，英偉達(dá)目前最接近的圖靈架構(gòu)大概最多能提供14TFLOPS的FP32計(jì)算能力，因此英特爾要做的是在2021年到2022年將GPU的計(jì)算能力提高至現(xiàn)有產(chǎn)品的5倍。當(dāng)然對(duì)超算來(lái)說(shuō)，功耗暫時(shí)可以被放在一邊。更悲觀一些的算法是，由于采用了4U機(jī)架，因此只能放置7500個(gè)GPU，所以單個(gè)GPU的計(jì)算能力需要達(dá)到135TFLOPS，大約是現(xiàn)在處理器的10倍，難度就更大了。

目標(biāo)：覆蓋所有計(jì)算市場(chǎng)

從性能來(lái)看，合理的推測(cè)是英特爾在2021年底到2022年初將獲得現(xiàn)有頂級(jí)GPU 5倍計(jì)算性能的產(chǎn)品，其余的一些細(xì)節(jié)包括總線(xiàn)、擴(kuò)展性、單個(gè)芯片實(shí)現(xiàn)方式以及軟件等方面，本文都做出了一定的解釋。不過(guò)目前Xe尚未發(fā)布，大量資料尚未解密，因此本文的內(nèi)容可能和實(shí)際產(chǎn)品存在較大差異甚至錯(cuò)誤，建議大家以實(shí)際產(chǎn)品和本刊后續(xù)介紹的內(nèi)容為主。

回顧了英特爾的過(guò)去、了解了英特爾在計(jì)算上的野心和具體的產(chǎn)品情況，目前英特爾在Xe和相關(guān)產(chǎn)品上想做什么就很明確了。英特爾希望能擴(kuò)大產(chǎn)品覆蓋的計(jì)算市場(chǎng)的范圍，簡(jiǎn)單來(lái)說(shuō)，標(biāo)量、矢量、矩陣和空間四大計(jì)算中，英特爾在其他三個(gè)方面都做得很好，唯獨(dú)缺少了矢量加速，或者說(shuō)沒(méi)有強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手。當(dāng)然，英特爾本身在CPU上足夠出色，依靠財(cái)務(wù)手段和市場(chǎng)操作收購(gòu)了FPGA和AI計(jì)算廠(chǎng)商，形成了自己計(jì)算產(chǎn)業(yè)的三條支柱，現(xiàn)在最后一個(gè)支柱也就是矢量計(jì)算也將被英特爾補(bǔ)上，這樣一個(gè)覆蓋了幾乎所有計(jì)算場(chǎng)合的英特爾，才是一個(gè)計(jì)算產(chǎn)業(yè)領(lǐng)軍人物的完全體。利用四個(gè)計(jì)算產(chǎn)業(yè)的互相配合和支持，英特爾有望進(jìn)一步打造一個(gè)統(tǒng)一的產(chǎn)業(yè)鏈，在計(jì)算產(chǎn)業(yè)上實(shí)現(xiàn)“贏者通吃”。至于GPU和顯卡，目前看起來(lái)只是英特爾在計(jì)算產(chǎn)業(yè)發(fā)展路線(xiàn)執(zhí)行上的自然產(chǎn)物。對(duì)四大計(jì)算產(chǎn)業(yè)來(lái)說(shuō)，任何一個(gè)做好，都將面對(duì)萬(wàn)億級(jí)別的市場(chǎng)，但是英特爾希望自己在四個(gè)領(lǐng)域都占有一席之地，這樣龐大的格局和野心，也只有英特爾才能如此豪氣又理所當(dāng)然地展示出來(lái)，并有能力向著目標(biāo)前進(jìn)。