999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

重回顯卡市場(chǎng),還是另有所圖?英特爾Xe CPU架構(gòu)初探

2020-04-14 04:41:41張平
微型計(jì)算機(jī) 2020年4期
關(guān)鍵詞:產(chǎn)品

張平

當(dāng)英特爾在2018年宣布自己將研發(fā)高性能獨(dú)立GPU時(shí),人們不禁紛紛猜測(cè),在高性能獨(dú)立GPU市場(chǎng).上屢次折戟的英特爾,這一次是否會(huì)真的成功?除此之外,英特爾重新研發(fā)高性能獨(dú)立GPU是否還瞄準(zhǔn)了其他的市場(chǎng)?在經(jīng)過(guò)了一年多的等待后,英特爾在2020年的CES上公布了全新的Xe GPU,并且開(kāi)始瞄準(zhǔn)目標(biāo)市場(chǎng)進(jìn)行研究和推廣。那么英特爾的Xe GPU究竟帶來(lái)了哪些改變和新特性,又有哪些不同?

在2018年的最后一天,英特爾宣布了自己即將在2020年回歸高性能獨(dú)立GPU市場(chǎng)。而在2019年年底和今年初的CES上,英特爾又先后發(fā)布了不少的消息。其中,大部分的消息來(lái)源于英特爾和美國(guó)能源部簽訂的合同,即在阿貢國(guó)家實(shí)驗(yàn)室建造百億億級(jí)別超級(jí)計(jì)算機(jī)Aurora。美國(guó)能源部和阿貢國(guó)家實(shí)驗(yàn)室希望開(kāi)發(fā)人員能夠盡早地了解目關(guān)硬件信息,以便能夠在超級(jí)計(jì)算機(jī)搭建完成后在盡可能短的時(shí)間內(nèi)開(kāi)始工作,并盡可能高效率地利用算力。因此,在超級(jí)計(jì)算機(jī)尚未完成之前,英特爾就必須公開(kāi)一部分研發(fā)資料和硬件信息。

現(xiàn)在,英特爾公布了很多有關(guān)XeGPU的信息,比如其研發(fā)代號(hào),PonteVecchio-即維琪奧橋,這座橋梁始建于1345年,是意大利佛羅倫薩最古老的橋梁。采用這個(gè)代號(hào)的原因是英特爾Xe項(xiàng)目的首席架構(gòu)師Raja Koduri喜歡吃這座橋附近一家冰淇淋店的冰淇淋,因此就這么簡(jiǎn)單粗暴了。

“老玩家”的新任務(wù)——英特爾GPU研發(fā)歷史

英特爾實(shí)際上是GPU業(yè)界的“老玩家”,并且是全球GPU市場(chǎng)占有率第一的企業(yè)。不過(guò),英特爾這樣的業(yè)績(jī)往往來(lái)自于嵌入式和集成式圖形計(jì)算解決方案。比如目前我們所熟知的“核芯顯卡”,將GPU計(jì)算部分和CPU集成在一起并一起銷(xiāo)售,大幅度提高了自已產(chǎn)品的市場(chǎng)占有率。

回顧歷史,英特爾首次開(kāi)發(fā)獨(dú)立GPU的嘗試是在1998年2月12日。這一天英特爾發(fā)布了旗下首款獨(dú)立GPU產(chǎn)品——英特爾i740 AGP顯卡。這款產(chǎn)品最主要的貢獻(xiàn)在于推廣了AGP接口。其實(shí)際效能和功能設(shè)置則表現(xiàn)一般,在各項(xiàng)測(cè)試中都落后于市場(chǎng)上競(jìng)爭(zhēng)對(duì)手的方案,比如Voodo0 2以及英偉達(dá)的RIVA TNT。1999年8月,英特爾宣布i740徹底退市。

在i740徹底下市之前,英特爾還研發(fā)了i752和i754,不過(guò)前者發(fā)布后沒(méi)多久就宣布撤回,后者甚至沒(méi)有正式發(fā)布,性能方面i752相比i740提高得很有限。隨后,英特爾宣布這兩款GPU的內(nèi)核將被直接用在.810和i815的芯片組中,成為集成顯卡的核心。在2000年9月,英特爾最后一款在研的GPU架構(gòu)Ca pitola也被宣布取消,英特爾首次GPU研發(fā)計(jì)劃徹底終止。

英特爾第二次計(jì)劃研發(fā)高性能獨(dú)立GPU則是在2009年,這一年,英特爾宣布了新的Larrabee計(jì)劃。Larrabee的本質(zhì)是基于x86架構(gòu)的圖形處理器,英特爾試圖使用和英特爾CPU相同代碼路徑的寬矢量引擎來(lái)打造一款擁有高端圖形性能的GPU產(chǎn)品,并且這款產(chǎn)品還可以在標(biāo)準(zhǔn)CPU代碼中進(jìn)行編程處理。在發(fā)布后不久,Larrabee就進(jìn)行了一些圖形演示。不過(guò)在2010年英特爾又宣布這款產(chǎn)品最終不會(huì)用于民用圖形市場(chǎng),而是進(jìn)入了高性能計(jì)算市場(chǎng)。開(kāi)發(fā)人員發(fā)現(xiàn),英特爾Larrabee的產(chǎn)品可以很好地執(zhí)行5組512位寬的矢量計(jì)算,這最終帶來(lái)了AVX-512指令集,這個(gè)指令集目前存在并將持續(xù)存在于英特爾的至強(qiáng)可擴(kuò)展系列高性能處理器、部分消費(fèi)級(jí)處理器中。Larrabee隨后被賦予了一個(gè)產(chǎn)品名,那就是“XeonPhi”。Xeon Phi在大量的超級(jí)計(jì)算機(jī)中出現(xiàn),還拿下了不少大獎(jiǎng)。不過(guò)XeonPhi只持續(xù)了幾代,最后一代“KnightsHill”并未實(shí)際部署就結(jié)束了整個(gè)系列的壽命。

英特爾可能在很早之前就已經(jīng)放棄了Larrabee或者類(lèi)似的產(chǎn)品進(jìn)入普通民用圖形市場(chǎng)。在Larrabee之后,英特爾的研發(fā)層進(jìn)行了一些調(diào)整,高管們又重新拾起了對(duì)傳統(tǒng)類(lèi)型GPU的興趣,并再次決定進(jìn)入高性能獨(dú)立GPU市場(chǎng)。新的項(xiàng)目大約在三年前啟動(dòng),但是英特爾的官方消息和正式宣布日期應(yīng)該是始于英特爾在2017年12月聘請(qǐng)AMD首席圖形設(shè)計(jì)師Raja Koduri以及著名的SoC專(zhuān)家Jim Keller。Raja Koduri本身的資歷極其深厚,他先后在AMD和蘋(píng)果擁有超過(guò)20年的圖形解決方案經(jīng)驗(yàn),因此英特爾授予其首席架構(gòu)師的職位,這也顯示了英特爾對(duì)新的高性能獨(dú)立GPU項(xiàng)目的重視程度。

從2017年12月開(kāi)始到現(xiàn)在,英特爾都在努力加強(qiáng)自己在GPU研發(fā)上的實(shí)力。在此期間,英特爾也動(dòng)用大量手段從競(jìng)爭(zhēng)對(duì)手AMD以及其他廠(chǎng)商那里廣泛挖人,僅僅AMD跳轉(zhuǎn)英特爾的高級(jí)人才就包括AMD營(yíng)銷(xiāo)總監(jiān)ChrisHook、AMD顯卡技術(shù)市場(chǎng)總監(jiān)DamienTriolet、AMD顯卡高級(jí)市場(chǎng)總監(jiān)DarrenMcPhee、AMD視覺(jué)技術(shù)副總裁/多倫多地區(qū)副總裁Ari Rauch等人,尤其是Ari Rauch還幫助英特爾建立了新的營(yíng)銷(xiāo)數(shù)據(jù)和分析師團(tuán)隊(duì)。

終于,英特爾在2018年12月的架構(gòu)日上披露,全新的GPU家族即將到來(lái)。英特爾將提供一個(gè)全新的圖形解決方案,從上到下覆蓋所有市場(chǎng),不論是低功耗還是高性能平臺(tái),甚至連集成顯卡也不會(huì)遺漏。當(dāng)時(shí)英特爾表示主要有2個(gè)GPU微架構(gòu),全部基于Xe體系結(jié)構(gòu)建立。Xe的意思是“每個(gè)人的eXascale(百億億級(jí))”,英特爾希望高效能和高效率的新架構(gòu)能夠滿(mǎn)足任何市場(chǎng)。

現(xiàn)在,英特爾進(jìn)一步披露了全新架構(gòu)的消息,絕大部分內(nèi)容來(lái)自于英特爾、美國(guó)能源部和阿貢國(guó)家實(shí)驗(yàn)室,大量的產(chǎn)品內(nèi)容和技術(shù)消息是面向HPC也就是高性能計(jì)算的。雖然迄今為止還是不清楚英特爾在民用級(jí)別的GPU上打算如何做,但是我們可以根據(jù)現(xiàn)有的消息管中窺豹,對(duì)英特爾新的Xe架構(gòu)和未來(lái)的GPU計(jì)劃進(jìn)行一個(gè)預(yù)覽。

英特爾的百億億次計(jì)劃

在介紹有關(guān)Xe產(chǎn)品的相關(guān)架構(gòu)之前,有一個(gè)疑惑需要進(jìn)一步闡述。闡述清楚這個(gè)問(wèn)題,有助于更加深入地認(rèn)識(shí)英特爾為什么執(zhí)著于GPU這一類(lèi)超大規(guī)模并行計(jì)算架構(gòu),而不是持續(xù)加強(qiáng)CPU或者其他什么產(chǎn)品。

英特爾在之前就表示,人們對(duì)更快、更節(jié)能的計(jì)算設(shè)備擁有“永不滿(mǎn)足”的需求。不僅如此,現(xiàn)有計(jì)算規(guī)模還需要進(jìn)一步擴(kuò)大,下一個(gè)目標(biāo)是達(dá)到百億億級(jí)別,也就是10的18次方級(jí)別,也被稱(chēng)作Exascale Flops或者E級(jí)超算。相比之下,目前人類(lèi)掌握的最強(qiáng)大的超級(jí)計(jì)算機(jī)的計(jì)算能力大概是Petaflops,也就是10的15次方級(jí)別,千萬(wàn)億次,被稱(chēng)為P級(jí)超算,和E級(jí)超算差了三個(gè)數(shù)量級(jí)。目前超算排行榜第一的IBM Summit,計(jì)算能力大概為148 Petaflops,離E級(jí)超算還有大約10倍的差距。英特爾將2020年以及以后定義為“百億億次”時(shí)代,并且宣稱(chēng)這個(gè)時(shí)代,沒(méi)有任何計(jì)算能力可以滿(mǎn)足前沿研究計(jì)算的需求。

更重要的是,英特爾指出,目前市場(chǎng)上已連接設(shè)備的數(shù)量還在快速增加。幾年前,分析師預(yù)測(cè)2020年到2023年大概有500億的IoT設(shè)備(50B),英特爾在演講中表示,到2020年代中期以及以后,將有超過(guò)1000億個(gè)設(shè)備需要某種形式的智能計(jì)算。無(wú)論是訓(xùn)練端還是推理端,實(shí)現(xiàn)AI計(jì)算都意味著性能和計(jì)算將無(wú)處不在,這種計(jì)算將超越網(wǎng)絡(luò)、超越移動(dòng)設(shè)備、超越云端。這種龐大的計(jì)算市場(chǎng)規(guī)模,是英特爾對(duì)未來(lái)的一種愿景和期望。

為了進(jìn)一步實(shí)現(xiàn)這種遠(yuǎn)景,英特爾將計(jì)算分為四個(gè)特定的類(lèi)別,分別是標(biāo)量、矢量、矩陣和空間。標(biāo)量計(jì)算是絕大部分系統(tǒng)運(yùn)行的日常標(biāo)準(zhǔn)計(jì)算,向量計(jì)算正在轉(zhuǎn)向并行指令計(jì)算。矩陣計(jì)算或者張量計(jì)算是當(dāng)前的熱門(mén)話(huà)題,張量?jī)?nèi)核和AI芯片之類(lèi)的產(chǎn)品都可以?xún)?yōu)化矩陣吞吐量。空間計(jì)算則由FPGA完成,這也是FPGA'市場(chǎng)延伸出來(lái)、一種非常復(fù)雜的稀疏計(jì)算(一般是指針對(duì)稀疏矩陣的計(jì)算,所謂稀疏矩陣,是指矩陣中數(shù)值為O的元素?cái)?shù)目遠(yuǎn)遠(yuǎn)多于非O元素的數(shù)目,并且非O元素分布沒(méi)有規(guī)律的一種矩陣類(lèi)型,與之相反還有周密矩陣。稀疏矩陣被廣泛使用在諸如流體力學(xué)、統(tǒng)計(jì)物理、電路模擬以及圖像處理、納米材料等計(jì)算中)。對(duì)于這種計(jì)算,F(xiàn)PGA可以使用其非標(biāo)計(jì)算引擎進(jìn)行優(yōu)化,然后加速解決。顯然,英特爾的目標(biāo)是覆蓋所有的計(jì)算場(chǎng)合,包括標(biāo)量CPU、矢量GPU、矩陣AI以及空間FPGA。

CPU可以執(zhí)行任何類(lèi)型的計(jì)算,唯一的問(wèn)題在于效率,無(wú)論是計(jì)算效率還是電源效率。比如CPU轉(zhuǎn)移到FPGA時(shí),硬件上越來(lái)越專(zhuān)業(yè)化,但是自由度大幅度降低。此外,諸如GPU、AI和FPGA這樣的產(chǎn)品,其軟硬件的專(zhuān)業(yè)化和更高的使用難度提高了用戶(hù)的門(mén)檻。這意味著較高的使用成本和學(xué)習(xí)成本。鑒于此,英特爾對(duì)不同的計(jì)算推出了oneAPI計(jì)劃,后文還有進(jìn)一步的介紹。

聚焦到Xe上,英特爾宣稱(chēng)Xe架構(gòu)將是所有GPU硬件的基礎(chǔ)。Xe對(duì)當(dāng)前圖形架構(gòu)進(jìn)行了全新設(shè)計(jì),并吸收了之前英特爾在Larrabee、Atom、酷睿甚至安騰系列產(chǎn)品中掌握的經(jīng)驗(yàn)。英特爾之前已經(jīng)宣布自己拿到了全新的Xe芯片硅片,并進(jìn)行了諸如電源循環(huán)和基本功能測(cè)試。

有關(guān)Xe的性能,英特爾在一張幻燈片中展示了其雄心勃勃的計(jì)劃:?jiǎn)蝹€(gè)服務(wù)器計(jì)算節(jié)點(diǎn)的性能。2021年在Xe架構(gòu)的輔助下,將是2019年傳統(tǒng)節(jié)點(diǎn)的500倍。值得注意的是,英特爾在這里并沒(méi)有指出相關(guān)的對(duì)比參數(shù)。考慮到英特爾在數(shù)據(jù)對(duì)比中,可能使用2019年單個(gè)6核心的Xeon Bronze,以標(biāo)量模式運(yùn)行矢量代碼,并對(duì)比2021年具有六個(gè)Xe GPU優(yōu)化的雙路處理器系統(tǒng),因此結(jié)果存在很大的不確定性。

Xe系列產(chǎn)品概述

在HPC DevCon公開(kāi)Xe相關(guān)信息之前,英特爾曾表示,旗下Xe產(chǎn)品即Xe架構(gòu),將從集成顯卡—直延伸至中端圖形市場(chǎng)、企業(yè)級(jí)圖形市場(chǎng)以及數(shù)據(jù)中心、AI加速、虛擬化等現(xiàn)在所有的主流應(yīng)用場(chǎng)景和功能。在入門(mén)級(jí)市場(chǎng)也就是Xe-LP,其用戶(hù)期望性能大約能夠達(dá)到TeraFLOPS,在企業(yè)級(jí)市場(chǎng)也就是Xe-HP,這個(gè)性能會(huì)提升至PetaFLOPS,所有的用戶(hù)所對(duì)應(yīng)的產(chǎn)品都會(huì)分布在這個(gè)性能差距為1000倍的區(qū)間之內(nèi)。

之前英特爾宣稱(chēng)在整個(gè)范圍內(nèi)會(huì)有兩個(gè)版本的Xe產(chǎn)品,不過(guò)新的消息顯示,Xe將有第三款產(chǎn)品出現(xiàn),并且其名稱(chēng)似乎指出了相關(guān)的定位和差異性。

在入門(mén)級(jí)產(chǎn)品中,英特爾將使用Xe-LP核心,LP表示Low Power也就是低功耗。這個(gè)核心將覆蓋所有的集成圖形解決方案。英特爾宣稱(chēng)Xe-LP產(chǎn)品的功耗定位為20W,但是這個(gè)設(shè)計(jì)是可擴(kuò)展的,最多可以擴(kuò)展至50W,不過(guò)在這個(gè)功耗下能耗效率會(huì)有所降低,目前暫時(shí)沒(méi)有推出50W Xe-LP產(chǎn)品的計(jì)劃。通過(guò)這種方式,英特爾有可能在傳統(tǒng)45W的高性能移動(dòng)處理器中使用Xe-LP架構(gòu),并且可能出現(xiàn)在SoC形式的臺(tái)式機(jī)處理器中。這樣一來(lái),Xe-LP的主要設(shè)計(jì)目標(biāo)就是移動(dòng)和集成核芯顯卡,并且不太可能以獨(dú)立顯卡的方式提供。

對(duì)于中端用戶(hù)、發(fā)燒友或者數(shù)據(jù)中心,英特爾拿出的是Xe-HP核心,HP是High Performance的意思。這個(gè)版本的核心將是英特爾獨(dú)立顯卡的基礎(chǔ),能夠支持50W-250W或者更高功率的產(chǎn)品。考慮到獨(dú)立顯卡的重要性,英特爾不得不為這類(lèi)產(chǎn)品提供全面的軟硬件支持,包括Day-0驅(qū)動(dòng)等產(chǎn)品。目前英特爾尚未公布有關(guān)Xe-HP核心的消息,但是據(jù)估計(jì)英特爾應(yīng)該在2020年某個(gè)時(shí)候宣布這個(gè)產(chǎn)品線(xiàn)的具體信息。

第三個(gè)也就是之前未公開(kāi)的一個(gè)全新的產(chǎn)品系列:Xe-HPC,HPC是高性能計(jì)算的意思。Xe-HPC將作為Xe-LP和Xe-HP的變體,將重點(diǎn)放在提高原始吞吐量上,這也是高性能計(jì)算最關(guān)注的點(diǎn)。Xe-HPC可以從Xe-LP的最高層—直擴(kuò)展至整個(gè)Xe-HP,甚至超越Xe-HP。由于使用Xe-HPC的超級(jí)計(jì)算機(jī)部署會(huì)比普通的PC或者服務(wù)器擁有更好的適配,能容納高功耗產(chǎn)品,因此Xe-HPC的相關(guān)功耗設(shè)定可能會(huì)高達(dá)400W甚至更高,實(shí)際上現(xiàn)在已經(jīng)有TDP高達(dá)500W的PCle產(chǎn)品出現(xiàn)了因此這—點(diǎn)是完全可行的。

Ke系列架構(gòu)概述

每一個(gè)GPU設(shè)計(jì)基本上都是建立在其矢量寬度上,GPU在本質(zhì)上可以看作一個(gè)矢量處理機(jī)器,因此必須能夠提供超寬矢量的高效率計(jì)算,同時(shí)也允許微小矢量并行處理。矢量寬度的一個(gè)重要決定性因素就是圖形計(jì)算本身:處理器被要求在正確的時(shí)間內(nèi)使用矢量計(jì)算一定數(shù)量的像素,處理來(lái)自?xún)?nèi)存中不同位置的數(shù)據(jù),甚至處理不同內(nèi)核提交的不同數(shù)據(jù)集。

矢量寬度還定義了很多軟件和相應(yīng)的優(yōu)化。作為公開(kāi)內(nèi)容的一部分,英特爾稱(chēng)經(jīng)過(guò)研究后發(fā)現(xiàn),試圖把一個(gè)較大矢量寬度構(gòu)建的代碼轉(zhuǎn)換較小的矢量寬度,實(shí)際上極為困難。因此Xe架構(gòu)在矢量寬度上選擇了可變矢量寬度的模式。

Xe架構(gòu)包含了兩個(gè)基本單位,SIMT和SIMD。本質(zhì)上SIMD也就是單指令多數(shù)據(jù)類(lèi)似于CPU,可以在具有多個(gè)數(shù)據(jù)源的單個(gè)元素上執(zhí)行。而SIMT也就是單指令多線(xiàn)程涉及到在數(shù)據(jù)塊上使用相同的指令,并作為整個(gè)“矢量”處理的一部分。在實(shí)際操作中,可以按照正確的順序使用多個(gè)SIMT和SIMD模塊構(gòu)建Xe架構(gòu),以精確處理不同細(xì)分市場(chǎng)的工作任務(wù),也就是所謂的“樂(lè)高”風(fēng)格——搭建符合需求的積木模塊。

英特爾表示,和SIMT和SIMD-樣,新架構(gòu)中的每一個(gè)部分都可以協(xié)同工作以實(shí)現(xiàn)最高性能的模式。如果可能的話(huà),這聽(tīng)起來(lái)似乎像是將潛在的SIMT命令擴(kuò)展至SIMD單元上。英特爾同時(shí)也表示,每個(gè)單元的設(shè)計(jì)都是可擴(kuò)展的(為了達(dá)到萬(wàn)億級(jí))。在這種情況下,英特爾非常熱衷于在HPC市場(chǎng)推廣Xe架構(gòu),因?yàn)檫@種架構(gòu)的SIMT和SIMD單元可以輕松擴(kuò)展至數(shù)干個(gè)以上,帶來(lái)強(qiáng)大的并行計(jì)算能力。

英特爾展示了一個(gè)Xe的擴(kuò)展網(wǎng)絡(luò)。在這個(gè)擴(kuò)展網(wǎng)絡(luò)中,Xe被擴(kuò)展至8x8網(wǎng)格,點(diǎn)擴(kuò)展則為14xll網(wǎng)格。英特爾似乎想展示Xe的自由擴(kuò)展特性,但是沒(méi)有更多的說(shuō)明。英特爾內(nèi)部模擬顯示,SIMD和SIMT的組合將在某些方面提供幫助:一些例子將只使用SIMT單位,因?yàn)檫@些標(biāo)準(zhǔn)的SIMT代碼沒(méi)有得到任何加速,比如雙調(diào)排序、月光光線(xiàn)追蹤以及矩陣乘法(一個(gè)巨大的矩陣乘法案例)。其他代碼則可以使用SIMD和SIMT組合來(lái)提高性能,比如矩陣轉(zhuǎn)置、Nbody、光線(xiàn)追蹤以及提升最明顯的FastWalsh等。

該圖表明,英特爾Xe的架構(gòu)對(duì)于完全針對(duì)SIMT優(yōu)化的代碼不需要額外的SIMD進(jìn)行優(yōu)化,并且后者將保持空閑狀態(tài)。對(duì)于某些依賴(lài)串行工作的代碼比如Nbody代碼,或者對(duì)于以不同方式編程的光線(xiàn)追蹤器,當(dāng)內(nèi)核需要執(zhí)行某些串行工作時(shí),可以將這些線(xiàn)程轉(zhuǎn)移至硬件的SIM D/CPU部分進(jìn)行繼續(xù)執(zhí)行,并且不需要返回CPU-這對(duì)很多代碼加速非常重要。但是對(duì)于那些已經(jīng)針對(duì)矢量計(jì)算進(jìn)行充分優(yōu)化的加速代碼而言,SIMD單元的存在僅僅意味著浪費(fèi)晶體管,這是非常重要的。

Xe-HPC的執(zhí)行單元設(shè)計(jì):驚鴻一瞥

英特爾展示了一部分Xe單元的內(nèi)部設(shè)計(jì),但是沒(méi)有給出太多說(shuō)明和解釋。需要指出的是,英特爾給出的幻燈片是Xe-HPC的單元,這意味著Xe-LP和Xe-HP架構(gòu)可能和其極為相似,但是功能權(quán)重完全不同。英特爾同樣沒(méi)有說(shuō)明給出的信息是SIMD還是SIMT,但是根據(jù)幻燈片的情況來(lái)觀察,可能是SIMT單元。

熟悉架構(gòu)圖的讀者看到這樣的圖片,可能會(huì)覺(jué)得眼熟。實(shí)際上Xe-HPC展示的信息類(lèi)似于之前英特爾Gen架構(gòu)的升級(jí)版本。之前Gen架構(gòu)基于7路管道方案,每個(gè)EU具有7個(gè)線(xiàn)程。在Xe上,英特爾將每個(gè)EU升級(jí)到了8個(gè)管道,每個(gè)周期能夠并行處理8個(gè)線(xiàn)程,這一點(diǎn)在圖中顯示得很清楚,當(dāng)然前提是英特爾給出的架構(gòu)圖是真實(shí)的。

對(duì)于Xe架構(gòu)的EU單元內(nèi)部結(jié)構(gòu),英特爾沒(méi)有給出任何信息,因此目前還不清楚英特爾對(duì)EU內(nèi)部做出了如何的改進(jìn),每個(gè)不同的區(qū)塊都能執(zhí)行怎樣的計(jì)算。一些業(yè)內(nèi)人士猜測(cè),EU單元內(nèi)部還是有一些特殊功能模塊,比如為AES指令或者內(nèi)存加載、存儲(chǔ)端口、本地緩存等功能設(shè)計(jì)的獨(dú)立模塊等。

另外一個(gè)出現(xiàn)在Xe-HPC上非常重要的改進(jìn)就是雙精度計(jì)算了,尤其是在高性能計(jì)算領(lǐng)域。對(duì)高性能計(jì)算用戶(hù)而言,雙精度目前已經(jīng)變得越來(lái)越重要。早期當(dāng)GPU編程和CUDA到來(lái)的時(shí)候,科研人員開(kāi)始大規(guī)模使用FP32,也就是單精度浮點(diǎn)。對(duì)當(dāng)時(shí)的大部分應(yīng)用來(lái)說(shuō),單精度浮點(diǎn)速度快且能夠提供比較高的計(jì)算精度,是足夠的。不過(guò)隨著計(jì)算任務(wù)的變化,一些模擬類(lèi)和科學(xué)計(jì)算類(lèi)任務(wù)需要更高的精度才能更好地?cái)M合或者實(shí)現(xiàn)結(jié)果時(shí),單精度就不夠用了,需要及時(shí)切換到雙精度也就是FP64。不過(guò),雙精度帶來(lái)了更大的計(jì)算負(fù)荷,包括寄存器、緩存方面都存在更大的壓力。

英偉達(dá)對(duì)這個(gè)事情的解決方案是同時(shí)提供單精度和雙精度計(jì)算能力,但是后者將由額外的雙精度計(jì)算單元加強(qiáng),兩者的計(jì)算能力比值為1:1或者1:2,后期也有1:3,當(dāng)然這樣的比值—般只針對(duì)計(jì)算卡和專(zhuān)業(yè)用戶(hù)。對(duì)民用用戶(hù)而言,英偉達(dá)的產(chǎn)品往往會(huì)刪除掉雙精度計(jì)算單元,從而只提供1:32的雙精度:?jiǎn)尉扔?jì)算能力比值。一般而言,這樣的做法是鼓勵(lì)對(duì)成本比較敏感的學(xué)生使用高性能技術(shù)的市場(chǎng)策略。如果真的需要高成本的雙精度進(jìn)行生產(chǎn)力計(jì)算,那么這些用戶(hù)終將會(huì)考慮購(gòu)買(mǎi)更高端的產(chǎn)品。

長(zhǎng)期以來(lái),F(xiàn)P64-直在計(jì)算方面占據(jù)統(tǒng)治地位,帶來(lái)了高精度計(jì)算市場(chǎng)的繁榮。不過(guò)隨后AI計(jì)算的興起,又使得低精度計(jì)算市場(chǎng)進(jìn)一步發(fā)展壯大。AI計(jì)算更偏向于吞吐量,并且廣泛使用INT8、FP16這樣的低精度進(jìn)行訓(xùn)練計(jì)算。因此,現(xiàn)在有兩個(gè)方面的市場(chǎng)需要照顧:—方面是高精度、用于模擬器的FP64,使用場(chǎng)合是石油、天然氣、地質(zhì)學(xué)、天氣動(dòng)態(tài)、財(cái)務(wù)分析等;另一方面是低精度,AI訓(xùn)練主要使用BF16和FP16,AI推理則更為簡(jiǎn)單,INT8和FP16都能很好地完成任務(wù)。

對(duì)于雙精度計(jì)算,英特爾宣稱(chēng)Xe-HPC相比之前的產(chǎn)品能夠帶來(lái)40倍的性能提升,不過(guò),英特爾沒(méi)有說(shuō)明是和誰(shuí)相比,如果和Gen架構(gòu)相比的話(huà),那么這可能只是宣傳上的用語(yǔ)而已。

Xe-HP和Xe-LP規(guī)格概述:全面覆蓋

在民用級(jí)別GPU,也就是Xe-HP和Xe-LP的搭建上,很大一部分內(nèi)容和Xe-HPC的模塊相同,但是面對(duì)民用和圖形計(jì)算用戶(hù),又需要專(zhuān)門(mén)的優(yōu)化。 和Xe-HPC-樣,在Xe-HP和Xe-LP上,一個(gè)EU內(nèi)部依舊有8個(gè)計(jì)算管道,也可以被稱(chēng)為8個(gè)計(jì)算單元。現(xiàn)有資料顯示,英特爾將16個(gè)EU單元組成子片塊(sub-slice),一個(gè)子片塊內(nèi)擁有128個(gè)計(jì)算單元。接下來(lái),6個(gè)或者4個(gè)子片塊將會(huì)進(jìn)一步結(jié)合成一個(gè)片塊( Slice)。片塊是Xe GPU的最小可工作完整單位,根據(jù)子片塊的個(gè)數(shù)不同,單個(gè)片塊中擁有768個(gè)(6個(gè)子片塊)或者512個(gè)(4個(gè)子片塊)計(jì)算單元。一個(gè)Xe-LP核心可能只擁有一個(gè)容納了6個(gè)子片塊的片塊,總計(jì)768個(gè)計(jì)算單元。對(duì)于Xe-HP核心而言,英特爾展示的樣品擁有4個(gè)片塊,每個(gè)片塊包含4個(gè)子片塊,256個(gè)EU單元和總計(jì)2048個(gè)計(jì)算單元。

同時(shí)英特爾意外泄露的消息也證實(shí)了以上的推測(cè),定位入門(mén)級(jí)的GPU DG1擁有6個(gè)子片塊,因此其大概擁有96個(gè)EU單元和768個(gè)計(jì)算單元。此外,前文所說(shuō)到的Xe-HPC產(chǎn)品中的一個(gè)型號(hào)規(guī)格也被泄露了出來(lái),它擁有2個(gè)較小的片塊,每個(gè)片塊內(nèi)部有4個(gè)子片塊,因此其總計(jì)有128個(gè)EU單元和1024個(gè)計(jì)算單元。

除了上述內(nèi)容外,英特爾還給出了3款DG2產(chǎn)品的型號(hào),分別是DG2H P128、DG2HP256和DG2HP512。女口果后三位數(shù)表示EU單元的數(shù)量的話(huà),那么這三款GPU分別有1024、2560和4096個(gè)計(jì)算單元。這和英特爾之前宣稱(chēng)將挑戰(zhàn)600美元以上的GPU市場(chǎng),以及成為印度人設(shè)計(jì)的最大GPU言論相符合。

不過(guò)也有一些證據(jù)顯示,英特爾還將推出具有3個(gè)片塊的產(chǎn)品,計(jì)算單元數(shù)量為1536。考慮到良率和市場(chǎng)區(qū)分等原因,可以合理推測(cè)出英特爾可能通過(guò)屏蔽不同的片塊來(lái)實(shí)現(xiàn)產(chǎn)品檔次的劃分或者良率的提升,這一點(diǎn)也正是英偉達(dá)和AMD在中高端GPU上常用的手段。因此英特爾通過(guò)屏蔽1個(gè)、2個(gè)或者3個(gè)片塊,能夠劃分出擁有2個(gè)到8個(gè)不同片塊的GPU產(chǎn)品。

另外在功能方面,英特爾之前的—篇公告宣布,英特爾Xe架構(gòu)路線(xiàn)圖將包含對(duì)英特爾渲染框架API和光線(xiàn)追蹤硬件加速的支持。英特爾沒(méi)有給出更多細(xì)節(jié)。但是硬件加速則說(shuō)明英特爾可能會(huì)在Xe架構(gòu)中加入光線(xiàn)追蹤相關(guān)的單元。不過(guò)英特爾的另外—篇博文也指出,英特爾在光線(xiàn)追蹤方面更傾向于“整體解決”,也就是同時(shí)使用CPU和GPU來(lái)完成計(jì)算。因此,雖然GPU有可能成為英特爾提高光線(xiàn)追蹤效能的主要手段,但是英特爾也不放棄采用傳統(tǒng)CPU來(lái)完成一部分光線(xiàn)追蹤任務(wù)。考慮到英特爾依1日是GPU產(chǎn)業(yè)界的新手,因此這樣的選擇無(wú)疑是正確的。

Xe M F:全新具有RAMBO CACHE的可擴(kuò)展存儲(chǔ)結(jié)構(gòu)

目前英特爾在Xe架構(gòu)的計(jì)算規(guī)模擴(kuò)充上顯得特別賣(mài)力,甚至可以擴(kuò)充至超過(guò)1000個(gè)EU單元。不過(guò)如果沒(méi)有一個(gè)很好的方法將數(shù)據(jù)移出或者移入計(jì)算核心,那么英特爾這所有的設(shè)計(jì)就沒(méi)有意義。在這一點(diǎn)上,英特爾宣布已經(jīng)設(shè)計(jì)了全新的存儲(chǔ)結(jié)構(gòu),被稱(chēng)為Xe MF。請(qǐng)注意,這里的存儲(chǔ)結(jié)構(gòu)描述的是Xe-HPC版本,和未來(lái)民用的GPU版本可能存在很大差異。

根據(jù)英特爾資料,Xe MF有下列特點(diǎn):首先,Xe MF和每個(gè)Xe-HPC計(jì)算單元有三個(gè)連接,和HBM通道只有1個(gè)連接。帶寬上形成了3:1的態(tài)勢(shì),這可能是硅片外部數(shù)據(jù)傳輸?shù)南拗扑隆F浯危總€(gè)Xe-HPC的計(jì)算模塊可以直連且存在三個(gè)連接通道,不過(guò),Xe-HPC的計(jì)算模塊只能和最近的2個(gè)計(jì)算模塊通訊。當(dāng)然,在圖中可能為了簡(jiǎn)化省去了不少信息。

第三:與此類(lèi)似,每個(gè)HBM通道可以和相鄰的兩個(gè)HBM通道進(jìn)行連接,無(wú)需經(jīng)過(guò)中間交換設(shè)備,如果這一切可能的話(huà),那么這將是一個(gè)全新的設(shè)計(jì)方案。除了上述三點(diǎn)外,英特爾在Xe MF中最為獨(dú)特的一點(diǎn)是加入了一個(gè)名為RAMBO的緩存。RAMBO緩存的作用是為Xe的計(jì)算模塊提供大量的緩存空間,以供調(diào)用和存儲(chǔ)數(shù)據(jù)以備不時(shí)之需。英特爾還給出了一張圖片展示RAMBO緩存的作用,圖中數(shù)據(jù)顯示,RAMBO到計(jì)算模塊的帶寬比緩存到HBM的緩存部分大約有3:1的改進(jìn),因此RAMBO緩存的重要用途在于為計(jì)算模塊提供更高的數(shù)據(jù)存取速度。英特爾的資料暗示RAMBO緩存在Xe MF芯片內(nèi)部,但是另—方面英特爾又說(shuō)Foveros技術(shù)可以用于RAMBO緩存,因此可能這個(gè)緩存分布在整個(gè)GPU中,為所有部分都提供數(shù)據(jù)緩沖服務(wù)。

為了展示Xe MF的性能優(yōu)勢(shì),英特爾還給出了一個(gè)FP64矩陣的例子,但是沒(méi)有說(shuō)明是數(shù)據(jù)傳輸還是計(jì)算。在沒(méi)有RAMBO緩存的情況下,8x8的矩陣可以在峰值速度下計(jì)算,隨后可能會(huì)在64x64或者256x256矩陣后性能開(kāi)始下降,直到4096x4096矩陣計(jì)算,瓶頸全部轉(zhuǎn)移至數(shù)據(jù)存取部分。英特爾宣稱(chēng),RAMBO介入后,即使在4096x4096矩陣計(jì)算的強(qiáng)度下,峰值性能(不青楚是傳輸還是計(jì)算)和8x8是—樣的,這有利于大量的仿真計(jì)算。

維琪奧橋:從架構(gòu)到實(shí)現(xiàn)

經(jīng)過(guò)上文對(duì)Xe-HPC架構(gòu)的概述和解讀,接下來(lái)本文將進(jìn)入具體的產(chǎn)品實(shí)踐部分。英特爾首個(gè)Xe-HPC架構(gòu)下的產(chǎn)品代號(hào)為Ponte Vecchio(簡(jiǎn)稱(chēng)為“PVC”),前文已經(jīng)有過(guò)介紹。

根據(jù)英特爾給出的展示圖來(lái)看,PVC和之前我們看到過(guò)的任何一款GPU都是不同的。PVC實(shí)際上包含了2個(gè)部分,每個(gè)部分有8個(gè)小型計(jì)算芯片,多個(gè)Xe MF芯片和HBM顯存。在進(jìn)一步介紹PVC的相關(guān)技術(shù)之前,我們先了解—下英特爾在多芯片封裝、堆疊技術(shù)方面的進(jìn)展。

目前的消息顯示,EMIB和Foveros技術(shù)都將使用在英特爾全新的GPU上,當(dāng)然,這兩個(gè)技術(shù)成本目前是比較高昂的。因此它可能會(huì)被最先使用在Xe-HPC這樣面向高端市場(chǎng)的產(chǎn)品中,PVC是第一個(gè)同時(shí)使用這兩個(gè)技術(shù)的產(chǎn)品。值得注意的是,EMIB技術(shù)和Foveros技術(shù)并不只是在GPU等產(chǎn)品上使用,英特爾計(jì)劃將其擴(kuò)展至CPU、FPGA、AI以及其他所有的設(shè)備之中。

在完整的PVC產(chǎn)品示意圖上,它擁有16個(gè)Xe-HPC小芯片和8個(gè)Xe MF芯片,這些芯片被分為2組,每組8個(gè)Xe-HPC芯片和4和Xe MF芯片,每—組都可以訪(fǎng)問(wèn)4個(gè)HBM堆棧,每個(gè)HBM堆棧都通過(guò)EMIB和10芯片連接。

從英特爾的官方幻燈片中可以看到,似乎8個(gè)Xe-HPC小芯片和4個(gè)Xe MF芯片被作為一個(gè)獨(dú)立完整的封裝進(jìn)行工作,并且下方實(shí)現(xiàn)了完整的BGA連接。實(shí)際上下方的中間層上還有一些芯片存在,并且也獲得了EMIB技術(shù)連接。此外,HBM和10芯片都被放置在底層進(jìn)行封裝。這意味著,英特爾在GPU部分就擁有三層封裝,如果每個(gè)Xe-HPC小芯片也是堆疊的話(huà),那么總計(jì)會(huì)有四層封裝。

在本文中,我們認(rèn)為每個(gè)Xe-HPC小芯片都是堆疊的,采用了Foveros技術(shù)。現(xiàn)在的問(wèn)題在于英特爾將什么芯片堆疊在了一起?一種猜測(cè)是10和計(jì)算芯片,另一種猜測(cè)是將像Lakefield那樣的多個(gè)計(jì)算芯片進(jìn)行了堆疊。有一種不太合理的結(jié)論是,計(jì)算芯片和緩存堆疊在一起。但是需要特別注意的是,GPU傾向于在計(jì)算芯片邊上放置本地緩存,鑒于此也有人估計(jì)是兩個(gè)計(jì)算芯片進(jìn)行堆疊,一種可能是SIMD,另一種是SIMT,當(dāng)然,如果兩者相同并且采用模塊化設(shè)計(jì)的話(huà),那么制造起來(lái)就容易很多。

此外,英特爾還在Xe-HPC的基板上放置了不少金屬墊片,這種墊片可以幫助不同的芯片矯正高度,這也是堆疊和多封裝所需要的必要技術(shù)。在芯片尺寸方面,目前看起來(lái)Xe-HPC小芯片f以乎比Xe MF芯片要小一些,可能后者包含了高速緩存,或者說(shuō)這兩款芯片的制造工藝節(jié)點(diǎn)完全不同。在功能方面,PVC支持所有內(nèi)存和緩存的ECC和奇偶校驗(yàn),還納入了Xeon級(jí)別的RAS功能和被稱(chēng)為“現(xiàn)場(chǎng)修復(fù)(in-field repair)”的功能。

OneAPl:英特爾的軟件解決方案

在硬件設(shè)計(jì)完成后,軟件環(huán)境就顯得特別重要了。英特爾指出,在新的oneAPI計(jì)劃實(shí)施之前,英特爾整個(gè)公司內(nèi)部擁有200多個(gè)軟件開(kāi)發(fā)項(xiàng)目。oneAPI的用處在于能夠?qū)⑦@200多個(gè)不同角度、不同用途的軟件開(kāi)發(fā)項(xiàng)目放在一個(gè)API中,并為開(kāi)發(fā)人員提供一個(gè)單一的入口點(diǎn),使得開(kāi)發(fā)人員可以自由訪(fǎng)問(wèn)CPU、GPU、FPGA和AI計(jì)算。

oneAPI有一個(gè)口號(hào),叫做“notransistor left behind”,直譯是“沒(méi)有晶體管被忽視”,也就是“每個(gè)晶體管都有用”。實(shí)際上,oneAPI僅僅對(duì)英特爾的硬件有效,對(duì)其他廠(chǎng)商的產(chǎn)品沒(méi)有太多用處,因此此處應(yīng)該改為“no inteltransistor left behind”。

對(duì)英特爾這樣龐大的公司來(lái)說(shuō),單個(gè)入口點(diǎn)無(wú)法面對(duì)所有開(kāi)發(fā)人員的工作。英特爾也知道這一點(diǎn)。因此oneAPI的意義在于統(tǒng)一軟件堆棧,這樣使用高級(jí)語(yǔ)言的程序員就可以在不考慮硬件的情況下做自己喜歡做的事情,而想要在最低級(jí)別對(duì)特定硬件進(jìn)行微優(yōu)化,使用低級(jí)語(yǔ)言的程序員也可以做到這一點(diǎn)。

oneAPI給出了新的架構(gòu)介紹。oneAPI所有的內(nèi)容都將通過(guò)oneAPI堆棧進(jìn)行驅(qū)動(dòng),堆棧的底層是硬件,頂部是工作負(fù)載。英特爾將在這五個(gè)領(lǐng)域內(nèi)解決軟件開(kāi)發(fā)的問(wèn)題。在系統(tǒng)編程部分,英特爾展示了調(diào)度程序管理、對(duì)等通信、設(shè)備和內(nèi)存管理、跟蹤和調(diào)試工具等內(nèi)容。

對(duì)于編程語(yǔ)言而言,英特爾依賴(lài)于分布式并行C++標(biāo)準(zhǔn)或者DPC++,后者是C++和SYCL的組合,由英特爾負(fù)責(zé)維護(hù)。英特爾還計(jì)劃構(gòu)建具有OpenMP編譯器的Fortran和具有OpenMP編譯器的C++,以及也可以和oneAPI其余部分一起使用的Python分發(fā)網(wǎng)絡(luò)。在庫(kù)文件方面,英特爾也準(zhǔn)備好讓那些非常受歡迎的工作負(fù)載加入庫(kù),類(lèi)似的還有英特爾Math Kernel Library(MKL)庫(kù)或MPI庫(kù)。

另外,英特爾要面對(duì)的一大問(wèn)題就是遷移工具。英特爾希望有工具能夠?qū)⒅С諧UDA的程序轉(zhuǎn)為支持英特爾硬件,之前Raja Koduri在AMD的HIP產(chǎn)品上已經(jīng)嘗試可以做到這一點(diǎn)。HIP工具在某些情況下表現(xiàn)很出色,但是在絕大部分情況下還需要手動(dòng)調(diào)整代碼使得部分CUDA代碼能夠在AMD硬件上運(yùn)行。Raja表示,在CUDA向AMD轉(zhuǎn)移時(shí),問(wèn)題在于遇到的是在寬矢量機(jī)制下編寫(xiě)的代碼轉(zhuǎn)移至窄矢量機(jī)制,但是在Xe上并不存在這一點(diǎn),因?yàn)橛⑻貭柌捎昧丝勺兪噶繉挾龋虼薿neAPI遇到的問(wèn)題可能比較少。

首個(gè)Xe-HPC架構(gòu)的超算——Aurora

前文我們也提到了美國(guó)能源部和阿貢國(guó)家實(shí)驗(yàn)室的Aurora超算,這臺(tái)超算預(yù)計(jì)2021年交付。不過(guò)之前這臺(tái)超算預(yù)計(jì)是2020年交付,圍繞英特爾的Xeon Phi平臺(tái)構(gòu)建。雖然后來(lái)英特爾停止了Xeon Phi產(chǎn)品線(xiàn),但是又帶來(lái)了Xe,因此目前英特爾宣稱(chēng)Aurora將由Xeon和Xe-HPC聯(lián)合組建。

Aurora超算的每個(gè)節(jié)點(diǎn)將由2個(gè)Xeon處理器和6個(gè)Xe-HPC GPU組成。由于發(fā)布時(shí)間還比較早,因此Aurora超算的處理器采用的是代號(hào)為SapphireRapids的全新Xeon處理器。SapphireRapids處理器將使用lOnm工藝制造,具有8個(gè)內(nèi)存通道,可能支持DDR5和PCle 5.0,是英特爾首款支持全新CXL標(biāo)準(zhǔn)的企業(yè)級(jí)CPU。

在GPU上,英特爾拿出的是PVC,從產(chǎn)品圖上來(lái)看,這些專(zhuān)門(mén)為超算定制的GPU顯然不會(huì)使用PCle接口,可能是OAM或者SXM2,或者當(dāng)時(shí)更新的標(biāo)準(zhǔn)。每個(gè)GPU都可以通過(guò)CXL直接相互通訊。英特爾給出了一顆命名為XeLink的全新芯片,這顆芯片將管理6個(gè)GPU之間的通訊,另外還可以實(shí)現(xiàn)統(tǒng)一的內(nèi)存管理,Xe Link也基于CXL技術(shù)實(shí)現(xiàn)。英特爾在預(yù)告超算的架構(gòu)的同時(shí),也順便宣布PVC將采用全新的7nm工藝制造。

Aurora的每個(gè)節(jié)點(diǎn)將包括8個(gè)結(jié)構(gòu)端點(diǎn),大概有200個(gè)機(jī)架,總計(jì)10PB的內(nèi)存和230PB的存儲(chǔ)空間。從這些數(shù)據(jù)推測(cè)的話(huà),整個(gè)Aurora大概只使用5000個(gè)新的Xeon處理器和15000個(gè)PVC GPU產(chǎn)品。如果Aurora確實(shí)是百億億級(jí)別的產(chǎn)品,考慮到CPU提供的計(jì)算性能很有限,因此假設(shè)忽視CPU的算力,只利用GPU進(jìn)行計(jì)算的話(huà),百億億次計(jì)算能力除以15000個(gè)GPU,這樣每個(gè)GPU的平均計(jì)算性能將在66.6TFLOPS左右。相比之下,英偉達(dá)目前最接近的圖靈架構(gòu)大概最多能提供14TFLOPS的FP32計(jì)算能力,因此英特爾要做的是在2021年到2022年將GPU的計(jì)算能力提高至現(xiàn)有產(chǎn)品的5倍。當(dāng)然對(duì)超算來(lái)說(shuō),功耗暫時(shí)可以被放在一邊。更悲觀一些的算法是,由于采用了4U機(jī)架,因此只能放置7500個(gè)GPU,所以單個(gè)GPU的計(jì)算能力需要達(dá)到135TFLOPS,大約是現(xiàn)在處理器的10倍,難度就更大了。

目標(biāo):覆蓋所有計(jì)算市場(chǎng)

從性能來(lái)看,合理的推測(cè)是英特爾在2021年底到2022年初將獲得現(xiàn)有頂級(jí)GPU 5倍計(jì)算性能的產(chǎn)品,其余的一些細(xì)節(jié)包括總線(xiàn)、擴(kuò)展性、單個(gè)芯片實(shí)現(xiàn)方式以及軟件等方面,本文都做出了一定的解釋。不過(guò)目前Xe尚未發(fā)布,大量資料尚未解密,因此本文的內(nèi)容可能和實(shí)際產(chǎn)品存在較大差異甚至錯(cuò)誤,建議大家以實(shí)際產(chǎn)品和本刊后續(xù)介紹的內(nèi)容為主。

回顧了英特爾的過(guò)去、了解了英特爾在計(jì)算上的野心和具體的產(chǎn)品情況,目前英特爾在Xe和相關(guān)產(chǎn)品上想做什么就很明確了。英特爾希望能擴(kuò)大產(chǎn)品覆蓋的計(jì)算市場(chǎng)的范圍,簡(jiǎn)單來(lái)說(shuō),標(biāo)量、矢量、矩陣和空間四大計(jì)算中,英特爾在其他三個(gè)方面都做得很好,唯獨(dú)缺少了矢量加速,或者說(shuō)沒(méi)有強(qiáng)有力的競(jìng)爭(zhēng)對(duì)手。當(dāng)然,英特爾本身在CPU上足夠出色,依靠財(cái)務(wù)手段和市場(chǎng)操作收購(gòu)了FPGA和AI計(jì)算廠(chǎng)商,形成了自己計(jì)算產(chǎn)業(yè)的三條支柱,現(xiàn)在最后一個(gè)支柱也就是矢量計(jì)算也將被英特爾補(bǔ)上,這樣一個(gè)覆蓋了幾乎所有計(jì)算場(chǎng)合的英特爾,才是一個(gè)計(jì)算產(chǎn)業(yè)領(lǐng)軍人物的完全體。利用四個(gè)計(jì)算產(chǎn)業(yè)的互相配合和支持,英特爾有望進(jìn)一步打造一個(gè)統(tǒng)一的產(chǎn)業(yè)鏈,在計(jì)算產(chǎn)業(yè)上實(shí)現(xiàn)“贏者通吃”。至于GPU和顯卡,目前看起來(lái)只是英特爾在計(jì)算產(chǎn)業(yè)發(fā)展路線(xiàn)執(zhí)行上的自然產(chǎn)物。對(duì)四大計(jì)算產(chǎn)業(yè)來(lái)說(shuō),任何一個(gè)做好,都將面對(duì)萬(wàn)億級(jí)別的市場(chǎng),但是英特爾希望自己在四個(gè)領(lǐng)域都占有一席之地,這樣龐大的格局和野心,也只有英特爾才能如此豪氣又理所當(dāng)然地展示出來(lái),并有能力向著目標(biāo)前進(jìn)。

猜你喜歡
產(chǎn)品
好產(chǎn)品,可持續(xù)
從靈感出發(fā),邂逅好產(chǎn)品
新產(chǎn)品
“三無(wú)”產(chǎn)品
OPPO:堅(jiān)守本分,將產(chǎn)品做到極致
金橋(2021年4期)2021-05-21 08:19:22
”這些產(chǎn)品,我不打算回購(gòu)。
拒絕平凡,如何讓你的產(chǎn)品變“有趣”?
2015產(chǎn)品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
golo6可以聽(tīng)的OBD產(chǎn)品
新產(chǎn)品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 激情综合激情| 精品乱码久久久久久久| 无码啪啪精品天堂浪潮av| 国产视频入口| 免费久久一级欧美特大黄| 国产美女自慰在线观看| 亚洲AV永久无码精品古装片| 欧美福利在线观看| 高潮毛片免费观看| 刘亦菲一区二区在线观看| 五月婷婷精品| 四虎影视库国产精品一区| 91福利片| 国产精品欧美日本韩免费一区二区三区不卡| 国产91精品最新在线播放| 国产精品熟女亚洲AV麻豆| 波多野结衣视频网站| 无码人中文字幕| 99久久国产综合精品女同| 91精品国产综合久久不国产大片| 国产亚洲欧美在线中文bt天堂| 福利一区三区| 久久精品国产亚洲AV忘忧草18| 亚洲侵犯无码网址在线观看| 亚洲国产看片基地久久1024| 国产精品久久精品| 四虎影视国产精品| 欧美在线国产| 亚洲一区网站| 性喷潮久久久久久久久| 国产乱人免费视频| 美女被操黄色视频网站| 亚洲日韩久久综合中文字幕| 第一页亚洲| 97在线国产视频| 欧美a√在线| 国产精品露脸视频| 97亚洲色综久久精品| 欧美国产综合色视频| 自拍亚洲欧美精品| 色妺妺在线视频喷水| 久久国产精品无码hdav| 亚洲欧美日韩中文字幕在线一区| 欧美日韩在线亚洲国产人| 国产永久无码观看在线| 国产色爱av资源综合区| 日韩大片免费观看视频播放| 中国一级特黄视频| 无码综合天天久久综合网| 成人在线观看不卡| 精品亚洲欧美中文字幕在线看| 人妻91无码色偷偷色噜噜噜| 久青草免费在线视频| 国产精品手机在线观看你懂的| 久久特级毛片| 国产丰满大乳无码免费播放 | 毛片免费在线| 国产成人综合日韩精品无码首页| 国产主播在线一区| 欧美日韩国产高清一区二区三区| 欧美国产在线一区| 波多野结衣AV无码久久一区| 国产在线自乱拍播放| 免费A级毛片无码免费视频| 精品无码国产自产野外拍在线| 五月六月伊人狠狠丁香网| 女人18毛片一级毛片在线| 呦视频在线一区二区三区| 欧美激情第一欧美在线| 久久婷婷色综合老司机| 久久频这里精品99香蕉久网址| 在线观看精品国产入口| 国产成人无码久久久久毛片| 久草国产在线观看| 亚洲欧美国产高清va在线播放| 久久婷婷国产综合尤物精品| 成人午夜视频在线| 久久国产精品嫖妓| 国产鲁鲁视频在线观看| 日韩中文欧美| 在线视频97| 成人免费黄色小视频|