999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向HPC的高性能微處理器研究進(jìn)展

2020-11-05 04:42:58王耀華
關(guān)鍵詞:設(shè)計(jì)

王耀華,郭 陽

(國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073)

1 引言

當(dāng)今世界,高性能計(jì)算HPC(High Performance Computing)被廣泛應(yīng)用于石油勘探、天氣預(yù)報(bào)、金融信息以及科學(xué)研究等關(guān)乎國計(jì)民生的重要領(lǐng)域,已經(jīng)成為國家競爭力的一個(gè)重要組成部分,也是各國競相爭奪的技術(shù)高地。而高性能微處理器作為HPC系統(tǒng)中的算力源泉,被稱為高性能計(jì)算技術(shù)高地上的一顆明珠??梢哉f,高性能微處理器的設(shè)計(jì)技術(shù)對HPC系統(tǒng)的總體算力起著決定性的作用。

面向HPC的高性能微處理器設(shè)計(jì)的關(guān)鍵技術(shù)點(diǎn)主要包括:(1)內(nèi)核結(jié)構(gòu)中的并行性開發(fā)技術(shù),主要指如何通過有效的運(yùn)算資源組織方式,實(shí)現(xiàn)運(yùn)算資源間的高效協(xié)同,從而高效開發(fā)程序中的數(shù)據(jù)級并行和指令級并行;(2)數(shù)據(jù)供給機(jī)制,主要涉及存儲(chǔ)子系統(tǒng)的設(shè)計(jì),重點(diǎn)關(guān)注如何通過存儲(chǔ)層次設(shè)計(jì)、數(shù)據(jù)局部性挖掘以及數(shù)據(jù)使用方式預(yù)測等技術(shù)為運(yùn)算資源提供高帶寬、低延遲的數(shù)據(jù)供給;(3)互連機(jī)制,隨著多核已經(jīng)成為芯片性能持續(xù)提升的重要因素,如何通過高效的核間互連,以及處理器核與存儲(chǔ)系統(tǒng)互連有效提升整體算力,對高性能微處理器的性能發(fā)揮至關(guān)重要。

為此,本文分別從計(jì)算資源組織方式、存儲(chǔ)子系統(tǒng)設(shè)計(jì)和核間互連技術(shù)3個(gè)方面對包括NVIDIA[1,2]和Intel[3 - 7]以及AMD[8 - 10]在內(nèi)的主流處理器廠商面向HPC的高性能微處理器芯片進(jìn)行了分析和探討,并在此基礎(chǔ)上總結(jié)了當(dāng)前高性能微處理器設(shè)計(jì)的技術(shù)現(xiàn)狀和技術(shù)趨勢:(1)在運(yùn)算資源組織方面,技術(shù)同質(zhì)化現(xiàn)象較為明顯,呈現(xiàn)出以Vector-SIMD(Vector Single Instruction Multiple Data)為主,輔以多調(diào)度機(jī)制、定制加速部件以及不同SIMD(Single Instruction Multiple Data)寬度等支持,提升計(jì)算效率以及對不同應(yīng)用的適配性。(2)在存儲(chǔ)子系統(tǒng)設(shè)計(jì)方面,各廠商都采用了HBM2(High Bandwidth Memory)存儲(chǔ)技術(shù),在此基礎(chǔ)上不同廠商根據(jù)各自的結(jié)構(gòu)特點(diǎn),提出了不同的優(yōu)化策略,呈現(xiàn)出百花齊放的特征。可以預(yù)見的是,未來隨著存儲(chǔ)系統(tǒng)的瓶頸效應(yīng)不斷加劇,存儲(chǔ)系統(tǒng)將成為高性能微處理器設(shè)計(jì)成敗的關(guān)鍵因素。(3)在多核互連方面,一方面chiplet技術(shù)正逐漸興起,另一方面以NVlink、CXL(Compute eXpress Link)、IF(Infinity Fabric)為代表的直連技術(shù)正通過不斷的技術(shù)更新,逐步推高互連帶寬。

本文的分析內(nèi)容將有助于對高性能微處理器技術(shù)趨勢的準(zhǔn)確把握,對自主研制面向HPC的高性能微處理器設(shè)計(jì)具有一定的指導(dǎo)意義和參考價(jià)值。本文主要貢獻(xiàn)如下所示:

(1) 從計(jì)算資源組織方式、存儲(chǔ)子系統(tǒng)設(shè)計(jì)和核間互連技術(shù)3個(gè)方面對主流微處理器廠商的高性能微處理器進(jìn)行了研究與分析。

(2) 總結(jié)展望了當(dāng)前高性能微處理器的技術(shù)特點(diǎn)和設(shè)計(jì)趨勢。

2 計(jì)算資源組織方式

計(jì)算資源組織方式對芯片算力具有決定性作用,同時(shí)還影響著存儲(chǔ)和互連方面的設(shè)計(jì),是高性能處理器設(shè)計(jì)的核心。本節(jié)通過分析NVIDIA、Intel、AMD處理器中的核心計(jì)算單元的運(yùn)算單元組織方式,給出當(dāng)前的主流技術(shù)特征。

2.1 NVIDIA A100 GPU

NVIDIA作為GPU領(lǐng)域的領(lǐng)航者,其GPU結(jié)構(gòu)對HPC和AI領(lǐng)域都有較好的支持。NVIDIA GPU主要包含多個(gè)GPC(GPU Processing Cluster)和存儲(chǔ)控制器。GPC采用層次化結(jié)構(gòu),內(nèi)部包含多個(gè)TPC(Texture Processing Clusters),每個(gè)TPC又進(jìn)一步劃分為多個(gè)SM(Streaming Multiprocessor),SM作為GPU中最基本的運(yùn)算核心,是GPU算力的主要來源。

Ampere100 (A100)[1,2]是NVIDIA于2020年最新推出的面向HPC和AI的最新款GPU。圖1給出了A100中SM的內(nèi)部結(jié)構(gòu)示意圖。SM包含了INT8、BP16、 FP16、FP32、FP64等多種類型的運(yùn)算單元FU(Function Unit)陣列。A100 GPU中還引入了為AI算法特別定制的特殊數(shù)據(jù)類型TF32,以增強(qiáng)對AI運(yùn)算的支持。

Figure 1 Block diagram of NVIDIA A100 GPU SM圖1 NVIDIA A100 GPU SM結(jié)構(gòu)框圖

為了高效利用SM中密集的FU陣列,NVIDIA GPU引入了單指令流多線程SIMT(Single Instruction Multiple Threads)的編程模型,使得程序員只需專注于單個(gè)線程的程序編寫,降低了并行編程的難度。基于SIMT編程模型的程序映射到SM時(shí),多個(gè)線程(一般為32)會(huì)被打包為一個(gè)Warp,以單指令流多數(shù)據(jù)流(SIMD)的方式執(zhí)行,因此,GPU中FU陣列的核心組織方式實(shí)際上是SIMD的方式。為了區(qū)別于Intel、TI等芯片廠商提出的子字SIMD擴(kuò)展(比如將一個(gè)64 bit的計(jì)算擴(kuò)展為4組16 bit的并行計(jì)算),本文把GPU中的SIMD定義為向量SIMD(Vector-SIMD),即單條指令流驅(qū)動(dòng)多個(gè)向量元素進(jìn)行并行計(jì)算(比如單一指令驅(qū)動(dòng)32路64 bit數(shù)據(jù)的運(yùn)算)。

Vector-SIMD的組織方式能夠有效實(shí)現(xiàn)多路數(shù)據(jù)在指令控制層面的共享,從而較為高效地開發(fā)應(yīng)用中的數(shù)據(jù)級并行。在此基礎(chǔ)上,為了進(jìn)一步提升性能,充分利用FU的計(jì)算潛力,GPU中還引入了多調(diào)度機(jī)制,實(shí)現(xiàn)多個(gè)Warp在FU陣列中的并行執(zhí)行,使得不同類型的FU能夠同時(shí)得到利用,實(shí)現(xiàn)了對應(yīng)用中指令級并行性的開發(fā)。依靠Vector-SIMD和多調(diào)度機(jī)制,最新款的NVIDIA A100 GPU中雙精度浮點(diǎn)的性能高達(dá)9.7 TFLOPS,單精度浮點(diǎn)的性能達(dá)到19.5 TFLOPS[2]。

值得一提的是,除了上述以Vector-SIMD和多調(diào)度組織的FU陣列結(jié)構(gòu),A100 GPU的SM還引入了第3代Tensor Core單元,用于實(shí)現(xiàn)對GEMM(GEneral Matrix-matrix Multiplication)的定制化加速。GEMM是很多HPC和AI算法中的核心計(jì)算模式,具有廣泛的應(yīng)用基礎(chǔ)。GEMM的核心計(jì)算模式為:D=A*B+C,其中A、B、C、D分別為m*k、k*n、m*n、m*n的矩陣。第3代Tensor Core中每個(gè)時(shí)鐘周期可支持256個(gè)FP16的乘加運(yùn)算,也即每個(gè)時(shí)鐘周期能夠完成最大m=8,k=4,n=8的GEMM運(yùn)算。結(jié)合對稀疏矩陣結(jié)構(gòu)的特殊優(yōu)化支持,相比上一代Tensor Core,第3代Tensor Core的吞吐率能夠?qū)崿F(xiàn)20倍的提升。定制化的設(shè)計(jì)和優(yōu)化損失了部分可編程性,但使得Tensor Core的雙精度(FP64)計(jì)算性能達(dá)到了19.5 TFLOPS,半精度(FP16)計(jì)算性能達(dá)到了312 TFLOPS,INT8類型的性能更是高達(dá)1 248 TOPS。對稀疏矩陣的優(yōu)化設(shè)計(jì),使得Tensor Core對FP16和INT8類型的計(jì)算支持分別等效于624 TFLOPS和2 496 TOPS的計(jì)算性能。

小結(jié):NVIDIA GPU中的核心計(jì)算單元SM:(1)以Vector-SIMD加多調(diào)度的方式組織FU陣列,從而可以高效地開發(fā)應(yīng)用中的數(shù)據(jù)級并行和指令級并行;(2)引入了面向特殊且具有寬泛應(yīng)用基礎(chǔ)的運(yùn)算模式GEMM的定制加速單元,有效提升了單位面積和功耗下的計(jì)算資源密度。

2.2 Intel Ponte Vecchio GPU

Intel一直都有基于X86架構(gòu)流水線結(jié)合高位寬SIMD運(yùn)算支持打造高端GPU的計(jì)劃,預(yù)計(jì)將于2021年為Argonne實(shí)驗(yàn)室推出E級超算系統(tǒng)Aurora,其最初的性能擔(dān)當(dāng)被設(shè)定為具有上述特征的Intel Xeon phi (Knights Hill)處理器,Knights系列處理器支持寬度高達(dá)512 bit的SIMD運(yùn)算,應(yīng)用于很多超算系統(tǒng)中[3]。

然而Intel在進(jìn)行人員架構(gòu)調(diào)整以后,于2017年發(fā)布消息,將研究面向HPC的全新GPU架構(gòu)用于下一代超算系統(tǒng)。2019年末,Intel 在一次HPC開發(fā)者大會(huì)上透露了這款代號為Ponte Vecchio的全新GPU架構(gòu)的部分信息。據(jù)介紹,全新GPU的最高配置版本的雙精度浮點(diǎn)性能可高達(dá)36 TFLOPS,功耗約為400 W/500 W[7]。由于沒有官方白皮書,本文對Ponte Vecchio的介紹主要來自Intel的報(bào)告和學(xué)界的相關(guān)推測[3 - 6]。

圖2給出了Ponte Vecchio GPU的結(jié)構(gòu)框圖,可以看出Ponte Vecchio GPU內(nèi)核主要包含SIMT和SIMD 2種類型的運(yùn)算單元。這樣的設(shè)計(jì)完全秉承了Intel對于GPU的設(shè)計(jì)理念,即:(1)GPU的性能源泉來自其向量(Vector-SIMD)處理能力。(2)單一的Vector-SIMD寬度難以滿足所有應(yīng)用,且為不同寬度的Vector-SIMD所編寫的代碼之間存在極大的兼容性難題(摘自Intel GPU的首席架構(gòu)師Koduri在HPC 開發(fā)者大會(huì)上的發(fā)言)?;谏鲜?個(gè)方面的考慮,Ponte Vecchio GPU中的SIMT單元主要對應(yīng)較大寬度Vector-SIMD,在此基礎(chǔ)上,作為對大寬度Vector-SIMD的補(bǔ)充,進(jìn)一步繼承了Intel CPU中medium尺寸子字SIMD(M SIMD)和Large尺寸子字SIMD(L SIMD)單元,從而進(jìn)一步豐富了對Vector-SIMD的向量寬度的補(bǔ)充支持。Ponte Vecchio GPU中還添加了SIMT和不同尺寸SIMD單元之間的協(xié)同計(jì)算支持,即SIMT單元負(fù)責(zé)應(yīng)用中較為規(guī)整的并行性開發(fā),在此基礎(chǔ)上,通過SIMD單元進(jìn)一步加速串行部分的執(zhí)行[6]。

Figure 2 Block diagram of Intel Ponte Vecchio GPU圖2 Intel Ponte Vecchio GPU的結(jié)構(gòu)框圖

Ponte Vecchio的另一個(gè)特征是支持內(nèi)核計(jì)算能力的可擴(kuò)展性設(shè)計(jì),可以根據(jù)不同應(yīng)用對相應(yīng)SIMT+SIMD的功能單元進(jìn)行增加或刪減。此外,有推測認(rèn)為,SIMT單元中存在面向特定應(yīng)用的專用加速部件[6]。

小結(jié):Intel Ponte Vecchio采用Vector-SIMD加子字SIMD的方式用于協(xié)同提升性能及適應(yīng)應(yīng)用中對不同向量寬度的需求。

2.3 AMD Instinct GPU

AMD公司在高性能領(lǐng)域日漸活躍,目前其最新的動(dòng)態(tài)是和美國能源部、橡樹嶺實(shí)驗(yàn)室以及Cray公司共同打造的新一代超算Frontier將于2021年上線。Frontier的核心算力擔(dān)當(dāng)為AMD的Radeon Instinct GPU,該GPU基于Vega20架構(gòu)實(shí)現(xiàn),可提供7.4 TFLOPS的雙精度浮點(diǎn)算力[8]。

Vega20架構(gòu)[9,10]中包含面向圖形圖像處理的定制Geometry Engine和Pixel Engine陣列,提供可編程計(jì)算支持的Compute Engine陣列,以及Cache等部分。其中Compute Engine陣列是AMD GPU算力的主要組成部分。每一個(gè)Compute Engine包含多個(gè)計(jì)算單元NCU(Next-generation Compute Unit)。

圖3給出了NCU內(nèi)部的結(jié)構(gòu)框圖。從圖3中可以看出,NCU主要采用Scalar加Vector-SIMD的方式進(jìn)行運(yùn)算資源的組織。其中Scalar部分用于應(yīng)用中的串行處理,Vector-SIMD部分則提供對并行部分的加速。

Figure 3 NCU structure of AMD Instinct GPU圖3 AMD Instinct GPU中的NCU結(jié)構(gòu)框圖

小結(jié):AMD GPU采用Scalar加Vector-SIMD的方式在支持并行加速的同時(shí),兼顧對串行部分的處理。

綜上所述,綜合當(dāng)前面向HPC的主流處理器制造商的最新款高性能處理器結(jié)構(gòu)可以看出,在運(yùn)算資源組織方面存在較明顯的同質(zhì)化特征,Vector-SIMD已經(jīng)成為不二之選,在此基礎(chǔ)上,不同廠商還通過提供諸如多調(diào)度機(jī)制、定制加速部件以及不同SIMD寬度等支持,進(jìn)一步提升處理器的計(jì)算密度,以及對不同應(yīng)用的適配性。

3 存儲(chǔ)子系統(tǒng)設(shè)計(jì)

存儲(chǔ)子系統(tǒng)為運(yùn)算單元提供必要的數(shù)據(jù)供給,由于存儲(chǔ)技術(shù)與計(jì)算邏輯之間巨大的速度差,如何有效提升存儲(chǔ)帶寬,降低存儲(chǔ)延遲,通過充分開發(fā)數(shù)據(jù)訪問模式的特征,設(shè)計(jì)高效的存儲(chǔ)子系統(tǒng)對微處理器整體性能的發(fā)揮至關(guān)重要。本節(jié)分析總結(jié)了NVIDIA、Intel、AMD GPU中存儲(chǔ)子系統(tǒng)設(shè)計(jì)的關(guān)鍵技術(shù)。

3.1 NVIDIA A100存儲(chǔ)子系統(tǒng)

A100中的存儲(chǔ)層次如圖4所示,從上到下分別為寄存器文件RegFile、L1/Shared Memory、L2和HBM[2]。為了提升存儲(chǔ)性能,A100在存儲(chǔ)子系統(tǒng)設(shè)計(jì)上進(jìn)行了如下所述的一些革新設(shè)計(jì):

Figure 4 Block diagram of A100’s sub-memory system圖4 A100的存儲(chǔ)子系統(tǒng)框圖

(1)L1和Shared Memory的融合設(shè)計(jì):A100繼承了V100中L1和Shared Memory融合設(shè)計(jì)的結(jié)構(gòu),將L1 Cache和Shared Memory放置到同一存儲(chǔ)載體上,通過靈活配置,實(shí)現(xiàn)二者之間的空間劃分,從而可以滿足程序的不同需求,例如對于不需要Shared Memory的程序,可以將整個(gè)空間配置為L1 Cache,從而有效提升程序性能。

(2)L2 Cache數(shù)據(jù)駐留及壓縮機(jī)制:A100處理器提供高達(dá)40 MB的L2 Cache空間。L2提供對數(shù)據(jù)駐留和替換的控制能力,可以有效防止具有較大重用性數(shù)據(jù)或關(guān)鍵數(shù)據(jù)被非關(guān)鍵數(shù)據(jù)替換出Cache的情況發(fā)生,從而保證程序的性能。此外L2 Cache還可以配合A100中提供的數(shù)據(jù)壓縮機(jī)制,進(jìn)一步提升L2的有效帶寬。

(3)基于HBM2的內(nèi)存系統(tǒng):HPC和AI算法對存儲(chǔ)空間和帶寬的需求日漸增加。從Tesla開始,GPU就采用HBM作為其內(nèi)存的載體。HBM通過2.5D集成技術(shù),在提供超高帶寬的同時(shí),相比GDDR5/6能夠有效降低面積和功耗。A100 GPU中的HBM2存儲(chǔ)空間高達(dá)40 GB,帶寬高達(dá)1 555 GB/s,相比上一代V100 GPU,內(nèi)存帶寬提升了1.7倍。

(4)Asynchronous Copy:A100的存儲(chǔ)子系統(tǒng)中引入了由L2或HBM向Shared Memory直接搬移數(shù)據(jù)的操作,區(qū)別于以往數(shù)據(jù)需要通過L1進(jìn)入寄存器文件以后,再被存儲(chǔ)到Shared Memory,最新的直接搬移策略一方面能夠消除不必要的數(shù)據(jù)搬移,節(jié)約存儲(chǔ)帶寬,另一方面還減少了對寄存器文件的冗余占用,從而能夠有效提升存儲(chǔ)子系統(tǒng)的效率。

小結(jié):A100 GPU在采用HBM2、增大內(nèi)存和Cache空間等常規(guī)優(yōu)化的基礎(chǔ)上,引入了包含數(shù)據(jù)駐留、直接搬移等策略,進(jìn)一步減少非必要數(shù)據(jù)搬移,實(shí)現(xiàn)了存儲(chǔ)帶寬資源的有效利用。

3.2 Intel Ponte Vecchio XeMF存儲(chǔ)子系統(tǒng)

為了配合Ponte Vecchio GPU中的海量運(yùn)算單元,支持其性能可擴(kuò)展性,Intel為Ponte Vecchio設(shè)計(jì)了一款名為XeMF(Xe-HPC Memory Fabric)的存儲(chǔ)架構(gòu)[6]。

圖5給出了XeMF的結(jié)構(gòu)框圖。從圖5中可以推測出,在該框架下:(1)Ponte Vecchio GPU通過XeMF與HBM及其他可能的存儲(chǔ)器相連,其中存儲(chǔ)帶寬與計(jì)算單元帶寬比為3∶1;(2)相鄰GPU之間,以及相鄰HBM之間存在直連通路。

Figure 5 Block diagram of Ponte Vecchio’s sub-memory system圖5 Ponte Vecchio的存儲(chǔ)子系統(tǒng)框圖

此外,Ponte Vecchio GPU中還引入了名為Rambo的Cache結(jié)構(gòu),旨在為運(yùn)算單元提供更高帶寬數(shù)據(jù)。XeMF中HBM與計(jì)算單元之間的帶寬比也進(jìn)一步凸顯了Rambo的數(shù)據(jù)預(yù)取和緩沖的重要意義。Rambo Cache通過名為Foveros的interposer和計(jì)算單元進(jìn)行互連。Intel給出的關(guān)于雙精度矩陣運(yùn)算的性能評測顯示,在沒有Rambo時(shí),矩陣規(guī)模從8*8增加到4096*4096的過程中,總體性能受限于數(shù)據(jù)供給會(huì)極大下降,Rambo Cache則可以極大改善這種狀況,在增加矩陣規(guī)模時(shí),能夠通過高效數(shù)據(jù)供給將性能維持在一定的水平。

XeMF、計(jì)算單元(XeCore)和HBM控制器之間采用逐漸興起的chiplet的方式進(jìn)行集成,Ponte Vecchio將包含16個(gè)計(jì)算核、8個(gè)XeMF和8個(gè)HBM控制器。

由于Intel沒有透露更多關(guān)于存儲(chǔ)子系統(tǒng)的設(shè)計(jì),因此有關(guān)存儲(chǔ)子系統(tǒng)的許多細(xì)節(jié)目前還無法獲悉。

小結(jié):Ponte Vecchio GPU中引入了包含XeMF和Rambo Cache在內(nèi)的存儲(chǔ)優(yōu)化,用于支持運(yùn)算單元與存儲(chǔ)器之間的高效數(shù)據(jù)通信,值得一提的是基于interposer的集成技術(shù)也被用在了Cache和計(jì)算單元的互連技術(shù)中。

3.3 AMD Instinct GPU的存儲(chǔ)子系統(tǒng)

Instinct GPU(Vega架構(gòu))中的存儲(chǔ)層次如圖6所示[8],從上到下為寄存器文件RegFile、L1 Cache、L2 Cache、HBM2和DRAM。

Figure 6 Block diagram of AMD GPU’s sub-memory system圖6 AMD GPU的存儲(chǔ)子系統(tǒng)框圖

Instinct GPU的存儲(chǔ)子系統(tǒng)具有如下所述的2個(gè)技術(shù)亮點(diǎn):

(1)基于HBM2的HBCC(High Bandwidth Cache Controller)。HBCC的主要功能是當(dāng)所請求的數(shù)據(jù)不在GPU的本地存儲(chǔ)時(shí),不同于傳統(tǒng)模式中GPU需要暫停流水線,將整個(gè)數(shù)據(jù)集導(dǎo)入本地存儲(chǔ),HBCC能夠以Page為單位從遠(yuǎn)程存儲(chǔ)(DRAM)中將數(shù)據(jù)取回,在完成單個(gè)Page的取數(shù)之后即可開啟GPU流水線。實(shí)際上HBCC將GPU中的local memory變成了Last Level Cache,而將遠(yuǎn)程存儲(chǔ)轉(zhuǎn)化為本地存儲(chǔ),從而大幅增加了local memory的有效空間,消除了原有的local memory空間對計(jì)算任務(wù)的限制,并且有效隱藏了訪存延遲。HBM2的高帶寬特點(diǎn)進(jìn)一步增強(qiáng)了HBCC設(shè)計(jì)的高效性。

(2)以L2 Cache為中心的Cache結(jié)構(gòu)。Instinct GPU中消除了以往定制的像素引擎擁有私有Cache的分散式Cache架構(gòu),使得各計(jì)算引擎直接從L2 Cache獲取數(shù)據(jù),一方面為增大L2 Cache尺寸提供了空間,另一方面增強(qiáng)了不同計(jì)算引擎之間的數(shù)據(jù)共享,為更大規(guī)模的數(shù)據(jù)重用提供了可能。

小結(jié):AMD GPU中通過HBCC以及L2 Cache為中心的Cache策略,有效實(shí)現(xiàn)了訪存延遲的隱藏和數(shù)據(jù)重用性的開發(fā),從而提升了存儲(chǔ)子系統(tǒng)的數(shù)據(jù)供給效率。

綜上所述,在當(dāng)前的高性能微處理器設(shè)計(jì)中,與計(jì)算資源組織大多采用Vector-SIMD的同質(zhì)化特點(diǎn)不同,存儲(chǔ)子系統(tǒng)的設(shè)計(jì)除了都采用HBM2存儲(chǔ)外,在存儲(chǔ)系統(tǒng)的優(yōu)化策略上呈現(xiàn)出百花齊放的特征,不同廠商根據(jù)各自的結(jié)構(gòu)特點(diǎn)提出了不同的優(yōu)化策略。可以預(yù)見的是,隨著計(jì)算資源運(yùn)行速度與存儲(chǔ)器速度和帶寬之間的不匹配進(jìn)一步加劇,存儲(chǔ)子系統(tǒng)性能將成為決定高性能微處理器設(shè)計(jì)成敗的關(guān)鍵因素。

4 互連技術(shù)

依靠多核提高芯片性能,繼續(xù)維持摩爾定律已經(jīng)成為行業(yè)共識(shí),使得片上互連技術(shù)成為核與核之間通信,處理器核與存儲(chǔ)器之間通信的關(guān)鍵點(diǎn),對芯片的總體性能具有十分關(guān)鍵的影響。本節(jié)分析了NVIDIA、Intel和AMD的核心互連技術(shù)。

4.1 NVIDIA 3rd NVlink

NVlink是由NVIDIA提出的核間互連技術(shù),在提供高速互連的同時(shí),還支持錯(cuò)誤檢查、數(shù)據(jù)包重發(fā)等技術(shù),以保證互連性能。A100 GPU中采用了第3代NVlink技術(shù),總共12條NVlink鏈路可提供高達(dá)600 GB/s的帶寬[1,2]。

基于NVlink技術(shù),NVIDIA推出了包含8個(gè)A100核的DGX A100超算結(jié)點(diǎn),8個(gè)A100 GPU通過12條NVlink鏈路連接到NVswitch上。多個(gè)DGX A100結(jié)點(diǎn)可以進(jìn)一步通過Mellanox InfiniBank/Ethernet進(jìn)行互連,以構(gòu)建更大規(guī)模的超算系統(tǒng)。

4.2 Intel Slingshot

Intel通過基于Faveros和EIMB interposer以chiplet的方式實(shí)現(xiàn)Ponte Vecchio GPU的性能可擴(kuò)展性,在多GPU互連方面則主要依賴基于CXL技術(shù)的XeLink。基于該技術(shù),Intel預(yù)計(jì)于2021年發(fā)布包含6個(gè)Ponte Vecchio GPU和2個(gè)Xeon CPU的Aurora計(jì)算結(jié)點(diǎn)[3 - 7]。不過Intel目前并未給出具體的帶寬指標(biāo)。在XeLink的基礎(chǔ)上,Intel通過Slingshot技術(shù)實(shí)現(xiàn)結(jié)點(diǎn)間的互連。Slingshot是Cray的第8代互連技術(shù),支持包擴(kuò)擁塞控制、3-hop Dragonfly拓?fù)浜土髁糠诸惖裙δ埽ㄟ^與Rosetta的高帶寬switches配合,能夠提供25 GB/s的帶寬。

4.3 AMD Infinity Fabric Link

AMD于2017年左右在其Zen系列CPU中提出了第1代IF技術(shù),該技術(shù)主要被用作芯片內(nèi)部多個(gè)chiplet之間的互連;在Rome和Zen2系列芯片中,提出了第2代IF技術(shù),在第1代的基礎(chǔ)上進(jìn)一步提升了速度,并提供GPU到GPU的互連,對標(biāo)NVlink技術(shù),目前在AMD Instinct M50系列GPU中,包含2條Infinity Fabric Link,可提供高達(dá)184 GB/s的GPU間的直連帶寬。然而,第2代IF技術(shù)無法支持CPU和GPU之間的互連,CPU與GPU之間仍然采用PCIe進(jìn)行互連。有報(bào)導(dǎo)指出,AMD將于2022年左右推出連接一切的第3代IF技術(shù)[9],用于完成CPU與CPU、CPU與GPU以及GPU與GPU之間的完整互連[10]。

綜上所述,在多核互連方面,一方面chiplet技術(shù)正逐漸興起,使得面向不同應(yīng)用領(lǐng)域的芯片設(shè)計(jì)能夠以搭積木的方式完成;另一方面以NVlink、CXL、IF為代表的互連協(xié)議,正通過不斷的技術(shù)更新,逐步推高芯片間的互連帶寬。

5 結(jié)束語

本文分別從計(jì)算資源組織方式、存儲(chǔ)子系統(tǒng)設(shè)計(jì)和核間互連技術(shù)3個(gè)方面對包括NVIDIA、Intel和AMD在內(nèi)的主流處理器廠商面向HPC的高性能微處理器芯片進(jìn)行了分析和探討,并在此基礎(chǔ)上總結(jié)了當(dāng)前高性能微處理器設(shè)計(jì)的主流趨勢。本文的分析內(nèi)容有助于對高性能微處理器技術(shù)趨勢的準(zhǔn)確把握,對自主高性能微處理器的設(shè)計(jì)具有一定的指導(dǎo)意義和參考價(jià)值。

本文工作感謝國防科技大學(xué)計(jì)算機(jī)學(xué)院微電子與微處理器研究所的文梅、李晨、張洋、劉勝、陳小文、雷元武等同事對高性能體系結(jié)構(gòu)的研討,同時(shí)也感謝相關(guān)人員對論文的建議。

猜你喜歡
設(shè)計(jì)
二十四節(jié)氣在平面廣告設(shè)計(jì)中的應(yīng)用
何為設(shè)計(jì)的守護(hù)之道?
《豐收的喜悅展示設(shè)計(jì)》
流行色(2020年1期)2020-04-28 11:16:38
基于PWM的伺服控制系統(tǒng)設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:36
基于89C52的32只三色LED搖搖棒設(shè)計(jì)
電子制作(2019年15期)2019-08-27 01:11:50
基于ICL8038的波形發(fā)生器仿真設(shè)計(jì)
電子制作(2019年7期)2019-04-25 13:18:16
瞞天過海——仿生設(shè)計(jì)萌到家
設(shè)計(jì)秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計(jì)叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
從平面設(shè)計(jì)到“設(shè)計(jì)健康”
商周刊(2017年26期)2017-04-25 08:13:04
主站蜘蛛池模板: 亚洲精品va| 一级毛片网| 99久久精品免费观看国产| 在线99视频| 亚洲人成影院午夜网站| 精品综合久久久久久97超人| 精品丝袜美腿国产一区| 久久精品国产精品青草app| 国产成人免费高清AⅤ| 丁香五月婷婷激情基地| 拍国产真实乱人偷精品| 色有码无码视频| 成人在线欧美| 不卡色老大久久综合网| 激情综合激情| 波多野结衣AV无码久久一区| 精品無碼一區在線觀看 | 国产乱人免费视频| www.99精品视频在线播放| 第九色区aⅴ天堂久久香| 91久久国产成人免费观看| a级毛片一区二区免费视频| 欧美激情福利| 亚洲人成影院在线观看| 91精品亚洲| 不卡午夜视频| 在线观看欧美国产| 欧美在线视频不卡第一页| 国产色伊人| 农村乱人伦一区二区| 97视频免费在线观看| 91在线国内在线播放老师| 中文国产成人久久精品小说| 国产亚洲欧美在线中文bt天堂| 国产主播在线一区| 91精品啪在线观看国产91| 国产精品视频观看裸模| 尤物视频一区| 九九热精品视频在线| 国产白浆在线| 免费A∨中文乱码专区| 色欲综合久久中文字幕网| 欧美国产日韩在线| 天天色天天操综合网| 亚洲精品视频网| 国产va视频| 国产精品亚洲精品爽爽| 国产成人高清精品免费软件 | 国产精品视频a| 欧美精品1区| 国产SUV精品一区二区| 亚洲妓女综合网995久久| 国产毛片基地| 成人免费网站久久久| 国产精品内射视频| 中日韩欧亚无码视频| 波多野结衣中文字幕久久| 思思99热精品在线| 99久久精品国产精品亚洲| 99视频在线观看免费| 伊在人亚洲香蕉精品播放| 精品99在线观看| 伊人成人在线视频| 夜夜拍夜夜爽| 蜜臀AVWWW国产天堂| 妇女自拍偷自拍亚洲精品| 无码人中文字幕| 亚洲精品天堂在线观看| 精品天海翼一区二区| 2048国产精品原创综合在线| 国产精品高清国产三级囯产AV| av免费在线观看美女叉开腿| 久久国产拍爱| 亚洲高清国产拍精品26u| 亚洲免费福利视频| 人妻精品全国免费视频| 色135综合网| 黄色网在线| 国产96在线 | 亚洲黄色激情网站| a天堂视频在线| 亚洲自偷自拍另类小说|