999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

更多核心,更高效率 英特爾全新第三代至強可擴展處理器解讀

2021-06-20 08:58:58徐昌宇袁怡男
微型計算機 2021年10期
關鍵詞:產品

徐昌宇 袁怡男

英特爾在企業級處理器產品市場上擁有非常明顯的優勢地位,即使是在最近幾年AMD發布Zen 2、Zen 3架構的相關服務器處理器產品之后,這種優勢地位依舊很穩固。這是因為英特爾的企業級解決方案是建立在一整套面向企業用戶的解決方案之上,擁有非常深的技術護城河。2021年4月,英特爾發布了最新面向雙路市場的第三代至強可擴展處理器,其全新的生產工藝、新增的功能技術以及平臺的整體情況,都值得我們進一步了解。

英特爾在2021年4月7日發布了全新的第三代至強可擴展處理器的雙路型號。相比之前發布的14nm制程、面向四路和八路市場的CooperLake系列處理器,新的Ice Lake-SP僅面向單路和雙路市場,因此更為主流,也更受普通企業和行業用戶關注。雖然定位不同,其擴展能力相比四路和八路產品存在差異,但從產品和規格角度來看,全新的第三代至強可擴展處理器由于涉及制程、核心架構和規格的變化,堪稱英特爾近幾年至強可擴展系列處理器中變化最大的一代。(若無特殊說明,下文所指的第三代至強可擴展處理器均為最新發布的10nm 工藝的雙路型號。)

綜述:第三代至強可擴展處理器的功能、特性

根據英特爾的介紹,第三代至強可擴展處理器采用10nm工藝制造、最大核心數量從前代產品的28個提升至40個;全新的Sunny Cove架構帶來了大約20%的IPC提升;綜合性能大約是上代產品的1.46倍(整數、浮點Stream TRIAD和Linpack測試的平均值)、AI性能大約是上代產品的1.74倍;和5年前的產品相比,綜合性能大約是其2.56倍。

在功能方面,第三代至強可擴展處理器是目前唯一的、面向數據中心市場且擁有AI加速計算能力的處理器產品(支持Deep Learning Boost功能),并且還帶來包括安全特性、SpeedSelect、AVX-512以及英特爾OneAPI在內的諸多功能。內存方面,新處理器最高支持6TB內存、每顆處理器最高可支持8個插槽,內存容量是上代產品的2.6倍、支持最多64個PCIe4.0通道,支持傲騰內存、傲騰SSD以及SSD產品,支持英特爾80系列網絡設備以及英特爾Agilex FPGA加速等。

根據不同目標市場,英特爾宣稱第三代至強可擴展處理器的相關性能分別是:云計算綜合性能是前代產品(下同)的1.5倍、5G領域則是1.62倍、IoT市場是1.56倍、HPC是1.57倍、AI計算高達1.74倍。英特爾特別提到了AI計算性能,在英特爾設定的對比條件下,在圖像識別性能上,新處理器是AMD EPYC 7763 (64核心、Zen 3架構)的25倍,甚至在20個比較主流的AI和ML工作負載中,第三代至強可擴展處理器的性能可達AMD EPYC7763的1.5倍,甚至是英偉達A100 GPU的1.3倍。軟件方面,英特爾提到利用TensorFlow架構優化ResNet50模型后,新的處理器性能提升了10倍;利用Scikit-Learn優化SVC/kNN后,新的處理器性能提升了高達100倍等。

在安全特性方面,英特爾在2013年就推出了名為SGX (SoftwareGuard eXtensions,軟件保護擴展)的軟件保護解決方案,并一直在業內不斷地推廣和應用這個擴展平臺的相關技術,目前已經有數百家企業采用SGX相關技術進行數據保護和安全控制。在新的第三代至強可擴展處理器上,英特爾帶來兩個全新的技術用于加強安全性,一個是全內存加密技術,可以實現內存的批量加密,從而對整個內存空間起到保護作用。另一個則是平臺固件恢復技術,用于防御和維護底層固件,提高系統安全性。在筆者將英特爾透露的基本綜述部分梳理清楚后,接下來本文將進一步深入分析第三代至強可擴展處理器架構的相關內容。

面向服務器和數據中心設計:第三代至強可擴展處理器架構解讀

作為面向服務器和數據中心的產品,第三代至強可擴展處理器在設計方面和普通的民用處理器存在很大差異。比如針對服務器方面,英特爾就需要針對標量、數據并行、低延遲高帶寬、芯片上的節點選擇和調配上進行優化。因為針對數據中心,需要對性能一致性、數據計算的彈性以及高效率等方面進行優化。

有鑒于此,英特爾在第三代至強可擴展處理器上主要對4個方面做出優化。一是在微架構方面,采用全新的Sunny Cove架構,同時加入新的ISA指令集。二是在內存方面,英特爾針對企業越來越高的內存帶寬需求,對處理器的內存控制器設置進行了比較重大的改革。三是在I/0方面,英特爾將本代處理器升級至支持64通道PCIe 4.0總線,相比上代產品大幅提升了外部IO帶寬。最后則是處理器內部和外部的擴展方面,英特爾通過擴展獨特的Mesh架構,保證了緩存、內存和內核之間的延遲保持平均和一致。

英特爾給出了簡單的雙路IceLake-SP處理器的雙路搭配的架構圖。從圖中可以看出,雙路處理器分別通過三個UPI通道實現互聯,每個處理器都擁有8個內存通道,每個通道有2個DIMM,其中一個DIMM可以選擇使用傲騰或者DDR4內存,另一個DIMM只能支持DDR4內存。處理器通過DMI總線和代號為“Lewisburg R”的芯片組進行連接。對雙路系統而言,處理器可以選擇任意一個和芯片組連接,這可能需要根據廠商設計的情況而定。

計算微架構:大幅度升級的Sunny Cove

英特爾之前的處理器核心微架構都和工藝制程捆綁,比如14nm工藝就一直使用Skylake微架構。在14nm工藝和Skylake微架構鏖戰數年之后,英特爾終于在2019年發布了全新的Sunny Cove架構,并開始推動微架構和工藝制程解綁。最終在2021年得以實現,今年英特爾先是在桌面發布了第十一代酷睿系列處理器,采用了Sunny Cove微架構的14nm版本CypressCove之后,終于將Sunny Cove架構引入至強平臺,這也是今天本文談論的第三代至強可擴展處理器。

由于Sunny Cove微架構在本刊之前的文章中介紹過多次,所以在本文中只做簡單介紹。總的來看,SunnyCove微架構在下列四個方面做出了增強:一是前端更高的容量和改進的分支預測;二是執行部分更大的分配單元、更大的結構和更多的執行資源;三是TLB的增強、單線程執行和預取的增強;四是更大的L2緩存和更高的向量吞吐能力。上述所有的改進加起來,帶來了Ice Lake核心相比上代核心大約20%的IPC性能增強。

指令集結構:全新指令集加入

在全新的微架構之外,是全新計算體系架構,這里主要是指英特爾針對矢量計算、并行計算加入的大量全新指令集。其中包括針對密碼學、大數算術(主要是AVX 512整數的IFMA操作)、矢量AES和矢量Carry less乘法指令、有關伽羅華域(Galois Field)的一些新指令集、有關SHA壓縮和解壓縮的一些指令集以及特殊的SIMD、有關比特代數的一些指令集以及VBMI矢量操作的指令集等。

由于這些指令集過于底層,因此大家不需要太過于關心其中的具體內容。英特爾給出了一個比較直觀地對比就是在采用的新的指令集后,一些具體計算的加速情況。通過矢量CLMUL指令集、矢量AES指令集、VPMADD52指令集、SHA擴展指令集、GFNI指令集的加持以及相關軟件和算法的支持, Ice Lake相比Cascade Lake每個核心能夠帶來最高5.63倍的性能增幅(RSA Sign 2048)、最低也有1.5倍(ZUC),其余的平均可以帶來大約3~4倍的增幅,總的來看,所有10個測試最終可以帶來大約3.264倍的性能提升,這個幅度已經相當驚人了。

當然,在實際的最終應用中,只是更換硬件平臺也許暫時不太可能會有這么高的提升。但是考慮到目前很多軟件已經開始支持這些指令集,以及英特爾軟件部門會針對大客戶做很多優化,最終大客戶應該也會獲得不錯的性能收益。后文英特爾還對此給出了一些數據。

提升存儲效率:緩存、內存和IO

緩存、內存和1O部分的改進也是本次第三代至強可擴展處理器的重點。英特爾給出的資料顯示,新處理器的共享LLC緩存提升至之前產品的1.5倍,帶來了新的緩存Hemispheremode模式,這個模式可以允許CPU對緩存交錯存取,并且將緩存的訪問進行一定程度的限制,從而起到降低延遲的作用。此外還有一些其他有關延遲、帶寬和SoC擴展的改進,但是英特爾并未詳細提及。內存方面,目前第三代至強可擴展處理器支持8通道DDR4 3200內存,在內存控制器方面做出了改進,降低了延遲并提高了帶寬。外部IO方面,第三代至強可擴展處理器現在擁有64個PCIe 4.0通道, CPU之間的UPI鏈路擁有3條,單條速率為11.2GT/s,另外還有一些延遲的降低。

英特爾還給出了有關第三代至強可擴展處理器對比之前第二代產品的帶寬、延遲的相關測試數據。一般來說,在啟用處理器更多內存通道并獲得更高內存帶寬的時候,內存的延遲會顯著提升。但是,在新的第三代至強可擴展處理器上,當數據占用內存帶寬的數值逐漸提升的時候,相對應的延遲數值上升幅度要比前代產品的上升幅度更低。非常典型的情況是,當至強8280處理器在內存帶寬占用率剛剛達到至強8380處理器大約一半的情況下,其對應的延遲值就上升至300ns,此時至強8380的延遲僅為約100ns,而最終至強8380在內存帶寬翻倍的情況下,延遲也僅僅提升至400ns。另外的一組數據帶來了相似的結果。這證明英特爾在新一代處理器的緩存、內存和I0方面的改善是極其有效的。

英特爾還提及了一些有關SoC層面的改進,其中包含無縫的電源管理架構、片上架構更改以提高整個系統的性能一致性以及最重要的緩解了AVX512啟用時頻率降低的情況。英特爾用Intel Data Plane DevelopmentKit (DPDK) BasicFwd應用程序做了測試,第二代產品的延遲速率大約在21ns左右,在第三代至強可擴展處理器上,這個數據降低至大約7~8ns,效果極為顯著。

更低的延遲:緩存和內存性能表現

英特爾在第三代至強可擴展處理器做了一個非常巨大的改變,通過Mesh架構將處理器的核心數量大幅度提升至40個,相比之前產品的28個,大約提升了40%。在同一個架構基礎上提升如此多的核心數量還是非??鋸埖?。因此,本文在下一部分將詳細研究一下有關英特爾Mesh架構的內容。

英特爾在發布會上對新的處理器的Mesh架構內容頗為語焉不詳,不過給出了第三代至強可擴展處理器和AMD EPYC處理器的相關延遲情況的對比。在緩存延遲方面,英特爾表示第三代至強可擴展處理器要強于AMD產品,尤其是在L3緩存方面。這個數據非常有意思,大家不妨參考我們列出的表格。

值得注意的是,第三代至強可擴展處理器在L1、L2、L3訪問上的延遲呈現常態遞增的狀態,比如其L1和L2緩存的延遲周期略高于AMD EPYC7003系列處理器,但是在L3緩存上卻有兩種極端的情況。AMD處理器在32MB以內的數據命中延遲上是比英特爾新處理器小得多的,但如果是訪問32MB以外的數據,那么AMD處理器的命中延遲則遠大于英特爾第三代至強可擴展處理器。

此外,如果L3數據訪問需要跨插座,那么AMD處理器的延遲(本地處理器訪問2S系統的其他處理器)也會大幅度超出英特爾產品。在這里,英特爾給出的L3延遲數據可能是參考均值。因為Mesh架構下,英特爾的每一個處理器核心(Core)都有一個本地小型L3緩存,但是L3緩存又和Mesh架構緊密相連,對CPU的每一個Core來說,訪問自己的L3肯定是最快的,英特爾沒有說明訪問遠距離L3的延遲情況,考慮到Mesh架構片上通訊的高效率,我們猜測這里的延遲應該綜合考慮了所有情況。

這里的數據不僅僅意味著延遲和控制問題,實際上它代表著AMD和英特爾兩個廠商在設計思路和整體架構上的巨大差異。我們在下文再進一步詳細解讀。

內存方面,英特爾也給出了一些數據。這些數據顯示AMD的內存延遲要比英特爾產品高一些,顯然這是因為AMD采用Chiplet架構,而英特爾的內存控制器在Mesh的節點上,跨插座的話,AMD延遲也會更大。容量層面,英特爾因為支持傲騰,所以可以做到總容量更大。

深挖: 40核心的Mesh架構探秘

英特爾在多核心處理器的架構上使用過數個架構,包括非常有名的環形總線。其特點是延遲隨著核心數量提高而提高,因此最終承載核心數量的能力是有限的。在英特爾的實際產品中,環形總線最多承載了28個核心。如果要進一步擴展更多核心的話,英特爾發現需要放棄環形總線,于是后來改用了網狀總線,也就是本文提到的Mesh總線。

英特爾首次使用Mesh總線是在已經退市的至強融核處理器中,這種處理器有72個內核,因此環形總線是不可能為其工作的,在這個處理器中所有的內核溝通都依靠新的Mesh總線。相比環形總線,Mesh總線相當于為每一個處理器核心都增加了所有方向的數據溝通接口,形成了一個網格狀分布,網格的交叉則落點在處理器的單個核心上。根據英特爾給出的資料,Mesh總線和整個SoC架構是由不同的功能片(Tile)組成,這些功能片形形色色,包括UPI、PCIe總線控制器、內存控制器、DMA和CBDMA、CPU核心以及CHA、SF和LLC等。其中CHA(Caching and Home Agent)是指緩存功能和本地代理, SF (Snoop Filter)是指Snoop過濾器,LLC (Last Level Cache)是指未級緩存,也就是L3緩存。

在這里我們可以看到, Mesh架構將處理器的每個核心以“分布式”的方式分散為片,英特爾只需要通過Mesh架構將不同的片組織起來即可。舉例來說,在Mesh架構下,通過一個CHA/SF/LCC片搭配一個CPU核心片,就可以組成一個節點,幾乎包含了一個處理器除了外部IO以外的所有功能。然后再為這個節點設置好本地CMS (Converged/CommonMesh Stop,信息Mesh站)就可以掛接在Mesh網絡中了。CMS主要是用于監聽、過濾、接收不同地方的信息,并且還要幫助其他處理器實現信息的轉發。CMS站直接和處理器的LLC部分連接,并且和自己上方、下方、左方、右方四個方向的CMS站連接(如果有)。由于這種網絡連接的形態,外加位于同一芯片上,因此可以實現非常低的延遲。對CPU來說,在操作上也不需要區分L3的位置,只需要將需求交給Mesh網絡即可通過片上通信高速地轉發和尋找得到信息。

英特爾首次啟用Mesh網絡是在Skylake-SP處理器上,這款處理器擁有最多28個核心。為了區分不同的市場并獲得更好的良率,英特爾將其分為10個核心以下的LCC產品、18個核心以下的HCC產品以及擁有28個核心的XCC產品,所有類型的產品都采用的是Mesh網絡連接。其最大的XCC產品采用6×6的模塊化設計,頂部6個單元分別是3個PCIe控制器片、2個UPI片、一個混合了PCIe、DMI和CBDMA功能的混合片。下部的CPU采用6×5設計,總計30個單元,其中2個單元被內存控制器占用,所以最大核心數為28個。從Skylake-SP開始到上一代Cascade Lake SP,英特爾一直維持這樣的架構,基本沒有大的變化。在這種設計下,根據英特爾Mesh通信先豎向查找、后橫向查找的工作模式,最遠的通路是最左下角的CPU核心至最右上角的PCIe控制器,它們進行數據傳輸過程如果包含自己的節點的話,那么就需要經過11個節點。

在最新的第三代至強可擴展處理器也就是Ice Lake SP上,英特爾為了擁有更多的核心,擴展了Mesh架構的布局。全新的Ice Lake SP采用的是8x7結構,橫向有8個片,縱向有7個片。頂部和最下部包含了所有的IO接口模塊,另外還包含了三個占位符(Dummy)和4個處理器核心以及緩存。和上代產品有所不同的是,本代產品的IO功能片分列在整個Mesh陣列的,上端和下端,這可能是考慮到處理器通訊的便捷性,不用都集中在某一個方向進行數據傳輸,降低產生數據鏈路熱點的可能性。

Ice Lake SP的CPU core Mesh架構的橫向深度最多為8、縱向深度最多為6,從規格.上來看的話是一個8×6的設計,相比上代CPU部分6×5(整體為6×6)的設計擴大了不少。不過Mesh的特點在于內部兩兩互聯,在Ice Lake SP上,Mesh路徑最遠的通路應該是左上角的CPU核心向右下角的PCIe控制器傳遞數據,整個傳輸過程如果包含自己的節點的話,需要經過13個節點,比上一代節點增加了2個,增加的實際延遲每多一個節點大約會增加10ns左右。而且,由于Ice LakeSP的Mesh架構中IO節點分布在整個架構的上下兩側,所以一般來說CPU核心會通過靠近自己的IO片進行通訊,因此,相比上代產品,延遲增加也很有限。

英特爾在Ice Lake SP上展示了Mesh架構的強大生命力,尤其是進步擴大芯片規模后并沒有增加太多延遲。不過,在Ice Lake SP上,其CPU核心數量上還是遠遠落后于AMDEPCY 7003系列的單顆最高64核心。為什么英特爾不進一步擴大Mesh架構的規模呢?我們推測原因可能有幾方面:一方面,每擴大一圈網格,都會繼續增加總體延遲。目前Mesh架構下,英特爾自己的數據都顯示;其L3延遲情況是略差于AMD在32MBL3以內的數值的,這可能和Mesh總線本身的運行特性有關,如果繼續增加Mesh的規模,遠距離通訊帶來的延遲是否還會繼續增加?是否延遲增加后會帶來性能損失或者對整個處理器的性能平衡帶來影響呢?相信英特爾自己的實驗室是有結論的。另外,由于Mesh架構里還要留節點布置PCIe、UPI等1/0節點,也就是說,即使是增加到8x8的規模,也達不到64個核心。在按目前英特爾透露的只言片語來看,下一代至強可擴展處理器的核心數量規模也僅為50多個核心。

如果進一步將網格擴大兩圈至9×9呢?那么不但有延遲的問題,還有制程方面的限制。因為即使是英特爾現在的10nm制程工藝,Ice LakeSP的40核心產品的芯片面積都超過了600平方毫米。進一步擴大面積來獲取更多的核心也許會導致良率下滑。畢竟芯片面積已經足夠大了,所以英特爾下一代產品也未必會用簡單擴圈的方式來增加核心。在這種情況下,為了確保產品良率并細分市場,英特爾都會推出LCC、HCC和XCC三種不同類型的芯片,但是在本次Ice Lake SP發布會上英特爾沒有提到這個內容,不過,英特爾展示的部分資料顯示依舊有28核心的配置。因此,Ice Lake SP可能有10核心、18核心、28核心、40核心等多個芯片以對應不同的市場。不過這樣的情況可能在下一代英特爾至強處理器上會發生變化。一些消息顯示,2021年底英特爾新的、代號為“Sapphire Rapids”的至強處理器將改用MCM多芯片封裝的方式,目前的消息是每個小芯片最多14個核心,4個MCM共計56個核心,CPU的微架構將采用新一代的GoldenCove,工藝采用10nm SuperFin的改進版本,TDP功耗預計為400W。新的處理器可能還會一起封裝HBM2高帶寬內存,同時也支持DDR5內存。如果這個消息最終被確認為真的,那證明英特爾將在下一代處理器上放棄Mesh架構,改用類似Chiplet的小芯片架構,不過具體如何排布整個芯片系統、是否采用獨立的IO芯片以及如何匹配HBM2緩存和DDR5內存等,還有待英特爾進一步揭秘。

可信計算和安全

在第三代至強可擴展處理器發布會上,英特爾還介紹了有關可信計算的內容。這部分內容主要是指SGX帶來的一些新的功能,包括:在操作系統、驅動、BIOS、VMM或者SMM被破壞的情況下還能防止進一步的軟件攻擊,在攻擊者控制系統或平臺的情況下持續提供數據保護,防止包括內存總線窺探、內存篡改、RAM內“冷啟動”等攻擊,基于硬件認證提供的有效的代碼和數字簽名等。這部分內容并不是本文的重點,因此就不展開講述了。

性能:再度超越

和所有發布會最后的部分一樣,英特爾也帶來了大量的性能對比數據用于證明新的產品比舊的好,我們來簡單來看一下。英特爾選擇第三代至強可擴展處理器對比第二代、第一代至強可擴展處理器以及早期的至強E5等產品。從數據來看,第三代至強可擴展處理器在整數測試也就是IntegerSPECrate2017_int_base的測試中最高可達第二代產品的1.5倍、第一代產品的1.6倍、至強E5v4和至強E5v3的2.34和2.85倍。在浮點測試Floating PointSPECrate2017_fp_base中的性能是之前產品的1.52、1.62、2.6、3.8倍。其余的還包括內存帶寬測試、LINPACK測試以及Geomen測試,新的第三代產品都以相當高的幅度領先了前代對手。其余的一些數據還包括對比DDIO、AVX-512測試、IntelCrypto Acceleration、 DL Boost開關前后的數據,這證明新的處理器在功能和特性上都有非常大的進步。

另外值得注意的是,英特爾特別使用第三代至強可擴展處理器的頂級型號也就是至強白金8380(40核心)的雙路系統和AMD EPYC 7763(64核心)雙路系統,運行了有關AVX-512的高性能計算、AVX-512的云計算以及支持DL Boost的AI計算后給出了相關性能的對比。這些測試顯示,英特爾產品在性能中最少能夠取得相對AMD產品1.18倍的性能增幅,最多可以取得25倍的性能增幅。這顯示了英特爾在指令集、軟件支持以及行業方面的巨大優勢。當然,這樣的比較對AMD來說略顯不公,因為AMD目前尚不支持這些指令集,但兩家是有專利互相授權的,所以AMD未來會支持也不一定,就好像現在AMD也支持AVX256。不過,至少目前來說,如果用戶和市場有這類專項需求,英特爾還是優勢十分明顯的。

邁向新的計算時代

在本文的最后,我們再來總結一下相關的內容。第三代至強可擴展處理器相比前代產品的提升是:

1.CPU核心數量從前代產品的最多28個提升至最多40個, CPU架構采用了最新的Sunny Cove;

2.L1、L2和L3緩存容量受益于全新的Sunny Cove架構,得到了顯著提升;

3. PCIe通道從之前的最多48個增加至最多64個,且升級至PCIe 4.0標準;

4.支持的最大內存容量提升至4TB,前代為3TB;

5.支持全新的SGX Enclave安全特性;

6.處理器插槽的數據傳輸帶寬增加了7%;

7.支持DDR4-3200和傲騰DCPMM 200系列;

8.性價比的提升;

9.當然,還是有一些變弱的數據:比如單核心最高頻率降低了,從之前的最高4GHz降低至3.4GHz;

10.多核心最高頻率也降低了,從之前最高3.3GHz降低至3GHz。

11.TDP增加了大約32%,從最高205W提升至270W,其實對應芯片數量增加的規模和頻率降低的規模來看,這是符合預期的。

總的來說,憑借全新的10nm工藝全新的Sunny Cove架構、全新的指令集支持、全新的安全控制技術以及擴展的Mesh架構等技術升級,10nm工藝的英特爾第三代至強可擴展處理器產品實力力大增,將給競爭對手帶來更多的壓力。

TIPS AMD EYPC 7003系列處理器簡介

本文在這里也簡單解釋一下英特爾提到的AMDEYPC7003系列處理器在需要緩存的數據超過32MBL3緩存規模會導致延遲暴增的問題。根據AMD之前發布會的資料,AMDEPYC 7003系列處理器采用的是Chiplet設計,分為IO芯片和CCD芯片。每個CPU芯片擁有8個CPU核心和每個CPU核心綁定的L1、L2緩存,以及所有8個CPU核心共享32MB L3緩存。整個處理器擁有8個CCD芯片和1個IO芯片。

因此當同一個CCD芯片上的CPU核心訪問本地緩存的時候,延遲是非常小的,甚至小于英特爾的Mesh架構,這是因為同一個CCD芯片上的CPU核心可以訪問全部32MB緩存。但是,如果不同CCD芯片之間存在緩存訪問的話,整個訪問路徑就需要跨過IO核心,延遲更接近于不同CPU插槽之間的訪問延遲,比如AMD在這種情況下延遲高達112ns,接近英特爾跨插槽的延遲118ns。在不同插槽之間存在數據訪問時,AMD方案需要跨越兩個IO芯片才能得到數據,因此延遲更高,高達209ns。這就是Chiplet這類架構設計的弱點之一。當然,AMD也會考慮對此架構進行優化,將緩存數據優先放在最靠近的L3緩存中。畢竟32MB的緩存也足夠大。按AMD的統計數據,很少有應用程序的緩存數據能夠占滿這么大的空間。

AMD采用Chiplet的架構設計也有自己獨特的優勢。那就是更容易擴展核心數量且更方便制造、成本更低。在更容易擴展核心數量方面,目前AMD推出64核心的處理器,采用了8個CPU芯片(被稱為CCD),這8個CCD配合一個IO核心就實現了CPU核心數量上對競爭對手的碾壓。并且有消息稱,下一代產品AMD會將單個CCD中的CPU核心數量提升至12個,這樣一來AMD就可以獲得96核心的處理器。

至于AMD為什么不使用更多的CCD來連接搭配IO芯片,主要的原因可能還是目前CPU的PCB基板已經無法容納更多的芯片布線了。AMD的Chiplet方案只需要分開生產面積較小的CCD和IO芯片,其中CCD的面積僅為73平方毫米,幾乎只有英特爾完整CPU芯片的大約1/9。而AMD使用8顆芯片的總面積也只有約580平方毫米。從工藝良品率的角度來看,8顆73平方毫米芯片的生產難度要遠遠低于生產一顆560平方毫米的芯片,即使算上I0芯片的460平方毫米(12nm工藝制造,成本不高),AMD在總面積接近1000平方毫米的情況下,有可能成本上相對英特爾一個600平方毫米的芯片還更便宜。

TIPS環形總線架構介紹

環形總線架構在現在來看依舊是以一個非常經典且實用的設計,在核心數量較低的時候,能夠非常好地滿足核心內部的數據互通問題。而環形總線的發展也經歷了單環、雙環和多環等多個階段。

當早期核心數量較少(小于10個)時,英特爾使用單環來連接CPU核心、內存控制器、PCIe總線控制器、PCU等所有部件并通過路由器的方法互相通信,此時如果某個核心的數據需要到達另一個核心,那么只需要將其發送至環并且在環上傳輸即可。雖然可能由于核心的距離等存在一定的延遲,但是在當時的技術條件下也是非常不錯的設計方案。不過,在核心數量進一步增加后(小于20個),由于單環存在方向性,因此距離較遠的核心通信延遲就開始變高。對于這類產品,英特爾使用了兩個方向相反的雙環,中間用GrossBar連接。雙環通信進一步擴展了環狀總線可以容納的核心數量,但是兩個不同環之間通信延遲會增加。

在雙環通信之后,處理器的核心數量進一步提升至30個左右時,單獨依靠雙環就顯得非常難以為繼了。因此,英特爾將處理器核心數量進行了劃分,10個和10個以下的核心數量成為一種產品,被稱為LCC,采用單環通信; 10到20個之間核心數量的產品采用的是雙環通信,被稱為HCC;在20到30個核心的產品上,英特爾設計了1個單環和1組雙環,并將兩個環用Crossbar連接起來,被稱為XCC。此時兩個不同環的處理器發送數據需要先發送至當前處理器的環站,再上環后送至Crossbar,然后再下站至另一個環,最后進入目標處理器的環站。這意味著大幅度增加了數據傳輸延遲,兩個不同環的處理器被認為是片上“非均勻內存訪問(NUMA)”,但是英特爾聲稱其利用相關的內存感知技術,盡可能將數據保留在本地核心所需的環內,避免出現跨環訪問數據延遲過高的情況。

猜你喜歡
產品
好產品,可持續
現代裝飾(2022年4期)2022-08-31 01:39:32
從靈感出發,邂逅好產品
現代裝飾(2022年3期)2022-07-05 05:55:06
新產品
“三無”產品
快樂語文(2021年36期)2022-01-18 05:48:46
OPPO:堅守本分,將產品做到極致
金橋(2021年4期)2021-05-21 08:19:22
”這些產品,我不打算回購。
中國化妝品(2018年6期)2018-07-09 03:12:40
拒絕平凡,如何讓你的產品變“有趣”?
中國化妝品(2018年6期)2018-07-09 03:12:32
2015產品LOOKBOOK直擊
Coco薇(2015年1期)2015-08-13 02:23:50
golo6可以聽的OBD產品
新產品
玩具(2009年10期)2009-11-04 02:33:14
主站蜘蛛池模板: 男女性午夜福利网站| 六月婷婷综合| 91久久性奴调教国产免费| 日韩精品成人网页视频在线| 视频一区亚洲| 国产粉嫩粉嫩的18在线播放91| 国产黄色免费看| 亚洲首页国产精品丝袜| 久久久久久久久亚洲精品| hezyo加勒比一区二区三区| 日本在线国产| 九九九九热精品视频| 日韩精品资源| 亚洲日本中文字幕天堂网| 亚洲高清无码精品| 欧美日韩中文字幕二区三区| 91美女视频在线观看| 国产精品99r8在线观看| 国产亚洲精品自在线| 欧美日韩国产在线人| 国产成人精品第一区二区| 国产欧美视频一区二区三区| 国产日韩丝袜一二三区| 国产爽爽视频| AV片亚洲国产男人的天堂| 伊人蕉久影院| 亚洲综合片| 精品福利一区二区免费视频| 亚洲无码高清一区二区| 国产成人免费高清AⅤ| 无码中文字幕精品推荐| 欧美激情第一区| 91久久偷偷做嫩草影院精品| 欧洲精品视频在线观看| 丝袜亚洲综合| 中文字幕人妻av一区二区| 亚洲无码视频喷水| 久久激情影院| 色婷婷狠狠干| 丁香六月激情综合| 人妻少妇乱子伦精品无码专区毛片| www.av男人.com| 无码av免费不卡在线观看| 国产亚卅精品无码| 22sihu国产精品视频影视资讯| 国内99精品激情视频精品| 亚洲第一区在线| A级全黄试看30分钟小视频| 日韩AV手机在线观看蜜芽| 国内丰满少妇猛烈精品播| 亚洲AV无码一二区三区在线播放| 秘书高跟黑色丝袜国产91在线 | 曰韩人妻一区二区三区| 午夜国产精品视频| 国产亚洲精| 五月综合色婷婷| www.99在线观看| 中字无码精油按摩中出视频| 国产毛片基地| 99在线视频免费| yjizz国产在线视频网| 不卡无码h在线观看| 久久人体视频| 欧美国产三级| 强乱中文字幕在线播放不卡| 国产高清免费午夜在线视频| 国产成人免费手机在线观看视频| 久久77777| 亚洲av日韩综合一区尤物| 91人妻日韩人妻无码专区精品| 午夜国产大片免费观看| 亚洲国语自产一区第二页| 亚洲三级电影在线播放| 国产成人午夜福利免费无码r| 免费观看成人久久网免费观看| 亚洲性影院| 成人在线天堂| 日韩福利视频导航| 四虎国产成人免费观看| 久久毛片网| 97精品国产高清久久久久蜜芽| 欧美中文一区|