999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

為下一個創新時代奠定基礎 2021年英特爾架構日技術解讀

2021-10-29 19:22:08徐昌宇
微型計算機 2021年18期
關鍵詞:指令設計

徐昌宇

8月19日,2021年英特爾架構日大會正式召開。架構日是英特爾向外界展示其新技術和新產品的例行窗口,今年的大會內容更是特別豐富,英特爾幾乎傾囊而出,將自己在消費級CPU、GPU、服務器CPU、并行計算產品以及各類配套軟硬件技術方面的積累都向外界進行了詳細介紹,可謂是“干貨滿滿”。本文將選擇一部分重要,且和普通消費者關系比較密切的內容進行詳細介紹。

此次發布會堪稱近年來英特爾最重要、內容最詳實、涉及面最廣以及影響力最大的技術發布會。英特爾在會上提出了針對標量、矢量、矩陣、空間四大基礎計算架構相關的處理器和封裝、互聯技術、內存技術、軟件技術和架構等六大關鍵技術領域的創新。

在這些技術背后,英特爾的目標是在2025年實現相對于現在產品1000倍的性能提升。“1000倍”這個數字聽起來非常不可思議,但實際上英特爾指出,計算機系統的性能提升是一個乘數關系,如果上述處理器和封裝、互聯技術、內存技術、軟件技術和架構的每一個部分(處理器和封裝算作一個部分)都實現4倍的性能提升,最終整個系統在理想情況下就將實現4的5次方的|生能提升,也就是1024倍,這也就是1000倍性能提升的來源。

為了達到這個目標,英特爾在2021年帶來了11個全新的產品和技術,其中大量創新性技術英特爾還是首次給予詳細介紹。

此次發布會的重頭戲自然非Alder Lake莫屬,它是英特爾采用“大、小核心混合”設計的產品,搭載基于Gracemont架構的能效核以及基于Golden Cove架構的性能核,下面我們就先來看看這兩種架構都有哪些技術亮點。需要提醒大家的是,英特爾的本次發布會全程采用直播方式進行,并且對處理器的大量新技術介紹已經非常詳細,部分不是很重要的內容,本文就不做深入講解,而是重點向大家展示一些背后的技術、重要的設計和有趣的對比,感興趣的讀者不妨在閱讀本文的同時觀看英特爾的發布會視頻,效果更佳。

全新的能效核:英特爾Gracemont架構解析

英特爾在小核心(也就是高性能功耗比核心)上的研發有非常深厚的技術積累。早在2008年,英特爾就面向當時流行的上網本等產品發布了Atom系列處理器。該系列處理器一直以來并不以性能為第一優先目標,而是更注重能耗控制,早期的產品在架構設計方面采用的是較為簡單且節約面積的雙發射、順序執行架構,性能有限。不過隨著生產工藝的發展,英特爾開始在這個系列中加入更多的資源和功能。

2019年,英特爾推出了當時最新的Tremont架構。Tremont產品在內部架構上做出很多調整,前端包括2個3寬度的解碼單元,在理想條件下可以實現6發射寬度——這可是x86處理器首個6發射產品,同期SunnyCove只有5發射。Tremont后端執行部分采用亂序設計并加強計算資源等。得益于規模加強,在CINEBENCH R20和R15兩款測試軟件中,Tremont基本上都能達到了Skylake或Zen 2架構性能的80%~95%——這實際上和很多人印象中“該系列性能孱弱”的認知是完全不一致的。

在Tremont之后,今年英特爾發布的產品就是本文的主角之一:Gracemont。在英特爾之前的路線圖中,Gracemont是Tremont的繼承者,隸屬于Atom家族。不過本次發布會上,Gracemont有了一個全新的名稱:Efficient x86 Core,也就是效能x86核心。前文講解了這么多關于Tremont的內容,主要是簡單描述英特爾這個系列架構的發展歷史,并引入

五大部分和三大特性:Gracemont的宏觀結構

英特爾在本次發布會上明確指出,Gracemont采用了高度可伸縮的架構以滿足未來十年高效率吞吐數據的需求。鑒于此,Gracemont需要滿足下列四個目標:

1.極高的能效比

2.芯片尺寸較小且可大幅度擴展

3.支持矢量和AI計算

4.具有極寬的頻率范圍

通過仔細觀察英特爾的設計目標我們可以發現,Gracemont對能耗比、擴展能力有較高要求。另外和之前的Atom系列產品不同的是,Gracemont加入針對高級矢量擴展、AI計算方面的支持,這一點是非常特殊的。一般來說,小核心架構通常避免加入類似矢量計算這樣的計算密集型設計,因為小核心架構的內部設計和資源布局不適合運行這些內容。然而,英特爾在Gracemont中加入矢量計算的內容,顯示出它并非單純偏向于能耗比考慮,其架構設計時考慮更多的是達到使用中的平衡。最終,Gracemont既可以在低電壓、低頻率下以極低的功耗運行,可以應用在包括一體機、ATM機、機頂盒、平板設備這類對功耗非常敏感的設備上,同時它也能以極高的頻率和性能來面對高功耗負載。

這使得英特爾在Gracemont架構的設計階段就必須兼顧這兩者。事實上這是有一定難度的,畢竟要提升性能功耗比,往往就會使用較短的流水線,但是要提高頻率,流水線級數又不能太短,英特爾在這里的平衡是非常獨到的。

在架構設計部分,Gracemont被劃分為五大區域,分別是前端、亂序執行引擎、標量引擎、矢量引擎和內存系統。英特爾提到,Gracemont的設計特點是更深且按需要長度解碼的前端、更寬的后端、大量執行端口以及為Intel7工藝進行的全面優化。

前端:3+3的解碼器設計,相比上代大幅度加強的架構

先來看看Gracemont前端設計的基本情況。Gracemont的前端設計實際上和之前的Tremont存在很高的相似性,但又顯而易見地進行了極大加強。從架構簡圖來看,前端設計包含雙IP Queue,緊跟著64KB的指令緩存,接下來則是Bypass(旁路)模塊和本次介紹的重點OD-ILD (on-demand instruction length decoder,按需指令長度解碼器)。接下來數據會進入指令數據(instruction data)單元后,再被送入兩個3寬度的解碼器,最后進入微指令隊列(uop queue)中。此外,在分支預測方面,Gracemont擁有I-TLB和I-cache Tag,另外還有大幅度加強的分支預測單元。

僅從架構圖來對比,我們可以看出在前端設計方面,Gracemont相比Tremont有顯著加強。Tremont缺乏的單元包括OD-ILD、Bypass、uop queue。在分支預測單元部分,Tremont只有指令拾取和分支預測單元,這相比Gracemont大幅度加強的分支預測單元來說還是弱了一些。那么,Gracemont增加的這些單元都有哪些作用呢?

從宏觀角度來看,Gracemont前端增加的部分大幅提升了有效指令流的吞吐量,這與Gracemont整體設計目標和后端規模提升是相匹配的。首先,Gracemont加入更大的指令緩存,其指令緩存容量為64KB,相比Tremont的32KB指令緩存實現容量翻倍,這也是目前所有x86處理器中使用的容量最大的指令緩存,這種設計可以存儲更多的指令,在提高效率的同時還能降低內存頻繁讀寫,以降低能耗。

Gracemont的OD-ILD單元是本次設計的一個亮點。我們知道,x86本身指令編碼非常頻繁且不固定長度,在最壞的情況下,經過編碼的指令長度可達15個字節,對這么長的指令預解碼是一個非常耗費資源的線性操作,并且同樣由于x86指令長度不等長,處理器也不可能在這個指令預解碼完成之前就去尋找下一條指令。一般來說,處理器要知道一個指令編碼包含什么內容、有多長,是否和后續指令相關,基本上要處理完指令的一大部分內容,這非常耗費時間和資源。因此,對高性能x86處理器而言,設計人員會設計一個較大的微操作緩存,將大量指令解碼的信息存儲在微操作緩存中,下一次遇到同樣的指令就不用解碼,直接從微操作緩存中取出預解碼信息或者指令解碼的結果就可以了。

不過微操作緩存的成本不低,實際效能也受到很多因素影響,所以如果不是特別追求性能的高性能核心,一般也不會使用。因此,Gracemont和之前的Tremont都沒有微操作緩存,每次遇到相同的指令都需要重新解碼,但這仍然存在一定的優化空間——Gracemont加入了一個名為OD-ILD也就是按需指令長度解碼器的單元。該單元的作用是可以生成預解碼信息(預解碼信息包含指令的長度和邊界等內容),并且存儲在64KB的指令緩存中。這使得系統第二次遇到類似的代碼時可以直接提出之前的預解碼信息,節省時間和周期,也能夠起到大幅度提升解碼器效率的作用。當然,雖然英特爾在這里的設計看起來像是一個“沒有物理緩存的微操作緩存”,但OD-ILD配合旁路單元、指令緩存存儲的只是預解碼信息,與真正的微操作緩存還是存在性能差距的。

再來看看Gracemont的分支預測部分。Gracemont的分支預測器現在可以支持所有緩存級別,它增加了可以存儲5000個條目的分支目標緩存,并且可以根據長期歷史數據對分支預測進行優化,生成準確的指令信息。這種設計還能盡早發現錯誤的內容,并且進行優化和糾正。英特爾認為,包括網絡瀏覽、數據庫和數據包處理等任務都會受益于這個分支預測器的加強。實際上,英特爾之前在Tremont上就采用了大幅度加強的、酷睿級別的分支預測器,在Gracemont上則是進一步擴大規模,并提高性能。

Gracemont的第三個亮點則是繼承于Tremont的雙3寬度的解碼器。根據之前英特爾的介紹,在最理想的情況下,Gracemont的雙3寬度解碼器能夠實現每周期解碼6條指令,并且保持和一些較窄的解碼器相同的能耗。不僅如此,英特爾還為Gracemont加入了硬件驅動的負載平衡器,它可以將長鏈的順序指令直接插入切換點,保證兩個解碼器能并行工作。此外,Gracemont還為前端加入了微指令隊列單元,這樣可以實現指令排序進入后端執行部分,效能更高。

后端:更大的規模,更強悍的性能

在后端部分,Gracemont的3個重要特性是5個寬度的分配(allocation)和8個寬度的退回(retire)、256條目的亂序執行窗口以及17個執行窗口。接下來我們一起來詳細了解這部分內容。

首先來看亂序執行窗口大小。在Gracemont上,這個數據是256條目,超過Skylake和Zen 2的224條目,和Zen 3站在同一水平線上,更大的亂序執行窗口搭配更多的后端單元有助于更高效率地填充指令。顯然,隨著處理器性能越來越強,未來亂序執行窗口還會進一步增大下去。

高達17個執行窗口是Gracemont最重要的改進之一。在上代產品Tremont上,這個數據僅為7。不過Tremont很多執行單元都是多功能的,但更多端口、更強大的后端設計也意味著Gracemont在性能方面可以達到更高的高度。最終性能評價方面,理論上Gracemont在很多方面都能達到前代Tremont的翻倍或者更高。比如Gracemont的整數性能每周期可以解析或完成兩個分支,這是Tremont的兩倍,矢量方面相當于擁有3個支持SIMD的ALU,比Tremont多1個,并且兩個獨立的FADD和FMUL管道可以每周期完成兩個獨立的加法和乘法計算,也在Tremont的基礎上實現翻倍。在指令集支持方面,Gracemont基本達到了Haswell架構的水平。根據英特爾的介紹,Gracemont可以支持AVX2指令集,并且加入了為AI加速設計的AVX-VNNI指令集,以及一些新的安全或側信道技術,比如控制流執行技術等,從這個角度來看,Gracemont在執行端和ISA方面的設計還是非常充裕的。

緩存與內存子系統:最大4MB L2設計

Gracemont的緩存與內存子系統得到重大的改進。在端口方面,Gracemont的AGU端口現在增加至4個,這意味著每個周期可以完成兩個加載和兩個存儲,總計4個操作。在之前的Tremont上,由于只有兩個端口,每個周期要么完成兩個加載或存儲,要么1個加載和1個存儲,整體效能比Gracemont差了不少。在緩存方面,后端擁有32KB數據緩存,其指針追蹤延遲為3個周期,此外還支持64個outstanding misses(和緩存未命中后的工作機制有關)。

一般情況下,緩存未命中就要去下一級存儲單元中查找信息(一般是L2或者內存),在這個過程中,對流水線來說緩存是不可以訪問的,除非查找到信息并返回,這就意味著數據查找的過程會浪費大量時間。outstanding misses改變了這種死板的工作流程,它允許即使緩存未命中要去內存查找信息,流水線還可以繼續使用緩存并查找其他的信息。Gracemont目前支持64個outstanding misses,部分同類型的處理器一般只支持20個左右。因此在緩存未命中時,Gracemont應該能展示出更好的性能。

在L2緩存方面,英特爾的數據顯示,一個集群中的4個Gracemont核心將共享最多4MB L2緩存,其延遲為17個周期。共享的L2支持每個內核每周期64字節的讀寫操作,英特爾認為這樣的設計足以滿足Gracemont這類能效比核心的需求。另外,Gracemont的L2緩存也支持64次outstanding misses,但需要在所有4個核心中共享。

性能:超越Skylake約8%

英特爾給出了一些Gracemont的性能數據。數據顯示,使用Intel 7工藝的Gracemont對比使用14nm工藝的Skylake,在1CIT的情況下,Gracemont要么同等性能降低大約40%功耗,要么同等功耗提升40%的性能。另一個比較值得關注的則是多線程測試,使用Intel7工藝的4C4T的Gracemont集群,對比14nm工藝的Skylake 2C4T配置,要么同等性能的Gracemont集群降低大約80%功耗,要么Gracemont集群在功耗更低的情況下,提供超出2C4T Skylake配置的性能高達80%以上。

在這里需要注意的是工藝。由于工藝不同,單個Skylake核心的面積和擁有4個Gracemont的集群幾乎一樣大。一些第三方數據顯示,在CINEBENCH R20測試中,Gracemont的單核心性能大約是478,相比之下Skylake架構的酷睿i7-6700K大約是443,這意味著Gracemont的單核心性能大約比Skylake的某個版本高出了8%。考慮到前文曾提到Tremont的性能大約是Skyla ke的80%~95%,那么在綜合測試中,Gracemont可能獲得了相對Tremont大約30%左右的性能提升。

Golden Cove架構解析

從發展歷程來看,Golden Cove是Willow Cove的繼承者,但是相比Willow Cove,Golden Cove是一個顯然更寬、更深和更聰明的架構,英特爾宣稱Golden Cove的設計目標就是實現更高速度、更低延遲和更優秀的單線程性能。其重要特點包括對大型代碼和大數據量計算的優化、新增的AI協處理器以及新增的細粒度功率管理智能功耗控制器等。

英特爾將Golden Cove分為8個部分來介紹,分別是前端(指令拾取)、微指令排序、亂序執行單元、矢量引擎、標量引擎、全新的矩陣擴展單元以及全新的PM控制器,最后則是內存單元。值得注意的是,面向消費市場和企業級市場的Golden Cove存在一定差異,比如消費市場就全部禁用AMX(矩陣擴展單元),只有企業級市場的Sapphire Rapids才有這項功能。

前端:首個6發射x86處理器

縱觀英特爾數年來的架構設計,他們對前端的改動是非常慎重的。尤其對于高性能核心來說,前端的設計就像龍頭,有牽一發而動全身的影響。回顧歷史,從2006年發布的Conroe架構開始,英特爾就維持了前端“1個復雜解碼+3個簡單解碼”的4發射的設計,一直到2014年的Broadwell,8年沒有變化。之后英特爾在2015年發布的Skylake上做出改動,它采用了新的“1個復雜解碼+4個簡單解碼”的5發射前端,然后一直沿用到Sunny Cove,這—次又維持了大約7年。

現在,英特爾在Golden Cove上再次增加了1個簡單解碼器,變成“1個復雜解碼器+5個簡單解碼器”的設計。Golden Cove現在實現了6發射的前端,這是x86處理器設計中第一個真正意義上的6發射前端,也是目前x86處理器設計的難點。英特爾似乎解決了這一技術難題,但也有一定代價——Golden Cove在微架構遇到錯誤的預測時會增加一個周期,從之前的16周期上升至17周期,但英特爾沒有透露新增了一個解碼器會對性能帶來多少直接提升以及新增解碼器工作的細節內容。一些比較明顯的改善是:在前端發射寬度增加至6個寬度以后,前端獲得帶寬也從之前的每周期16字節翻倍到32字節。

另外,英特爾在前端解碼方面也并非全部依賴6寬度的解碼器。英特爾提到,在80%的時間內,前端解碼器都受制于時鐘門控。在這種情況下,微指令緩存起到決定性作用。考慮到前端更大、更寬,英特爾大幅度增加了微指令緩存的性能和寬度。新的微指令緩存輸出的能力從之前的每周期傳遞6個微指令提升至8個,并且現在可以存儲的條目數量從之前的2.25K提升到4K,這些改變都大幅增加了命中率和帶寬。其中,條目數量的提升可以大幅提高微指令緩存的使用效率,這和AMD在Zen2、Zen 3架構中的做法是基本類似的。在微指令隊列方面,在單線程的情況下,新的設計能夠提升144條目的隊列,是之前的70條目的兩倍多。在雙線程的情況下,每個線程都可以獲取72條目,相比之前的70條目略微提升。

最后再來看看前端的指令TLB和指令緩存部分。對于4K TLB,新的設計可以容納256條目,是之前128條目的兩倍。對2M/4M較大的TLB,新的設計可以容納32條目,也是之前16條目的兩倍,尤其是2M/4M TLB的改進,帶來了較大代碼效率的顯著提升。另外,L1指令緩存的容量沒有提升,依舊是32KB,但是增強了代碼預取功能。分支目標緩沖區的條目也從之前的5K提升到了12K,這是迄今為止x86處理器中最大的分支目標緩沖區條目(Zen 3為6.5K,Cortex-A77為8K),這對現代處理器來說是非常重要的。英特爾還提到自己在分支目標緩沖區加入了機器學習算法,可以智能地擴大或縮小規模,能夠自動關閉部分緩沖區以節約電能。

總的來說,上述所有針對分支預測的改進都能夠提升分支預測的效率,隱藏未命中延遲,提高分支預測的準確性以減少跳轉的誤預測,最終實現性能上的提升。

亂序執行:更寬、更深、更聰明

在中核也就是OoO引擎方面,Golden Cove也有很大的變化。由于前段的解碼從之前的5個寬度進化至6個寬度,因此中核也隨之改進至6個寬度,每周期能夠維持6 IPC的微指令發射規模,相比前代進一步提升。另外,英特爾宣稱他們在分配階段執行了一些簡單的指令,減少了需要發送到后端執行的內容,可以節約后端執行資源,但并未透露太多。

在亂序執行窗口方面,Golden Cove的重新排序緩沖區(ROB)容量從之前Sunny Cove的352大幅度提升至512,這比AMD的Zen 3架構大了一倍有余,僅低于蘋果的Firestrom微架構(630)。一般意義上,增加ROB的容量超過一定范圍后會帶來邊際遞減的效果,且同時會大幅度增加功耗。不過蘋果的案例說明還是有方法可以實現性能的大幅度提升,英特爾應該也找到了這個關鍵之處才有信心大幅度增加ROB數量。亂序執行的后端部分則是執行窗口,Golden Cove現在擁有12個執行窗口,相比之前的產品增加了2個。這部分內容下文還有詳述。

全面加強的執行引擎部分

英特爾在執行引擎部分分為三個模塊,它們分別是矢量引擎、標量引擎和全新的高級矩陣擴展(英文簡稱AMX)。

在標量引擎方面,Golden Cove新添加了10號端口用作ALU和LEA計算,因此現在有00、01、05、06、10五個端口可以實現標量計算。值得注意的是,所有這五個執行端口后的功能管道都是復合設計的。經過增加一個新的端口后,Golden Cove的標量執行端口現在堪稱x86中最寬的。

在矢量單元方面,Golden Cove在端口01和05上添加了2個新的FADD功能,相比之前的FMA單元,FADD的效率更高且延遲更低。另外,FMA單元現在可以支持FP16和復數計算了,05端口的FMA單元可以執行AVX512計算。英特爾特別指出,FADD執行浮點加法只需要3個周期,在一些背對背浮點計算(back-to-back floating-point)中,這個周期可以降低至2個。相比之下,上代執行浮點計算的FMA在端口00和01上有4周期延遲,05上有6個周期的延遲。相比Gracemont和GoldenCove前端上的改進,英特爾在后者執行單元的改進似乎顯得比較保守,這可能是英特爾在內部資源方面做出又—次平衡的結果。

緩存與內存子系統:提高并行性

為了配合前端、中核和執行單元的改進,Golden Cove的緩存與內存子系統也進行了改進,變得更寬和更深了。對L1緩存而言,新增的11號端口增加了一組AGU和讀取單元,這樣每周期可以加載的次數從兩次提升到了3次,其中,對于256bit的數據也就是AVX2 256,每周期可以加載3次,提升了50%;對于512bit的數據也就是AVX 512,每周期可以加載兩次。

英特爾還提到L1的深度方面的改進,但是沒有具體的數據,其主要變化在于加載緩沖區和存儲緩沖區尺寸的提升,這些改變都更有利于提升內存級并行的性能。智能化方面,新的設計降低了讀取延遲,并實現了更快速的內存消歧——所謂內存消歧,是指亂序執行微處理器不按照程序順序執行內存訪問,而是使用為處理器內部的數字邏輯和真實的依賴關系等,這種技術能夠實現更大的指令集并行。

在L2的改進方面,由于英特爾的一個架構要同時面向消費市場和企業級市場,因此在L2的設計上存在一些差異。對于消費市場而言,L2緩存每核心為1.25MB,考慮到企業級市場對性能要求更為敏感,L2緩存提升至每核心2MB。在性能方面,L2緩存將并行處理的未命中指令數量從之前的32提升至48。在智能化處理方面,L2緩存現在加入諸如基于反饋的預取節流、全行寫入帶寬預測優化、基于多模式的路徑預取器等功能。

最后再來看一些有關新的PM(Power Management)控制器的內容。英特爾對宣稱可通過內核自主、細粒度和電源管理技術,實現額外的性能。對于新的PM控制器,英特爾稱它可以將監控的間隔從毫秒級提升至微秒級,并根據實際應用行為來加強功耗預算利用率,最終可以提升性能。這里展示出英特爾對處理器核心和內部結構更為精細的電源控制,能夠在更短的時間內瞬間提升處理器部分結構的頻率和電源供應,以實現更好的性能,這是智能化電源管理的重要突破。

性能:綜合提升19%

英特爾對Golden Cove的性能做出了一個預覽,其平均性能提升19%,對比的是Alder Lake的性能核與Rocket Lake的Crypress Cove架構,兩者頻率都鎖定在IS0 3.3GHz。從數據可以看出,Golden Cove在一小部分測試項目中告負于Crypress Cove,但是在其他所有剩余的項目中都領先Crypress Cove,最大領先幅度達到60%,平均領先幅度為19%,這是英特爾近年來代際提升中最大的數值之一。Golden Cove如此高的性能提升,應該主要歸功于前端的大幅度加強,包括6個寬度的發射單元、微指令提高了25%的輸出寬度以及更深的亂序執行緩沖區等。但是在后端執行資源方面Golden Cove改進沒有那么明顯,這很可能是英特爾下一代架構要做的事情。

AVX 512:Alder Lake不再支持

在談論硬件線程調度器之前,在ISA方面還有一些內容需要厘清。現在英特爾明確宣布,面向消費級市場的Alder Lake將不再支持AVX 512。其主要原因是Gracemont僅支持AVX2,即使Golden Cove支持AVX 512,那么在最終組合成Alder Lake的時候,也必須關閉Golden Cove的AVX 512功能以實現ISA的一致性。否則的話,兩個不同核心中的任務將無法遷移。

不過在Golden Cove的架構設計中,英特爾加入FMA 512的支持,另外還加入專門的AMX模塊。但是為了保持不同架構處理器的ISA一致性,英特爾最終決定將Alder Lake的GoldenCove核心中的AVX 512功能徹底關閉,同時禁用AMX功能。這意味著消費者購買的Alder Lake處理器中的一部分晶體管和功能模塊是不工作的。另外,由于Alder Lake不支持AVX 512,轉而支持AVX 2,所以英特爾還將之前專門為AVX 512設計的VNNI以及VNNI2版本“降級”為AVX2版本,現在Alder Lake的能效核和性能核都能運行AVX2版本的VNNI,這意味著即使是以AVX2的形式,不少常見的AI加速功能也能夠正常執行了o

英特爾硬件線程控制器:軟硬兼施的高效率多核心方案

Alder Lake實際上是英特爾第二代異構多核處理器,前文也提到過第一代產品Lakefield無論在技術還是市場上的表現最終都不夠令人滿意。現在,Alder Lake將同時使用能效核和性能核,這里就有很多值得深入探尋的內容。

一般來說,現有的絕大部分多核心產品,無論是ARM還是RISC-V或者其他架構,他們多核心設計中的不同架構核心要么分別負責不同類型的工作,要么受控于一個整體的分配系統。比如ARM的DynamIQ,或者高性能核心用作控制器,其他的一些核心用作并行計算器等。

不過這些操作在桌面端,尤其是x86市場上這樣的情況還比較少見。桌面處理器的調度器是在SMT同步多線程技術引入后出現的。由于SMT技術的引入,一個處理器核心將擁有兩個或兩個以上的線程,所以需要加入線程調度器以正確識別不同線程的工作負載情況,然后再安排相應的計算任務。此外,能耗控制相關的技術也被引入用于優化整個處理器在多線程下的能耗比,這對移動設備來說是非常有用的。后期隨著處理器核心越來越多,x86核心會引入相關的控制系統。不過總的來說,由于每個線程是基本一樣的,其架構設計還不是很復雜和困難。

在Alder Lake上,這種情況發生了較大變化。Alder Lake的能效核不支持SMT技術,性能核則支持,這意味著擁有三類不同的線程需要管理:能效核的線程、性能核的線程和性能核的SMT線程。如此一來,系統就需要更仔細地判斷每一個線程的差異,確保將適合的工作任務放置在正確的線程上。

為此,英特爾通過軟件和硬件這兩個方面來進行處理。先來看軟件,也就是Windows 11方面。微軟在新的Windows 11中引入更智能的線程調度程序(調度器)。在Windows 10和之前的操作系統中,對任務優先級的判斷是通過操作系統調度器進行分析,從而推斷線程的性能情況,但是對正在發生的操作則沒有真正的基本了解。在Windows 11中,微軟配合英特爾加入了新的技術,來理解不同的性能模式和指令集的運行情況,然后根據這些內容來評估哪些線程可能需要更高的性能等級或者降級。微軟宣稱,操作系統調度器現在可以對線程優先級、所屬是前端還是后臺應用等進行綜合考慮,屬于前端的應用會被調高到性能核以滿足用戶需求。不過部分諸如內存復制、回調循環等復雜、但性能要求很高的應用在后臺運行時,操作系統的調度器就可能無法正確判斷情況了,此時就需要依賴英特爾內置的硬件線程控制器。

硬件方面,英特爾在處理器內的線程控制器中嵌入了一個微處理器,這個微處理器可以主動監控每個線程在做什么以及它需要哪些性能指標,具體監控的數據包括加載、存儲、分支的比例、平均內存訪問時間、模型和指令類型。此外,這個控制器還可以監測哪些指令在耗電、比如AVX-VNNI或者其他AVX2指令,它會為這些指令加入特殊的標記。如果當前沒有足夠的性能核或者由于功耗、散熱的原因,部分線程需要降級的話,線程控制器也會對當前所有運行的線程進行監控,對那些可以優先降級處理的線程進行標記。操作系統的調度器會實時監控線程控制器的信息,然后根據線程控制器的標記,升級或者降級部分線程,或者根據線程控制器的信息以及操作系統本身對線程的判斷,綜合做出決定。

英特爾表示,線程控制器的最小操作時間可以是30us,而傳統的操作系統可能需要100ms才能做出同類型但不一定正確的操作。此外,英特爾還給出了有關硬件線程控制器的更多信息。在一般情況下,操作系統剛啟動的時候,第一個線程會被直接交由性能核處理,直到所有的性能核都被占滿后,再轉移給能效核。需要注意的是,對SMT核心而言,英特爾目前的設計是如果有16個線程進入,這16個線程的8個會被分配到性能核,剩余的8個并不是進入性能核的SMT線程,而是進入能效核。相比SMT線程而言,能效核的|生能顯然要高出很多,但是這也增加了測試的復雜性。

在能耗方面,硬件線程控制器還有一些獨特的功能,比如在電池供電或者節能模式下,線程會優先派往能效核。另外,操作系統的調度程序也會根據硬件控制器的信息,更積極地決定掛起或者關閉某些核心以節省電量,比如所有操作任務都指向能效核心的話,所有性能核都會進入休眠狀態。此外,Windows 11還擴展了Power Throttling API,讓開發人員能夠為其線程明確指定服務質量屬性,EcoQos分類也可以告知操作系統的調度器相關軟件的信息。

Alder Lake:初露崢嶸

在介紹完有關核心架構和硬件線程調度器的內容后,接下來我們再來了解一下Alder Lake的相關信息。由于本次發布會偏向于架構和技術,因此英特爾沒有給出Alder Lake在型號和性能方面的內容,整體介紹更偏向于技術和架構。

Alder Lake是英特爾在多核心處理器發展歷史上一個全新的嘗試。英特爾宣稱Alder Lake帶來了單一可擴展的架構,能夠滿足從9W到125W不同的TDP功耗需求。另外,其核心架構采用了全新的設計,加入了大量新的技術支持,比如DDR5、PCIe 5.0、雷電4接口和Wi-Fi 6E等。從硬件規格來看,Alder Lake目前分為三個類型:桌面型、移動型和超輕薄型。其中,桌面型采用了新的Socket 1700接口,和之前的LGA 115x系列完全不同,前者觸點更多、面積更大。相比之下,移動型和超輕薄型就小很多,這兩者都采用BGA封裝,移動型使用的是BGA Type 3,封裝尺寸為50mm×25mm×1.3mm。超輕薄型更小,采用的是BGA Type 4 HDI封裝,尺寸僅為28.5mm×19mm×1.1mm,更適合面積狹窄且輕薄的設備使用。

Alder Lake本身采用模塊化設計,其基本模塊分為五類,分別是:CPU核心的效能CPU核心和性能CPU核心;功能模塊的顯示模塊、IPU(圖像處理單元)模塊、GNA 3.0(高斯神經加速器)模塊、PCIe控制器、TBT(雷電接口)模塊;核芯顯卡方面有兩個規格,分別是96EU搭配媒體功能模塊,這是用于移動設備的,對桌面設備而言則是32EU搭配媒體功能模塊;存儲方面則是LCC模塊和內存模塊;最后則是SoC的部分。利用這些模塊化設計,Alder Lake針對桌面、移動和超輕薄設備帶來了不同的配置方案。

針對桌面市場,英特爾沒有在處理器內部集成雷電接口和圖像處理單元,這意味著桌面處理器如果想要使用雷電接口,那就需要額外配置芯片或者從主板芯片組引出。另外,3款處理器都加入GAN 3.0單元,這意味著一些小型的AI計算可以不動用CPU核心就能夠完成。對大家最關心的臺式機處理器而言,頂級型號的Alder Lake處理器最終擁有8個能效核、8個性能核、24個線程、最高30MB非包容性L3緩存。

內存方面,Alder Lake支持的規格很多,包括DDR5 4800、DDR4 3200、LPDDR5 5200以及LPDDR4X4266等。英特爾確認Alder Lake中的內存控制器將支持所有展示出來的規格,這意味著主板上布局何種內存將取決于主板廠商,比如為一些ITX主板加入LPDDR5的內存支持,對一些高性價比產品來說,加入DDR4 3200內存支持等。

英特爾特別提到,Alder Lake的桌面版本將支持動態電壓頻率擴展以及“增強的超頻功能”,后者的具體內容現不得而知,但應該會給超頻玩家更多可調的參數和范圍。

在PCIe控制器方面,Alder Lake支持20個PCIe通道,其中16條PCIe 5.0通道,剩余的4條是PCIe 4.0通道。PCIe 4.0 x4-般會用于高性能SSD。PCIe 5.0x16可以被拆分為2個PCIe 5.0 x8以支持更多的獨立設備。另外,芯片組方面,Alder Lake的芯片組將額外提供12個PCIe 4.0通道和1 6個PCIe 3.O通道,這將使得大量的設備可以通過芯片組實現高速連接,比如10Gbps的網卡或者PCIe 4.0的SSD。不過英特爾并未透露芯片組和CPU之間的連接帶寬,如果這個帶寬不夠的話,那么芯片組的擴展性將會受到嚴重影響。筆者期待其連接帶寬最好相當于PCIe 5.0x4(可能性很小),如果是PCIe 4.0 x4的話,也很不錯了。

在SoC層級,英特爾還給出了一些信息。Alder Lake內部處理器核心之間的連接保留了Tiger lake上出現過的計算總線(Compute Fabric),其帶寬最高可達1000GB/s,并且可以動態調整。這個計算總線采用的是雙環、寬帶設計,當任務較少的時候,英特爾可以選擇禁用其中的一個以節約能耗,畢竟計算總線整體功耗相當高,是整個處理器中主要的功率消耗來源之一。內存總線(Memory Fabric)方面,英特爾給出的數據是204G B/s,這個數據實際上遠超雙通道DDDR5 4800的帶寬,所以這里可能是考慮到多個模塊同時讀取內存的需求。IO總線方面,英特爾給出的數據是64GB/s,基本就是PCIe 5.0 x16的帶寬了。

目前的消息顯示,Alder Lake的整體設計還是非常卓越的,無論是模塊化設計、內部互聯以及外部帶寬方面,都站在現有技術的高點。目前僅存的就是具體的產品劃分和規格問題了,比如酷睿i3、酷睿i5等處理器有多少個性能核和能效核等。這些問題只有等待接下來Alder Lake上市時才有更多內容了。

猜你喜歡
指令設計
聽我指令:大催眠術
何為設計的守護之道?
現代裝飾(2020年7期)2020-07-27 01:27:42
《豐收的喜悅展示設計》
流行色(2020年1期)2020-04-28 11:16:38
ARINC661顯控指令快速驗證方法
測控技術(2018年5期)2018-12-09 09:04:26
LED照明產品歐盟ErP指令要求解讀
電子測試(2018年18期)2018-11-14 02:30:34
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
殺毒軟件中指令虛擬機的脆弱性分析
電信科學(2016年10期)2016-11-23 05:11:56
一種基于滑窗的余度指令判別算法
主站蜘蛛池模板: 久青草网站| 亚洲日韩精品伊甸| 国模在线视频一区二区三区| 无码综合天天久久综合网| 在线欧美国产| 九九九久久国产精品| 午夜爽爽视频| 天天做天天爱天天爽综合区| 黄色a一级视频| 国产福利观看| 亚洲成人在线网| 日本一区高清| 亚洲天堂免费在线视频| 国产人在线成免费视频| 国产成人久久777777| 又爽又黄又无遮挡网站| 亚洲色图欧美激情| 爽爽影院十八禁在线观看| 91无码国产视频| 日本伊人色综合网| 高清不卡一区二区三区香蕉| 美女扒开下面流白浆在线试听| 日韩国产无码一区| 五月激激激综合网色播免费| 中文天堂在线视频| 精品久久久久久成人AV| 久久99国产视频| 鲁鲁鲁爽爽爽在线视频观看| 精品黑人一区二区三区| 亚洲区一区| 亚洲高清在线播放| 67194亚洲无码| 99国产精品免费观看视频| 四虎影视无码永久免费观看| 一本一道波多野结衣av黑人在线| 国产超薄肉色丝袜网站| 日韩在线永久免费播放| 天天爽免费视频| 国产精品.com| 青草视频免费在线观看| 国产精品视频观看裸模| 国产一级做美女做受视频| 国产午夜一级淫片| 一级毛片免费观看久| 久久国产拍爱| 黄色网址手机国内免费在线观看| www精品久久| 色婷婷视频在线| 青青久久91| 日本高清在线看免费观看| 五月婷婷亚洲综合| 国产欧美日韩18| 大学生久久香蕉国产线观看| 久久久久久久久久国产精品| 精品一區二區久久久久久久網站| 久草热视频在线| 理论片一区| 97久久免费视频| 中文精品久久久久国产网址| 久久99精品久久久久纯品| 免费大黄网站在线观看| 99尹人香蕉国产免费天天拍| 精品成人一区二区三区电影| 美美女高清毛片视频免费观看| 国产无码精品在线| 91亚瑟视频| 国产一级二级三级毛片| 国产午夜福利片在线观看| 亚洲视频免| 国产18在线播放| 午夜高清国产拍精品| 欧美高清视频一区二区三区| 波多野结衣视频网站| 欧美三级自拍| 国产特一级毛片| 澳门av无码| 在线视频精品一区| 欧美日韩精品综合在线一区| 97久久人人超碰国产精品| 97国内精品久久久久不卡| 香蕉精品在线| 成人福利在线视频|