999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

探秘Intel80核處理器

2007-01-01 00:00:00
電子產(chǎn)品世界 2007年6期

如今多核已不算是什么新鮮的詞匯,甚至很多人對(duì)多核技術(shù)感到厭煩——因?yàn)橐呀?jīng)看得多了。而在各種文獻(xiàn)和媒體中,常常會(huì)看到關(guān)于多核處理器缺乏相應(yīng)的軟件的評(píng)論與報(bào)道,這些評(píng)論與報(bào)道來(lái)自專家、媒體甚至是芯片設(shè)計(jì)者本身。

多核芯片往往如潮水般來(lái)去匆匆,過(guò)去人們?yōu)槎嗪诵酒械脚d奮與激動(dòng),點(diǎn)燃著瞬間激情,可是又像黑夜中的煙花那樣空留絢麗的色彩后就歸于寂靜。

這次卻不同了,在今年的ISSCC(國(guó)際固態(tài)電子電路會(huì)議)上,Intel展示了80核Tera-Scale研究芯片。留意一下Intel所用的詞匯,“Tera-Scale”的定義可將其從能夠把TRP(TeraFLOPS Research Processor)從其他的雙核、四核等處理器區(qū)分開(kāi)。雖然按照Intel的定義,“Tera-Scale”只是多核處理器的一個(gè)系列,但卻是下一代多核架構(gòu)。Intel指出,“它將帶我們進(jìn)入TeraFLOP(每秒兆兆級(jí)浮點(diǎn)運(yùn)算)和兆兆位處理能力的全新領(lǐng)域中。”

Intel的戰(zhàn)略:多核原理

長(zhǎng)久以來(lái),將理想化的工程與商業(yè)戰(zhàn)略分離并且使其獲得成功,是非常困難的。Intel一直致力于在性能開(kāi)發(fā)上做執(zhí)牛耳者。從用戶的角度上來(lái)講,在挑選臺(tái)式機(jī)和筆記本這樣的產(chǎn)品時(shí),性能是首要考慮的因素。處理器的性能與其內(nèi)部時(shí)鐘頻率息息相關(guān),可是高頻和高功耗產(chǎn)生的漏電,將會(huì)導(dǎo)致高溫。Intel將在45nm工藝中采用high-k(高介電率)絕緣體技術(shù)。借助于metal gate(金屬柵極技術(shù)),Intel希望其能夠全面改善芯片漏電情況若,若漏電降為原先的十分之一,則性能可提高20%。同時(shí),由于45nm的低寄生效應(yīng),晶體管開(kāi)關(guān)功耗也會(huì)降低百分之三十。為了更好地理解IntelTRP芯片的基本原理,這里對(duì)high-k和45nm硅技術(shù)結(jié)合的效益進(jìn)行一個(gè)估算。粗略算來(lái),我們假設(shè)high-k45nm技術(shù)使芯片的功率降低到先前半導(dǎo)體工藝的二分之一,在同樣峰值包絡(luò)功率下,新的功率存儲(chǔ)使得VDD電壓值高出了大約1.4倍(也就是2的平方根),由于VDD和頻率范圍可被近似為呈線性變化,包括20%金屬柵極晶體管開(kāi)關(guān)效應(yīng)引起的頻率增長(zhǎng)在內(nèi),頻率提高1.7倍。在此,我們忽略了頻率限制因素,比如時(shí)鐘分布,晶圓內(nèi)部與晶圓之間的差異等等。high-k絕緣體技術(shù)能給單核或多核芯片提供可觀的短期成果。而對(duì)于長(zhǎng)期投資來(lái)說(shuō),依據(jù)摩爾定律的優(yōu)勢(shì),Intel已經(jīng)在多芯體系的道路上領(lǐng)跑了2~3年,在世界上,當(dāng)頻率,功率和通信等重要角色發(fā)生變化,如何為用戶設(shè)計(jì)一個(gè)多核平臺(tái)?如果只是一個(gè)模擬平臺(tái),那么如何在大負(fù)荷工作量中快速地執(zhí)行程序來(lái)獲得結(jié)果?Intel沒(méi)有選擇的余地,只有為研究人員量身設(shè)計(jì)芯片。在國(guó)際固態(tài)電路大會(huì)上展示了Intel65nm技術(shù)中的8層金屬設(shè)計(jì)初衷,是用來(lái)“證明100W以下的TeraFLOP性能”,盡管這只是其功能之一。

一個(gè)芯片,更是一個(gè)系統(tǒng)

把單處理器的速率與主體內(nèi)存匹配起來(lái)是一件很難的事情,如果傳統(tǒng)的單核處理器是通過(guò)高速緩沖存儲(chǔ)器(cache)來(lái)解決CPU和內(nèi)存之間的速度差異的話,如今的多核處理器由于需要通過(guò)核與核之間的合作來(lái)實(shí)現(xiàn)數(shù)據(jù)共享,因此復(fù)雜性大大增加。和單核處理器相比,多核處理器同樣表現(xiàn)出對(duì)于任務(wù)程序以及數(shù)據(jù)局部性的依賴,以及數(shù)據(jù)可執(zhí)行代碼的數(shù)據(jù)共享特性。Intel的架構(gòu)師們致力于研究用戶芯片的核內(nèi)存,核間通信以及工作量類型,但是和他們的前人一樣,還是無(wú)法確定一個(gè)嚴(yán)密又明確的工作量。

可以理解,Intel仍然無(wú)法為未來(lái)的Tera-Scale(兆兆規(guī)模)芯片下一個(gè)明確的定義,畢竟,目前這只是一個(gè)研究型的項(xiàng)目。然而軟件和系統(tǒng)的開(kāi)發(fā)者們卻被鼓勵(lì)著繼續(xù)完成這個(gè)體系。那么Intel團(tuán)隊(duì)在開(kāi)發(fā)的時(shí)候,他們對(duì)于體系的定義又是什么呢?有一點(diǎn)可以肯定,TRP不會(huì)采用80核技術(shù),80是一個(gè)不可思議的數(shù)字,雖然80核芯片的晶圓尺寸較好地平衡了可用晶圓空間以及能效(<100W@ITF)。

第一個(gè)另人感興趣的地方是Intel采用的平鋪式“瓷片”(tile)結(jié)構(gòu)(圖1),小的內(nèi)核像“瓷片”一樣重復(fù)地平鋪開(kāi)來(lái),每個(gè)“瓷片”內(nèi)都包含自己的處理引擎(Processing Engine,簡(jiǎn)稱PE),局部?jī)?nèi)存和通信路由,如同臺(tái)式機(jī)和服務(wù)器的網(wǎng)絡(luò)連接一樣,每個(gè)瓷片使用自身的路由成為芯片網(wǎng)狀配置的一部分。

在Intel所選擇的這種結(jié)構(gòu)中,芯片能方便地檢測(cè)出內(nèi)含單元數(shù),不同的“瓷片”數(shù)目決定了不同的功能應(yīng)用和價(jià)位。傳輸延時(shí),時(shí)鐘分布,功率減少和部分功率管理等只要對(duì)一個(gè)“瓷片”進(jìn)行了優(yōu)化處理,對(duì)于整個(gè)芯片也將行之有效。此外,大型芯片兩個(gè)邊緣上的瓷片之間通過(guò)路由網(wǎng)絡(luò)進(jìn)行通信,因此不用擔(dān)心由于電磁在硅中的傳播速度限制0.8c(c是光在真空中的傳播速度)從而影響了通信同步。根據(jù)Intel表示,渡越時(shí)間(the time of flight)(在一個(gè)時(shí)鐘周期內(nèi))不會(huì)成為問(wèn)題所在。因?yàn)椤按善钡穆酚赏ㄐ欧绞侥軌蚝芎玫氐玫焦芾韽亩哂腥哂嘁约案呖煽啃浴!按善奔軜?gòu)的任務(wù)一旦完成編譯,將在虛擬處理器上進(jìn)行執(zhí)行,把“瓷片”當(dāng)作內(nèi)存管理模塊來(lái)處理,提高了物理內(nèi)存資源的系統(tǒng)可用性。因此“瓷片”的高利用率提高了性能,較少的“瓷片”不需要再編譯,多個(gè)線程能夠在同一芯片中同時(shí)運(yùn)行。

Intel的這種結(jié)構(gòu)體系,提供了一個(gè)研究通用處理器軟件和芯片性能的機(jī)會(huì),Intel或許會(huì)將研究成果用來(lái)連接IA架構(gòu)和NoC(片上網(wǎng)絡(luò)),而這也許就是未來(lái)的服務(wù)器。

路由和每個(gè)“瓷片”結(jié)為一體,能夠?qū)崿F(xiàn)可避免死鎖的雙32位帶寬的邏輯通道以及非阻塞交叉開(kāi)關(guān)(non-blocking crossbar);當(dāng)時(shí)鐘頻率為4GHz時(shí),帶寬可達(dá)到80GB/s。然而,在訪問(wèn)周期內(nèi),有效的通道對(duì)象用來(lái)完成數(shù)據(jù)傳輸。由于雙通道采取用double pumped(兩倍汞,指時(shí)鐘頻率能執(zhí)行兩次操作,上升沿和下降沿同時(shí)傳輸信號(hào))來(lái)節(jié)省芯片內(nèi)部空間,但是也帶來(lái)了一些新的問(wèn)題。從表面上看,這種方法帶來(lái)了額外的功耗,但當(dāng)它被切斷時(shí),兩倍泵只會(huì)對(duì)路由產(chǎn)生局部影響。不過(guò)doublepumped的采用會(huì)使時(shí)鐘負(fù)載增加。Intel的分析報(bào)告指出,在最壞的狀況下,交叉區(qū)域的50%就會(huì)用于補(bǔ)償全局時(shí)鐘負(fù)載和數(shù)據(jù)通道的RC效應(yīng)。通道采用16x6位的緩沖隊(duì)列管理和基于Intel FLIT(流程控制單元)的32位數(shù)據(jù)字(參照?qǐng)D2)。流程控制邏輯依照FLIT的要求來(lái)解碼。

軟件和硬件工作可以用Intel的NoC(片上網(wǎng)絡(luò))封裝形式來(lái)劃分。它定義了三種可能的32位字——其中包括了路由信息,基本處理單元控制和數(shù)據(jù)。其中的每一部分開(kāi)頭都包含6位控制字段。該字段包括兩個(gè)通道的流程控制(FC),通道ID(L),F(xiàn)LIT有效位(V)以及位標(biāo)志,用來(lái)指示控制字段位于數(shù)據(jù)包的頭部還是尾部。鏈表頭明確定義了路由能夠保持10個(gè)3位地址指向8個(gè)相鄰PE,這里假定為北,東北,東,東南,南,西南,西和西北(N,NE,E,SE,S,SW,W,NW),若添加第二個(gè)鏈表地址FLIT,那么任意一個(gè)PE就能直接尋址其他10個(gè)以上的PE。我們注意到,軟件設(shè)計(jì)中定義了在不互相沖突的情況下,最優(yōu)的連接路線和通道,軟件必須能夠利用硬件來(lái)支持動(dòng)態(tài)路由和PE通道分配,不同的線程在不同時(shí)間能夠同步執(zhí)行,或者在不同的芯片內(nèi)能夠照常運(yùn)行,或者只是在有問(wèn)題的PE周圍標(biāo)記,即便是對(duì)靜態(tài)路由而言,這也是一個(gè)艱巨的任務(wù)。

6位控制字段包含一類或兩類32位數(shù)據(jù):一個(gè)32位信息控制字段用于PE定位和32位數(shù)據(jù)字傳輸。控制字段能夠請(qǐng)求多種行為,比如發(fā)送原始PE數(shù)據(jù)到外部?jī)?nèi)存,或是將目標(biāo)PE改變?yōu)樗郀顟B(tài)或是喚醒。PE通過(guò)開(kāi)關(guān)晶體管完成電源切換,由于可在數(shù)周期之內(nèi)完成,因此優(yōu)于用開(kāi)關(guān)把電源打開(kāi)和關(guān)掉的方法。讓此類電路有4GHz的時(shí)鐘頻率著實(shí)是一項(xiàng)挑戰(zhàn)。

同步接口與光速

在設(shè)計(jì)中整合了輪循仲裁,但其中不包含可能增加復(fù)雜性的優(yōu)先處理機(jī)制。此部分任務(wù)將留給軟件完成,從而確保在對(duì)處理器中關(guān)鍵數(shù)據(jù)進(jìn)行訪問(wèn)時(shí),只能就近映射。輪循仲裁使用未決的FLIT信息,用于在數(shù)據(jù)傳輸之前,于源和目的之間建立一個(gè)完整的路徑。

同步接口是“瓷片”體系有效利用并得以大規(guī)模結(jié)合的關(guān)鍵技術(shù)??紤]到功率、電壓、溫度,大型芯片處理差異以及硅中電磁傳播的極限速度,要想同步時(shí)鐘幾乎不可能。假設(shè)硅中電磁傳播的速度接近于0.8c(0.8×3×lO2m/s),我們發(fā)現(xiàn)lmm的傳播時(shí)間是4ps,那么25mm(接近于TRP的21.72mm)用時(shí)100ps。4GHz頻率周期是250ps。路由使用固定的頻率,相移容差同步接口通過(guò)四層的38位帶寬的FIFO進(jìn)行同步(如圖3)。

若接口所有的邏輯塊與寄存器塊被相同的頻率同步,而不是被相同的相位同步時(shí),同步接口可以用來(lái)補(bǔ)償未知的相位差。由于在可能觸發(fā)亞穩(wěn)態(tài)的時(shí)間內(nèi),目標(biāo)寄存器正進(jìn)行邏輯層的轉(zhuǎn)變,所以均步的同步器(mesochronous synchronizer)可以提供一個(gè)避免數(shù)據(jù)傳輸衰減的解決方案。在亞穩(wěn)態(tài)中,超越時(shí)鐘界限的概率大大降低。圖3是一個(gè)四路HFO,作為接口的一部分,它被用做亞穩(wěn)態(tài)監(jiān)測(cè)器。原則上講,電路必須要有一個(gè)掃描寄存器用來(lái)編程延時(shí)線以優(yōu)化性能:一個(gè)周期或半周期內(nèi)的最小延時(shí)用來(lái)消除亞穩(wěn)狀態(tài)。Intel工程師們采取掃描的方式,亞穩(wěn)態(tài)可通過(guò)HFO某位上出現(xiàn)不同數(shù)據(jù)這一特征來(lái)識(shí)別。根據(jù)這點(diǎn),固定的始終頻率在理論上僅僅需要一個(gè)亞穩(wěn)態(tài)同步,事實(shí)上,由于溫度,電壓或不同工作的電效應(yīng),需要一個(gè)再同步過(guò)程。在現(xiàn)有的規(guī)范中,還不支持中斷的使用。

在保持亞穩(wěn)態(tài)接口完整時(shí),同比縮放頻率和VDD電壓非常困難,除非大部分的設(shè)備規(guī)?;?。在一個(gè)分布式路由體系中,不妨礙周圍處理器通信的接口非常少。設(shè)計(jì)者把合理的門控時(shí)鐘、NMOS休眠晶體管和偏置電路添加在低漏電晶體管中。

起步

TRP芯片用于科研的可行性只是一個(gè)開(kāi)始,許多Intel的工程師以及科研院所希望將該芯片用于軟件工具的研發(fā),而軟件工具正是使多核架構(gòu)得到利用的最重要的一個(gè)方面。

我們要了解它的某些關(guān)鍵屬性,因?yàn)檫@反映了設(shè)計(jì)者的一些思想。PE包含了兩個(gè)獨(dú)立的九級(jí)高速流水線單精度浮點(diǎn)單元,允許在每個(gè)周期內(nèi)接受新數(shù)據(jù)和指令。在每個(gè)周期里,高性能的處理器會(huì)從本地32位寄存器中讀出操作數(shù),或從2KB的數(shù)據(jù)內(nèi)存中讀取64位數(shù)據(jù),在3KB單周期指令內(nèi)存中有效地執(zhí)行指令。對(duì)于能夠在4GHz或者更高頻率上執(zhí)行的PE來(lái)說(shuō),指令和本地?cái)?shù)據(jù)內(nèi)存相對(duì)來(lái)說(shuō)較小。

Intel對(duì)內(nèi)存和路由的應(yīng)用能使我們了解到CPU在圖形和A/V域程序中的常規(guī)運(yùn)算。同理,每個(gè)“瓷片”將更多地依賴于三維內(nèi)存。事實(shí)上,連接3D內(nèi)存的路由,較小的本地內(nèi)存和。瓷片以及為了內(nèi)存資源各個(gè)“瓷片”互聯(lián)的可能性,預(yù)示著出現(xiàn)一種“瓷片”指向的3D內(nèi)存結(jié)構(gòu)。它能夠給用戶提供高速的數(shù)據(jù)訪問(wèn),從而與小的本地內(nèi)存相互匹配。它還能夠與周邊單元共享,實(shí)現(xiàn)快速訪問(wèn)和共享操作數(shù)。對(duì)最佳應(yīng)用性能的探究正在孜孜不倦地進(jìn)行著,Intel展示了面向80核單元的接口,能夠不斷監(jiān)視各類參數(shù)比如,“瓷片”活躍度,性能,還能間接監(jiān)視功耗。

連接到80核芯片連接板上,控制和監(jiān)視面板能使開(kāi)發(fā)者自定義頻率和電壓條件值,執(zhí)行自檢,讀取萬(wàn)億級(jí)FLOPS運(yùn)行估算值以及PE與路由的可視化監(jiān)視。

為什么這個(gè)芯片工作在100W以下卻仍有萬(wàn)億級(jí)FLOPS的性能呢?我們能夠窺出一些端倪,首先是它本身的并行結(jié)構(gòu),其次是在同步時(shí)鐘至少要5GHz的基礎(chǔ)上,同步接口把全局時(shí)鐘分布功率減少了大約2W(整體的2%)~5W;還有對(duì)低漏電晶體管,偏置電路,門控時(shí)鐘和休眠晶體管的使用;給每個(gè)PE分配的小型內(nèi)存等等。網(wǎng)絡(luò)路由的能耗占整個(gè)“瓷片”網(wǎng)絡(luò)能耗的39%。

Intel80核萬(wàn)億級(jí)處理器不是為了能夠迅速轉(zhuǎn)化為產(chǎn)品,這只是一個(gè)試驗(yàn)項(xiàng)目。通過(guò)TRP項(xiàng)目的啟發(fā),有助于開(kāi)發(fā)圖形加速器或?qū)⒊?jí)計(jì)算機(jī)延伸至IA處理器。那么這個(gè)研究是否對(duì)協(xié)處理器接口或是內(nèi)存映射工程有所幫助?是否揭示了如何互連IA處理器中大規(guī)模使用的“瓷片”?一條來(lái)自Intel德國(guó)研發(fā)中心的信息或許能展示Intel在萬(wàn)億級(jí)計(jì)算機(jī)技術(shù)研究上的進(jìn)展程度。在德國(guó),Intel正在研究一種面向未來(lái)的萬(wàn)億級(jí)系統(tǒng),由高速FPGA環(huán)繞的IA處理器構(gòu)成,它很好地兼顧了實(shí)體系統(tǒng)硬件運(yùn)行和軟件應(yīng)用,從而獲得可觀的成果。

德國(guó)研發(fā)的系統(tǒng)(參見(jiàn)圖5)關(guān)鍵特性是全程IA-32研發(fā)芯片和大量的FPGA,通過(guò)程序,設(shè)計(jì)者新的思想必須要經(jīng)過(guò)軟硬件聯(lián)調(diào)測(cè)試。

研發(fā)的目的是給未來(lái)的芯片,容錯(cuò)系統(tǒng),多媒體擴(kuò)展和加速,以及計(jì)算機(jī)安全性擴(kuò)展定義微體系結(jié)構(gòu)。

對(duì)TRP研發(fā)的目的不僅僅是證明Intel有開(kāi)發(fā)至少100W的萬(wàn)億級(jí)FLOPS處理器的能力。Intel正在探尋網(wǎng)狀結(jié)構(gòu),瓷片模式和細(xì)晶粒功率管理模式。至少,這些都是為繼續(xù)致力于開(kāi)發(fā)高性能高效率處理器積攢寶貴的經(jīng)驗(yàn)。

Intel萬(wàn)億級(jí)研究工程的初步報(bào)告一定程度上展示了Intel在萬(wàn)億級(jí)結(jié)構(gòu)體系研發(fā)上的一些努力。當(dāng)然,這只是冰山一角。

主站蜘蛛池模板: 在线精品亚洲一区二区古装| 一区二区三区四区精品视频| 中文字幕乱码中文乱码51精品| 欧美一级高清视频在线播放| 亚洲中文字幕97久久精品少妇| 欧美国产日韩在线观看| 亚洲精品第一页不卡| 日韩a级毛片| 久久这里只有精品23| 国内精品久久久久久久久久影视| 丝袜美女被出水视频一区| 欧洲高清无码在线| 久久青草精品一区二区三区| 欧美特级AAAAAA视频免费观看| 亚洲三级成人| 韩日无码在线不卡| 好久久免费视频高清| 国产精品免费久久久久影院无码| 91亚洲影院| 四虎影视无码永久免费观看| 国产精品女熟高潮视频| 色播五月婷婷| 波多野结衣一级毛片| 啪啪永久免费av| 色偷偷一区| aaa国产一级毛片| 亚洲色大成网站www国产| 国产成人福利在线视老湿机| 8090成人午夜精品| 婷婷六月激情综合一区| 高清无码不卡视频| 国产尹人香蕉综合在线电影| 再看日本中文字幕在线观看| 天堂岛国av无码免费无禁网站| 亚洲人成网线在线播放va| 久久黄色影院| 在线观看精品国产入口| 在线a网站| 日韩欧美色综合| 久草视频中文| 国产91精品调教在线播放| 国产微拍一区二区三区四区| 国产一级二级三级毛片| 亚洲天堂啪啪| 亚洲日本韩在线观看| 国产伦精品一区二区三区视频优播| 欧美亚洲欧美| 国产黄色免费看| 亚洲欧美日韩中文字幕在线| 无码日韩视频| 国产福利小视频高清在线观看| 狼友av永久网站免费观看| 欧美第一页在线| 亚洲男人在线天堂| 免费人成黄页在线观看国产| 久精品色妇丰满人妻| 久久一本精品久久久ー99| 欧亚日韩Av| 第一页亚洲| 国产成人1024精品| 欧美a√在线| 少妇精品在线| 国产丝袜精品| 国产成人亚洲欧美激情| 视频在线观看一区二区| 国产又爽又黄无遮挡免费观看 | 国产一级二级在线观看| 国产永久在线观看| 色综合日本| 亚洲成人网在线观看| 伊人五月丁香综合AⅤ| 九九九久久国产精品| 欧美乱妇高清无乱码免费| 日韩成人午夜| 自拍偷拍一区| 久久香蕉国产线看观看精品蕉| 精品无码一区二区在线观看| 国产成人综合久久精品尤物| 国产91视频免费| 欧美日韩资源| 国产丝袜啪啪| 天堂岛国av无码免费无禁网站|