999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深亞微米和3D背景Cache延遲設計與模擬關鍵技術

2013-12-31 00:00:00付祥唐遇星徐煒遐
湖南大學學報·自然科學版 2013年13期

摘要:研究了深亞微米和3D條件下的cache訪問延遲的設計和模擬技術.對不同容量、不同關聯度、不同技術的cache進行了模擬.實驗結果顯示,深亞微米條件下,互聯網絡成為影響cache訪問延遲的重要因素,40 nm工藝下它可占cache總訪問延遲的61.1%;tag比較器的延遲對cache訪問延遲的影響可達9.5%.但后者并未得到已有模型的重視.鑒于此,對已有的cache訪問延遲模型進行了改進.基于3D條件下多核處理器最后一級大容量cache(L3C)的容量不斷增長的趨勢,eDRAM在功耗和面積上的優勢使其更具吸引力.模擬結果顯示,在容量為1 MB, 4 MB及大于16 MB的L3C設計下,相同容量的eDRAM cache延遲比SRAM cache小,差值為8.1%(1 MB)至53.5%(512 MB).實驗結果顯示,未來3D多核處理器設計中eDRAM是設計L3C的更佳選擇.

關鍵詞:cache;深亞微米;3D;訪問延遲;eDRAM

中圖分類號:TP333.1 文獻標識碼:A

Key Techniques of Design and Simulation of Cache Access

Time in Deep Sub-micron and 3-Dimension Era

FU Xiang, TANG Yu-xing, XU Wei-xia

(College of Computer, National Univ of Defense Technology, Changsha, Hunan 410073, China)

Abstract: This paper studied the key techniques of designing and simulating cache access time in deep sub-micron and 3-dimension era, and simulated the cache with different capacity, associativity and storage technology. The results show that, in 40nm technology, the interconnect network is a main source of the access time (up to 61.1%); the tag comparator can affect the cache access time for about 9.5%. This paper improved the existing cache access time model in which tag comparator gets insufficient attention. Based on the growing trend of the large last level cache (L3C) capacity in multi-core processors, the advantages of eDRAM on power and area make it more attractive. The simulation shows that, for L3C with large capacities (1MB, 4MB and larger than 16MB), the access time of the eDRAM cache is less than the SRAM cache for 8.1% (1MB) to 53.5% (512MB), supporting that eDRAM is a better choice for LLC in future 3D multi-core processors.

Key words: cache; deep-submicron; 3-dimension; access time; eDRAM

自20世紀70年代發明DRAM存儲器以來,DRAM存儲器的發展一直受價格驅動,而邏輯器件的發展一直受速度驅動,二者之間的速度鴻溝日益變大[1].計算機體系結構工程師通過在處理器核與主存儲間增加多級容量較小但速度較快的高速緩沖存儲器(cache)來緩解處理器核訪存的速度問題.

半導體制造工藝水平不斷進步,已進入深亞微米時代,如今22 nm工藝已得到廣泛應用,16 nm工藝呼之欲出.在這種條件下,器件尺寸進一步縮小,器件延遲進一步下降,但靜態漏流變得更大,片上互連的延遲和功耗對整個cache的影響越來越大[2].cache訪問延遲表現出與以往不同的特點.

3D技術的出現為cache的設計帶來了新的機遇和挑戰.單核處理器主頻的提升、并行度的開發已受到很大的制約,多核處理器已替代單核處理器成為主流.多核處理器更高的存儲要求使得片上SRAM cache容量更大、層次更多,這使得cache的訪問延遲問題和功耗問題更加突出.三維集成電路(3D IC)正是在這種需求下應運而生的.Die間3D堆疊可使片上全局互連變短,增加可利用帶寬,降低互聯功耗、提高集成度[2].Die間堆疊也使得在更大面積上實現更多層次、更大容量的cache成為可能.最后一級大容量cache(Large Last Level Cache, L3C)的訪問延遲設計和模擬成為一個突出問題.

本項目首先研究了深亞微米條件下cache訪問延遲的特點.項目組針對深亞微米條件下不同容量、不同關聯度的cache訪問延遲,利用CACTI 6.5進行了探索.實驗結果顯示,互聯網絡的延遲是影響cache訪問延遲的重要因素,64 KB直接映射cache中,互聯網絡延遲占訪問總延遲的61.1%;64 KB 2路組關聯cache中,互聯網絡延遲占訪問總延遲的44.8%.另一方面,實驗發現,tag比較器對cache訪問總延遲的影響可達9.5%,但它沒有得到已有cache延遲模型的重視.項目組修改了CACTI 6.5的cache訪問延遲模型,將tag比較器的延遲納入考慮,提高了建模精確度.我們還給出了采用新的延遲模型,深亞微米工藝下cache訪問延遲隨容量、關聯度的變化趨勢.

針對深亞微米和3D條件下的L3C設計問題,項目組比較了大容量條件下的SRAM cache與eDRAM cache,發現采用eDRAM 技術可有效地減小cache內互聯延遲,從而減小cache訪問延遲.結合eDRAM相比于SRAM在功耗、面積等方面的優勢,項目組認為,eDRAM是深亞微米時代,未來3D多核處理器設計中L3C的更佳選擇.

本文內容組織如下.第1節介紹cache的訪問延遲模型及通用的模擬方法;第2節研究深亞微米條件下cache的訪問延遲設計目標,以64 KB直接映射與2路組關聯cache為例深入分析了cache訪問延遲的特點,并給出改進后的深亞微米cache設計模型;第3節通過分析比較SRAM與eDRAM技術,指出eDRAM cache是3D背景下L3C的一種可行方案;第4節為總結.

1 Cache的延遲模型及其模擬方法

在1.1節介紹cache的結構模型,可知cache由數據陣列和tag陣列組成以及陣列的內部結構.1.2節詳細討論陣列的延遲模型.在1.3節中我們得到cache的訪問延遲模型.1.4節介紹目前通用的cache設計模擬方法.

1.1 Cache的結構模型

一般具體實現cache時,數據和tag分別存放在數據陣列和tag陣列中.數據陣列和tag陣列的結構類似.下面以陣列統稱數據陣列和tag陣列,僅在必要時進行區分.

陣列(array)由多個可被同時訪問的體(bank)組成.體通過H-樹網絡[圖1(a)]結合在一起構成陣列.體內包含多個相同的簇(mat),對體進行訪問時,多個簇被同時激活,共同為這次訪問提供一個完整的字.簇通過H-樹網絡[圖1(b)]結合在一起構成體.為便于流水,H-樹網絡在實現時分為請求網絡(request network)和響應網絡(reply network).請求網絡將地址和輸入數據從數據陣列輸入端口傳輸到各個簇,響應網絡將待輸出數據從各個簇傳輸到數據陣列輸出端口.

每個簇是一個單元結構,它由存儲單元陣列、位線外圍電路及譯碼邏輯3部分組成.數據陣列的簇的位線外圍電路包括預充電和等壓電路、位線選擇器、敏感放大器、敏感放大選擇器、子陣列輸出驅動等.tag陣列的簇的位線外圍電路還包括tag比較器.譯碼邏輯包括行譯碼邏輯、列譯碼邏輯和敏感放大譯碼邏輯3部分,實現時,為控制扇入扇出數,每個譯碼邏輯都分為預譯碼邏輯和譯碼邏輯兩段.簇的組織結構如圖2所示.

其中Trow-decoder-path是行譯碼路徑的延遲,它包括行預譯碼器對地址譯碼的延遲Trow-predec, 譯碼器對預譯碼信號譯碼的延遲Trow-dec-driver, 存儲單元對位線放電建立電壓差的延遲Tbitline和敏感放大器對經過列選擇器選擇后的電壓差快速放大的延遲Tsenseamp.tag陣列中,行譯碼路徑延遲還包括tag比較器將存儲數據與輸入地址的tag部分進行比較產生命中信號輸出和路選擇信號的延遲Ttag-comparator.所以對數據陣列而言,行譯碼路徑延遲為:

Tdata-arr-row-decoder-path=Trow-predec+Trow-dec-driver+

1.3 Cache延遲模型

當處理器核心向cache發出一次數據訪問請求時,地址被同時發往數據陣列和tag陣列.地址在tag陣列中經請求網絡傳至譯碼器譯碼后,激活對應的字線,保存在陣列中的tag信息經過位線選擇、敏感放大、敏感放大選擇之后與輸入地址的tag部分進行比較,產生路選擇信號.路選擇信號經響應網絡輸出tag陣列,再經數據陣列的請求網絡傳給可能保存了待訪問數據的簇.另一方面,地址在數據陣列中經請求網絡傳到譯碼器譯碼后,激活對應的字線,保存在陣列中的數據經位線選擇、敏感放大到達敏感放大選擇器.路選擇信號與敏感放大選擇信號按位與,得到敏感放大選擇器的控制信號,選擇對應的數據輸出,輸出數據最后經數據陣列的響應網絡返回至數據陣列邊緣.

所以,cache的訪問延遲為:

Tcache-access=max (Ttag-arr-access+Tdata-arr-request-network+

Tdata-arr-senseamp-mux-decode,Tdata-arr-request-network+

Tdata-arr-mat)+Tdata-arr-reply-network.

1.4 目前流行的通用cache設計模擬方法

目前已有多種CAD工具可用于建模cache的訪問延遲.CACTI是其中一款性能優良的存儲器模擬器[2].它最早由美國西部研究實驗室(Western Research Laboratory, WRL)于1993年發布, CACTI至今已發布6個主要版本,每個版本都隨著技術、工藝的進步而不斷改進,最新版本為CACTI 6.5.CACTI 6.5支持90~32 nm工藝,可對片上SRAM, DRAM cache及DRAM存儲器的訪問延遲、動態功耗、靜態功耗、周期和面積等建模.其精確度受到研究人員的高度贊譽,在學術研究領域得到了廣泛應用.

CACTI 6.5的設計空間探索方法是一種經典的方法.它根據給定的cache參數,遍歷cache結構參數可能的取值,并計算每組參數下cache的訪問延遲Taccess, 動態功耗Pdyn, 靜態功耗Pleak, 訪問周期Tcycle和面積A.從而可知對于給定cache參數的cache,它可能的最小訪問延遲Tmin_access, 最小動態功耗Pmin_dyn, 最小靜態功耗Pmin_leak, 最小周期Tmin_cycle和最小面積Amin.然后,根據用戶指定的設計目標({WT_acc: WP_dyn:W P_leak: W T_cycle: WA})計算每組結構參數下的開銷cost:

2 深亞微米cache設計分析

從第2節可知,不同的cache設計目標會選擇不同的最優cache結構,從而產生不同的訪問延遲.所以選擇合理、恰當的cache設計目標對于深亞微米條件下cache的訪問延遲分析和cache設計指導具有重要意義.

項目組利用CACTI 6.5對采用45 nm工藝制造的POWER7處理器的L1和L2 cache進行了小容量cache的設計目標的擬合,對POWER7 L3 cache進行了大容量cache設計目標的擬合.

POWER7是IBM公司于2010年發布的一款面向服務器應用的高性能多核多線程處理器.它采用45 nm工藝制造,主頻可在2.4 GHz到4.25 GHz間動態調整.它具有8個核心,每核最大支持4路同時多線程,每核具有32 KB L1 I-cache + 32 KB L1 D-cache和256 KB L2 cache.L3 cache采用eDRAM技術制造,每個核有一個局部L3 4 MB cache,8個局部cache組成總共32 MB的共享L3 cache.

2.1 深亞微米cache設計目標

2.1.1 小容量cache

小容量cache的設計目標的擬合采用POWER7的L1 D-cache和L2 cache進行.L1 D-cache容量為32 KB,塊大小為128 B,8路組關聯,最多支持同時兩次讀或一次寫,訪問延遲為0.5 ns.L2 cache為數據、指令統一cache,容量256 KB,8路組關聯,塊大小128 B,2個讀端口,1個寫端口,訪問延遲為2.0 ns.通過遍歷從{10:0:0:0:0}到{30:30:30: 30:30}的設計目標,項目組發現,采用權重{30:0:0:10:0}對Power7的L1 cache和L2 cache進行模擬,得到結果L1 cache的訪問延遲為0.486 ns,與實際延遲的誤差為2.7%;L2 cache的訪問延遲為2.15 ns,與實際延遲的誤差為7.5%.因為采用權重{30:0:0:10:0}對POWER7 L1和L2 cache進行擬合,誤差不超過8%,所以可認為,設計目標{30:0:0:10:0}可有效地表示POWER7處理器中L1 cache和L2 cache的設計目標.

設計目標{30:0:0:10:0}中非零項30對應訪問延遲的權重,它表明在實際處理器的L1和L2 cache的設計中,訪問延遲是最重要的因素.非零項10對應cache流水線化后的周期,它表明在實際處理器的L1和L2 cache設計中,cache操作周期是另一個重要因素,因為它會影響到cache同時處理的最大訪問請求數目,而能夠同時處理的最大訪問請求數對多線程處理器隱藏延時具有重要意義.

2.1.2 大容量cache

大容量cache的設計目標通過對POWER7處理器的L3 eDRAM cache的擬合得到.POWER7 L3 eDRAM cache的容量為32 MB,分為8個體,采用45 nm工藝實現,其訪問延遲約為6 ns.POWRE7中,L3 cache面積占芯片面積不足15%,而POWER7芯片的面積為567 mm2[14],可推測L3 cache的面積為85 mm2左右.通過遍歷從{10:0:0:0:0}到{30:30:30: 30:30}的權重,項目組發現,采用設計目標{10:0:0:0:10}對Power7的L3 cache進行模擬,得到cache面積約為80 mm2,誤差約為6.3%,得到cache訪問延遲約為5.45 ns,誤差約為9.2%.

設計{10:0:0:0:10}目標表明,當采用eDRAM實現L3C時,訪問延遲仍然是一個重要的因素,與此同時,面積也是同等重要的因素.

2.2 cache訪問延遲分析

對cache的訪問延遲分析通過對多個小容量的cache的模擬進行.項目組利用CACTI 6.5,采用權重為{30∶0∶0∶10∶0}的設計目標,對40 nm工藝下16 KB, 32 KB, 64 KB, 128 KB和256 KB五種容量的直接映射、2路組關聯、4路組關聯、8路組關聯和16路組關聯的單體1讀寫端口cache的訪問延遲進行模擬.模擬結果如圖3所示.從圖中可知,一般結論“cache容量越大,速度越慢;關聯度越高,速度越慢”仍保持成立.值得注意的是:32 KB直接映射cache比2路組關聯cache的訪問延遲要大,64 KB直接映射cache比2路組關聯和4路組關聯cache的訪問延遲要大.這個現象引起了我們的興趣,我們對此展開了研究,在此基礎上分析cache的訪問延遲特性.下文如不再說明,cache的容量默認為64 KB.

CACTI 6.5計算得到直接映射cache和2路組關聯cache的部分參數如表1所示.直接映射cache的訪問延遲為0.485 ns,2路組關聯cache的訪問延遲為0.463 ns.前者比后者大約0.022 ns,即4.63%.直接映射cache的訪問周期(0.283 ns)比2路組關聯cache的訪問周期(0.345 ns)小約18.0%.

直接映射cache和2路組關聯cache各部分延遲如表2所示.結合公式(8),從表中可以看出,直接映射cache和2路組關聯cache的關鍵路徑是相同的:tag陣列–>數據陣列請求網絡–>數據陣列敏感放大譯碼路徑–>數據陣列響應網絡.關鍵路徑中,直接映射cache的tag陣列、數據陣列的請求網絡和響應網絡的延遲要大于2路組關聯cache,直接映射cache的敏感放大譯碼路徑的延遲要小于2路組關聯cache.下面分析數據陣列的網絡延遲和tag陣列的延遲.

2.2.1 數據陣列的網絡延遲

根據表2可知直接映射cache的數據陣列的請求網絡的延遲約為2路組關聯cache的2倍,直接映射cache的數據陣列的響應網絡的延遲比2路組關聯cache大約0.5倍.數據陣列的請求網絡和響應網絡的延遲占整個cache訪問延遲的比例,直接映射cache為48.96%,2路組關聯cache為32.47%.對數據陣列的網絡延遲進行分解如圖4所示.由于陣列只有1個體,不存在陣列與體之間的網絡.因此請求網絡中的Tarr-edge-to-bank-edge和響應網絡中的Tbank-edge-to-arr-edge均為0.請求網絡中直接映射cache的Tbank-edge-to-mat是2路組關聯cache的2倍.這是由于cache的物理布局引起的.

從表1可知,2路組關聯cache的寬和高分別比直接映射cache的寬和高小.根據直接映射cache和2路組關聯cache的最優結構知二者的數據陣列的物理布局如圖5所示.直接映射cache的數據陣列中共有4個子體,每個子體中有1個簇,其組織結構如圖5(a)所示.地址從體邊緣被路由至簇時需要經過V0和V1兩個中繼器的轉發.2路組關聯cache的數據陣列中共有2個子體,每個子體中包含1個簇,其組織結構如圖5(b)所示.地址從體邊緣被路由簇時需要經過V1節點對應的中繼器的轉發,轉發次數只是直接映射cache的一半.因此直接映射cache的請求網絡延遲約為2路組關聯cache的請求網絡延遲的2倍.

2.2.2 Tag陣列的延遲

直接映射cache的tag陣列延遲僅比2路組關聯cache的tag陣列延遲大約0.71%.將tag陣列中各部分延遲分量列表如表3所示.從表中可知如下信息.

直接映射cache和2路組關聯cache的tag陣列的關鍵路徑均為:請求網絡–>行譯碼路徑–>響應網絡.

兩個cache的tag陣列請求網絡延遲都為0,這是因為tag陣列只包含1個體,每個體內僅有1個簇,事實上不需要H-樹網絡.直接映射cache的響應網絡延遲比2路組關聯cache僅大了約2.9%,這是由于2路組關聯cache的tag陣列小于直接映射cache的tag陣列,從而導致2路組關聯cache的tag陣列中簇的輸出導線更短.

兩個cache的tag陣列中,簇內延遲等于行譯碼路徑的延遲.根據公式(5b)可知,tag陣列的行譯碼路徑延遲包含字線預譯碼延遲、字線譯碼延遲、位線延遲、敏感放大器延遲和tag比較器延遲等.行譯碼路徑各分量延遲如表4所示.根據表4計算可得,二者的行譯碼路徑延遲應該是0.222 532 ns,而非程序運行結果給出的0.178 271 ns.二者差值正好是tag比較器的延遲0.044 261 ns.通過進一步分析程序,項目組發現CACTI 6.5并沒有將tag比較器的延遲納入行譯碼路徑延遲.

2.2.3 H-樹網絡延遲

從前文分析可知,對于直接映射cache和2路組關聯cache,其數據陣列和tag陣列的請求網絡和響應網絡都在cache訪問延遲的關鍵路徑上.根據公式(1)可得cache中互聯網絡的總延遲為:

TH-tree-network=Ttag-arr-request-network+Ttag-arr-reply-network+

Tdata-arr-reply-network+Tdata-arr-request-network.

所以直接映射cache中,互聯網絡總延遲TDM-H-tree-network為0.296 ns,它占直接映射cache訪問總延遲的61.1%.2路組關聯cache中,互聯網絡總延遲T2-way-H-tree-network為0.208 ns,它占2路組關聯cache的訪問總延遲的44.8%.直接映射cache的網絡延遲比2路組關聯cache的網絡延遲大了約0.09 ns,在cache訪問總延遲中所占的比重也大了約16.3%.所以,互聯網絡的延遲是cache訪問延遲中一個重要分量,可以對cache總訪問延遲的大小產生很大的影響.

2.3 改進后的深亞微米cache設計模擬

通過前文分析可知,對于40 nm工藝,tag比較器的延遲約為0.044 ns,而2路組關聯cache的訪問延遲約為0.463 ns,tag比較器對訪問延遲的影響可達約9.5%.因此,在深亞微米工藝下,tag比較器對cache訪問延遲的影響是不可忽略的一個因素.

本文對CACTI 6.5中tag陣列的訪問延遲的計算函數進行了修正,在tag陣列的訪問延遲中加上了tag比較器的延遲.之后,采用設計目標{30:0:0:10:0}重新計算不同容量、不同關聯度cache的訪問延遲的變化特性,結果如圖6所示.

從圖6中可以看出,改進cache的訪問延遲模型之后,得到的結果與結論“cache容量越大,速度越慢;關聯度越高,速度越慢”是一致的. 同時,64 KB cache直接映射的訪問延遲比2路組關聯訪問延遲小,但32 KB cache的直接映射仍比2路組關聯速度要慢,通過分析具體數據得知,這是由于32 KB直接映射cache的響應網絡的延遲比2路組關聯cache大引起的.

3 深亞微米和3D背景下的L3C設計

多核處理器的發展對cache性能提出了更高的要求.3D技術可將采用DRAM工藝或其他工藝制造的存儲器Die堆疊在邏輯Die上,使得利用單獨一個或多個Die來制造cache成為可能,如圖7 [15]所示.3D堆疊的Die與Die之間通過硅通孔(Through Silicon Via, TSV)技術相連,一方面使得核與低層次cache之間的有效互連線變短,從而延遲、功耗得到降低;另一方面可有效地增加cache與核之間的通信帶寬,從而提高cache的吞吐率.因此,在3D背景下,可將最后一級cache或兩級cache采用SRAM技術或eDRAM技術在單獨的一個Die上實現,使容量達百MB級.從第3節的分析可知,深亞微米時代,網絡延遲是大容量cache延遲中至關重要的分量,若能降低L3C中的網絡延遲,則可提高L3C的性能.eDRAM技術的使用可達成這個目的.

嵌入式DRAM(embedded DRAM, eDRAM)是采用邏輯工藝兼容技術將DRAM嵌入到芯片上的技術.eDRAM擁有比SRAM更高的密度,使得它可以在同樣的面積下實現更大的容量.由于其物理尺寸更小,因此它具有更低的cache內互連網絡延遲[1].通過實驗,項目組發現,采用eDRAM技術實現L3C可有效地減小cache內互聯網絡的延遲,在性能、面積、功耗方面比SRAM技術更具有優勢.

本文利用根據擬合POWER7 L3 cache得到的設計目標及相關參數對不同容量的eDRAM cache與SRAM cache進行了比較.

3.1 訪問延遲比較

圖8比較了不同容量下eDRAM cache與SRAM cache的訪問延遲及數據陣列內部互聯網絡的延遲.可以看出,當cache容量比較小時,SRAM cache的延遲比eDRAM cache的延遲小(128 KB, 256 KB, 512 KB).128 KB時,eDRAM cache的延遲(1.590 ns)約為SRAM cache的延遲(1.097 ns)的1.45倍.從圖9中可以看出,雖然SRAM cache的H-樹網絡延遲要大于eDRAM,但SRAM的字線、位線延遲要明顯小于eDRAM.由于eDRAM cache與SRAM cache的實現工藝不同,使得eDRAM字線驅動器的導通電阻要比SRAM大,使得字線上的時間常數更大,其結果是eDRAM cache的字線延遲大于SRAM cache的字線延遲.另一方面,eDRAM單元采用1T1C結構實現,它的響應速度比采用6T的SRAM單元慢,所以eDRAM的位線延遲要大于SRAM的位線延遲.由于eDRAM的字線和位線延遲約為SRAM的兩倍,所以128 KB的eDRAM cache訪問延遲要比128 KB的SRAM cache訪問延遲大45%.

隨著cache容量增加,SRAM cache和eDRAM cache的延遲都在增加,但SRAM cache的延遲增加幅度整體上大于eDRAM cache延遲增加的幅度.從16 MB開始,SRAM cache的延遲開始大于eDRAM cache的延遲.到1 GB時,SRAM cache的延遲(33.2 ns)約為eDRAM cache的延遲(16.8 ns)的2倍.由于SRAM單元的面積比eDRAM單元的面積大,所以隨著容量增加, SRAM cache的物理尺寸比eDRAM增加更迅速,圖10給出兩種cache在不同容量下的面積比較.圖8的折線給出不同容量下eDRAM與SRAM cache的數據陣列內部互聯延遲的比較.更大的物理尺寸使得SRAM cache內互聯導線更長,互聯延遲比eDRAM cache更大.所以,雖然eDRAM的字線位線延遲要大于SRAM,但當容量超過16 MB時,eDRAM cache的總訪問延遲要小于SRAM cache.

值得注意的是,cache容量在1 MB到8 MB之間時,eDRAM cache延遲與SRAM cache的延遲比較呈現波動態勢.這是由于容量增加時,eDRAM cache和SRAM cache的互聯網絡延遲的變化與字線、位線延遲的變化競爭而導致的結果.

3.2 面積比較

圖10給出了不同容量下eDRAM與SRAM面積比較的結果.SRAM cache面積始終比eDRAM cache的面積大.128 KB SRAM cache的尺寸為1.93 mm× 2.06 mm,面積3.98 mm2,它約為同容量eDRAM cache面積(0.93 mm×1.26 mm=1.17 mm2)的3.4倍.隨著容量的增加,eDRAM的面積增加率幾何平均為1.73,而SRAM的面積增加率幾何平均為1.92.這最終使得在1 GB條件下,SRAM cache的面積(18650 mm2)約為eDRAM cache的面積(1 459 mm2)的12.8倍.

從尺寸上來看,1 GB SRAM cache達到了179.794 mm×103.734 mm,即使工藝進步三代到16 nm,并且對應的面積會縮減為原來的1/8,最終達到2 331 mm2,其尺寸則約為48 mm×48 mm,這種尺寸的Die使其在商業生產中不具可行性.相比之下,1 GB eDRAM的尺寸要小很多,約為28.1 mm×51.9 mm,若工藝進步兩代,達到22 nm,則其尺寸可縮小到500 mm2以下,僅從面積約束角度而言,這樣的Die是可行的.

SRAM面積比eDRAM面積大的主要原因是SRAM單元采用6管結構實現,而eDRAM采用1管1電容結構實現.若特征尺寸為F,則SRAM單元的面積約為120~200F2,而eDRAM單元的面積約為20~50F2.這導致eDRAM cache與SRAM cache的面積呈現很大差異.

3.3 功耗比較

3.3.1 動態功耗

不同容量下,eDRAM cache與SRAM cache的動態功耗如圖11所示.eDRAM的動態功耗始終比SRAM小.128 KB時,SRAM的動態功耗(0.42 nJ)約為eDRAM動態功耗(0.22 nJ)的1.90倍.隨著cache容量增加,SRAM cache動態功耗增加率約為1.43,eDRAM cache的動態功耗增加率約為1.39.當cache容量增加至1 GB時, SRAM cache的動態功耗增至45.9 nJ,是128 KB SRAM cache的動態功耗的約110倍,是同容量的eDRAM cache的動態功耗(16.6 nJ)的約2.76倍.

3.3.2 靜態功耗

不同容量下,eDRAM cache與SRAM cache的靜態功耗如圖12所示.eDRAM的靜態功耗始終比SRAM小.128 KB時,SRAM的靜態功耗(101.6 mW)約為eDRAM靜態功耗(39.0 mW)的2.60倍.隨著cache容量增加,SRAM cache靜態功耗增加率約為1.83,而eDRAM cache的靜態功耗增加率約為1.55.當cache容量增加至1 GB時, SRAM cache的靜態功耗增至258 W,是128 KB SRAM cache的靜態功耗的約2 544倍,是同容量eDRAM cache的靜態功耗(11 W)的約21.8倍.

隨著工藝水平的進步,邏輯器件的靜態漏流會進一步增大.若以單片靜態功耗100 W為界,則當cache的容量大于等于256 MB時,SRAM cache就已不具可行性.僅從功耗角度來看,僅消耗11 W靜態功耗的1 GB的eDRAM仍然具有可行性.

3.4 總 結

通過使用CACTI 6.5比較大容量下的eDRAM cache與SRAM cache的訪問延遲、面積、動態/靜態功耗,可以發現,當容量大于16 MB時,采用eDRAM技術實現L3C比SRAM技術在訪問延遲、面積、靜態功耗、動態功耗方面都更具有優勢.eDRAM 技術可在滿足面積、功耗約束的條件下,有效地提高cache的容量和性能,是未來深亞微米和3D背景下多核處理器L3C設計的一個更好選擇.

雖然CACTI 6.5有其自身的局限性,但利用CACTI 6.5研究比較eDRAM與SRAM cache的訪問延遲特性具有一定的參考價值.在工程實踐中,可采用HSpice對器件進行模擬,用Apach的RedHawk等EDA工具結合器件工藝庫與邏輯設計進行更精確的模擬.

4 結 論

深亞微米工藝下,互聯網絡延遲是cache延遲的主要分量;3D堆疊技術的使用使得更大容量的片上cache成為可能.對于采用40 nm工藝制造的cache,互聯網絡延遲可占cache總訪問延遲的61.1%.tag比較器的延遲在深亞微米條件下是不可忽略的一個因素,它對cache總訪問延遲的影響可達9.5%;本文修改了CACTI 6.5,將tag比較器的延遲納入行譯碼路徑的延遲中,使它可以更準確地模擬深亞微米條件下cache訪問延遲.利用新的模型,本文得到了關于不同容量不同關聯度對cache訪問延遲影響的結果.最后,本文針對深亞微米和3D堆疊背景下的L3C設計展開討論,比較了大容量eDRAM cache與SRAM cache,認為eDRAM cache是未來3D背景下L3C的一個可行且有效的解決方案.

參考文獻

[1] MATICK R E, SCHUSTER S E. Logic-based eDRAM origins and rationale for use[J]. IBM Journal of Research and Development, 2005, 49(1): 145-165.

[2] WU X, LI J, ZHANG L, et al. Design exploration of hybrid caches with disparate memory technologies[J]. ACM Transactions on Architecture and Code Optimization, 2010, 7(3):15.

[3] HENNESSY J, PATTERSON D. Computer architecture: a quantitative approach[M]. 5th ed. Beijing: China Machine Press, 2011.

[4] WILTON S J E, JOUPPI N P. An enhanced access and cycle time model for on-chip caches[R]. Palo Alto, California: Western Research Laboratory, 1994.

[5] REINMAN G, JOUPPI N P. CACTI 2.0: an integrated cache timing and power model[R]. Palo Alto, California: Western Research Laboratory, 2000.

[6] SHIVAKUMAR P, JOUPPI N P. CACTI 3.0: an integrated cache timing, power, and area model[R]. Palo Alto, California: Western Research Laboratory, 2001.

[7] TARJAN D, THOZIYOOR S, JOUPPI N. CACTI 4.0[R]. Palo Alto, CA: Hewlett-Packard Development Company, L P, 2006.

[8] THOZIYOOR S, MURALIMANOHAR N, AHN J, et al. CACTI 5.1[R]. Palo Alto, CA: Hewlett-Packard Development Company, L P, 2008.

[9] MURALIMANOHAR N, BALASUBRAMONIAN R, JOUPPI N. CACTI 6.0: A Tool to Model Large Caches[R]. Palo Alto, CA: Hewlett-Packard Development Company, L P, 2009.

[10]任靜, 唐遇星, 徐煒遐. 微處理器Cache體系結構級功耗模型研究[C]//張民選. 第十五屆計算機工程與工藝年會暨第一屆微處理器技術論壇論文集A輯. 長沙:國防科技大學出版社, 2011: 75-81.

REN Jing, TANG Yu-xing, XU Wei-xia. Research on architecture-level cache power model of microprcessors[C] //ZHANG Min-xuan. Proceedings of the 15th CCF Annual Conference on Computer Engineering and Technology. Changsha: National University of Defense Technology Press, 2011:75-81.(In Chinese)

[11]JACOB B, NG S, WANG D. Memory systems cache, DRAM, disk[M]. San Francisco, CA: Morgan Kaufmann Publishers, 2008.

[12]WANG, G, RADENS C, SAFRAN J, et al.Embedded memory considerations in SOI[C]//Proceedings of 2010 IEEE International SOI Conference. New York: IEEE, 2010.

[13]CHANG M, ROSENFELD P, LU S, et al. Technology comparison for large last-level caches(L3Cs): low-leakage SRAM, low write-energy STT-RAM, and refresh-optimized eDRAM[C] //Proceedings of the 19th IEEE International Symposium on High-Performance Computer Architecture. New York: IEEE, 2013.

[14]SINHAROY B, KALLA R, STARKE W, et al. IBM POWRE7 multicore server processor[J]. IBM Journal of Research and Development, 2011, 55(3):191-219.

[15]FICK D, DRESLINSKI R, GIRIDHAR B, et al. Centip3De: a 3930DMIPS/W configurable near-threshold 3D stacked system with 64 ARM cortex-M3 cores[C]//IEEE International Solid-State Circuits Conference. New York: IEEE, 2012:190-192.

主站蜘蛛池模板: 日韩精品一区二区三区大桥未久| 国产AV毛片| 又黄又湿又爽的视频| 精品91视频| 国产成人高清精品免费软件| 亚洲高清在线天堂精品| 日本亚洲欧美在线| 久久99精品久久久久纯品| 欧美在线精品一区二区三区| 成人av手机在线观看| 亚洲精品成人7777在线观看| 91成人在线免费视频| 国产一级精品毛片基地| 国产无吗一区二区三区在线欢| www.99在线观看| 91国内视频在线观看| 午夜日韩久久影院| 国产成人精品日本亚洲77美色| lhav亚洲精品| 欧美亚洲综合免费精品高清在线观看| 国产黄色片在线看| 亚洲精品中文字幕午夜| 99性视频| 99热在线只有精品| 国产精品视频系列专区| 久久无码高潮喷水| 91精品国产一区| 九九线精品视频在线观看| 手机在线看片不卡中文字幕| 97久久精品人人| 久久国产高潮流白浆免费观看| 久久精品只有这里有| 国产97公开成人免费视频| 无码有码中文字幕| 天堂成人av| 二级特黄绝大片免费视频大片| 1级黄色毛片| 国产成人免费| 又爽又大又光又色的午夜视频| 精品色综合| 青青青视频蜜桃一区二区| 国产在线麻豆波多野结衣| 99无码中文字幕视频| 激情无码视频在线看| 亚洲三级片在线看| 国产精品污视频| 伊人91在线| 亚洲精品国产日韩无码AV永久免费网| 97影院午夜在线观看视频| 99精品热视频这里只有精品7| 国产精品亚洲а∨天堂免下载| 99这里只有精品6| 日本一区高清| 午夜成人在线视频| 蜜桃臀无码内射一区二区三区| 玖玖精品在线| 91蝌蚪视频在线观看| 香蕉eeww99国产在线观看| 国产精品尹人在线观看| 国产高颜值露脸在线观看| 国产一区二区精品福利| 久久精品免费国产大片| 精品无码视频在线观看| 精品国产自在在线在线观看| 91福利国产成人精品导航| 高清色本在线www| 亚洲欧美一区二区三区图片| 99热这里只有精品在线播放| 国产美女91呻吟求| 国产精品第三页在线看| 中文成人在线视频| 亚洲午夜片| 丁香六月激情婷婷| 亚洲成人网在线观看| 无码精品国产dvd在线观看9久 | 亚洲免费三区| 中文字幕首页系列人妻| 免费精品一区二区h| 婷婷色一区二区三区| 精品国产免费第一区二区三区日韩| 丝袜久久剧情精品国产| 色久综合在线|