基于對指令數據區分訪問的混合ｃａｃｈｅ低功耗策略

2008-01-01 00:00:00王亮張盛兵譚永亮潘永峰

計算機應用研究 2008年6期

摘要：在分析現有體系結構級低功耗cache設計方案的基礎上，提出了一種混合cache低功耗設計策略，通過在常規混合cache結構上增加一標志域來區分cache某組中的指令和數據，限制了處理器每次訪問的路數，從而達到低功耗的效果。詳細闡明了該方法的原理和硬件實現，并將其應用到自主研發的龍騰C2微處理器上。實驗結果表明，該方法不損耗cache性能，面積犧牲僅1.45％，總功耗降低了23.1％。

關鍵詞：混合高緩；低功耗；體系結構

中圖分類號：TN47

文獻標志碼：A

文章編號：1001－3695(2008)06－1894－03

當前，低功耗設計對處理器系統具有重大意義，功耗的增加不僅制約了微處理器集成度的增長，而且由于需要復雜的冷卻技術而使成本提高。片上cache消耗了整個處理器功耗的30％~60%[1]，降低其功耗對提高處理器的競爭性無疑有重要意義。CMOS電路中功耗包括動態功耗和靜態功耗兩部分。前者是由漏電流引起的；后者是由短路電流和狀態改變時充放電引起的。對于按地址關聯cache，動態功耗占主體地位。組相連cache因為每次訪問要從cache的SRAM中并行地讀出一組中的所有路，但最后只有一路數據被使用，造成功耗損失，所以減少每次訪問的路數可以有效降低功耗。現有的基于此方法的策略有很多，如數據符號壓縮[2]、兩段訪問[1]以及增加線性緩沖區等，但是它們大多是針對哈佛結構的指令或者數據cache，且實現的復雜度和硬件代價較高，較大地犧牲了cache的性能或者面積。

本文研究混合cache的低功耗策略，通過分析若干現有基于上述策略的cache低功耗方法，結合混合cache自身的特點，提出了一種對混合cache中指令數據區分訪問的cache低功耗思想。通過對比實現該策略前后的龍騰C2處理器功耗，證明了該策略的有效性。

1龍騰C2的基本結構

1．1龍騰C2微處理器整體結構

龍騰C2微處理器是由西北工業大學航空微電子中心自主設計研究的一款面向嵌入式應用領域的低功耗32 bit CISC微處理器，與Intel 486DX2完全兼容，工作頻率133 MHz。它包括一個32 bit的整數處理單元、一個浮點單元、一個16 KB的指令數據混合cache、存儲器管理單元、總線接口單元、指令譯碼器和微程序控制器。其結構如圖1所示。

其中，cache采用指令數據混合的結構。混合cache的優點是能夠動態平衡指令負載和數據負載。當程序需要更大的指令cache 和更小的數據cache（或者相反）時，分立型cache不能改變分配，而混合cache 則會自動執行這種動態平衡。

1．2龍騰C2中cache的基本結構

單從低功耗角度考慮，直接映射的方式每次只訪問cache中的一路，能夠最大程度地減少了每次訪問的數據寬度，而且它不需要比較電路，從而最有利于低功耗的實現，但眾所周知，它因缺失率高而使其性能遠遠低于組相連cache。龍騰C2中的cache經過cache模擬工具以及綜合庫的預算，從速度、性能和面積的折中角度已經設計好了其大小、組數和相連度等參數，分別是16k、256組和4路。其最初的基本結構如圖2所示。

與常規組相連混合cache一樣，它包括一個數據存儲器和一個標志存儲器，當給出物理地址和請求信號時，根據索引并行地讀出標志存儲器和數據存儲器，并進行標志比較，根據命中的路數信息從讀出四路數據中選擇一路供處理器使用。由于是混合cache，數據存儲器中讀出的四路可能是數據，也可能是指令，還可能是兩者的混合。

2Cache低功耗策略分析

從上面四路組相連cache的工作過程可以看出，每次訪問cache需要并行地讀出四路的tag和data，而根據命中信息最終只選擇數據中某一路。對cache功耗研究表明，對直接相連、兩路組相連和四路組相連，數據線和數據傳感放大分別消耗了55％、65% 和75% 的cache總能量[3]。可見路數越多，因為讀的數據位寬的增大而增加的cache功耗越明顯，如果每次只訪問其中一路，則可大大降低功耗。基于此思想，文獻[4]給出了一種兩段式cache，即先訪問tag域，再根據命中信息從數據域中選擇一路訪問。此方法避免了對其他無效組的訪問，有效地降低了cache功耗，但是需要一個額外的時鐘周期，降低了cache性能。文獻[5]提出通過預測技術使得這個延遲被消去，但是其原理是基于指令的順序執行規律，所以該方法只適用于指令cache的功耗優化。同樣，增加一個cache行緩沖的方法也不太符合數據的訪問規律，讀寫數據有很大的隨機性，下一個讀寫操作并不一定在同一cache行中，此策略也只針對指令cache。CPU對數據訪問存在基地址相關性，即連續若干次取數或者存數基地址相同的概率很大，不同的只是地址偏移量。文獻[6]利用此規律提出增加保存組選信息的結構以減少對數據cache內存儲器的訪問次數，取得了很好的效果。

混合cache的情況比較特殊。從上面分析可以發現，目前cache低功耗策略主要集中在哈佛結構指令cache或者數據cache上。由于CPU對指令與數據的訪問存在不同的規律，簡單地套用上述這些方法到混合cache上并不可行。通過研究混合cache的行為，發現在訪問混合cache時同時讀出的一組四路很可能是指令和數據的混合體，如果每次訪問cache前能區分開兩者，根據處理器的請求類型：在取指令請求時，只讀取該組中是指令的那些路。在取數據請求時，只讀取該組中是數據的那些路。這樣不僅大大節約了功耗，而且判斷命中的比較邏輯也會減少。

3龍騰C2 cache低功耗方案實現

根據上面的思想，筆者在原有cache的基礎上加了標志向量，用來指示cache某組中某路是指令還是數據。其具體實現原理圖如圖3所示。

在圖2的基礎上，增加一個向量寄存器組（vec），其深度與cache組數相同，每個大小是4 bit，用來標志該組四路中分別是指令還是數據，1代表指令，0代表數據。另外需增加一個二選一多路選擇器，其選擇控制信號是來自處理器的請求類型信號（為1表示是取指令請求，選擇vec作為cache的tag域和data域的讀使能信號；為1表示是取數據請求，選擇vec的反作為cache的tag域和data域的讀使能信號）。

例如，在訪問某一組cache中，該組對應的vec=4′b1010，即第一、第三路是數據，如果當前處理器發出的請求類型request_type==1′b1，表示是取指令請求，則只選通第一路和第三路對cache進行訪問，對應的標志和數據存儲器的使能信號cache_rd_en=4′b1010；反之，如果是數據讀寫請求，則選擇二、四路進行訪問，對應的標志和數據存儲器的使能信號cache_rd_en=4′b0101。所以此二選一的verilog描述為

cache_rd_en=(request_type==1′b1) ? vec:~vec;

另外，在對cache進行替換處理時，不僅要替換標志和數據域中的內容，而且還需要將本次替換的是指令還是數據標志位寫入對應位的vec寄存器。不過，這個寫操作是并行的過程，不需要額外的時間開銷。

該方法是以面積換取功耗，其工作機制與圖2中的混合cache相同，故命中率不會受影響。與圖2常規混合cache相比，它只是增加了一組標記，需要的處理器選擇信號可以從譯碼器提前獲得，所以沒有任何延遲，實現起來也非常簡單。

4結果分析

4．1面積影響分析

筆者先后在RTL級實現了上述兩種cache模型，以smic18工藝庫，采用DC將cache模塊和龍騰C2系統在約束相同的情況下分別綜合成門級網表。結果如表1所示。

由表1結果可以計算出，實現改進后的cache結構面積僅增加了原來cache的1.45％，整個處理器的面積只增加了0.63％，所以其面積影響極小。

4．2功耗分析

為了評估其功耗，本文分別將兩種方案實現的cache分別置于龍騰C2的系統中，用VCS進行仿真DOS中典型程序，對輸出的VCD文件利用synopsys的功耗分析工具PrimePower分析功耗。由于龍騰C2是面向嵌入式工控機的，其操作系統是DOS，本文選取DOS下的典型程序進行測試。結果如表2所示。

從表2可以得出，改進后的方案運行DOS的幾種典型程序的功耗降低幅度分別是19.9%、20.3％、28.0％、24.2％，平均為23.1％。圖4對應表2中的數據。

5結束語

通過分析現有的基于減少ccache中SRAM訪問量的低功耗策略，本文提出了一種適合于混合cache的優化功耗方法。它既發揮了混合cache指令、數據可以充分利用cache空間的優點，又通過標志區分指令還是數據減少了平均訪問SRAM的數量，從而在不損失性能的前提下，達到了降低功耗的目的。實驗表明，該方法僅增加1.45%的面積開銷，而功耗可降低約23.1％，以較少的面積損失換得較好的功耗優化結果。此策略具有很好的通用性，可以應用到任何混合cache的設計中。

參考文獻：

[1]GONZALEZ R，HOROWITZ M. Energy dissipation in general purpose micro－2 processors[J].IEEE Journal of Solid－State Circuits，1996， 31(9):1277－1284.

[2]BELLAS N， HAJJ I N， PLYCHRONOPOULOS C D. Architectural and compiler techniques for energy reduction in high performance microprocessors[J].IEEE Trans VLSI Syst， 2000，8(3):317－326.

[3]WILTON S J E， JOUPPI N P. CACTI:an enhanced cache access and cycle time model[J].IEEE Journal of Solid－State Circuits， 1996，31(5):677－688.

[4]HASEGAWA A， KAWASAKI I， YAMADA K， et al. SH3: high code density， low power [J]. IEEE Micro， 1995，15(6):11－19.

[5]INOUE K， ISHIHARA T， MURAKAMI K. Way－predicting set－associative cache for high performance and low energy consumption[C] //Proc of International Symposium on Low Power Electronics and Design. San Diego:[s.n.]， 1999:273－275.

[6]張宇弘，王界兵，嚴曉浪，等. 利用基地址相關的低功耗數據cache設計[J].浙江大學學報， 2005，39(10):1524－1528.

注：本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文

計算機應用研究2008年6期

計算機應用研究的其它文章: 移動終端Ｂｏｏｔｌｏａｄｅｒ的開發與設計; 高速公路不停車收費系統仿真研究及應用; 大規模機群系統的快速部署與動態配置; 數據庫技術在計算機輔助審計中的應用研究; 變形監測信息管理系統的集成化設計; 高清晰超聲微掃描成像無損檢測系統