蔡艷慧,方 赟,鐘傳杰
(江南大學 信息工程學院,江蘇 無錫 214122)
在數字集成電路的設計中,時鐘功耗是制約電路設計發展的重要因素。文獻[1]中的一種高性能處理器的功耗分析表明,30%~50%的功率消耗在時鐘分配網絡(Clock Distribution Network,CDN)上。 因此,降低時鐘分配網絡功耗,成為降低電路功耗的關鍵。近年來,人們提出了一種由四相正弦時鐘控制的能量回收時鐘觸發器——傳輸門能量回收時鐘觸發器(PGER)[2]。它能夠利用設計能量回收時鐘的方法來回收時鐘分配網絡中電容里存儲的電荷。但其缺點是時鐘信號產生電路復雜,增加額外功耗。同時,傳輸門的延遲時間較大,導致賦值時間減少[3]。Aliakbar Ghadiri等人提出了預取值靜態脈沖觸發器(PCSP)[4],其缺點是結構復雜,造成的版圖面積增大。基于以上文獻,筆者提出了靜態差分能量回收觸發器(SDER),可大大改善上述缺點。
門控時鐘技術是另外一種降低時鐘功耗的方法,近年來得到廣泛應用[5-8]。傳統的插入邏輯門的方法并不適合能量回收技術,因此筆者提出在觸發器上添加時鐘門控邏輯門。
目前,降低功耗的設計思想主要有:減小電路的節點翻轉因子,降低電源電壓,減小負載電容,使用動態電源管理系統使系統在空閑時自動進入休眠狀態。但是,這些方法從電源中吸收的能量在被耗盡之前只能被使用一次。為了減少能量浪費,使從電源中吸收的能量得到充分的利用,可引入再循環的措施。這就是另外一種降低功耗的方法——能量回收技術。能量回收電路利用交流功率時鐘驅動,可以在整個工作過程中使導通器件兩端的電壓保持在很低的數值,從而降低了電路功耗[9]。
圖 1 為靜態邏輯電路能量回收過程。 Vdd1(t)和 Vdd2(t)均為可變電源。充電時,由于 Vdd1(t)緩慢上升,使 Vc(t)隨著Vdd1(t)的變化而緩慢變化,減小兩者之間的差值,從而減少消耗在上拉網絡上的功耗。放電時,Vdd2(t)緩慢下降,Vc(t)隨著 Vdd2(t)的下降而減小,這樣消耗在下拉網絡上的功耗也減小,從而使儲存在CL上的能量回收到電源,反復使用,從而降低總功率的消耗。在同步數字電路中,由于時鐘信號是容性信號,因此,在時鐘分配網絡中利用能量回收技術可以節省大量能量[11]。

圖1 靜態邏輯電路能量回收
在數字集成電路中,時鐘信號遍布芯片的每個角落。為了形象地描述它的分布和工作情況,提出了時鐘樹分布網絡模型——集總π型RC模型。根據時鐘樹在芯片內的分布特征,將時鐘分配網絡定義為H樹型結構。這是因為,H樹型結構從時鐘信號的起點到各個時鐘終點的距離是相等的,時間理論上也相等,時鐘偏差理論值應為0。能量回收時鐘信號發生器通過H時鐘樹分配網絡驅動觸發器。
采用的能量回收時鐘發生器是一個單相正弦振蕩時鐘發生器[12],如圖2所示。之所以采用正弦信號波形,是因為正弦信號波形平滑,不在某個時刻發生突變,可以起到能量回收的作用。

圖2 能量回收時鐘發生器
能量回收時鐘發生器由LC振蕩電路、晶體管MP、MN和幾個反相器組成。實際應用時,它的負載就是一個RC網絡。DC供電電壓為Vdd/2。晶體管MN,MP分別有參考信號REF1和REF2驅動。參考信號REF1和REF2頻率相同,相位相差180°。當晶體管MN的參考信號REF1達到最小值時,MN作為電路的下拉管子把振蕩信號拉到最小至0,這樣可以保證振蕩電路的幅值,因此這個管子的尺寸要相當大,而且有反相器驅動。為了使電路不受溫度和工藝的影響,保證波形的穩定,大尺寸且受反相器驅動的MP起著至關重要的作用。當晶體管MP的參考信號REF2達到最大時,激活上拉管子MP,使時鐘信號的振幅拉到 Vdd。
時鐘發生器的振蕩頻率為

式中:C為連接時鐘樹的總電容,包括時鐘樹的寄生電容和觸發器時鐘的輸入電容;L為集總電感。為了得到C值,需要仿真時鐘發生器和觸發器。首先給出L值,得出電路的固有頻率f0,然后求出C值。L值要根據需要的頻率來確定。
圖3為靜態差分能量回收觸發器(SDER)。該電路為比例邏輯電路,主要由 MP1、MP2、MN1、MN2、MN3、MN4、反相器等組成。差分邏輯要求每一個輸入信號都有相應的互補信號作為另一個輸入,并且產生一對互補的輸出信號,同時也使電路很容易上拉到Vdd。輸出的正反饋保證了在不需要電路工作時,把負載PMOS管關掉,這樣有效地降低了靜態功耗。S和R節點經過輸出緩沖器分別輸出信號QB和Q。觸發器的輸出Q和QB分別反饋給接地的MN2和MN1,這樣設計可以避免內部節點S和R受干擾,使輸出信號穩定。電路的另一個特點在于減少電荷分享的2個接地的管子MN3和MN4。在電路的賦值階段,為了減少電路的電荷分享降低功耗,把MN3和MN4的參數設置得很大,并把MN3和MN4接地。時鐘信號CLK為正弦信號波形,它直接控制MN4和經過反相器以后控制管子MN3。MN3和MN4為串聯的NMOS管,理想情況下,MN3和MN4不可能同時導通,但是在實際的電路中,時鐘信號CLK經過反相器后總會有時間的滯后,這就形成了必定使MN3和MN4同時導通的短脈沖。

圖3 靜態差分能量回收觸發器
電路的工作過程簡單介紹如下。當時鐘信號CLK上升沿到來,并達到管子的閾值電壓,且D=1,MN4導通取值,由于反相器的作用,存在短的高電平脈沖使MN3也導通,下拉網絡有足夠的下拉能力把節點S下拉到低電平,從而使MP2導通。由于DB=0,節點R到地之間沒有通路,所以輸出Q和QB分別為低電平和高電平。這時MP1截止,節點S繼續下拉,且由于MP1截止,不再有靜態電流從Vdd流到地,從而降低了靜態功耗。
在系統的睡眠狀態,門控時鐘技術是降低功耗的好方法。時鐘網絡包括兩個部分,一部分是由時鐘緩沖器組成的時鐘樹本身,另一部分是時鐘樹節點所驅動的為數眾多的寄存器。相對于方波時鐘,門控時鐘技術在能量回收電路中的應用要講究得多,這是因為在正弦時鐘網絡中插入邏輯門會破壞波形,從而減少能量回收電路回收能量。這里,提出的門控時鐘技術如圖4所示。
門控時鐘技術使用的或非邏輯門來取代圖3所示的反相器[12]?;蚍沁壿嬮T有2個輸入:時鐘信號CLK和使能信號EN。在激活模式下,使能信號EN=0,或非門相當于一個反相器。在睡眠狀態下,使能信號EN=1,即使CLK=1,或非門的輸出也為0,從而避免觸發器工作。

圖4 門控時鐘能量回收時鐘觸發器
為了更好地說明能量回收技術的優點,分別對2個單元電路進行局部仿真。一個是帶有能量回收的單元,即利用設計的時鐘發生器通過H時鐘樹分配網絡來驅動觸發器;另一個是不帶有能量回收的單元,即利用方波時鐘信號通過H時鐘樹分配網絡來驅動觸發器。這2個單元電路均是在SMIC 0.35 μm CMOS標準工藝下實現,供電電源為3.3 V,溫度為27℃,用Spectre軟件仿真。用HSPICE從版圖中提取寄生電容的網表,所有觸發器的輸出負載電容取為30 fF。圖5為提出的能量回收時鐘觸發器有能量回收和無能量回收能量消耗與頻率的關系。

從圖5可以看出,隨著頻率的增加,回收能量的幅度有所下降,如果頻率特別大,能量回收電路將無優勢而言。當時鐘頻率為40 MHz時,方波時鐘控制的觸發器消耗的能量為133.7 μJ,而正弦時鐘控制的觸發器消耗的能量僅為76.4 μJ,同比下降了42.86%;當時鐘頻率為200 MHz時,方波時鐘控制的觸發器消耗的能量高達181.6 μJ,而正弦時鐘控制的觸發器消耗的能量為150.8 μJ,同比下降幅度約為17%。
門控時鐘技術的應用,對降低觸發器的功耗起到了很大作用,特別是在系統睡眠狀態下。在睡眠狀態下,50%數據轉換行為時,分別對各觸發器仿真,功耗結果如表1所示。其中,P1表示利用門控時鐘技術的功耗,P2表示沒有利用門控時鐘技術的功耗。

表1 利用門控時鐘技術前后各觸發器系統功耗情況
時鐘頻率為40 MHz,數據轉換行為50%時,新型觸發器和傳統觸發器利用能量回收技術和不利用能量回收技術情況比較如表2所示。其中,P3表示利用能量回收技術的功耗,P4傳統代表沒有利用能量回收技術的功耗,t表示延時。

表2 利用能量回收前后各觸發器功耗、管子數和延時比較
由表2得知,時鐘頻率為40 MHz,50%數據轉換行為時,SDER常規情況下需要消耗133.7 μW,而利用能量回收技術以后功耗僅為76.4 μW,同比下降了42.86%。PGER需要消耗的功率最大,為147.1 μW,而PCSP消耗的功率最小,僅為112.4 μW。和SDER相比,PGER和PCSP利用能量回收技術功耗下降幅度較小,分別為39.29%和28.29%。雖然PGER的管子數最少,只有4個,但其致命的是延時較長,約為SDER的2倍。PCSP則需要24個管子,比SDER多用了10個管子,需要較大的電路板面積。
筆者針對如何降低功耗問題展開討論,提出適用于能量回收技術的正弦時鐘發生器結構和靜態差分能量回收觸發器。在SMIC 0.35 μm CMOS標準工藝下,利用Spectre軟件仿真的結果表明,利用能量回收時鐘觸發器與傳統技術相比,功耗下降幅度達到42.86%,延時也降低了約31%。系統睡眠模式下,提出對觸發器添加門控時鐘邏輯門,功耗下降了約65%。因此,能量回收和門控時鐘技術大大降低了時鐘分配網絡的消耗,同時,對設計高性能、低功耗、高速度的計算機系統有很大的推動作用。
[1] 常曉濤,張明明,張志敏,等.應用于片上系統中低功耗IP核設計的自適應門控時鐘技術[J].計算機學報,2007,30(5):823-830.
[2] VOSS B,GLESNER M.A low power sinusoidal clock[C]//Proc.the 2001 IEEE International Symposium on Circuits and Systems.Sydney,Australia:IEEE Press,2001:108-111.
[3]MAHMOODI H,TIRUMALSHETTY V,COOKE M,et al.Low-power clocking scheme using energy recovery and clock gating[J].IEEE Trans.Very Large Scale Integration (VLSI) Systems,2009,17(1):33-44.
[4] GHADIRI A,MAHMOODI M.Pre-capturing static pulsed flip-flops[C]//ISCAS 2005.[S.l.]:IEEE Press,2005:2421-2424.
[5] WU Q,PEDRAM M,WU X.Clock-gating and its application to low power design of sequentialcircuits[J].IEEE Trans.Circuits and Systems,2000,47(3):415-420.
[6] HOU L,LUO R,WU W.Low power grating detection system chip for high-speed low cost length and angle precision measurement[EB/OL].[2010-03-20].http://cat.inist.fr/?aModele=afficheN&cpsidt=18885606.
[7]TROYA A,MAHARATNA K,KRSTIC M,et al.Low-power VLSI implementation of the inner receiver for OFDM-based WLAN systems[J].IEEE Trans.Circuits and Systems,2008,55(2):672-686.
[8]VISWANSTH V,VASUDEVAN S,ABRAHAM J A.Dedicated rewriting:automatic verification of low power transformations in RTL[C]//Proc.2009 22nd International Conference on VLSI Design.New Delhi,India:IEEE Press,2009:77-82.
[9]ZIESLER C H,JOOHEE K,PAPAEFTHYMIOU M C.Energy recovering ASIC design[C]//Proc.IEEE Computer Society Annual Symposium on Energy Recovering ASIC Design,2003.[S.l.]:IEEE Press,2003:133-138.
[10]SUHWANK,ZIESLERCH,PAPAEFTHYMIOUMC.Charge-recovery computing on silicon[J].IEEE Trans.Computers,2005,54(6):651-659.
[11]GHADIRI A,MAHMOODI H.Comparative energy and delay of energy recovery and square wave clock flip-flops for high-performance and low-power applications[C]//Proc.the 15th International Conference on Microelectronics.[S.l.]:IEEE Press,2003:89-92.
[12] TIRUMSLASHETTY V,MAHMOODI H.Clock gating and negative edge triggering for energy recovery clock[C]//Proc.IEEE International Symposium on Circuits and Systems,2007.New Orleans,LA,USA:IEEE Press,2007:1141-1144.