張躍軍 韓金亮 張會紅*
①(復旦大學專用集成電路與系統國家重點實驗室 上海 201210)
②(寧波大學信息科學與工程學院 寧波 315211)
生物醫療、射頻識別、無線傳感網絡與環境監測等應用領域通常對芯片的功耗具有苛刻的要求。芯片功耗包括動態功耗和靜態功耗。納米級工藝下,芯片靜態功耗占主導地位,其與電源電壓呈指數關系。當電源電壓降至亞閾值區,功耗能夠降低2~3個數量級,降低電源電壓被認為是目前降低芯片功耗最直接且最有效的方法[1,2]。但是標準數字邏輯電路無法在亞閾值電壓下正常工作。當電源電壓下降到閾值電壓附近,電路延時和漏電流急劇增加,電壓傳輸特性(Voltage Transfer Characteristics, VTC)惡化,晶體管驅動能力失配,導致電路穩定性降低且對工藝偏差非常敏感[3—5]。此外,電源電壓的降低可以減少翻轉功耗,但會使晶體管在相對較長的時間內處于半導通狀態,從而增大泄漏功耗[6]。在亞閾值區,受反向短溝道效應(Reverse Short Channel Effect, RSCE)和反向窄寬度效應(Inverse Narrow Width Effect, INWE)的影響,晶體管的閾值電壓隨著晶體管的溝道尺寸而改變[7]。RSCE和INWE效應對亞閾值電路性能影響的好壞與器件尺寸緊密相關,表現為電路面積、延時和功耗的優化或惡化[8]。如何有效地利用RSCE和INWE效應,改善亞閾值電路性能,已經成為當前研究的熱點之一。
在亞閾值數字標準單元庫設計及系統設計方面,研究者已經開展相關研究工作。文獻[9]提出采用MOS管堆疊的擴展傳輸門標準單元電路結構,利用堆疊效應減少漏電流。在90 nm工藝下仿真驗證,與傳統布爾邏輯電路相比,其漏電流與信號損失得到顯著改善。Lotze等人[10]在固態電路(Journal of Solid-State Circuits, JSSC)上發表的施密特型亞閾值標準單元電路設計技術,該標準單元電路利用施密特觸發(Schmitt Trigger, ST)原理改進邏輯門電路結構,結合RSCE效應對晶體管尺寸進行調整和優化,達到減少泄漏電流、提升抗噪聲能力、加強魯棒性的目的。Sharma等人[11]提出晶體管的最大電流電容比(Current to Capacitance Ratio, CCR),優化晶體管尺寸,給出CCR最大時的晶體管最佳溝道長度解析表達式。文獻[12]提出可調節的P/N比來優化電路版圖,該方法允許每個單元單獨調整P/N比,填補標準單元版圖槽口,提高版圖面積利用率。雖然該版圖設計技術可以有效降低標準單元的功耗,但P阱和N阱邊界不規則可能導致芯片良率的降低。
鑒此,通過對已有技術和亞閾值電路特性的研究,本文提出一種高魯棒性標準單元設計方法。該方法利用施密特觸發的遲滯效應改進標準單元電路結構;然后,采用INWE的最小寬度尺寸調節策略與分指版圖設計方法加強MOS管的驅動電流并提升電路工作速度;最后,在TSMC 65 nm CMOS工藝下,對所提的標準單元電路進行特征化、提取時序與物理參數,實現亞閾值標準單元庫并完成ISCAS測試驗證。
亞閾值電流Isub計算公式如式(1)所示[13],W和L分別為MOS管的有效溝道寬度和長度,VTH為晶體管閾值電壓,m為體效應系數,VT=kT/q為熱電參數,I0為方塊漏極電流,e為自然常數,VGS為柵源電壓,VDS為漏源電壓。從表達式可知,亞閾值電流與電源電壓呈指數關系,隨著電源電壓的降低,亞閾值電流呈指數級增加。在亞閾值區,柵極電壓和漏-襯底電壓較小,因此柵泄漏電流和反偏結的泄漏電流與亞閾值漏電流相比可忽略不計,電路的漏電流主要是亞閾值泄漏電流。

傳統的6T施密特觸發器如圖1(a)所示,由6個晶體管構成,P0, P1為堆疊PMOS管將輸出拉高,N0, N1為堆疊NMOS管將輸出下拉。P2, N2為反饋晶體管,通過輸出信號反饋來提高電路的開關閾值。當輸入信號為0時,VOUT為1,N2導通,將結點X處的電容上拉至高電平,使得N1的VDS接近零,N1的VGS小于0,如圖1(b)。由式(1)可知,抑制漏電流呈指數上漲,且N1關斷的更加徹底,因此亞閾值漏電流大大降低。當輸入端從0→1過渡時,反饋晶體管N2通過提高N1的源電位來保持輸出端的邏輯“1”。由于中間結點X電壓上升,導致N1的VSB大于0, N1的閾值電壓提高,從而產生更高的開關閾值。對于輸入為1時,VOUT為0, P2打開,節點Y的電容通過P2放電。此時,P1的VDS接近零,P1的VGS大于0,反饋管P2將結點Y放電到低電位,從而極大地減少泄漏電流,如圖1(c)。此外,開關閾值也可以通過1→0輸入轉換期間的反饋機制來提高。

圖1 6T施密特觸發器及其泄漏路徑
由于P2與N2管的反饋,使得ST的VTC在上升和下降時產生明顯的滯后,該現象稱為遲滯效應,如圖2(a)所示。假定NMOS晶體管的閾值電壓為VTN, PMOS晶體管的閾值電壓VTP, KN0, KN2,KP0和KP2為MOS管的器件跨導,VHL和VLH分別為低觸發電壓和高觸發電壓,VOH為輸出高電壓,VOL為輸出低電壓。VLH, VHL計算如式(2)和(3)所示

因此,相對于一個無遲滯的靜態邏輯門,施密特觸發器顯示出卓越的噪聲抑制能力。噪聲容限之和可能超過電源電壓[14],如式(4)所示

其中,VNML, VNMH分別為低電平噪聲容限和高電平噪聲容限。對于輸入0,由于NMOS晶體管的弱傳輸“1”特性,結點X處會出現弱“1”電壓。漏極引起的勢壘降低效應(Drain-Induced Barrier Lowering, DIBL)[15]將導致通過N0的漏電流顯著降低。同樣,對于輸入1,由于PMOS晶體管的弱傳輸“0”特性,得益于DIBL效應,通過P2的漏電流也顯著降低。圖2(b)為ST與標準反相器的開關電流比(Ion/Ioff),該結果是在TSMC 65 nm CMOS中仿真得到,兩個設計中的器件具有相同的尺寸[3]。可以看出,ST的開關電流比率比傳統反相器的開關電流比率明顯增高,甚至高出兩個數量級。ST結構能夠使漏電流顯著減小,并增大Ion/Ioff比率,從而確保電路的高魯棒性。
傳統的施密特觸發邏輯門結構,如圖3所示[10]。與常規邏輯門相比,ST結構采用堆疊方式增加晶體管數量,并在NMOS和PMOS堆疊處添加反饋管,實現具有遲滯特性的輸出信號。ST邏輯門的遲滯特性有助于提高亞閾值區的抗工藝偏差與抗噪聲能力,堆疊效應有利于減少漏電流。但是,ST邏輯門的面積開銷較大,扇入數為n的ST邏輯門的晶體管數量達2(2n+1)。此外,ST NOR2上拉網絡采用4管堆疊模式,ST NOR3上拉網絡采用6管堆疊模式,堆疊效應將急劇增加電路延時。
針對上述亞閾值電路的設計難點與ST邏輯門存在的缺陷,提出一種高魯棒性ST亞閾值電路設計方法。該方法利用ST邏輯的遲滯效應優化布爾邏輯門,減少亞閾值電路的漏電流、提高邏輯門的穩定性和抗工藝偏差能力。

圖2 6T施密特觸發器的VTC曲線和開關電流比率
本文采用半堆疊式ST結構設計NOR2, NOR3,NAND2, NAND3等邏輯門,電路結構如圖4所示。在NOR2中,電路上拉路徑的堆疊結點處添加柵極反饋P2管,構成P型半堆疊式ST結構,如圖4(a)所示。上拉路徑與ST結構具有相同功能,當P2與N2管同時導通時,將堆疊結點處的電容放電,使P1的VDS≈0且VGS>0。由2.1節的分析可知,減少上拉路徑的漏電流,并有效提高開關閾值電壓。在NAND2中,電路下拉路徑的堆疊結點處添加柵極反饋的N2管,構成N型半堆疊式ST結構。當N2與P2同時導通時,對下拉路徑的堆疊結點處電容充電,使N0的VDS≈0且VGS<0,其下拉路徑與ST結構具有相同的遲滯特性。
在NOR3中,上拉路徑中存在兩個堆疊結點,添加兩個柵極反饋P3, P4管連接到堆疊結點處,使上拉路徑具有與ST結構功能一致的雙重反饋,同樣地,構成P型半堆疊式ST結構。當P3與N3同時導通時,對P0與P1的堆疊結點處電容放電;當P4與N4或N5同時導通時,對P1與P2的堆疊結點處電容放電,使得P1與P2管的柵源電壓提高,從而減少上拉路徑的漏電流。同理,在NAND3的下拉路徑中存在兩個堆疊結點,添加兩個柵極反饋N3,N4管連接到堆疊結點處,使下拉路徑構成N型半堆疊式ST結構。電路中存在兩條反饋環路,當反饋環路導通時,使得N0與N1的柵源電壓降低,從而減少下拉路徑的漏電流。由式(2)和式(3)可以推導出NAND3與NOR3的高觸發電壓VLH和低觸發電壓VHL,如式(5)、式(6)所示

圖3 施密特觸發邏輯門

圖4 半堆疊式ST亞閾值邏輯門

從式(2)與式(5)中可知,對于NAND3采用雙重反饋的N型半堆疊式ST結構,其高觸發電壓VLH與下拉路徑堆疊晶體管的器件跨導有關,通過調節堆疊晶體管的尺寸可以有效地增加VLH的值,從而增加遲滯寬度提升電路穩定性。同理,對于NOR3采用雙重反饋的P型半堆疊式ST結構,通過調節上拉路徑堆疊晶體管的尺寸,增加電路的遲滯寬度。NAND3與NOR3采用雙重反饋環路,由于堆疊效應的存在與ST結構的特性,與NOR2, NAND2相比,可以有效降低漏電流和增強遲滯,從而提高噪聲容限。此外,NAND2邏輯門中僅需要7個晶體管,與布爾邏輯電路相比僅增加兩個晶體管,而圖3中ST NAND2中的晶體管數量為10個,從而實現晶體管數量減少、面積開銷降低。同時,與ST NAND2相比,提出的NAND2下拉路徑中堆疊的NMOS數量減少1/2,在面積、傳輸延遲等方面具有優勢。同理可得,NAND3, NOR3在晶體管數量與堆疊管數量方面也存在一定的優勢。
由于INWE效應的存在,在亞閾值區較小的器件尺寸具有更大的驅動電流,相同的器件寬度采用多指版圖結構能有效提升電流效率[16]。半堆疊式ST邏輯門采用最小寬度分指版圖進行設計。在版圖設計過程中,考慮亞閾值區的INWE效應,對MOS管的寬度進行加寬或分指,從而提高或降低MOS管的閾值,加強整體電路的抗噪聲能力。設計的NAND2與NAND3電路版圖,如圖5所示。在上拉路徑中,無堆疊點MOS管采用兩倍加寬并分指的版圖結構。由于INWE效應的存在,寬MOS管具有高閾值電壓,可以提高電路的開關閾值。對于有堆疊點的下拉路徑,MOS管采用最小寬度分指版圖結構,小寬度的MOS管具有低閾值電壓,可彌補堆疊結構帶來的電路延時。同理,在NOR2與NOR3電路版圖中,下拉路徑采用兩倍加寬并分指版圖結構,上拉路徑采用最小寬度分指版圖結構,如圖6所示。與傳統的ST邏輯門電路相比,提高電路工作速度,降低面積開銷和漏電流。

圖5 NAND電路版圖
為了保證電路穩定工作,半堆疊式ST邏輯門必須具備抗干擾能力,以應對低電壓下的工藝偏差、電壓波動、電路內部與外部的噪聲干擾等。靜態噪聲容限(Static Noise Margin, SNM)是衡量邏輯單元穩定輸出所能承受的最大直流噪聲的重要指標[17]。噪聲容限的測量方式有多種,蝶形圖是一種簡單且有效的方法。在上述分析基礎上,該文采用蝶形曲線法對標準單元的SNM進行測量[10]。測試電路SNM時,將與非門、或非門采用首尾相接的方式構成交叉耦合環路,圖7(a)所示。所測的兩條VTC曲線構成蝶形曲線,在蝶形曲線中能插入的最大正方形邊長即為被測電路的噪聲容限值。如圖7(b)為采用1000次蒙特卡洛仿真的反相器環電路的蝶形曲線圖。采用上述測試方案,將本文所設計的邏輯門與TSMC 65 nm標準單元的SNM進行比較分析,如圖8所示。從圖中可知,TSMC標準單元SNM與電源電壓比值為16.3%~21.8%,本文所提ST邏輯單元的SNM與電源電壓比值為18.5%~24.8%。與TSMC標準單元相比,所設計ST邏輯單元SNM提升11.5%~15.3%。
在TSMC 65 nm工藝下,設計基于半堆疊式亞閾值標準單元庫,采用HSPICE軟件進行仿真驗證。在同等條件下將所提設計與同類技術在功耗、延時、功耗延時積(Power Delay Product,PDP)和面積等方面進行比較。簡便起見,僅就NAND2,XNOR2的對比仿真結果展開分析。以Cov表示TSMC 65 nm工藝庫單元,ST表示傳統的施密特邏輯門,opt表示采用INWE尺寸調節策略優化的電路版圖。
不同設計方案下NAND2, XNOR2的功耗情況如圖9(a)所示。與Cov_NAND2和文獻[3]相比,NAND2_本文在0.45 V電壓下的功耗分別降低7.17%和21.3%,在電壓低于0.45 V時,功耗有更顯著的降低。由于文獻[3]中的NAND2在輸入信號切換時,存在NMOS同時導通的情況,導致電源到地的直流通路,增大電路功耗。與文獻[10]相比,在電壓為0.30~0.45 V時,NAND2_本文功耗降低20%~30%。采用半堆疊式ST結構設計的XNOR2在電壓接近0.45 V時,與Cov相比功耗降低15.6%。所提出的半堆疊式P型與N型ST結構能有效地減少電路的漏電流,進而減少電路的總功耗。

圖6 NOR電路版圖

圖7 SNM測試電路與蝶形圖
圖9(b)比較不同設計方案下兩種門電路的傳輸延時。可以看出,隨著VDD的減小,電路延時急劇增加,當VDD從0.6 V降低到0.3 V時,電路延時最大可增加3×數量級。由于ST結構的遲滯效應與堆疊效應,與其它電路相比,ST_NAND2[10]具有最大的電路延時。與ST_NAND2相比,ST_NAND2_opt在相同電路結構下延時降低,同樣的Cov_NAND2_opt的延時也降低,表明最小寬度多指版圖設計方法的有效性。由于采用半堆疊式ST結構與最小寬度多指版圖設計NAND2,與ST_NAND2_opt相比,其NMOS管的堆疊數量減少1/2,在0.45 V電壓時電路延時減小約54.4%。同理,由于遲滯效應的存在,相比于Cov_XNOR2_opt,XNOR2_本文延時略有增加。

圖8 不同邏輯單元的靜態噪聲容限
圖9(c)為門電路的PDP對比曲線,隨著電源電壓的降低,電路的延時迅速惡化,PDP呈現上升的趨勢。由于ST_NAND2[10]的延時惡化最大,在0.3 V-0.6 V電壓變化范圍內具有最大的PDP。NAND2_本文與Cov_NAND2_opt電路相比,PDP的增加始終保持在小幅度范圍,但是可靠性與穩定性得到提升。與文獻[3]相比,由于NAND2_本文的延時相近,但功耗改善較大,PDP保持在較低的范圍內。這表明所提出的半堆疊式ST結構邏輯門在亞閾值區的速度和功耗方面進行了更好的優化。圖9(d)為電路的面積開銷情況,以Cov_NAND2與Cov_NOR2面積為1×,NAND2_本文與NOR2_本文的面積為1.14×,額外面積開銷為14%;N A N D 3_本文與N O R 3_本文的面積分別為2.14×和2.29×,額外面積開銷分別為65%和77.5%;XNOR3_本文的面積為1.86×,額外面積開銷別為30%。

圖9 改進的ST電路與標準單元的延時、漏流、PDP及面積的對比

表1 基準測試電路驗證與對比
為了進一步驗證單元庫的有效性,比較綜合后的電路性能,選取ISCAS基準測試電路中的5個典型電路作為測試對象[18]。為了便于對比分析,對每個測試電路分別采用兩種單元庫進行電路綜合,兩種單元庫分別為亞閾值標準單元庫和TSMC 65 nm標準單元庫(簡寫為Cov_lib庫)。在綜合過程中,采用相同的工藝條件(TT工藝角、溫度為27 ℃、工作電壓為0.6 V),采用相同類型的標準單元和驅動能力,綜合后分別進行延時、功耗和面積的比較分析,比較結果如表1所示。從表中數據可得,本文設計的亞閾值標準單元庫:(1)延時平均減少7.71%,最大減少12.9%(c3540),最小減少3.6%(c432);(2)功耗平均減少15.8%,最大減少23.6%(c7552),最小減少8.04%(c499);(3)面積平均增大24.84%,最大增加32.5%(c432),最小增加14.3%(c7552)。由于Cov_lib庫是臺積電公司提供的,在亞閾值電壓下晶體管尺寸及電路結構未經優化,綜合后電路的延時大大增加,而本文設計的單元庫可以改善延時過大的問題。同時,平均功耗的大幅度降低,驗證了半堆疊結構減少泄漏電流的有效性。
在對亞閾值電路工作特點、納米級效應與施密特觸發電路結構研究的基礎上,結合INWE的版圖尺寸優化方法,本文提出一種半堆疊式ST結構的標準單元電路設計方案。從電路和版圖兩方面對標準單元進行優化,采用堆疊結點處添加反饋管的方式構建類施密特觸發邏輯門,采用最小寬度的多指方法設計門電路版圖,實現亞閾值電路的開關閾值提高、泄漏電流降低、增強穩定性與魯棒性。實驗結果表明,所設計的邏輯門電路在延時、功耗、PDP和可靠性等方面均有明顯的改善。在TSMC 65 nm工藝下完成物理庫、時序庫和邏輯庫,將其應用于ISCAS進行邏輯綜合和測試驗證,結果表明采用亞閾值單元庫在延時和功耗提高顯著。