黃正峰 陳 凡 蔣翠云 梁華國
?
基于時序優先的電路容錯混合加固方案
黃正峰①陳 凡*②蔣翠云③梁華國①
①(合肥工業大學電子科學與應用物理學院 合肥 230009)②(合肥工業大學計算機與信息學院 合肥 230009)③(合肥工業大學數學學院 合肥 230009)
為了有效降低容忍軟錯誤設計的硬件和時序開銷,該文提出一種時序優先的電路容錯混合加固方案。該方案使用兩階段加固策略,綜合運用觸發器替換和復制門法。第1階段,基于時序優先的原則,在電路時序松弛的路徑上使用高可靠性時空冗余觸發器來加固電路;第2階段,在時序緊張的路徑使用復制門法進行加固。和傳統方案相比,該方案既有效屏蔽單粒子瞬態(SET)和單粒子翻轉(SEU),又減少了面積開銷。ISCAS’89電路在45 nm工藝下的實驗表明,平均面積開銷為36.84%,電路平均軟錯誤率降低99%以上。
微電子;軟錯誤;時序裕度;觸發器替換;復制門法
微電子技術的不斷發展,使器件尺寸降低到納米尺度。持續減少的節點電容和高速增長的芯片復雜度使得集成電路對環境越來越敏感,由高能粒子引起的軟錯誤不斷增加。高能粒子轟擊存儲器或觸發器等時序邏輯單元時,將引發單粒子翻轉(Single Event Upset, SEU),時序單元的值將發生翻轉,錯誤的值將保持到下一個值寫入;轟擊組合邏輯電路,將發生單粒子瞬態(Single Event Transient, SET),產生毛刺,并且有可能沿組合邏輯通路傳播,如果毛刺恰好被時序邏輯采樣到,將會導致集成電路功能錯誤。在較早工藝中,組合邏輯由于存在邏輯、電氣和時鐘窗屏蔽效應,軟錯誤率較低,關注更多的是時序邏輯中的軟錯誤。隨著工藝尺寸變小,組合邏輯單元對軟錯誤越來越敏感。組合邏輯單元的臨界電量越來越小,粒子轟擊更易造成翻轉;流水線深度的加深,削弱了邏輯屏蔽和電氣屏蔽效應;電路頻率升高,導致時鐘窗口變窄,削弱了時鐘窗屏蔽效應。研究指出[1],微電子器件隨著工藝尺寸越來越小,軟錯誤成為一個顯著的可靠性問題。軟錯誤的衡量指標由軟錯誤發生的頻率(Soft Error Rate, SER) 來表征,單位為FIT(Failure In Time)。1FIT表示在109h內發生1次軟錯誤,SER通常表征了電路運行期間受軟錯誤的影響程度。
集成電路軟錯誤研究主要有以下方面:(1)硬件和軟件的協同仿真平臺的軟錯誤分析;(2)軟錯誤率檢測和緩解技術;(3)電路的加固。國內外針對電路的加固問題,已經提出許多加固方案,其中冗余是最常用的方式,按冗余方式分為空間冗余和時間冗余。針對時序邏輯中的SEU,主要是設計抗SEU的鎖存器,提出的結構如TMR-latch, SDT-latch, HiPeR-latch[2]以及本研究小組所提出RHBD-latch[3]等。針對組合邏輯中SET,有基于時序冗余的方法、復制門法[4]、電壓調整法[5]、門尺寸調整法[6]、輸出鉗位電路法[7]和選擇邏輯節點法[8]等。文獻[5]利用較高電壓的門不易產生瞬態脈沖或者產生瞬態脈沖比較短小,在路徑上更易被電氣屏蔽來加固電路,該方法不適合在電路級實現,操作復雜。文獻[6]利用門尺寸調整法,在當今主流的納米工藝下,該方法很不適用,晶體管尺寸調整會干擾標準單元庫廣泛采用的工作方式且實施的復雜度也越來越高。文獻[9]借鑒于C單元的原理,將門的晶體管級結構復制成兩份,在只有一份出錯,另一份正確的情況下,通過CWSP單元保持上一個正確的輸出,硬件開銷為原來的兩倍。文獻[10]引入成本感知的方法對組合邏輯單元進行選擇性加固,依據算法自動執行可靠性的改進和相關成本之間的權衡,該方法沒有考慮電氣屏蔽,不夠精確。文獻[11]提出基于關鍵路徑的3模冗余表決器插入算法,在不降低電路可靠性的情況下,減少了電路關鍵路徑延時,但沒有完全消除。
針對軟錯誤問題,本文提出基于時序優先的電路容錯混合加固策略。優先使用高可靠性觸發器,利用時序冗余的SET防護原理來防護電路中的軟錯誤,在面積開銷很小的情況下使得可靠性有了很大提高,有效降低了容錯代價。在某些要求高可靠性的應用領域,針對不能利用時序冗余法在時序緊張路徑進行加固的不足,使用觸發器替換和復制門法相結合的容錯加固方案。由于使用了高可靠性容錯時序單元,使得電路能免疫SEU。跟其它加固方案相比,本文方案不引入性能開銷,優先加固最為關鍵的時序單元和組合邏輯節點,達到了容錯開銷和性能的有效折中。
加固分為全加固和選擇性加固,全加固是指對電路中所有的邏輯單元進行加固,但是該策略帶來了較大的面積、延時、功耗開銷。研究表明[4, 12],組合邏輯節點對于SET的敏感度并不相同。一部分節點的敏感度很高,屏蔽這些節點能很大提高電路的可靠性。因此,對電路有選擇性地部分加固,可以有效地平衡可靠性和容錯代價。
選擇性的部分加固策略需要同時考慮面積開銷、性能開銷、SER等諸多設計指標。加固策略分為面積優先的加固策略和速度優先的加固策略。
現有大部分加固策略都是基于面積優先,沒有考慮關鍵路徑延時,因此提出考慮時序的觸發器替換加固方法,利用觸發器加延時單元的時序冗余SET防護原理來進行容錯。在電路所有路徑中找出時序寬松的路徑,得到這些路徑中的時序單元集合,加固這些時序單元集合不會降低電路性能。對這些集合中的時序單元在面積開銷限制下,選擇對電路可靠性影響從大到小的次序進行加固。通過將這些時序單元替換為容錯時序單元,使其不僅能免疫自身SEU,還能屏蔽組合邏輯中的SET。文獻[2]提出的HiPeR-latch具有良好的抗SEU性能。該結構的內部節點和輸出節點可以容忍瞬態故障且與晶體管尺寸無關,具有更好的擴展性。與目前大多數文獻中提到的鎖存器相比,該結構對瞬態故障表現出更好的魯棒性,同時更節省面積和功耗開銷。與標準鎖存器相比,延時時間更少,對電路性能影響很小。
本文方案運用Synopsys公司的Design Compiler (DC),將基準電路的網表文件輸入到DC中,用DC綜合窮舉出基準電路所有路徑。在這些路徑中,通過C++統計出包含對應觸發器的最大路徑延時值,記在DT(m)中。用DT(m)表示每條路徑的延時值,該路徑含觸發器m(m表示該路徑中的觸發器名),從DT(m)找出值最大的,即為關鍵路徑延時值,用delay表示。通過增加延時單元dt來屏蔽組合邏輯SET,如式(1)所示。

找出DT(m)中小于等于Slack(m)的觸發器(SetFF),通過精確的軟錯誤率計算工具BFIT[13]及對該程序的改進,對電路中觸發器進行SER分析,對這些觸發器(SetCFF)的軟錯誤率從大到小進行選擇性替換。
上述方法雖然在電路的性能不降低的情況下,很大提高了電路的容錯能力,可是在一些高可靠性應用領域,如軍事和航空航天領域、銀行金融領域以及關于人身安全的微電子器件使用領域,要求器件的可靠性達到99%以上,這要求更高的軟錯誤防護能力。上述方法由于只選擇時序冗余的路徑,忽略了時序敏感路徑,給容錯帶來了限制,為此提出觸發器選擇替換和復制門法結合的加固策略。
文獻[4]提出復制門法對組合邏輯進行加固。利用并行晶體管來擴大輸出節點的驅動強度,能夠更好地補償瞬態脈沖,從而可以提高關鍵電荷值,并且可以屏蔽掉更多瞬態故障。隨著新的工藝導致的晶體管交界面處的面積越來越小,瞬態脈沖強度將受到越來越多的限制。圖1,圖2為“與非”門進行復制門法的實施方法。

圖1 原始“與非”門

圖2 復制門法結構
與晶體管尺寸調整法相比,復制門法更適用于集成電路工藝尺寸的日益減小。復制門法復雜性很低,能夠很好地擴展來適應工藝尺寸的減小。通過復制標準單元庫中單元,可以很容易地在電路級實施。該方法還避免了重新設計和重新定制現有的標準單元庫,和現有的設計流程兼容。通過關鍵電荷仿真,能將單個門單元軟錯誤率降低25倍以上。
通過對基準電路文件拓撲分析,首先找出電路中不能加固的觸發器,得到跟該觸發器相連接路徑的門的情況。由于組合邏輯中存在3種屏蔽效應,有的門不會產生瞬態脈沖,或者瞬態脈沖會被屏蔽掉,對這些門不用進行加固。通過BFIT對每個組合邏輯門軟錯誤率進行較為精確的分析,統計出出錯門的名稱及門產生的軟錯誤大小,與前面得到的跟觸發器相連接的門進行對比,去掉那些不會對輸出端造成軟錯誤的門。基準電路中不能利用時序冗余法加固的觸發器數設為Dnhn(DFF not harden number),對應這些觸發器路徑上會產生軟錯誤的門數設為Gn(GATE number),不能加固觸發器在基準電路中占的比例設為Dnhp(DFF not harden percentage),需要加固的門占基準電路中門的比例設為Gnhp(GATE need harden percentage),如表1所示。

表1 Dnhp和Gnhp情況
通過對電路路徑進行分析,如在s9234電路中,通過算法得出g25_NEXT是不能使用時序冗余原理來防護SET的。故使用復制門法,對跟該觸發器連接的路徑上產生軟錯誤的門進行加固,從而屏蔽組合邏輯SET。圖3標注的曲線為跟該觸發器相連接的一條路徑,進行加固后的結果如圖4所示。

圖3 不能加固觸發器對應的一條路徑

圖4 利用觸發器替換和復制門法的加固方法
與g25_NEXT曲線標注的路徑剛好每個門都有瞬態故障產生,所以每個門都用復制門法進行加固,而且這里觸發器也替換成抗SEU的觸發器,但是該觸發器不能加延時單元。通過此方法,可以屏蔽上游邏輯門產生的SET,且由于使用了高可靠性觸發器,也能防護SEU。
至此,本文已經提出了一個完整的選擇性加固框架,可以使用時序冗余的觸發器替換作為第1 級加固策略,將原電路中的標準觸發器替換成HiPeR- DFF,使其不僅對SEU免疫,也能屏蔽組合邏輯中的SET。如果上述方法的容錯性能達不到某些高可靠性的應用場合,可以使用觸發器選擇和復制門法相結合的第2 級加固策略。總的加固策略流程圖如圖5 所示。
對ISCAS’89基準電路進行實驗分析,使用45 nm Nangate工藝庫。對電路中SER的分析使用BFIT工具,BFIT可以對任何一種可能的電路狀態精確計算每個邏輯門受到粒子轟擊引起的錯誤率,所以可以方便地分析和優化門級軟錯誤。在Red Hat Enterprise Linux 5平臺下運行BFIT程序,計算傳播到每個觸發器的FIT以及每個組合邏輯門的FIT數。利用C++對電路路徑進行拓撲分析,得出不能加固觸發器路徑上的門的名稱和個數,與BFIT輸出文件進行對比分析,找出該路徑上會產生軟錯誤的門,對這些門進行復制門法加固。

圖5 觸發器選擇和復制門法結合的加固流程圖
圖6是利用本文方案針對ISCAS’89中電路的加固情況分析。其中橫坐標代表面積的增長率,縱坐標代表FIT的降低率。由小正方形連接成的曲線是使用時序冗余原理的SET加固方法,由小三角形連接成的曲線是使用復制門法。從圖中可以看出,開始時兩種曲線都很陡峭,然后慢慢趨于平緩。這說明是按照貪婪算法來進行選擇性加固的,將觸發器和門的軟錯誤率進行排序,優先加固產生FIT最大的觸發器或者門,使得在面積開銷較小的情況下,達到容錯性能的最大提升并且加固策略一直沒有給電路性能帶來影響。
圖7給出了觸發器和門的加固比例與軟錯誤防護比例的曲線圖。圖中由小正方形連接成的曲線是觸發器的加固比例和軟錯誤防護情況的曲線關系,由小三角形連接成的曲線是在觸發器加固后的基礎上門的加固比例和軟錯誤防護情況的曲線關系。從圖7中可以看出,軟錯誤防護比例和觸發器以及門的加固比例成正比,但不是線性關系,這是因為觸發器和門對電路中軟錯誤的貢獻率不一樣導致的。可以對加固的觸發器的軟錯誤大小進行排序,對不能加固的觸發器路徑上門的軟錯誤也排序,優先加固軟錯誤更大的觸發器或者門,在面積開銷和軟錯誤防護性能之間取得更好的成本效益。從圖7中可以看出,在觸發器加固比例基礎上,只需加固很小部分組合邏輯門,這樣面積開銷也控制在了合理范圍內。

圖6 利用觸發器選擇和復制門法進行加固的面積-FIT曲線圖

圖7 觸發器和門的加固比例和軟錯誤防護比例曲線圖
表2是ISCAS’89電路在不同加固百分比下,面積開銷與平均故障間隔時間(MTBF)關系表。表中第1列給出了電路的名稱,2~6大列給出了不同加固百分比下,所需要的面積開銷和MTBF值大小,每1列最后一行給出平均的面積開銷和MTBF值。可以看出,在加固比例不是很大的情況下,所需要的面積開銷非常小而MTBF值卻很大,隨著加固比例的增大,MTBF值也是顯著增大的。
圖8是混合加固方案中,時序冗余法加固和復制門法加固屏蔽SET所占比例情況。可以看出,使用觸發器替換法對SET防護比例占的很大,這是因為電路中只有極少數的觸發器處在關鍵路徑或者延時值較大的路徑上,大部分觸發器對應的路徑的延時值都很小,從而基于速度優先加固的策略在實際中使用價值很高。而基于復制門法加固占的比例很小,這也節省了面積開銷。

表2 ISCAS’89電路不同加固百分比下面積開銷和MTBF關系
本文方案選用高性能抗SEU鎖存器進行選擇性加固,同時利用時序冗余SET防護原理和復制門法對組合邏輯SET進行加固。在保證電路性能并且面積開銷很小的情況下,達到了電路容錯性能的很大提高。文獻[9]通過使用CWSP單元對組合邏輯門進行選擇性替換;文獻[14]提出時空3模冗余法對電路加固。以上方法能夠在軟錯率和面積開銷之間達到一定的折中,有效地降低了加固的代價。但是上述文獻都沒有考慮電路的關鍵路徑,都對電路造成了一定的性能影響。
選擇一個好的抗SEU時序單元是非常重要的。文獻[14]中,使用時空3模冗余進行選擇性替換加固,需要200%以上的面積開銷,而且大多數表決器本身對軟錯誤不免疫,這也限制了3模冗余的功效。圖9是本文方案和時空3模冗余方案對電路進行加固的曲線比較圖,從圖中可以看出,在相同面積開銷下,本文方案的可靠性提高大大高于時空3模冗余方案。
表3給出了在將組合邏輯單元可靠性提高到99%時,本文方案與其它方案平均面積開銷比較。
表3本文方案與其他方案的比較

方案增加的面積開銷(%)加固比例(%) 文獻[9]方案44.7499 文獻[14]方案99.7799 本文方案36.8499

圖9 本文方案和時空3模冗余方案的面積-FIT曲線圖
為了降低容忍軟錯誤的硬件和時序開銷,本文提出了一種新的電路混合加固策略。在保持電路性能情況下,利用時間冗余容錯的思想,優先選擇將電路中標準觸發器替換為高性能抗SEU的時空冗余觸發器,來屏蔽SET和防護SEU。針對一些要求高可靠性的應用領域,采用觸發器替換和復制門法相結合的加固策略。利用對電路路徑的拓撲分析,找出不能使用時空冗余觸發器的路徑,得到這些路徑上會產生軟錯誤的門,對這些門用復制門法加固。該方案的平均面積開銷為36.84%時,軟錯誤率降低了99%以上。該方案是根據貪婪算法對觸發器和組合邏輯單元進行選擇性加固的,能在有效面積開銷下,最大程度降低電路軟錯誤率。可以在實際應用情況下,合理選擇面積開銷來進行選擇性加固。本文方案都是優先考慮電路時序為前提,在時序開銷、面積開銷和電路可靠性三者之間取得了有效的平衡。
[1] Massengill L W, Bhuva B L, Holman W T,Technology scaling and soft error reliability[C]. IEEE International in Reliability Physics Symposium (IRPS),Garden Grove, CA, April 2012: 3C.1.1-3C.1.7.
[2] Oma?a M, Rossi D, and Metra C. High-performance robust latches[J]., 2010, 59(11): 1455-1465.
[3] Huang Zheng-feng and Liang Hua-guo. A novel radiation hardened by design latch[J]., 2009, 30(3): 0350071-0350074.
[4] Nieuwland A K, Jasarevic S, and Jerin G. Combinational logic soft error analysis and protection[C]. 12th IEEE International On-Line Testing Symposium, IOLTS, Lake of Como, Italy, July 2006: 251-257.
[5] Wu Kai-chiang and Marculescu D. Power-aware soft error hardening via selective voltage scaling[C]. IEEE International Conference on Computer Design, ICCD,Lake Tahoe, CA, Oct. 12-15, 2008: 301-306.
[6] Zhou Quming and Mohanram Kartik. Gate sizing to radiation harden combinational logic[J].2006, 25(1): 155-166.
[7] Garg R, Jayakumar N, Khatri S P,.. Circuit-level design approaches for radiation-hard digital electronics[J].(), 2009, 17(6): 781-792.
[8] Mahatme N N, Chatterjee Indranil, Patki Akash,.. An efficient technique to select logic nodes for single event transient pulse-width reduction[J]., 2013, 53(1): 114-117.
[9] 王俊, 梁華國, 黃正峰, 等. 一種對面積開銷有效的組合邏輯選擇性加固方案[J]. 計算機研究與發展, 2010, 47(S1): 173-177.
Wang Jun, Liang Hua-guo, Huang Zheng-feng,.. An effective selective hardening scheme of combinational logic for area overhead[J]., 2010, 47(S1): 173-177.
[10] Pagliarini S N, Naviner Lirida A De B, and Naviner Jean-FrancoisSelective hardening methodology for combinational logic[C]. Test Workshop (LATW), 13th Latin American, April, 2012: 1-6.
[11] 譚宜濤, 楊海鋼, 黃娟, 等. 基于關鍵路徑的三模冗余表決器插入算法[J]. 電子與信息學報, 2012, 34(2): 487-492.
Tan Yi-tao, Yang Hai-gang, Huang Juan,.. Voter insertion algorithm based on critical path for triple module redundancy[J].&, 2012, 34(2): 487-492.
[12] Polian I and Hayes J P. Selective hardening: toward cost-effective error tolerance[J].&2011, 28(3): 54-63.
[13] Holcomb D, Li Wen-chao, and Sanjit S A. Design as you see FIT: system-level soft error analysis of sequential circuits[C].Design, Automation & Test in Europe Conference & Exhibition, Nice, France, DATE’09, Apr. 20-24, 2009: 785-790.
[14] 孫巖, 張民選, 李少青, 等. 基于敏感寄存器替換的電路軟錯誤率與開銷最優化[J]. 計算機研究與發展, 2011, 48(1): 28-35.
Sun Yan, Zhang Min-xuan, Li Shao-qing,.. Optimizing soft error rate and overhead of circuits based on sensitive registers replacement[J]., 2011, 48(1): 28-35.
黃正峰: 男,1978年生,博士,副教授,主要研究方向為嵌入式系統綜合與測試、數字集成電路的硬件容錯、星載SoC芯片的抗輻射加固.
陳 凡: 男,1988年生,碩士,主要研究方向為數字集成電路的硬件容錯.
梁華國: 男,1959年生,博士,教授,博士生導師,主要研究方向為內建自測試、數字系統設計自動化、ATPG算法、分布式控制等.
A Hybrid Hardening Strategy for Circuit Soft-error-tolerance Based on Timing Priority
Huang Zheng-feng①Chen Fan②Jiang Cui-yun③Liang Hua-guo①
①(&230009,)②(&,,230009,)③(,,230009,)
In order to reduce effectively the hardware and timing overhead for circuit soft-error-tolerance, a hybrid hardening technique for soft error tolerance is proposed based on timing priority in this paper. A two-stage hardening strategy is exploitsed by using flip-flop replacement and duplicated gate method to harden circuit. At first stage, based on the timing priority principle, high reliability temporal redundancy flip-flop is used to harden circuit on the path of timing slack. At second stage, duplicated gate method is used on timing sensitive path. Compared with traditional techniques, the proposed technique can not only mask the Single Event Transient (SET) and protect against the Single Event Upset (SEU), but also reduce the overhead of the area. The experiment result of ISCAS’89 benchmark circuits in 45 nm Nangate process proves that the circuit average soft error rate is reduced by more than 99% and the average area overhead is 36.84%.
Micro-electron; Soft error; Timing slack; Flip-flop replacement; Duplicated gate method
TN402
A
1009-5896(2014)01-0234-07
10.3724/SP.J.1146.2013.00449
2013-04-07收到,2013-07-02改回
國家自然科學基金(61274036, 61106038, 61106020, 61371025)和博士點基金(20110111120012)資助課題
陳凡 cf2008chenfan@163.com