支 天 楊海鋼 蔡 剛 秋小強 李天文 王新剛
?
嵌入式存儲器空間單粒子效應失效率評估方法研究
支 天①②楊海鋼*①蔡 剛①秋小強①李天文①②王新剛①②
①(中國科學院電子學研究所 北京 100190)②(中國科學院大學 北京 100190)
嵌入式存儲器易受到空間單粒子效應(Single-Event Effects, SEE)的影響。該文提出了一種單粒子效應失效率評估的方法,包含了單粒子翻轉和單粒子瞬態擾動等效應對嵌入式存儲器不同電路單元的具體影響,可對不同存儲形式、不同容錯方法的嵌入式存儲器單粒子效應失效率進行定量評估。該文提出的評估方法在中國科學院電子學研究所自主研制的嵌入式可編程存儲器試驗芯片上得到了驗證,地面單粒子模擬實驗表明該文方法預測的失效率評估結果與實驗測試結果的平均偏差約為10.5%。
片上系統;嵌入式存儲器;單粒子效應(SEE);失效率;評估
嵌入式存儲器作為片上系統的核心組件,在空間電子系統中得到了廣泛的應用[1]。據統計,美國宇航局單個航天器上使用存儲器的類型已超過百種[2,3],其中包括通用存儲器和可重構存儲器等[4,5]。根據用途的不同,存儲器的工作模式也多種多樣。例如,在高性能計算中使用堆棧等存儲形式緩存數據以解決跨時鐘域的數據通信;在圖像和多媒體處理中使用隨機存儲器緩存圖像、語音和視頻等數據,使用只讀存儲器中的數據實現壓縮編解碼等;將關鍵全局控制信號的存儲于具有容錯能力的存儲器中以提高整個系統的可靠性。
空間飛行數據顯示,嵌入式存儲器易受到單粒子效應(Single-Event Effects, SEE)的影響[6,7],且隨著芯片工藝節點的減小,存儲單元的錯誤率(error rate)呈指數趨勢增大[8,9]。因此,準確評估存儲器的SEE失效率(failure rate)對提高航天器的可靠性具有重要意義。系統設計者可以在設計初期根據預估的失效率數值,結合功耗和性能等參數,對嵌入式存儲器的實現形式和工作模式進行選擇,并確定系統級加固和飛行器輻射屏蔽等方案。這種方法對于使用大量商業裸片器件、低成本和短開發周期的微小衛星系統尤為有效。


來自Rosetta的實驗結果顯示,影響存儲器的單粒子效應有SET和SEU兩種,其余類型SEE的影響可忽略不計[7,17,18]。尚未有研究發現不同電路或不同類型的SEE錯誤之間具有相互關聯,即不同來源的SEE錯誤之間兩兩獨立,為互斥事件。假設SEE錯誤的來源共有種,根據相互獨立事件的有限可加性,可得式(2)。(SEE)代表了評估對象中第種錯誤來源導致系統失效的概率。根據電路實現原理可得,嵌入式存儲器中的全部SEE錯誤來源可以歸納為:時鐘電路的SET效應、寫使能電路的SET效應、輸入數據電路的SET效應、輸出數據電路的SET效應、復位電路的SET效應、地址電路的SET效應、內部寄存器的SEU效應和內部存儲陣列的SEU效應,以上SEE錯誤來源分別對應式(2)中下標為clk, wr, din, dout, rst, addr, ff和m的因子。



2.2.2電路單元的資源使用數式(3)中與相關的因子代表了嵌入式存儲器在某種存儲形式下所使用的電路單元的數目,其取值與嵌入式存儲器的實現形式有關。
2.2.3錯誤導致系統失效的概率嵌入式存儲器中的SEE錯誤(error)并不一定會導致最終失效(failure),譬如對于輸入數據電路的SET錯誤,當存儲器處于讀狀態或者不滿足時鐘觸發條件時,就不會造成存儲器的輸出失效。其取值變化關系如圖1和表1所示,其中的橫軸為嵌入式存儲器的建立時間和保持時間占時鐘周期的比重,即(hold+setup) /cycle,其中hold和setup分別代表了嵌入式存儲器時序參數中的保持時間參數和建立時間參數,cycle代表應用中嵌入式存儲器使用的時鐘周期。直線的斜率為零,表示時鐘電路、復位電路、寄存器電路和存儲陣列的錯誤導致系統失效的概率相關取值為1,此類電路中任何一個SEE錯誤都會導致嵌入式存儲器的失效。直線的斜率為1,代表了寫使能電路、地址電路和輸出數據電路的SEE錯誤發生在時鐘沿的建立和保持時間段內,會導致嵌入式存儲器的失效。直線的斜率為嵌入式存儲器(其代表了應用中寫狀態占整個工作狀態(包括讀和寫兩種狀態)的比例),若嵌入式存儲器一直為讀狀態時其取值為零,在此期間其發生的任何SEE錯誤不會導致系統失效。

圖1 錯誤導致系統失效概率的取值
表1圖1中的圖示相關說明

直線錯誤導致系統失效的概率的對應電路 aclk, rst, ff和m bwr和addr cdout和din


使用三模冗余設計時,此因子的取值約為0.33[19]。
圖2為嵌入式存儲器單粒子試驗測試系統,包含了待測芯片、檢測電路和監測軟件三部分。為了能對于不同存儲形式和不同容錯方案的嵌入式存儲器進行SEE失效率評估模型的驗證測試,待測芯片選取了中國科學院電子學研究所自行研制的可重構存儲器試驗芯片,其可被配置實現成多種存儲形式,功能與Altera公司的嵌入式可重構存儲器M4K[4]兼容。檢測電路使用了Cyclone系列FPGA芯片,可提供測試激勵、采集數據并將輻照實驗結果傳輸至PC機。監測軟件對實驗條件進行控制并對實驗結果進行處理。
表2離子源特性參數

加速器名稱中國原子能科學研究院HI-13串列加速器中國科學院近代物理研究所蘭州重離子加速器國家實驗室回旋加 速器CSR 離子種類TiBrAuBi 能量(MeV)1702382851985 LET(MeV·cm2/mg)21.3428497.8 Si中射程(μm)373229.1101

3.3.1本征錯誤率因子的獲取
(1)存儲陣列本征錯誤率和復位電路本征錯誤率的測試 將待測芯片配置為表3中第1種工作模式,根據表4中的模型因子,將輻照實驗結果中存儲數據的錯誤個數得出存儲陣列的錯誤率[20]并記錄至表5。根據文獻[21],計算出復位電路的錯誤率并記錄至表5。
(2)寫使能電路、輸出數據電路和地址電路的本征錯誤率測試 將待測芯片配置為表3中第2種工作模式,將嵌入式存儲器試驗芯片中的存儲陣列取值固化,排除存儲陣列發生SEE錯誤而導致系統失效的可能。將時鐘頻率設置為20 MHz,輻照實驗中動態讀出ROM的值并與已知數值進行比較,得出寫使能電路、輸出數據電路和地址電路的錯誤率并記錄至表5。
表3單粒子實驗中存儲器使用的工作模式

工作模式序號端口模式字寬模式時鐘使能時鐘模式字節使能上電清零輸出模式錯誤自修復能力 1單端口512×9關閉單時鐘關閉開啟異步輸出時鐘電路加固 2單端口512×9關閉單時鐘關閉關閉異步輸出時鐘電路加固 3BIST------- 4FIFO512×9關閉單時鐘關閉開啟異步輸出時鐘電路加固 5簡單雙端口512×9關閉多時鐘關閉關閉異步輸出時鐘電路加固 6單端口512×9關閉單時鐘關閉關閉異步輸出時鐘電路加固,錯誤糾錯碼(每32位糾錯1位),糾錯刷新頻率為20k,寄存器三模冗余。 7簡單雙端口512×9關閉多時鐘關閉關閉異步輸出時鐘電路加固,錯誤糾錯碼(每32位糾錯1位),糾錯刷新頻率為20M,寄存器三模冗余。
表4模型影響因子的取值

模型DPS 時鐘電路1.000.001.00 寫使能電路(靜態)0.001.001.00 地址電路(靜態)0.001.001.00 輸出數據電路(靜態)0.001.001.00 輸入數據電路(靜態)0.001.001.00 寫使能電路(動態回讀)0.101.001.00 地址電路(動態回讀)0.101.001.00 輸出數據電路(動態回讀)0.101.001.00 輸入數據電路(動態回讀)0.001.001.00 復位電路1.001.001.00 三模冗余寄存器1.000.3396.00 寄存器1.001.0096.00 ECC+糾錯刷新為20k下的存儲陣列1.000.554096.00 ECC+糾錯刷新為2M下的存儲陣列1.000.014096.00 存儲陣列1.001.004096.00

表5 重離子實驗監測結果
(3)寄存器的本征錯誤率測試 將待測芯片配置為表3中第3種工作模式,即Build-In-Self-Test (BIST)掃描鏈模式,根據實驗可得此電路內部寄存器的錯誤率并記錄至表5。
3.3.2嵌入式存儲器應用實例的測試 將待測芯片依次配置為表3中第4種,第5種,第6種和第7種工作模式后,向嵌入式存儲器芯片中寫入數據。在輻照實驗中,將時鐘頻率設置為20 MHz,對于第4種模式動態讀出嵌入式存儲器中的數據,其余模式測試靜態翻轉截面,得出不同應用實例電路的SEE失效率,記錄至表6和表7中實測失效率一欄。
3.3.3 模型影響因子的計算 針對3.3.2節中的嵌入式存儲器應用實例,可得到模型中因子的取值如下表4所示。需要特別指出的是,根據2.2.3節中因子的計算公式可知,根據應用電路只采用了讀操作而未采用寫操作以及存儲器時序參數中的建立時間、保持時間和工作頻率,可得din的取值為0,輸出數據電路、寫使能電路和地址電路的取值為0.1;根據輻照時嵌入式存儲器試驗芯片的自修復能力、實驗環境、表5中數據和2.2.4節中的計算公式可知,對于采用加固設計的時鐘電路其clk的取值為0,對于采用容錯方案的存儲陣列,其m的取值與容錯方案等因素有關。
實驗結果如表5所示。表中數據可證實模型中所包含的寫使能電路的SET效應、輸出數據電路的SET效應、復位電路的SET效應、輸入地址電路的SET效應、寄存器的SEU效應和存儲陣列的SEU效應的存在。將表5中的結果代入FIFO應用電路中,并假設其中包含的電路都不采用加固,得出其內部電路單元失效率百分比關系如圖3所示,可以證明:SET對嵌入式存儲器的影響不可忽略,且使用歸一化存儲陣列模型無法準確評估存儲陣列、內部寄存器和內部邏輯單元等電路受到的不同SEE影響。
根據上述步驟得出的因子,可對不同配置模式、不同容錯方案的存儲器應用實例SEE失效率進行預估。
4.2.1不同輻照條件下模型有效性的驗證 本文選取評估的應用電路為表3中第4種工作模式,在Ti, Br和Au粒子環境下進行實驗,并采用讀操作的存儲器電路。將得出的因子代入通用存儲器SEE失效率模型和本文的失效率模型中進行計算,可得到圖4。

圖3 FIFO應用電路中各個電路單元失效率占存儲器失效率的百分比

圖4 文中模型與現有模型[16]結果的比較
將上述兩項預測結果與輻照實驗中對存儲器應用實例的實測失效率進行比較,可得到表6,可知本文模型的平均誤差絕對值為10.1%,小于現有模型的平均誤差絕對值25.4%。相較于現有的存儲器SEE失效率模型。本文模型的誤差主要來自于以下兩個方面:一是由于實驗環境中粒子總注量和注量率無法精確控制而導致實驗中實測失效率的測量誤差。二是由于實驗環境中粒子總注量和注量率無法精確控制而導致影響模型預測失效率結果的本征錯誤率因子(包括存儲陣列、寫使能電路、輸出數據電路、寄存器、地址電路和復位電路的本征錯誤率)的測量誤差。
上述試驗對模型有效性的驗證過程中,對存儲器的配置模式包括了不同端口數目,不同工作模式,不同時鐘模式和不同輻照實驗環境,覆蓋了嵌入式存儲器目前存在的所有工作模式,結果顯示,其誤差小于原有的失效率評估模型,由此可知,該模型評估不同輻照條件和不同工作模式下的存儲器具有普遍適用性。
4.2.2不同容錯方案下模型有效性的驗證 將上述步驟得出的因子代入本文的SEE失效率評估模型中計算,可對輻照實驗中不同配置模式、不同容錯方案的存儲器應用實例SEE失效率預估。實驗使用離子源為Bi粒子,預估失效率如表7所示,其平均誤差僅為10.5%,本文容錯方案下模型預測誤差除了受到4.2.1節中由于地面輻照實驗中的離子總注量和注量率無法精確控制而導致模型中用于計算預測失效率的本征錯誤率因子和實測失效率的誤差以外,還有在計算時采用的系統對錯誤的自修復能力等因子取近似值而導致的計算誤差。
表6不同輻照條件下模型有效性驗證結果(%)

模型離子源平均誤差絕對值 TiBrAu 現有模型 19.65 30.7725.7125.4 本文模型-10.04-14.25-5.7610.1
本實驗的存儲器中包括了常用的存儲器容錯模式(包括了三模冗余容錯,錯誤糾錯碼和糾錯刷新),并在上述容錯模式的自修復能力因子取值不同時,對于存儲器的失效率進行了預估,實驗結果顯示,其誤差小于原有失效率預測模型,由此可知,該模型在評估不同容錯方案下存儲器的失效率具有普遍適用性。
表7不同容錯方案下模型有效性驗證結果

模型實驗中嵌入式存儲器工作模式 表3中工作模式5表3中工作模式6表3中工作模式7 本文模型預測失效率(cm2/器件)2.491.380.04 實測失效率(cm2/器件)3.251.560.04 誤差絕對值(%)14.0011.745.83 本文模型的平均絕對誤差(%)10.5
準確評估嵌入式存儲器SEE失效率,對現代宇航電路系統的可靠性設計具有重要意義。本文采用了自底向上的方法,提出了一種涵蓋不同輻照敏感電路、不同SEE失效類型的嵌入式存儲器失效率評估模型,并介紹了如何通過地面重離子實驗取得模型中參數的具體方法。利用此模型和輻照實驗中得到的參數,可以對嵌入式存儲器在不同模式下的SEE失效率進行準確量化分析,而無需進行一一輻照實驗驗證,可以大大縮短可靠性驗證所需的時間。此外,系統設計者可以結合功能和可靠性要求,在設計初期利用此模型對嵌入式存儲器應用模式和容錯方案進行選擇,從性能、功耗和面積等方面進行全面優化。
致謝 本文實驗得到了中國原子能科學研究院核物理研究所HI-13串列靜電加速器和中國科學院近代物理研究所蘭州重離子加速器國家實驗室回旋加速器CSR運行人員的大力支持,在此表示衷心的感謝。
[1] 宋凝芳, 朱明達, 潘雄. SRAM型FPGA單粒子效應試驗研究[J]. 宇航學報, 2012, 33(6): 836-842.
Song Ning-fang, Zhu Ming-da, and Pan Xiong. Experimental study of single events effects in SRAM-based FPGA[J]., 2012, 33(6): 836-842.
[2] Li Y. Reliability Techniques for Data Communication and Storage in FPGA-Based Circuits[M]. Brigham Young University, US, 2013: 15-20.
[3] John H, Roy C, and Hilton H. Phoenix Mars mission the thermal evolved gas analyzer[J]., 2008, 19(7): 1377-1383.
[4] Altera Corporation. Stratix V device handbook[R]. California, America, 2013.
[5] Xilinx Corporation, Virtex-7 FPGA user guide[R]. California, America, 2013.
[6] 蔡剛, 楊海鋼. 嵌入式可編程存儲器設計中的”選擇性寄存”方法[J]. 電子與信息學報, 2009, 31(11): 2672-2766.
Cai Gang and Yang Hai-gang. A “selective registering” technique for design of an embedded programmable memory[J].&, 2009, 31(11): 2672-2766.
[7] Lesea Austin, Drimer Saar, and Fabula Joe. The rosetta experiment: atmospheric soft error rate testing in differing technology FPGAs[J]., 2005, 5(3): 317-328.
[8] SheXiao-xuan, Li N, and Waileen JD. SEU tolerant memory using error correction code[J]., 2012, 59(1): 205-210.
[9] Mukati Altaf. A survey of memory error correcting techniques for improved reliability[J]., 2011, 34: 517-522.
[10] Maestro Juan Antonio and Reviriego Pedro. Reliability of single-error correction protected memories[J]., 2009, 58(1): 193-201.
[11] SchianoLuca, OttaviMarco, and LombardiFabrizio. Markov models of fault-tolerant memory systems under SEU[C]. International Workshop on Memory Technology, Design and Testing, Paris, 2004: 1052-1087.
[12] ReviriegoPedro and MaestroJuan Antonio. Reliability analysis of memories suffering multiple bit upsets[J]., 2007, 7(4): 592-601.
[13] Sanchez-Macian Alfonso, Reviriego Pedro, and Antonio Juan. Enhanced detection of double and triple adjacent errors in hamming codes through selective bit placement[J]., 2012, 12(2): 357-362.
[14] Guo Jing, Xiao Li-yi, and Mao Zhi-gang. Enhanced memory reliability against multiple cell upsets using decimal matrix code[J].(), 2014, 22(1): 127-135.
[15] Lee Soonyoung, Jeon Sang Hoon, and Baeg Sanghyeon. Memory reliability analysis for multiple block effect of soft errors[J]., 2013, 60(2): 1384-1389.
[16] Sterpone L. On the design of tunable fault tolerant circuits on SRAM-based FPGAs for safety critical applications[C]. Proceedings of Design, Automation and Test in Europe, Paris, 2008: 59-65.
[17] Swift Gary M. 1st consortium report virtex 2 static SEU characterization[R]. California, America, 2004.
[18] Wang J J. RTAXS single event effects test report[R]. California, America, 2004.
[19] Morgan Keith S, McMurtrey Daniel L, Pratt Brian H,.. A comparison of TMR with alternative fault-tolerant design techniques for FPGAs[J]., 2007, 54(6): 2065-2072.
[20] 王忠明, 姚志斌, 潘雄. SRAM型FPGA的靜態與動態單粒子效應試驗[J]. 原子能科學技術, 2011, 45(12): 1506-1510.
Wang Zhong-ming, Yao Zhi-bin, and Pan Xiong. Static and dynamic tests of single-event effect in SRAM-Based FPGA[J]., 2011, 45(12): 1506-1510.
[21] Cabanas-Holmen Manuel, Cannon Ethan H, and Amort Tony. Predicting the single-event error rate of a radiation hardened by design microprocessor[J]., 2011, 58(6): 2726-2733.
支 天: 女,1987年生,博士生,研究方向為嵌入式存儲器設計及可靠性理論研究.
楊海鋼: 男,1960年生,研究員,中國科學院“百人計劃”引進國外杰出人才,研究方向為數模混合信號SoC設計和大規模集成電路設計.
蔡 剛: 男,1980年生,助理研究員,研究方向為嵌入式IP設計及抗輻照理論研究.
Study on the Prediction of Single-event Effects InducedFailure Rate for Embedded Memories
Zhi Tian①②Yang Hai-gang①Cai Gang①Qiu Xiao-qiang①Li Tian-wen①②Wang Xin-gang①②
①(,,100190,)②(,100190,)
Embedded memories are easily influenced by Single-Event Effects (SEE). A model to calculate the SEE failure rate of an embedded memory is proposed, which considers the likelihood that an single-event upset or single-event transient will become an error in different types of circuits. It can also be used for the quantitative analysis of SEE mitigation techniques for versatile memories. Experimental investigations are performed using heavy ion accelerators on an experimental embedded programmable memory, which is designed by Institute of Electronics, Chinese Academy of Sciences. The result of 10.5% average error verifies the effectiveness of the proposed model.
System on Chip (SoC); Embedded memory; Single Event Effects (SEE); Failure rate; Prediction
TN432
A
1009-5896(2014)12-3035-07
10.3724/SP.J.1146.2013.02025
楊海鋼 yanghg@mail.ie.ac.cn
2013-12-25收到,2014-05-19改回
中國科學院、國家外國專家局創新團隊國際合作伙伴計劃資助及國家科技重大專項(2013ZX03006004)資助課題