劉必鎏,楊平會,蔣孟虎,王雯雯,張 磊
(中國人民解放軍某部隊, 北京 100094)
單粒子效應(SEE)是指高能帶電粒子在穿過微電子器件時,在器件內部敏感區產生電子-空穴對,這些電荷被靈敏器件電極收集后,造成器件邏輯狀態的非正常改變或器件損壞。由于這種效應是單個粒子作用的結果,因此稱為單粒子效應或單粒子事件[1]。空間輻射環境中的高能質子、中子、α粒子、重離子等都能導致航天器電子系統中的半導體器件發生單粒子效應,嚴重影響航天器的可靠性和壽命[2-3]。除了空間高能粒子以外,各種核輻射、電磁輻射環境也是造成單粒子效應的重要原因。由于單粒子效應對航天器的嚴重威脅,國內外對單粒子效應的發生機理、模擬計算、輻射源模擬實驗和飛行實驗開展了廣泛而深入的研究,提出了各種抗輻射加固措施。
根據出現的故障及其發生機理的不同,單粒子效應分為單粒子翻轉、單粒子閉鎖、單粒子燒毀、單粒子柵穿等十幾種,如表1[1,4]所示。在這些效應中,單粒子燒毀、單粒子柵穿、單粒子位移損傷和單粒子位硬錯誤是永久損傷,也稱為硬錯誤,即通過重新寫入或斷開電源,被輻射器件不能恢復正常狀態,器件徹底損壞。單粒子閉鎖在不采取保護措施的情況下,也會導致永久損傷。其他效應均為軟錯誤,器件可以恢復正常狀態,而且都是由粒子入射產生的瞬態電流引起,與單粒子翻轉有密切的關系[1]。

表1 單粒子效應的分類和描述Table 1 Classification and description of single event effects
目前國內外主要從模擬計算、輻射源模擬實驗和飛行實驗 3個方面深入研究單粒子效應的發生機理、規律,測試各種星載電子元器件和集成電路的輻射敏感參數,評價其抗單粒子效應的水平和故障風險,從而為器件選型和抗輻射加固措施提供依據。
模擬計算是通過構建物理模型、仿真計算得到目標位置的輻射劑量,預測可能的輻射損傷,這涉及到物理模型的構建和仿真計算兩部分。輻射源模擬實驗是通過建立簡化的實驗室環境來模擬實際的空間輻射環境,獲得輻射參數與器件受損之間的準確關系。輻射源模擬實驗可以分為輻射環境設置(輻射源選取、實驗標準)、器件受損參數測定和后續數據分析3個環節[5]。常見輻射源包括脈沖激光、高能離子源(锎、镅、鍶等)、中子模擬源、質子直線加速器和重離子加速器等,這些輻射源的實驗成本和實驗復雜度大致呈遞增趨勢[1,4-5]。飛行實驗是通過測量實際空間輻射環境下星載電子設備發生單粒子效應的幾率,分析單粒子效應的發生規律、影響因素和電子設備真實的抗單粒子效應水平,從而為星載電子設備的抗單粒子效應設計提供可靠支持。到目前為止,美英等國已經開展了大量的單粒子效應飛行實驗,如英國的UoSat系列小衛星、美國的APEX(高級光電子試驗)衛星[4,6]。國內的空間輻射單粒子效應飛行實驗主要在“實踐四號”、“實踐五號”衛星上進行[4]。
到目前為止,國內外對單粒子效應的防護開展了卓有成效的研究,從材料/元器件的選擇、制作工藝、電路/程序設計、屏蔽封裝等方面提出了許多防護措施,主要可以分為硬件加固技術和軟件加固技術兩大類。
3.1.1 避錯設計
避錯設計主要從工藝上提高航天器電子元器件的可靠性,通過對元器件的嚴格篩選,對系統進行屏蔽加固,提高航天器抗單粒子效應的能力。
按照國際通用的分類方法,電子元器件等級一般可分為宇航級或883B級、軍品級、工業級、商業級[7]。航天器設計時對電子元器件的選擇通常有2種途徑[1,7]:1)優先選擇經過抗輻射加固、可靠性高的宇航級器件或 883B級器件;2)在沒有可供選擇的宇航級或883B 級器件情況下,或為了滿足系統的高性能要求,可以有控制地使用商用器件。當然,商用器件的選用必須經過嚴格的篩選測試,剔除具有早期失效危險和固有缺陷的器件,提高器件的可靠性。
隨著空間技術的發展,新材料的開發非常重要。例如,與傳統的體Si材料制作的集成電路相比,使用SOI材料制作的集成電路在抗單粒子效應方面具有顯著的優勢。SOI的技術優勢來源于在頂層 Si膜與 Si襯底之間引入絕緣層作為介質隔離層,稱為埋氧層。埋氧層一方面使器件的P-N結面積減小,從而降低了其收集電離電荷的能力,另一方面也使埋氧層以下的襯底中的電離電荷不能進入器件的結區被收集[8]。
抗輻射的一個傳統的方法是進行屏蔽加固,即利用衛星蒙皮、設備機箱或加局部屏蔽(如鋁、鉭、鎢)的方法提高器件的抗輻射水平。但是,屏蔽對高能粒子的作用有限,而且屏蔽材料的厚度受到衛星體積和質量的制約。“實踐五號”衛星針對空間單粒子事件效應的研究結果表明:屏蔽可以減少單粒子翻轉的概率,但不能完全避免。
3.1.2 容錯設計
容錯設計是利用外加資源的冗余技術屏蔽故障的影響,使局部的故障不會擴散到全局。冗余的方法通常有硬件冗余、軟件冗余、時間冗余和信息冗余等[9],其中硬件冗余是一種重要的硬件加固技術。
硬件冗余通過增加額外的單元器件,利用額外的硬件掩蓋故障造成的影響,這樣即使系統中的一部分硬件出現故障,整個系統仍能正常工作。按照工作機理,硬件冗余可以分為工作冗余(并聯和表決系統)和非工作冗余(備份系統),其中應用最為廣泛的是三模冗余(TMR: Triple Module Redundancy)技術[9-11]。多數表決器的實現可以用一組“與或”門來實現,典型的三模冗余結構如圖1[9]所示。

圖 1 三模冗余結構Fig. 1 Triple Module Redundance (TMR) structure
TMR技術的優點在于速度快,在一定程度上提高了系統的可靠性;缺點是需要3倍硬件備份,所以質量、面積、功耗都會增加,特別是當三模選舉電路本身出現故障時就會產生錯誤的表決結果,導致整個系統的錯誤。因此,有必要對TMR技術進行改進。目前已經提出了多種改進方案,如篩選型三模冗余結構和基于演化硬件的TMR表決機制設計[9]。
3.1.3 硬件重構
對于不能通過容錯技術進行多數表決的數據,如果系統判定為硬件故障,可以采用硬件重構的方法恢復系統的正常工作。其中,動態重構方法(圖2)可以在星上總控單元的控制下,實時地檢測錯誤并自主地修復錯誤,或者接受地面控制系統的重構指令進行動態重構并修復錯誤,目前這種方法被星上平臺廣泛采用[9]。動態重構可以利用有限的資源來實現超大規模的系統時序功能,即時分復用的設計思想;也可以動態修復由于單粒子效應而造成的系統暫態故障,恢復系統正常工作。動態重構大致可以分為基于模塊的動態重構、基于差異的動態重構和基于Bitstream的動態重構3種。通過硬件的動態重構,可以及時地恢復系統的正常工作,并且利用N∶M的備份方式在冗余保護和體積功耗之間找到一個理想的平衡點[9]。

圖2 硬件動態重構流程Fig. 2 Hardware dynamic reconfiguration process
3.1.4 若干實用技術[4-6,9-13]
在實踐的基礎上,國內外研究人員提出了許多實用的抗單粒子效應的措施,其中許多都已經應用到航天器中。
1)監測報警:作為一種抗輻射加固措施,對電子設備遭受的空間輻射強度進行適時監測,并采取適當而有效的控制措施,如及時切斷電源,這對提高衛星壽命和可靠性具有十分重要的意義。
2)擦洗的方法:FPGA在單片機或者自身內部程序控制下,定期對其片內RAM進行擦洗或重寫,保證SRAM中數據的正確性,消除單粒子翻轉現象對系統影響。這種方法的優點是無需額外的硬件邏輯資源,實現簡單;缺點是無法對擦洗數據進行校驗,不能判斷是否發生過單粒子事件,而且只能恢復暫態故障。
3)設置檢錯糾錯功能模塊:對關鍵部位要有修正電路,修正RAM 的1位翻轉,檢出RAM的2位翻轉。修正電路內部不允許有存貯元件,防止發生軟錯誤。
4)設置硬件計數器:在軟件進入死循環、時間計數器不起作用時,由硬件計數器復位,即計數器在規定時間內不被清除時就發出復位信號,重新啟動機器,從死循環中解脫。
5)正確設置看門狗(WDT):為系統正常/故障起動提供識別標志,再由軟件按不同標志進行不同初始化處理。設置合適的IC 保護電路,對讀取時間、傳遞時延、電流門限等應留有足夠的余地。
6)限流技術:抗鎖定電阻的選取應折衷考慮,即盡量使電阻大些,讓鎖定的可能性最小,而且不干擾正常工作。限流技術對大系數CMOS器件型號有明顯效果,但不是對所有的都有效。
3.2.1 信息冗余
幾乎所有衛星都會采用信息冗余的方法,通過在數據中附加冗余的信息以達到故障檢測、故障掩蔽或容錯的目的。與硬件冗余技術相比,信息冗余能夠節省很大的存儲空間,其主要途徑是利用檢錯碼和糾錯碼。
在星載固態存儲器領域,目前最常用的存儲區檢錯糾錯編碼方式主要有漢明(Hamming)碼、R-S(Reed-Solomon)碼。例如,太陽日光層觀測衛星OSHO的大容量固態存儲器上使用了漢明碼,地球觀測衛星EOS的大容量固態存儲器上使用了R-S碼,TWR公司在CASSIM航天器和NMMP計劃中則使用了改進的漢明碼[14]。漢明碼是基本奇偶校驗的擴展,成本較低,一般只需要110%至140%的冗余度,可以減少存儲器的使用空間,從而減小系統的功耗與體積;應用比較靈活,可以針對8位、16位、32位數據進行糾錯,并且有現成的商用器件可供使用,對于內存訪問時間要求不苛刻的場合均可以適用,其代價是冗余硬件資源和處理延時[15]。在同樣的開銷和輸入誤碼率條件下,R-S糾錯編碼具有更高的性能,具有同時糾正突發錯誤和隨機錯誤的能力,被廣泛地應用于數據通信和數據存儲系統的差錯控制中[14]。
3.2.2 軟件冗余
軟件冗余是為了糾正軟件本身及硬件偶然失效所產生的錯誤,可以分為靜態冗余和動態冗余兩種。靜態冗余用來屏蔽故障的影響,使系統或部件環境看不到故障的影響;動態冗余在運行過程中指示系統或部件輸出有錯,并對錯誤進行處理。常用的軟件冗余方法有軟件N版本設計技術、軟件恢復技術和軟件三模表決系統[11]。
軟件冗余在理論上簡單,但是由于把容錯匯總到軟件程序中需要大量的時間和精力,因此在實際操作中有很大難度。隨著處理器性能的提高、存儲器容量的增大以及嵌入式系統的發展和應用,軟件冗余將得到進一步的發展。
3.2.3 時間冗余
時間冗余的基本思想是重復進行計算以檢測故障,按照重復計算是在指令級還是在程序段級,可以分為指令復執和程序卷回[11]。時間冗余相對于硬件冗余和信息冗余受硬件資源的限制較小,具有高度的反復性,占用時間較長,適用于硬件資源短缺而時間資源充裕的場合,但不適合微小衛星。
3.2.4 若干實用技術[5-6,10-13]
1)程序模塊化:把程序固化在PROM中使信息不受SEU影響。
2)對模塊輸入、輸出口標簽值進行預置、檢查和復位:每一個模塊入口的標簽值已初始化,出口有約定標志;對只執行一次指令碼,僅在退出該模塊之前檢查一次標簽值;對循環指令碼,標簽值在每次循環迭代時都檢查一次;程序退出該模塊,標簽值復零;使所有輸入/輸出指令至少執行兩次后生效;兩次指令放在不同模塊的邊界處。
3)把由地面隨機參數的確定減少到最低限度:將盡量多的注數和修正數固化在 PROM,減少RAM因SEU使數據變化的可能性。
4)三取二表決法:對關鍵數、需修改數和中間數,同時將其存入在分割開的3個不同的RAM中,實行周期性最優刷新法。
5)輸出數據實行雙機或單機時間差比對:對輸出數據通過比對問題再3取2表決;若仍然不能解決問題,交系統管理軟件分析,確定是硬件故障還是軟件錯誤,若屬前者則通過硬件重構,然后返回應用軟件繼續進行。
6)模式間轉換采用直跳式而不用存儲器跳轉方式。
7)數據區與程序區必須隔離,避免程序進入RAM區而沖毀其中數據。
8)段存貯器置初值:由中斷服務程序執行給段存貯器置初值,若段存貯器出現SEU使程序出錯,可恢復段存貯器的值。
9)對CPU、PROM、RAM空閑區全部填充HLT指令或其他指定內容。若程序一旦跳入空閑區就進行跑飛程序處理,將程序拉回。
10)設置軟件看門狗(WDT):當程序按正常路徑執行時,不斷清除WDT。如果程序進入死循環,則WDT在規定的時間內不被清除,發出計算機復位信號,進行初始化處理,使計算機重新開始運行,從死循環中解脫出來。
航天器的單粒子效應防護措施還必須考慮空間環境的影響。因為不同空間環境下,高能粒子、高能射線等的分布不同,航天器發生單粒子效應的風險也就不同,而航天器所處的空間環境與其運行軌道及飛行期間太陽活動情況密切相關[10,15-16]。“實踐五號”衛星的飛行實驗表明,對于近地軌道,單粒子翻轉的發生概率約是1×10-7/(bit·d)的量級,而在南大西洋輻射異常區和太陽活動高峰期發生概率可能提高一個或數個量級[10]。因此,在航天器的抗單粒子效應設計中,必須結合航天器的任務需求及其工作期間的太陽活動情況,優化軌道設計,降低航天器發生單粒子效應的風險,這也有利于降低抗單粒子效應加固的成本。
惡劣的空間環境使得航天電子器件面臨發生單粒子效應的風險,尤其是隨著半導體器件集成度的不斷提高,單粒子效應越來越嚴重,已經成為影響航天器可靠性和運行壽命的重要因素。目前,國內在單粒子效應的發生機理、航天器的抗單粒子效應加固方面已經開展了比較深入的研究,進行了一系列的地面模擬實驗甚至是飛行實驗,但是與航天發達國家的研究水平相比還存在較大的差距,在單粒子效應模擬實驗的設備研制、實驗標準和評估方法、地面模擬實驗和空間飛行實驗的相互驗證、商用器件的抗輻射性能研究、新型材料和器件的開發等方面有待進一步改進和提高。
(
)
[1] 劉征. 單粒子效應電路模擬方法研究[D]. 國防科技大學碩士學位論文, 2006: 6-13
[2] 周旸. 星載電子設備抗輻照分析及器件選用[J]. 現代雷達, 2008, 30(9): 25-28
[3] 王同權, 戴宏毅, 沈永平, 等. 宇宙高能質子致單粒子翻轉率的計算[J]. 國防科技大學學報, 2002, 24(2): 11-13
[4] 丁義剛. 空間輻射環境單粒子效應研究[J]. 航天器環境工程, 2007, 24(5): 283-290
[5] 馮彥君, 華更新, 劉淑芬. 航天電子抗輻射研究綜述[J]. 宇航學報, 2007, 28(5): 1071-1080
[6] 華更新, 王國良, 郭樹玲. 星載計算機抗輻射加固技術[J]. 航天控制, 2003(1):10-15;21
[7] 姜秀杰, 孫輝先. 航天電子系統中電子元器件選用的途徑分析[J]. 電子器件, 2005, 28(1): 40-43
[8] 何玉娟, 劉潔, 恩云飛, 等. SOI MOSFET抗輻射加固的常用方法與新結構[J]. 半導體技術, 2008, 33(3) : 223-226
[9] 李志剛, 張彧, 潘長勇, 等. 抗單粒子翻轉的可重構衛星通信系統[J]. 宇航學報, 2009, 30(5): 1752-1776
[10] 張鈺, 鄭陽明, 黃正亮, 等. 皮衛星星載計算機存儲模塊的容錯結構設計[J]. 宇航學報, 2008, 29(6): 2057-2061
[11] 宋丹, 杜剛, 田賀祥. 容錯設計在微納衛星上的應用[J].中國航天, 2007(12):16-18
[12] 范景德. 對衛星抗輻射加固保證大綱的探討[J]. 原子能科學技術, 1997, 31(3): 272-277
[13] 宋明龍, 朱海元, 章生平. 衛星抗輻射加固技術[J].上海航天, 2001(2): 56-60
[14] 張宇寧, 楊根慶, 李華旺, 等. 星載高速海量存儲系統的并行RS糾錯方法[J]. 航天控制, 2009, 27(3): 86-89
[15] 侯睿, 趙尚弘, 胥杰, 等. 衛星光通信系統中SRAM/MOS器件的單粒子翻轉率分析[J]. 光學技術, 2009, 35(2): 244-247