劉 婷,楊 博,于澤芳
(上海交通大學電子信息與電氣工程學院,上海 200240)
在航天電子系統中,空間輻射環境帶來的單粒子效應評估是系統可靠性的一個重要研究領域[1],其主要形式為器件的單位面積翻轉截面σ(單位cm2/bit)與重離子線性能量傳輸(Linear Energy Transfer,LET)(單位MeV/(mg/cm2))的關系曲線σ-LET,一般通過地面輻照實驗數據和經驗模型(如Weibull 曲線)進行推算。隨著衛星系統功能日趨多樣化和復雜化,高性能處理器、現場可編程邏輯門陣列(Field Programmable Gate Array,FPGA)和大容量存儲器等先進半導體器件被引入航天電子系統組成,用于滿足星載任務的算力和存儲需求。這些器件大多具有結構復雜、可配置性強等特點,體現在可調的電壓、運行頻率、緩存機制、容錯機制等方面。這些配置參數與來自空間環境的離子總劑量(Total Ionizing Dose,TID)、電磁干擾(Electromagnetic Interference,EMI)等環境因素一起,形成了影響真實環境下單粒子翻轉截面特性的多因素集合。然而,在現有常規輻照實驗中,受限于實驗條件和成本,測試通常很難覆蓋這些影響因素集合的可調范圍,導致σ-LET 評估結果的不準確[2]。
國內外已有部分研究通過變量控制的方式,分析輻照實驗中多因素效應對σ-LET 曲線的影響。BENFICA 等[3]通過協 同實驗分 析了TID 和EMI 對FPGA 芯片單粒子翻轉(Single Event Upset,SEU)截面的影響,發現電源VDD 上的10%以上EMI噪聲和TID 帶來的印記效應(Imprint Effect)均可能導致SEU 截面升高。ZHENG 等[4]發現在65 nm DICESRAM 中,TID 也會帶來SEU 翻轉截面的升高。VARGAS 等[5]提出了面向28 nm 多核處理器MPPA-256 的單粒子事件(Single Event Upset,SEE)測試方法,其中,動態響應測試通過改變CPU 運行模式和緩存使能、使用動態頻率/電壓、部署不同類型應用等因素,分析單粒子失效截面的變化。姬慶剛等[6]分析了靜態隨機存取存儲器(Static Random-Access Memory,SRAM)器件中γ 射線模擬的TID 劑量對后續重離子SEU 截面的影響,發現在靜態和動態場景下TID 越高,對SEU 敏感性影響越大,飽和截面也會明顯增大。王利斌等[7]通過脈沖激光粒子注入,發現在雙極電壓比較器電路中,TID 對單粒子瞬態效應的影響取決于電路的工作狀態。由于目前多因素σ-LET實驗缺乏統一規范,這些案例的實驗條件通常差異較大,對應結果的數據結構化程度差,難以為通用場景下的σ-LET 評估中提供有意義的量化指導。
針對上述問題,本文基于現有多因素輻照實驗數據,提出了數據驅動的多因素σ-LET 建模方法。首先,根據現有多因素σ-LET 實驗結果構建了非結構化小樣本數據集,作為多因素σ-LET 預測的數據基礎;其次,針對自建數據集中的樣本規模和特征維度有限問題,設計了卷積神經網絡特征提取、小樣本學習匹配網絡特征融合和集成學習極端梯度提升(eXtreme Gradient Boosting,XGBoost)回歸的級連網絡結構,利用非結構化小樣本數據集以端到端的方式訓練級連網絡,實現任意給定因素條件下的σ-LET 曲線預測,為多因素影響下的通用系統單粒子效應評估提供了一種新方法。
根據美國國家航空航天局(NASA)及其合作廠商相關實驗室的輻照實驗數據[8-17],本研究收集了9種CPU 和3 種FPGA 共計128 組多因素單粒子輻照實驗數據,涉及的因素包括LET、輻照總劑量TID、電磁干擾EMI 頻率、數據位寬、工藝尺寸、存儲容量、時鐘頻率等,單個樣本的因素數量從7 維到18維不等,取值包括布爾值、字符串、整數和浮點數等多種類型,樣本之間的特征重合程度較低。為了最大限度保留因素特征信息,本研究采用以下方式對原始的半結構化特征數據進行結構化預處理。
1)空間映射。將所有字符串型特征映射為獨熱碼,對于缺失較多的非共有特征,擴充對應的布爾型屬性標志特征維度,以此最大限度地保留屬性信息。
2)均值填充。對于僅有較少樣本缺失的特征,將同類型樣本器件該屬性的均值填入空缺的位置。
結構化預處理后的小樣本數據集的特征維度擴充至31 維,其定義見表1。對應的結構化特征空間A=(X1,X2,…,Xn) ∈R32×182,每個樣本Xi由1×31的特征向量xi和對應的單粒子翻轉截面值標量yi組成。因此,本研究的問題可以描述為在小樣本特征空間A上構建xi到yi的連續映射f:xi→yi。

表1 輻照實驗小樣本數據集中的結構化因素特征定義Tab.1 Definitions of structured factor features in the few-shot dataset of radiation experiments
根據小樣本數據集樣本類別少和規模小等特點,本文提出的預測模型結構如圖1 所示,分為特征提取網絡、特征融合網絡和回歸網絡3 個部分。

圖1 多因素翻轉截面預測模型結構Fig.1 Structure of the multi-factor cross section prediction model
特征提取網絡用于學習單個樣本不同特征之間的關聯性,使用了3 層一維卷積層1D-Conv 和1層非線性激活層(ReLU)組成的卷積神經網絡(Convolutional Neural Networks,CNN),所有卷積層均使用1×3 大小的卷積核。每個1×31 的輸入樣本xi的經過特征提取網絡映射后轉化為1×27 的向量,輸入后續特征融合網絡。
特征融合網絡用于學習來自不同樣本特征之間的關聯性,使用了小樣本學習(Few-Shot Learning)中的匹配網絡(Matching Network)[18]作為主干結構。匹配網絡是屬于單樣本學習(One-Shot Learning),視每個樣本為一個獨立類別,將單粒子翻轉截面值yi看作輸入向量的類別“標簽”。通過一次訓練多個任務,完成對輸入樣本的編碼。匹配網絡由基于遞歸神經網絡的雙向長短時記憶網絡Bi-LSTM[19]構成,使用完全上下文嵌入(Fully-Conditional Embedding)機制生成不同樣本特征之間的注意力,將輸入的序列映射為等長的序列。
回歸網絡使用了基于Boosting 集成學習的XGBoost(eXtreme Gradient Boosting)回歸算法[20],將特征融合網絡輸出的序列映射為連續標量yi。與傳統線性回歸模型相比,XGBoost 將多個決策樹弱分器集成為強學習器,在小規模訓練集上具有更好的泛化能力。
整個流程使用端到端聯合訓練方式,訓練算法和模型收斂過程分別如圖2(a)和圖2(b)所示。其中,訓練集和測試集采用全數據集混合下的5折(5-fold)隨機劃分,下游XGBoost 回歸器輸出的損失(Loss)將回傳到所有上游網絡,通過優化器Adam 進行參數更新,此過程稱為一個訓練回合(Epoch)。圖2(b)顯 示,級連網絡 在10 個epoch左右達到收斂狀態,即損失穩定在一個較低的水平不再繼續降低。上述模型的搭建、訓練和測試在PyTorch 框架下完成,由于采用了針對小樣本數據集的輕量化結構設計,級連網絡在3.2 GHz的Intel(R)Core(TM)i7-8700 CPU 上完成一 次訓練和測試推理的時間在3 min 以內,具有良好的實時性表現。

圖2 級連網絡的端到端訓練過程Fig.2 End-to-end training procedure for cascaded networks
為了驗證預測模型各階段的有效性,修改特征融合網絡和回歸網絡配置下進行消融測試,預測結果的均方根誤差(Root Mean Square Error,RMSE)對比見表2。可以發現,在小樣本數據集場景下,特征融合網絡對精度影響最大,XGBoost 性能優于經典多元線性回歸器。

表2 結構消融測試結果Tab.2 Results of structure ablation tests
為了測試模型的泛化性,采用不同數據集隨機劃分方式,對模型的跨器件/跨類別性能進行多次測試,劃分方式對應的數據規模和公共屬性維度見表3。其中,跨器件表示使用訓練集/測試集的數據來自同類型的不同器件樣例,如使用FPGA 的器件A 訓練和器件B 測試。跨類別表示訓練和測試使用不同類型樣本,如使用FPGA 訓練和CPU 測試。有效特征維度表示隨機抽取的樣本中值不完全一致的特征數量。

表3 域適應性測試配置Tab.3 Configurations of domain adaption tests
上述多輪實驗的RMSE 的分布如圖3 所示,可以發現小樣本SEU 翻轉截面預測網絡的泛化性受樣本公共特征維度的影響較大,具體體現在如下幾個方面。

圖3 不同訓練/測試集劃分的域適應性能對比Fig.3 Comparison of domain adaption performance of different training/test sets
1)在混合場景下,訓練和測試場景數據分布相對接近,網絡可以學習到更多樣的特征,從而可以獲得穩定準確的預測結果。
2)在跨器件場景下,訓練和測試數據分布差異變大,預測誤差開始上升。由于CPU 的器件種類(8 種)多于FPGA(3 種),體現出了更強的分布差異,導致CPU跨器件預測的精度和魯棒性明顯差于FPGA。
3)在跨類別場景下,訓練和測試數據分布差異進一步變大,整體精度和魯棒性遠低于混合和同器件場景。同時,由于FPGA 的種類和樣本數量均少于CPU,導致使用FPGA 數據預訓練的模型在CPU 測試集上出現了大范圍的精度波動。
從網絡結構和域適應消融結果可知,最佳級連結構配置為1D-CNN 特征提取網絡、匹配網絡和XGBoost 的組合,最佳訓練/測試配置為全體樣本混合,后續章節的測試均基于此最佳配置。
級連結構中的回歸網絡XGBoost 作為基于梯度提升的集成決策樹算法,除了完成回歸預測,還能為輸入特征提供重要性度量。本研究選擇了分裂總增益(Total Gain)作為因素重要性的度量指標,其含義為使用某特征的分裂帶來總信息增益值,使用全數據集混合訓練獲得的因素重要性分布如圖4 所示。可以發現,除了LET、TID 劑量值(TID_krad)等環境因素,重要性排名靠前的影響因素還包括電壓(Voltage)、測試部件(Device Under Test,DUT)、芯片類型(Type)、工藝尺寸(Feature_Size_Um)、運行頻率(Freq_MHz)等實驗配置因素。因素重要性度量可以幫助系統測試人員在有限開銷下制定更有效的測試方案,還能夠為衛星電子系統架構設計人員提供早期容錯設計指導。

圖4 通過XGBoost 中分裂總增益度量的因素重要性Fig.4 Factor importance measured via thetotal gain in XGBoost
基于上述因素重要性結論,進一步測試了關鍵設計性因素改變對全局σ-LET 曲線的影響,如圖5所示。其中,默認(Default)為基線設置,LET 取值范圍為0~15 MeV/(mg·cm-2)。可以發現,同等條件下的FPGA 飽和截面要遠高于CPU,這說明FPGA 的抗輻照性弱于同等配置下的CPU,這和CPU微架構中存在的復雜屏蔽效應相關。同時,DUT 從全局變為D-cache 造成σ-LET 曲線的整體下移,工作電壓的升高使得σ-LET 曲線前段下移,工藝尺寸降低時觀測到了飽和截面的整體提升,這些趨勢與輻照實驗經驗基本相符。值得指出的是,工作頻率提高時觀測到了σ-LET 曲線的降低,這與實際經驗不符,可能是極端輸入和多類型器件樣本聯合學習導致的偏差。

圖5 關鍵因素對全局σ-LET 曲線的影響Fig.5 Effects of the key factors on the overall σ-LET curve
為了驗證小樣本翻轉截面預測的有效性,本研究以國產PowerPC750 架構處理器芯片SM750 為例,推導了給定因素配置下的系統組件σ-LET 值和系統失效率。其中,組件粒度的翻轉截面值利用系統失效率(System Failure Rate,SER)(單位cm2·dev-1)進行度量,其上邊界可以通過獨立事件聯合概率進行估算:

式中:Pc為SM750中組件c的硬件仿真故障注入失效率;σc(LET)為多因素預測模型計算的組件c在LET={1.73,4.06,8.19,12.90,18.50}MeV/(mg·cm-2)時的翻轉截面(單位cm2/bit);Mc為組件c中的存儲位數量;C為所有仿真故障注入組件c的集合。
對比國外PowerPC750 全芯片輻照結果[21],系統SER 預測的飽和截面邊界和真實輻照實驗處于同一量級(10-3)。

表4 SM750 處理器中組件單粒子翻轉截面和全系統失效率的預測結果Tab.4 Prediction results of the component SEU cross sections and full system SER in SM750 processor
為進一步驗證上述聯合推導系統失效率邊界的有效性,選擇了LET=37.6 MeV/(mg·cm-2)時部件翻轉截面σc(LET)Pc Mc預測結果與同等條件重離子輻照實驗結果進行對比,完整結果如圖6 所示。在部件方面,本研究使用的“多因素預測模型+硬件故障注入仿真”聯合推導方法在寄存器文件(如浮點單元、整數單元等)、指令單元、緩存標簽和MMU 等部件上的預測結果與重離子輻照實驗比較接近,指令和數據緩存的預測高于輻照實驗結果,控制邏輯類組件低于輻照實驗結果。同時,利用部件結果推導的全系統SER 與輻照實驗結果處于同一量級但略微偏高(約6.76 倍),這主要是有本研究采用了基于最差情況的上界估算策略,另外未知的實驗配置也可能導致評估的偏差,如基準軟件、系統運行模式、故障注入策略等。

圖6 聯合推導與重離子輻照實驗的翻轉截面結果對比Fig.6 Comparison of the cross section results of joint derivation prediction and heavy ion irradiation experiment
本文研究了基于小樣本學習的數據驅動方法在多因素單粒子翻轉截面預測中的應用。通過構建特征提取、特征融合和集成學習回歸組成的端到端級連預測模型,在小規模自建數據集上獲得了具有良好泛化性的預測表現,對各因素的重要性和影響效果進行了量化評價。以國產處理器芯片SM750 為案例,結合硬件仿真故障注入和重離子輻照實驗結果,證明了通過多因素單粒子翻轉截面預測模型推導組件和系統失效率的有效性。由于本文所使用的自建數據集的參考文獻數據來源均為國外器件,缺少國內器件樣本,各類因素覆蓋范圍有限,個別場景預測結果存在不可忽略的偏差。因此,后續研究將繼續擴充數據集,并與更多的目標器件的實際輻照實驗對比結果。