鐘智偉, 王譽翔, 黃亦翔, 肖登宇, 夏鵬程, 劉成良
(上海交通大學 機械與動力工程學院, 上海 200240)
絕緣柵雙極型晶體管(Insulated Gate Bipolar Transistor, IGBT)是一種電壓驅動式功率半導體器件,具有較小的導通電阻、飽和壓降及驅動電流,同時兼具較快的開關速度[1],這些優勢特性使得IGBT在工業界被廣泛應用,包括以航空航天為首的重工業領域以及電動汽車一類的新興領域[2].工業界調查顯示, 功率器件是電力電子系統中最易失效的部件之一[3].研究證明,熱疲勞是導致IGBT模塊失效的最主要因素[4].隨著IGBT模塊應用領域的擴大,對其可靠性和使用壽命的要求也不斷提高,剩余壽命預測可為元件維修更換提供參考,減少檢修和停機時間,提升系統整體可靠性[5].
IGBT剩余壽命預測的方法根據預測機理主要分為基于物理模型、基于解析模型以及基于數據驅動共3類.基于物理模型的方法在實際使用中,通常根據IGBT模塊實際參數建立物理模型并通過有限元分析來預測剩余壽命.Huang等[6]基于IGBT模塊鍵合線的應力應變模型,建立電-熱-力多物理場耦合模型,對鍵合線的壽命進行分析.基于物理模型的預測方法在實際工況下難以應用,需通過專家知識建立合適的物理模型,且需要獲取產品的幾何、電氣參數.基于解析模型的預測方法根據IGBT模塊運行過程的失效數據建立老化循環次數和指定物理量之間的數學模型.Coffin-Manson模型和Lesit模型建立了結溫與IGBT模塊壽命之間的關系[7],但上述兩個模型僅考慮單一物理變量的影響;Norris-Landzberg模型和Bayerer模型等考慮多物理量對壽命的影響,一定程度上提高了預測的準確性[8].基于解析模型的預測方法需大量實驗數據,且需手工建立合適的數學模型,難度大.基于數據驅動的方法通過挖掘IGBT模塊運行的各種數據信息,結合預測模型對壽命進行預測,無需復雜的數學建模和專家知識.劉子英等[9]以集射極關斷電壓峰值為失效依據,建立Elman神經網絡模型進行IGBT模塊的壽命預測;葛建文等[10]基于IGBT模塊的殼溫、結溫等數據計算模塊熱阻,利用Transformer神經網絡來預測剩余壽命.上述方法都是在單個工況的IGBT模塊上基于故障前歷史數據進行預測,而更可靠的方法是使用一個在IGBT模塊完整退化過程數據上訓練得到的模型來預測其他IGBT模塊的壽命,但實際情況下,不同電壓電流工況下IGBT模塊的各種參數差別較大,模型適應性差.
為解決現有序列預測方法無法并行處理、效率低及跨工況預測效果差的問題,提出一種基于概率稀疏注意力與遷移學習的方法,實現從已獲取全生命周期退化數據的源工況遷移到全新目標工況IGBT模塊壽命預測,基于IGBT模塊的加速老化試驗原理,搭建試驗平臺,獲取不同工況下IGBT模塊老化過程中的瞬態熱阻數據,進行跨工況剩余壽命預測對比實驗。實驗結果表明,本方法在IGBT模塊剩余壽命的跨工況預測效果上明顯優于其他對比方法.
Transformer[11]的出現使得自注意力機制在各個研究領域占據了一定的統治地位,尤其是在序列預測方面.在剩余壽命預測領域,自注意力機制已經應用于軸承[12]和渦扇引擎[13]的研究中.
自注意力機制本質上是對樣本進行權重分配,注意力函數被用來實現這種機制,其作用是將一個查詢向量和一組鍵值向量映射到輸出向量上.對于輸入X∈RL×d中的一個樣本向量xi∈Rd,首先計算出對應的查詢向量、鍵向量、值向量:
(1)
(2)
(3)
(4)
為了關注不同特征在不同表征子空間的信息,通常會采用多頭注意力方式,表達式為
M(Q,K,V)=
(5)
hi=Attention(Q,K,V)i
(6)
式中:WM∈RHdk×d;dk=d/H,d為嵌入空間維度;H為多頭的數量.
但上述傳統自注意力的時間復雜度和空間復雜度較高.經研究發現,傳統自注意力機制不同的查詢值對應的注意力權值分布并非全都有所側重,部分可能趨近于均勻分布,被稱為惰性分布,相應有所側重的部分被稱為激活分布,如圖1所示.
圖1 經典自注意力權重分布Fig.1 Canonical self-attention weight distribution
利用KL散度可以對這兩種分布度量進行區分,得到第i個查詢向量與對應鍵向量的近似概率分布評估函數[14]為
(7)
式(1)~(7)說明了概率稀疏自注意力機制優化計算效率的數學原理,為了實際對比其計算速度優化效果,將在后文與傳統自注意力機制進行對比.
基于概率稀疏自注意力機制和遷移學習構建的剩余壽命預測模型如圖2所示.圖中,T為當前時刻,t為起始時刻,MK-MMD為多核最大均值差異.
圖2 所提出的模型結構Fig.2 Proposed model structure
IGBT模塊退化過程數據包含時序信息,在不使用循環神經網絡(RNN)結構的情況下,位置編碼是使模型能夠有效利用這種時序信息的方法[15].對于一個輸入特征序列x=(x1, …,xL),xi∈Rf,f為提取特征維度,將其映射到高維空間得到V=(v1, …,vL),vi∈Rd,對于輸入序列的位置向量p=(0, …,i, …,L),i為序列中每個樣本的位置序號,使用正余弦位置編碼方式[11]將其映射到相同維度的高維空間得到P=(p1, …,pL),pi∈Rd,最終嵌入層的輸出為
X=V+P
(8)
式(8)為多頭概率稀疏自注意模塊的輸入,使得注意力機制能充分利用數據特征信息及其潛在的時間先后關系.多頭概率稀疏自注意模塊將傳統多頭自注意力中單頭的注意力計算方法改為前文所述的概率稀疏注意力計算方法,并加上殘差連接,將序列中對預測結果影響更大的樣本賦予更高的權重,使模型提取到更有效的信息.后面的卷積層、池化層則是為了進一步提取深度特征,保留有效信息,去掉冗余信息,避免全連接層參數量過大.最后的全連接層則是根據深度特征信息進行擬合,輸出預測的剩余壽命.
IGBT模塊在不同工況下的衰退過程特征變化規律差異較大,在一個特定工況下訓練的模型很難直接預測其他工況下IGBT模塊剩余壽命,故模型需要進行領域自適應,減少源域和目標域特征分布的差異性,使其提取到的深度特征更具有泛化性.本文在全連接網絡層使用MK-MMD[16]來衡量源域和目標域的差異,多核函數定義為
(9)
式中:k為多核函數;ku為單個核函數;βu為每個核函數的權重,則MK-MMD計算公式為
(10)
最終該模型的優化目標由損失函數和MK-MMD距離組成:
(11)
式(9)~(11)說明了領域自適應原理,通過修改損失函數對模型參數優化進行一定限制,從而減小不同域深度特征的差異,最終提升不同域下模型的預測性能.
IGBT模塊在實際運行過程中的壽命周期較長[17],短時間內很難收集到足夠的退化過程數據.加速老化試驗在保證相同失效機理的前提下,提升試驗產品所承受的應力水平,加速其失效,目的是快速獲取產品退化數據,分析失效原理,根據高應力下產品的老化規律對正常情況下的產品進行壽命預測[18].
絕大部分IGBT模塊失效由熱應力引起,加速老化試驗通過對IGBT模塊施加熱激勵來提高熱應力水平,從而加速其老化過程.根據應力施加方式的不同,加速老化試驗采用的應力施加方式主要有恒定應力、步進應力和序進應力[19].恒定應力具有試驗理論成熟、試驗過程簡單成功率高的特點,故本文將其作為施加方式.根據熱激勵的來源,熱激勵施加方式包括主動激勵和被動激勵[20],前者通過提高主功率電路內的電壓電流使器件自身發熱以達到設定溫度;后者通過改變環境溫度來使器件達到設定溫度.主動激勵的方式無需借助恒溫箱類額外設備,試驗方案簡單、成本低且更符合實際運行工況,故選擇主動熱激勵的方式.
根據加速老化試驗原理,搭建加速老化試驗臺,其電路原理圖如圖3所示.圖中,GND為接地端,ENA為使能信號端,FPGA為現場可編程門陣列,PC為計算機,R為電阻,L為電感.
圖3 加速老化試驗臺電路原理圖Fig.3 Circuit schematic diagram of accelerated aging test bench
加速老化試驗臺實物如圖4所示,核心試驗臺根據不同層的設備,分為電源層、負載層、IGBT模塊層及驅動數采層.溫度信號采集使用的傳感器為超細焊點K型熱電偶,測量范圍為-20~200 ℃,通過NI 9212采集卡將熱電偶的電壓轉化為實際溫度,電壓電流通過NI 9243采集卡進行采集.
圖4 IGBT加速老化試驗臺Fig.4 IGBT accelerated aging test bench
Smet等[21]研究發現結溫差ΔTj和平均結溫Tjm是決定IGBT壽命的重要因素,二者的表達式分別為
ΔTj=Tj_max-Tj_min
(12)
(13)
式中:Tj_min為結溫的最小值;Tj_max為結溫的最大值.
本文主要研究相同結溫差下不同平均結溫工況IGBT模塊焊料層疲勞導致的壽命問題,瞬態熱阻是表征焊料層失效程度的關鍵參數[22],因此以其作為壽命表征參數.研究表明,當結溫差大于100 ℃時,IGBT模塊以鍵合線失效為主;當結溫差小于 80 ℃ 時,以焊料層失效為主[23].將控制IGBT模塊在結溫波動范圍為80 ℃但平均結溫不同的情況下進行加速老化試驗,初始狀態的電流循環曲線和溫度循環曲線如圖5所示.圖中,Tj為結溫,Tp為殼溫,I為通過IGBT模塊的集射極電流.
圖5 直流老化循環曲線Fig.5 Curves of DC aging cycle
每個循環周期開始時,IGBT模塊被導通,結溫Tj不斷上升直至到達設定的最大值Tj_max,此時IGBT模塊被關斷并開啟冷卻系統,直到結溫Tj下降到設定的最小值Tj_min,如此不斷重復.統一工況實驗下隨著循環次數不斷增加,Tj_min和Tj_max不變,而不同工況實驗下Tj_min和Tj_max不同.
實驗選擇的IGBT模塊型號為英飛凌FF50R12RT4,最高工作溫度為150 ℃,額定電流為50 A.在3種工況下進行加速老化試驗,均出現熱阻增加的焊料層失效形式,實驗工況及對應結果如表1所示.不同工況下Tj_min和Tj_max對應圖5中的Tj_min和Tj_max,N為IGBT模塊失效時老化循環次數.
表1 老化試驗工況及結果Tab.1 Aging test conditions and results
在相同結溫差下,隨著平均結溫的增加,IGBT模塊壽命減少,符合Smet等[21]的研究結果.
IGBT模塊熱阻在其導通一段時間內是變化的,為了充分利用熱阻信息,可根據下式計算時刻t模塊的瞬態熱阻:
(14)
式中:Tj(t),Tp(t)分別為t時刻IGBT模塊的結溫和殼溫;Vce_on(t),I(t)分別為t時刻IGBT模塊集射極的電壓和電流.實際采集過程只能獲得離散數據,每隔0.1 s采集一次數據.
以IGBT3為例,經過不同次數老化循環周期后一個完整周期內瞬態熱阻的變化曲線如圖6所示.實驗初期,瞬態熱阻的變化與老化循環次數的關系并不明顯,隨著老化循環次數的繼續增加,模塊瞬態熱阻的最大值明顯不斷增加,曲線斜率也相應變化,且瞬態熱阻上升的時間即IGBT模塊導通時間不斷減少,這是因為隨著老化循環次數的增加,模塊熱阻增加,結溫上升速度會加快,從Tj_min上升到Tj_max需要的時間也會相應減少.圖5則對應圖6中循環次數較低熱阻曲線的電壓電流變化過程,隨著老化循環次數的增加IGBT導通的時間會相應縮短.
圖6 不同老化循環次數IGBT3的瞬態熱阻Fig.6 Transient thermal resistance of IGBT3 with different aging cycles
因本文提出的預測模型只能輸入固定長度的序列數據,為統一不同老化循環次數數據序列長度,取前5 s瞬態熱阻數據進行IGBT模塊壽命預測,保證數據都位于熱阻上升階段(見圖6),避免數據所處階段不同對預測結果造成影響.
IGBT模塊與軸承等部件類似,在很長時間內會保持穩定的健康狀態[24],這段時間內特征信息沒有衰退信息,故無法從最初時刻開始預測剩余壽命,而應該從表現出衰退趨勢的時刻開始預測.基于導通后5 s內瞬態熱阻最大值使用3σ準則[25]確定模塊開始退化的時刻,同樣以IGBT3為例進行說明,如圖7所示.基于前 10 000 個循環熱阻最大值計算得到3σ范圍,當連續25個點超過該范圍,則認為對應的老化循環次數為IGBT模塊開始退化的時刻.
圖7 IGBT3開始退化時刻的確定Fig.7 Determination of the time when IGBT3 starting to degrade
端到端模型對數據量要求大且會排除有用的人工設計,對每個循環的瞬態熱阻數據進行特征提取與篩選后再輸入網絡模型,達到簡化模型的效果.共提取了22個特征,如表2所示.
表2 瞬態熱阻特征Tab.2 Features of transient thermal resistance
為了去掉與IGBT模塊退化過程無關信息,對所提特征進行篩選.相關性可以衡量特征的變化趨勢與衰退過程的一致性,若某特征的相關性計算結果越大,說明特征能更好地表征衰退過程的變化,表達式為
Corr=
(15)
IGBT模塊的剩余壽命應該是關于老化循環次數單調的,若某特征單調性計算結果越大,則說明其能更好地表征衰退過程,單調性的表達式為
(16)
式中:ΔX為特征在相鄰循環的變化值;N(ΔX>0)為變化值大于0的數量;N(ΔX<0)為變化值小于0的數量.
為了兼顧上述兩個指標,定義特征選擇標準為二者的均值:
(17)
截取每個實驗工況下IGBT模塊處于退化狀態的數據作為有效數據,分別以不同工況下有效數據進行特征表征能力計算并最終取其平均值,設定特征選擇閾值為0.5,最終共篩選出12個有效特征作為后續模型的輸入,如圖8所示.其中,12個有效特征對應圖中12個綠色柱狀圖.
圖8 衰退特征表征能力Fig.8 Degradation characteristic ability
對于所有實驗模型,輸入為篩選得到的特征序列,輸出為IGBT模塊對應老化循環次數下的剩余壽命比例.輸入序列長度設為50,即每個輸入樣本為x=(xt, …,xt+50),xy∈R12.具體輸入樣本來源于不同工況下IGBT熱阻特征向量的滑動窗口切分,如第1個樣本為x1=(x0, …,x50),第2個樣本為x2=(x1, …,x51),其中xy為y個老化循環熱阻特征向量,因此IGBT1對應樣本數為 148 190,IGBT2對應樣本數為 104 249,IGBT3對應樣本數為 68 066.訓練集或測試集會根據工況選擇對應IGBT切分得到的整個樣本集.
參數優化方法選擇隨機梯度下降算法,學習率初始值設為0.01,每輪訓練衰減為原來的1/2,每次迭代使用的數據樣本數量(batchsize)設為64,模型主要參數如表3所示.
表3 模型結構參數Tab.3 Parameters of model structure
使用提出的模型在3個實驗工況下兩兩進行遷移,對比了由多層感知機組成的gMLP[26]和經典時序模型長短期記憶網絡LSTM這兩個無遷移模型及這兩個模型結合傳統遷移方法遷移成分分析(TCA)[27]和CORAL[28]的預測效果,如表4和圖9所示.為了直觀比較各模型的預測性能,選擇均方誤差MSE和平均絕對誤差(MAE)評價指標進行對比衡量:
表4 不同模型預測結果Tab.4 Prediction results of different models
圖9 不同模型IGBT模塊剩余壽命預測結果Fig.9 IGBT module RUL prediction results of different models
(18)
(19)
IGBT1→IGBT2為一個遷移任務案例簡要敘述其意義,如圖9(a)所示.IGBT1代表源域,即有標簽數據集合;IGBT2代表目標域,該部分只有特征數據,沒有剩余壽命標簽;無遷移模型只使用有標簽的源域數據進行監督訓練,直接在目標域數據上進行預測,即訓練集為有標簽源域數據集,測試集為目標域數據集.本文提出模型在內的遷移模型則在源域數據監督學習,在目標域數據上無監督學習并預測剩余壽命,即訓練集為有標簽源域數據和無標簽目標域數據,測試集為目標域數據.結果可知,本文提出的模型在所有遷移任務上實現了最好的預測效果,在IGBT模塊退化的整個過程都能較好地預測其剩余壽命.
進一步分析發現進行實驗的無遷移模型和遷移模型都能在IGBT模塊衰退后期較好地預測剩余壽命,說明提取的IGBT模塊的瞬態熱阻特征在衰退后期的變化規律比較一致,差異性較小,而早期特征則有較大差異,因此遷移模型在大部分任務上的預測效果要明顯優于無遷移模型.IGBT1和IGBT2的實驗平均結溫較接近,所有對比方法在這兩個工況之間的任務預測效果都優于其他任務,符合實際情況,而這兩個IGBT模塊的實驗工況與剩余一個工況差別都較大,對比方法效果均出現明顯下降,CORAL+LSTM方法甚至在IGBT3→IGBT2和IGBT3→IGBT1任務中出現了明顯的負遷移現象, 證明IGBT3模塊的實驗數據與其余兩個模塊數據域間差距大,且CORAL方法無法有效地將它們的數據映射到一個合適的空間來減小這種差距.
為驗證本文模型使用MK-MMD進行領域自適應的必要性,在6個任務上進行領域自適應前(不使用MK-MMD,直接在源域上訓練,目標域上預測)和領域自適應后的結果對比,如圖10所示.領域自適應后,模型預測結果的MSE和MAE相比領域自適應前均有不同程度下降,在IGBT1和IGBT2的相互遷移上提升最小,與前文所述工況相近,無遷移模型預測效果相對較好;其他遷移任務上由于工況差別較大,不使用MK-MMD進行領域自適應模型很難學習到目標域下特征在衰退過程中的變化趨勢;同時,從嚴苛工況到相對寬松工況的遷移效果更好,例如IGBT3→IGBT1優于IGBT1→IGBT3,IGBT3→IGBT2優于IGBT3→IGBT2,分析認為是嚴苛工況下短時間內退化信息更明顯、信噪比更高、噪聲影響更小,模型能夠學習到更有效的特征.
圖10 領域自適應前后結果對比Fig.10 Comparison of results before and after domain adaptation
為了更直觀顯示MK-MMD對模型提取特征的影響,使用t分布隨機近鄰嵌入(t-SNE)將領域自適應前后源域和目標域數據在全連接第一層的特征向量降至2維,數據從剩余壽命比例由1到0對應的樣本中均勻抽樣.
領域自適應前,IGBT模塊不斷老化過程中,目標域和源域的深度特征整體分布有很大差異,只有在老化到一定程度時,特征變化才有相對接近的變化趨勢,與前文實驗結果顯示的所有模型在老化后半段預測效果相對更好的現象符合,如圖11(a)所示.領域自適應后,在整個衰退過程中,模型學習到的目標域深度特征和源域分布都較接近,因此使用MK-MMD進行領域自適應是必要的,如圖11(b)所示.圖11中顏色從深到淺表示輸入樣本的剩余生命比例標簽從1到0.
圖11 領域自適應前后全連接層源域和目標域的特征表示Fig.11 Feature representation of source domain and target domain of fully connected layer before and after domain adaptation
為驗證概率稀疏自注意力機制相比傳統自注意力機制在降低計算開銷、加快計算速度的同時,也能很好保持預測性能,將模型的注意力模塊替換為傳統注意力模塊,并分別在6個遷移任務下進行多次實驗,得到了每種遷移任務下相對表4中4種對比方法表現最差的預測結果提升,如圖12所示,以及單次迭代(batch)下使用兩種注意力機制模型的平均計算時間對比(GPU為RTX3070),如表5所示.
表5 平均計算時間對比Tab.5 Computational speed comparison
圖12 預測性能提升對比Fig.12 Comparison of prediction performance improvement
使用概率稀疏自注意力機制的模型相比使用傳統自注意力機制的模型在訓練時間和推理時間上都縮短了超過30%,而二者在預測性能上基本相當,MSE提升幅度最大相差不超過10%,MAE提升幅度最大相差不超過13%,因此概率稀疏自注意力機制在大幅提升計算速度的情況下仍保持了優秀的預測性能.
為了實現更準確的IGBT剩余壽命預測來提高其可靠性,在不同工況下對IGBT模塊進行了加速老化試驗,提出了一種基于概率稀疏自注意力機制和遷移學習的方法,利用瞬態熱阻在模塊衰退過程的變化數據,實現了IGBT模塊剩余壽命的跨工況預測.該方法能夠減小目標域樣本和源域樣本深度特征分布的差異,從而在所有遷移任務上達到最優效果,大幅提升了IGBT模塊早期衰退過程中的剩余壽命預測精度,同時證明了兩個相近工況模型遷移較容易,而兩個相差較大的工況,從更嚴苛的工況遷移到更寬松的工況與反向遷移相比提升更加明顯.