孫潔娣,劉 保,溫江濤,時培明,閆盛楠,肖啟陽
(1.燕山大學 信息科學與工程學院,河北 秦皇島 066004;2.燕山大學 河北省信息傳輸與信號處理重點實驗室,河北 秦皇島 066004;3.燕山大學 河北省測試計量技術及儀器重點實驗室,河北 秦皇島 066004;4.河南大學 人工智能學院,鄭州 475000)
滾動軸承作為旋轉機械的重要部件,對整個旋轉機械的安全運行有著直接影響。軸承出現故障可能導致大量人力財力損失,因此快速準確的軸承故障診斷在機械健康狀態管理中意義重大。近年來,軸承故障診斷已由傳統方法向智能化方向轉變,基于數據驅動的智能機械故障診斷方法取得了較大發展[1-4]。
隨著深度學習在多學科交叉研究中取得了令人矚目的成績,學者們將其引入機械故障診斷中,形成了一類新的智能故障診斷方法。該類方法主要通過復雜的學習算法提取高維特征中的隱藏信息,建立輸入數據與預測類別之間的關系,繼而實現端到端的識別。在眾多方法中,深度卷積網絡因其具有的強大特征提取能力得到了廣泛關注,文獻[5]利用卷積網絡從振動信號頻譜中自動學習特征,實現了變速箱健康狀態診斷。文獻[6]利用三維卷積網絡對原始振動信號的時頻圖像進行自動化特征提取,實現了齒輪箱復合故障的識別。文獻[7]利用CNN對原始監測信號的二維矩陣進行自適應特征提取,實現了軸承故障識別。
分析文獻發現,多數診斷方法均假設訓練數據與測試數據同分布,數據來自同一工況下機械振動信號。而實際軸承診斷應用中,運行工況復雜多變,不同工況下軸承的振動信號差別較大,直接將前述方法應用于變工況的軸承故障診斷中將導致故障識別準確率大幅度降低,嚴重限制了很多理論上成功的診斷方法在復雜工況下的應用。因此,針對軸承實際應用中的多工況變化導致的數據分布差異問題,研究自適應的特征提取及識別方法,實現復雜變工況環境下的軸承智能故障診斷是目前該領域的迫切需要。
遷移學習(transfer learning,TL)為解決變工況下的軸承故障診斷帶來了新思路[8-10],其嘗試將源域知識應用于目標域的樣本分類任務中。很多學者研究了多種遷移識別方法,文獻[11]利用自動編碼機提取軸承故障信號的敏感特征,通過引入特征域適應,提升了網絡在小樣本情況下的診斷準確度。文獻[12]基于卷積神經網絡提出一種遷移學習分析方法,實現了齒輪箱故障識別。文獻[13]基于卷積神經網絡,在全連接層處的域適應損失及卷積網絡分類誤差共同作用下實現了不同機械間的故障識別。為了更好的對齊源域和目標域特征分布,文獻[14]在卷積神經網絡的多層中引入最大均值差異來最小化數據的特征分布差異,在兩種機械間的跨域診斷任務中實現了很好的識別結果。文獻[15]在以上深度遷移學習的基礎上,通過結合域適應和域分類器損失實現了目標機械的故障診斷識別。
上述文獻表明,源域和目標域間的特征分布差異信息能夠有效提高網絡的跨工況適應性、輔助深度神經網絡實現不同工況下的軸承故障診斷任務。以上算法雖然取得了較好的識別效果,但是忽略了信號特征提取過程的優化以及不同域中樣本的標簽概率分布信息對故障分類的潛在作用。
針對以上問題,本文提出優化的特征提取和知識遷移的故障診斷方法。該方法引入稠密卷積網絡和注意力機制來優化信號的特征提取過程,同時引入標簽概率分布適應來對網絡輸出的源域和目標域樣本標簽分布進行優化。模型中的稠密卷積網絡和注意力機制負責信號多層特征的提取及特征重要程度標識;標簽概率分布適應在特征分布適應的基礎上進行二次分布對齊,從而更有效的實現域知識遷移,實現變工況軸承故障診斷。實驗結果表明,相較于傳統方法,本文所提出的方法從特征提取和域適應的角度都實現了更高的跨工況故障診斷準確率。
深度卷積神經網絡CNN因其良好的性能常被用作機械故障信號特征提取模型,但其本身也存在不足之處[16-19]。稠密卷積網絡(DenseNet)作為CNN的一種變體,通過將網絡內部不同層次的特征合并傳遞,增強特征的傳遞性,實現淺層特征重復利用,有效緩解梯度消失并提高網絡的收斂效率[20-21]。
DenseNet本質上是一種具有較深層數的卷積神經網絡,主要由稠密卷積塊和過渡層構成。
稠密卷積塊在特征提取過程中,為了確保網絡的前饋性以及網絡各層能夠提取最大信息量,對各層特征進行拼接,每一個卷積層都從前面的各卷積層中獲得額外的輸入,并將本層的特征映射傳遞給后面所有層。設x0為稠密卷積塊的輸入,x0經過稠密塊第一層卷積處理得到特征x1,第二層卷積層的輸入為[x0,x1],第L層卷積的輸入特征則為[x0,x1,…,xL-1]。每層卷積的處理可表述為下式
(1)
式中:xi為輸入特征;wi為權重參數;b為偏置;f(·)為非線性激活函數。
為了有效控制網絡參數數量,在每個稠密卷積塊后連接一個包含1*1卷積層和平均池化層的過渡層,對特征進行降維處理。
對于稠密卷積網絡所提取的信號特征,卷積注意力機制(convolutional block attention module,CBAM)[22]通過通道及空間注意力處理分析,實現了特征權重的差異性區分。結合一維卷積網絡結構,本文基于CBAM的特征區分處理過程如圖1所示。

圖1 本文基于CBAM的特征區分Fig.1 Feature distinguishing processing based on CBAM
通道注意力處理包含降維、特征變換、特征激活三部分。輸入特征F在空間維度上進行全局平均池化和全局最大池化,得到降維后的特征Favg、Fmax。該特征在共享權重的卷積網絡中進行非線性變換,得到特征Convc(Favg)、Convc(Fmax)。利用Sigmoid函數對輸出的兩個特征求和結果進行激活,得到通道注意力權重分布圖Wc,權重分布圖中標識了各個通道特征的重要性,代表著特征圖的各通道特征對網絡跨域識別任務的貢獻率。通道注意力的輸出特征權重可用式(2)表示。
Wc=σ(Convc(AvgPool(F))+Convc(MaxPool(F)))=
σ(Convc(Favg)+Convc(Fmax))
(2)
式中,σ為sigmoid激活函數,Convc為通道注意力處理中權重共享的卷積層。

Ws=σ(Convs([AvgPool(F′);MaxPool(F′)]))=
(3)
式中,σ為sigmoid激活函數,Convs為權重共享卷積層。
通過特征映射尋找兩個域的相關性,找到對兩個域分布影響較小的潛在參數,實現域不變特征的遷移是基于特征的遷移學習主要解決的問題。
遷移學習基于領域適配理論[23]將兩個域中的特征非線性的映射到同一個高維空間,在該空間中對不同分布特征進行對齊,特征域適應過程如圖2所示。

圖2 基于特征映射的遷移學習結構圖Fig.2 Transfer learning based on feature mapping
最大均值差異MMD[24-25]常用于判斷圖中兩個特征分布是否相同,但該指標側重度量不同域分布間的整體差異,未考慮不同域分布中任何細粒度信息。局部最大均值差異(local maximum mean discrepancy,LMMD)[26]將源域和目標域特征劃分為多個子域分布,并計算源域和目標域中相關子域特征分布間的距離。給定兩個獨立數據集x和y,LMMD計算如式(4)。
(4)

(5)
lic為標簽編碼向量li的第c項。
為了更好的利用不同域間的特征知識,在特征域適應的基礎上,從跨工況情境下兩個域共享相同標簽空間的角度出發,本文提出對跨域識別任務中兩個域內的標簽概率分布進行適配,在特征子域分布適配之后,增加標簽概率分布適配,改善識別效果。
考慮到目標域數據的無標簽問題,本文結合網絡softmax層的輸出結果實現對源域和目標域的標簽概率分布對齊。Softmax層中的計算公式為
(6)
式中:i代表k中的某個分類;gi代表該分類的值。
一方面,softmax層作為網絡的最后一層,包含著數據集的非線性特征信息;另一方面,softmax層將源域和目標域數據的多分類結果以概率分布p和q的形式展現,分別刻畫了網絡預測標簽對不同類別的歸屬程度。對于網絡中softmax層的輸出,可以應用MMD距離度量函數度量兩個標簽概率分布的差異。進一步將該差異作為網絡的損失函數,約束網絡的訓練過程。標簽概率分布差異的度量如式(7)
(7)
式中:dk(·)為MMD距離度量函數;pl,ql為softmax層輸出的源域、目標域標簽概率分布;K為高斯徑向基核函數的數量;γ為各個核函數系數。
綜合考慮網絡特征提取能力和數據特征及標簽信息利用,本文提出結合注意力機制的稠密卷積網絡以及標簽概率域適應的軸承跨域診斷模型。如圖3所示。

圖3 本文的深度遷移診斷模型Fig.3 Proposed deep transfer diagnosis network
本文首先采用稠密連接的一維卷積網絡對輸入信號進行特征提取,網絡的第一層卷積采用1×6卷積核,實現一維振動信號向高維特征轉換。兩個稠密卷積塊具有相同結構,包含四層卷積層和四層批標準化(batch normalization,BN)層。兩個過渡層包含卷積層、批標準化層、整流線性單元(ReLU)和平均池化(Avg-pooling)層。
之后采用CBAM從通道和空間兩個維度對網絡提取的特征進行處理,CBAM作為一個輕量級的模塊,本文將其在稠密網絡提取特征之后加入,以便于對總體特征實現重要性區分。
模型的全連接層包含一個展平層、兩個全連接層和一個softmax層。為了提升源域數據和目標域數據特征知識的匹配程度,在全連接層對網絡提取的高維特征及標簽概率分布進行領域適配。如圖3所示,高維特征經展平后,輸入全連接層FC1,利用式(4)對FC1層輸出的源域和目標域特征分布進行差異度量并匹配,得到源域和目標域局部特征分布差異LMMD(Fs,Ft),其中Fs,Ft為源域目標域的高維展平特征。特征經過全連接FC2層非線性變換處理后,輸入softmax層進行標簽預測。在softmax層利用式(7)計算源域和目標域標簽概率分布差異MMD(Ls,Lt),Ls,Lt為源域和目標域的標簽概率分布。
為了更好的對源域和目標域特征知識、標簽分布信息進行綜合利用,提高軸承跨域故障診斷準確度,結合式(4)與式(7)的分布差異值,構建如下優化目標:
Min(losss+γLMMD(Fs,Ft)+γMMD(Ls+Lt))
(8)
式中,γ為域適應的懲罰項系數,losss為源域數據集分類損失,定義為:
(9)

網絡在式(8)的約束下,模型的每次更新都進行了特征概率分布對齊、標簽概率分布對齊,經過多次的雙重對齊操作,模型提取的源域特征知識分布逐漸趨近于目標域的特征知識分布,從而借助源域數據集的特征知識來實現目標域數據的正確分類。
模型訓練過程主要包括如下步驟:
(1) 初始化:初始化模型參數。對源域數據集和目標域數據集進行Z-score標準化預處理:
(10)
式中,σ和μ分別代表原始振動信號x的均值和方差。
(2) 前向傳播:依據本文方法搭建特征提取及域適應網絡,輸入源域和目標域數據,利用網絡對數據樣本進行特征提取。提取的特征在全連接層中按照式(4)、式(7)、式(9)分別計算域適應損失和源域分類損失。
(3) 反向傳播:采用小批量梯度下降(mini-batch gradient descent,MBGD)優化算法,逐層反向訓練更新遷移網絡模型參數。返回繼續執行(2)的前向傳播過程,直到達到設定的迭代次數后結束訓練過程。
(4) 目標域測試樣本識別:將目標域測試數據輸入訓練好的網絡,返回網絡識別結果。
為了測試本文提出的跨域故障診斷模型的性能,以軸承不同工作負載下采集的數據集為基礎進行遷移故障診斷,下述實驗都在如下配置的PC端進行:Intel Core i7 CPU,NVIDIA GEFORCE GTX 1070 Ti GPU。
實驗采用了凱斯西儲大學提供的軸承振動信號數據集[27],識別的軸承狀態包括:正常NO(normal)、內圈故障IF(inter race fault)、外圈故障OF(outer race fault)、滾珠故障BF(ball roller fault)。每種故障有三種嚴重程度,故障直徑分別為0.007英寸、0.014英寸、0.021英寸。信號采樣速率為12 kHz和48 kHz。四種不同的設備運行負載為0 HP,1 HP,2 HP,3 HP。實驗中選取12 kHz采樣頻率下的驅動端軸承信號進行分析,考慮三種不同故障下的三種嚴重程度,與正常狀態信號共計故障類別為10類,文中故障類型分別表示為0~9,每類234個樣本,每個樣本包含1 024個采樣點,數據標簽處理結果如表1所示。

表1 狀態標簽Tab.1 State labels
本文實驗中將不同負載記為load0、load1、load2、load3,研究四種不同負載工況軸承之間的跨域診斷。
按照本文方法構建深度特征提取網絡及域適應網絡,網絡參數如表2所示。

表2 網絡參數表Tab.2 Parameters of the network
基于以上參數,構建深度遷移網絡,對本文所提出的多種跨域識別方法進行10次重復實驗,統計實驗結果如表3所示。

表3 文中所提方法的跨域診斷結果Tab.3 Cross-domain diagnosis results of the proposed method
由表3可以看出,本文方法在多數遷移診斷任務中實現的故障識別準確率保持在99.0 %以上,且具有較低的標準偏差,表明文中所提方法在處理不同負載遷移診斷問題時總體效果較好,且單次的可信度高。
深度遷移模型構建過程中,合適的參數可以有效提高目標域軸承故障的診斷準確率,下文將從多方面分析重要參數的不同取值對跨域診斷結果的影響。
4.3.1 網絡模型深度對診斷結果的影響
網絡模型深度對特征提取過程和訓練時間有直接影響。網絡模型過淺會導致網絡特征提取能力下降,難以提取到具有表示性的域不變特征;網絡模型過深會加長網絡訓練時間,并且帶來過擬合、梯度消失等風險。下文比較的三種不同深度網絡結構如下:
網絡a:(稠密卷積塊+過渡層)×1、注意力機制層×1、全連接層×2。
網絡b(本文方法):(稠密卷積塊+過渡層)×2、注意力機制層×1、全連接層×2。
網絡c:(稠密卷積塊+過渡層)×3、注意力機制層×1、全連接層×2。
下表為10次識別結果的統計值。

表4 不同網絡層數下跨域識別統計結果Tab.4 Cross-domain recognition results with different layers
從統計結果可以看出,三種網絡中,本文所提出的網絡b診斷準確率最高,且具有較高的魯棒性。從訓練時間可以看出,隨著網絡結構的加深,網絡訓練所需時間隨之增加,而本文網絡訓練所需時間適中。以上分析也表明本文的網絡結構b診斷效果較好。
4.3.2 特征注意力機制處理的影響
本文特征提取中引入卷積注意力機制進行特征的重要性區分。在前文確定的網絡結構基礎上,此部分分析卷積注意力機制對分類識別的影響,主要對比了三組不同的結構,如下所示。
網絡①:僅兩個稠密卷積塊而無注意力機制處理,即(Dense block1+Dense block2)。
網絡②:CBAM注意力機制處理層置于第一個稠密卷積網絡之后,即Dense block1+CBAM+Dense block2。
網絡③(本文方法):CBAM注意力機制處理置于第二個稠密卷積塊之后,即(Dense block1+Dense block2+CBAM)。
為避免偶然因素影響,現進行十次實驗結果統計,以跨域診斷實驗load2→load3為例,結果如圖4所示。

圖4 不同網絡結構對應的識別結果Fig.4 Results of different network structures
由圖中可以看出,網絡③即本文方法的識別準確率最高,而沒有卷積注意力機制處理的網絡對多數樣本分類效果較差,跨域識別準確率較低。表明文中將注意力機制結合稠密網絡進行特征的提取及優化,可以更好的實現特征的重要性區分,改善了跨域診斷網絡的識別效果,獲得了最高的識別準確率。
4.3.3 懲罰項系數取值對識別結果的影響
域適應中的懲罰項系數表征了網絡在訓練過程中域適應的強度。懲罰項系數過小會導致域適應強度不夠,難以實現滿意的跨域診斷結果;懲罰項系數過大則會顯著增加網絡反向傳播的損失,帶來梯度爆炸風險。為探究不同懲罰項系數值對識別結果的影響,重復十次實驗并對不同跨域診斷效果進行分析,圖5以load0→load3為例,給出懲罰項系數取值為0,0.01,0.5,1,10,0-1的識別結果,其中0-1取值按照公式2/((1+exp(-10*q))-1)變化,q為網絡訓練過程中已訓練次數與總訓練次數的比值。

圖5 不同懲罰項系數的跨域診斷識別率Fig.5 Cross-domain diagnosis accuracies with different penalty coefficients
從圖中可以看出,在多組實驗中,變化的懲罰項系數取得了最好的遷移診斷結果。分析其原因,在網絡訓練前期更注重對源域數據特征的提取,此時懲罰項系數應取較小值;隨著訓練過程進行,網絡優化重點逐漸轉移到不同域間的特征適配任務上,因此懲罰項系數應逐漸增大,提升網絡的域不變特征提取能力。
源域及目標域提取特征的差異性度量是影響跨域識別結果的重要因素,此處以實驗load3→load2為例,分析本文采用的LMMD與傳統的MMD對跨域識別結果的影響。記錄某次實驗網絡訓練過程中測試準確率和測試損失值,如圖6所示。

圖6 測試準確率曲線及損失曲線圖Fig.6 Accuracy curve and test loss curve
由圖中可以看出,與傳統MMD距離度量對應的網絡相比,文中所提方法實現了更平滑的測試損失曲線和更低的損失值,說明文中所提網絡具有更好的收斂性能和故障分類能力。表5為試驗統計結果。
為了提高源域和目標域之間的特征匹配程度,本文所提方法增加了對網絡輸出的標簽概率分布進行適配的處理,此處以跨域實驗load1→load3為例,分析標簽概率分布適配對跨工況軸承故障診斷結果的影響,某次實驗結果混淆矩陣如圖7所示。

(a) 本文考慮標簽概率分布影響的結果
圖中結果表明,在使用相同特征提取網絡的情況下,增加標簽概率分布適配層對跨域診斷結果有較大影響。無標簽概率分布適配層的網絡模型在目標域數據分類過程中容易出現錯誤識別,其原因在于,無標簽概率分布適配方法中,各類別決策邊界不夠明確,分類準確率較低;而利用標簽概率分布適配對該特征值進行映射對齊后,在各個類別上都實現了較好的識別結果。下表統計了兩種不同域適應網絡實現的識別結果。
本文在傳統跨域診斷模型基礎上進行改進,提出一種包含稠密卷積網絡、注意力機制、特征及標簽概率分布適配的網絡模型,提高了變工況下的軸承故障識別準確率。為了驗證本文方法的性能,將其與三種常用的方法進行對比實驗,基于不同的對比目的,設置三類對比方法,各方法的模型結構如表5所示。

表5 對比模型結構表Tab.5 Different structures for comparing models
多個遷移診斷任務上的實驗統計結果如表6所示。

表6 不同方法遷移結果對比Tab.6 Transfer diagnosis comparison of different methods
不同方法的準確率結果如圖8所示。

圖8 不同方法對比結果Fig.8 Comparison of different methods
由統計結果可以得出,(1)本文方法在多種變工況故障識別中均實現了較高的準確率,說明了文中方法的有效性;(2)處理跨域故障診斷任務時,本文網絡相較于傳統卷積網絡在故障診斷時更具優勢。(3)文中提出方法的故障診斷準確率高于沒有遷移過程的稠密卷積網絡的診斷準確率,說明源域數據和目標域數據的特征分布、標簽概率分布適配遷移了數據的特征知識,有效改善了跨工況故障診斷結果。(4)相比傳統基于手動提取特征的淺層遷移學習方法TCA,本文提出的診斷網絡可以自動而全面的提取數據中的深層次特征知識,并且能夠在深層特征空間內降低源域數據和目標域數據的特征知識差異性,改善遷移故障診斷結果。
為了進一步驗證該方法的有效性,本文在西安交通大學軸承數據集(XJTU-SY Bearing Datasets)[29]上做進一步實驗。選取了數據集中11 kN和12 kN兩種工況下的軸承振動信號,主要識別了軸承的保持架(cage)故障、外圈(outer)故障、正常(normal)三種故障狀態。數據處理中,每類故障狀態包含315個數據樣本,每個樣本包含1024個采樣點,數據處理結果如表7所示。

表7 故障狀態標簽Tab.7 Fault labels
基于以上兩種工況以及分別進行兩種情景下的跨工況診斷實驗,試驗結果如表8所示。

表8 遷移識別結果Tab.8 Diagnosis results with different transfer methods
由上表的統計數據可以看出,本文方法在多場景下的跨工況故障診斷中均能有效提高目標域的故障診斷準確率,表明了本文所提方法在處理跨工況診斷問題時的有效性。
機械的運行環境差異大,導致采集的振動信號差別較大,且多為無標簽數據,給傳統的軸承故障診斷方法的實現帶來了很大的困難?;诖耍疚奶岢隽艘环N基于深度遷移學習的跨工況軸承故障診斷方法,在深度卷積網絡基礎上引入卷積注意力機制,改善特征提取性能;并通過域適應實現了軸承故障的變工況遷移識別。實驗結果表明,通過深層卷積神經網絡的自動學習,解決了傳統淺層機器學習需要手動提取特征的不足;通過將特征分布差異和標簽概率分布差異最小化,提取了源域和目標域樣本集中的域不變特征,解決了不同運行工況下標簽數據不足導致的軸承故障識別準確率低的問題。本文提出的方法在跨工況情境下,利用大量的無標簽目標域輔助數據即可實現較好的跨工況軸承故障診斷效果,為提高機械實際作業中的故障識別準確率提供了新思路。