李金才,付文龍,2,3,王仁明,陳星,孟嘉鑫
(1.三峽大學 電氣與新能源學院,湖北 宜昌 443002;2.三峽大學 梯級水電站運行與控制湖北省重點實驗室,湖北 宜昌 443002;3.三峽大學 水電動機械設備設計與維護湖北省重點實驗室,湖北 宜昌 443002)
滾動軸承作為煤礦機械設備中的重要部件之一[1],其工作環境復雜,易出現損壞,從而影響煤礦生產系統的可靠性和安全性。因此,對煤礦機械設備中的滾動軸承進行智能故障診斷具有重要意義[2]。
隨著機器學習的快速發展,深度學習被引入到機械設備智能故障診斷中,并取得了一定的成果。但基于深度學習的機械設備故障診斷模型卻要求訓練集和測試集滿足獨立同分布的原則,當訓練集與測試集分布不同時,會出現模型泛化能力差的問題[3]。由于工業過程中大量數據樣本難以被標記,且滾動軸承又常常工作在變工況情況下,導致實際故障診斷中缺少或無法獲取與待測數據分布相同的大量帶標簽訓練數據[4]。
鑒此,研究者們將遷移學習(Transfer Learning,TL)引入到故障診斷中,以實現不同工況之間的知識遷移。文獻[5]使用少量的目標域標記數據對源域數據訓練好的模型進行微調,以此獲得目標域數據的故障診斷模型。文獻[6]提出了一種基于參數遷移的改進最小二乘支持向量機遷移學習方法,實現了目標域中已知標簽數據較少條件下的滾動軸承故障診斷。文獻[7]通過改進TrAdaBoost 方法對源域樣本重新加權,提升了分類準確率。
但上述方法均需目標域含少量帶標簽樣本,當目標域完全不含標簽時,模型泛化能力變弱且診斷準確率下降。無監督的域適應方法可通過學習源域和目標域的共享特征來減小域之間的差異,進而解決目標域數據不含標簽的問題[8]。文獻[9]設計了一種跨設備故障診斷模型,該模型主要引入最大均值差異(Maximum Mean Discrepancies,MMD)公式來度量源域和目標域的特征分布差異,進而幫助一維卷積神經網絡(Convolutional Neural Networks,CNN)學習源域和目標域的共享特征,達到無監督遷移學習的目的。文獻[10]在MMD 公式的基礎上,提出多核最大均值差異(Multi Kernel-Maximum Mean Discrepancies,MK-MMD)距離,將帶標簽源域樣本和無標簽目標域樣本的特征同時映射到希爾伯特空間進行度量,產生域間分布差異損失,進而使模型選擇更多源域與目標域相似特征。文獻[11]提出一種基于域對抗學習策略的故障診斷網絡,該網絡學習通用的域不變特征,以提高模型的泛化能力。文獻[12]在域分類器中添加Wasserstein 距離,通過域對抗訓練,實現了對無標簽目標域樣本的分類。但目前研究大部分集中于源域與目標域的邊緣分布對齊,缺乏對數據間條件分布的研究,導致一些目標域樣本被錯誤分類。
為避免一些目標域樣本被錯誤分類,本文提出一種基于深度自適應遷移學習網絡(Deep Adaptive Transfer Learning Network,DATLN)的診斷模型,并將其應用到滾動軸承的故障診斷中。首先,結合多尺度卷積神經網絡(Multiscale Convolutional Neural Network,MSCNN)和雙向長短時記憶網絡(Bidirectional Long Short-Term Memory,BiLSTM)提取振動信號中多尺度和蘊含時間信息的故障特征;其次,構建域自適應模塊,引入域對抗(Domain Adversarial,DA)訓練,結合自適應聯合分布(Adaptive Joint Distribution,AJD)度量機制,動態地減少源域和目標域數據的邊緣分布和條件分布差異;最后,使用帶標簽的源域樣本和無標簽的目標域樣本訓練網絡,進而實現對無標簽目標域樣本進行分類。
假設在機械裝備中存在工況A 和工況B 2 個工況,工況A 為有標簽的源域:1,2,···,s,s為源域的樣本個數,工況B 為無標簽的目標域:,j=1,2,···,t,t為目標域的樣本個數,其中,xi,xj分別為第i個源域樣本和第j個目標域樣本,yi為第i個源域樣本的標簽,源域和目標域的特征空間及類別空間均相同。但由于數據產生機制的影響,源域Ds和目標域Dt的邊緣分布和條件分布均不同。因此,無監督遷移學習的目標就是利用帶標簽源域Ds的先驗知識建立一個模型,以實現無標簽目標域Dt的樣本分類,如圖1所示。

圖1 遷移學習Fig.1 Transfer learning
CNN 結構主要包含卷積層、池化層和全連接層[13]。卷積層通過卷積核對輸入信號進行卷積操作,并進行故障特征提取,池化層對卷積層提取的數據進行降維,全連接層負責將卷積層和池化層處理后的數據進一步擬合。
卷積層中同一層卷積核的權值相同,即

池化層采用最大值池化函數,獲得池化區域的最大值:

式中:h為卷積核寬度;ul(o,e)為第l層中第o個特征張量的第e個神經元,l=1,2,···,g,g為層的總數,o=1,2,…,q,q為特征張量總個數。
全連接層中采用Softmax 函數將全連接層獲取的特征數據映射到(0,1),并將映射結果輸出,實現故障分類。

式中:rn為輸出結果為第n類的概率;φn為全連接層第n類的輸出值;C為數據集類別個數。
故障信息屬于時序信號,而BiLSTM 網絡適用于提取時序信號的時間關聯性。關注故障信息的時間關聯性可進一步有效提高深度網絡的特征挖掘能力。BiLSTM 網絡由前向LSTM 層和反向LSTM層組成,如圖2 所示,其中Wu為輸入神經元數據,ku為輸出神經元結果,u為神經元個數。因此,可在前向和后向2 個方向上學習故障特征的時間信息,且2 個方向均具有獨立的隱藏層。

圖2 BiLSTM 網絡結構Fig.2 Structure of BiLSTM network
當滾動軸承損傷時,受振動耦合影響,故障特征呈現多尺度性[14]。由于MSCNN 網絡能自適應提取信號中的多尺度特征,從而可獲得一些重要的故障特征信息[15];而BiLSTM 網絡能從前后2 個方向學習振動信號的時間信息,使特征信息更加全面。本文結合MSCNN 網絡和BiLSTM 網絡的優勢構建MSCNN-BiLSTM 網絡,網絡結構如圖3 所示。
從圖3 可看出,MSCNN 網絡由通道1、通道2 和匯聚層組成,MSCNN 網絡通道1 選用較大卷積核,以給予卷積網絡足夠大的感受野,進而捕獲振動信號的低頻特征;MSCNN 網絡通道2 采用較小卷積核,以保持卷積網絡提取局部特征的優勢;匯聚層對通道1 和通道2 的輸出結果進行特征融合,且只做張量乘積運算,因此沒有設定超參數。對MSCNNBiLSTM 網絡參數進行反復實驗和調整,結果見表1。MSCNN 網絡采用一維卷積運算,通道1 和通道2 中的卷積核尺寸分別為15 和5。為將每層卷積輸出值大小保持在一定范圍內,對每個卷積層輸出的結果進行批量歸一化處理。此外,分別在卷積層2 和卷積層6 后面接入最大池化層,采用最大池化操作降低數據維度,并將最大池化層的核(池化窗口)尺寸和步長設置為2;為保證每個通道輸出尺寸為(128,4),分別在卷積層4 和卷積層8 后面引入自適應最大池化層。BiLSTM 網絡包含1 層結構,神經元個數為256。

表1 MSCNN-BiLSTM 網絡參數Table 1 Parameters of MSCNN-BiLSTM network

圖3 MSCNN-BiLSTM 網絡Fig.3 MSCNN-BilSTM network
基于DATLN 的滾動軸承故障診斷模型如圖4所示,DATLN 由狀態識別和域自適應2 個模塊組成。狀態識別模塊包括MSCNN-BiLSTM 特征提取網絡、瓶頸層和標簽分類器,其中瓶頸層和標簽分類器中均采用一層全連接網絡,瓶頸層神經元個數為256,標簽分類器的神經元個數為樣本標簽類別數。域自適應模塊由域分類器和AJD 度量組成,其中域分類器采用3 層全連接網絡,前2 層引入Relu 激活函數,最后1 層采用Sigmoid 函數對樣本進行域分類。域分類器參數見表2。

表2 域分類器參數Table 2 Parameters of domain classifier

圖4 滾動軸承故障診斷模型Fig.4 Model of rolling bearing fault diagnosis
DATLN 模型診斷流程如下:
(1)通過不重疊采樣對源域和目標域的故障數據進行分割,獲取固定長度的樣本,利用歸一化技術使樣本值保持在一定范圍內,完成對原始振動信號的預處理。
(2)在狀態識別模塊中,利用源域樣本進行有標簽監督訓練,通過標簽分類器識別滾動軸承的狀態;在域自適應模塊中,域分類器結合AJD 度量,動態減小源域與目標域的邊緣分布和條件分布差異,進而實現源域與目標域樣本自適應匹配的目的。
DATLN 診斷模型的損失函數L包含標簽分類損失LP、域分類損失LD及自適應聯合分布損失LJ3 個部分。

式中:θG為特征提取網絡參數;θB為瓶頸層參數;θP為標簽分類器參數;θD為域分類器參數。
2.3.1 標簽分類器損失
標簽分類器通過有監督方式對狀態識別模塊進行訓練,識別源域樣本的故障類別。采用交叉熵損失函數衡量標簽分類損失。

式中:E為源域樣本xi所屬類別;T為每類樣本的概率;GP為標簽分類器;GB為瓶頸層;GG為特征提取網絡。
2.3.2 域分類損失
域分類器用于區分樣本的所屬域,通過最大化域分類損失來約束MSCNN-BiLSTM 網絡,進而提取更多與目標域相似的特征。設源域樣本的域標簽為0,目標域樣本的域標簽為1,此時,域分類屬二分類,因此域分類損失采用二元交叉熵損失函數衡量。

式中:λ為權衡參數;LB為二元交叉熵損失函數;GD是域分類器;Di為輸入樣本的域標簽;β為當前迭代次數與總迭代次數的比。
2.3.3 自適應聯合分布損失
遷移成分分析(Transfer Component Analysis,TCA)[16]主要用于減小源域、目標域之間的邊緣分布差異。TCA 通常只關注全局分布對齊,而忽略了源域和目標域同一類別子域間的條件分布差異,從而導致遷移效果不理想。為此,本文采用聯合域適配(Joint Domain Adaptation,JDA)算法[17],引入自適應聯合分布(Adaptive Joint Distribution,AJD)損失,通過衡量域間聯合分布距離,以減小源域和目標域的邊緣分布與條件分布差異。由于目標域沒有樣本標簽,使用標簽分類器預測結果作為偽標簽,參與條件分布差異計算過程。假設進行源域、目標域特征對齊時邊緣分布(P)和條件分布(Q)的權值相同,可將域間聯合分布距離定義為

式中:f′為映射函數;Ps,Pt分別為源域、目標域的邊緣分布;Qs,Qt分別為源域、目標域的條件分布。
在現實情況中邊緣分布和條件分布的重要性是隨著迭代訓練動態變化的,所以只有動態地計算邊緣分布和條件分布在遷移過程中的各自占比,才能有效地提升遷移診斷精度。引入衡量因子α,診斷模型每次迭代訓練完成后,重新評估邊緣分布和條件分布的重要性。

邊緣分布與條件分布均采用MMD 公式計算,即

式中:v為源域與目標域分布的距離;φ為高斯核函數;H為希爾伯特空間。
為驗證MSCNN-BiLSTM 網絡抗噪性能及域自適應模塊的遷移能力,進行抗噪實驗和遷移實驗。在無域自適應模塊下,對MSCNN-BiLSTM 網絡進行抗噪性能測試,并在凱斯西儲大學(CWRU)軸承數據集上與LeNet-5,MSCNN 和BiLSTM 進行對比實驗。在Spectra Quest 機械故障實驗臺的實測數據集上,采用Baseline,TCA 和域對抗神經網絡(Domain Adversarial Neural Network,DANN)[11]3 種方法與本文DA+AJD 域自適應方法進行對比,其中Baseline 方法只采用狀態識別模塊,即運用源域訓練好的模型對無標簽目標域樣本直接進行診斷。
采用CWRU 軸承數據集在4 種不同強度的噪聲環境中做抗噪實驗。實驗裝置如圖5所示。測試臺主要由1.5 kW 電動機、功率測試計和控制設備等組成。實驗軸承型號為SKF6205,在0,0.75,1.5,2.25 kW 4 種不同負載下采集實驗軸承數據,采樣頻率為12 kHz。每種負載下均包含正常狀態及內圈、外圈、滾動體3 種故障損傷狀態,損傷直徑分別為 0.177 8,0.355 6,0.533 4 mm,共計10 種狀態。為方便表述,以0 負載下采集的數據集為例,見表3。

表3 0 負載下數據集Table 3 Date set under 0 load

圖5 CWRU 軸承數據采集系統Fig.5 CWRU bearing data acquisition system
3.1.1 數據預處理
為避免樣本之間有重疊區域,通過不重疊采樣對原始信號進行分割,如圖6 所示。每個樣本包含1 024 個點,產生的樣本數量見表4。

表4 CWRU 樣本集Table 4 CWRU sample set

圖6 不重疊采樣Fig.6 Non-overlapping sampling
采樣完成后,通過歸一化公式將每個樣本的數據映射到同一尺度。

式中:zη為 歸一化后的樣本數據;zφ為輸入的樣本數據;μ為樣本數據的平均值;σ為樣本數據的標準差。
在實際工程環境中,傳感器接收的信號通常無法避免噪聲干擾,故在原始故障數據中添加不同信噪比(Signalto Noise Ratio,SNR)的高斯白噪聲,以測試MSCNN-BiLSTM 網絡在噪聲環境下的抗噪性能,信噪比公式為

式中:XS為原始信號;Xn為噪聲信號。
加入不同強度噪聲后,為直接觀察振動信號的變化,從滾動軸承的10 種狀態里隨機選取正常狀態與內圈故障(IR07)狀態進行展示,如圖7、圖8所示。與原始信號相比,添加噪聲后,其周期性沖擊分量明顯減弱,噪聲強度隨著信噪比的降低而增強,深度網絡對軸承故障的辨識將更加困難。在加入不同強度噪聲后,其他狀態下振動信號的變化趨勢與正常狀態和內圈故障(IR07)狀態下的變化趨勢一致。

圖7 正常狀態下振動信號變化Fig.7 Vibration signal changes under the normal state

圖8 內圈故障(IR07)狀態下振動信號變化Fig.8 Vibration signal changes in the inner fault(IR07)state
3.1.2 實驗結果及分析
為驗證MSCNN-BiLSTM 網絡的優勢,將其分別與LeNet-5,MSCNN 和BiLSTM 進行比較。實驗使用Radam 優化器,學習率為0.01,迭代次數為100,批量為64,訓練集與測試集比例是4∶1。為測試本文特征提取網絡在單負載場景下對軸承故障特征的提取能力,分別在4 種不同負載下實驗。為消除偶然誤差,采用5 次實驗結果的平均值評估網絡性能,如圖9-圖12 所示。

圖9 無噪聲環境下對比實驗結果Fig.9 Comparison of experimental results in noiseless environment

圖10 10 dB 噪聲環境下對比實驗結果Fig.10 Comparison of experimental results in 10 dB environment

圖11 5 dB 噪聲環境下對比實驗結果Fig.11 Comparison of experimental results in 5 dB environment

圖12 3 dB 噪聲環境下對比實驗結果Fig.12 Comparison of experimental results in 3 dB environment
從圖9 可看出,在無噪聲環境下,MSCNN-BiLSTM網絡的識別準確率均達到99%以上,在4 種網絡中準確率最高,可見其具有較好的特征提取能力。從圖10-圖12 可看出,4 種網絡的識別準確率隨著噪聲強度的增強而降低。為綜合比較每種網絡的性能,在3,5,10 dB 噪聲下,計算每種網絡在4 種負載下識別準確率的平均值,結果見表5。
由表5 可知,在3,5,10 dB 噪聲環境下,MSCNNBiLSTM 網絡的平均識別準確率分別為98.43%,99.00%和99.16%,比LeNet-5,MSCNN 和BiLSTM的平均識別準確率均高,實驗結果證明了MSCNNBiLSTM 網絡具有較好的抗噪聲干擾性能。

表5 不同網絡的平均識別準確率Table 5 Average accuracy of different network
為了觀察迭代過程中網絡的故障診斷性能變化,隨機選取0 負載下的數據集,在無噪聲和3 dB 噪聲2 種環境下進行迭代,測試集識別結果分別如圖13和圖14 所示。可看出MSCNN-BiLSTM 網絡在無噪聲環境和3 dB 噪聲環境下,均最先達到收斂且波動較小。

圖13 無噪聲環境下0 負載測試集識別結果Fig.13 Identification results of 0 load test set in noise-free environment

圖14 3 dB 噪聲環境下0 負載測試集識別結果Fig.14 Identification results of 0 load test set in 3 dB environment
為驗證域自適應模塊的遷移能力,采用機械故障模擬臺收集軸承故障數據,并進行對比實驗。實驗臺主要由電動機轉速控制器、旋轉軸和傳感器等組成,其結構如圖15 所示。實驗軸承的型號為ER12KCL,在軸承轉速為1 400,1 800,2 200 r/min 下收集實驗數據。軸承的狀態包括正常、內圈故障、外圈故障和滾動體故障4 種。所有實驗軸承的直徑均為19.05 mm。通過電動機驅動端軸承座上的加速度傳感器,采集實驗數據,采樣頻率為12.8 kHz,采集時間為10 s。

圖15 機械故障模擬實驗臺Fig.15 Machinery fault simulator
3.2.1 數據預處理
通過不重疊采樣對原始振動信號進行分割,生成的每個樣本包含1 024 個點,正常、內圈故障、外圈故障、滾動體故障狀態各125 個樣本。采樣完成后,對每個樣本進行歸一化處理。
3.2.2 遷移實驗結果及分析
由于3 dB 噪聲環境對滾動軸承故障診斷干擾最為嚴重,故選取3 dB 噪聲環境做遷移實驗。將1 400,1 800,2 200 r/min 3 種轉速下的數據集表示為A,B,C,分別用A to B,A to C,B to A,B to C,C to A,C to B 表示3 種數據集之間的遷移。例如A to B 表示源域是轉速1 400 r/min 下得到的數據集,目標域是轉速1 800 r/min 下得到的數據集。選取80%的帶標簽源域樣本和80%的無標簽目標域樣本作為訓練集,剩余20%的無標簽目標域樣本作為測試集。實驗使用Radam 優化器,學習率為0.01,批量為64,每組實驗迭代次數為100,采用5 次實驗結果的平均值評估方法性能。遷移實驗結果如圖16 所示。
從圖16 可看出,在6 組不同遷移任務中,DA+AJD方法的識別準確率均高于其他3 種方法。

圖16 3 dB 噪聲環境下遷移結果Fig.16 Transfer results of 3 dB environment
為綜合比較4 種方法的遷移能力,取每種方法在6 組不同遷移任務下測試結果的平均值進行對比,結果見表6。

表6 每種方法的平均識別準確率Table 6 Average results of different methods
由表6 可知,DA+AJD 方法的平均識別準確率比Baseline,TCA 和DANN 方法的平均識別準確率分別高21.46%,11.98%,10.17%。
為更加直觀地對比每種方法的識別結果,隨機選取遷移任務C to B,通過混淆矩陣將目標域B 測試集結果可視化,結果如圖17 所示。可看出DA+AJD方法僅有1 個樣本被錯誤識別,而Baseline,TCA 和DANN 分別有23,14 和12 個樣本被錯誤識別,表明基于域適應的DA+AJD 方法具備更好的故障遷移診斷性能。

圖17 遷移任務C to B 的測試集混淆矩陣Fig.17 Test dataset confusion matrix of transfer task C to B
為進一步驗證DA+AJD 方法的優勢,利用t-SNE算法將4 種方法處理后的源域與目標域特征樣本進行可視化,其效果如圖18 所示。可看出在Baseline方法下,較多目標域的內圈故障和外圈故障特征樣本被錯誤對齊到源域的滾動體故障特征樣本區域;TCA 方法雖在全局域對齊方面有優勢,但未能有效減小條件分布差異,導致仍有一些目標域的內圈故障、外圈故障和滾動體故障特征樣本被錯誤對齊到源域的其他故障特征樣本區域;DANN 方法也未能有效減少源域與目標域分布差異;DA+AJD 方法只有少量目標域的滾動體故障和外圈故障特征樣本被錯誤對齊到源域的內圈故障特征樣本區域,說明DA+AJD 方法有效地減少了源域與目標域的邊緣分布和條件分布差異,達到了更好的特征樣本對齊效果。

圖18 遷移任務C to B 的t-SNE 特征可視化Fig.18 T-SNE characteristic visualization of transfer task C to B
為提高噪聲背景下深度網絡提取軸承信號特征的能力,結合MSCNN 網絡與BiLSTM 網絡的優勢構建MSCNN-BiLSTM 網絡作為特征提取網絡;為減小源域與目標域數據分布差異,設計了DA 訓練結合AJD 度量機制。
(1)抗噪實驗表明:在無噪聲環境下,MSCNNBiLSTM 網絡的識別準確率均達到99%以上,說明其具有較好的特征提取能力;MSCNN-BiLSTM,LeNet-5,MSCNN 和BiLSTM 的識別準確率隨著噪聲強度的增強而降低;在3,5,10 dB 噪聲環境下,MSCNNBiLSTM 網絡的平均識別準確率比LeNet-5,MSCNN和BiLSTM 網絡的平均識別準確率高,說明MSCNNBiLSTM 網絡具有較好的抗噪聲干擾性能;MSCNNBiLSTM 網絡在無噪聲環境和3 dB噪聲環境下,均最先達到收斂且波動較小。
(2)遷移實驗表明:在無標簽目標域數據集上,DA+AJD 方法的平均識別準確率為97.36%,均高于Baseline,TCA,DANN 的識別準確率;在測試集混淆矩陣上,DA+AJD 方法僅有1 個樣本被錯誤識別,表明基于域適應的DA+AJD 方法具備更好的故障遷移診斷性能;利用t-SNE 算法對處理后的源域與目標域特征樣本進行可視化,DA+AJD 方法只有少量目標域的滾動體故障和外圈故障特征樣本被錯誤對齊到源域的內圈故障特征樣本區域,說明DA+AJD 方法有效地減少了源域與目標域的邊緣分布和條件分布差異,達到了更好的特征樣本對齊效果。
(3)實驗中已對滾動軸承振動數據在不同工況下進行遷移實驗,但未對不同類型軸承振動數據進行可遷移性分析。下一步將在可遷移性分析的基礎上,利用實驗室獲得的數據對實際工程設備進行遷移診斷。