朱 琰,黃 敏,王小靜,鄭成東
(1.上海大學 機電工程與自動化學院,上海 200444;2.上海船舶設備研究所,上海 200031)
結構越來越精密、系統越來越復雜的現代旋轉機械設備在使得生產力飛速提升的同時也使得設備發生故障的概率增加,對其維修性的需求也進一步增加。雖然不可能做到完全杜絕機械故障的發生,但是可以對旋轉機械設備的運行狀態進行監測和利用先進的智能故障診斷技術對機械系統進行故障預警與故障診斷[1]。傳統的智能故障診斷方法依賴于人工進行特征提取,難以保證被提取的特征具有識別機械故障的最佳信息。在過去的十年中,深度學習技術已經成為一個快速增長的研究方向,其最先進的性能在許多應用中得到了體現。許多神經網絡,如SAE(堆疊自動編碼器)[2]、DBN(深度信念網絡)[3]、CNN(卷積神經網絡)[4]和RNN(遞歸神經網絡)[5]已經被開發出來處理高非線性和強相關性的工業數據。因此,基于深度學習的故障診斷由于其自動提取故障特征的優勢也得到了廣泛的應用。盡管深度學習相對于傳統機器學習在故障診斷方面有著巨大的優勢,但訓練集和測試集之間總是存在分布分歧,這將導致深度網絡的診斷性能顯著下降。為了應對這個問題,有必要通過減少兩個數據集的分布差異來實現知識轉移。近年來,基于深度遷移學習的算法體現出良好的性能,它可以利用來自預先存在的任務(源域)的知識來促進模型訓練和在不可見的機器診斷問題(目標域)中進行診斷。如Lu等[6]提出了一種基于DNN(Deep Neural Network)和無監督遷移學習的軸承故障診斷方法,無監督遷移學習即假設源域數據標簽可以獲得但目標域數據的標簽不可獲得或者目標域故障數據標簽不可獲得。利用DNN提取數據特征,源域數據特征與目標域數據特征間的分布差異通過最大均值差異(Maximum Mean Discrepancy,MMD)度量,最后利用SVM(Support Vector Machine)進行分類。Li 等[7]提出一個兩階段的基于CNN與生成對抗網絡(Generative Adversarial Network,GAN)的診斷方法,即第一階段利用源域數據訓練生成器用以生成盡可能逼真的特征,第二階段利用目標域正常數據以及源域數據訓練判別器用以分辨數據來自于哪一個領域,并利用美國凱斯西儲大學軸承數據集進行了工況之間的遷移試驗驗證。Han等[8]提出一個基于一維CNN的無監督診斷框架,主要用于目標域數據標簽不可獲得的應用場景。該診斷框架不僅利用MMD適配了源域數據與目標域數據間的邊緣概率分布,還適配了每個類別的條件概率分布。該文在公開的滾動軸承數據集上進行了不同工況之間的遷移試驗驗證。
然而,他們只考慮了兩個領域的邊緣概率分布,沒有對兩個領域的條件概率分布進行綜合考慮;并且存在單純的一維時序信號空間特征不明顯、提取一維信號特征困難等問題。文中提出了一個新的深度卷積遷移學習框架(Deep Convolution Transfer Learning Network,DCTLN)來解決上述問題。首先提出改進型聯合分布適配方法,綜合考慮了兩個領域的特征空間概率分布與標簽空間概率分布,適配了源域與目標域的聯合概率分布,使之適應更加普遍的情況。其次將從原始信號中以等分截取的方式獲得的振動數據轉換為灰度二維振動圖像作為該框架的輸入,利用多隱藏層的卷積神經網絡(CNN)作為提取可遷移特征的主干。其中在提出的改進型聯合分布差異方法中利用標記源樣本和未標記目標樣本訓練分類器,能夠很好地泛化目標領域的測試數據。最終通過滑動軸承-轉子的兩個診斷案例驗證了所提方法的有效性。特別是在所模擬的這些遷移任務中,既有不同工況間的遷移,也有不同機器間的遷移。對比研究表明,該方法可以在不需要標記目標數據的情況下具有較高的診斷能力。
CNN作為深度學習的重要分支之一,以其出色的特征捕獲能力[9]而在模式識別領域具有突出的優勢。一個基本的CNN包括輸入層、卷積層、池化層、全連接層和輸出層。它的本質是構造多個過濾器來對輸入進行一層一層的卷積和池化,并提取他們的特性。其獨特的網絡結構可以有效地減少訓練參數的數量,從而降低網絡的復雜性。卷積層由多個卷積核濾波器組成。運用內核過濾器與輸入層的子節點進行卷積,然后輸出結果。池化層也由卷積核濾波器組成,通常設置在卷積層之后。池化層核濾波器的計算不是神經元節點的加權和,而是最大或平均運算,池化層的功能是執行二次特征提取。全連接層是模型的一個分類模塊。它可以將通過卷積層和池化層提取的分布式特征映射到目標空間,即從高維空間轉換到低維空間。全連接層基于Softmax激活映射功能實現數據的多分類。
遷移學習是指將從一個或多個領域(源域)學到的知識遷移到其他相似但不相同的領域(目標域)[10]。領域由數據以及對應的數據概率分布構成。目標域由要解決問題時所直接依賴的數據及其概率分布構成,而源域可以是任何擁有大量標注數據且與目標域相似的領域。在故障診斷領域,同類零部件的數據,比如機器A上的兩個不同的滾動軸承、機器A與機器B上的滾動軸承等,都可看作是相似的領域,彼此之間可以進行知識遷移。在目標域中,當難以獲取大量的故障數據去訓練網絡時,遷移學習可以使得我們能夠借助于其他工況或者類似的機器上的數據(可以看作源域),結合目標域中訓練集有限的數據樣本,來幫助訓練網絡模型,從而在目標域的測試集上獲得令人滿意的效果。具體而言,遷移學習可以使得深層網絡提取不隨領域變化的特征,并且將從源域數據中提取的特征用來訓練特征分類器,實現對目標域數據的準確分類。
在遷移學習中,領域自適應(Domain Adaption)是最常用、最熱門的遷移方法之一,其思想大致為:給定一個有著ns個標記樣本的源域和一個有nt個無標記樣本的目標域代表特征空間,Y={yi}ni=1是對應的標簽空間,在遷移學習中,假定兩個領域的邊緣概率分布P(X)和條件概率分布Q(Y|X)彼此不相同,即P(Xs)≠P(Xt)、P(Ys|Xs)≠P(Yt|Xt),而領域自適應的目的就是把源域和目標域的概率分布對齊,從而實現利用源域標記數據訓練出來的分類器可以準確預測出目標域數據樣本的標簽。
而在領域自適應中,常用最大均值差異(Maximum Mean Discrepancy,MMD)[11]度量兩個領域間相似度的距離。MMD 具有效果好、無額外參數的特點,用來度量兩個數據分布在一個叫作再生核希爾伯特空間的高維空間中的距離:

其中:kφ(·)代表核函數。
上述MMD 是基于單一核變換的,性能通常達不到最佳。而多核的MMD(Multiple-kernel MMD,MK-MMD)[11]由多個核線性組合得到,通常可以取得比單核MMD更好的效果。
本文提出了1種基于深度遷移學習的新型網絡診斷框架—標準化的卷積遷移學習網絡(Deep Convolution Transfer Learning Network,DCTLN),其結構示意如圖1所示。整個框架由輸入部分、數據預處理部分、特征提取器(CNN)、分類器、遷移學習模塊(IM-JDD)等構成,能夠更加方便地實現端到端診斷且適合在線診斷,具有無監督遷移學習功能。

圖1 DCTLN結構示意圖
首先,由于CNN 本身擅長圖像數據處理,網絡的輸入為將原始振動時域信號經過預處理后所得的二維振動圖像,大大提升了特征提取的效率,同時大大降低了在信號處理方面要求。診斷框架中特征提取器(Feature Extractor)的主體結構為CNN,主要用于高維輸入數據自動提取特征,得到較低維度的主要特征,然后送入分類器進行分類,同時也送入IMJDD用來衡量源域與目標域的數據分布差異。特征提取器部分如表1所示,主要由3 層卷積層、池化層和2 層全連接網絡組成,且每一層網絡的輸出都會經過批量標準化層(Batch Normalization,BN)進行處理,然后再輸入到下一層網絡,這在一定程度上解決了內部協變量偏移問題,降低了梯度發散的幾率。

表1 卷積神經網絡結構參數
由特征提取器所提取的目標域、源域數據樣本的特征,一方面被送入分類器進行分類,得到特征的標簽概率分布,并通過計算預測標簽與真實標簽的差異來求得數據樣本的分類損失;另一方面,被送入IM-JDD中去度量源域與目標域的分布差異。最后,用以反向傳播更新網絡參數的總的損失項由分類損失與遷移損失(目標域與源域的分布差異)兩部分組成。
與傳統的一維振動信號時域分析和頻域分析相比,二維振動圖像可以很好地揭示故障信息和非平穩信號的時變特性。因此,由每一個短信號轉換成的灰度像素圖像包含了更為豐富的軸承健康狀態信息[12]。通過MATLAB轉換振動圖像,如圖2所示:首先對軸承幾種狀態的原始振動信號進行等分截取,如為了得到n×n像素大小的圖像,就要在原始信號中從第一個信號開始截取n2的信號長度,后面的信號每段都截取相同長度,將信號序列最后剩余的數據去除。然后將截取的每個n2的信號長度轉換得到二維振動圖像,轉換的公式表示為:

圖2 振動數據轉換成振動圖像的過程圖

在式(2)中:j=1,2,3…,N;k=1,2,3,…,N,L(i)中的i=1,2,3,…,N2,函數round( )是舍入函數,將整個像素值從0歸一化成255,即灰度像素的像素強度。
一般而言,常用的MMD 方法只考慮了兩個領域的邊緣概率分布,也就是特征的概率分布,沒有對兩個領域的條件概率分布,即標簽空間的概率分布進行綜合考慮。Long 等[10]提出的聯合分布差異(Joint Distribution Discrepancy,JDD)方法綜合考慮了兩個領域的特征空間概率分布與標簽空間概率分布,適配了源域與目標域的聯合概率分布。這時兩個領域的分布差異可以被估計為:

其中:Ds、Dt分別代表源域與目標域,ns、nt分別為源域、目標域中樣本數量,kφ、kφ表示不同的核函數,xs、xt表示網絡自動提取的樣本特征,、為網絡所預測的樣本標簽概率分布,經過Softmax層處理。
由于遷移學習方法JDD主要應用在圖像識別方面,且應用場景為無監督遷移學習,即假定目標域中樣本標簽不可獲取或者樣本沒有被標記,缺乏真實的標簽,所以式(2)中的源域與目標域的標簽y均以網絡分類器所預測的偽標簽y^ 來代替,且將偽標簽均輸入到Softmax輸出層處理,為原始的標簽概率分布。為了能讓這種遷移方法在故障診斷領域有著更好的效果,對JDD 方法進行改進,得到改進型JDD(Improved JDD,IM-JDD)方法,即將式(2)中的源域預測標簽改為真實標簽,而目標域標簽仍為網絡預測的偽標簽的概率分布:

其中:ys為源域數據樣本的真實標簽,而為網絡所預測目標域中數據樣本的標簽概率空間。
當將DCTLN用于無監督遷移時,特征提取器被用以提取數據樣本的特征,所提取的特征一方面送入源域分類器中計算分類損失,另一方面要用來計算兩個領域之間的數據分布差異。由于目標域中的數據樣本沒有標簽,所以圖1中的用于目標域數據分類的分類器是不工作的,只有源域數據的特征才會送入源域分類器,并計算源域數據的分類損失,加入到總的訓練損失里面。IM-JDD 中計算的是聯合分布差異,所以不僅需要兩個領域中數據樣本的特征,還需要對應數據樣本的標簽。送入IM-JDD 中的標簽分為兩部分:一部分為源域數據的真實標簽概率分布,另一部分為目標域數據的預測標簽概率分布。無監督遷移時,整個框架的目標函數為:

其中:μ、λ分布為分類損失與概率分布差異的懲罰系數,為超參數。D(Ds,Dt)為源域與目標域中樣本概率分布差異,即遷移損失。Θ是網絡可訓練參數的集合,包括各網絡層的權重矩陣W、偏置b。Lc為交叉熵分類損失:

其中:ns為源域樣本,y為源域數據樣本的真實標簽,為對應樣本的分類器預測的標簽。預測標簽y^ 由如下過程得到:

其中:C為總的類別數,其數值等于分類器中神經元數目。W為權重,f2表示第二層全連接網絡層的輸出,即特征提取器的輸出,b為偏置項。式(7)的主要作用為將分類器的全連接網絡層的輸出轉換成樣本屬于每一類的概率。
(1)診斷實驗1:雙軸滑動軸承-轉子振動實驗
該實驗平臺主要由直流電機、聯軸節、轉軸、配重圓盤、軸承座、底座、壓板等結構組成,如圖3所示。實驗時通過改變轉速、引入故障的程度來模擬不同工況的故障數據。模擬不同工況時,通過改變調速器輸出電壓來改變轉速,采集轉速分別為1 500 r/min、1 800 r/min、2 500 r/min、2 800 r/min、3 500 r/min、3 800 r/min 時的振動信號。試驗中模擬的故障類型有不平衡、不對中以及復合故障,通過在圓盤上添加配重螺釘模擬不平衡故障[13],用在軸承座下添加墊片方式模擬不對中故障[14],2種故障同時存在時模擬復合故障。為了清晰起見,使用軸在承轉速為1 800 r/min、2 500 r/min和3 800 r/min時的數據來構建遷移學習任務,分別用A、B和C表示,如表2所示。與大多數現有的公共數據集相比,本次實驗的轉速差更大。據此,設計了6 個不同工況間轉移任務。不同轉速下的不平衡振動信號時域圖如圖5所示。

圖3 雙軸滑動軸承-轉子振動實驗臺

圖5 不同轉速下的不平衡振動信號時域圖
(2)診斷實驗2:單軸滑動軸承-轉子振動實驗
相對比的單軸實驗臺如圖4所示。該實驗平臺相較實驗臺1是單軸結構,多了水箱、控制箱。試驗設置同實驗1,不同的是不對中故障通過改變電機底座螺紋擰的深度模擬。本實驗中使用軸承轉速為2 000 r/min和3 000 r/min時的數據構建遷移學習任務,分別用D 和E 表示,如表2所示。4 種軸承健康狀態的二維振動信號圖像如圖6所示。

圖4 單軸滑動軸承-轉子振動實驗臺

表2 遷移任務中所用數據集的主要信息

圖6 4種軸承健康狀態的二維振動信號圖像
為了驗證框架中遷移方法IM-JDD 的效果,在不同的數據集上執行不同類型的遷移任務,即實現工況之間的遷移和機器間的遷移。不同方法所用網絡模型與圖1所示一致,即均為CNN 網絡。除了所提出的IM-JDD方法以外,作為對比,還引入了其他兩種方法:(1)CNN(沒有實施遷移學習);(2)CNN+MK-MMD(在CNN網絡中實施了多核MMD遷移學習方法)。對于每次遷移任務,對網絡模型迭代訓練300次。使用Adam優化器來加速網絡的收斂過程,學習率設為0.001。式(5)所示目標函數中分類損失的懲罰因子μ取為1,領域分布差異的懲罰因子λ在訓練過程中的取值由如下過程確定:

其中:p為當前訓練的進度,其值在0~1之間變化。比如,總共訓練網絡300 次,當前已經迭代訓練了150次,那么p取為0.5。λ的取值從0到1逐漸增加,這樣使得領域分布差異在總的損失中所占的比重在逐漸增加,網絡訓練會比較平穩,波動會減少。
基于不同診斷方法的在不同遷移任務中的推斷結果如表3所示。對于每一項遷移任務,箭頭前的字母表示源域,箭頭指向的字母代表目標域。診斷結果為訓練后的模型在目標域測試集上的推理準確率。

表3 不同診斷方法在各項遷移任務中的推理準確率/(%)
在無監督遷移學習中,對于遷移任務A→B,A代表源域,包含大量有標簽數據樣本,B 為目標域,訓練集中的數據樣本都是沒有標簽的,但通常假設測試集標簽可以獲得,以方便對模型性能進行評估。對于第一種診斷方法CNN,由于沒有使用遷移學習,網絡模型只能利用源域中訓練集的有標記數據進行訓練,然后在目標域測試集上進行測試。對于第1、第2種診斷方法,由于分布使用了MK-MMD與IM-JDD 遷移學習方法,使得在訓練CNN 網絡時還可以利用目標域訓練集中的無標簽數據。
根據表3中的數據,可以發現:
(1)第1種診斷方法(使用深度學習但不使用遷移學習)在各項遷移任務中的推理準確率均遠遠低于另外兩種基于遷移學習的診斷方法,這說明在訓練集與測試集的數據分布差異比較大時,非常有必要利用遷移學習來提升深度學習網絡模型的診斷準確率;
(2)基于IM-JDD 的深度遷移學習診斷方法在各項遷移任務中的表現均優于基于MK-MMD的深度遷移學習診斷方法,最多時可以提升準確率接近5個百分點,平均診斷準確率超過了91%;此外展示了遷移任務D→E 的推理準確率隨著模型訓練次數增加的變化情況,如圖7所示。可以看到,IM-JDD曲線在此遷移任務中比MK-MMD 曲線更加穩定、波動幅度更小,同時收斂更快。

圖7 遷移任務D→E的推理準確率
(3)對于兩個領域,遷移的方向不同,最終的遷移效果也不同,比如任務A→B 與任務B→A,以及任務A→C 與任務C→A,尤其跨機器遷移的任務B→E 與任務E→B,這兩個任務所涉及的領域相同,但遷移的方向相反,最終的推理準確率相差了接近10%甚至18%,這說明遷移的方向也是影響遷移效果的重要因素;
(4)由較復雜的數據領域遷移至較為簡單的數據領域的難度要小于由較簡單的數據領域遷移至較為復雜的數據領域。A中的數據相較于B和C中的數據,D中的數據相較于E中的數據來說,其低轉速工況下的信號成分因為故障程度較低,相對于高轉速工況簡單,所以由低速工況做源域的遷移難度較大。
圖8給出了在遷移任務B→E中,基于只用CNN以及用遷移學習MK-MMD 與IM-JDD 的網絡模型中的特征提取器所提取特征的t-SNE可視化圖。圖中圓點代表源域數據,加號代表目標域數據,不同的顏色代表不同的類別。圖例中的大寫字母代表類別,小寫字母代表源域或者目標域。例如,imbalance-s表示源域中的不平衡故障,imbalance-t代表目標域中的不平衡故障。
從圖8中可以看出兩種遷移方法在類與類之間基本都能正確地區分。但是對于幾種故障類型,基于IM-JDD 方法能夠增加類與類之間的距離,讓各個類別的輪廓更加清晰,如圖8(c)中每個類所集中區域相隔較遠;同時所提取的源域與目標域特征要更集中一些,即類內距更小,如圖中normal 和compound類的樣本更加緊湊,這樣有利于分類器進行正確分類。

圖8 遷移任務B→E可視化結果
本文提出了一個新的深度卷積遷移學習框架DCTLN。采用二維振動圖像作為輸入,提出的遷移方法IM-JDD 明顯縮小了目標域數據與源域數據的分布差異。該框架實現了無標記滑動軸承-轉子系統的狀態的準確識別。經實驗驗證得到以下結論:
(1)在遷移學習方法JDD 的基礎上進行改進得到IM-JDD 以適應輸入數據類型的變化,實現了故障診斷領域中源域與目標域的聯合概率適配。在滑動軸承-轉子系統上進行了無監督場景下的故障診斷試驗,結果表明在所有診斷任務上IM-JDD 均優于其他遷移學習方法。
(2)將振動時域信號轉化為二維灰度圖像用于直接診斷,避免了預處理導致的信息丟失問題,減少信息處理的繁瑣步驟和時間,大大提升效率。
(3)基于IM-JDD 的DCTLN 框架對于滑動軸承-轉子系統不同工況和不同機器間的無標記樣本具有有效的分布對準能力和判別能力,能更好地應對實際應用場景。