閆繪宇,張 超*
(1.內蒙古科技大學 機械工程學院,內蒙古 包頭 014017;2.內蒙古自治區機電系統智能診斷與控制重點實驗室,內蒙古 包頭 014010)
齒輪是機械設備系統的重要組成部分。它們在機械設備動力傳輸、運行速度控制、運行軌跡調節[1]方面發揮巨大作用。齒輪的傳動效率高、承載能力好,已被廣泛應用于各種不同的領域,如冶煉鋼鐵、風力發電、莊家收割、各種制造業、航天航空等[2]。如果對齒輪在運行過程中發生的故障沒有及時發現并采取有效的診斷措施,可能會導致機器卡死、工廠停工,以及更嚴重的人身傷亡事故[3]。因此,必須采取有效的故障診斷措施,盡早發現問題的根源,從而降低系統故障的風險,提高工作效率,最大限度地減少事故的發生。
隨著技術的發展,傳統的故障診斷方法已經無法滿足當今對復雜系統的需求,其只能從數據表象中抽取出外觀、功能、行為等表象,而無法捕捉更深層次的信息[4]。深度學習技術在近些年發展迅猛,其憑借獨特的優勢,已經被廣泛應用于各種不同的領域[5]。
萬安平等人[6]針對傳統方法提取特征過于繁瑣的問題,采用卷積神經網絡(convolutional neural network,CNN),自動對信號特征進行了提取。ZHANG Kai等人[7]提出了一種新的殘差網絡方法,其對原始信號進行了小波變換,以改善殘差網絡,并重點關注小波系數的突出特征。HU Hao等人[8]提出了一種基于深度信念網絡的齒輪故障診斷方法,借此提取了齒輪的時域信號和頻域信號,并確定了模型的最優參數,再將振動數據分為訓練集和測試集,并輸入到模型中,自動提取了振動信號的特征和識別故障。
然而,齒輪的運行環境復雜多變,有時要獲取高質量的故障樣本極為困難,導致實際的訓練數據相對匱乏,這就使得深度學習在小樣本條件下的應用存在一定的局限性。
元學習也可以使用在小樣本識別中,其可以輔助數據學習元知識,并將其遷移到目標任務中。但其如何學習知識、積累知識,還處在起步階段,尚有很大的研究空間。
目前,遷移學習(transfer learning,TL)技術的發展比較成熟。它可以將遷移在源域中的知識用在目標域的學習上[9]。其采用遷移學習方法,模型在源域利用充足的樣本進行訓練,在目標域用部分樣本微調參數,從而開始新的任務。
張根保等人[10]使用了稀疏自動編碼器,并采用柔性最大值函數回歸,以提高模型的自適應能力,還采用遷移學習方法進行了故障診斷。王琦等人[11]利用最大均值差異衡量源域和目標域的特征分布,在小樣本下,采用CNN和遷移學習方法進行了診斷故障。石靜雯等人[12]將CNN、門控循環單元、注意力機制組合在一起,避免了人工經驗的依賴,在小樣本下,采用遷移學習方法進行了診斷故障。
由于上述方法網絡模型結構簡單、特征提取能力有限,導致其故障診斷精度不高。
針對上述問題,筆者提出一種小樣本下的齒輪故障診斷方法。
首先,構建Transformer-CNN模型,將原始信號經高斯濾波平滑處理后再進行補丁序列化處理,作為模型的輸入,模型自動提取信號的時間特性和空間特性等特征信息;最后,采用基于模型參數的遷移學習方法,在小樣本下對齒輪的故障進行診斷。
傳感器采集的振動信號往往伴隨著大量的噪聲。為了減少噪聲信號的干擾,需要對原始振動信號進行預處理,使振動曲線變得更加精確、穩定[13]。
高斯濾波對信號的平滑處理效果較好,而且可以極大程度地保留信號的主要特征,并能夠抑制噪聲信號的干擾,因此筆者使用高斯濾波技術對原始數據進行預處理[14]。常見的高斯濾波方法是離散化窗口滑窗卷積。
振動信號的原始數據如圖1所示。

圖1 原始振動信號
經高斯濾波處理后的振動信號如圖2所示。

圖2 平滑處理后的振動信號
由圖2可以明顯看出:高斯濾波處理后的振動信號更加平滑。因為高斯濾波去除了部分干擾數據,使得數據利用率更高,提高了齒輪故障診斷的精度。
Transformer由注意力機制構成,并根據編碼器和解碼器控制數據的輸入和輸出。Transformer已經在自然語言處理和圖像處理等領域得到了應用。Transformer模型因有特殊的網絡結構,可以對樣本進行并行化計算,提高了模型的計算效率。
Transformer編碼器層的基礎結構如圖3所示。

圖3 Transformer編碼器層的基礎結構
Transformer編碼器從輸入序列中提取數據的特征信息。Transformer編碼器層可以分為兩個部分:
1)多頭自注意力機制(multi-head self-attention,MSA),其將同一個輸入序列經過線性映射得到key、value和query,Transformer編碼器層的輸出作為下一個Transformer編碼器層的輸入,因此模型中的每一個位置的特征輸出向量都能夠關注到前一個編碼器層輸出序列的位置信息;
2)全連接前饋網絡(fully-connected feed-forward network,FFN),其公式表示如下:
FFN(x)=max(0,xW1+b1)W2+b2
(1)
式中:W1,W2和b1,b2為FFN中訓練的權重和偏置參數。
在FFN前后加入層歸一化(layer normalization,LN)[15]。LN的作用是對中間層全部的神經元進行歸一化操作,具體計算表達如下:
(2)
(3)
(4)

同時,LN能夠減少訓練時間,提高模型的運算速度。為了便于進行殘差連接,Transformer編碼器中所有子層的輸出維度都是維度dmodel。
齒輪的振動數據大多由加速度傳感器采集得到,其采集的數據大多是一維的,而Transformer編碼器識別序列數據效果更好。因此,需要將一維數據處理成特殊的補丁序列[16]。一維的振動信號x=[x1,x2,…,xM]∈RM,可以被處理成大小始終不變的補丁序列,x可以是長度為M的時域信號或者頻譜數據。

筆者采用可學習的線性映射生成補丁線性嵌入z∈RN×dmodel,其向量維度為dmodel,計算表達式如下[17-18]:
z=xpE
(5)
式中:E為線性投影,E∈RL×dmodel。
為了使補丁序列保持其嚴格的順序,需要在補丁嵌入序列中插入位置信息。Transformer模型的位置編碼公式如下:
PE(pos,2i)=sin(pos/10 0002i/dmodel)
(6)
PE(pos,2i+1)=cos(pos/10 0002i/dmodel)
(7)
式中:pos為位置信息;i為維度。
補丁嵌入序列z得到位置信息后,就可以作為Transformer的輸入。位置嵌入能融合序列中的所有位置信息和嵌入信息,并將嵌入信息傳遞給后面的序列。
Transformer-CNN模型中的Transformer編碼器,是兩個結構相同的Transformer編碼器層堆棧而成,其中,第i個Transformer編碼器層的計算過程可表示下:
(8)
(9)
式中:zi為第i個編碼器層輸出,zi∈RN×dmodel;zi為通道數為N的多通道數據。
CNN擁有良好的特征提取能力,同時也能直接處理序列數據,所以用CNN處理富含故障特征信息的Transformer編碼器輸出序列。為了防止網絡退化,在卷積之前加入一個殘差塊,殘差塊結構如圖4所示。

圖4 殘差塊
殘差學習定義為:
y=F(x,{Wi})+x
(10)
式中:x為輸入;y為輸出;F為將要學習的殘差映射;Wi為參數。
CNN的層數很重要,如果網絡層數過多,易發生過擬合現象,由于計算量增大,延長了計算時間;如果網絡層數較少,則易發生欠擬合現象。因此需選擇不同數量的卷積層和池化層對模型進行實驗,實驗數據為東南大學齒輪箱數據集,測試集樣本數為每種故障各100個樣本。
實驗結果如表1所示。

表1 不同數量的卷積層和池化層的實驗結果
很明顯,3個卷積層和3個池化層準確率最高,達到了99.4%。因此,CNN選擇3個卷積層和3個池化層。其中,第3個池化層選擇自適應最大池化,它可以統一輸出數據的維度。
筆者在全連接層對數據進行碾平處理,并采用SoftMax對故障模式進行分類。
Transformer-CNN網絡模型的具體細節信息如表2所示。

表2 Transformer-CNN模型參數
模型的整體架構如圖5所示。

圖5 Transformer-CNN模型的遷移學習過程
筆者提出的基于Transformer-CNN和遷移學習故障診斷方法的具體步驟如下:
1)將一維的振動信號采用高斯濾波進行預處理,并根據實驗要求劃分源域和目標域數據集;
2)將目標域數據集劃分出測試樣本和用來微調模型參數的訓練樣本;
3)根據Transformer和CNN搭建Transformer-CNN模型;
4)采用基于模型參數的遷移學習方法,先在源域對Transformer-CNN模型進行充分的預訓練,凍結參數,
并遷移到目標域中,并對模型參數進行微調,最后用目標域數據驗證模型性能。
筆者根據基于模型參數的遷移學習方法,提出4種遷移實驗方案,以驗證Transformer-CNN模型在小樣本下齒輪故障診斷的效果。
3.1.1 東南大學齒輪箱數據集
為了驗證Transformer-CNN模型的有效性,筆者使用東南大學(Southeast University,SEU)的齒輪箱數據集和實驗室采集的齒輪數據集進行實驗驗證。
東南大學齒輪箱數據集是用傳動系統動力學模擬器(drivetrain dynamic simulator,DDS)采集到的齒輪振動信號。該傳動系統動力學模擬器主要包括電機、電機控制器、行星齒輪箱、平行齒輪箱、制動器和制動控制器。該試驗平臺模擬了工業齒輪箱的運行狀態,齒輪箱中的軸承和齒輪兩大關鍵部件的多種類型故障由加速度傳感器采集。齒輪的故障狀態包括幾類,即正常、缺損、斷齒、齒根裂紋和齒面磨損。
東南大學傳動系統模擬設備實物圖如圖6所示。

圖6 東南大學傳動系統模擬設備實物圖
東南大學齒輪箱數據集時域圖如圖7所示。

圖7 SEU齒輪箱數據集時域圖
3.1.2 實驗室采集的齒輪數據集
實驗分兩種工況,轉速-負載配置分別為20 Hz-0 V和30 Hz-2 V。
實驗室使用DDS實驗平臺采集齒輪的振動數據,主要包括電機中的電機控制器、齒輪箱、制動器和制動控制器。加速度傳感器安裝在二級行星齒輪箱上用于測量振動信號。
實驗分兩種工況,轉速-負載配置分別為15 Hz-2.4 V和10 Hz-1.2 V。齒輪的故障狀態包括正常、缺損、斷齒、齒根裂紋和齒面磨損。
實驗室設備實物圖如圖8所示。

圖8 實驗室設備實物圖
實驗室采集的齒輪數據集振動信號時域圖如圖9所示。

圖9 實驗室采集的齒輪數據集振動信號時域圖
為了控制Transformer-CNN模型的輸入大小相同,訓練集和測試集振動信號都取2 048個數據點。每段信號均由不完全重疊的滑動窗口獲得。模型的補丁尺寸L設為20,維度設為200。
用源域預訓練模型時,選用Adam優化器,學習速率設置為0.000 1,訓練epoch數為200,批量大小為600。目標域測試模型時,依然采用學習速率為0.000 1的Adam優化器,訓練epoch數減少到50,批量大小減少到100。
筆者設計4組遷移實驗(每組實驗運行10次以避免偶然性),具體如下:


模型在源域進行充分的預訓練,源域中含有健康、斷齒、缺齒、齒根裂紋、齒面磨損各2 000個樣本。
目標域為5種狀態的齒輪,對其隨機選取200個樣本,其中100個樣本劃分到訓練集微調模型參數,100個樣本劃分到測試集,以檢驗模型的性能。
4組遷移實驗的各10次結果如圖10所示。

圖10 4組實驗結果

從圖10中可以看到:第1組實驗的最低準確率為99%,第2組和第3組實驗的最低準確率為99.2%,第4組實驗的最低準確率為99.4%,4組實驗的最高準確率都達到過100%。
為了進一步分析所提出的基于Transformer-CNN的遷移學習齒輪故障診斷方法在不同類型上的故障識別情況,筆者采用混淆矩陣對4組遷移學習中測試準確率最低的一次實驗結果進行了展示,如圖11所示。

圖11 混淆矩陣結果
4組遷移學習的10次實驗的平均準確率如圖12所示。

圖12 4組實驗的平均準確率
由圖12可知:最低的平均準確率為99.56%,可見4組遷移實驗的準確率都相對較高。
由此可見,筆者提出的基于Transformer-CNN的遷移學習齒輪故障診斷方法,可以在不同工況下準確地診斷齒輪的故障。
為了進一步驗證該方法的可靠性,筆者將該文的網絡模型與不帶Transformer模型的卷積神經網絡(convolutional neural networks with transfer learning,TCNN)、多尺度卷積神經網絡(multi-scale convolutional neural networks,MSCNN)和二維卷積神經網絡(two dimensional convolutional neural network,2D-CNN)方法以為源域、為目標域分別進行10次實驗,并進行對比,結果如表3所示。

表3 實驗結果對比
不帶Transformer的模型結構較為簡單,用CNN只能提取信號的部分特征信息,提取故障特征的能力相對較弱;Transformer模型具有更加復雜的網絡結構,提取故障特征的能力相對較強,所以Transformer-CNN模型的準確率更高。
從實驗數據上來看,該方法相較于其他結構的遷移學習模型準確率更高,故障診斷效果更出色。
針對采集的齒輪樣本數據不夠的問題,筆者提出了一種基于Transformer-CNN的遷移學習齒輪故障診斷方法。
首先,筆者采用高斯濾波對原始振動信號進行了預處理,以降低噪聲信號的干擾;再將振動信號處理成帶有位置信息的補丁序列,作為Transformer的輸入信號,然后將含有故障特征信息的Transformer輸出序列,輸入到CNN中,繼續提取特征信息;接著將實驗室采集的齒輪數據集和東南大學齒輪箱數據集劃分為源域和目標域,采用源域數據預訓練模型,選擇每種類型的齒輪各100個樣本為目標域,以測試模型的準確率;最后進行了4組10次重復實驗。
研究結果表明:
1)以SEU齒輪箱數據集為源域的故障診斷準確率均在90%以上,最高可達100%;以實驗室采集的齒輪數據集為源域的故障診斷準確率均在92%以上,最高可達100%,說明基于Transformer-CNN的遷移學習方法能在小樣本下高精度地診斷齒輪的故障;
2)模型的平均準確率在99%以上,而只含有CNN的其他模型的準確率未達到99%,說明基于Transformer-CNN方法的準確率更高,具有一定的優越性。
筆者選取了每種齒輪狀態的100個樣本,實際采取的樣本數量不一定都是均衡的,也不一定會采集到那么多的數據。后續筆者將對不均衡樣本的齒輪故障診斷進行研究,同時繼續降低樣本數量進行齒輪故障診斷研究。