王 冉,石如玉,胡升涵,魯文波,胡 雄
(1.上海海事大學 物流工程學院,上海 201306;2.北京海基嘉盛科技有限公司 上海分公司,上海 201100)
滾動軸承作為機械系統的重要零件,廣泛應用于風機、發動機等設備[1]。據統計,旋轉機械的故障中由于軸承損壞導致的故障約占30%。因此,對滾動軸承進行及時的故障診斷至關重要。
目前滾動軸承的故障診斷主要是基于振動信號的測量和分析。振動信號由振動傳感器采集后,對其通過一系列信號處理方法[2-4]進行故障特征提取。最后采用機器學習方法對提取的特征進行分類[5]。由于實際應用中振動信號的測量通常需要以接觸的方式進行。在某些惡劣的測試環境情況下,很難在機器表面安裝加速度計等振動傳感器。因此,發展基于非接觸式測量的故障診斷方法是非常必要的。
聲信號是設備振動在空氣中傳播產生的,同樣包含了豐富的機器健康狀態信息,且可以通過非接觸式傳聲器獲取。目前聲學故障診斷(acoustics-based diagnosis,ABD)已經得到了一定的應用。Ao等[6]利用麥克風采集列車軸承聲學信號進行列車軸承路旁故障診斷。Li等[7]采用聲學和振動信號數據融合的方法進行齒輪箱故障診斷。然而,上述方法中,聲信號是由單個或少數幾個傳聲器測量,然后采用和振動信號處理相似的方法進行處理。單個測點的聲信號容易受到反射波、散射波和其他聲源輻射噪聲的干擾和污染,抗干擾能力差。同時,上述方法對測點位置敏感,難以對機器的缺陷部件進行定位,只能用于簡單設備的初步異常判斷。
隨著聲成像技術和低成本MEMS傳聲器陣列技術的發展,一些研究者嘗試將近場聲全息(near-field acoustic holography,NAH)和遠場波束形成等聲學成像技術應用于機械故障診斷。魯文波等[8]提出一種基于近場聲全息和灰度共生矩陣(gray-level co-occurrence matrix,GLCM)的齒輪箱故障診斷方法。Wang等[9]提出一種基于聲像圖和Gabor小波變換(Gabor wavelet transform,GWT)的軸承故障診斷方法。這些方法中的特征是人為設計提取的,提取這些特征需要大量的先驗知識。
深度學習方法可以自動學習并處理大規模數據,已被引入到機械智能故障診斷中。Yao等[10]提出了一種基于聲信號和卷積神經網絡的齒輪故障診斷方法。Kumar等[11]提出了一種改進的深度卷積神經網絡模型,將聲信號進行小波變換得到的聲像圖來識別離心泵的缺陷。上述的基于深度學習的故障診斷方法均沒有提供模型決策結果的可解釋性說明,缺乏工程上的物理解釋。深度學習的可解釋性探討在圖像領域研究較為豐富。文獻[12]通過類激活圖(class activation map,CAM)使得卷積神經網絡有了定位能力。在CAM基礎上,文獻[13]提出了使用范圍更廣的梯度加權類激活圖(gradient-weighted class activation map,Grad-CAM)方法對模型學習的重點關注區域進行可視化。目前基于深度學習的機械故障診斷方法雖然已經取得了較高的識別精度,但對智能故障診斷決策結果的可解釋性說明研究較少。張俊鵬等[14]對卷積神經網絡在軸承故障診斷中的可解釋性進行了探究,為卷積神經網絡在故障診斷領域的工程應用提供參考。
針對上述故障診斷方法中存在的不足,本文提出一種基于聲成像與卷積神經網絡的滾動軸承聲學故障診斷方法。首先使用波疊加法將傳聲器陣列獲取滾動軸承輻射聲場進行聲成像,然后將聲像輸入卷積神經網絡進行故障分類。為了對模型分類結果進行可解釋性說明,本文采用基于梯度加權的類激活圖[15]突出聲像圖中的重要區域,尋找模型重點關注區域與目標類別之間的聯系,為模型的學習結果提供可解釋性說明。
波疊加法(wave superposition method,WSM)可以精確地重建任意形狀聲源的聲輻射,且復雜度低、易于實現。基于波疊加法的聲場重建示意圖如圖1所示。將具有邊界S的任意形狀振動體浸入密度為ρ、聲速為c的無界均勻流體介質中,聲源面S的外部區域表示為E。假定等效的簡單輻射源(單極子)連續分布在聲源面S內部的虛擬面SV上。任意場點P和虛擬源Q的位置矢量分別表示為r和ro。O表示坐標系的原點。由傳聲器陣列構成的測量面H和重建面R均平行于x-y平面。

圖1 基于波疊加法的聲場重建示意圖Fig.1 Schematic diagram of sound field reconstruction based on wave superposition method
根據波疊加法[16]理論,任意形狀聲源的聲場可以用分布在虛擬表面SV上的一系列虛擬聲源等效地代替。因此,外部區域E的聲壓可以寫成
(1)
式中:ω為角頻率;q(r0)為聲源強度;G為自由空間格林函數,其定義為
(2)
在實際應用中,為了簡單起見,等效聲源通常均勻分布在規則的虛擬曲面SV上,將SV離散為M個元素,并且假設每個元素的聲源強度q(r0)為常數,k=ω/c是波數。如果傳聲器陣列中的測量點數量為N,測量點的聲壓PH可以用矩陣形式表示為
PH=iωρGHVq
(3)
式中:PH=[p(r1),p(r2),…,p(rN)]T;q為等效源強;GHV為等效聲源強度與測量點聲壓相關聯的傳遞矩陣,其元素可根據式(2)計算。給定測量聲壓PH,可以通過將相應的矩陣GHV取廣義逆矩陣來計算q。
(4)

最后,重構面R上各場點的聲壓PR可重構為
PR=iωρGRVq
(5)
式中,GRV為重建點與虛源點的聲場傳遞矩陣,可通過將重建點的位置代入式(2)求出。隨后,重建面的重構聲壓可以表示為二維聲像。
本文所提方法流程圖如圖2所示,整體上可以劃分為離線訓練和故障診斷兩個階段。具體步驟如下:①聲信號獲取,采用傳聲器陣列獲取滾動軸承在不同運行狀態下的聲信號;②使用波疊加法對采集的聲信號進行聲成像,選擇外圈故障頻率、內圈故障頻率、滾動體故障頻率作為重建頻率;③將通過波疊加法獲取的軸承不同狀態下的聲像圖劃分為訓練集和測試集兩部分,訓練集用來訓練卷積神經網絡模型;④使用訓練好的卷積神經網絡對測試集聲像圖進行故障診斷。

圖2 基于聲成像和卷積神經網絡的滾動軸承聲學故障診斷方法流程圖Fig.2 Flow chart of acoustic fault diagnosis method of rolling bearing based on acoustic imaging and convolutional neural network
在完成模型訓練之后,為了驗證模型分類結果的可信度,本文采用梯度加權的類激活圖算法對模型重點關注區域與目標類別之間的聯系進行可視化,將聲像圖中對網絡決策結果的貢獻程度以類激活圖的形式進行展示。基于WSM的聲成像技術已在第1章進行了介紹,接下來分別對基于CNN模型的聲像故障診斷過程及基于Grad-CAM的特征可視化方法進行介紹。
本文方法中使用的卷積神經網絡借鑒了常用的LeNet-5模型,并在其基礎上做了如下兩點改進:①在每個卷積層后面都先進行批歸一化處理再使用激活函數,有利于加快模型的訓練速度,提高模型的泛化能力;②使用全局平均池化層(global average pool,GAP)代替全連接層,減少模型的參數量,有助于減小網絡訓練的時間,且使網絡不易出現過擬合。改進后的卷積神經網絡結構示意圖如圖3所示,包括卷積層、池化層、全局平均池化層三類。
(1)卷積層。卷積層是卷積神經網絡的核心構建塊。本方法中,模型的輸入是不同運行狀態下軸承的二維空間聲像,輸出特征計算如式(6)所示
(6)

(2)池化層。卷積層之后利用池化層來對特征圖進行降維處理,本文采用最大池化,計算公式為
(7)

(3)全局平均池化層。全局平均池化是對最后一層池化后的特征圖進行全局求平均值。網絡輸出的標簽是不同類型的軸承故障聲像圖各自對應的標簽。
各層神經網絡的詳細參數如表1所示。

表1 卷積神經網絡的詳細參數Tab.1 The detailed parameters of convolutional neural network
基于梯度加權類激活圖的特征可視化方法可以對神經網絡的分類結果作出合理的解釋。該方法結合神經網絡輸出的特征圖來計算類激活圖,如圖3所示,建立特征與目標類別相關的二維分數網格。每個網格所對應的分數都代表該位置對分類結果的重要程度,分數越高的地方代表模型越加關注該區域。其計算過程如下:

圖3 卷積神經網絡結構及基于Grad-CAM的特征可視化過程Fig.3 Structure of the proposed convolutional neural network and feature visulization process using Grad-CAM
(1)獲得訓練后的CNN模型對應任意類別c的類激活圖。第k個特征圖對應類別c的權重為
(8)

(2)求得所有特征圖對應目標類別的權重后,將權重與對應的特征圖進行加權求和。并且將Relu函數應用于特征圖的線性組合
(9)
為了驗證所提方法的有效性,在上海交通大學機械系統與振動國家重點實驗室的半消聲室中進行了滾動軸承故障診斷試驗。試驗裝置如圖4所示。試驗臺由一臺機組、試驗軸承、傳聲器陣列、三個參考傳聲器(標號1、2、3)和數據采集系統組成。傳聲器陣列由12個具有均勻5 cm間距的傳聲器組成。測量面高出軸承試驗臺上表面5 cm。測量面與試驗軸承之間的距離約為10 cm。采用線型傳聲器陣列在測量面上逐步掃描的方法進行聲信號的采集。線陣搭載在一臺異步電機上進行自動掃描,異步電機掃描步距為5 cm,步數為18步,最終獲得一個85 cm×55 cm的測量網格。

圖4 試驗平臺Fig.4 Experiment platform
試驗軸承的類型是GB6203型滾動軸承,其結構參數如表2所示。本文研究了三種典型的軸承故障類型,包括外圈故障(outer race fault,ORF)、內圈故障(inner race fault,IRF)和滾動體故障(rolling ball fault,RBF)。為了模擬不同的故障嚴重程度,采用電火花加工技術對軸承內圈、外圈、滾動體的局部點蝕缺陷進行了處理。對于ORF和IRF有S、M、L三種不同的損傷尺寸,分別為3.5 mm×0.5 mm×0.5 mm,3.5 mm×1.0 mm×0.5 mm,3.5 mm×1.5 mm×0.5 mm。RBF損傷尺寸為3.5 mm×0.5 mm×0.5 mm。綜上所述,本文主要研究了8種故障類型,包括7種故障類型和一種正常狀態(normal condition,NC)。圖5展示了內圈、外圈兩種故障下的試驗軸承。

表2 GB6203滾動軸承參數Tab.2 Parameters of GB6203 rolling bearing

圖5 試驗軸承Fig.5 Experimental bearings
數據采集系統記錄了8種故障類型下滾動軸承的聲信號。數據采樣頻率為4 096 Hz。對于每種故障類型,在5種不同的載荷下收集聲信號,共獲得40個記錄。每個載荷下每種故障類型有45個樣本,每個樣本的數據長度為16 384個點。
將數據集中的每一個樣本,利用波疊加法通過聲場重建獲得不同運行狀態軸承的聲像樣本。選擇軸承試驗臺上表面距離測量面5 cm處作為重建面,將重建面劃分為18×12個重建點的矩形網格。18×12個虛擬單極子作為等效源均勻地排列在在重建面下方0.05 m處的虛擬平面上。
試驗中,軸的旋轉頻率fr約為12 Hz。ORF、IRF和RBF的故障特征頻率分別為fo=36.6 Hz,fb=47.8 Hz,fi=59.4 Hz。由于機械系統的聲信號是由振動引起的,因此,在聲學成像中選擇這三個故障特征頻率作為WSM中的重建頻率。圖5展示了不同軸承故障類型下三個故障特征頻率重建的部分聲像圖。
在圖6中,為了更直觀地展示聲源定位結果,從俯視圖來看,將重建的聲像圖與軸承試驗臺示意圖(白線)重疊,其中顏色的深淺代表了聲壓級的高低,顏色越淺代表聲壓級越高,反之顏色越深代表聲壓級越低。可以看出,聲像圖中的熱點幾乎都在(0.275 m,0.125 m)位置,與試驗軸承的位置一致。此外,坐標(0.275 m,0.225 m)周圍的聲壓級也很高。這主要是因為輻射的聲波和反射的聲波在這個區域是重疊的。這些重建的聲像圖可以幫助定位和識別主要的噪聲源,直觀地反映輻射聲場的空間分布。

圖6 在不同軸承故障類型下以三個特征頻率重建的聲像圖Fig.6 Acoustic image reconstructed with three characteristic frequencies under different bearing fault types
在訓練階段,整個數據集有1 800個樣本共包含8種故障類型。從中隨機抽取1 500個樣本作為訓練集,同時保證每種故障類型的樣本數量相同。剩下的300個樣本作為測試集。選取交叉熵作為損失函數,Adam算法作為優化器。其學習率為3×10-4,epoch的總數設置為400,批量大小為150個,為了防止過擬合,這里在每層卷積后添加dropout,并設置其值為0.3。
在測試階段,為了避免偶然誤差,我們選取了10次試驗結果的分類精度如表3所示。可以看出所提出的方法在10次試驗中均取得了良好的診斷效果。最大準確度為99.33%,最低準確度為98.33%,平均準確度為99 %。

表3 卷積神經網絡模型的10次試驗測試集精度Tab.3 The accuracy of the 10 experiments test set of the improved convolutional neural network model
為了詳細顯示每種故障類型的診斷結果,取10次隨機試驗中某一次試驗結果進行展示,測試集精度的混淆矩陣如圖7所示。可以看出,除了故障類型2(IRF-S)和故障類型4(IRF-M)中有少量樣本分類錯誤之外,其他測試樣本均取得100%的分類精度,說明模型具有較高的分類精度。

圖7 試驗1分類結果的混淆矩陣Fig.7 Confusion matrix of the classification results of the first experiment
為了進一步驗證基于聲成像與卷積神經網絡的軸承故障診斷方法的抗干擾能力,在滾動軸承聲場重建得到的聲像圖中加入一定的隨機噪聲,然后對加噪后的聲像圖進行故障診斷。當SNR=10 dB時,滾動軸承4種狀態下在36.6 Hz處的重建聲像如圖8所示。
從圖8中可以看出,受隨機噪聲的影響,軸承聲像局部像素點處的聲壓級大小發生了變化,導致聲像的紋理細節產生了無規則的變化,但是聲像整體反映的聲場空間分布特征基本保持不變,仍然可以從中挖掘出軸承不同狀態下的聲場分布規律。

圖8 SNR=10 dB時滾動軸承不同狀態下的聲像Fig.8 Acoustic images with SNR=10 dB of bearings in different operating conditions
對加噪后的聲像圖進行故障診斷,同樣的,為了避免偶然誤差,選取10次試驗結果的分類精度如表4所示。可以看出所提出的方法在10次試驗中均取得了良好的診斷效果。診斷準確率最大為95.66%,最低為92.98%,平均準確率為94.13 %。上述結果說明基于聲像的故障診斷方法具有較強的魯棒性。

表4 SNR=10 dB時10次試驗測試集精度Tab.4 The accuracy of the 10 experiments test set of the SNR=10 dB
為了驗證所提方法相比現有的基于聲像特征提取的聲學故障診斷方法的優越性,這里與以下兩種常用的方法進行分類精度對比。在利用波疊加法將聲信號獲取聲像圖之后,方法1從重建的聲像圖中提取基于灰度共生矩陣的4個方向(0°,45°,90°和135°)的紋理特征;方法2從重建的聲像圖中采用Gabor小波變換提取特征。最后都使用支持向量機對兩種方法所提取特征進行分類。為了方便,下文記兩種方法為WSM+GLCM+SVM和WSM+GWT+SVM。
兩種方法的分類結果如圖9所示。根據對比可知,本文所提出的方法平均診斷準確率(99.13%)高于WSM + GWT + SVM和WSM + GLCM + SVM。且能消除人工特征提取的不便。同時WSM + GWT + SVM方法的分類精度要遠遠高于WSM + GLCM + SVM方法,這意味著聲像的GLCM特征對于軸承故障診斷來說是無效的,而通過GWT獲得的Gabor特征更有效。以上比較表明,盡管基于聲成像和聲像特征提取的方法可以克服測量位置選擇的困難并實現聲源識別,但是它們的診斷結果仍然嚴重依賴于選擇的聲像特征提取方法。

圖9 基于兩種聲像特征提取的ABD方法的分類精度Fig.9 Classification accuracy of ABD method based on two types of acoustic image feature extraction
上述試驗結果及對比分析驗證了本文所設計的CNN模型能夠自適應地從不同狀態的軸承聲像中學習到不同故障的特征,進而辨別不同的故障類型,具有較高的診斷精度。然而,和目前常用的基于深度學習的故障診斷方法一樣,CNN模型類似一個“黑盒子”,分類結果缺乏可解釋性。本文通過Grad-CAM算法,對用于軸承聲像故障診斷中CNN模型的分類結果進行可解釋性分析。圖10顯示了不同軸承故障類型的聲像圖經過Grad-CAM算法后獲得的類激活圖。類激活圖使用漸變的色調顯示,顏色越深代表模型在此處的激活程度越大,也就是說該區域對最終分類的影響越大。與圖6表示的聲像圖不同,類激活圖中的熱點表現的是模型對聲像樣本的關注度。圖中白線是軸承試驗臺的俯視圖。

圖10 軸承不同故障和正常狀態聲像圖的類激活圖Fig.10 Class activation diagrams of different fault and normal state sound images of bearings
從圖10中可以看出,類激活圖顏色較深的部分都在坐標(0.275 m,0.125 m)附近,也就是在試驗臺上軸承位置附近,說明對模型分類結果貢獻最大的部分來自軸承。對于3種不同類型的故障以及正常狀態下的軸承聲像圖,聲像樣本訓練得到的CNN診斷模型對輸入樣本激活程度較大的部分均集中在聲源附近,該部分的信息對于網絡的分類結果具有較高的權重,說明網絡識別該類別重點關注區域在聲源附近。上述結果和實際情況一致,在本試驗中,主要聲源位置即軸承附近的聲場分布中含有較多的故障特征信息,表明訓練得到的CNN模型關注到了聲源附近的聲場分布。此外,如圖10(d)所示,正常狀態下的類激活圖中權重分布較為分散,這也和實際中軸承正常狀態下聲場能量分布較為分散的情況一致。綜合上述分析結果可以得出結論:本方法的分類結果具有較高的可信度。
本文針對現有的軸承聲學故障診斷方法的不足,提出了一種基于聲成像與卷積神經網絡的滾動軸承聲學故障診斷方法,并對其可解釋性進行了探討分析。主要結論如下:
(1)基于波疊加法的聲成像方法有利于充分利用聲場的空間分布信息進行軸承故障診斷,且能夠對聲源進行定位。
(2)聲像圖與卷積神經網絡的結合可以有效地解決人工特征提取困難、需要大量先驗知識的問題,并且與其他兩種基于聲學故障診斷的常用方法進行對比時,具有較高的分類精度。
(3)對卷積神經網絡分類結果進行了可解釋性分析,驗證了模型分類結果的可信度。
綜上,本文提出了一種基于聲成像與卷積神經網絡的非接觸式智能診斷方法,并初步驗證了該方法分類結果的可解釋性。該方法不僅可以用于文中的滾動軸承故障診斷,未來還能推廣應用到其他類型的機械設備中,并且和降噪等信號處理方法結合用于更復雜的應用場景。該方法有望在振動測量受限的場合作為振動診斷技術的一種替代或有益補充。