秦喜文, 郭 宇, 郭佳靜, 董小剛,馮陽洋, 王強進
(1.長春工業(yè)大學 數學與統計學院, 吉林 長春 130012;2.長春工業(yè)大學 汽車工程研究院, 吉林 長春 130012)
滾動軸承故障診斷過程主要包括故障特征提取和分類,其本質是模式識別的過程[1]。機械設備一旦發(fā)生故障,不但會消耗大量的維修時間和維修費用,而且會給企業(yè)帶來巨大的經濟損失[2]。因此滾動軸承的狀態(tài)監(jiān)測和故障診斷都有非常重要的研究意義。
滾動軸承故障振動信號多數為非平穩(wěn)信號,所以在故障診斷中必須運用可以處理非平穩(wěn)信號的特征提取方法。時頻分析是一種處理非平穩(wěn)信號的有力方法,在對滾動軸承信號處理方面具有廣泛應用[3-4]。常見的時頻分析有Wigner-Ville分布、短時傅里葉變換(Gabor變換)、希爾伯特黃變換(Hilbert-Huang Transform, HHT)。這些方法都有各自的缺點和不足。如Wigner-Ville分布中具有交叉干擾項存在,短時傅里葉變換窗函數的時頻分辨率不能達到最優(yōu),HHT在處理復雜信號時體現出了長時間的計算缺點[5]。為了解決傳統時頻分析法的不足,黃鍔等[6]提出了一種較新的時頻分析方法,稱為經驗模態(tài)分解(Empirical Mode Decomposition, EMD)方法。但EMD方法存在局限性,算法本身存在模態(tài)混疊與端點效應,對噪聲敏感以及依賴于插值方法的選擇等問題。局部均值分解(Local Mean Decomposition, LMD)方法是由學者Smith[7]提出的一種處理非平穩(wěn)信號的自適應時頻分析方法,LMD在某些方面的性能要優(yōu)于EMD方法,例如在抑制模態(tài)混疊、端點效應、避免過包絡、欠包絡、迭代次數等方面。LMD方法自適應的將一個復雜的高頻信號分解成若干個瞬時頻率的具有物理意義的乘積函數PF(Product Function)分量之和。每一個PF分量是由一個純調頻信號和一個包絡信號直接求出,其中,包絡信號是PF分量的瞬時幅值,而純調頻信號可以求出PF分量的瞬時頻率,將全部PF的瞬時頻率和瞬時幅值組合便可以得到原始信號完整的時頻分布,對此進行更精準有效的處理原始信號特征信息。
文中運用LMD方法對軸承信號進行分解,并從包含有主要故障信息的模態(tài)分量中提取特征值作為故障特征向量,然后運用隨機森林(RF)對軸承信號進行分類,進而得出此方法的有效性。實驗證明,文中提出的LMD與RF相結合的故障診斷方法具有較高的準確率。
LMD方法的原理是從原始信號中分離出不同的包絡信號和純調頻信號組合,將包絡信號和純調頻信號相乘就可以得到一個具有物理意義瞬時頻率的PF分量,迭代處理到原始信號的全部PF分量被分離出來,就能得出原始信號的時頻分布情況。對于原始信號x(t),分解過程如下[8]:
1)從原始信號中提取出所有的局部極值點ni,對求出的相鄰局部極值點求均值:
(1)
將所有相鄰兩個平均值點mi用直線連接起來,得到局部均值線段,然后采用滑動平均法進行平滑處理,可得到局部均值函數m11(t)。
2)利用局部均值點,求出兩相鄰極值點之間的包絡估計值
(2)
將全部相鄰兩個包絡估計值ai用直線連接,然后采用滑動平均方法進行平滑處理,得到包絡估計函數a11(t)。
3)將局部均值函數m11(t)從原信號x(t)中分離出來,得出
h11(t)=x(t)-m11(t)
(3)
4)用h11(t)除以包絡估計函數a11(t)以對h11(t)進行解調,得出
(4)
計算s11(t)的包絡估計函數a12(t),假如a12(t)不等于1,說明s11(t)不是一個純調頻信號,需要重復上述迭代過程,使得s1n(t)成為一個純調頻信號為止,即-1≤S1n(t)≤1,且其包絡函數a1(n+1)(t)=1,所以有
(5)
式中
(6)
迭代終止的條件為
(7)
迭代分解過程在實際應用中是無法實現的,為了獲得較為理想的純調頻信號,有一個較為合理的迭代終止條件,可以用
a1n(t)≈1
(8)
5)在迭代過程中產生的全部包絡估計函數相乘,便可以得到包絡信號
(9)
6)將純調頻信號s1n(t)和包絡信號a1(t)相乘,便可以得到原信號的PF分量,即
PF1(t)=a1(t)s1n(t)
(10)
7)將第一個分量PF1(t)從原始信號x(t)中分離出來,求解出一個新的信號u1(t),將u1(t)作為原始數據重復以上步驟,循環(huán)k次直到uk為一個單調函數為止。
(11)
所有的PF分量和uk重組,可以求出原始信號,即
(12)
說明LMD分解沒有造成原信號的丟失。
在LMD分解之后,對各PF分量進行特征值提取,需要提取的特征值有均值、標準差、極差、變異系數、波動指數、能量熵和信息熵。其中,均值、標準差和極差將不詳述[9]。
1.2.1 變異系數
對軸承故障信號進行分析時,常用特征有平均值、方差、標準差和變異系數等,其中變異系數可以衡量軸承信號的幅度大小變化,是衡量滾動軸承信號中變異程度的一種統計量。
其定義為:
(13)
其中
式中:l----PF分量的長度。
1.2.2 波動指數
波動指數可以衡量信號變化的強度。滾動軸承故障狀態(tài)下信號的波動通常會比滾動軸承正常狀態(tài)下信號的波動劇烈。
定義有:
(14)
式中:l----PF分量的長度。
1.2.3 能量熵
為了便于特征提取,選擇能量熵來表征不同類別PF分量特征的差別。根據信息論中能量熵的定義,固有模態(tài)函數ci(t)的能量可采用下式計算:
(15)
式中:t1,t2----分別為信號起始時間和信號結束時間。
其定義為:
(16)
式中:Pi----第i個PF分量的能量占整個信號能量的比例,Pi=Ei/E,其中E為整個軸承故障信號的能量。
1.2.4 信息熵
信息中排除了冗余后的平均信息量稱為“信息熵”,軸承故障狀態(tài)下信號的波動通常會比軸承正常狀態(tài)下信號的信息熵值低。
其定義為:
(17)
式中:x----隨機變量。
1.3.1 隨機森林
隨機森林(Random Forest, RF)是近年來一種比較新的機器學習模型[10]。機器學習模型中比較經典的是神經網絡,但神經網絡模型計算量非常大。20世紀80年代,Breiman等[10]發(fā)明分類樹的算法,在2001年,Breiman[11]把分類樹組合成隨機森林,其實質是采用多棵分類樹對樣本進行訓練并預測的一種新型分類方法。
隨機森林{h(x,θk),k=1,2,…}是一個由樹形分類器組合而成的集合,集合中的元分類器h(x,θk)是利用CART算法構造的沒有剪枝的分類決策樹。式中x為輸入向量,{θk}為獨立同分布的隨機向量,由此決定了單棵樹的生長過程;森林的輸出采用簡單多數投票方法,或者是單棵樹輸出結果的簡單平均值得到,具體方法[12]如下:
1)用Bagging方法生成若干個別訓練集,即每一個個別訓練集都是出自原訓練集的n個樣品中,并且有放回地抽取其中n個樣品;
2)對于每一個個別訓練集,用如下方法生成一棵不剪枝的分類回歸樹;
假設一共有M個原始屬性,給出一個正整數mtry,且滿足mtry≤M。在每一個內部節(jié)點,從M個原始屬性中隨機抽取mtry個屬性作為該分裂節(jié)點的候選屬性。在整個森林的生成過程中,mtry不變;選出一個最優(yōu)的分類方式在mtry個候選屬性之中對此節(jié)點進行分類;令每棵樹充分成長,不再進行剪枝;
3)重復上述步驟,直到生成ntree棵分類回歸樹,并且ntree足夠大;
4)進行分類時,如果遇見未知的樣本類別,輸出的類別名稱可以由森林中樹的多數投票決定,即:
(18)
隨機森林在Bagging的基礎上采用了隨機選擇屬性的方法,有效降低了樹與樹之間存在的相關性,同時建立的單棵不剪枝分類回歸樹能夠得到較低的誤差,從而確保了隨機森林的分類準確性。
1.3.2 支持向量機
支持向量機(Support Vector Machine, SVM)于1995年正式發(fā)表,是數據挖掘中的一項新技術[12],它是一種有堅實理論基礎的新穎小樣本學習方法,具有一定的魯棒性,并且增刪非支持向量機樣本對模型沒有任何影響。
支持向量機是根據給定的訓練
T={(x1,y1),…,(xl,yl)}∈(X×Y)l
(19)
其中,xi∈X=Rn,X為輸入空間,輸入空間中的每一個xi有n個屬性特征組成,yi∈Y={-1,1},i=1,2,…,l。尋找Rn上的實值函數g(x),以便用分類函數
f(x)=sgn(g(x))
(20)
推導出任意一個模式x對應y的值的問題為分類問題[13]。支持向量機的關鍵在于核函數選擇,文中選擇高斯核函數。
文中數據來源于美國凱斯西儲大學(Case Westen Reserve University)軸承資料,數據是基于一個馬達電機、一個轉矩傳感器、一個功率計及電子控制設備的實驗平臺獲取。文中針對軸承在轉速為1 797 r/min的情況下進行采集,采樣頻率為12 kHz,對軸承出現的內圈故障狀態(tài)、外圈故障狀態(tài)、滾動體故障狀態(tài)以及正常狀態(tài)情況下進行分析,每種狀態(tài)下采集24個長度為5 000的小樣本,采集長度是從初始點到120 000。每個狀態(tài)下第一次采集的樣本原始序列如圖1所示。

圖1 四種狀態(tài)部分樣本集時序圖
由于樣本數據集較大,文中選擇其中一個樣本集展示LMD分解過程。選擇滾動體故障中的第一個小樣本,用LMD對樣本序列進行分解。該樣本的LMD分解結果如圖2所示。


圖2 內圈故障樣本經LMD分解結果
分解后每一類故障狀態(tài)都有不同的PF分量。對得到的216個分量按照1.2中的方法計算其對應的均值、標準差、極值、變異系數、波動指數、信息熵和能量熵,得到一個維數為216×7的特征向量。
從計算得到的216×7特征向量矩陣中隨機抽取156個特征向量作為訓練集,剩余的60個特征向量作為測試集。將訓練集矩陣輸入到RF中,得到一個模型。再將測試集矩陣輸入到該模型中進行分類。
RF分類結果見表1。

表1 測試集隨機森林分類結果
其中行數據為真實故障類型,前四列數據為預測類型,最后一列是誤判率,總的誤判率為1.67%。重復上述方法,將訓練集矩陣輸入到SVM中,得到另一分類結果,SVM分類結果見表2(SVM分類的總的誤判率為13.33%)。

表2 測試集支持向量機分類結果
從表1和表2中可以發(fā)現,針對同一組數據集RF和SVM分類故障狀態(tài)效果相差很大。其中RF分類將1個外圈故障誤判為正常狀態(tài),而其余狀態(tài)全部判斷正確;SVM分類將1個正常狀態(tài)誤判為外圈故障,2個內圈故障誤判為滾動體故障,2個外圈故障誤判為內圈故障,3個滾動體故障誤判為外圈故障。
對測試樣本的錯誤分類個數和正確率做了總體統計,將表1與表2進行整理得到表3。

表3 測試集分類結果匯總
從表3可以更清晰地看到,RF分類的準確率在各種狀態(tài)下都高于SVM分類。
通過以上分析對比,RF分類的精度更高,文中所提出的故障診斷方法能夠有效識別出滾動軸承的工作狀態(tài)和故障類型。
基于滾動軸承的狀態(tài)監(jiān)測和故障診斷的現實需要,提出了局部均值分解與隨機森林相結合的故障診斷方法。針對實驗數據,對滾動軸承信號進行LMD分解,將分解后的PF分量提取均值、標準差、極差等特征值,構造成特征向量,用以隨機森林和支持向量機分類。上述實驗過程得出結論:文中提出的LMD與隨機森林結合的方法具有相對較高的識別精度,可以有效識別出滾動軸承工作狀態(tài)及故障類型。