王 浩,劉勝蘭,劉 晨
(中國艦船研究院,北京 100192)
齒輪箱的構件主要包含軸承、齒輪、轉軸等,它是機械裝置中應用最廣泛的傳動設備。
在軸承和齒輪的運行過程中,其承受的力均為周期性的沖擊,往往容易造成點蝕或局部缺陷,長期運行會造成齒輪箱構件的疲勞失效,因此,其故障率往往很高[1-3]。齒輪箱軸承或齒輪一旦失效,會導致整個傳動系統癱瘓。雖然很多企業已經安裝了齒輪箱在線狀態監測系統,但目前在用的狀態監測系統中的報警閾值均是根據齒輪箱構件損傷的極限狀態設置的,監測準確率不高;而且從故障預警到分析確定故障源需要花費大量時間,對振動信號進行處理和分析。
因此,通過構造齒輪箱各運行狀態的從屬概率模型,從而快速地識別齒輪箱齒輪和軸承構件的故障,可以提升齒輪箱的故障診斷效率。
近年來,國內外學者基于齒輪箱的振動機理,開展了大量針對齒輪箱故障診斷的研究,這些技術已在齒輪箱故障診斷領域被廣泛應用。例如,通過包絡解調分析技術提取軸承故障特征[4]。但隨著軸承故障診斷研究的深入,人們發現,包絡分析的難點在于確定信號解調頻帶,大多時候采取反復試湊的方式,這在實際應用中非常不方便。因此,后來出現了信號分解技術與包絡分析相結合的軸承故障分析方法。例如:蔡艷平等[5]結合經驗模態分解和包絡分析,提取了滾動軸承內圈缺陷故障特征,進行了軸承的故障分析。岳應娟[6]提出了結合變分模態分解和包絡分析的軸承故障特征提取方法。潘海洋[7]提出了結合系數帶寬模態分解與包絡分析的軸承故障特征提取方法。
隨著齒輪箱使用場合的復雜化,及其在工業領域重要性的不斷提升,對齒輪箱故障診斷提出了更高的要求。傳統基于振動信號分析的齒輪箱機械故障診斷方法,需要花費大量的時間進行信號處理,無法快速、有效地分析得出診斷齒輪箱中存在的故障,增加了設備停機時間或帶病運行的時間。
針對上述問題,秦波等[8]通過Hilbert變換,提取了滾動軸承信號的特征值,利用支持向量機實現了對滾動軸承各類故障的分類。WIDODO A等[9]提出了基于相關支持向量機的多分類方法,實現了對低速狀態下運行的軸承的故障識別。
在聚類算法分析方面,王書濤等[10]提出了基于威布爾和模糊C均值聚類的故障識別方法。姜萬錄等[11]結合變分模態分解和核模糊C均值聚類,實現了對軸承故障的識別。張淑清等[12]基于RQA參數和GG聚類方法,實現了對軸承故障的識別。
在預測模型和神經網絡模型的故障識別算法方面,張元強等[13]結合變分模態分解和Volterra預測模型,實現了對軸承的故障識別。PATIL A B等[14]利用離散小波變換,得到了振動信號的特征參數,并通過構件前饋BP神經網絡實現了對軸承故障的分類。
同樣,很多學者利用模式識別和機器學習算法進行了齒輪故障的快速識別。陳法法等[15]通過局部切空間排列算法,對構建的特征集進行了降維,利用多核支持向量機訓練降維特征,實現了對齒輪箱故障的識別,但該方法對齒輪的某些故障的識別準確率依然不高。鄧世杰等[16]采用鄰域自適應增量式PCA-LPP流行學習算法,在對齒輪箱振動信號特征進行降維處理后,進行了故障識別。
綜上可以看出,在齒輪箱故障的自動識別技術研究當中,識別準確率有待進一步提高,以便于齒輪箱故障自動識別方法的推廣應用。
本文結合K-means算法和高斯混合模型聚類,針對齒輪箱最常見的軸承和齒輪故障,提出基于模型的故障識別方法,并通過與模糊c均值聚類方法的比較,以驗證本文提出的方法故障識別率更高,對齒輪箱故障識別有實際意義。
經驗模態分解是一種能將信號按低頻到高頻進行分解的方法。相比短時傅里葉變換及小波變換,經驗模態分解無須人工選擇基函數,可以根據信號特點產生基函數,分解信號時域和頻域精度高,能夠很好地展現信號的局部特征。
首先,筆者將信號分解為一系列表征信號特征時間尺度的固有模態函數。原始信號可由若干個IMF分量和一項殘差構成[17],即:
(1)
式中:ci(t)—固有模式分量,主要包含信號的局部信息,m/s2;Rn(t)—信號殘余分量,m/s2。
經驗模態分解得到的各個分量能夠表征信號的局部信息,可利用相關分析法選取IMF分量,從而實現信號特征的提取。
兩個序列相關系數的計算公式如下:
(2)
式中:cov(x,y)—x,y的協方差;D(x)—x的方差;D(y)—y的方差。
ρxy值越接近1,x,y的相關性越大;ρxy越接近0,x,y相關性越小。IMF分量和原始信號的相關系數反映了IMF分量包含原始信號局部特征的信息量,該系數越大,表明IMF分量包含的原始信號局部特征信息越全面。
K-means聚類是一種經典的無監督學習算法,通過迭代將數據劃分到各個區域,使得數據點到各區域中心的距離之和最小。
K-means的目標函數及優化如下[18]:
(3)
迭代優化中,聚類中心μk和指示矩陣rnk,這是一個NP問題,直接進行優化太難,需要迭代優化這兩個變量,從而得到一個最優解。具體的迭代步驟如下:
(1)固定聚類中心μk,優化指示矩陣rnk:若第n個樣本距離第k個中心最近,則賦值rnk=1;否則,rnk=0;
(2)固定指示矩陣rnk,優化聚類中心μk,由式(3)對中心μk求導可得:
(4)
令式(4)等于0,可以得到聚類中心μk:
(5)
通過迭代,最終達到最小化距離總和的目標,如下式所示:
(6)
經過上述迭代,最終可得到k個區域的類中心。
高斯混合模型是基于高斯函數的一種聚類方法,它是一種軟聚類。此處首先對數據類別和數據的分布進行假設[19]:
zi~Multinomial(φ)
(7)
p(x(i)|z(i))~N(μj,∑j)
(8)
式(7,8)分別是類別數和樣本數據的假設分布類型—多項式分布和高斯分布。由式(7,8)可以得到x和z的聯合分布函數:
p(x(i),z(i))=p(x(i)|z(i))*p(z(i))
(9)
根據似然函數可得到假設分布的3個參數:
(10)
式中:φ—包含隱含變量z服從的概率分布;μ—混合高斯分布的均值;∑—混合高斯分布的協方差。
筆者通過最大期望算法EM實現了參數估計,通過對式(10)進行拉格朗日替換和對3個參數求偏導,得到了3個參數的迭代式。具體的算法流程如下[20]:
(1)對于每一個i,j,重復下列運算,直到收斂:
(11)

(2)參數更新:
(12)
(13)
(14)
根據貝葉斯公式可以得到:
p(z(i)=j|x(i);φ,μ,∑)=
(15)
(3)不斷地迭代步驟(1,2),更新3個參數,直到|P(X|φ)-P′(X|φ)|<ε,即前后兩次迭代得到的結果變化小于設定誤差,則終止迭代。
筆者設置齒輪箱正常、軸承內外圈磨損、齒輪磨損、缺齒、斷齒等情況下的實驗,實驗臺如圖1所示。

圖1 齒輪箱實驗臺
圖1中,實驗臺所用傳感器為JM411加速度傳感器,數據采集設備是美國NI公司生產的NI9234采集卡。采集齒輪箱振動信號,由振動信號的均方根值構成全局特征參數,由最佳IMF分量的均方根值作為信號的局部特征參數,共同構成振動數據樣本的特征集。
齒輪箱正常狀態、齒輪斷齒故障、齒輪磨損故障、缺齒故障、軸承內圈磨損故障、軸承外圈磨損故障等狀態下,振動信號的原始波形如圖2所示。

圖2 原始振動加速度信號波形圖
由圖2中的振動信號波形形態可以看出:軸承和齒輪在正常、各類故障狀態下,振動信號波形均有差異,但需要將定性分析轉變為定量的特征。
IMF分量的均方根值能夠反映信號的局部特征,其計算公式如下:
(16)
式中:xi—信號序列,m/s2;N—信號點數。
在齒輪箱各狀態下,根據各IMF分量與原始數據的相關分析結果,筆者從振動信號中選取相對最佳IMF分量,最佳分量的波形如圖3所示。

圖3 齒輪箱各狀態下最佳IMF分量
由圖3可以看出:除齒輪磨損信號外,軸承和齒輪正常、各類故障狀態下,最佳IMF分量信波形中的沖擊信號更加明顯;經驗模態分解獲取的最佳IMF分量一定程度上能夠去除原始信號中的冗余信息和干擾信號。
考慮到經驗模態分解會造成信號的全局特征信息丟失,要通過計算原始信號的均方根值表征信號的全局特征。因此,此處整個特征集由局部特征和全局特征構成。
齒輪箱正常、故障等6種狀態下的實驗中,電機轉速為1 500 r/min,6種狀態下振動信號的IMF分量均方根值和原始信號均方根值各50組,構成樣本特征集。筆者通過K-means聚類算法對上述構造的特征集進行評判,為后續建立故障識別模型奠定基礎。
3.2.1 K-means聚類分析
筆者利用K-means算法,通過不斷遍歷指定分類范圍內不同類別數K值下,分類結果中樣本點到各自聚類中心距離的平方誤差,從而確定樣本數據類別數。
誤差的計算公式如下:
(17)
當分類數等于總樣本數時,平方誤差等于0,因此可以得出,平方誤差值隨著K值的增加單調遞減,不斷接近于0;當K值接近于數據最佳類別數的地方時,平方誤差SSE會出現一個拐點,平方誤差的變化趨于緩慢,此時的K值即為最佳類別數。
不同K值下,距離誤差總合SSE的變化趨勢如圖4所示。

圖4 不同K值下K-means聚類結果
圖4中,隨著K值的增加,平方誤差SSE逐漸變小,并逐漸收斂于0。
不同K值下,平方誤差SSE及其差值如表1所示。

表1 不同K值下k-means聚類誤差
由表1可以看出:當K=6時,K=5與K=6的平方誤差SSE的差值降為0.1;K>6時,平方誤差SSE開始緩慢變化,可以判定樣本數據為6類,與實際特征集類別數相符,證明了特征集的有效性。
利用K-means算法可以快速、準確地確定出樣本數據的類別數,從而實現對樣本特征集效果的評價,K值越靠近理論類別值,說明各類間特征的區分度越高,構造的樣本特征集越好。
3.2.2 高斯混合模型聚類分析
筆者利用高斯混合模型方法對齒輪箱振動數據的特征進行聚類分析,利用齒輪箱6種狀態下的振動特征數據建立高斯混合模型。
由高斯混合模型得到的6類數據的二維高斯分布圖如圖5所示。

圖5 齒輪箱6種狀態下二維高斯分布
圖5中,橫坐標是由振動信號IMF分量信號的均方根值構成的局部特征,縱坐標是由原始振動信號的均方根值構成的全局特征。由圖5可以看出:齒輪箱6種狀態下二維高斯分布云圖形態均有差異,能夠將齒輪箱6種狀態區分開。
6種狀態下二維高斯分布函數的參數如表2所示。

表2 6種狀態二維高斯分布函數參數
多維高斯分布函數的計算公式為:

(18)
式中:x—樣本數據,m/s2;d—數據維度;α—權重系數,由高斯混合模型訓練得到的每類數據的概率;u—樣本均值,m/s2;∑—樣本協方差。
筆者利用高斯混合模型聚類方法建立齒輪箱狀態識別模型。
該模型的故障識別流程如圖6所示。

圖6 基于高斯混合聚類的齒輪箱故障識別流程
圖6中,筆者首先利用K-means算法間接評價了齒輪箱狀態特征庫特征集的效果,確定了高斯混合模型各類數據的多維高斯分布模型,根據實時采集的齒輪箱振動信號,得到了齒輪箱振動數據的特征值,將該特征值輸入到各狀態模型中,從而得到了該特征值在各個分布函數中的從屬概率,由從屬概率的大小最終確定了齒輪箱的運行狀態;
然后筆者利用齒輪箱實驗數據對上述方法進行驗證,將齒輪箱各狀態下實時運行數據輸入到齒輪箱狀態匹配模型中,得到了實時運行數據的從屬狀態。
齒輪箱各狀態下的特征值輸入到二維高斯狀態模型,得到的從屬概率值如圖7所示。

圖7 齒輪箱各運行狀態下模型從屬概率
從圖7中可以看出:(1)6個狀態模型給出從屬概率值越大,齒輪箱越傾向于該運行狀態;(2)正常狀態模型、軸承內圈磨損故障模型、齒輪磨損故障模型、齒輪缺齒故障模型和軸承外圈磨損故障模型,均能夠準確判斷出齒輪箱正常運行狀態;(3)齒輪箱齒輪斷齒故障模型確定的齒輪箱斷齒和軸承內圈故障的從屬概率值有重合,但從平均概率可以判定為齒輪斷齒故障。
同時,筆者將本文提出方法的故障識別準確率與模糊c均值聚類方法進行對比。
基于模糊c均值聚類的齒輪箱故障識別流程如圖8所示。

圖8 基于模糊c均值聚類的齒輪箱故障識別流程
本文定義的齒輪箱各狀態下故障識別準確率如下式所示:
(19)
式中:Ci—該類樣本分類正確的樣本數;Li—該類實際樣本數。
兩種方法對相同齒輪箱運行狀態的故障識別準確率如表3所示。
由表3兩種方法的對比可以發現:

表3 兩種故障識別方法識別正確率
(1)兩種方法均能準確識別齒輪箱的正常狀態及齒輪缺齒狀態,準確率達到100%;(2)模糊c均值聚類方法對齒輪箱齒輪磨損故障和軸承內圈磨損故障診斷準確率過低,分別為66%和53%;(3)從整體上看,基于高斯混合模型的故障識別率比基于模糊c均值聚類方法的故障識別率更高。
本文通過齒輪箱振動信號均方根值和IMF分量的均方根值構造了振動信號全局特征和局部特征,利用K-means對特征集的分類數進行了確定,驗證了特征集的構造效果;然后通過構造各運行狀態的高斯混合模型,得到了各類數據的多維高斯分布模型,根據各運行狀態的多維高斯分布模型計算得到了齒輪箱當前運行數據的從屬概率;并根據從屬概率最大原則,得出了齒輪箱的運行狀態。實驗結果表明,本文提出的方法能夠識別齒輪箱各類物理仿真狀態。
根據研究結果可得出以下結論:
(1)基于K-means和高斯混合模型聚類的齒輪箱故障識別方法,能夠準確識別試驗環境下齒輪箱軸承和齒輪的典型故障;
(2)基于高斯混合模型聚類的齒輪箱狀態識別方法,能夠準確識別齒輪箱齒輪磨損、缺齒及軸承內、外圈故障,但對于齒輪斷齒故障識別的準確率還需進一步提升。
筆者后續將根據該方法的實際應用效果,不斷優化故障識別方法,進一步提升齒輪箱軸承和齒輪故障識別準確率。