雷 兵,李漢平
(江西工程職業學院,江西 南昌 330025)
滾動軸承是旋轉機械設備應用廣泛的零部件,它的運行狀態直接影響著機械設備的整體性能、工作效率及使用壽命,因此對軸承狀態的監測和故障診斷在工程應用領域具有重要意義[1,2]。軸承故障診斷的實質就是對其不同工作狀態的模式識別,由于軸承振動信號具有非線性、非平穩性的特點[3],特征提取一般有奇異值分解(SVD)[4,5]、自回歸(AR)模型[6]、經驗模態分解(EMD)、變分模態分解(VMD)、集合經驗模態分解(EEMD)、小波變換等方法[7]。然而EMD、EEMD 兩種方法都存在模態混疊等缺陷[8,9],小波變換沒有辦法從根本上克服Fourier 變換的缺陷,其小波基長度有限,在對信號進行分析處理時會產生能量泄漏,且不同的小波基會產生不同的計算結果[10]。而AR 模型的系數凝集了系統狀態的重要信息,準確的AR 模型能夠深刻反映系統客觀規律,其自回歸系數對狀態變化反映也最為敏感。
智能診斷方面,對于類別比較多的分類問題診斷方法有:人工神經網絡、支持向量機等方法,王濤[11]等人提出一種在線自適應神經網絡算法,通過試驗表明:線自適應網絡算法比傳統神經網絡算法效果更好。汪峰[12]等人利用特征量融合和支持向量機的方法對軸承進行故障診斷,試驗表明該方法診斷效果良好。但是,在這些應用中也暴露出了缺陷:人工神經網絡的可解釋性差,網絡節點數目難以確定,訓練收斂速度慢[13];支持向量機模型參數的優化選擇難以確定,有待進一步研究。以上這些診斷方法都是基于大樣本的學習理論,難易滿足只能提供少量故障樣本的診斷識別問題。可拓神經網絡是繼模糊神經網、自組織徑向基函數神經網絡之后的一種新的神經網絡類型,它結合了可拓學與神經網絡各自的優勢,對基于區間特征量值的聚類和識別效果非常明顯。葉永偉等[14]提出基于可拓神經網絡的汽車涂裝線設備的故障診斷,實驗結果顯示所提方法相較傳統神經網絡效果更好。Wang 等[15]將可拓神經網絡的方法應用于發動機故障診斷中,實驗結果顯示,該方法對發動機的振動故障檢測具有效果良好。
鑒于AR 模型分析方法在振動信號特征提取方面有優勢和可拓神經網在結構、模式識別等方面的優點,本文采集了滾動軸承各類不同健康狀態信號,建立AR 模型與可拓神經網絡相結合的模型進行故障分類。
AR 模型是一種隨機信號參數化建模的重要方法,在參數化分析方面具有良好應用[16],以下用AR參數模型對這個信號進行描述。
取時間序列y,建立自回歸AR 模型可表示為
其中:αγ(γ =1,2,…,α- 1)是模型第γ項系數,φ(χ)是殘差,為零均值的白噪聲信號。AR 模型的參數預測就是選擇合適的參數使模型的殘差φ(χ)為白噪聲。
采用最小二乘法計算模型系數及貝葉斯信息準則(Bayesian information criterion,簡稱BIC)選取模型階數。
可拓神經網絡(Extension Neural Network,ENN)是在可拓學基礎上改進,把可拓物元模型,可拓距,關聯函數等概念和神經網絡相結合的一種新型神經網絡[17]。
1.2.1 可拓學基本理論
可拓學的邏輯細胞是物元理論、可拓集合、關聯函數,以下描述可拓學的基本概念[18]。
定義1 以物Nm表示對象,cm表示特征,Nm關于cm的量值vm構成的有序三元組
一維物元是描述物的基本元,Nm,cm,vm三元稱為物元R的三要素,其中物元Nm的特征元是由cm和vm構成的二元組。
如,R=(滾動軸承,正常狀態,<0.3,0.6>)表示滾動軸承正常狀態的量域為<0.3,0.6>。若一個物對應有多個特征時可以定義多維物元。
定義2 設經典域X0= ,節域X=
稱k(x)為點x關于X0和X在X0中點時取最大值的關聯函數。
定義中的X0= ,X=
點與兩個區間X0,X的位置關系用D(x,X0,X)表示,稱為位值,其公式為式(5):
可拓學用關聯函數值區分點與區間的隸屬程度:若k(x)≥0,表示x屬于X0的程度;k(x)< 0,表示x不屬于X0的程度。
1.2.2 可拓神經網(ENN)絡結構
可拓神經網絡是由輸入層和輸出層兩層網絡組成[19],其基本結構如圖1 所示。輸入層節點的作用是接收輸入模式,且輸入特征向量的特征個數決定了輸入層節點的個數。可拓神經網絡區別于傳統神經網絡在于其輸入層與輸出層采用雙權重連接方式,其中一個表示為某一特征經典域的下限值[20],另一個表示某一特征經典域的上限值,經典域的下、上限值分別用wL、wU表示,其中和代表著連接輸入層第j個節點與輸出層第k個節點的兩個權重。

圖1 可拓神經網絡結構
改進的可拓距是衡量一個數值與一個區間的距離采用此距離來區分最終輸出的類別,作為一種測量距離工具,可拓距描述的是點x到區間
可拓距的函數關系如圖2 所示,這種基于小區間樣本較強的靈敏度應用到分類識別問題上具有突出的優勢。

圖2 不同特征值在經典域內外的可拓距
可拓神經網絡是有監督的學習機制,學習系統根據已知輸入和實際輸出之間的差值來調整系統的參數,進而重新組織已有的知識結構使其不斷完善自身的性能。其監督學習算法描述如下:
設訓練樣本集為X= {x1,x2,…,xNP},其中xpi={xpi1,xpi2,…,xpin}代表第i個樣本,p代表對應類別,n代表樣本特征的總數,Np代表樣本總數。
首先通過可拓物元模型確定連接輸入、輸出節點的初始權重wLkj和wUkj,并計算相應的中心點Zkj。其次,輸入第i個樣本特征參數及該樣本對應類型p,采用公式(7)計算樣本xpi和第k類的距。
確定k*,使得EDik= Min{EDik}。當k* =p時,計算下一個樣本的可拓距離,否則對第p類和第k*類所對應的中心和連接權值進行調整,如式(8)~(10):
(1)調整權重
(2)調整類中心
式中:η表示學習速度,從算法調整算式可以清楚地發現,可拓神經網絡學習的過程只調整p類和k*類的連接權重。因此,相比傳統神經網絡,其速度更快,能更快適應新的信息。
Fisher 判別分析方法是模式識別領域廣泛應用的一種線性分類方法,能對數據進行很好降維與分離,利用其處理分類問題是根據找到最優的投影向量以滿足同類模式間的散度最小而不同模式間的散度最大[21]。Fisher 比是在準則的基礎上進行改進,其主要思想是同一維度特征類間離散度和類內離散度的比值,具有去除冗余信息等的功能[22,23]。
設r類模式總共有L=L1+L2+ …,+Ln個樣本集,其中Wi= {,u= 1,2,…,Li}代表第類模式的全體樣本的第個特征可用集合,因此Wi= {Wi,i= 1,2,…,r}代表r類模式的所有L個樣本第j個特征構成的集合。計算該特征在Wi和W中的平均值分別為和rj,則計算該特征的類間和類內離散度可分別使用公式(11)與公式(12)。
在故障診斷領域利用類間離散度與類內離散度之間的比值來衡量特征具有較好的優越性,如式(13)代表第j個特征的Fisher 比[20],該值越大說明該特征的分類性能越優。
整理樣本集,確定輸入特征向量個數和分類類別,定義一個錯誤率以評價分類性能,其公式為(14):
其中,ET為錯誤率,Nm識別分類錯誤個數,Np分類樣本總數。如下是ENN 算法的描述:
第1 步:處理采集的樣本數據,確定輸入層特征向量以及輸出層識別類型。
第2 步:根據物元分析,構建輸入層與輸出層之間的雙連接權重,用公式(15)表示。
其中,cj為物元對象Nk第j個特征為第k類故障類型關于特征cj的經典域,為輸出類型總個數,權重用公式為(16)(17)。
第3 步:計算每一類型狀態的初始中心點,用公式為(18)(19)。
第4 步:輸入第i個訓練樣本以及該樣本所對應的故障類型p。
第5 步:采用式(7)計算訓練樣本和第k類的可拓距離。
第6 步:調整權重及類中心,確定k*,使得EDik=Min{EDik}。若k* =p,則轉至第8 步,否則執行第7 步調整第p類和第k*類所對應的中心和連接權值。
第7 步:按式(8)~(10)調整第p類對應的權重及調整第k*類對應的類中心。
第8 步:重復第4 步到第7 步,若全部的樣本數據訓練完成,則一個學習步長完成。
第9 步:若總誤差ET達到預期的設定值或全部訓練步長進行完畢,則結束,否則轉到第3 步。
本實驗采用江蘇千鵬診斷工程有限公司生產的QPZZ-Ⅱ故障模擬平臺[24,25]。如圖3 所示是實驗臺圖片,實驗臺主要由驅動電機、皮帶輪、軸承、齒輪箱、支撐軸等部分組成。實驗軸承安裝于實驗臺的右下角實驗軸承座中,其型號是NU205EM,人為的用電火花加工制造了該型號軸承10 類不同健康狀態,并采集各類狀態下的振動信號。實驗過程中驅動電機的轉速1188 r/min,采樣頻率12 kHz。滾動軸承10 類不同健康狀態各采集了60 個長度為2000 個數據點的樣本。

圖3 故障模擬實驗臺
滾動軸承的十類不同健康狀態信號共有60×10=600 個樣本集,從各類狀態中隨機選擇30 個樣本作為訓練樣本數據,則構成一個30 × 10 = 300 的訓練樣本集。構建各樣本的AR 模型時,不同的定階準則所確定的樣本階數不一致,不同健康狀態的樣本采用同樣的定階準則確定的階數亦不相同。所知模型的階數過高會導致過擬合現象,實際中多通過測試誤差來評價學習方法的泛化能力。此種評價方法依賴于測試數據集,但有限的測試數據集可能導致評價結果不可靠。由此,筆者使用BIC 準則確定各訓練樣本的階數,綜上原因統一以23 階作為各信號的階數。
各信號由23 個AR 模型系數和一個殘差方差組成原始特征向量。如圖4 為訓練樣本集中30 × 10 =300 個樣本的24 個特征分布圖,圖中豎線的長短表示各類軸承樣本數據的該特征向量的標準偏差值大小。從圖4 中能看出,十類不同健康狀態信號有嚴重的交叉重疊,如果直接通過AR 模型的24 個特征進行識別軸承健康狀態則具有非常大的局限性,并且存在信息冗余等問題。圖4 中部分特征有較大的重疊,這些重疊的特征不但增加了計算量還使得模型變復雜,對后面的模式識別貢獻不大。因此采用Fisher 比對軸承各類狀態特征進行打分,特征的Fisher 比值打分越大,說明特征存儲的信息越豐富。如圖5 為計算24 個特征的Fisher 比值,從圖中能看出第1~7 個特征在得分在迅速下降,第8~23 個特征的得分在小范圍上下波動,第24 個特征得分又迅速增大,在這24個特征的Fisher 比值得分較大是第1 個與第24 個特征。考慮到各特征的Fisher 得分以及特征數量決定的模型計算量和復雜度,最終的特征向量由虛線以上的第1、2、3、4、5、8 和第24 共7 個特征組成。

圖4 軸承各類不同健康狀態下AR 特征均值和標準偏差曲線

圖5 各特征的Fisher 比值
可拓神經網故障診斷尤為重要的一步是構建經典域物元模型,由上一小節采用Fisher 比對AR 模型提取的各類軸承健康狀態特征進行打分選擇,然后從各類樣本數據中選取了得分最高的7 個主要的特征構成最終的特征向量,從10 類軸承不同健康狀態的樣本中選擇前30 個樣本組成一個的訓練樣本集,作為建立這10 類不同健康狀態的物元模型。設軸承健康狀態G1,G2,…,G10對應的經典域物元模型分別為R1,R2,R10。通過文獻4.47σ規則[26],即各個特征參數經典域是[μ- 4.47,μ+ 4.47σ],其中μ代表此特征參數的均值,σ代表標準偏差,表1 為構建的10 類軸承不同健康狀態物元模型的經典域,其中Vi1,Vi2,…,Vi7代表7 維特征向量中的7 個特征的經典域,區間對應的數字分別代表經典域的下限和上限。當定義的錯誤率還未達到預期的值(ET< 0.01)時就對k*類和p類的經典域進行調整,表2 是10 類軸承不同健康狀態的物元模型調整后的經典域,使ET達到預期值,而后將測試樣本集進行測試。

表1 軸承10 類健康狀態物元模型調整前的經典域

表2 軸承10 類狀態物元模型調整后的經典域
根據上述給定的錯誤率ET用于評價性能,圖6所示為訓練樣本集的錯誤率,當錯誤率ET< 0.01 時,則停止調整滾動軸承物元模型的經典域,然后把全體樣本進行測試。設定學習率為0.1,圖中能看到,將訓練集用ENN 進行訓練,ENN 調整了10 次就收斂,訓練錯誤率收斂到ET= 0,即ET< 0.01。

圖6 訓練樣本的錯誤率
為了避免面偶然誤差,提高試驗結果可靠性,每次均從各類不同健康狀態的60 個樣本軸承數據中隨機選取30 個訓練樣本,全體樣本數據作為測試樣本,并重復100 此過程。圖7 為重復100 次的試驗結果,從圖中能清楚地看到,最高的樣本誤判率是2.667%,最低的樣本誤判率是0.1667%,100 次重復測試的平均錯誤率為1.06%,其平均識別精度達到98.94%。

圖7 訓練樣本與測試樣本過程重復測試100 次試驗
將本方法與文獻[23]所提方法進行比較,以驗證本方法的優越性。文獻[23]利用的方法是AR-可拓學的方法,文獻[23]已驗證基于AR-可拓學的方法相較于與AR-BP 神經網絡的方法效果更好。現將三種方法進行對比,表3 為實驗結果對比,表中ENN 與BP神經網絡進行對比,對比網絡結構層數,ENN 為2層,BP 神經網絡為3 層;對比連接權重個數ENN 為70 個,BP 神經網絡為1050 個,由此可知,ENN 比BP神經網絡結構上更簡單;對比ENN、BP 神經網絡、可拓學三種方法的重復100 次測試平均精度分別為98.94%、85.78%、98.86%,可知ENN 的平均精度最高,綜合上述對比可以看出ENN 不但網絡結構更簡單,而且故障診斷精度更高,效果更優。

表3 實驗結果對比
本文詳細介紹了可拓神經網絡的結構設計、算法過程,通過實驗數據驗證了所提方法的有效性和可行性。由三種方法的實驗比較,可以看出該模型相較于傳統BP 神經網絡與傳統可拓學,其結構更簡單、收斂速度更快,精度更高等優點,該方法提高了滾動軸承故障診斷的效率,為滾動軸承的故障診斷提供了一種新的方法和思路。