劉小峰 譚 奇 葉蓉婷
重慶大學機械與運載工程學院,重慶,400044
在機械故障診斷領域,基于變量預測模型的模式識別(variable predictive model based class discriminate, VPMCD)方法利用特征值間的交互關系隨系統(tǒng)工作狀態(tài)的變化而變化的特性實現(xiàn)對故障狀態(tài)的識別[1]。但在實際機械故障診斷中,從含噪測試信號中提取的特征參數(shù)間的交互關系往往異常復雜,傳統(tǒng)VPMCD中的選擇性單一模型往往難以準確描述特征參數(shù)間的交互關系,從而導致故障狀態(tài)識別精度較低。針對該問題,楊宇等[2]使用量子遺傳算法、LUO等[3]使用遺傳算法、劉吉彪等[4]采用動態(tài)加速常數(shù)協(xié)同慣性權重的粒子群算法來優(yōu)化VPMCD各模型的權值,將各傳統(tǒng)預測模型加權融合為一個綜合變量預測模型,進而提高特征參數(shù)的預測精度。柏林等[5]采用投票法對多次VPMCD識別結(jié)果進行融合,該方法在小樣本多分類情況下取得了一定的效果。上述方法僅僅是采用傳統(tǒng)的變量預測模型(VPM)進行線性疊加融合,融合出的模型仍然脫離不了傳統(tǒng)的線性或二次交互模型的固定框架,導致仍然無法對異常復雜的特征交互關系進行準確擬合,而且需要引入復雜的網(wǎng)絡學習訓練來對多個模型的權值進行優(yōu)化設置,未發(fā)揮出VPMCD在計算效率和無參數(shù)設置等方面的優(yōu)勢。
近年來,許多學者采用智能網(wǎng)絡學習方法來逼近描述特征之間的復雜交互關系,對傳統(tǒng)VPMCD中的簡單擬合模型進行了改進或替換。宋坤駿[6]采用極限學習機來替換傳統(tǒng)VPMCD中的4個模型。高佳程等[7]采用核極限學習機來替代傳統(tǒng)VPMCD方法中的多項式最小二乘法對特征關系進行回歸擬合。TANG等[8]與鄭艷艷等[9]采用支持向量回歸模型來替換原VPMCD中的4個多項式回歸模型。這些方法的問題是沒有考慮特征的相關性與冗余性對VPMCD分類性能的影響。另外,單純用網(wǎng)絡學習替代原有模型進行擬合實際上是摒棄了傳統(tǒng)VPMCD模型在線性與二次交互擬合方面的優(yōu)越性,且需要大量樣本對網(wǎng)絡參數(shù)進行優(yōu)化設置,勢必會影響小樣本情況下預測模型的分類性能。
針對以上問題,本文提出一種基于優(yōu)化特征的集成變量預測模型(ensemble variable predictive model,EVPM)的模式識別方法,并通過實驗驗證了該方法的有效性。
基于優(yōu)化特征的EVPM模式識別方法的主要流程如圖1所示。首先對振動信號進行遞歸量化分析(recurrence quantification analysis,RQA)特征提取,采用多種權重計算方法和冗余度計算方法,選擇最能表征模式狀態(tài)且冗余性最小的最優(yōu)特征作為VPMCD的輸入。在4個傳統(tǒng)特征交互模型的基礎上,引入高斯函數(shù)(Gauss function, GF)、徑向基函數(shù)(radial basis function,RBF)、廣義回歸函數(shù)(generalized regression function, GRF)來建立特征變量間的復雜非線性交互關系。在此基礎上,采用各個模型的擬合誤差計算模型集成權值,繼而對所有模型進行加權融合,建立EVPM。

圖1 基于優(yōu)化特征的EVPM方法主要流程
RQA是一種適用于動力學系統(tǒng)的有效時間序列分析方法,該方法可對遞歸圖中表現(xiàn)出來的遞歸現(xiàn)象進行量化,具有較強的魯棒性與抗噪性能,特別適用于非平穩(wěn)非線性信號的分析,遞歸圖計算公式[10]為
Ri,j=Θ(ε-‖xi-xj‖)
(1)
i,j∈[1,N-(m-1)τ]
其中,Θ(·)是核函數(shù),ε是預定義的閾值,xi和xj是m維相空間的相空間軌跡。相空間軌跡可通過時間序列的時延操作得到。延時τ由平均互信息函數(shù)[11]的第一個最小值確定,采用偽最近鄰分析法[12]選擇嵌入維數(shù)m。若xi和xj的距離小于ε,則Ri,j=1,并在遞歸圖中的(i,j)處繪制一個點,進而由遞歸圖計算表1中的11個RQA特征。

表1 遞歸量化特征
VPMCD分類識別的基礎是特征變量間的相互關系,因此特征間的非獨立性、相關性與冗余性對VPMCD識別性能的影響較大。為了建立緊湊有效的特征關系,本文采用交錯式最大權值最小冗余規(guī)則(maximum weight and minimum redundancy,MWMR)進行特征篩選,在該規(guī)則下采用多種特征評價算法計算每個特征的權重,特征的得分越高則權重越大,意味著特征在分類識別中的貢獻越大[13]。d維空間的N個樣本的特征向量記為F=(F1,F2,…,Fd),其權重向量記為W=(w1,w2,…,wd)T,wi(i=1,2,…,d)代表第i個特征的權重,特征子集S的重要程度WS可表示為
(2)
若特征i與j間的相關度cor(Fi,Fj)≥0(i≠j且i,j=1,2,…,d),則S的冗余度IS可表示為
(3)
一個優(yōu)化的特征子集應該盡可能包含權重高且與其他特征相關度小的特征,因此,最優(yōu)特征子集篩選的目標函數(shù)設置為
(4)
式中,r為S集合中特征的個數(shù)。
根據(jù)式(4)可以計算出S中使函數(shù)值最大的待選特征子集。將圖1中常見的Fisher得分[14]、Laplacian得分[15]、Constraint得分[16]、ReliefF得分[17]和香農(nóng)熵[18]這5種權值計算方法與互信息熵[18]、Pearson相關系數(shù)[19]這2種冗余度估計方法進行交叉組合,衍生出2×5組特征篩選規(guī)則。在各個規(guī)則下采用式(2)~式(4)進行特征子集篩選,得到10個待選特征子集{S1,S2,…,S10}。采用傳統(tǒng)VPMCD作為評分器來對這10個特征子集進行評分,其中平均識別精度最高的即為最優(yōu)特征子集Sop。
VPMCD根據(jù)特征值之間的內(nèi)在關系建立預測模型,這種特征間的關聯(lián)性會因模式類別的不同而存在明顯差異。假設采用(F1,F2,…,Fd)表示G個模式類別的d維特征向量,模式類別中特征值Fi會因模式類別的不同,受到其他特征值Fj(j≠i)的影響。在傳統(tǒng)的VPMCD方法中,可以采用線性模型(VPML)、線性交互模型(VPMLI)、二次模型(VPMQ)與二次交互模型(VPMQI)來建立特征值Fi與其他特征值間的擬合關系[1-3]。
傳統(tǒng)的VPMCD算法在樣本數(shù)量少于模型參數(shù)個數(shù)情況下,采用最小二乘擬合特征交互關系時會舍去部分擬合參數(shù),從而導致擬合精度降低,最終影響預測結(jié)果。當待擬合的特征樣本的離散程度偏大且異常樣本較多時,特征樣本非標準正態(tài)分布會使得簡單的線性或二次交互變量預測模型無法描述特征間的復雜非線性關系[8]。因此,本文采用非線性核函數(shù)將特征樣本映射到高維空間,使得特征間的非線性關系轉(zhuǎn)化為高維空間中線性關系,在高維空間中進行線性擬合。由于高斯函數(shù)、徑向基函數(shù)[20]、廣義回歸神經(jīng)網(wǎng)絡GRNN[21]具有強大的非線性映射功能、較寬的收斂域且參數(shù)設置較少,故引入這三個函數(shù)建立特征非線性交互模型VPMGF、VPMRBF、VPMGRNN:
VPMGF為
(5)

VPMRBF為
(6)
式中,ωu為連接權重;Cu為神經(jīng)元的中心向量(可以在訓練集中隨機選取);ω0為連接偏差;U為感知單元個數(shù);σu為頻寬因子。
VPMGRNN為
(7)
式中,Ct為第t個神經(jīng)元點;σ為擴散因子;Yt為連接權重;D為訓練樣本數(shù)。

(8)
(9)
(10)

(11)
使用訓練樣本將所有G類、d個特征進行擬合可得到G×d個集成變量預測模型:
(12)
(13)
通過Case Western Reserve University滾動軸承故障公開數(shù)據(jù)來驗證本文方法的有效性。所用的軸承故障位置分別為外圈滾道、內(nèi)圈滾道、滾動體;故障程度為三類,分別為0.1778 mm(0.007英寸)、0.3556 mm(0.014英寸)、0.6096 mm(0.024英寸)。由此構成9種故障類型,加上正常的數(shù)據(jù),得到10種狀態(tài)的數(shù)據(jù)。信號采樣頻率為12 kHz,轉(zhuǎn)速為1750 r/min,電機負載功率為1491 W(2馬力),均為驅(qū)動端數(shù)據(jù),將軸承信號截斷為多個長度為1024個點的樣本信號,隨機選擇總計900個樣本,其中每類90個樣本。對每個樣本數(shù)據(jù)進行遞歸量化特征提取,得到900個特征向量(F1,F2,…,F11)組成的樣本特征向量F。
采用MWMR方法對原始特征向量F進行篩選,設定特征子集S中要保留的特征的個數(shù)為5,得到共計10個待選特征子集S1,S2,…,S10,以傳統(tǒng)VPMCD作為評分器,將不同特征子集的測試樣本作為輸入計算對應的平均分類精度,結(jié)果如表2所示。由表2可知,采用Laplacian得分、Constraint得分、ReliefF得分與互信息方法相結(jié)合的篩選規(guī)則優(yōu)選出的特征子集S7、S8、S9的平均分類精度相同,均為0.8209。采用Laplacian得分、Constraint得分與Pearson相關系數(shù)相結(jié)合的篩選規(guī)則優(yōu)選出的子集S2、S3的分類精度均為0.8850,由此可知對于該特征集,Pearson相關系數(shù)對冗余度的衡量準確度高于互信息方法。通過平均分類精度的比較可知,S-P方法所選出的特征子集S5={F1,F2,F3,F9,F10}能夠使VPMCD得到較高的分類精度,因此選擇S5作為Sop。

表2 MWMR框架下的特征評價
采用本文提出EVPM方法對滾動軸承進行故障診斷。實驗中選擇的VPML、VPMLI、VPMQ、VPMQI的階數(shù)均為5,隨機選取每類30個樣本作為測試集,在剩余60個樣本中,選取不同樣本數(shù)作為訓練集。使用訓練樣本訓練得到每個特征變量的7個EVPM,然后使用模型訓練誤差來計算權值向量,根據(jù)式(9)、式(10)計算模型權值向量,結(jié)果見表3。由表3可知,對Sop中的5個特征,VPMRBF模型平均權重最高。這主要是因為VPMRBF在特征高維空間具有強大的非線性擬合能力,更能有效地擬合特征間的復雜交互關系。不同的模型對不同的特征具有不同的預測精度,表明采用單一模型無法達到對所有特征變量的準確預測,有必要對多個預測模型進行加權集成,以實現(xiàn)對所有特征的最佳預測。

表3 軸承外圈故障狀態(tài)下7種模型的權值
采用本文方法,根據(jù)每個模型對每個特征的預測誤差計算模型權值,將計算出的權值向量用于加權每一個特征的預測模型集,融合后得到式(12)中的EVPM。采用不同大小的樣本集為訓練樣本建立EVPM,得到的不同樣本量下的分類精度(分類準確率),如表4所示。可見,EVPM不論在小樣本還是大樣本情況下都具有較高的精度,在樣本量只有10個時也能達到89.33%的精度,訓練樣本量為60時分類精度可達96.67%。這表明EVPM對10種不同故障類型、不同故障程度的軸承故障的識別具有較好的穩(wěn)定性和對樣本大小的魯棒性。

表4 不同樣本量下EVPM分類準確率
為了驗證MWMR特征選擇方法在EVPM狀態(tài)辨識中的必要性,選取原始特征集Sor={F1,F2,F3,F4,F5,F6,F7,F8,F9,F10,F11},優(yōu)選特征集Sop={F1,F2,F3,F9,F10}與冗余特征集Sre={F1,F3,F4,F7,F8}這三種組特征集作為EVPM的輸入,得到的故障狀態(tài)辨識結(jié)果如圖2所示。由圖2可看出,EVPM分別采用原始特征集和冗余特征集時精度相差不大,而采用MWMR篩選后的最優(yōu)特征子集Sop時,不論是在大樣本還是小樣本情況下,分類精度都有明顯提高。這表明基于MWMR的特征優(yōu)選方法對提高EVPM的分類性能頗有成效。

圖2 采用不同特性集時的分類精度比較
為了進一步驗證EVPM的故障模式識別性能,采用不同數(shù)量的Sop作為訓練樣本,對EVPM、傳統(tǒng)VPMCD、基于GRNN的VPMCD(GRNN-VPMG)、基于RBF的VPMCD(RBF-VPMCD)、支持向量機(SVM)以及基于遺傳算法的VPMCD(GA-VPMCD)[3]6種方法的分類精度進行比較研究,結(jié)果如圖3所示。由圖3可知,隨著訓練樣本的逐步增多,各分類器的精度總體呈增長趨勢,其中VPMRBF在訓練樣本較少時精度很低,隨著訓練樣本的增多,其精度可提高到93%,這主要是由于徑向基函數(shù)強大的非線性擬合能力,在樣本較少時產(chǎn)生了過擬合現(xiàn)象,使得小樣本情況下的識別精度較低。VPMGRNN是VPMRBF的另外一種形式,適合樣本量小、噪聲大的情況,故隨著訓練樣本的增加其精度提高較為緩慢,但在小樣本下也能取得較高的精度。EVPM在不同樣本量下都具有較高的分類精度。EVPM的分類精度始終高于 GA-VPMCD的分類精度,這主要是因為GA-VPMCD只集成了傳統(tǒng)的4個VPM模型,未考慮特征間更為復雜的非線性交互關系,且需要以大量訓練樣本進行模型權值尋優(yōu)。

圖3 不同分類器分類精度比較
圖4給出了EVPM、GA-VPMCD以及傳統(tǒng)VPMCD的計算效率。由于EVPM集成了多個非線性特征交互模型,因此其計算效率比傳統(tǒng)VPMCD方法的計算效率低,但與GA-VPMCD相比,EVPM的計算耗時明顯縮短。這主要是因為EVPM采用的是基于擬合誤差的權值直接計算方法,而基于遺傳算法的權值尋優(yōu)必然要消耗更多的計算資源。

圖4 計算效率比較
(1)構建了一種最優(yōu)特征評價篩選框架,該篩選框架能夠根據(jù)分類器的特性有效地選擇出權重大且冗余度小的特征子集,有效地提高了分類器的分類精度和泛化能力。
(2)提出了一種能夠準確反映特征變量間復雜交互關系的集成模型EVPM,與原始VPM模型相比,具有更好分類穩(wěn)定性,特別是在小樣本多分類情況下分類精度得到了顯著提高。
需要指出的是,本文提出的算法使用模型擬合誤差計算權重,其他模型權值設置方法還有待進一步研究,該算法由于選擇了多種模型加權集成,訓練建立階段耗時較長,故算法實施有待進一步優(yōu)化。