杜 偉, 房立清, 齊子元
(陸軍工程大學 火炮工程系,石家莊 050003)
機器設備故障診斷的實質是對設備的工作狀態進行準確辨別。振動信號作為機械故障信息的重要載體,對其進行特征提取是機械故障診斷中的關鍵問題。隨著非線性分析方法的出現,從各個角度描述信號本質屬性的參數被廣泛應用到機械設備故障診斷中。然而,從多角度提取故障特征往往會導致特征集包含非敏感特征和維數過高,影響故障診斷的效率和精度。因此,需要對高維特征集進行有效的維數約簡。
流形學習是Tenenbaum等[1]提出的一種維數約簡算法,能夠充分挖掘高維特征集的本質結構。許多學者應用非線性流形學習算法對故障特征進行維數約簡,在機械設備故障診斷中作了許多探索和研究。陳鵬飛等[2]將等距映射與局部線性嵌入算法相結合,通過對轉子系統高維故障特征集進行降維,提高了故障診斷的精度;張前圖等[3]通過提取時域信號在極坐標空間下的參數組建高維特征集,并利用線性局部切空間排列(LLTSA)算法進行維數約簡,使滾動軸承故障信號的低維特征可分性更高。然而,非線性流形學習算法仍然無法消除非敏感特征的影響,因此需要在維數約簡前進行敏感特征選擇。
基于Fisher準則函數的線性判別分析(Linear Discriminant Analysis,LDA)[4]是一種有效的線性特征提取方法,其物理意義是將樣本在最優投影軸上投影后的類間散度與類內散度之比作為可分性判據。為了克服LDA在特征線性不可分的情況下評價能力差的缺點,許多學者引入核映射的思想,將樣本通過核函數映射到高維空間,在新的空間中進行線性判別分析,如Mika等[5]提出了核Fisher判別分析(Kernel Fisher Discriminant Analysis,KFDA)方法;Wang等[6]提出核散布矩陣的可分性判據;王廣斌等[7]在核空間中重新定義類內散度和類間散度,構建核局部Fisher判別函數。然而,這類共享特征選擇(Sequence Feature Series,SFS)[8]方法通過計算所有類別樣本集間距離的平均值得到可分性判據,容易受到邊緣類的影響[9],造成除邊緣類之外其他類別的較大重疊,而根據兩類之間的Fisher準則值對可分性進行衡量則不會受邊緣類的影響。
基于以上分析,本文提出基于獨立特征選擇與線性局部切空間排列相結合(IFS-LLTSA)的故障診斷方法。結合局部特征尺度分解(Local Characteristic-scale Decomposition,LCD)[10]的多尺度分析能力,從多個角度提取振動信號的故障特征,采用一種改進的核Fisher特征選擇方法為每兩類故障狀態優選出獨立的敏感特征集,而后通過LLTSA算法得到維數低、聚類性好的融合特征,用“一對一”法[11]訓練多個二類分類支持向量機,并采用“最大票數贏”[12]的決策策略構造多分類器判斷故障類型。通過液壓泵故障診斷實例驗證了本文所提方法的有效性。
核Fisher判別分析(KFDA)方法是在線性判別分析方法的基礎上提出的一種非線性判別方法。首先通過非線性映射將原始輸入空間X中的所有樣本映射到高維特征空間中,然后在該高維特征空間中進行線性可分性分析,找出使類內離散度小且類間離散度大的最優投影方向,其中,非線性映射通過核函數運算來實現。
假設給定樣本集共包含D維特征,C個類別, 在第d維特征的樣本集中, 屬于c1類的樣本x1={x1,x2,…,xn1}, 屬于c2類的樣本x2={x1,x2,…,xn2}, 且n1+n2=n, 非線性映射φ將輸入空間映射到高維特征空間F, 即φ:R→F,x→φ(x)。 假設c1類和c2類的先驗概率相等且所有樣本都是去均值的,則兩類樣本在特征空間中的均值向量為
(1)
(2)
(3)
則尋找最佳的投影方向wopt, 即最大化目標函數
(4)

(5)

(6)

(7)
式中: 核函數選擇高斯徑向基核函數k(xi,xj)=exp(-g‖xi-xj‖2), 核參數g設置為0.5。 計算兩類樣本投影的類間散度與類內散度的比值, 作為第d維特征的核Fisher準則值
(8)

通過計算不同類類間散度平均值和類內散度平均值的比值, 可以得到第d維特征對所有類的核Fisher準則值Jw,據此可為所有類選擇出一組共享的特征子集。然而,這類共享特征選擇(SFS)方法過分強調那些與其他類之間具有較大距離的類別(邊緣類)。因此,考慮為每兩類獨立選擇最優特征子集。
在使用可分性判據選取特征時,通常先將判據值歸一化處理,然后優選出判據值大于0.5的特征作為敏感特征[14],然而判據值小于0.5的特征也包含一定的信息量,直接舍去會損失這部分信息。據此,本文采用一種改進的核Fisher特征選擇方法選取敏感特征:
(1) 由1.1計算每兩類樣本第d維特征的核Fisher準則值Jd, 將經過歸一化處理的Jd輸入式(9), 并將輸出值小于0的全部取0, 大于1的全部取1, 使得0≤ξd≤1, 并以此作為該特征的敏感度值ξd。
(9)
式中:ξd與Jd的關系曲線如圖1所示。 當輸入Jd由0.5變化到0時, 輸出曲線在直線y=x下方, 且輸出值ξd與y=x偏差逐漸增大, 直至輸出值小于0時則ξd直接取為0; 當Jd由0.5逐漸增大到1時, 輸出曲線在直線y=x之上, 此時ξd-Jd的差值逐漸變大, 且當ξd>1時直接取為1。 分析式(9)和圖1可知,如果某一特征的核Fisher準則值大于0.5,則輸入式(9)后,其輸出值會在一定程度內增大該特征的敏感程度,從而使該特征起更重要的作用。同理,如果核Fisher準則值小于0.5,其輸出值將會減小該特征的敏感程度,從而降低甚至消除該特征的作用。

圖1 式(9)的關系曲線Fig.1 Relation curve of formula (9)
(2) 特征加權。
為了充分體現不同敏感程度的特征在故障診斷中的作用,本文將特征敏感度值ξd作為權值為特征進行加權,并將權值不為0的特征組成敏感特征集。在使用LLTSA算法提取敏感特征集的局部流形結構時,特征方差的大小能夠反映特征包含信息量的多少,而給特征加權能使其方差相對于其他敏感程度低的特征而言增大,使局部低維坐標偏向于更敏感的特征,從而使其在故障診斷中起更加重要的作用。
LLTSA是一種非線性維數約簡方法,通過構建樣本點鄰域的低維切空間并進行全局排列,得到樣本點的低維全局坐標。即尋找一個轉換矩陣A, 將RD空間中具有N個點的含噪數據集XORG(故障樣本集)映射為Rd空間數據集Y=[y1,…,yN], 即
Y=ATXORGHN(d (10) 式中:HN=I-eeT/N為中心矩陣;I為單位矩陣;e為k維全1向量。Y為XORG潛在的d維非線性流形。 包含以下3個步驟[15]: (1) 構建鄰域。 采用K-近鄰法(KNN)得到每個數據樣本點xi(i=1,…,N)的鄰域Xi=[xi1,…,xik],k為鄰近點個數。 (2) 獲取局部信息。 尋找一組正交基, 提取Xi的局部低維坐標Θi, 正交基的求取過程相當于在Xi上進行主成分分析(PCA)。 (3) 局部切空間全局排列。 局部切空間全局排列的目的是重構數據集的本征結構, 使得將所有樣本點xi的局部切空間映射到全局低維坐標的誤差之和最小,即如下目標函數 (11) XHNBNNXTα=λXHNXTα (12) 為了更加準確、有效地進行故障診斷,需要從不同角度提取原始振動信號特征。因此,本文結合LCD的多尺度分析能力,從以下幾個方面進行特征提?。孩偬崛≡夹盘柕牟ㄐ我蜃印⒕?、均方根、偏斜度、峭度、裕度共6個時域指標;②提取原始信號頻譜均值、頻譜標準差、中心頻率、頻譜均方根共4個頻域指標;③對原始信號進行局部特征尺度分解, 提取前m個內稟尺度分量(ISC)的模糊熵和將ISC分量組成m維矩陣進行奇異值分解所得的奇異值, 以及前m個ISC分量的能量信息。該故障診斷方法的主要流程如圖2所示,具體步驟如下: 圖2 基于IFS-LLTSA的故障診斷流程Fig.2 Flow chart of fault diagnosis based on IFS-LLTSA (1) 對C個類別的原始信號進行LCD分解, 確定m值,并對訓練樣本和測試樣本進行特征提取,得到高維混合特征集。 (2) 通過改進的核Fisher特征選擇方法為每兩類狀態進行獨立特征選擇, 得到Di維敏感特征集, 并輸入LLTSA進行維數約簡, 得到映射矩陣Ai和di維融合特征, 其中1≤di (3) 基于各自訓練樣本的融合特征訓練C(C-1)/2個二類分類SVM,并組合所有二類分類SVM構成多分類故障診斷模型。 (4) 根據訓練樣本的敏感特征集,為每個測試樣本提取出同樣的特征,并通過映射矩陣Ai對測試樣本進行特征融合,將結果輸入多分類故障診斷模型,確定故障類型。 實測振動信號來自液壓泵實驗平臺,液壓泵型號SY-10MCY14-1EL,為斜盤式軸向柱塞泵,柱塞數為7,額定轉速為1 500 r/min,在泵端蓋處安裝壓電式加速度傳感器采集振動信號,傳感器安裝位置如圖3所示。 根據液壓泵常見故障模式,分別選用單柱塞松靴故障(S1)、雙柱塞松靴故障(S2)、滑靴磨損故障(H)和正常(N)的液壓泵運行狀態進行實驗,主溢流閥壓力為10 MPa,采樣頻率為20 kHz。按時間順序以2 048個采樣值為一組數據樣本,分別測取4種運行狀態數據各40組,液壓泵4種狀態的振動信號如圖4所示。從圖中可以看出,僅憑時域波形無法準確判斷液壓泵運行狀態,需要進一步分析識別。 圖3 傳感器安裝位置Fig.3 Installation location of sensor 圖4 液壓泵4種狀態時域波形Fig.4 Time domain waveform of hydraulic pump in four states 對信號進行LCD分解,多數數據樣本被分解為10個ISC分量和1個殘余分量,因此,可確定m=10。圖5為雙柱塞松靴故障振動信號中一組樣本數據的分解結果。 圖5 雙松靴故障振動信號LCD分解結果Fig.5 LCD results of double loose slipper fault vibration signal 按照基于IFS-LLTSA的故障診斷方法中(1)步驟所述,對數據樣本中的每一組數據提取高維混合特征集,可得到4個40×40維的特征矩陣。隨機抽取每種狀態的20組數據作為訓練樣本,其余20組作為測試樣本。用改進的核Fisher特征選擇方法對訓練樣本進行特征選擇,如圖6所示,可得到6組(i.e.4(4-1)/2=6)每兩類狀態之間每個特征的敏感度值,圖中編號1~40依次對應6個時域指標、4個頻域指標和LCD分量的模糊熵、奇異值以及能量值各10個。 圖6 特征敏感度值Fig.6 sensitive values of every feature 對比各二類特征的敏感度值可以看出,某個特征可能對某兩類的區分能力較大,卻無法區分所有類。時域指標對單柱塞松靴故障(S1)和雙柱塞松靴故障(S2)具有一定的區分能力,而對雙柱塞松靴故障(S2)和滑靴磨損故障(H)幾乎沒有區分能力;LCD分量的模糊熵對單柱塞松靴故障(S1)和滑靴磨損故障(H)的敏感度值較高,而對雙柱塞松靴故障(S2)和正常狀態(N)幾乎不敏感;大部分LCD分量的奇異值對S2-N都具有一定的敏感程度,而僅有少數LCD分量的奇異值對S1-H具有較為明顯的敏感度。從圖6中可以看出,將特征的敏感度值作為權值為特征進行加權,篩選出的敏感特征可以由原來的40維降到19維~26維之間。 將敏感特征集輸入LLTSA中進行維數約簡,以S1-H狀態敏感特征的降維結果為例進行分析,作為比較,選用原始混合特征集、SFS方法得到的準則值Jw大于0.5的特征集也進行LLTSA降維。各方法中最優目標維數d(范圍[3,19])和鄰域參數k(范圍[3,20])通過多次試驗確定。圖7所示為3種方法得到的融合特征集前3個矢量的三維空間分布圖。 圖7 3種方法維數約簡結果對比Fig.7 Comparison of dimension reduction results of three algorithms 圖7(a)為原始混合特征集的降維結果,由于原始混合特征集包含較多的非敏感特征,使得敏感特征的區分能力不能得到充分的體現,因此降維效果較差,兩類故障狀態出現了較為嚴重的混疊。圖7(b)為SFS方法得到的特征集進行降維的結果,由于僅選取了具有較高敏感度值的特征,降維后兩類故障狀態基本能夠分離,然而準則值Jw評估的是每個特征對所有類的分類性能,選取出的特征對S1-H的分類并不是最優,因此降維后依然存在一定的混疊。圖7(c)為IFS方法的敏感特征集進行降維的結果,由于對特征進行加權后,在排除非敏感特征干擾的同時,使得敏感特征的方差相對于其他敏感程度低的特征增大,因此融合特征具有很好的聚類性。通過多次實驗可知,對6種組合的二類IFS特征集進行降維均可得到較好的降維效果。 將IFS-LLTSA方法得到的融合特征輸入6個二類分類SVM進行訓練,并組合所有二類分類SVM構造多分類故障診斷模型。對每個測試樣本提取出同樣的特征,并通過映射矩陣得到融合特征,將結果輸入多分類故障診斷模型,確定故障類型。作為比較,采用SVM對原始混合特征集(None)、經SFS篩選的特征集(SFS)、經LLTSA降維的原始混合特征集(None-LLTSA)以及經LLTSA降維的SFS特征集(SFS-LLTSA)也進行分類識別。實驗中SVM的核函數選用非線性映射能力較強的徑向基核函數[16],設置懲罰參數C=1, 核函數參數g=1。 識別結果如表1所示。 分析表1可知,由于從多域提取的特征集中包含較多的非敏感特征,因此未經特征選擇的原始混合特征集識別率較低,而經SFS篩選的特征集僅包含具有較高敏感度值的特征,排除了大量的非敏感特征,因而能夠使識別率有一定的提高;經LLTSA降維得到的融合特征能夠反映樣本數據的非線性流形本質結構,因此降維后的識別率均有較大提高,但共享特征選擇方法是為所有類選擇出相同的特征,對于某個二類分類SVM而言可能并不是最優;由于文中提出的獨立特征選擇方法為每兩類故障狀態獨立選擇最優特征子集,通過對特征進行加權,使敏感特征在故障診斷中起更加重要的作用,同時降低甚至消除了較低敏感度特征的作用,使LLTSA降維得到的融合特征具有更好的辨識能力,所以達到了最高的平均識別準確率。 表1 支持向量機識別結果 表1中訓練時間為特征維數約簡和構造多分類故障診斷模型所用的時間,通過比較可知,LLTSA降維算法減緩了訓練效率,而由于IFS方法選擇出的特征維數多于SFS方法, 使得IFS方法的訓練時間略長于SFS方法,但在故障診斷的實際應用中,診斷模型是提前訓練完成的,所以不會影響故障診斷的效率。 (1) 為有效利用振動信號進行故障診斷,提出基于獨立特征選擇與流形學習的故障診斷方法。利用LCD的多尺度分析性能,從多域提取原始信號的特征,并將獨立特征選擇與流形學習算法相結合,然后將融合特征輸入SVM進行故障診斷。實驗結果表明LCD能提取出反映機械設備狀態的有效特征,也驗證了本文所提故障診斷方法的有效性。 (2) 獨立特征選擇充分考慮了每個特征對區分二類狀態的作用,有效地排除原始混合特征集中的非敏感特征,使LLTSA降維得到的融合特征具有更高的區分度,對于多類故障診斷問題,采用獨立特征選擇比采用共享特征選擇能得到更高精度的故障診斷模型,具備一定優勢。

3 基于IFS-LLTSA的故障診斷方法

4 實驗驗證
4.1 故障數據獲取


4.2 實驗結果與分析




5 結 論