基于UDGDP的轉子故障數據集降維方法

2022-08-26 08:50:58楊澤本趙榮珍

振動與沖擊 2022年16期

楊澤本，趙榮珍，劉強

(蘭州理工大學機電工程學院，蘭州 730050)

設備的監測數據反映其實時運行狀態，它是分析故障源以及狀態變化的重要依據。隨著工業互聯網的迅猛發展以及企業對數據依賴程度的不斷加強，各種機械裝備的狀態監測數據已經成為企業生產運行、監控管理和發展智能制造不可或缺的重要戰略資源[1]。

旋轉機械作為一類廣泛使用的動力設備，對其實施智能化運行維護管理意義重大[2]。工程上往往采集旋轉機械系統關鍵部位的振動信號作為基礎數據，通過提取其時域、頻域、時頻域等量化特征來表征機械設備的運行狀態。但隨著特征數目的增加，會產生“維數災難”問題，并且特征之間可能會呈現出一定的相關性，大量有效信息被淹沒，很難得到有效的故障狀態量化表征結果。因此，在發展基于數據科學原理指導的旋轉機械智能運維管理技術中，如何從大數據中挖掘出有利于實施分類運算的敏感故障特征，顯然這對于促進數據驅動的智能故障診斷技術尤為關鍵[3]。

近年來，關于數據降維問題的研究在計算機科學學科和故障診斷領域中均已取得了很大的進展。典型的如局部保持投影(locality preserving projection，LPP)[4]、無監督判別投影(unsupervised discriminant projection,UDP)[5]、局部Fisher判別分析(local fisher discriminant analysis,LFDA)[6]等。這三種算法都是利用近鄰圖來表征數據間的局部近鄰關系，并將數據投影到一個反映其本質的流形結構上，在模式識別等方面取得了較好的效果。但是LPP、UDP本身屬于無監督算法，沒有充分利用樣本的類別標簽，導致無法準確提取關鍵信息，在分類時容易出現錯分現象。LFDA雖然具備監督特性，但它輸出的低維特征之間相關性較大，含有大量冗余成分，因此文獻[7]在LFDA中添加不相關約束條件，提出了有監督不相關局部Fisher判別分析(supervised uncorrelated local Fisher discriminant analysis,SULFDA)算法，利用軸承特征數據集驗證了其有效性。進一步地，文獻[8]針對LPP單個近鄰圖無法保持完整結構信息的缺陷，設計了雙鄰接圖判別近鄰嵌入(double adjacency graphs-based discriminant neighborhood embedding,DAGDNE)降維算法，通過構建類內局部近鄰圖、類間局部近鄰圖使低維空間同類樣本點距離更近，異類樣本點距離更遠，實現了完整結構特征信息的提取。在DAGDNE的基礎上，文獻[9]提出了一種雙鄰接圖判別投影(double graphs-based discriminant projections,DGDP)算法，該方法在定義權重時不僅考慮樣本點的幾何分布，而且充分利用類別信息，在降維時進一步加強了保持幾何和判別信息的能力，并在人臉識別中取得較好的應用效果。

鑒于不相關約束能夠減小低維特征之間的相關性，且雙鄰接圖可以完整地保持局部近鄰結構關系，本研究將二者優勢進行結合，對旋轉機械故障特征集的降維問題展開了研究，提出一種基于不相關約束的雙鄰接圖判別投影UDGDP降維算法。該算法在類別標簽的指導下，通過構建雙鄰接圖使類間局部散度最大化，類內局部散度最小化，從而在降維時最大程度保留有利于分類的信息；與此同時在UDGDP目標函數中施加不相關約束條件以消除冗余的信息，實現對敏感故障特征更為有效地提取。該研究欲為基于數據驅動的旋轉機械智能故障診斷中出現的“維數災難”問題提供一種解決思路。

1 相關原理簡介

關于數據降維的物理涵義基本如下：設高維數據集為X=[x1,x2,…，xn]∈Rm×n，其投影矩陣為φ。X經過投影后可得到低維數據集Y=[y1,y2,…,yn]∈Rd×n，其中d為目標維數且d

1.1 DAGDNE算法簡介

該算法的目標函數被定義為

(1)

(2)

最終將上述問題轉化為式(3)廣義特征值問題的求解

(3)

根據式(1)與式(2)，可構造出局部近鄰圖，它能夠表征數據流形的局部幾何關系。但是在DAGDNE算法中，將近鄰樣本之間的權重設置為固定值并且將類內與類間局部近鄰圖的關系視為同等重要，難以挖掘數據流形中幾何和判別結構信息，故對分類精度造成一定的誤差。

1.2 低維特征矢量間的相關性度量

根據李鋒等的研究，原始特征集經投影后，得到低維特征集Y的第i個特征εi與第j個特征εj之間的協方差為

Cov(εi,εj)=E(εi-Eεi)(εj-Eεj)T=

(4)

若能夠在降維算法中融入不相關思想，則不僅會消除投影變換后各個特征分量之間的相關性，而且能夠減少低維特征之間的信息冗余，提高辨識精度。

2 設計的UDGDP降維算法

為解決傳統降維算法在對高維數據集進行降維時，無法準確提取關鍵信息而造成故障辨識精度偏低的問題，本節基于第1章的介紹，提出了UDGDP降維算法。該算法的數學原理如下所述。

2.1 構造的UDGDP目標函數

將式(4)所述的不相關約束條件融入式(3)，由此建立的UDGDP算法其目標函數如式(5)所示

(5)

式中:Sb=XLbXT為類間散度矩陣;Sw=XLwXT為類內散度矩陣;α為調節Sb與Sw重要性的調節系數。

為了使權重參數隨著距離變化而做出動態調整，重新定義如式(6)所示的權重參數

利用迭代的方式求解投影矩陣φ=[φ1,φ2,…，φd]。投影矩陣的第一個矢量φ1取為廣義特征方程[αSb-(1-α)Sw]φ=λφ的最大非零特征值對應的特征向量。假設已經確定了投影矩陣前d-1個向量φ1,φ2,…，φd-1，那么第d個向量φd是式(5)問題的最優解。運用拉格朗日乘子法，將問題轉化為式(7)

令?L/?φd=0，可以得到

(8)

結合式(5)的約束條件得到

(10)

(11)

由式(11)得到

記Dd-1=[φ1,φ2,…,φd-1]T，μd-1=[μ1,μ2,…,μd-1]T，則

由式(13)得到

將式(14)代入式(8)得到

Pd-1[αSb-(1-α)Sw]φd=λφd

(15)

當前d-1個投影向量φ1,φ2，…,φd-1求出之后，第d個投影向量φd為式(15)的最大非零特征值對應的特征向量，進而得到φ=[φ1,φ2,…，φd]，最后由Y=φTX，即可獲得樣本在低維空間的投影結果。

2.2 UDGDP算法的步驟

該算法的具體步驟如下：

輸入：數據集X，近鄰點個數k，核寬度σ，低維空間維數d。

輸出：投影矩陣φ，低維特征集Y。

1)構建類內類間局部近鄰圖，利用式(6)求出權重參數，進一步得到拉普拉斯矩陣Lb與Lw。

2)確定類內與類間散度矩陣Sw與Sb。

3)根據式(5)所建立的目標函數，采用迭代方式求出投影矩陣φ=[φ1,φ2,…,φd]。

4)由Y=φTX計算高維樣本在d維空間投影。

2.3 設計的故障診斷流程

基于UDGDP算法的故障診斷實施流程如圖1所示。

圖1 故障診斷流程圖Fig.1 Procedure of fault diagnosis

具體的故障診斷實施步驟如下：

步驟1對原始振動信號進行小波消噪處理，提取時域、頻域等量化特征參數構建高維特征集X。

步驟2對高維特征集進行歸一化，之后分為訓練數據集trainX與測試數據集testX。

步驟3設定UDGDP算法的3個參數值，即近鄰點個數k，核寬度σ，低維空間維數d。將trainX輸入至UDGDP算法進行訓練得到投影矩陣φ。

步驟4根據Y=φTX對trainX和testX分別進行投影，得到低維特征集trainY與testY。

步驟5將trainY與testY輸入至KNN分類器，通過指標參數以及相關試驗對降維效果進行評價與驗證。

3 UDGDP降維算法的實現

3.1 確定的原始故障數據集

本研究通過圖2所示的厚德自動化儀表有限公司轉子故障模擬試驗臺進行研究分析。具體試驗設置情況如下：在試驗臺上布置4個加速度傳感器分別采集4個軸承座的2個徑向(X,Y)和1個軸向(Z)振動信號，布置2個非接觸式電渦流傳感器采集轉軸徑向振動信號，在轉速為2 800 r/min，采樣頻率為20 000 Hz的工況下，通過在盤1、盤2加裝不同個數質量塊來模擬轉子質量不平衡1、不平衡2、不平衡3、不平衡4、不平衡5、不平衡6共六種狀態試驗，如表1所示。采集每種狀態的數據樣本共100組，其中50組作為訓練，其余50組作為測試，按照表2順序計算特征，得到包含14×22=308個維度的高維特征集。

圖2 轉子故障模擬試驗臺Fig.2 Rotor fault simulation test bench

表1 轉子系統的故障狀態Tab.1 Fault conditions of rotor system

表2 選擇的特征參數Tab.2 Selected characteristic parameters

3.2 確定的調節系數α求解方法

α=ρ(Sb)/[ρ(Sb)+ρ(Sw)]

(16)

式中,ρ(Sb)與ρ(Sw)分別為矩陣Sb與Sw的譜半徑。

3.3 算法的參數設定情況

UDGDP降維算法涉及的參數有3個：近鄰個數k、核寬度σ、目標維數d。k的取值一般在目標維數與各類樣本個數之間，即d

圖3 準確率隨k與σ的變化Fig.3 The accuracy rate changes with k and σ

圖4 當k=15時準確率隨σ的變化曲線Fig.4 The curve of accuracy with σ when k=15

3.4 選擇的降維效果評價指標

為評價低維測試集各個故障類別間的可分性，引入δ=SB/SW評價指標來量化降維效果

(17)

(18)

(19)

4 試驗結果與分析

4.1 算法的性能驗證情況

為驗證UDGDP降維算法的有效性，首先將數據集分別輸入至四種降維算法進行降維，之后對得到的低維特征集前三個維度進行可視化表示，最后利用類內類間可分性指標以及KNN識別準確率對各個算法的降維效果予以量化評價。試驗結果如圖5、表3與表4所示。

圖5 基于不同方法的降維結果Fig.5 Dimension reduction results based on different methods

表3 不同降維方法評價指標Tab.3 Evaluation index of different dimension reduction methods

表4 不同降維方法識別準確率Tab.4 Recognition accuracy of different dimension reduction methods

由圖5、表3和表4可以得出，LPP與UDP算法在降維后各個類別重疊嚴重，六種不平衡故障狀態完全無法區分并且KNN識別精度較低。這是由于二者都屬于無監督學習的范疇，沒有充分利用類別標簽信息來構造相似度矩陣，在尋找近鄰點時可能出現近鄰點來自異類的現象，因而在降維過程中無法增大類與類之間的距離，導致降維與分類效果不佳。經過DAGDNE算法降維后，三種故障狀態能夠完全分離，其余狀態仍然存在類與類之間邊界不明確的現象，由此可見雙鄰接圖的引入有利于提取故障類別信息，但是由于權重參數是固定的，沒有隨距離的改變而發生動態變化并且DAGDNE算法中將類內與類間局部近鄰圖的關系視為同等重要，因此在一定程度上造成了有效信息的損失。

而經過UDGDP算法降維后，六種狀態基本能夠分離，可以得知UDGDP算法雖然基于DAGDNE，但降維效果和辨識精度都要優于DAGDNE。首先這是因為引入用于平衡類內與類間局部近鄰圖重要性的調節系數，以及動態變化的權重參數使得降維過程中流形結構得到了更好地保持；其次通過添加不相關約束進一步消除了低維特征間的相關性，有效剔除了冗余信息，保留了更有利于分類的判別信息。因此該方法取得了較好的效果。

為驗證UDGDP降維算法是否具有消除低維特征集各個矢量間相關性的能力，將DAGDNE與UDGDP算法降維后得到的5個(類別數減1)特征矢量進行編號，分別記作特征1、2、3、4、5，特征間的相關系數見表5、表6。通過對比相關系數的數值可以發現UDGDP 算法降維后特征之間的相關性明顯小于DAGDNE，這表明UDGDP算法提取的特征之間相關性較小，具有較好的分類能力。

表5 經DAGDNE降維后低維特征間的相關性評價結果Tab.5 The correlation evaluation results between features after dimension reduction of DAGDNE algorithm

表6 經UDGDP降維后低維特征間的相關性評價結果Tab.6 The correlation evaluation results between features after dimension reduction of UDGDP algorithm

4.2 算法的特征提取能力與抗噪能力驗證情況

在訓練樣本不充足的情況下，若算法具備優異的特征提取能力，這將會對故障的辨識分類起到事半功倍的作用。因此為驗證UDGDP降維算法在不同數目訓練樣本下的降維效果，選取不同比例的訓練樣本與測試樣本輸入至四種降維算法進行降維[12]，之后利用KNN進行分類，試驗結果如圖6所示。從圖6可以看出，隨著訓練樣本個數的增加，KNN識別準確率也逐漸提高，但總體上經過UDGDP算法降維后的識別率較為穩定，并且在訓練樣本不足的情況下仍然能夠達到較好的辨識效果，這表明UDGDP具有很強的挖掘判別信息的能力。

圖6 不同比例樣本下的KNN識別準確率Fig.6 KNN recognition accuracy under different proportion of samples

為驗證UDGDP降維算法的抗噪性能，在測試集中融入系數為a=0.5,a=1.0,a=1.5,a=2.0的隨機噪聲[13]，之后利用四種降維算法進行降維，最后輸入到KNN分類器進行分類，辨識準確率如表7所示。可以發現，隨著噪聲系數的增大，各個算法降維后的辨識準確率都隨之降低，但UDGDP降維后準確率下降幅度較小且均高于其他幾種方法，這表明UDGDP算法具有一定的抗噪性能。

表7 不同噪聲系數下的KNN識別準確率Tab.7 The accuracy of KNN recognition under different noise parameters

5 結論

為降低旋轉機械故障數據集規模，達到提高分類器辨識準確率的目的，設計了一種基于不相關約束的雙鄰接圖判別投影UDGDP降維算法。該算法通過構建兩個局部近鄰結構圖，使低維空間的同類樣本能夠更加緊湊，異類樣本能夠更加分散，同時，為剔除低維判別分量之間的信息冗余，引入不相關條件對低維矢量進行約束，以實現高維數據集中判別信息的提取。利用轉子故障數據集對設計的UDGDP算法進行驗證，結果表明：相比于其他幾種算法，UDGDP算法降維后有效降低了特征之間的相關性、消除了冗余信息，而且提取出了更具鑒別能力的特征，在故障辨識能力、特征提取能力以及抗噪能力方面表現出優異的性能。該方法可為數據驅動的旋轉機械智能故障辨識提供新的解決方案。