馬 波, 趙 祎
(1.北京化工大學高端機械裝備健康監控及自愈化北京市重點實驗室 北京, 100029) (2.北京化工大學發動機健康監控及網絡化教育部重點實驗室 北京, 100029)
往復壓縮機、航空發動機、大型風電裝備等重大裝備由于結構復雜、激勵源多及工作環境惡劣,故障率通常較高。建立可靠的故障診斷系統是保證這些裝備安全運行的必需舉措[1]。人工神經網絡(artificial neural network, 簡稱ANN)作為智能診斷技術的一種,已在復雜機械的故障診斷中取得了良好的應用效果[2-3]。在工程實際中,由于沒有大量故障樣本用于訓練神經網絡,限制了ANN在機械故障診斷中的進一步發展與應用。支持向量機(support vector machine,簡稱SVM)憑借其在處理小樣本問題上的優越性,在機械故障診斷領域取得了廣泛應用[4-5]。然而SVM的診斷準確率受核函數影響較大,在沒有對核函數進行復雜的優化建模條件下,其識別率無法達到最優。文獻[6]將Relief算法與K鄰近分類器相結合,實現了復雜旋轉機械的故障智能診斷且診斷效果較SVM有所提升。在設備運行狀態發生變化的過程中,某些激勵信號產生的變化在疊加后的響應信號中體現不明顯,由于該方法只針對設備響應信號進行分析,其診斷精度難以進一步提升。文獻[7]提出了一種基于GMM的故障診斷方法,該方法對設備各激勵源所激發的激勵信號進行深入分析,將各類故障數據的GMM作為分類指標,在給定觀測數據的條件下,通過比較各故障模型的后驗概率進行故障診斷,并取得了較好的診斷效果。然而其在構建機械振動信號高維特征的GMM時,分布分量的數目需人工設定,若選取不當,則所構建的模型難以符合信號實際的分布特點,使得某些種類故障數據的統計分布模型間差異不明顯。因此,該方法的泛化性能較差。
DPMM是非參數貝葉斯統計的基石,能夠自學習出數據所服從的統計分布,無需人工設定分布分量數目,且狄利克雷過程(Dirichlet process,簡稱DP)能夠為模型參數的分布提供先驗[8]。憑借這些優點,DPMM已在文本聚類、圖像分割等方面的數據分布自學習上取得了良好的應用效果[9-10]。因此,若能將DPMM應用到機械振動信號的統計分布自學習中,則對于提高復雜機械故障診斷準確率具有重要意義。為提高建模后診斷方法的泛化性能,需選出一種具有高區分度的分類指標。BIC為突顯復雜機械各類故障數據間的差異提供了新途徑[11]。BIC是一種基于統計分布模型的特征評估算法,其算法原理是根據觀測數據中各特征參數與統計分布模型中分布分量的相似度進行評估得到貢獻率(即權值)。基于BIC的方法通過確定貢獻率最高的主導變量,實現了多種工業過程中故障的準確診斷[12]。依據機械振動信號的特征參數對不同故障的敏感度存在差異這一特性,在準確構建出振動信號高維特征統計分布模型的基礎上,計算特征貢獻率并將其作為分類指標,能夠突顯各類故障數據間的差異。由于機械響應信號統計分布模型中的分布分量能夠表征各激勵信號所服從的分布,響應信號的特征貢獻率則為特征參數在各激勵信號分布中貢獻率的綜合表示,因此,該分類指標能夠準確反應故障發生時各激勵信號產生的細微變化。
基于上述說明,提出一種DPMM與BIC相結合的分析方法。采用DDPM方法自學習機械振動信號高維特征的統計分布模型,并依據BIC理論計算特征貢獻率,通過分析觀測數據與各類故障數據特征貢獻率間的距離(即差異度),實現故障分類。試驗結果證明了該方法的可行性與有效性。
若某層次模型的參數服從DP先驗分布,則該模型被稱為DPMM。DP定義為關于一組分布或者隨機測度的分布,可以看作是推廣的無限維狄利克雷分布。DP的截棍構造[13]表示如下
其中:vk與ηk為兩個獨立的隨機變量;vk~Beta(1,α),k={1,2,…};ηk~G0,k={1,2,…};α與G0分別為DP的尺度參數與基礎分布;δηk表示中心為ηk的Delta函數。
用截棍法構建DP,可得到DPMM的截棍構造表示
其中:Zn為指示變量且服從多項式分布;φ(v)為混合模型的權重向量;X為觀測數據集;η為混合模型的參數集,包括均值向量μ與協方差矩陣Mcov。
向量φ(v)用于產生指示變量Zn,進而將Xn分配到指定的分布分量上,實現樣本聚類。
采用平均場變分推斷方法近似隱變量W={v,η,Z}在DPMM中的后驗分布p(W|X,θ),其中θ={α,λ}為模型的超參。構造一個由變分參數ε索引的分布族qε(W),模型訓練的目標是最小化qε(W)與p(W|X,θ)間的KL散度
(7)
利用KL散度為非負數的特點,對式(7)進行變換,得到
logp(X|α,λ)≥L
(8)
其中:
(9)
根據式(8),模型的訓練目標轉變為最大化邊緣似然對數的下界L。
通過采用截斷的截棍過程表示和因式分解假設,用于平均場變分推斷的變分分布族可表示為
(10)
其中:qγt(vt)為beta分布;qτt(ηt)為擁有自然參數τt的指數分布族;qφi(zn)為多項分布;截斷級T為能夠被自由設置的變分參數。
根據式(10),自由變分參數可表示為
ε={γ1,γ2,…,γT-1,τ1,τ2,…,τT,φ1,φ2,…,φN}
(11)
通過迭代更新ε使得L逐步增大,最終得到一個局部最大值并獲得模型參數。
BIC是一種基于統計分布模型的特征評估算法,可用來表征觀測數據中各特征參數對統計分布模型的貢獻率。其算法可描述如下:對于任意一個訓練樣本Y,其統計分布模型記為C={Cm|m=1,2,…,K},首先計算Y中各特征參數的平均值并得到一組特征向量y,然后分別計算y在各分布分量Cm中的后驗概率
(12)
其中:K為統計分布模型中分布分量的個數;ηm為第m個分布分量的參數;φm為第m個分布分量的權重。
y中各特征參數與Cm的相似度可通過被分解的正則化馬氏距離矩陣表示
(13)

若Mdm在某特征維度上數值越大,則表明該特征對Cm的貢獻率越高。
y中各特征參數對統計分布模型C的貢獻率可表示為
(14)
在實際應用中,R能夠被歸一化。
復雜機械響應點的響應函數[14]為
(15)
其中:Y(t)為t時刻響應點的響應信號;Fm′(t)為t時刻第m′個激勵源的激勵力函數;Hm′(t)為t時刻第m′個激勵源到響應點的激勵信號傳遞路徑的傳遞函數;K′為激勵源數量。
由于設備激勵信號變化過程服從某個未知分布,根據式(15),響應點響應信號的分布即為各未知分布的線性疊加。若設備發生故障,某些激勵力響應函數會發生改變,使得響應點響應信號的分布產生相應變化。DPMM能夠自學習出數據所服從的統計分布,因此可準確表征不同故障振動信號的分布特點。復雜機械都是多自由度非線性系統,即高維非線性系統。高維系統所有可能狀態的集合稱為相空間[15],若設備運行狀態發生改變,其相空間必然發生變化。因此,構建設備振動信號的特征相空間矩陣,并將其作為DPMM的訓練樣本,能夠提高模型的穩定性,使其更準確地表征設備在發生不同故障時的運行狀態。
故障分類方法的流程如圖1所示,主要包括構造特征相空間矩陣、訓練模型、計算特征貢獻率及故障分類4個部分。

圖1 故障分類方法流程圖Fig.1 Flow diagram of fault classification method
故障診斷實際上是一個模式識別問題,而特征的提取和選擇是模式識別的關鍵。為了盡可能全面地反映設備運行狀態,筆者從時域、時頻域角度選取了機械故障診斷的常用特征,并依據往復壓縮機運動特點增加了角度域特征。在運用類內類間距離準則對特征進行優化后,最終得到34個最優特征,如表1所示。獲取N組不同類型故障的訓練樣本Xi,i∈[1,N],提取特征并構造特征相空間矩陣Fi,i∈[1,N]

表1 特征類型說明
(16)
其中:b為每個訓練樣本中包含的數據組數;Fi(a)為第a組數據的特征矩陣;fe×g為第e個測點信號的第g個特征;q為監測點數量;p為特征數量。
將Fi作為DPMM的訓練樣本,其與式(6)中觀測數據集X相對應。輸入樣本后,采用平均場變分推斷方法近似隱變量Wi={vi,ηi,Zi}在模型中的后驗分布p(Wi|Fi,θi)。在求得變分分布族后,通過迭代變分參數εi,使logp(Fi|θi)的下界L達到一個局部最大值,進而求得各分布分量的權重與參數。
利用DPMM方法自學習出的機械不同故障振動信號的統計分布模型Mi,i∈[1,N]可表示為
其中:ηi和φ(vi)分別表示該分布模型的參數集與權重向量。
對于給定的Fi,首先計算其中各特征參數的平均值并得到一組特征向量yi,然后分別計算yi在Mi各分布分量中的后驗概率
(21)
其中:K為Mi中分布分量的個數。
yi中各特征參數與Ci,m的相似度可表示為
(22)
根據式(14),計算各類故障數據的特征貢獻率并將其作為分類模型
(23)
計算觀測數據的特征貢獻率r,并將其與各分類模型Ri(i∈[1,N])進行比較,其間的差異反映了觀測數據與各類故障數據的相似程度。由于特征貢獻率維度較高,難以通過直接觀察判斷其間的差異,因此,提出一種基于距離的差異度表示方法
(24)
其中:L為特征種類的數目。
將特征貢獻率間的差異表示為一個數值,能夠直觀有效地進行故障分類。
所提出的方法通過將設備振動信號中各激勵信號成分進行準確區分,并在此基礎上計算特征貢獻率進行故障分類。往復壓縮機作為復雜機械裝備的一種,激勵源較多,其響應點的響應信號與結構相對簡單的機械裝備的響應信號相比包含有更多的激勵信號成分,由故障引起的激勵信號的細微變化在疊加后的響應信號中更難以體現。該裝備故障數據較為豐富,易于獲取。因此,筆者采用往復壓縮機不同類型故障的振動數據驗證提出方法的有效性。
以4缸往復壓縮機為例說明振動信號監測傳感器的測點布局,如圖2所示。加速度傳感器安裝在十字頭上方的中體測點,速度傳感器安裝在曲軸箱殼體上。傳感器的采樣頻率為10 240 Hz,往復壓縮機轉速為300 r/min,采樣長度為往復壓縮機運轉的2個周期。

圖2 傳感器測點布局Fig.2 Layout of sensor measuring points
用于試驗的故障案例數據均采集于石化企業的生產現場,如表2所示。由于各企業生產需求不同,同類故障案例中往復壓縮機的結構形式及負荷狀態不盡相同。從6種不同類型故障案例數據中各選取1組作為訓練數據,其余作為測試數據。對各組數據進行樣本劃分,綜合考慮模型訓練效率和故障分

表2 故障案例數據詳情
類準確率,每個樣本包含的數據組數設為400,劃分后的各組數據均包含豐富的樣本。從6組訓練數據中各隨機選取1個樣本用于構建分類模型,從測試數據中各隨機選取1個樣本用于對所提方法進行測試。為了減少隨機因素的影響,試驗重復進行20次。
該方法的試驗結果如圖3所示,可以看到,20次試驗的分類準確率均為100%,充分說明提出的方法可以準確識別往復壓縮機不同故障模式下的6種健康狀況。為了比較,使用文獻[7]方法(GMM方法)與基于Relief算法的故障診斷方法(Relief方法)診斷相同的數據。測試GMM方法時,分布分量的數目設置為3。測試Relief方法時,使用與提出方法相同的距離計算方法來表示不同特征權重間的差異。兩種對比方法的試驗結果也示于圖3中。觀察分類結果可以看出:GMM方法20次試驗的分類準確率在60%~94.29%范圍內, 變化幅度較大,分類精度不穩定;Relief方法的20次試驗分類準確率在62.86%~74.29%范圍內波動,準確率整體偏低。為了定量對比3種方法的分類精度,計算20次試驗的平均分類準確率以及相應的標準差,如表3所示。可以看到,在分類精度方面,所提方法最高,其平均分類準確率為100%;Relief方法最低,其平均分類準確率僅為67.29%。在分類穩定性方面,所提方法最穩定,其分類準確率的標準差為0;GMM方法最不穩定,其分類準確率的標準差高達8.54%。當訓練樣本相同時,提出的方法訓練模型的時耗較少,具有更高的時效性。以上結果表明,筆者所提方法的故障分類能力相比于其他兩種方法均有明顯優勢。

圖3 20次試驗中的分類準確率Fig.3 Classification accuracy of 20 tests

表3 3種方法的試驗結果對比
通過對圖3的觀察,發現GMM方法的第12次與第19次試驗只獲得了60%的分類準確率,第3次與第10次試驗卻獲得了94.29%的分類準確率,因而以第12次與第19次試驗為代表具體分析。表4為2次試驗的結果詳情,可以看到,GMM方法在2次試驗中都無法對撞缸、液積以及拉缸故障進行準確分類。

表4 試驗結果詳情
以撞缸故障為例,GMM方法對20組測試樣本的故障分類效果如圖4(a)所示。通過觀察可以看出,在給定測試樣本的條件下,撞缸、液積與拉缸故障模型的后驗概率(無量綱)較為接近,存在誤報警現象。GMM方法由于在構建往復壓縮機振動信號的GMM時,分布分量的數目需人工設定,難以準確表征信號實際的分布特點,導致撞缸、液積與拉缸故障數據的統計分布模型間差異較小,無法進行準確的故障分類。
DPMM由于可以自動確定準確的分布分量數目,能夠更精確地表征往復壓縮機振動信號的分布特點。將GMM方法中的GMM更換為DPMM,并用相同測試樣本對修改后的方法(DPMM方法)進行對比測試,試驗結果如圖4(b)所示。可以看出,拉缸故障模型與撞缸及液積故障模型有了明顯區分,且撞缸故障模型的后驗概率較GMM方法有所提升。然而撞缸與液積故障模型間差異不明顯,依然存在誤報警現象。所提方法將特征貢獻率作為分類指標,其試驗結果如圖4(c)所示。可以看到,測試樣本的特征貢獻率與撞缸故障分類模型間的距離(無量綱)遠小于其與拉缸故障分類模型間的距離,20次試驗的分類準確率達到100%。該方法所構建的撞缸與液積故障的分類模型如圖5所示,通過比較可以看出,機組發生不同故障后,各特征參數的貢獻率(無量綱)會發生相應變化,兩種分類模型間有著較明顯的區別。因此,在準確表征振動信號分布特點基礎上,將特征貢獻率作為分類指標,能夠突顯不同故障數據間的差異。

圖4 撞缸故障分類效果Fig.4 Classification effect for cylinder collision fault
與提出方法的分類方式相近,Relief方法將特征權重作為分類指標,通過比較測試樣本的特征權重與各類故障數據特征權重間的距離(無量綱)進行故障分類。然而該方法僅對設備響應信號進行分析,由于某些激勵信號的變化在疊加后的響應信號中體現不明顯,通過該方法計算得到的特征權重中難以包含有效的故障信息,且由于往復壓縮機振動信號呈現非平穩性,該分類指標穩定性較差。觀察圖4(d)可以看出,測試樣本的特征權重與各分類模型間的距離波動較大,難以進行準確的故障分類。
提出了一種DPMM與BIC相結合的機械故障分類方法。該方法基于機械振動信號的高維特征參數,采用DPMM方法自學習高維特征的統計分布模型,并依據BIC理論計算各特征參數在統計分布中的貢獻率,通過比較觀測數據與各類故障數據特征貢獻率間的差異實現故障分類。試驗結果表明:相對于基于Relief算法的故障分類方法,提出的方法能夠深入分析設備各激勵信號產生的細微變化,使分類指標中包含更豐富的故障信息;與基于GMM的故障診斷方法相比,提出的方法能夠更準確地表征機械振動信號的分布特點并突顯各類故障數據間的差異。該方法能夠實現復雜機械常見故障的準確分類,時效性高,泛化性能強,具有重要的工程應用價值。