范傳翰,宋禮威,劉厚林,董 亮,肖幸鑫,陳澤宇
(1.江蘇大學流體機械工程技術研究中心,江蘇 鎮江 212000;2.中廣核工程有限公司核電安全監控技術與裝備國家重點實驗室,廣東 深圳 518172)
離心泵廣泛應用于國民經濟的各個領域。由于離心泵工作環境復雜,運行工況調節頻繁從而導致離心泵發生故障的概率增大,造成效率降低,甚至會出現安全事故。轉子是離心泵中的重要組件之一,機組在長期運行過程中容易導致轉子發生故障。其中,轉子不平衡、不對中故障最為常見[1]。近年來,隨著計算機技術的進步,國內外學者利用不同的方法為不同設備的故障診斷提供了很多參考[2]。屈梁生[3]系統研究了全息譜技術所衍生各項技術及在各類機械故障診斷實踐中的應用。Dong[4]等人將小波包分解(WPD)與主成分分析(PCA)和徑向基函數(RBF)神經網絡相結合,完成了對離心泵汽蝕狀態進行檢測,并取得了較好的結果。董明[5]等人利用典型故障氣體的相對含量在高維空間的分布特性輸入到SVM(支持向量機)中對變壓器故障類型診斷。薛延剛[6]等人改進了SVM 模型并引入故障分類準確性判定因子對水電機組進行了智能診斷。張麗平[7]研究了PSO(粒子群)算法的基本結構、算法特點、改進方法、實現模式及應用等方面并將其引入到BP 神經網絡中,取得了滿意的結果。蔡振宇[8]等人將PSO-SVM(粒子群優化支持向量機)模型應用到振動機械故障診斷實例中,其結果表明相較于傳統神經網絡,PSO-SVM具有更高的準確性。
隨機森林是通過集成學習的思想將多棵樹(決策樹)集成的一種算法,有著較高的準確率、可解釋性及能夠評估各個特征重要性等優勢。Wang[9]等人通過提取振動信號的無量綱指數做為特征參數,利用隨機森林訓練,預測精度高達100%。馬富齊[10]利用隨機森林的特性通過剔除掉冗余的特征向量,進行了對機組的故障診斷。單增海[11]等人將得到的多傳感器信息融合后,進行特征篩選,利用多粒度級聯森林模型完成了對液壓泵健康狀態評估。段智勇[12]等人利用隨機森林算法對屏蔽泵進行故障診斷,并取得了滿意的效果。徐書凡[13]將潛油螺桿泵井的參數數據輸入隨機森林模型,完成了對潛油螺桿泵采油系統故障診斷。
當前在針對離心泵轉子故障能夠評估其故障特征重要性特征的研究較少,并且非重要特征之間的相關性會進一步削弱故障識別的效果,從而影響故障診斷效率及準確率。本文旨在通過隨機森林對提取出的故障特征重要性進行分析、篩選,結合PSO-SVM 對離心泵轉子常見故障狀態進行識別。通過在離心泵上放置振動加速度傳感器進行原始信號采集,利用時域、頻域處理方法,提取原始信號的時、頻域特征參數矩陣,通過隨機森林得到重要性較高的特征,并將之與隨機森林分類得到的分類結果進行組合,得到新的故障特征參數矩陣,進入PSOSVM 中進行訓練、驗證。這樣既能降低非重要故障特征對離心泵轉子故障識別效果的影響,也能減少故障特征參數矩陣的維度,從而減少冗余的故障信息,降低計算的復雜程度。
隨機森林(Random Forest,簡稱RF)是Bagging 的一個擴展變體[14]。它首先基于bagging 思想,無放回的可重復的對初始數據集進行采樣,再利用這些采樣集訓練決策樹,同傳統決策樹選擇特征(信息增益)不同的是RF 選擇特征時隨機從特征集中抽取一部分特征子集,并從這些子集中選擇一個最優屬性用于構建決策樹的節點,進行下一步的分裂。由于構建每一顆決策樹時是從數據集中進行隨機可重復進行采樣,因此還有部分數據集是沒有被采樣到的,這部分數據稱為袋外數據(oob),將這部分數據代入已建立的決策樹中,可以用于計算決策樹的預測錯誤率(袋外數據誤差,oobErr)。
由于原始信號具有信息量大、特征隱蔽和包含較多的噪聲等特點,單純直觀分析無法獲得被監測對象的具體健康狀態信息,因此需要通過不同的信號處理方法對原始信號進行轉換和處理,從而提取出能夠反映運行設備的狀態特征信息[15]。均方根值、峰值、峰值因子、峭度、脈沖因子、裕度因子和波形因子是振動信號進行時域統計分析最常用的參數指標[16]。為了更多反應原始信號攜帶的特征信息。另外選取了較為常用的4個時域特征和3個頻域統計指標,時域特征為方差、均值、峭度因子、偏度;頻域為重心頻率、均方根頻率、標準差頻率。本文統計共14個時、頻域指標作為故障特征的統計指標,計算公式如表1。

表1 特征計算方法Tab.1 Calculation method of characteristics
表中的x(n)為信號的時域序列,n=1,2,3,…,N,N為樣本點數;U(i)表示的是信號x(n)的頻譜,其中i=1,2,3,…,m,m為譜線的個數;fi表示的是第i根譜線的頻率值。
對于隨機森林中某個特征重要性a的計算步驟如下:
(1)假設隨機森林中共有n顆決策樹,對于一棵樹Ti,其中i=1,2,3,…,n,用袋外數據oob(i)代入已建立的決策樹Ti中,計算該樹的袋外數據誤差,記作oobErr01(i)。
(2)然后隨機置換oob(i)中第j列的特征參數,置換的方法是通過permutation 方式將oob(i)中所有樣本的第j個特征參數重新打亂分布,保持其他特征參數不變,重新計算該樹的袋外數據誤差,記作oobErr02(i)。
(3)則該特征重要性a的計算公式如下:
若加入噪聲后袋外數據準確率下降,即oobErr02(i)上升,特征重要性a增大,則該特征重要程度比較高。
本文利用隨機森林算法和PSO-SVM 進行離心泵轉子不平衡、不對中故障診斷的流程圖見圖1。

圖1 診斷流程圖Fig.1 Diagnostic flow chart
以一臺離心泵作為實驗對象,離心泵的主要參數為:額定流量10.6 m3∕h;額定轉速2 900 r∕min;額定揚程26 m;比轉速49.88。信號采集選用的振動加速度傳感器精度為±1%。
振動加速度傳感器布置在離心泵進口法蘭水平徑向。實驗過程中先調節變頻電機的轉速使其達到設定轉速,然后調節泵的出口閥門,使其達到設定的流量位置,待運行穩定時采集數據。
轉子不平衡故障復現時分別用2.6、6.3、9 g 的配重塊安裝在聯軸器的螺栓上,使其產生質量偏心。不同重量的配重實驗時,配重塊安裝在同一位置。為了提高該診斷模型在不同工況下的診斷率,根據泵的相似定律,每個配重實驗分別在0.7n、0.85n、1.0n轉速工況,0.7Qn、0.85Qn、1.0Qn流量工況下進行,共27組實驗。

圖2 實驗現場測點布置圖Fig.2 Layout of experimental points
轉子平行不對中故障復現時,通過移動電機的位置,使轉子產生不對中現象。不同平行不對中故障(30 絲、40 絲、50 絲)實驗時,分別在0.7n、0.85n、1.0n轉速工況,0.7Qn、0.85Qn、1.0Qn流量工況下進行,共27組實驗。
實驗所用傳感器采集設定采集頻率為25 600 Hz,采樣時間1 s。其中正常、不平衡、不對中在1.0n、1.0Qn工況下進口法蘭水平徑向的振動加速度信號時域圖形如圖3所示。

圖3 不同設備狀態下時域圖Fig.3 Time domain diagram under different device states
由于不平衡、不對中的特征頻率主要出現在低頻段,本文分析頻譜圖時只截取0~500 Hz作為分析頻段。
圖4為正常工況下、不平衡程度為6.3 g、不對中程度為30絲時額定轉速、流量的軸承座測點的頻域圖。不平衡工況下對比正常工況下的頻域圖,可以看到圖中一倍頻(48.33 Hz)的幅值有所增大,這符合不平衡故障發生時的特征表現,頻譜圖中出現6倍頻是由于實驗泵所用葉輪為6葉片葉輪,出現的6倍頻為葉頻。不對中工況下對比相較于正常工況下的頻域圖,可以看到頻譜圖中二倍頻的幅值有所增大,同時一倍頻幅值有所降低,這符合轉子平行不對中故障發生時的特征表現。

圖4 頻域圖Fig.4 Frequency domain diagram
將實驗采集獲得的數據進行處理,按照上節特征提取方法提取故障特征參數,得到一個315×14的故障特征矩陣并進行標簽標記,采用模型訓練方法主要分為以下幾個步驟進行。
(1)故障特征集再構建,將故障特征集作為隨機森林的輸入,利用隨機森林每次會有約1∕3 的樣本沒有參與決策樹的建立,得到每個特征的重要性測度指標,將重要性前6個的故障特征及隨機森林分類器得到的分類結果作為新特征集的組成,得到新故障特征集。
(2)SVM 算法屬于有監督學習算法,是最優秀的分類算法之一,廣泛的應用于科學技術領域,因此本文選擇SVM 為故障識別的學習算法。由于支持向量機(SVM)中核函數半徑(g)、懲罰因子(c)難以選擇最優的[17],本文選擇RBF 作為SVM 的核函數,利用粒子群優化支持向量機(PSO-SVM),尋找最優的粒子點為SVM 的最優核函數半徑和懲罰因子。將得到的新故障特征集等比例分組,50%作為SVM 的訓練集,用于訓練模型;50%作為SVM的測試集,用于驗證模型。
本文中,隨機森林決策樹數量設為400,最小葉節點設置為5,將原始特征矩陣輸入得到每個特征的重要性評估由大到小排序如圖5所示。

圖5 特征重要性評估Fig.5 Characteristics importance evaluation
取重要性排序前6 的特征分別為峭度、方差、均方根、重心頻率、均方根頻率、標準差頻率。同時將隨機森林分類器得到的不同故障的分類概率結果作為新的故障特征,同重要性較高的6個特征最終得到一個新的315×9特征集。
故障特征矩陣進行分組,分組情況如表2所示。

表2 故障特征分組情況Tab.2 Grouping of fault features
將分組后的原始故障特征矩陣與新故障特征矩陣的訓練集分別輸入PSO-SVM 中進行分類訓練,PSO-SVM 適應度曲線如圖6所示,從圖6中可以看出重構后的原始特征在通過PSO算法計算最佳的適應度在經過第4 次迭代后達到最優,此時的最優核函數半徑g等于0.01,懲罰因子c等于12.395 9,SVM 訓練精度100%,相較于原始特征矩陣輸入SVM 中通過PSO 算法計算最佳的適應度在經過第33次迭代后達到最優,訓練精度為85.6%,無論是迭代次數還是訓練精度都有大幅度改善。

圖6 PSO-SVM 適應度曲線Fig.6 PSO-SVM fitness curve
利用測試數據進行故障診斷,得到的結果如圖7。從圖7中可以看出利用原始故障特征集進行驗證時有大部分正常狀態下的數據被識別成了不對中或不平衡,模型對正常狀態下的故障特征數據識別表現不好,不能很好的區分正常與不對中故障。數據顯示重構特征矩陣訓練的SVM 故障診斷模型對測試集的分類精度達到99.36%,相較于原始故障訓練的SVM 故障診斷模型的識別精確度86.7%,對故障的識別精度有明顯的提升,其部分診斷概率詳情見表3。

表3 進口法蘭水平徑向測點部分概率詳情Tab.4 Partial probability details of inlet flange horizontal and radial measurement points

圖7 進口法蘭水平徑向測點PSO-SVM 診斷結果Fig.7 PSO-SVM diagnosis results of horizontal and radial measurement points of inlet flange
利用隨機森林篩選出的重要特征,并將其與隨機森林的分類結果重新組合形成新的故障特征矩陣,通過將原始特征矩陣與重構后的特征矩陣分別輸入進PSO-SVM,得到每組特征向量對應不同標簽的預測結果,主要的結論如下。
(1)重構后的故障特征矩陣在進入PSO-SVM 中進行訓練時,表現出更好的適應度,在尋優過程中僅迭代4 次,便達到最佳訓練精度,且訓練精度明顯高于原始故障矩陣的訓練精度,達到100%;
(2)進行模型精度測試時,重構后的故障特征矩陣表現明顯好于原始故障特征矩陣,其測試精度達到99.36%,能夠明顯區分出正常、不對中、不平衡下的數據。