黎天雙,顏承玉,李晶晶,饒全瑞,劉廣臣*
(1.魯東大學數學與統計科學學院,山東煙臺 264000;2.魯東大學交通學院,山東煙臺 264000;3.魯東大學信息與電氣工程學院,山東煙臺 264000)
隨著國內發展逐漸向綠色生態且環境友好轉型,國家越來越重視風能等清潔能源的開發與利用,并且不斷促進對風力發電行業的發展,越來越多的風電機組投入使用應用于發電。風電機組的運行與發電效率很大程度取決于機組的主軸承、齒輪箱等傳動系統部件,而主軸承是機組傳動系統中的關鍵部件之一,在風機運行中起到至關重要的作用,像風電機組軸承、齒輪箱等重要部件,一旦因其自身壽命衰減演變為性能失效導致停機將造成運維成本及大量人力物力資源的浪費。研究風電機組重要部件的剩余壽命預測方法可以有效地降低更換設備部件頻次從而減少運維成本及維修時間。
因此,上述風電機組重要部件的剩余壽命預測方法已成為研究學者所要研究的重點內容,特別是對風機設備軸承的剩余壽命預測方面。王柱[1]建立SVM模型并用以粒子群算法進行優化,預測風電機組中齒輪箱部件的剩余壽命,者娜等[2]提出融入PCA降維數據,并對SVM進行改進的預測方法預測滾動軸承剩余壽命,徐繼亞等[3]利用KPCA并融合信息粒化方法,從而建立基于SVM算法的預測模型,用來預測滾動軸承性能退化狀況,馬海龍[4]首先融合主元特征,然后基于SVM 算法預測機械設備中軸承剩余壽命,楊志凌等[5]利用PCA 融合多變量特征,并建立Wiener 過程模型實現風電軸承剩余壽命的預測。前述方法均為基于傳統的算法建立預測模型,傳統預測方法用于復雜多變的風電機組軸承運行工況將突顯其自身的局限性以及預測準確率不高等不足。
綜合上述研究現狀存在的問題,本文采用較為新穎的主流算法模型,即XGBoost 算法模型對風電機組軸承剩余壽命進行預測。
本文提出采用XGBoost算法建立預測模型對風電機組軸承剩余壽命進行預測,具體流程操作為首先對原始振動信號進行時域、頻域特征指標的提取,將特征指標數據集標準化處理,從而構建出能夠表征設備中軸承性能退化狀況的特征數據集。其次,將特征數據集按8:2 劃分為訓練集和測試集,訓練集基于XGBoost 算法進行訓練,從而對軸承剩余壽命預測建立模型并進行剩余壽命預測,測試集用于測試訓練完備的模型并對其預測效果進行評估。最后,計算多個評價指標綜合評價模型的準確性及穩健性等方面。剩余壽命預測流程如圖1:

圖1 剩余壽命預測方法流程圖
當模型預測效果優良而且各指標評估達到要求后,可應用于風電機組軸承等重要部件中,將風電機組系統后臺實時監測數據經特征工程后持續輸入預測模型,得出模型預測趨勢圖。利用由模型預測得出的風電機組軸承剩余壽命趨勢圖,有效監測風電機組軸承等重要部件的性能退化狀況以及預知其當前的剩余壽命。
評估風電機組軸承的性能退化情況是預測軸承剩余壽命的關鍵步驟。評估風機中軸承的性能退化狀況需要對軸承的運行情況進行實時監測并通過某種手段反映出軸承的運行狀態以及狀態變化的規律,即構建能夠表征軸承性能退化狀況的指標集。
振動信號可以反映設備中軸承的運行狀態[6],此外,軸承振動信號的特征指標會隨著軸承運行中故障的出現及加劇發生變化[7]。振動信號特征指標提取方法有時域特征分析法和頻域特征分析法。本文對原始振動信號較為全面地綜合提取18種時域特征指標和13種頻域特征指標,初步構建較為全面的能夠表征軸承性能退化狀況的特征指標數據集。
數據的標準化(Normalization)一般用于處理比較和評價的指標,將這類數據按比例縮放至一小的特定區間內,即轉化為無量綱的數值,實現去除數據原先的單位所帶來的限制,以便對不同的單位或數量級進行比較和加權。
數據標準化后保留了數據原有的意義,而且能提高進行數據運算的效率,輸入模型將一定程度上改善模型收斂效果。
數據的標準化有多種方式,其中最常用的是ZScore 標準化,計算公式如下:
式中,μ為樣本數據的均值(mean),σ為樣本數據的標準差(std)。特征數據進行標準化處理后構建出特征數據集。
XGBoost[8]是由多棵CART 回歸樹組合而成的,其利用加法模型和不斷遞進的算法實現學習的優化路徑。模型最終預測結果為多棵決策樹預測值的累計,其通過GDTB(Gradient Tree Boosting)實現多棵樹的集成學習,得到最終模型。XGBoost 通過加入正則項在代價函數中,控制模型復雜度,將學習出來的模型簡單化,避免過擬合。與此同時,XGBoost 對Gradient Tree Boosting 進行優化,實現了模型構建的高精度和高效率。
式(2)中:Obj為目標函數,其中L為損失函數項,即訓練誤差,y?i為預測值,yi為第i個樣本的類別標簽。
式(3)中:Ω(fk)為正則項,其中fk為第k棵樹的模型,T為每棵樹的葉子節點數,ω為葉子權重值,γ為葉子樹懲罰正則項,λ為葉子權重懲罰正則項。
本文綜合4 個評價指標對模型進行多方面評估,分別是擬合優度(R Squared)、均方誤差(MSE)、平均絕對誤差(MAE) 、平均相對誤差絕對值(MAPE) 。計算公式如下:
其中,i為剩余壽命樣本編號,yi為剩余壽命實際值,yi為剩余壽命預測值,R2稱為擬合優度,R2取值范圍是[0,1]。
本文所研究的風電機組軸承其構造原理與其他大型旋轉機械設備中軸承類似,而且風電機組設備部件運行至失效時刻的監測數據暫不易獲取甚至幾乎沒有[9],故采用軸承全壽命公開數據集來近似模擬風電機組軸承壽命預測。由此對本文提出的基于XGBoost算法模型用于風電機組軸承剩余壽命預測方法的有效性進行驗證,所用試驗數據為XJTU-SY 軸承數據集[10],由軸承加速壽命試驗平臺獲取,如圖2所示。該數據集設置了3類不同工況,共有15個全壽命周期振動信號的軸承。每個軸承的數據都包含水平和垂直兩個方向的振動信息。數據采樣頻率為25.6 kHz,數據的采樣時間間隔為1min,采樣時間為1.28s。

圖2 軸承加速壽命試驗平臺(來源:文獻[9-10])
本文結合水平方向和垂直方向的振動信號展開試驗。試驗中選用工況3中的軸承數據集,即軸承3_1,該軸承的采樣樣本共2 538 個,每個樣本的采樣值有32 769 個,其實際壽命為42h18min。利用Python軟件提取每個樣本的18種時域特征和13種頻域特征共62種特征指標,特征數據集的訓練集與測試集按8:2進行劃分。
然后,用于模型的訓練與測試標簽y 具體標簽方法如下:由軸承的剩余壽命百分比用以代表其剩余壽命情況。1 表示軸承運行的初始時刻,隨著運行周期數的增加,軸承性能退化程度不斷加深,直至失效時刻,此過程中軸承的剩余壽命百分比逐漸遞減趨近于0,反映了軸承的剩余壽命情況。據此,界定1表示軸承性能完好,0 表示軸承性能失效,以剩余壽命百分比,即剩余壽命與總壽命的比值,作為標簽y值。由此構建出軸承剩余壽命預測的標簽y數據集。試驗的模型訓練過程中,本文設置樹的個數、樹的深度等6個參數。XGBoost模型采用機器學習中貝葉斯優化方法進行參數調優,設定參數的取值空間后,貝葉斯算法能夠自動優化參數得出最優參數組合。
本文使用五折交叉驗證方法,相比較三折交叉驗證能更好地避免隨機劃分數據集產生的偶然性,更大程度上降低隨機事件發生概率,確保所建立模型的穩健性和準確性。
為了更好評價基于XGBoost算法的預測模型的預測效果及其穩健性和準確性等方面,本文將其與建立的其他三種算法模型進行對比,通過計算前文列舉的4項評價指標,得到多種模型的綜合評價結果,如表1所示。

表1 不同模型預測結果對比
由表1 可知,XGBoost 算法模型的預測準確率最高,擬合優度R2達0.9998,而且MSE 等三個預測誤差指標均小于其他三種算法模型的相應指標,說明XGBoost算法模型在準確性、穩健性方面最優。
為了更直觀反映軸承剩余壽命的預測情況,對預測結果進行可視化處理,繪制出四種模型預測效果圖,如圖3所示。

圖3 不同模型剩余壽命預測結果
從圖3 可以看出,各模型的預測結果均貼近實際剩余壽命曲線,但明顯可以對比看出,在四種模型中XGBoost 模型的預測值與實際壽命值最為逼近,預測效果最佳。
本文針對風電機組軸承剩余壽命的預測在傳統方法中存在的問題,提出一種基于較為新穎的XGBoost 算法模型的預測方法,經過近似模擬驗證得出結論:通過將XGBoost 算法模型與其他三種算法模型進行對比,發現在預測模型的準確性和穩健性等多方面上,XGBoost算法表現更優,在預測結果上其預測曲線更加逼近實際壽命曲線,擬合程度最高,證明了所提方法的可行性,為風電機組軸承剩余壽命預測提供一種新的思路。