李 鋒, 陳 勇, 湯寶平, 王家序, 3
(1. 四川大學機械工程學院 成都, 610065) (2. 重慶大學機械傳動國家重點實驗室 重慶, 400044)
(3. 四川大學空天科學與工程學院 成都, 610065)
旋轉機械廣泛應用于各種關鍵的設備中,其性能狀態直接決定著設備能否長期安全可靠地運行[1]。由于目前對許多旋轉機械建立物理失效預測模型十分困難[2],基于數據驅動的狀態預測方法獲得了越來越多的關注和研究。基于數據驅動的狀態退化趨勢預測方法一般分為:現代模型預測方法(例如灰色模型(grey model,簡稱GM)),數值分析預測方法(例如最小二乘支持向量機(least squares support vector machine,簡稱LSSVM)等)和人工智能預測方法(例如專家系統和神經網絡等)。文獻[3]采用小波GM開發了一種用來預測旋轉機械故障的分析儀。文獻[4]在時序數據的特征空間上將預測當做高斯過程,利用貝葉斯預測模型(Bayesian prediction model,簡稱BPM)進行風力發電機組軸承失效預測。文獻[5]利用模糊神經網絡對軸承進行剩余壽命預測。然而,以上預測方法仍存在很多缺陷。對于GM,驅動變量之間的互相作用關系不明確,未考慮在作用期內驅動變量對系統行為序列的作用強度隨時間變化的問題,使得GM很難得到精確的預測結果。由于BPM通常無法及時找到最需要推理的因素,不能及時得到該因素的預測值。傳統神經網絡如LSTMNN和循環神經網絡(recurrent neural network,簡稱RNN)的隱層層數和隱層節點數的選擇沒有完善的理論指導[6],一般只能靠經驗選擇,導致神經網絡的預測精度和計算效率都不佳。作為一種解決序貫決策問題的機器學習框架,強化學習采用不斷的“交互-試錯”機制[7],實現決策函數和環境的持續交互,從而學得完成任務的最優策略,契合了人類提升智能的行為決策方式[8-13]。針對傳統神經網絡的隱層層數和隱層節點數根據經驗選擇導致泛化性能和非線性逼近能力不可控的問題,結合強化學習在行為決策方面的優勢,在長短時記憶神經網絡的基礎上,筆者提出了強化學習三態組合長短時記憶神經網絡。RL-3S-LSTMNN具有較好的泛化性能、非線性逼近能力和收斂速率。
利用所提出的RL-3S-LSTMNN的優勢,筆者提出了基于RL-3S-LSTMNN的狀態預測方法。將該方法用于旋轉機械狀態退化趨勢預測,可獲得較理想的預測精度和較快的計算效率。
RL-3S-LSTMNN模型通過構造單調趨勢識別器將時序數據分為3個趨勢單元(平穩、下降和上升),再采用強化學習分別為每個趨勢單元選取一個隱層層數和隱層節點數與其變化規律相適應的長短時記憶神經網絡。該模型如圖1所示。

圖1 RL-3S-LSTMNN模型Fig.1 Model of RL-3S-LSTMNN
RL-3S-LSTMNN模型具體的思路如下:

x=ht+b
(1)
平方擬合誤差為
(2)
為了求出最優擬合方程,依據微積分求極值原理,需滿足以下條件

(3)

其中:λ<0且μ>0。以上就是最小二乘回歸單調趨勢識別器的構造過程。
將上述3種趨勢狀態作為強化學習的環境狀態,決策函數依據當前的趨勢狀態,從動作集a里選取執行一個動作,動作集a如表1所示。

表1 動作集aTab.1 Action set a
在選取動作的過程中,采用由狀態集s與動作集a構成的Q表替代折扣累積獎勵期望值,如表2所示。

表2 Q表Tab.2 Q table
根據Q表(Q表用于保存獎勵,Q值即動作選擇的依據,每次執行動作獲得的獎勵再反饋更新Q值,經過多次動作執行后,Q表里的Q值會趨于穩定,因此穩定的Q值儲存了學習獲得的經驗),利用決策函數為每個狀態選取一個相對應的動作,決策函數的表達式為
(4)
其中:a*(si)∈a1,a2,…,ad,i∈1,2,3表示在狀態si下決策函數選取的動作。
得到狀態si下相應的動作a*(si)后,再根據a*(si)表示的網絡隱層層數和隱層節點數對一個LSTMNN進行設置,就得到一個與時序xt(即趨勢狀態si)對應的長短時神經網絡,記作i-LSTMNN。

(5)
(6)
(7)
根據矩陣運算法則可知,隱層節點數和輸入向量維數共同決定權值和活性值維度,因此式中各門的權值和活性值的維度為t×m。為了簡化網絡的更新過程,將各偏置量簡略,因此只需對權值與活性值進行更新。
(8)
(9)
(10)
(11)

RL-3S-LSTMNN的學習過程劃分為兩步:①強化學習Q表的更新;②與每個趨勢狀態相對應的最終i-LSTMNN權值和活性值的更新。
1.2.1 強化學習Q表的更新

(12)
在狀態si下,結合輸出誤差,選取動作a得到的獎勵r由下式計算
(13)
其中:e為自然指數。
顯然r∈(0,1)且與輸出誤差成負相關(即輸出誤差越大,獎勵值越小)。
再根據貝爾曼方程和獎勵值更新Q表中狀態si下選取動作的Q值
q(si,a)′=
(14)


1.2.2 最終i-LSTMNN權值和活性值的更新
這里通過隨機梯度下降法來更新權值和活性值,如果最終i-LSTMNN隱層層數為1,由式(5~9)、式(12)和鏈式求導法可得到各權值和活性值的梯度,再根據如下公式進行更新
(15)
其中:W′和U′為更新后的權值和活性值;ψ為學習率。

如圖2所示,基于RL-3S-LSTMNN的旋轉機械狀態退化趨勢預測方法的實現過程如下。

圖2 基于RL-3S-LSTMNN的狀態退化預測方法實現過程Fig.2 Implementation of the proposed state degradation trend prediction method based on RL-3S-LSTMNN
1) 使用奇異譜熵[14]對旋轉機械全壽命振動數據進行特征提取。
2) 通過滑動平均方法對奇異譜熵進行降噪處理,并將降噪后的奇異譜熵作為旋轉機械狀態退化特征。
3) 將此特征輸入到RL-3S-LSTMNN進行訓練。由文中1.2節的學習過程可知,RL-3S-LSTMNN的訓練過程分為:采用單調趨勢識別器判別輸入序列的趨勢、訓練強化學習和訓練最終與趨勢狀態相對應的i-LSTMNN。
4) 通過訓練好的與趨勢狀態對應的i-LSTMNN來預測旋轉機械狀態退化趨勢。
RL-3S-LSTMNN的訓練過程如下:取一段奇異譜熵序列[xb,xb+1,…,xb+(l+1)t-1]作為訓練樣本,然后對此序列進行分解
T1=[xb,xb+1,…,xb+t-1]?
T2=[xb+t,xb+t+1,…,xb+2t-1]?
?
Tl=[xb+(l-1)t,xb+(l-1)t+1,…,xb+lt-1]?

把樣本依次輸入RL-3S-LSTMNN中,根據1.2節Q表的更新過程實現強化學習的訓練。首先,采用單調趨勢識別器判別l組訓練輸入樣本的趨勢狀態;然后,根據強化學習最終更新的Q表選取最優動作,分別為3種趨勢狀態選擇最終對應的i-LSTMNN(1-LSTMNN、2-LSTMNN、3-LSTMNN)。接下來,通過隨機梯度下降法分別對選取的i-LSTMNN訓練M次,即在每次訓練之前從狀態si的訓練樣本中隨機地選取一組樣本輸入對應的i-LSTMNN,再根據1.2節i-LSTMNN的更新法則,完成i-LSTMNN的一次訓練。重復上述訓練過程M次,就完成了RL-3S-LSTMNN的完整訓練過程。

在正常狀態下,滾動軸承的振動時域信號近似為高斯分布,這時信號主要源自保持架轉頻和軸頻,以及保持架相對軸旋轉產生的微弱調制,信號頻率成分簡單,能量集中在少數幾個頻率分量中,使奇異值分解結果集中在少數幾個模式上,因此信號的奇異譜熵[14]較小;隨著滾動軸承出現最細微的狀態退化,信號中產生了微弱的故障頻率以及引起微弱的共振頻率,信號能量開始分散,奇異值分解結果也隨著分散,從而奇異譜熵開始增加;當出現明顯的狀態退化時,噪聲信號的頻率成分所占的比例迅速增加,能量加劇分散,使奇異譜熵增大。基于以上分析,奇異譜熵可以作為旋轉機械的狀態退化特征來描述其振動時域信號的變化趨勢,即能反映旋轉機械狀態的退化趨勢。
使用Cincinnati大學實測的滾動軸承狀態退化數據對所提方法進行驗證[15]。圖3所示為實驗裝置,軸承實驗臺的轉軸上安裝4個航空用軸承,這些航空軸承是Rexnord公司生產的型號為ZA-2115的雙列滾子軸承,實驗中軸承被施加了6 000 lbs的徑向載荷,交流電機通過帶傳動使轉軸以2 000 r / min的恒定轉速旋轉。采樣的頻率為20 kHz,采樣長度為20 480,每10 min采集一次軸承的振動加速度數據,軸承持續運轉直到出現故障。

圖3 滾動軸承性態退化實驗裝置Fig.3 Test equipment of the performance degradation of rolling bearings
實驗臺持續運行21 560 min后,3號軸承出現內圈故障。這里采用3號軸承的振動加速度數據驗證所提方法。3號軸承的全壽命振動數據有2 156組,每組20 480個數據,分別提取每一組前10 000個振動加速度數據進行矩陣重組得到維數1 000×10的矩陣并計算奇異譜熵(無量綱量),如圖4(a)所示。對奇異譜熵序列執行滑動平均降噪處理得到降噪后的奇異譜熵序列,如圖4(b)所示。從圖4(b)可看出,從起始點到第200點的奇異譜熵快速上升,軸承處在跑合階段;從第200~1 700點的奇異譜熵變化緩慢,奇異譜熵曲線較為平直,軸承處在運行平穩的階段;第1 700點之后的奇異譜熵變化速率持續加快,奇異譜熵曲線開始急劇上升,軸承處在故障加劇即狀態退化加劇階段,直到失效。由于3號軸承失效是內圈故障逐步惡化造成,因此在平穩階段的后期(即從第1 300~1 700點區間),3號軸承實際就處在早期故障階段即初始退化階段。將處在初始退化階段的第1 301~1 500點(共計200個點)的奇異譜熵作為訓練樣本;依據第2節表述的RL-3S-LSTMNN預測過程來預測第1 501~2 156點(即最后656個點)的奇異譜熵。

圖4 3號軸承的全壽命奇異譜熵Fig.4 Singular spectral entropy in the whole life of the third bearing
RL-3S-LSTMNN的參數設置如下:狀態趨勢識別器的臨界值λ=-7×10-6,μ=7×10-6;強化學習過程訓練輪數P=5、選取動作的參考值ε=[0.9,0.7,0.5,0.3,0.1];每輪訓練的次數Kρ=100ερ;動作集是由可選隱層層數[1,2,3]與可選隱層節點數3~10兩兩組合共計24種動作組成的集合;Q表中各Q值的初始值為區間[0,1]內的隨機數;Q值更新的折扣因子γ=0.001,Q值更新的調節系數α=0.1;i-LSTMNN的學習率ψ=0.001和訓練次數M=2 000;訓練樣本組數l=49;預測回合數V=164;各回合預測次數(即輸入節點數,也即樣本維數)t=4;輸出的節點數為1。圖5為RL-3S-LSTMNN的預測結果。

圖5 RL-3S-LSTMNN預測的奇異譜熵曲線Fig.5 Singular spectral entropy prediction curve obtained by RL-3S-LSTMNN
為驗證筆者提出的基于RL-3S-LSTMNN的旋轉機械狀態退化趨勢預測方法的優勢,首先采用一種常用的退化特征——排列熵(無量綱量)與文中選用的奇異譜熵的預測效果進行比較,其中排列熵嵌入維數d=5,延遲時間τ=3。如圖6(a)為3號軸承的全壽命過程的排列熵,對排列熵序列進行滑動平均降噪處理得到降噪后的排列熵序列,如圖6(b)所示。同樣地,取圖6(b)第1 301~1 500點(共計200個點)作為訓練樣本;根據第2節闡述的RL-3S-LSTMNN預測過程來預測第1~501~2 156點(即最后656個點)的排列熵。RL-3S-LSTMNN參數設置保持不變,預測結果如圖7所示。

圖6 3號軸承的全壽命排列熵Fig.6 Permutation entropy in the whole life of the third bearing

圖7 RL-3S-LSTMNN預測的排列熵曲線Fig.7 Permutation entropy prediction curve obtained by RL-3S-LSTMNN
由圖7可知,盡管RL-3S-LSTMNN預測的排列熵曲線與實際的排列熵曲線十分接近,但如圖6所示,排列熵所描述的狀態退化過程沒有明顯區分出3個退化階段(即平穩階段、初始退化階段和故障加劇階段)。而如圖4(b)所示,文中選用的奇異譜熵能較清晰地區分出個這3個退化階段。因此,筆者選用的奇異譜熵比排列熵更能清晰反映軸承的退化趨勢。


圖8 LSTMNN,MK-LSSVM,GA-BPNN和ELM預測的奇異譜熵曲線Fig.8 Singular spectral entropy prediction curves obtained by LSTMNN, MK-LSSVM, GA-BPNN and ELM
為更好地評價模型的預測效果,采用納什系數(Nash-sutcliffe efficiency coefficient,簡稱NSE)、均方根誤差(root mean square error,簡稱RMSE)以及平均絕對百分比誤差(mean absolute percentage error,簡稱MAPE)作為預測精度的評估指標,即



表3 5種狀態退化趨勢預測方法的預測性能對比Tab.3 The prediction performance comparison of five state degradation trend prediction methods
然后,在3號軸承原始的全壽命振動加速度信號中加入白噪聲以驗證奇異譜熵具有較強的容噪能力。圖9(a,c,e)分別為隨機抽取的加入噪聲后的平穩階段、初始退化階段和故障加劇階段的一組振動加速度數據的時域圖,圖9(b,d,f)為對應的功率譜分析結果(其中功率為無量綱量)。圖10(a)為加入白噪聲后的全壽命過程的奇異譜熵,圖10(b)為滑動平均降噪后的奇異譜熵。RL-3S-LSTMNN對滑動降噪后的奇異譜熵的預測結果如圖11所示。

圖9 3號軸承加噪聲后的振動加速度數據及對應的頻譜分析Fig.9 Vibration acceleration data of the third bearing after adding noise and corresponding spectrum analysis

圖10 3號軸承加噪聲后的全壽命奇異譜熵Fig.10 Singular spectral entropy in the whole life of the third bearing after adding noise

圖11 加入噪聲后RL-3S-LSTMNN預測的奇異譜熵曲線Fig.11 Singular spectral entropy prediction curve obtained by RL-3S-LSTMNN after adding noise
圖10表明:在原始振動數據中加入背景噪聲后,計算得到的奇異譜熵經過滑動降噪后,依然能較清晰地描述3號軸承所經歷的跑合、平穩、初始退化和故障加劇這4個完整的退化過程,這表明奇異譜熵具有較強的噪聲容納能力。圖11表明,由RL-3S-LSTMNN預測的奇異譜熵曲線與實際的奇異譜熵曲線很接近,而且與圖5所示的沒有加背景噪聲下預測的狀態退化趨勢整體一致,因此RL-3S-LSTMNN具有較好的適用性和魯棒性。
最后,再用LSTMNN,GA-BPNN,MK-LSSVM和ELM完成狀態退化趨勢預測所花費的計算時間(即訓練時間和預測時間之和)與RL-3S-LSTMNN所花費的計算時間進行比較,結果見圖12。RL-3S-LSTMNN的計算時間僅為14.782 s,LSTMNN消耗的時間為10.866 s,GA-BPNN的計算時間為35.636 s,MK-LSSVM的計算時間為26.051 s,ELM的計算時間為22.374 s。很明顯,RL-3S-LSTMNN的計算時間比GA-BPNN,MK-LSSVM和ELM都短,僅比LSTMNN略長(但兩者仍在同一數量級)。由上述的比較結果可知:將RL-3S-LSTMNN應用于雙列滾子軸承的狀態退化趨勢預測,其收斂速率和計算效率比GA-BPNN,MK-LSSVM和ELM更高。

圖12 5種狀態退化趨勢預測方法消耗時間對比結果Fig.12 The comparison results of computation time taken by five state degradation trend prediction methods
RL-3S-LSTMNN通過構造的單調趨勢識別器判別輸入序列的趨勢,用不同隱層層數及隱層節點數和3種趨勢狀態分別表示Q表的動作和狀態,依據最終更新的Q表來選擇最優動作(即選取隱層層數和隱層節點數與各趨勢單元最適應的長短時記憶神經網絡)。所以,RL-3S-LSTMNN獲得了較高的泛化性能和非線性逼近能力。在強化學習訓練過程中,為明確強化學習的學習目的(即使得輸出誤差較小),利用輸出誤差構造獎勵函數,可避免決策函數在Q表更新過程中盲目搜索動作,以提高RL-3S-LSTMNN的收斂速率。由于RL-3S-LSTMNN在泛化性能、非線性逼近能力、收斂速率上的優勢,所提出的基于RL-3S-LSTMNN的旋轉機械狀態退化趨勢預測方法具有較理想的預測精度和計算效率。雙列滾子軸承的狀態退化趨勢預測實例驗證了所提出方法的有效性。