向 玲,王朋鶴,李京蓄
(華北電力大學(保定) 機械工程系,河北 保定 071003)
風能作為一種清潔環(huán)保的可再生資源受到了全球各國的極大關注[1],中國也十分重視風能技術的發(fā)展,如今中國已成為全球最大的風電發(fā)展區(qū)域市場[2-3]。然而,由于惡劣的工作環(huán)境與復雜多變的工作條件,風電機組發(fā)生故障的頻率較高,導致風電機組維護運行成本較高[4-5]。因此,研究風電機組的異常識別技術,及時發(fā)現風電機組的早期潛在故障,對風電場的檢修維護和風電機組的安全運行具有重要意義[6]。
數據采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)系統(tǒng)作為監(jiān)測風電機組運行狀態(tài)的主要技術手段,采集了大量與風電機組運行狀態(tài)相關的變量,但風電機組受風速變化和季節(jié)性氣溫變化的影響,運行狀態(tài)變化劇烈,SCADA系統(tǒng)采集到的正常數據幅值變化范圍很大,難以通過單一的參數判斷風電機組的運行狀態(tài),因此需要提取隱含在眾多參數中的故障特征從而做到對風電機組的運行狀態(tài)的準確判斷[7]。文獻[8]以SCADA系統(tǒng)的部分數據作為輸入參數,以有功功率作為輸出參數建立了基于支持向量回歸(support vector regression,SVR)的預測模型,實現了對風電機組運行狀態(tài)的在線監(jiān)測。文獻[9]通過非線性狀態(tài)估計方法建立溫度預測模型,然后通過人為模擬故障對模型進行驗證,證明了該模型可以及時發(fā)現風電機組的異常變化。文獻[10]采用支持向量回歸建立溫度模型研究齒輪箱異常,并利用趨勢云模型判斷風電機組運行狀態(tài)。文獻[11]結合反向傳播神經網絡(back propagation neural network, BPNN)和遺傳算法(genetic algorithm,GA)構建了風電機組異常識別模型并應用于1.5 MW風電機組,證明了該方法的可行性。文獻[12]通過人工神經網絡(artificial neural network,ANN)預測模型對風電機組主軸承故障進行檢測,成功識別出主軸承早期故障。上述文獻有些沒有考慮輸入項狀態(tài)參數和輸出項狀態(tài)參數的相關性,將過多的不太相關或者相關性較低的狀態(tài)參數輸入模型,影響了預測模型的故障檢測性能。
近年來,深度學習在設備狀態(tài)檢測領域取得了很好的效果,受到的眾多學者的關注。深度學習具有強大的特征提取和非線性表達能力,利用深度學習建模能夠準確的建立多參數之間的邏輯關系,提高對設備狀態(tài)檢測的準確性。文獻[13]提出了基于平移不變卷積神經網絡(convolution neural network,CNN)的機械故障診斷方法,以單點和多點軸承故障為例進行診斷,驗證了其方法的有效性和優(yōu)越性。文獻[14]基于改進多特征提取(variational mode decomposition,VMD)和深度置信網絡(deep belief networks,DBN)建立了風電機組易損部件早期故障診斷模型,該方法成功提取試驗數據與風電機組現場數據的故障特征并表現出更高的識別準確性。文獻[15]針對傳統(tǒng)的DBN在行星齒輪箱診斷應用上的不足,提出了基于PCA-EDT-DBN的行星齒輪箱故障診斷方法,試驗證明所提方法診斷的準確率更高、性能更穩(wěn)定、訓練時間更短。文獻[16]基于長短期記憶網絡建立了風電機組故障診斷模型,建立了多元時間序列的邏輯關系,提高了對故障分類的準確性。文獻[17]設計了基于深度自編碼網絡和XGBoost的故障診斷算法,實現了對風電機組發(fā)電機早期故障的捕獲和對不同故障類型的識別。
為了挖掘SCADA數據中的有用信息并快速提取特征,及時準確發(fā)現風電機組的早期潛在故障,本文提出了基于級聯(lián)深度學習(CNN-LSTM)的風電機組狀態(tài)檢測方法,通過華北某風電場的SCADA數據驗證了所提方法的有效性。
將深度學習引入預測模型檢測風電機組的運行狀態(tài),能夠更快更準確提取隱藏在SCADA數據中的特征。CNN能快速的提取風電機組各個部件之間狀態(tài)的空間特征,但是對于輸入數據的順序不敏感,無法提取數據的時間特征,通過在CNN層后連接LSTM神經網絡完成時間特征的提取和預測回歸。
CNN是一種深層前饋網絡,常用于處理多個陣列數據,例如時間序列、圖像和音頻頻譜圖等[18]。它由卷積層、池化層和完全連接層構成,不同種類的層具有不同的功能,卷積層通過卷積核在輸入向量上卷積,生成特征向量。池化層分為最大池化和均值池化,池化層可以減少特征向量和CNN參數的大小,減少訓練時間和內存需求,并控制過度擬合。完全連接層用于將輸入轉換為向量,并實現不同任務。
CNN的本質是構造多個過濾器,通過對輸入數據進行逐層卷積和池化操作,提取數據間隱藏的空間特征。CNN卷積層原理如圖1所示,在每個時刻,每個卷積核都會將變量1~變量N合并成一個值,該值可視為研究數據的空間特征。利用M個卷積核,將輸入數據重新編碼成M個空間特征,這些特征隨時間積累,形成時間序列,因而SCADA中的時間特征能夠保存在空間特征中。

圖1 CNN卷積層原理
CNN對輸入數據的順序不敏感無法準確捕捉時間特性[19],因此在CNN層后連接循環(huán)神經網絡(recurrent neural network, RNN)。RNN具有記憶性和參數共享等特點,對于時間序列的特征學習具有一定的優(yōu)勢;然而RNN在訓練時會出現梯度消失和梯度爆炸的問題,影響模型的預測結果,而基于RNN改進的LSTM網絡能夠解決梯度消失和爆炸的問題,所以用LSTM替代RNN。
LSTM模型如圖2所示,LSTM單元的前向傳播可以表示為

圖2 LSTM模型的結構
ft=σ[wf·(ht-1,xt)+bf]
(1)
it=σ[wi·(ht-1,xt)+bi]
(2)
(3)
(4)
ot=σ[Wo(ht-1,xt)+bo]
(5)
ht=ot*Relu(Ct)
(6)

LSTM前向傳播計算每個單元的輸出值,然后由損失函數求得誤差。反向傳播時,誤差向上一時刻和上一方向進行反向傳播并更新參數以減小預測誤差。
本文提出了基于CNN和LSTM,利用SCADA數據對風電機組進行狀態(tài)檢測的方法。首先利用CNN空間特征的提取,經過預處理的SCADA數據被輸入到模型中,CNN提取SCADA數據每個時間點空間特征并輸入到下一層,如圖3所示。其次是時間特征的提取,LSTM層提取隱藏在空間特征序列中的時間特征,將時間和空間特征輸入下一層,神經網絡可以對SCADA數據序列進行非線性變換確定輸入與輸出參數之間的邏輯關系。最后,全連通層輸出目標參數的預測值。計算預測值與實際值之間的殘差,識別出風電機組的運行狀態(tài)。

圖3 CNN-LSTM網絡結構
結合CNN提取空間特征和LSTM提取時間特征的優(yōu)點建立了CNN-LSTM預測模型。目標參數為齒輪箱軸承溫度,通過相關性分析選取與齒輪箱軸承溫度相關性較大的參數作為輸入參數,建立預測模型具體步驟如下:
步驟1選取風電機組正常運行狀態(tài)下的SCADA數據并做預處理。首先選取風電機組運運行狀態(tài)正常的數據并剔除停機數據以及有功功率小于0的數據等無關的干擾數據,然后選取與齒輪箱軸承溫度較大的參數作為輸入參數。
步驟2建立預測模型。模型主要基于CNN和LSTN搭建,CNN的層數為1層,CNN卷積核的大小設置為1,卷積核數設置為32。LSTM隱藏層為兩層,每層的隱藏神經元數設置為128。選擇平均絕對誤差(mean absolute error,MAE)作為損失函數,優(yōu)化器選擇能夠使用自適應學習率加快模型訓練收斂速度的Adam。
步驟3訓練預測模型。將預處理后的正常運行狀態(tài)的SCADA數據輸入預測模型,對CNN-LSTM模型進行反復訓練得到輸入參數與目標參數之間的邏輯映射關系。
異常檢測是在樣本數據集中找到與正常數據不同的樣本,將需要檢測的數據輸入訓練好的CNN-LSTM預測模型并求得預測值與真實值的殘差,然后通過分析殘差序列找到與正常運行狀態(tài)數據不同的樣本,發(fā)現風電機組的異常狀態(tài)。對殘差序列的分析采用SE和RMSE兩項指標,SE是一種度量時間序列復雜性的方法,越復雜的序列對應的熵值越大。它與具體機組的SCADA數據無關,因此適用于判斷風電機組的運行狀態(tài)。RMSE可以衡量預測值與真實值之間的偏差,常用來作為預測結果衡量的標準,其表達式為
(7)
式中:xt為真實值;yt為預測值。
為了消除預測結果的偶然性,綜合RMSE和SE兩個指標對風電機運行狀態(tài)進行檢測,當將正常運行狀態(tài)的SCADA數據輸入預測模型時,真實值與預測值的殘差序列RMSE和SE差別不大。反之,當異常運行狀態(tài)的SCADA數據輸入預測模型時,數據與模型參數不匹配,誤差很大,RMSE和SE的值都增大。當殘差序列的RMSE和SE值均超過設定的安全閾值時,說明風電機組狀態(tài)異常。基于CNN-LSTM的狀態(tài)檢測流程,如圖4所示。

圖4 基于CNN-LSTM的狀態(tài)檢測流程圖
研究對象為華北某風場并網雙饋風電機組,該風電機組切入風速4 m/s,切出風速為25 m/s。取2015年1月—2015年9月的SCADA監(jiān)測數據作為風電機組的狀態(tài)參數。SCADA數據包含44個與風電機組運行狀態(tài)相關的參數,其中主要部件參數為齒輪箱、發(fā)電機、電網環(huán)境、機艙、自然環(huán)境等參數,如表1所示。

表1 風電機組主要部件參數
風電機組的SCADA系統(tǒng)記錄了設備壽命周期內的所有狀態(tài),包括正常運行、故障、停機、檢修等狀態(tài)。所以需要對SCADA數據進行預處理,去除數據中的無關的干擾信息。
首先將SCADA數據中顯示異常狀態(tài)的數據剔除,然后根據風速和有功功率對SCADA數據進行處理。由圖5(a)可以看出風速范圍集中分布在0~20 m/s,由圖5(b)可以看到有功功率數據主要分布在風速為4~20 m/s內,因此篩選出風速為4~20 m/s的數據。風電機組因停機等狀態(tài)會記錄一些有功功率為零的數據,如果將其作為訓練數據會影響模型訓練的精確度,所以數據預處理時刪除有功功率為零的數據。

圖5 風速和有功功率的分布
風電機組的正常運行是通過風電機組的不同部件緊密配合來完成的,部件之間相互耦合以及部件之間的狀態(tài)參數都會相互影響。如果輸入模型的狀態(tài)參數過多,會造成信息的冗余,降低模型預測的準確性。因此,需要對各部件狀態(tài)參數進行相關性分析選取輸入狀態(tài)參數。以齒輪箱軸承溫度作為目標參數,采用距離相關系數(distance correlation coefficient,DCC)計算出與其他狀態(tài)參數的相關系數,選取DCC>0.5的狀態(tài)參數,獲得的結果如表2所示。

表2 齒輪箱軸承溫度與其他部件狀態(tài)參數距離相關系數
以風電機組2015年1—4月的正常運行的數據對上述檢測方法進行驗證。圖6(a)為1—4月齒輪箱軸承溫度,可知在正常工作狀態(tài)下齒輪箱軸承溫度最高溫度可達80 ℃左右而最低溫度只10 ℃左右,其幅值變化范圍比較大。通過設定簡單的閾值判斷風電機組的運行狀態(tài)可能出現誤判的情況,需要將風電機組的其他狀態(tài)參數考慮在內,進行進一步的分析,提高檢測的準確性。

圖6 正常月份齒輪箱軸承溫度和預測殘差
用CNN-LSTM模型對正常齒輪箱軸承溫度進行預測,此學習率設置為0.001,經過多次訓練迭代次數最終確定為1 000,批量數設置為100,得到如圖6(b)所示的預測殘差序列圖。從圖中可知預測殘差分布在-5 ℃~5 ℃,由于SCADA數據存在一些干擾數據,預測殘差存在過大的點,所以不能根據突變的殘差(見圖6(b))判斷風電機組運行狀態(tài),需要進一步采用殘差分析指標判定機組狀態(tài)。
計算獲得正常齒輪箱軸承溫度的RMSE和SE值,如圖7所示,通過這兩個殘差分析指標可以判斷風電機組的運行狀態(tài)。RMSE和SE值是以天為單位計算的,由圖7(a)可知RMSE值主要分布在1.5 ℃以下,由圖7(b)可知SE值主要分布在0.1以下,故設定RMSE閾值為1.5,SE的閾值為0.1,RMSE和SE的閾值用來判定風電機組的異常狀態(tài)。當機組沒有故障即為正常狀態(tài)時,RMSE和SE都小于設定的閾值(見圖7)。

圖7 正常狀態(tài)時RMSE和SE值
該風電機組于2015年7月14號發(fā)生齒輪箱故障,風電場維修得知該故障是由齒輪磨損嚴重斷齒造成。取1月—9月SCADA數據(共計219 d)作為研究數據,其中第1天~第190天的SCADA數據為1月1號—7月14號采集的數據,第191天為停機維修后9月份重新啟機后的第1天。剔除該研究數據中的異常值、停機數據等無關干擾數據。將處理后的數據輸入預測模型得到預測值和殘差序列,如圖8所示,因樣本量比較大,只截取第一次檢測到故障時樣本的預測值、殘差和滑動窗口為100的滑差。通過對預測殘差序列進一步分析得到其RMSE和SE序列。由圖9(a)可知RMSE在開始至第126天都處在設定閾值1.5 ℃以下,在第127天第一次超過設定的閾值達到了1.57 ℃。在第127天~第190天RMSE在設定閾值范圍上下劇烈波動并且超過閾值較大,在第191天后回落到閾值以下。由圖9(b)可知SE值在第127天以前也保持在設定閾值以下,在第127天時第一次超過設定的閾值達到0.11,在第127天~第190天SE多次超過設定的閾值,在第191天后回落到閾值以下。第190天(7月14號)左右RMSE和SE均有劇烈變化,這與該風電機組齒輪箱發(fā)生故障在7月14號停機維修并在9月份重新啟機是一致的。基于CNN-LSTM模型和SE的檢測方法能夠提前發(fā)現風電機組齒輪箱的潛在故障,對風電場工作人員進行日常維護和檢修提供了參考依據,避免造成更大的損失。

圖8 CNN-LSTM預測模型預測結果

圖9 異常狀態(tài)時RMSE和SE值
將LSTM模型、雙向長短期神經網絡(bidirectional long short-term memory,BILSTM)模型與本方法的CNN-LSTM模型進行比較,比較結果如圖10所示。從圖10可以看出CNN-LSTM模型預測結果在風電機組運行狀態(tài)正常時RMSE和SE幅值波動更小,偶然性的突起更少,在風電機組運行狀態(tài)異常時RMSE和SE值相對狀態(tài)正常時變化更加明顯。由圖11可以看出CNN-LSTM模型隨著迭代次數的增加損失逐漸變小,而BILSTM和LSTM則是在較大損失時即趨于穩(wěn)定,通過比較可以看出本文所提模型的損失更小。計算三種模型RMSE和SE的平均值,結果如表3所示,由表3可以看出CNN-LSTM模型的各項評價指標均優(yōu)于其他兩個模型的評價指標。綜上,該模型所建立的輸入參數與目標參數之間的邏輯關系更加精確可靠,能夠減少誤報警的次數,證明了基于CNN-LSTM的檢測方法優(yōu)于基于LSTM和BILSTM的檢測方法。

圖10 CNN-LSTM,BILSTM,LSTM模型預測結果對比

圖11 CNN-LSTM,BILSTM,LSTM模型損失變化

表3 不同模型預測結果對比
針對風電機組因工作環(huán)境復雜多變齒輪箱故障頻發(fā)的問題,引入深度學習理論,利用DCC選取與目標參數齒輪箱軸承溫度密切相關的狀態(tài)參數,建立了CNN-LSTM狀態(tài)檢測模型,用于識別風電機組的異常運行狀態(tài)。當風電機組運行狀態(tài)異常時,齒輪箱軸承溫度變化偏離正常趨勢,CNN-LSTM模型預測的殘差的RMSE和SE值均會產生較大的波動,從而監(jiān)測風電機組的異常狀態(tài)。通過華北某風場的SCADA數據分析,并將所提的CNN-LSTM模型與LSTM和BILSTM模型進行比較,結果表明CNN-LSTM模型的各項評價指標均優(yōu)于其他兩個模型,誤報警次數更少;基于級聯(lián)CNN-LSTM模型能夠有效檢測風電機組的異常狀態(tài),對保障風電機組安全運行具有重要意義。