于 航, 尹 詩
(中能電力科技開發有限公司,北京 100034)
風電機組常年運行在剪切風、風沙、雷雨、自震等惡劣環境中,機組容易發生各種各樣的故障。如果發生嚴重故障會迫使機組非計劃停機,從而給風電場帶來巨大的經濟損失。因此,對風電機組發電機、齒輪箱、葉片等主要部件進行早期故障識別具有重要意義。發電機是風電機組的核心部件,其主要功能是將機械能轉換為電能,由于發電機設備長期處于變工況以及電磁環境中,且風電機組單機容量擴大對發電機密封保護增加了難度。據統計,風電裝備的各部件中發電機維修費用占比約30%[1-2]。因此,對發電機故障進行早期有效預警是風電運營商和設備制造商關注和亟待解決的問題。
目前,對于風電機組運行狀況的監控,大多數風電場采用主流的數據采集與監視控制系統(supervisory control and data acquisition,SCADA),該系統可以采集風電機組運行狀態信息及外部環境參數,監測歷史和實時數據[3]。SCADA系統監測的參數超出設定的閾值就會觸發警報,是一種固定的越線報警模式,未能兼顧環境變化和機組在運行過程中的老化,當機組發生故障觸發報警時,機組故障已惡化到緊急停機狀態,無法實現早期的故障預警。通過數據挖掘技術對SCADA數據進行分析是早期故障預警的有效手段之一。文獻[4]提出一種基于功率曲線分析與神經網絡的故障預警方法,對風電機組的變槳系統和偏航系統進行故障預警。文獻[5]提出了一種保局投影、核極限學習機和信息熵相結合的風電機組齒輪箱故障預警方法。文獻[6]提出了提出一種結合非線性狀態估計與信息熵理論的故障預警算法,對風電機組發電機驅動端軸承進行故障預警。文獻[7]提出了一種基于并行化的改進模糊C-均值聚類的風電機組發電機故障診斷方法,能夠準確判別發電機的故障類型。文獻[8]提出一種針對雙饋風力發電機組轉子繞組外接電路且自身攜帶變頻器構造的初期不平衡故障診斷新方法,能夠診斷發電機轉子繞組初期不平衡故障。
溫度異常是判斷機組大部件異常的重要征兆。風電機組發電機軸承溫度隨著設備劣化趨勢的變化而變化[9]。當發電機軸承出現異常時,其溫度參數會偏離正常狀態,SCADA系統可以監視和采集機組各關鍵部件的運行狀態參數,通過分析與發電機軸承溫度相關度比較高的SCADA數據特征,建立發電機前軸承溫度預警模型是有效的故障預警方法之一。
針對以上存在的問題,本文提出了一種基于GRU-LightGBM的風電機組發電機前軸承狀態監測方法。GRU神經網絡作為長短期記憶網絡(long short-term memory, LSTM)神經網絡的變種,保持了LSTM預測效果,同時又使結構更加簡單,大大減少了訓練時長[10]。LightGBM算法是在梯度提升迭代決策樹(gradient boosting decision tree,GBDT)基礎上優化形成的算法,相較于傳統XGBoost等決策樹算法具有準確度高、速度快、直接支持類別特征等優點[11-12]。基于LightGBM的狀態決策模型預測發電機前軸承異常概率,避免人為設定故障閾值的主觀性,提升了模型的可信度和泛化能力。
本文具體建模方法如下:
1)SCADA數據預處理。去除SCADA數據中夾雜著的異常數據;采用GBDT算法選取與發電機軸承端溫度相關的特征參數作為模型的輸入,發電機軸承端溫度為觀測參數,為避免各特征取值范圍不同而造成誤差,對每個特征進行歸一化處理。
2)分別獨立采用GRU、LSTM、RNN和BP神經網絡建立發電機前軸承端溫度殘差模型,并對比模型訓練精度。
3)采用LightGBM算法建立故障決策模型,避免人為設定閾值的弊端,并對測試機組發電機軸承運行狀態進行監測。
風力發電機組發電機前軸承狀態監測整體建模方法如圖1所示。
圖1 整體建模方法流程圖
本文所采用的SCADA數據是河北省某風電場1.5 MW雙饋異步發電機組的歷史數據。該風電機組切入風速為3 m/s,切出風速為25 m/s。SCADA系統每10 min記錄一次運行數據,風速、發電機轉速、葉輪轉速、風向角、偏航角度、齒輪箱油溫等100余個有效數據,共采集該風電場38臺機組的歷史SCADA數據。
由于風電機組運行環境受機組故障、傳感器卡澀、SCADA系統宕機、數據采集接口宕機、數據傳輸網絡等因素造成SCADA數據中夾雜著很多異常噪聲數據。因此,首先對SCADA數據進行預處理,以提升后續建立模型的準確性,其詳細步驟如圖2所示。
圖2 SCADA數據預處理流程圖
首先,對原始的SCADA數據按照時間先后排序并去除重復數據;其次,對數據進行閾值、死值、跳變、多點聯動的數據清洗,其中:數據清洗的閾值范圍見表1,數據死值清洗為30 min內恒定不變的值(除機組狀態外),數據跳變為前一時刻和后一時刻跳變10倍或1/10以上,數據多點聯動主要為三相電壓不平衡、三相電流不平衡、槳葉角度不平衡等具備多測點物理關系的數據清洗;然后,利用拉依達準則(3σ準則)剔除粗大誤差數據,根據正態分布置信區間原理,檢測數據值落入 [μ-3σ,μ+3σ]之外時為極小概率事件,屬于粗大誤差數據應予以剔除。其中μ 為特征參數的均值,σ為特征參數的標準差;最后,利用滑動平均濾波抑制小幅度高頻噪聲數據。對正常運行機組對數據進行清洗,清洗前后的風功率曲線圖見圖3。
表1 特征參數閾值范圍
圖3 清洗前后的風功率曲線圖
歸一化處理:GBDT提取的特征中存在不同的量綱和量綱單位,為避免因特征之間量綱不同而影響模型預測精度,需要對特征參數做歸一化處理,將特征參數歸一化到(–1,1)之間,計算公式如下:
式中:x——SCADA數據參數;
xmean——特征參數的均值;
xmax——特征參數的最大值;
xmin——特征參數的最小值;
xn——歸一化后的數據。
特征選擇:GBDT是一種集成算法,通過合并多個決策樹構建更為強大的模型。一般情況下,選取對觀測參數貢獻率排名前85%的特征參數作為模型的輸入參數。
選取正常機組SCADA數據18 762組為訓練數據,7 783組作為測試數據,以發電機前軸承端溫度為預測目標,剩余參數作為模型輸入特征。設置梯度提升回歸樹的參數為:樹的個數n_estimators=800,最大深度max_depth=100,學習率learning_rate=0.001。訓練集精度為0.97,測試集精度為0.83。利用feature_importances_方法可得出各特征重要性結果。重要性排名前85%的特征為:發電機轉速、機艙溫度、有功功率、風速、發電機后軸承溫度、環境溫度、A相電流、A相電壓、齒輪箱油溫、液壓系統壓力、無功功率、槳角共計12個特征。
LSTM長短期記憶網絡結構過于復雜和冗余,GRU神經網絡將遺忘門和輸入門合并為更新門(zt),同時將記憶單元和隱藏層合并為重置門(rt),從而讓整個結構運算變得更加簡單,并且性能得到增強[13]。GRU單元結構如圖4所示。
圖4 GRU單元結構
在機組正常運行的歷史SCADA數據中,選取t組特征向量作為輸入序列x=(x1,x2,···,xt),通過下式獲取兩個門控信號,即:
式中:U(z)、U(r)、W(z)、W(r)——權重矩陣;
xt—— 當前t時 刻的輸入,經線性變換與W(z)相乘;
ht-1——t時刻之前的隱藏層狀態,經過線性變換后與權重矩陣U(z)相乘。
更新門將兩部分信息相加并利用Sigmoid激活函數計算得到更新門(zt) ,同理計算得重置門(rt)。
在重置門使用過程中,新的記憶內容將使用重置門儲存過去相關信息,其計算表達式為:
式中:W、U——權重矩陣;
tanh——雙曲正切函數。
計算最終記憶ht,該向量保留當前單元信息并傳遞到下一個單元中。此過程使用更新門,其決定了當前記憶內容h′t和前一時間ht-1中需保留的信息,這一過程表示為:
式中:WO——權重矩陣;
zt——更新門激活結果;
yt——門控循環單元最終輸出。
GRU神經網絡選取發電機前軸承正常的10臺機組的歷史SCADA數據進行模型訓練和測試。選取發電機轉速、機艙溫度、有功功率、風速、發電機后軸承溫度、環境溫度、A相電流、A相電壓、齒輪箱油溫、液壓系統壓力、無功功率、槳角12個指標的10 min數據最小值、最大值、平均值共36個參數作為溫度模型輸入,以發電機前軸承溫度為溫度模型輸出。
GRU神經網絡輸入層有36個神經元,隱含層有3層記憶單元,輸出層共1個神經元,激活函數為雙曲正切函數,誤差選用均方根誤差,批處理數量為200,Dropout的值設為0.2。溫度模型的訓練和測試數據共計25 946條。訓練數據樣本和測試數據樣本的比例為7∶3。同時,LSTM神經網絡、RNN神經網絡和BP神經網絡的參數設置與GRU神經網絡相同,對比分析GRU、RNN、LSTM、BP神經網絡的發電機前軸承溫度模型訓練精度和訓練時間,結果見圖5。
圖5 4種算法的訓練精度和時間
測試結果表明:GRU神經網絡、LSTM的r2較高,表明GRU神經網絡和LSTM神經網絡的擬合效果優于其他2種神經網絡。但是GRU神經網絡在時間上明顯優于LSTM。綜合來看GRU神經網絡優于其他3種神經網絡。
LightGBM算法采用直方圖算法和帶深度限制的Leaf-wise決策樹生長策略,在實驗中采用了數據采樣和數據抽樣,使模型在不降低準確率的前提下,降低內存占用1/3左右,訓練速度提升10倍左右,具有更高的訓練效率和更高的準確率[14]。
風電機組發電機前軸承溫度殘差按時間序列計算每一天的最大值、最小值、標準差、均值、方差、中位數和極差。將異常時間段的殘差標簽標記為1,將正常時間段的殘差標簽標記為0。殘差最大值、殘差最小值、殘差標準差、殘差均值、殘差方差、殘差中位數、殘差極值為特征,標簽為1(異常)和0(正常),將殘差特征和標簽輸入LightGBM算法中進行訓練得到基于LightGBM算法的故障決策模型。
發電機前軸承是否異常評判標準為:LightGBM決策模型是基于決策樹算法的,而分類型決策樹在葉子節點上的決策規則是少數服從多數,也就是基于“不純度”。某一類標簽在葉子節點上的占比越大,則葉子就越純,分枝就越好。根據LightGBM模型對標簽預測的概率進行判定,當模型輸出對某一類標簽預測概率超過50%,則判定屬于哪一類。發電機前軸承異常概率越大,則模型輸出概率越靠近1(異常)。發電機前軸承正常概率越大,在模型輸出概率越靠近0(正常)。因此,將預測概率0.5作為閾值,當模型預測概率為1(異常)標簽時預測概率始終在閾值之上,或者偶爾在閾值之下,立馬反彈到閾值之上,則可判定為發電機前軸承異常。反之,如模型輸出在閾值之下且無反彈,則判定為發電機前軸承正常。
本實驗所采用的SCADA數據是2.1節提到的河北省某風電場的歷史數據。共選取該風電場1.5 WM雙饋異步發電機組共38臺,包括24臺正常機組歷史SCADA數據,14臺異常機組歷史SCADA數據。正常機組中,選取2019年2-11月的10臺穩定運行的歷史SCADA數據共181 622組,按2.2節方法建立溫度殘差模型。其余機組樣本選取任意連續1個月無故障的歷史SCADA數據。異常機組選取故障發生前1個月的歷史SCADA數據。
將建立溫度殘差模型的SCADA數據,采用2.1節預處理方法進行數據預處理,樣本按7∶3分為訓練樣本和測試樣本。將特征參數輸入GRU神經網絡預測發電機前軸承溫度,以發電機前軸承溫度實際值與發電機前軸承溫度預測值之差為殘差值。計算預測值、實際值及殘差見圖6。
圖6 基于GRU神經網絡的模型測試及溫度殘差
按照2.3節發電機前軸承預警策略訓練故障決策模型。將正常的10臺機組編號為07#、09#、23#、31#、32#、41#、65#、66#、71#、81#,異常的10臺機組編號為69#、10#、84#、88#、99#、15#、96#、86#、13#、70#,共計20臺機組。首先按2.1節數據預處理方法進行預處理,然后將選取的特征輸入到GRU溫度殘差模型,預測發電機前軸承的溫度,并計算殘差值,計算殘差如表2特征指標作為LightGBM決策模型的輸入。
LightGBM模型在測試集上的預測效果混淆矩陣見圖7。模型的分類準確度為0.85。
圖7 LightGBM模型預測結果混淆矩陣
選取編號為08#、14#、11#、52#的正常機組和編號為37#、67#、91#、85#的異常機組驗證LightGBM故障決策模型。
08#機組取選取2019年3月1日-2019年3月30日的數據;14#機組選取2019年3月8日-4月4日的數據;11#機組選取2019年9月16日-10月16日的數據;52#機組選取2019年4月2日-4月30號的數據。
37#機組由異常檢修記錄得知在2019年4月28日巡檢時發現發電機軸承振動大,需要更換發電機軸承。67#機組在2019年4月28日巡檢過程中發現機組發電機振動大,經廠家檢查發現發電機軸承電腐蝕嚴重,振動導致平衡環存在輕微開裂跡象。91#機組2019年4月28日發生發電機溫度故障,85#機組2019年10月14日發電機軸承更換。
首先,通過2.1節方法對08#、14#、11#、52#,37#、67#、91#、85#機組數據進行預處理和特征選擇,將選取的特征輸入到GRU溫度殘差模型得到發電機前軸承端溫度殘差。然后,按表2計算殘差特征,將正常機組標記為0,異常機組標記為1。最后,將殘差特征輸入到上述訓練好的LightGBM故障決策模型進行預測。預測結果見圖8。
圖8 預測熱力圖
表2 殘差特征及標簽
37#、67#、91#、85#4臺機組預測熱力圖概率大部分集中在閾值(0.5)以上,4臺機組判定為異常機組。
08#、14#、11#、52#4臺機組預測熱力圖概率大部分集中在閾值(0.5)以下,4臺機組判定為正常機組。
為在風電機組發生故障停機前預測出風電機組的異常運行狀態,本文以風電機組發電機前軸承為研究對象,做了以下研究:
1)對SCADA數據進行預處理,通過GBDT算法提取與風電機組發電機前軸承溫度特征相關性強的特征變量。
2)采用GRU神經網絡建立發電機前軸承溫度預測模型。并和RNN、LSTM、BP神經網絡模型進行對比分析,在同等條件下,GRU神經網絡綜合性能優于RNN、LSTM、BP神經網絡。
3)采用LightGBM算法建立殘差決策模型,并對4臺異常機組和4臺正常機組殘差進行測試,8臺機組均判斷正確。該方法可有效識別風電機組發電機前軸承運行狀態,能夠避免人為參與閾值的設定,可在故障前一個月識別出發電機前軸承的異常狀態。