張吳飛,李帥帥,李嘉成
(200082 上海市 上海理工大學 機械工程學院)
風力發電中葉片結冰問題長期困擾各國。低溫運行環境導致的風葉結冰,使風機出現材料性能和載荷能力變化等問題,對風機的發電性能和安全運行構成巨大威脅,在這種條件下工作,增加了葉片斷裂和損壞的風險。目前最大的問題是,難以準確預測早期結冰的過程,從而提前啟動除冰系統[1]。SCADA 系統每天產生大量的數據,但目前大多數系統仍局限于故障報警,這些故障往往在達到報警階段時已經非常嚴重,需要關閉風機進行檢修,造成發電和維護費用的巨大損失。SCADA 系統產生的數據可以通過挖掘和建模來進行一些嚴重的故障預測和診斷,因此過去強調的維護模式可以轉化為積極的預測維護模式,可有效提高利用率,降低風力發電設備的運行和維護成本[2]。
國內外在故障預測與診斷方面的研究已經比較成熟。Shin[3]等在NASA 的結冰風洞對翼型做了很多結冰驗證,研究了結冰條件下結冰形狀及冰層傳熱、冰滴釋放的潛熱等;Frohboese[4]等研究了覆冰對風力發電機疲勞載荷的影響,估計出風機結冰量并對結果進行了討論;Zhou[5]等采用支持向量機(Support Vector Machine,SVM)算法對風機葉片結冰進行檢測;Peng[6]等通過動態主成分分析提取關鍵特征,并結合埃爾曼人工神經網絡(Elman artificial neural network,EANN)對風機葉片結冰故障進行預測。
本文著重研究了風機結冰狀況,提出了一種在采樣平衡處理下對白天黑夜2 種模式自動判斷并分別預測的算法,比較了該算法與傳統算法的模型精度以及傳統采樣處理和平衡處理的精度差異,證明該采樣處理和算法的優越性。本文還以另一風機數據(18 號風機)為測試數據集,進一步證明該算法的優越性和泛化能力。
本次數據集為采樣的SCADA 數據集,采樣時長2 個月,共采集樣本30 萬條數據,其中結冰數據2 萬多條,正常數據35 萬多條,無效數據2 萬條左右。16 號風機數據為訓練集,18 號風機數據為測試集相關特征,16 號風機樣本總數為393 886 條,結冰數據為23 846 條,正常數據為350 255 條,無效數據為19 785 條;18 號風機樣本總數為190 494 條,結冰數據為10 638 條,正常數據為168 930 條,無效數據10 926 條。
本數據集共包括時間戳、風速、發電機轉速、對風角、偏航位置、偏航速度等28 個變量,包含運行參數、所處環境參數等多個維度特征。在剔除無效數據后,發電機轉速(generator-speed)、偏航速度(yaw-speed)、ng5_2溫度(pitch2_ng5_tmp)、ng5_3溫度(pitch3_ng5_tmp)存在離群點,設置合適的閾值對離群數據進行剔除,如圖1 所示。

圖1 離群樣本篩查與壞點剔除前后的數據-時間分布對比Fig.1 Data-time distribution comparison before and after outlier sample screening and bad spots elimination
訓練數據16 號風機的樣本總數393 886 條,其中結冰數據23 846 條,正常數據350 255條,無效數據19 785條。測試數據18 號風機的樣本總數190 494 條,其中結冰數據10 638條,正常數據168 930 條,無效數據10 926 條。存在嚴重的類不平衡。為消除類不平衡,一般采用數據均衡化處理,常用方法有減少采樣、增加采樣等。權衡考慮到降采樣帶來的原始數據丟失,以及過采樣引入的估計(非原始)數據,本文采取降采樣與過采樣相結合的方法,盡可能規避單純采用過采樣或降采樣帶來的弊端。其中過采樣采用了SMOTE 結合ENN 的方式,降采樣采用隨機抽樣(Random Under Sample)的刪除方式。
SMOTE 算法基本思想是,通過在少數類樣本之間進行插值,從而獲得額外的樣本[7]。具體地,對一個少數類樣本Xi使用K近鄰法,求取距離Xi距離最近的K個少數類樣本。本次求解中,采用樣本之間n維特征空間的歐氏距離作為臨近判據,從K個近鄰點中隨機選取一個,使用式(1)生成新樣本。

式中:——選出的K近鄰點;δ——一個隨機數,δ∈ [0,1]。
ENN算法基本思想是剔除離群的多數類樣本。本文采用SMOTE+ENN 結合的方法清除更多重疊樣本,使得過采樣的樣本能夠更好地貼近原始數據。
為了分析降采樣和過采樣對于分類預測模型的影響,本文對原始數據集(記為數據集1)、僅使用過采樣得到的數據集(記為數據集2)和使用過采樣+降采樣得到的數據集(記為數據集3)分別進行比較,其中原始數據共374 146 條,結冰數據和正常數據分別為23 892 和19 739,過采樣共699 881 條,正常數據和結冰數據分別對半,過采樣+欠采樣混合共37 379 條數據,正常數據和結冰數據各占一半;其次,為了分析類間均衡化對于數據集變量間耦合關系的影響,給出3 個數據集的相關關系熱力圖,如圖2 所示。

圖2 原始數據集與均衡化數據集變量間相關關系熱力圖Fig.2 Heat diagram of correlation between variables of original dataset and equalized dataset
由圖2 可知,重采樣之后變量相關關系基本無變化,因而采樣操作并未使得采樣后數據偏離原數據,所以采樣后的結果是可信的。
原始數據集各特征間存在耦合關系,在進行特征提取與特征重構之前,需要對數據預處理之后的數據集進行變量之間的相關關系分析,從而達到降低維度減少運算量的目的?;诖四康?,繪制26個變量的相關關系熱力圖,如圖3 所示。
由圖3 可知,在26 個變量中,其中的3 組變量具有比較強的相關關系,分別為風機角度(1、2、3)、風機速度(1、2、3)、變槳電機溫度(1、2、3),因而可以用均值分別代替這9 個原變量,作為新的特征供后續模型學習預測。
由于風機結冰問題的分析和求解依靠高性能算法實現,具有很大的局限性,因此需要結合變量間的實際物理意義,對其中某些變量進行線性、非線性組合運算,得到新的特征變量,用于大數據預測分類模型的構建。
(1)溫差Tmpdiff:表征環境溫度與機艙溫度的差值,溫差絕對值越大,機艙結冰可能性越高,公式為:

式 中:Tmpdiff——溫 差;inttemp——機艙溫度;environmenttmp——環境溫度
(2)扭矩Torque:表征風機轉動所需克服的阻力,所需克服的阻力越大,扭矩越大,機艙結冰可能性越高,公式為:

式中:power——功率;generator_speed——發電機轉速
(3)功率系數Cp:表征風機發電功率與風速大小的相對關系,功率系數越低,機艙結冰可能性越高,公式為:

式中:power——功率;wind_speed——風速均值。
(4)推力系數Ct:表征風力推動風機轉動的阻尼程度,阻尼程度越高,推力系數越高,機艙結冰可能性越高,公式為:

式中:Torque——扭矩;wind_speed——風速均值
(5)速率比Lambda:表征風機轉速與風速的相對大小關系,速率比越低,機艙結冰可能性越高,公式為:

式 中:generator_speed——電機轉速;wind_speed——風速均值。
決策樹(Decision Tree)是在已知各種情況發生概率的情況下,直觀地利用概率分析,形成決策樹,得到凈現值的期望值大于0 的概率的一種圖形化方法[8]。隨機森林是隨機建立一個森林,許多決策樹都參與其中形成這個森林,每棵決策樹彼此之間沒有相關性。每次有新的樣本時,森林中的每棵決策樹都會對其類別進行判斷,并通過投票選出票數最高的類別作為最終的分類結果,將風機特征參數傳入隨機森林模型得到的分類結果如圖4 所示。

圖4 隨機森林模型類間結果對比Fig.4 Comparison of results between classes of random forest model
卷積神經網絡本質上是輸入到輸出的映射網絡,該方法避免精確的數學解析表達式。通過學習大量輸入輸出之間的映射關系,利用已知的模式訓練卷積神經網絡,使神經網絡具有輸入輸出之間的映射能力。卷積神經網絡由卷積層、池化層和全連接層組成。卷積層的權重取決于特征的提取和共享,特定數據點與局部數據點周圍的關系緊密。與全局像素之間的關系距離較遠,卷積層通過卷積將相鄰區域內的數據點過濾在一起進行卷積,使其能更好地提取局部特征。通過各層的卷積,可以進一步擴大卷積的范圍,使特征具有全局意義。
由于風機結冰不是一蹴而就的,具有較強的連續時間趨勢關系,因此需要綜合考慮多維變量和時間信息對分類結果的影響?;谏鲜隹紤],對于卷積神經網絡的輸入數據進行滑窗選取的操作,過大的窗寬雖然包含了更多的時間維度信息,但會不可避免地造成數據處理量的增加,不利于算法效率的提高;而過小的窗寬會造成時間維度信息不足的缺陷,不能夠很好地體現連續時間信息對于風機結冰情況預測的重要作用。本實驗中選取了步長為1、窗寬為64 的方案,將某一條數據及其之前的63 條數據作為CNN 的輸入,CNN 的輸出選為該數據所對應的“正常/結冰”標簽,進行卷積神經網絡模型訓練,最終訓練結果如圖5 所示。

圖5 卷積神經網絡模型類間結果對比Fig.5 Comparison of results between classes of convolutional neural network model
基于卷積神經網絡的時序分類算法,其預測正確率很大程度上依賴于訓練數據量的大小。如果希望減小訓練數據量,一方面可通過對原始數據集進行數據預處理完成,另一方面可通過優化模型結構達到較少訓練數據量的目標。本問題求解中,考慮到白天與黑夜不同時間段風機結冰情況的差異,采用預測融合的方法,以達到能夠更具針對性地處理數據的目的。共構建了3 個子卷積神經網絡,第1 個卷積神經網絡依據數據特征,對所處時間段是白天或黑夜進行判斷;第2 個和第3 個卷積神經網絡分別為基于白天數據與基于黑夜數據訓練的卷積神經網絡模型。數據首先通過第1 個卷積神經網絡進行白天黑夜判斷,依據判斷結果,再將數據分別對應送入白天或黑夜的子預測模型中,以更具針對性地對數據結果進行預測。由于是二分類問題,本文對白天黑夜判別模型采用交叉熵損失函數,如公式(7)。預測結果如圖6 所示。

式中:yt——某個樣本點的真實標簽;yp——該樣本點取yt=1 的概率。
構建模型超參數設置如表1 所示。

表1 多融合模型參數設置Tab.1 Parameter setting of multi-fusion model
考慮到深度學習模型中的過度擬合問題,采用了 dropout 技術。在訓練 CNN“白天黑夜”模型時,需要設置學習率控制參數的更新速度,表1 給出了CNN“白天黑夜”模型的超參數設置,預測結果如圖6 所示。

圖6 混合模型不同類間結果對比Fig.6 Results comparison among different classes of the mixed model
基于不同運行數據集運行上述4 種模型,記錄不同數據集、不同模型下的模型準確率及運行時間,結果如表2 所示。

表2 多模型預測結果評估Tab.2 Evaluation of multi-model prediction results
為證明CNN“白天黑夜”模型以及均衡數據的有效性和優越性以及均衡數據,本文將此模型與典型分類器模型對比??v向比較表格,以評估不同算法在預測問題中的表現。可以明顯看出,采用以隨機森林、CNN 為代表的非線性分類器在該預測問題中表現優異。隨著過程中對模型的進一步改善,可以看到本文提出的基于CNN 的白天黑夜模型表現最為優異,這樣的結果也是符合預期的;橫向比較表格,以評估數據均衡化對預測問題準確性的影響。通過平衡數據集,能夠有效地預防預測模型過擬合的情況,從而提升模型的泛化能力與準確性。可以明顯看出,通過對模型進行過采樣、降采樣操作,以改善類間數據的不平衡性,對于模型的預測結果有較好的改善效果,結果同樣符合預期。
本文提出了通過均衡化處理與基于CNN 的“白天黑夜”模型相結合,可以有效提高風機葉片結冰的預測精度,對于風機故障診斷有一定參考價值。