龔亞雄 高佳浩 李逸 黃志華
(1 中機國際工程設計研究院有限責任公司 湖南長沙 410000 2 哈電風能有限公司 湖南湘潭 411101)
風能作為1 種重要的綠色能源,已被世界各國廣泛利用,對于各國化解能源危機、減污降碳、提高清潔能源占比具有重要意義[1-3]。隨著風能裝機容量的增加,風電場的運維成本也相應提高。監測風電機組發電性能,有利于合理安排維護計劃,防止故障發生及降低運維成本[4-5]。為評估風力發電機組的發電性能,常采用風功率曲線對風電機組凈功率輸出與風速間的關系及風機運行特點進行準確描述。但在風電數據采集過程中,受檢測裝置故障、傳輸過程受到干擾、強制棄風等因素影響,可能會產生大量的風電-功率異常數據,而該異常數據將會對風電預測準確度造成嚴重影響,因此需對異常數據進行精確識別和有效清洗[6-7]。
目前,針對風電機組異常數據識別和清洗的研究工作主要集中在突變點檢測、建立等效邊界、對異常數據進行重構等方面。
文獻[8]將異常數據按照數據位置劃分為不同類型的數據,并在數據分類基礎上,采用變點分組算法和四分位算法進行數據處理。該方法清洗效率高,但容易產生過度清洗,即數據中心聚集區域呈鋸齒狀。此外,目前較多采用基于距離或密度檢測算法進行數據清洗,如k-means 聚類[9]、局部離群因子(LOF)[10]、Thompson tau-[11]等,但此類方法識別效果較差。為解決該類算法的不足,文獻[12]根據生成機制對異常數據進行分類,采用DBSCAN 算法、截斷法、斜率控制法、核密度估計等方法進行分類識別。該方法對特定類別下的異常數據清洗效果明顯,但需依靠人工干預,數據清洗步驟繁瑣。文獻[13]采用最優組內方差算法根據排序數據計算滑移值,以此識別異常數據。但該方法場景特征相對有限,在異常數據與正確數據差異不明顯的情況下,其可行性尚未得到有效驗證。參考文獻[14]提出了1 個置信度等效功率邊界模型,該模型利用風速與功率之間的相關性,通過Copula 函數對數據進行清洗,但該方法得到的置信度等效邊界線因風速區間不同而有較大差異且計算復雜度較高。此外,文獻[15]和[16]提出了消除異常數據的圖像識別方法,為數據清洗提供了另一種可行的解決思路。
然而,上述方法需一定程度的數據預處理過程,算法復雜程度較高,且清洗效果不佳。為此,本文綜合考慮異常數據識別清洗的時間、模型建立的復雜程度以及識別清洗方法的效率,將卷積神經網絡和Bi-LSTM 方法相結合,利用卷積神經網絡特征提取能力強與Bi-LSTM 分類效果佳的特點對采集的風電機組異常數據進行有效識別和清洗,通過貴州電網某風電場的實際數據為算例進行實驗和結果分析,并對比幾種現存的風電異常數據識別和清洗方法。
基于實測風速和功率的風功率曲線可用于評價風電機組的性能和運行狀態,對風電機組故障的檢測具有重要價值。而風電機組相當一部分異常數據是由棄風、維護、通信故障等不可控因素產生的,必須進行清洗。
風力發電的原理是風電機組將流經風機葉輪轂處的風能吸收并帶動機組發電機運轉轉化為電能。單位時間內作用于葉輪的理論輸出功率[17]E 可表示為式(1):
式中:ρ0為參考空氣密度;A 為風輪掃掠面積;v 為風速。
因受到氣動特性等因素的限制,風電機組風輪只能將其中部分風能轉化為發電機運轉的機械能[20],根據風力機葉片的空氣動力特性,風能轉換效率Cp是尖速比λ 和槳距角β 的函數[18],即Cp=f(λ,β)。風電機組捕獲的風能Pm可以表示為式(2):
式中:R 為風輪轉子半徑;Cp(λ,β)為風機的功率系數。
根據貝茲極限理論,在理想條件下,作用于葉輪的理論輸出最大功率Pmax為式(3):
根據以上可得風電機組的理論最大效率Cp見式(4),其中Cp也被稱為理論風能利用系數[19]。
根據以上推斷,即在理想情況下,風輪吸收風能的最大值只占總風能的59.3%。而風電機組實際有用功率為式(5):
風電機組實際輸出功率P 隨流經輪轂高度處風速v 變化而呈現一定的關系如式(6):
式中:v 為風速;vi為切入風速;vr為額定風速;v0為切出風速;P為額定功率。
風速功率曲線是描述風速與機組輸出功率之間的函數關系曲線。它不僅是風電機組控制系統設計和開發的重要參考依據,還是研判風電機組發電性能和風電場運行狀況的重要指標。
本文采用貴州電網某風電場的實際數據,該風電場的裝機容量為2 000 kW,切入風速3.5 m/s,額定風速12 m/s,切出風速25 m/s,風速與出力數據采樣時間間隔為10 min。1 號風電機組原始數據v-p 散點圖如圖1 所示。

圖1 風電機組原始數據v-p 散點圖
CNN 是一種前饋神經網絡,可有效地應用于風電機組風功率數據時間序列特征的準確提取。從圖2 所示的卷積神經網絡模型框架可知,典型的CNN 是由可訓練的多層架構組成,其中包括卷積層、池化層、全連接層等[20]。在CNN 的結構中,卷積層通過卷積運算學習輸入數據的特征,池化層學習卷積運算得到的特征并進行降維和二次特征提取操作,全連接層對池化運算后得到的輸入數據特征進行聚合。本文可以提取輸入數據的隱式信息,實現對時間序列的更快、更穩定的特征提取功能。

圖2 卷積神經網絡模型框架
在卷積層,對采集風功率輸入數據進行卷積核卷積,激活函數生成輸出特征向量,本文采用相同的卷積核,式(7)為卷積層的計算過程:
式中:Yc表示卷積層的輸出;f 表示ReLU 激活函數;Wc表示權重因子;?表示卷積核;Xc表示輸入數據;bc表示偏置值。
卷積神經網絡擁有表征學習能力,其對輸入數據能夠按其網絡結構層層學習,且基于卷積神經網絡提取特征效果明顯以及對數據沒有額外的特征工程要求,因此本文采用卷積神經網絡對用戶用電數據特征自適應提取。
長短時記憶網絡(Long Short-Term Memory,LSTM)為1 種改進循環神經網絡(Recurrent Netural Network,RNN),相比于CNN 有更好的局部特征提取能力,既能關注用戶負荷數據的時序特征,又能通過特殊的“門”內部機制有效解決了RNN 中用電數據長序列訓練時梯度消失和梯度爆炸缺陷[21]。
為更有效且更全面獲取時間序列數據上下文信息,雙向長短時記憶(Bidirectional Long Short Term Memory,Bi-LSTM)為基于LSTM 優勢上,集合了輸入時間序列在前向和后向方向信息,將RNN 神經元分為兩個方向,即前向狀態和后向狀態,輸出層可同時從前向和后向狀態獲取信息,如圖3 所示為Bi-LSTM 模型結構圖。前向LSTM 讀取輸入時間序列數據從x=(x1,x2,…,xn),并計算前向隱藏狀態序列。前后LSTM 以相反的順序讀取輸入時間序列數據,即x=(xn,xn-1,…,x1),并生成反向隱藏狀態序列。通過連接前向隱藏狀態和后向隱藏狀態,可得最終輸出序列數據為y=(y1,y2,…,yt,…,yn)。

圖3 Bi-LSTM 模型結構圖
CNN-BiLSTM 異常檢測模型結構如圖4 所示,風功率數據實質上為一維的時間序列數據,其中一維的卷積神經網絡CNN 用于提取分功率數據的特征以產生特征向量,Bi-LSTM用于提取周期性時序特征,以此增強風速-功率特征敏感度;全連接層的全連接神經網絡對Bi-LSTM 獲取的每個特征向量進行預測,將得到的輸出神經元sigmoid 函數σ(·)的分類器完成最終分類預測。

圖4 CNN-BiLSTM 模型結構
基于CNN-BiLSTM 的風功率異常數據檢測模型的具體網絡參數設置如表1 所示。

表1 CNN-BiLSTM 模型的參數設置
為驗證本文所提的風電機組異常數據識別和清洗方法的有效性,本文采用貴州電網某風電場某一年1 月至12 月整年的實際數據進行驗證。該風電場的裝機容量為2 000 kW,切入風速3.5 m/s,額定風速12 m/s,切出風速25 m/s,風速與出力數據采樣時間間隔為10 min。隨機采用1 號機組數據為研究對象,如圖5 為去除在散點圖中表現為橫向堆積型數據的預處理后的原始數據圖。

圖5 預處理后的原始數據圖
根據2.3 節的識別和清洗流程,針對1 號機組的異常數據進行識別、清洗。清洗后散點圖如圖6 所示。

圖6 清洗異常數據后的散點圖
為了進一步驗證本文所提方法的有效性,對比幾種現存的風電異常數據識別和清洗方法。本文通過比較現存的2 種常見的風電機組異常數據清洗方法,即局部離群因子LOF 方法和四分位法。此外,本文將文獻[11]中Thompson tau-識別清洗方法參與比較,利用上述采用的1 號機組,以及相同風電場的14 號和20 號機組為研究對象進行驗證。驗證結果如表2所示。

表2 不同方法數據清洗結果
由表2 可知,本文所采用方法在不同機組數據下,均能有效地實現異常數據刪除,且刪除率均大于30%,與表中其他方法相比,本文方法對異常數據刪除率均更優,因此可以驗證本文所提方法的有效性。
針對傳統風速-功率異常數據識別和清洗算法所建立的模型復雜,而現有基于人工智能的算法清洗效果有待進一步提高等問題。本文以風速-功率數據為對象,提出了基于CNNBiLSTM 的機器學習算法對風速-功率異常數據識別方法。實驗結果和分析表明,基于CNN-BiLSTM 的風速-功率異常數據識別和清洗算法在不同的風電場均可有效識別和清洗。與其他方法相比,該方法對異常數據的去除精度更高,進一步驗證了該方法的有效性和優越性。在今后的工作中,作者將進一步對風電領域的其他變量進行數據清理,并對缺失數據進行重構,以保證數據的完整性。