徐鶴,曹彬,岳文彥
(中節能風力發電股份有限公司,北京 100034)
隨著中國提出努力爭取在2060年前實現碳中和,發展風力發電、太陽能發電等清潔、可持續、可再生能源成為加速能源結構轉型的重要舉措之一,風電裝機規模將持續擴大。而風能具有不確定性,大量的風電接入電網可能會出現大規模功率波動,進而引發電網穩定性問題。為了使風能成為可靠的能源來源,建立高效、準確的風電監測和預測模型尤為重要。
風功率曲線是風力發電機組功率和風速的對應曲線,反映了風力發電機組在不同風速下產生電能的能力,在評價風力發電機組發電性能優劣及風功率預測中發揮著重要作用。而由于棄風限電、通信設備故障、極端天氣、葉片污染和風速傳感器失靈等原因,實際測量數據中存在大量不符合風力發電機組正常輸出特性的異常點,異常數據的識別和剔除是獲得風功率曲線的重要步驟,IEC 61400-12-1中關于異常數據剔除做出了明確規定:用于分析的數據均應該是在風力發電機組正常運轉情況下采集的,為了確保數據沒有損壞,應當排除以下情況中的數據集:(1)除風速外的外部條件超出了風力發電機組的工作范圍;(2)由于風力發電機組故障狀態導致的無法運轉;(3)風力發電機組被手動關機或者處于測試或維修操作狀態;(4)測試設備故障或者性能退化(例如,葉片結冰和污染等);(5)風向超出了規定的測量扇區。
國內外研究學者對風功率異常數據剔除、風功率曲線建模做了大量研究,風功率曲線建模的精度不斷提升。而風力發電機組的運行數據中蘊含更多信息,除了需要將正常數據與異常數據區分開外,還需要將異常數據產生的原因進一步識別,即風力發電機組運行狀態識別。對風力發電機組運行狀態的識別是風電監測的重要工作之一。同時,機組運行狀態識別結果可以用于排除IEC 61400-12-1中規定的五種數據集,獲取風功率曲線。
本文闡述了風速-功率散點圖中的異常數據分布特征,總結歸納了常用的異常數據識別方法、風功率曲線建模和風力發電機組運行狀態識別方法,重點對各個方法的技術路線、應用情況以及應用效果進行介紹。通過對各個方法機理的分析,逐步梳理其應用范圍,找出問題和不足。在此基礎上,提出了風力發電機組運行狀態識別深入研究的未來發展方向,從而為今后建立高精度的風力發電機組運行狀態識別模型提供理論依據。
風力發電機組在運行過程中受到湍流、氣象因素和零部件故障等影響,運行數據中存在大量偏離正常工作特性的異常點。不同成因的異常點在風速-功率散點圖中表現的數據形態不一致。根據風速-功率圖中散點分布形態可以將異常數據分為四類,如圖1所示。
圖1 風功率散點圖異常數據分布特征示意
(1)底部堆積型異常數據在風速-功率散點圖中表現為一條橫向密集數據帶,功率在零值附近波動,表現為數據堆積。產生的原因包括機組故障、通信設備或測量終端故障、計劃外停機檢修等情況。
(2)中部堆積型異常數據在風速-功率散點圖中表現為在保證功率曲線下橫帶狀的形態,該數據帶往往是因為電網限電或者風力發電機組故障無法定位,人為將風力發電機組功率限制在某一值。
(3)上部堆積型異常數據在風速-功率散點圖中表現為位于風功率曲線右側橫帶狀的形態,產生的原因通常是通信錯誤或風速傳感器失靈。
(4)周圍分散型異常數據表現為功率曲線附近密度較低的無規律散點。此類異常數據產生的原因為棄風限電、信號傳播噪聲、傳感器失靈、極端天氣情況和風向標松動等隨機影響因素造成的。
堆積型異常數據通常在時間上存在連續性,往往無法瞬時恢復。分散型異常數據表現為分散分布的形態,通常是隨機產生且變化的,可短時間內恢復。
棄風限電的數據可能表現為堆積型數據也可能表現為分散性數據,具體的數據形態與棄風限電的響應方式相關。能量管理系統(Energy Management System,EMS)接收自動發電控制模塊(Automatic Generation Control,AGC)限電的指令后,按照內部控制邏輯來控制風電場中每臺風力發電機組的功率。AGC的限電命令是實時發送且為動態調整的,往往棄風限電數據在風速-功率散點圖上表現為分散型。而如果人工參與限電行為,如為了快速響應限電指令,將某一臺或者幾臺風力發電機組的功率限制在某一值下,此時棄風限電數據在風速-功率散點圖上則表現為堆積的橫帶形態。
婁建樓等人提出了組內優組內方差的數據剔除方法,該方法首先將風速和功率的原始數據根據風速區間進行劃分,記某一風速區間的數據集為W:
vi表示i第個數據樣本的風速,pi表示i第個數據樣本的功率,pi按照降序排列,即pi<pi-1(i>1)。
然后依次計算前個坐標點中功率的方差值:
si為第個i點的方差,pj為第j個點的功率值;為第i-1個點的功率的平均值。由于是依次計算數據集中i個點的方差,該計算方式類似滑動計算,所以婁建樓等人又將此計算方法稱為滑差值計算。
最后,通過給定滑差值的閾值,分離正常點和異常點。這種方法實用、高效,并引入實際的案例證明了該方法能夠準確識別出機組異常運行狀態。
沈小軍等人采用變點分組法與四分位法組合的方法。變點是指在一個序列或一個過程中的某個或某些數據突然變化的點,這種突然變化往往反映數據的某種質的變化。變點分組法是在組內最優方差法的基礎上計算方差的變化率,采用方差變化率的變點作為分組依據。
ki為第i個點的方差變化率。
然后,采用最小二乘法作為檢測方法,對每個風速區間的風力發電機組功率的方差變化率分為前后兩段進行回歸分析,回歸系數發生突變的點即為回歸變點,從而得到功率值明顯變化的位置。變點分組法準確識別出了風速-功率曲線下方的第一、二類堆積型異常數據和部分分散型異常數據,但是,對風功率曲線上界的第三類堆積型異常數據和部分分散型異常數據無法有效識別。因此繼續采用四分位法進行異常數據識別,四分位法是常用的統計學異常數據檢測方法,即將全部數據從小到大排列,排列在前1/4位置上的數,即25%位置上的數,稱為第一四分位數,記作Q1;排在后1/4位置上的數,即75%位置上的數,稱為第三四分位數,記作Q3;排列在中間位置的數即50%位置上的數,稱為第二四分位數,記作Q2。將Q3-Q1定義為四分位距,記作IQR。將Q3+1.5IQR定義為上界;將Q1-1.5IQR定義為下界;將大于上界和小于下界的數據識別為異常值。沈小軍等人用四分位法有效地識別出了第三類異常數據及部分分散型異常數據。
圖2 四分位法示意圖
聚類分析是無監督類機器學習算法中最常用的一類,其目的是將數據集分成若干組,也被稱為“簇”,使得組內的相似性大于組間的相似性,如果劃分適當,則簇應當捕獲數據的自然結構,因此聚類分析也常常被用作離群點檢測。常用的聚類方法有K-means、層次聚類、Dbscan(Density-Based Spatial Clustering of Applications with Noise)、模糊C均值(Fuzzy C-Means,FCM)等。
Dbscan是常用的基于密度的聚類方法,延平采用Dbscan的方法對風力發電機組運行數據進行分析,根據數據特點將限功率數據、正常運行數據、故障停機數據、降容運行等數據進行區分。該算法將“簇”定義為密度相連的點的最大的集合,并通過考察對象與簇之間的關系,將具有足夠高密度的區域劃分為一簇,是一種無監督分類的方法。圖3為將Dbscan法用于功率-槳距角的聚類效果,圖中散點被聚成6類,然后結合風力發電機組運行特性,人為將這六類散點標記為正常運行數據、限功率數據、異常數據和故障停機數據。Dbscan方法雖然在論文所采用的標準數據集上取得了不錯的效果,但是,實際運行場景中的風力發電機組數據集往往復雜的多,使用Dbscan方法不能很好地達到論文中的效果。
圖3 功率-槳距角DBSCAN聚類結果[5]
深度學習本質上是自動特征提取,正常的風力發電機組運行數據特征會有一定的規律,而異常數據往往是個性化的,如果數據量足夠多,深度學習也可以用于異常數據的識別。
(1)門控循環單元(Gate Recurrent Unit,GRU)。GRU是循環神經網絡(Recurrent Neural Network, RNN)的一種,和LSTM(Long-Short Term Memory)一樣,也是為了解決長期記憶和反向傳播中的梯度等問題而提出來的。與LSTM相比,使用GRU能夠更容易進行訓練,并且能夠實現與LSTM相當的效果,能夠很大程度上提高訓練效率。
風力發電機組的數據采集與監視控制系統SCADA包含多個監測量,其中涉及振動量、壓力量、溫度量、角度量、電氣量和速度等,不同風力發電機組品牌和型號的傳感器測點個數不一致,一般為幾十個到一百多個,圖4為常見的SCADA連續監測量。李秋佳根據SCADA系統監測量,構建風力發電機組狀態評估的項目層,確定各個項目層的評估指標,并基于隨機森林(Random Forest,RF)算法建立了各指標與對應監測量間的聯系。然后,選擇風力發電機組的狀態估計指標并對發電機正常狀態下的監測量進行數據預處理,通過克里金法(Kriging)-GRU模型得到各測點評估指標的預測值,給定各指標的殘差及劣化度并以此為依據建立相應的標準正態云模型,之后將待估云與標準正態云對比判斷風力發電機組運行狀態。
圖4 SCADA 連續監測項
(2)深度神經網絡(Deep Neural Networks,DNN)。解加盈等人將深度神經網絡用于風功率曲線建模,他們首先引入偏最小二乘法(partial least-square,PLS)分析了風力發電機組運行數據中多個變量和風力發電機組功率的相關性,然后,通過交叉有效原則和投影重要性指標(Variable Importance in Projection,VIP)對多個變量進行了降維篩選,最后把找到的最優變量子集作為DNN的輸入,最終得到風功率曲線的DNN模型。
風功率曲線描述了風力機輸出功率與風速的關系,反映了風力發電機組的性能。風力發電機組功率曲線的建模有助于風力發電機組的性能監測和功率預測。風功率曲線模型可分為參數模型和非參數模型。非參數模型是指對任何分布的函數形式不作任何假設的模型,本文2、3章中介紹的統計學方法及機器學習方法均是非參數模型。參數化模型是建立在一套數學表達式的基礎上,一般采用高級算法求解這套表達式。
建立參數化模型首先需要確定函數表達式,常用的函數表達式有分段線性模型、多項式擬合、指數、多參數邏輯回歸等,本文以線性分段模型和四參數模型來舉例介紹。
(1)線性化的分段模型。將風功率曲線進行線性化的分段,如圖5所示,利用直線方程實現了分段逼近:
圖5 線性分段模型
其中P是風力發電機組功率,為輸出變量;u是風速,為輸入變量;定義分段的斜率為θ=f(m,c),為常數。
(2)四參數回歸模型。風功率曲線的形狀可以用帶四個參數的邏輯表達式來近似。圖6為四參數模型的曲線,其表達式為:
圖6 四參數模型
其中θ=f(a,m,n,τ)是決定四參數邏輯表達式的一個矢量參數。
參數化模型的參數擬合涉及對數學表達式的一個或多個參數的確定。常用的參數擬合方法有最小二乘法、RANSAC、GA等。圖5將功率曲線分為5個線性段,建立功率曲線的線性分段模型后,利用最小二乘法將現有數據擬合到每個線段上。最小二乘法使殘差平方和最小,從而得到系數估計值。RANSAC (Random Sample Consensus,RANSAC)算法由Fischler 和 Bolles提出,是一種重采樣技術,通過使用估計底層模型參數所需的最小觀測值生成候選解決方案,傳統的采樣技術使用盡可能多的數據來獲得初始解,然后繼續去修剪離群值,而RANSAC使用盡可能小的集合,并繼續用一致的數據點來擴大這個集合,因此,RANSAC方法適用于從噪聲點較多的數據集中提取模型。遺傳算法是一種基于達爾文生物系統進化理論的搜索技術,通過模擬自然進化過程來搜索最優解,在求解復雜的組合優化問題時,相比常規的優化算法往往可以較快地獲得較優的結果。
國內外研究學者對基于數學模型的風功率曲線建模做了大量研究。A.Goudarzi等人研究了330kW、800kW和900kW的風力發電機組風功率曲線建模,使用標準化均方根誤差等統計指標來評估所選模型的性能,結果表明,四階多項式是最精確的數學模型。C.Carrillo等人比較了多項式、指數、立方和近似立方四種模型,他們收集了功率在225kW-7500kW的200臺風力發電機組功率曲線,利用確定系數作為適應度指標來評估模型的性能,結果表明,指數逼近和三次逼近的確定系數大,誤差小,多項式模型的確定效果最差。Alhassan等人比較九種常用的數學模型,使用相關誤差、歸一化均方根誤差和相關系數等統計標準來評估模型的精度,結果表明,基于功率系數的模型和通用模型是建模風力機功率曲線最精確的數學模型,多項式模型是最不精確的模型。
國內外研究學者已經針對風功率異常數據識別和風力發電機組功率曲線建模做了大量研究,風功率曲線建模的精度在不斷提升。統計學方法原理較為簡單,應用也較廣,但是統計學方法嚴重依賴數據的分布特性,如果數據中存在大量的異常點,將會影響數據分布形態,從而使得統計學識別異常數據的精度下降。機器學習方法適用性較廣,但需要大量樣本,尤其是深度學習,對樣本和計算資源的要求較高。基于參數化模型建模的方法發展較為成熟,但采用不同參數模型獲得的功率曲線形態存在差異,使用過程中需要根據具體的數據集選擇合適的參數模型。
現階段將異常數據與正常數據區別劃分已經可以實現,但對于異常數據成因識別仍然存在諸多問題。如果能夠根據運行數據準確地識別風力發電機組運行狀態,將會對風電場運維形成一定的指導作用,從而降低運維成本,提升發電量。因此,從風力發電機組運行數據中挖掘機組運行狀態亟待深入探索,主要分為兩個方面:一是從技術角度,將更多先進的智能算法應用于風力發電機組狀態識別,研究過程中選取真實風電場獲取的數據集,除使用電氣量、速度量、溫度量外,可以加入控制監測量,并且結合風電場地理信息、氣象數據等綜合考慮;二是從管理角度,推動設備制造商PLC與SCADA更好地配合,并開放保護降容(故障降容、高溫降容等)等狀態信息,同時應與能量管理平臺配合記錄限電行為,因為棄風限電數據是降容數據的一部分,特別是在棄風率較高的區域,獲取單臺機組的限電記錄對風力發電機組運行狀態識別意義重大。