文 | 楊靖文,張靜
測量相關預測(measure-correlatepredict,MCP)方法是一種建立在空間相關性原理基礎上,利用目標站點短期測風數據(風速、風向)及長期參考數據預測目標站點長期風況的數學方法。使用該方法可以利用參考數據來修正測風期間,由于儀器受損、太陽能電池供電不足等因素造成的目標站點較長時間的數據丟失,可節省大量用于風電場選址的觀測時間和試驗費用,提高準確度和效率。
參考數據選擇目標站點附近與其地形相似且氣候條件相近、風能資源分布相似、長時間(10年以上)實測的氣象數據及再分析數據。再分析數據是同化了大量衛星資料及地面和高空等常規觀測資料,具有時間序列長、分辨率高等優點。20世紀90年代以后,美國、歐洲、日本等相繼推出了再分析產品。目前一般采用美國氣象環境預報中心(NCEP)近年來發展的CFSR和CFSv2、美國國家航空航天局(NASA)發布的MERRA及MERRA-2再分析數據;歐洲中期天氣預報中心(ECWMF)的第四代再分析數據ERA-Interim及第五代再分析數據ERA-5。
在Windographer中,提供了8種MCP算法—線性回歸法、正交回歸法、矩陣時間序列法、快速排序法、方差比法、風速比法、垂直分層算法以及威布爾擬合算法。本文旨在討論這8種算法在不同地形項目中的應用及準確性。以往對于MCP算法的檢驗,基本側重于風速的檢驗,鑒于風能資源的評估最終是轉化為產量,故而本文同時從風速及發電量兩個方面,各使用3個不同的指標對算法進行檢驗和對比,所得結論可為風能資源評估提供科學參考。

表1 測風塔基本情況

表2 再分析數據基本情況
本文所采用的短期數據,一是來源于河南0001#測風塔的測風數據,測風塔所在地區地勢較為平坦開闊;二是來源于廣西0002#測風塔的測風數據,測風塔所在地區是地形較為復雜的山地。選取這兩座測風塔的原因有:(1)兩座測風塔測風時長均達到一個完整年,且觀測期間數據質量較好,完整率較高,可用于MCP結果的自檢驗。(2)兩座測風塔分別處于山地和平原兩種典型地形地區,可用于探索不同MCP方法對地形的適用性。(3)兩座測風塔使用的設備為同一款行業常用型號,且測風高度均與目前主流輪轂高度接近,其觀測結果及評估結果具有較強的現實參考意義。測風塔基本情況如表1所示。
本文擬選取從UL AWS Truepower站點下載的該測風坐標附近5個站點自1979年至2019年長達40年的4種再分析數據,其基本情況如表2所示。在比較了CFSR、ERA-Interim、ERA-5、MERRA-2與目標數據的相關性(圖1、圖2、表3、表4)后,選定參考數據為與目標數據相關性更高的ERA-5數據。

表3 參考數據與0001#目標數據的相關性
Windographer中提供的8種MCP算法如表5所示。對每種算法進行不同的設置:按不區分扇區以及分16扇區分別計算;除矩陣時間序列法外,對每種算法均按季度進行了年度的劃分(年度4分);基于線性回歸法和正交回歸法的特性,對兩種算法分別使用了強制0點(強制零截距,擬合線總是通過0點);矩陣時間序列法則使用了原始時間序列和平滑處理兩種設置。
對于各算法所得的模擬數據中的風速和風向,均采用決定系數(通常縮寫為R2)來檢測其相關性。決定系數是衡量數據點擬合指定曲線程度的指標。在通過簡單線性回歸(線性回歸法)獲得該曲線的特殊情況下,R2等于R的平方,R即相關系數(皮爾遜積矩相關系數)。
Windographer根據下面的公式計算決定系數:
其中,
式中,yi是第i個數據點的y值;是所有數據點y值的平均值;fi是根據比較數據曲線所得到的第i個數據點的預測值。

表4 參考數據與0002#目標數據的相關性
根據以往的經驗,結果的檢驗往往更多著眼于風速的對比。考慮到風能資源分析最終是為了更好地將風能資源轉化為產能,因此,本文的檢驗包括風速與發電量兩個方面。
發電量檢驗使用的風電機組為GW155/3000,風輪直徑為155m,輪轂高度為100m,切入風速2.5m/s,切出風速18m/s,額定功率3000kW,功率曲線如圖3所示。
平均偏差誤差(MBE):對一組預測值與實測值匹配程度的度量,描述的是各預測值與實測值偏差的平均值,反映的是數據的離散度。公式如下:注:*數據為插值數據; 紅色數據為選定的參考數據
式中,N是集合中值的數量,yi是第i個觀察值,是第i個預測值。
平均絕對誤差(MAE):對一組預測值與實測值匹配程度的度量,描述的是所有單個預測值與實測值的偏差絕對值的平均。平均絕對誤差可以避免誤差相互抵消的問題,因而可以準確反映實際預測誤差的大小。公式如下:
式中,N是集合中值的數量,yi是第i個觀察值,是第i個預測值。
分布誤差(DE):對一組預測值的分布與觀察值或真實值的分布匹配程度的度量,描述了實際測量值與擬合曲線的偏離情況。公式如下:
式中,N是頻率分布中的區域數,Fi是真實分布的第i分頻點的頻率,是預測分布的第i分頻點的頻率。

表5 算法簡表
本文使用同期檢驗及交叉檢驗兩種方法對MCP結果進行檢驗。
同期檢驗的思路是,使用目標數據及參考數據的全部可用數據作為訓練數據,用不同方法構建模型,然后基于此模型,利用參考數據對原目標數據進行重新推算,構建一套新的目標數據,并以此作為測試數據,與原目標數據進行上述指標的計算及對比分析。
0001#目標數據與參考數據同期的觀測數據分別為52482個,那么,在做同期檢驗時,計算了52482對數據間的偏差;0002#目標數據與參考數據同期觀測數據分別為49612個,故而計算了49612對數據間的偏差。
交叉檢驗是在目標數據與參考數據的所有同期時間段內,從擬合數據中隨機使用一半數據作為訓練數據,另一半數據作為測試數據。為了達到更好的收斂效果以求得最優解,對數據進行了200次迭代,并對所有迭代結果按照上文所述的檢驗指標進行計算。
在對0001#目標數據做算法的交叉檢驗時,樣本容量為52482個。每次迭代,從52482個預測數據中隨機抽取一半作為訓練數據,另一半作為測試數據;對0002#目標數據做算法的交叉檢驗時,樣本容量為49612個。每次迭代,從49612個預測數據中隨機抽取一半作為訓練數據,另一半作為測試數據。
訓練數據與測試數據合起來所覆蓋的時間點與目標數據和參考數據的同期時間點保持一致。
每種算法的不同設置雖然對結果存在一定程度的影響,但大部分并不顯著,故本文僅列出部分主要計算結果(不區分扇區的原始算法),并進行分析匯總。
表6和表7分別展示了針對風速和發電量檢驗指標的對比結果。從表中可以看出,對于風速平均偏差的檢驗結果,各算法結果均在1%以內,有些算法基本沒有偏差。發電量的平均偏差范圍相對較大,約在-4%~5%之間。如圖4所示,將風速平均偏差與發電量平均偏差進行對比發現,部分算法(如線性回歸法、正交回歸法、方差比法和風速比法)可以得到比較接近的平均風速,但使用擬合數據計算的發電量與原始數據相比,誤差較大。原因在于發電量計算不僅與平均風速有關,更與風頻分布相關,因此,需要對風速的分布誤差進行分析。

表6 風速檢驗指標對比表

表7 發電量檢驗指標對比表
在兩個項目中,各算法表現出了一致性與差異性。在表1中,0001#目標數據與0002#目標數據的數據完整率不同,但是在檢驗時,僅使用的是目標數據與參考數據的同期有效數據,故而并不會對檢驗結果產生影響。由表6與表7的檢驗結果可以看出,算法的一致性在于,各算法在兩個項目上的表現趨勢是一致的;差異性在于,各算法在兩個項目上的偏差有所不同,如垂直分層法在山地項目上的表現要明顯優于其在平原項目上的表現。
由分布誤差的檢驗結果(如圖5)可知,垂直分層法及線性回歸法的偏差相對較大;矩陣時間序列法分布誤差最小,風速為0.21%~3.11%,發電量為0.00%~1.97%;其他算法較為接近。風速的分布誤差較大必然會導致發電量分布誤差增大,同時可能會導致發電量平均誤差增大。由于生產過程中主要關注發電量的平均值,因此,本文重點關注風速的分布誤差和發電量的平均誤差,以及二者關系。
此處選取發電量平均偏差較大的線性回歸法,以及最小的矩陣時間序列法,將其擬合數據的風頻分布與原始數據進行對比,結果如圖6所示。由圖可明顯看出,線性回歸法得到的風頻分布與原始數據存在較大差異,矩陣時間序列法則比較一致。
以上對比了風速及發電量的平均偏差。此外,各樣本個體與實測值的偏差可用離散偏差,即平均絕對誤差來衡量。由表6可以看出,各算法的平均絕對誤差大部分相對較大,約為20%~30%,說明擬合得到的數據序列雖然平均值比較接近,但獨立樣本個體與實測值之間仍存在一定程度的差異。其中,離散偏差最小的是矩陣時間序列法在同期檢驗時的表現(風速為0.01%~6.71%,發電量為0.06%~8.99%),說明該方法使用全年數據構建的模型與真實情況離散程度最為接近,且偏差遠遠低于其他算法。
如圖7所示,對于每一種算法,同期檢驗和交叉檢驗兩種檢驗方法對于大部分檢驗指標的結果不會有太大影響。除矩陣時間序列法的平均絕對誤差外,兩種檢驗方法得到的其他指標結果非常接近。所以,對于不同算法的橫向比較,兩種檢驗方法給出的結論基本一致。
本文通過以位于平原、山地地帶的兩個測風塔實測數據作為目標數據(本文僅選取兩個項目,結果適用范圍相對有限,后續擬增加更多實際項目進行對比,以得到更具推廣意義的結論),對4種常用再分析數據進行相關性計算,選取相關性最高的ERA-5數據,使用8種不同的MCP算法,對目標數據進行插補修正,并對結果進行檢驗。通過本文研究可得出如下結論:
(1)經檢驗,各算法得到的平均風速均較為準確,偏差在1%以內,但發電量偏差達到-4%~5%,個別算法偏差較大,主要原因在于發電量計算與風頻分布相關。風能資源評估需要同時關注風速和發電量,因此,對于風頻分布的偏差指標進行評估同樣重要。
(2)針對本文使用的兩個項目,綜合風速平均偏差、離散偏差以及發電量的平均偏差各項指標來看,矩陣時間序列法表現最好;常用的線性回歸法用于發電量計算偏差較大,針對不同項目需謹慎使用該算法。
(3)對于不同算法的橫向比較,同期檢驗和交叉檢驗兩種檢驗方法給出的結論基本一致。
(4)各算法對于平原或山地的適用性并沒有明顯規律,所以,MCP算法適用性與地形關系并不明顯。