曹建偉,陳文進,沈誠亮,張若伊,張 認,劉皓明
(1.國網浙江省電力有限公司湖州供電公司,浙江 湖州 313000;2.國網浙江省電力有限公司,杭州 310007;3.河海大學,南京 211100)
在“雙碳”背景下,我國新能源發電得到進一步發展,大規模新能源并網將推動能源清潔低碳轉型。新能源發電具有顯著的間歇性、隨機性與波動性,大規模新能源的集中/分散并網方式增大了電網運行控制難度,同時加大實時電力供需平衡難度[1-3]。
新能源發電受自然資源因素分布的影響,在時間和空間上表現出一定的相關性和聚集性[4]。對新能源進行聚類集群協調控制是解決大規模新能源時空不確定性以及經濟調度關鍵問題的內容之一[5-7]。目前新能源集群劃分方法主要有聚類法[8-9]、復雜網絡社團發現法[10-11]和智能優化法[12]等3類。文獻[8-9]通過建立描述電網節點的電氣距離指標,采用聚類算法將電網劃分多個區域,實現電網分區協調安全運行。文獻[10-11]建立兼顧系統模塊度與有功功率平衡度指標,構建提高分布式電源消納和儲能系統經濟性的集群儲能控制模型,促進新能源消納。文獻[12]通過建立電氣距離和有功無功平衡度的綜合指標,采用遺傳算法劃分電氣耦合性較強的新能源集群,提升新能源調壓能力以及電網的有功平衡度。以上文獻通過建立劃分指標,構建不同的新能源集群單元,采取群調群控的方式,促進新能源電網安全經濟運行。但以上的劃分指標是基于新能源運行特性而建立的,沒有考慮資源因素對新能源運行特性的影響,而新能源的運行特性與資源因素之間具有關聯特性。并且對于采用聚類算法的集群劃分,多以計算樣本之間距離作為聚類的判斷依據,使得聚類結果呈現樣本距離相近特征,無法保證新能源出力特性相關性的可靠描述。
另有研究表明,新能源發電的隨機波動性可由一系列出力場景進行表征,通過多場景的電力平衡計算是實現中長期發電計劃優化和新能源消納分析的有效方法[13]。目前構建單一新能源場站出力場景主要分為統計預測法[14]和元啟發式法[15]。統計預測法如:文獻[16-17]考慮風光場站出力互補性,統計分析風光場站歷史數據并建立新能源基地出力場景;文獻[18]采用FCM(模糊聚類)算法對新能源歷史時序出力數據進行聚類分析,生成該聚類典型的出力場景。該類方法在擬合精度、計算效率及算法穩定性方面較難平衡。元啟發式法如:文獻[15,19]分析多風電場功率在時空尺度上的相關性,采用馬爾科夫鏈模型描述功率曲線的轉移,建立強相關風電場群功率曲線隨機模型。該類方法的模型狀態數通常取決于人工經驗,當數據量龐大時,該方法易陷入某一狀態不發生轉移導致擬合失敗。
針對以上研究存在的問題,本文考慮資源相關性對新能源集群聚類可靠性的影響,分析新能源場站資源相關性,建立不同環境條件的新能源差異化出力模型。首先,構建新能源資源與出力特性相結合的特征數據作為新能源場站聚類分析的特征數據,采用改進K-means 算法對新能源場站特征數據進行聚類分析,建立不同資源條件的新能源發電集群。然后對新能源場站歷史出力數據進行聚類分析,以不同的聚類中心曲線作為典型出力曲線,構建新能源場站差異化出力模型,以提升出力模型擬合新能源出力特性的精確度。最后以中國東南某地區多個風電場實際監測的資源環境與出力數據,分析計及資源因素的聚類方法對新能源場站相關性的影響,以及建立的新能源場站差異化出力模型擬合實際出力的準確性。
風速、輻照是新能源發電的基礎,而溫度、濕度、氣壓、風向、云量等與風速、輻照具有強相關性[20],并且地理位置、地貌對氣象因素有一定的影響。因此新能源場站資源數據呈現多維度特點,并且特征數據之間具有相關性,存在信息重疊,這增加了新能源資源分析的復雜度。為分析特征之間相互關聯的復雜關系,采用主成分分析法對多變量相關性進行處理。
主成分分析是一種分析多個相互關聯變量的觀測數據統計方法,通過提取觀測數據中的重要信息,將多個特征轉化為少數幾個能夠反映原先特征信息的一組新的正交變量,即為原特征的主成分[21-22]。以下介紹新能源資源主成分提取步驟。
設新能源場站資源觀測數據X=[xij]n×m有n個樣本m個特征,對各特征數據xij進行標準化處理:


式中:xki和xkj分別為特征i和特征j的第k個樣本;和分別為特征i和特征j的平均值。
對|λE-R|=0 求解,其中E為單位矩陣,計算相關系數矩陣R特征值λi(i=1,2,…,m)并按從大到小進行排序,相應的特征向量μ1,μ2,…,μm,其中μi=(ai1,ai2,...,aim)。主成分可表示為:

式中:fm為第m個主成分;為標準化矩陣第m列向量。因此可由各主成分向量組成一個n×m維的表征新能源場站主要資源信息的主成分矩陣F。
為簡化數據,同時能夠包含更多原始信息,通常以累計貢獻率al≥0.85作為選擇主成分個數的依據。

依次對相關系數矩陣特征值計算累計貢獻率,當al≥0.85時選取f1,f2,…,fl作為描述原始觀測數據矩陣X的主成分,代替原先m個特征:

為簡化主成分,采用熵權法進行賦權,合理確定指標重要程度[23]。
1)計算特征比重。評價第i個特征的第j個樣本的特征比重pij為:

2)計算特征熵值和差異系數:

式中:ej為特征熵值;dj為差異系數,dj越大表示該特征包含的信息量越多,相應的權重越大。
3)計算各特征的熵權:

式中:ωj為第j個特征的權重,組成一個權重向量ω以表征各特征信息權重。
對式(5)采用權重向量替代簡化主成分,即:

則gi表示第i個新能源場站資源特征向量:

考慮風光發電出力的自然特性,本文采用文獻[24]給出的新能源出力特性指標,以年利用小時與月平均出力表征新能源場站季運行特性,同時用日平均出力與分段利用小時數表征新能源場站日運行特性。
1)年利用小時數
年利用小時數為新能源年發電電量與裝機容量的比值:

式中:T為年利用小時數;Wa為新能源場站年發電量;Pe為對應的新能源場站裝機容量;Pij為第i天j時新能源出力標幺值。
2)月平均出力
以新能源某一月的發電量與當月小時數的比值表示月平均出力:

3)日平均出力
計算新能源場站24 h平均出力:

4)分時段利用小時數
計算新能源場站全年24 h各時段利用小時數:

式中:Tj為全年內在j到j+1時段的新能源利用小時數;Wj為全年內在j到j+1 時段的新能源發電量。
年利用小時數與分時段利用小時數滿足關系:

通過計算以上新能源場站出力自然特性指標,生成表征新能源場站i的出力特性指標向量pi。
考慮新能源資源在時間和空間上的關聯特性,選擇新能源場站資源特征向量與新能源場站出力特性指標作為聚類分析的特征數據,建立資源與運行特性均具備相關性的新能源發電集群。
傳統K-means算法存在對初始聚類中心敏感、全局搜索能力較差、聚類精度低等問題[25],如初始聚類中心隨機選取會導致算法不穩定[23],聚類中心數量取值不合理會增大聚類結果的誤差[26]。本文采用基于聚類緊密度和距離原則[27]的改進Kmeans算法對新能源場站進行聚類分析,優化聚類簇數目和初始聚類中心,提升聚類結果的穩定性。
在所有聚類對象中選擇密度最大的對象作為初始中心。而對象的密度由其與所有對象的距離中的最大值表示,該值反映對象附近空間的稠密程度,該值越小說明對象的密度越大[2],可將該對象選為初始聚類中心。基于改進K-means 算法新能源聚類的計算步驟如下[27]:
1)輸入n個新能源場站相同時間跨度下的資源主成分與出力自然指標集合C:

2)計算集合C中各行向量之間的歐氏距離,并存入距離分布矩陣D:

式中:ci和cj為集合C中的任意兩個聚類對象;l為向量的元素數目;Dn×n為對角矩陣并且對角線元素均為零。
3)將距離分布矩陣D每一行的距離參數d(ci,cj)存入距離數組Dm:

式中:triu(?)表示提取距離分布矩陣Dn×n的上半角元素;sort{?}表示對C中所有對象的歐氏距離進行排序;Dm為存儲經排序的距離參數的距離數組,距離數組最小值min(Dm)表示對應密度信息最大的場景,即第一個初始聚類中心y1。
4)基于距離原則選擇與初始聚類中心y1距離最大的對象作為第二個初始聚類中心y2。
5)計算未被選擇的ci與初始聚類中心y1和y2之間的歐氏距離,并計算與兩個聚類中心最小距離的最大值di,對應的對象即為第三個初始聚類中心y3。其中di計算如下:

6)將集合內未被選擇為初始聚類中心的對象按最小歐氏距離的原則歸屬為相應聚類中心的簇類。
7)采用手肘法計算簇內SSE(誤差平方和)[28-29],選擇最優聚類數目:

式中:ESSE,L為聚類數目L對應的簇內誤差平方和;Ci為第i個簇;ck為Ci的樣本;yi為第i類聚類中心。根據不同聚類數目的簇內SSE 折線圖,選擇折線坡度驟減的點作為最優聚類數目。
8)重復步驟5至步驟7,完成初始聚類中心的選擇,對每個初始劃分的簇的場景求取均值并作為該簇類新的聚類質心vi:

式中:Ci和Ni分別為第i簇的集合與對象數目。
計算集合C中的對象與聚類質心vi的最小距離,將對象更新隸屬該簇類:

式中:Di表示以vi為聚類質心的一簇數組。
9)當各簇的聚類質心兩次迭代更新的歐氏距離的最大值滿足下式則停止迭代:

本文首先建立資源相關的新能源發電集群,對集群內各場站歷史出力曲線進行聚類分析,避免多場站聚類分析時因聚類曲線數量不同而導致復雜度和計算量增加的問題[24]。
在建立資源相關新能源發電集群后,采用聚類算法對新能源場站一定時間跨度的歷史出力曲線進行聚類分析,獲得聚類中心表征新能源場站不同運行水平的典型出力曲線,計算分析步驟如圖1所示。

圖1 計及風力資源的風電場出力分析流程
本算例基于中國東南某地區7 個風力發電場,裝機容量總計為283.5 MW,選擇2018 年夏季的歷史資源數據與出力數據,分析該區域新能源資源與出力關聯特性,建立不同環境條件下新能源出力特性模型。本文視是否考慮新能源資源因素,分析不同聚類結果的相關性和風電場出力曲線擬合準確度。
風電場提供的資源歷史數據有風速、風向、濕度、溫度、氣壓,數據顆粒度為15 min。通過聚類算法分析,獲得圖2所示不同聚類數目下簇內SSE折線。

圖2 不同聚類數目的SSE折線
由圖2 可看出,聚類數為3 時折線坡度最大,因此最佳聚類數目為3。對各風電場站進行聚類分析,并采用SSE 以及斯皮爾曼相關系數ρ分析聚類效果和聚類出力曲線之間變化趨勢與關聯程度[30]。

式中:ρ為斯皮爾曼相關系數;和分別為變量x和y的平均值。
由表1 可看出,考慮資源因素的SSE 大于不考慮資源因素的SSE 值,反映出考慮資源相關的新能源集群之間緊密度較疏松。根據各場站歷史出力數據計算出典型日出力曲線,分析是否考慮資源因素條件下各風電集群的出力曲線相關性,如圖3、圖4所示。
分別對圖3、圖4集群的風電出力曲線計算斯皮爾曼相關系數,得到如表2所示結果。
從圖3、圖4可以看出,各集群內包含了不同出力水平的風電場站,而不考慮資源因素的聚類結果反映出集群內的出力曲線距離相近,因此表1中考慮資源因素的SSE 大于不考慮資源因素的SSE。但從表2可以看出,考慮資源因素的各集群出力曲線相關性較典型日法得到提升,反映出資源相關性的不同容量場站,其出力曲線變化趨勢具有相關性,避免以出力數據作為單一聚類數據的聚類方法對聚類結果相關性的影響。

圖3 考慮資源因素的風電場夏季典型日出力特性

圖4 不考慮資源因素的風電場夏季典型日出力特性

表2 風電出力曲線斯皮爾曼相關系數
中長期新能源出力場景構建以典型日法[31]和時序仿真法[32]兩種方法應用最為廣泛。時序仿真法采用新能源出力時間序列數據除以對應周期內新能源總裝機容量,將其歸一化后來模擬新能源出力時間序列,準確性較高,但計算量大,仿真時間較長[19,33]。本文通過聚類算法計算不同資源環境的風電集群內各風電場的聚類中心,建立表征風電場不同運行水平的典型出力模型。選擇典型日法、時序仿真方法與本文方法進行比較分析,其中時序仿真法采用文獻[31]方法。圖5—7 分別為3個風電集群中各風電場的出力曲線,其中每個出力曲線的百分數表示以該曲線為中心的日出力曲線數量占總數量的百分比。
采用式(26)計算RMSE(均方根誤差)來評估出力曲線與實際風電出力曲線的偏差[32],得到表3所示結果。

式中:tk為新能源場站第k簇出力樣本數量;xi為出力模型中第i時刻的值;為第i時刻實際出力值。
由圖5—7 看出,每個新能源集群中的新能源場站有多個不同運行水平的出力曲線,反映出每條出力曲線代表了該新能源場站在不同資源條件下的典型出力曲線。由表3可知,本文建立的風電場站出力模型擬合實際出力曲線的誤差水平介于典型日法和時序仿真法之間。但時序仿真法計算量大,仿真時間長,對于大規模新能源場站的集群出力特性分析,其計算效率不高。

表3 出力曲線的RMSE

圖5 集群C1各風電場站出力曲線

圖7 集群C3各風電場站出力曲線
新能源發電受資源環境影響,其出力與資源因素在時間和空間上具有關聯特性。本文考慮資源因素構建不同環境條件的新能源差異化出力模型,提高新能源集群劃分的相關性以及提升描述出力特性的準確性。
通過對新能源資源特征與出力特性指標的新能源場站特征數據進行聚類劃分,克服以出力數據作為單一聚類數據的聚類方法對聚類結果相關性的影響。通過對風電場站日出力曲線聚類,構建新能源差異化出力模型。由出力曲線的RMSE計算結果可知,構建的差異化出力模型在擬合實際出力的誤差水平優于典型日法。
本文后續研究將建立新能源差異化模型與不同資源條件的映射模型,根據資源條件選擇相應的出力模型,提升新能源預測精度,支撐高比例新能源電網集群協調調控。