基于K-means算法的RBF神經網絡預測光伏電站短期出力

2017-04-13 03:50:27邵堃俠郭衛民

上海電機學院學報 2017年1期

關鍵詞：模型

邵堃俠，郭衛民，楊寧，王亮

(1.上海電力學院自動化工程學院，上海 200090; 2. 國網河南省電力公司電力科學研究院，鄭州 450052)

基于K-means算法的RBF神經網絡預測光伏電站短期出力

邵堃俠1，郭衛民2，楊寧1，王亮1

(1.上海電力學院自動化工程學院，上海 200090; 2. 國網河南省電力公司電力科學研究院，鄭州 450052)

對K-means算法加以改進，使用減法聚類確定聚類中心數量；以相距最遠的兩個樣本作為聚類中心的邊界，改進的K-means算法將K個初始中心分散到含有輸入樣本點的各個區域中，使其能夠反映樣本之間的關系和分布特征；初始中心確定后，使用點對稱距離方法調整聚類中心。利用改進的K-means算法將歷史日聚類分成4種天氣類型，取相似日作為訓練樣本，對4種天氣類型分別建立基于改進K-means算法的RBF神經網絡功率預測模型。采用上海某光伏電站實測數據驗證，結果表明提出的的預測方法精度提高，實用性較強。

功率預測；徑向基神經網絡； K-means算法；減法聚類；點對稱距離

近年來日益嚴重的環境問題使得越來越多的國家開始鼓勵實施能源政策，促使可再生能源在能源市場所占比例日益攀升[1]。在眾多電力系統中，光伏發電因其經濟效益和環境效益受到高度重視。由于光伏電池成本逐漸下降以及相關技術日趨成熟[2]。2015年，全球范圍內光伏裝機容量新增近50 GW，與2014年同比增長25%，累計裝機容量近230 GW；中國、日本和美國繼續占據著最大市場，占新增裝機容量的2/3[3]。

能源互聯網是能源與互聯網相互融合的產物，它的建立將大力推進可再生能源的消納，促進光伏產業的發展。然而，并網光伏發電裝機容量迅速壯大，其發電波動對電力系統造成的沖擊直接影響電網運行的可靠性與穩定性[4]，使得新增發電量無法通過現有電網消納，由此引發的“棄光限電”現象制約了光伏電站的建設。為降低光伏發電對電力系統的沖擊，需對光伏出力進行短期預測。光伏發電系統短期功率預測是指利用一種或幾種有效的方法，對光伏發電系統的有功功率進行1～2 d的預測[5]。高效的出力預測對有效利用光伏發電、提高清潔能源的利用率必不可少。

光伏發電功率預測方法可分為間接預測和直接預測兩類[6]。直接預測是直接對光伏電站的輸出功率進行預測；間接預測則先對地表輻照強度進行預測,然后根據光伏電站出力模型得到光伏電站的輸出功率[7]。文獻[8]中將專業天氣預報的33種天氣類型分為4類廣義天氣類型，利用支持向量機完成天氣類型識別，實現了缺失天氣類型信息的歷史數據的辨識恢復，確保了其完整性和可用性。總結各類氣象因素對光伏出力的影響，文獻[9-10]中建立了基于神經網絡的光伏系統短期出力預測模型，具有較好的實用性和可行性。

由于在具有相似氣象條件的情況下，光伏陣列的輸出功率曲線具有一定的相似度，故可以通過選取相似日進行功率預測[11]。本文將相同天氣類型的相似日作為訓練樣本，建立基于K-means算法的徑向基(Radical Basis Function, RBF)神經網絡預測模型，利用上海某光伏電站歷史數據及當地天氣預報數據進行驗證，預測結果表明本文提出的預測模型性能較高。

1 RBF神經網絡

RBF神經網絡結構簡單、學習能力快，被廣泛應用于函數逼近、模式分類與識別中。其可以任意精度逼近任意的非線性函數，具有全局逼近能力，從根本上解決了BP神經網絡的局部最優問題，且拓撲結構緊湊，結構參數可實現分離學習，收斂速度快[12]。

RBF神經網絡由輸入層、隱含層和輸出層組成，其結構如圖1所示。其中，網絡的輸入矩陣X=(x1,x2,…,xN)，N為樣本總數，p=1，2，…，N；wkm為隱含層第k個節點到輸出層第m個節點間的連接權值，k=1,2,…,K，K為隱含層節點數，m=1,2,…,M，M為輸出層節點數；ym為與輸入樣本對應的第m個輸出層的實際輸出；Y=(y1,y2,…,yM)T為網絡的輸出。

RBF神經網絡中，隱含層神經元的輸出常由高斯函數產生[12]：

(1)

由圖1所示的RBF神經網絡的結構可以得到網絡輸出為

(2)

設d為樣本的期望輸出值，基函數的方差為

(3)

RBF神經網絡的學習過程如下:確定隱含層基函數中心與方差，為無導師學習階段，即根據輸入大量的數據，總結提煉找到規律和模式，自動調整拓撲結構和權值，經過不斷調節使其結構具有適應需求的特性；計算隱含層與輸出層的連接權值，為有導師學習階段，即將一組訓練集送入網絡，根據網絡的實際輸出與期望輸出間的差別來調整連接權。通常，利用K-means算法調整中心向量，學習算法具體步驟如下[12]：

(1) 基于傳統K-means算法求取基函數中心ck。K-means是一種無監督聚類算法，由MacQueen[13]在1967年提出，主要用于分析和觀測數據。該算法先隨機選擇K個輸入樣本作為初始聚類中心，K即隱含層的節點數，計算樣本xp與ck間的歐氏距離，并將該樣本分配到最鄰近的聚類集合γk中，取γk中各樣本的平均值作為新的中心。重復上述過程，直至相鄰兩次計算中聚類中心沒有發生改變，則ck為RBF神經網絡基函數中心。

(2) 求解方差

(4)

式中，dc_max為聚類中心之間的最大距離。

(3) 用最小二乘法調節隱含層與輸出層之間的連接權，

(5)

2 改進的K-means算法

本文利用K-means算法確定RBF神經網絡隱含層中心。K-means算法具有以下特點[14]：① 對于大數據集處理，效率高且相對可伸縮；② 易陷入局部最優解；③ 一般只能發現球狀簇；④ 聚類個數K需預先給定，且對預先指定的初始簇的選擇很敏感。本文利用減法聚類確定K，定義兩個相距最遠的輸入樣本為初始聚類中心的邊界條件，并給出確定初始聚類中心的方法；K-means算法利用歐氏距離作為相似性度量，難以發現非凸形狀的簇或差異較大的簇，故本文利用點對稱距離更新聚類中心。

2.1 減法聚類

減法聚類是一種簡單、有效的聚類算法[15]，它將各樣本點當作可能的聚類中心，按照樣本點的密度指標確定聚類中心。該算法可以自動確定聚類數，并且能有效反映數據的分布情況。減法聚類的過程如下[16]：

(1) 已知N個處于N0維空間內的數據樣本，則每個數據點密度為

(6)

式中，p和p′分別為第p個和第p′個數據樣本；γa為常數。若該點密度較大，則與該點相鄰的樣本點較多。

(2) 按照式(6)計算各樣本點的密度，密度最高的點定義為第1個聚類中心c1，其密度指標為Dc1；此時，k=1，更新各樣本點的密度指標，即

(7)

式中，ck為第k個聚類中心；Dck為第k個聚類中心的密度指標；γb為參數。

對于減法聚類中的參數γa和γb，文獻[15]中提出了一種確定方法[17]，即取

(8)

此處γa、γb表示處于樣本集合最中間的樣本到距離它最遠的樣本之間距離的1/2。

(3) 按照式(7)修正各樣本點的密度指標，確定Dmax=max(Dp)，選定下一個聚類中心c2。若滿足

Dmax/Dc1<δ

(9)

則迭代結束，聚類個數K=k；否則，K=k+1，并將密度指標最高的樣本點作為第k個聚類中心，重新計算式(7)，確定新的Dmax。其中，δ<1為給定的參數，當δ≥0.5時會取得較好效果[18]，本文取δ=0.5。

2.2 點對稱距離

傳統的K-means算法使用歐氏距離定義樣本之間的相似性，歐氏距離可以檢測到球形簇，但是不能檢測到主軸附近的集群。為克服上述缺點，本文采用文獻[19]中提出的“點對稱距離”定義樣本之間的相似性，具體如下：給定N個樣本，參考點c(這里指一個聚類中心)，樣本被分配到點對稱距離最小的聚類中，樣本sq與參考點c之間的點對稱的距離為

(10)

2.3 改進的K-means算法

本文對K-means算法的改進分為兩步：

(1) 確定聚類中心數K。利用上文所述的減法聚類確定K，即RBF神經網絡的隱含層中心點數K。

(2) 確定初始聚類中心，利用點對稱距離計算聚類中心。

選出輸入樣本中歐氏距離最大的兩個樣本xmax_p和xmax_p′，將兩者之間歐氏距離dmax平均分為(K-1)個子區間，則每個間距為

d=dmax/(K-1)

假設在所有輸入樣本中，有n1個樣本到xmax_p的距離小于等于d/2 ，取C1為這n1個輸入樣本的平均值，即

(11)

假設在所有輸入樣本中，有nK個樣本到xmax_p′的距離小于等于d/2 ，取CK為這nK個輸入樣本的平均值，即

(12)

為把聚類中心分配到輸入樣本所在的各區域中，設兩個相鄰中心之間的最小距離dc=1.5d。

設ds(xp,Ck)為xp和Ck之間的點對稱距離，其取最小值時的k為xp所屬的聚類簇；H(k)為k類樣本的數目,取Ck所在的簇內所有樣本的平均值為xavg，相鄰兩次迭代中聚類中心的總均方誤差為Mse。圖2給出了聚類中心的計算流程圖。

初始中心確定后，使用點對稱距離方法調整聚類中心，當相鄰兩次迭代的聚類中心沒有發生明顯改變時，迭代終止，得到最終的聚類中心。

圖2 聚類中心的計算流程圖

Fig.2 Flow chart of cluster center

3 預測模型設計

3.1 影響光伏發電功率的主要因素分析

光伏發電出力主要取決于太陽輻射總量對光伏面板的影響[20]，同時，溫度、濕度等氣象因素也不能忽視。實際工程中，可粗略估計光伏發電系統的輸出功率為[21]

P=ηSI[1-0.005(t0+25)]

(13)

式中，η為光電轉換效率，%；S為光伏陣列總面積，m2；I為接收到的太陽光照強度，kW/m2；t0為大氣溫度，℃。

由式(13)可知，影響光伏出力的主要因素為太陽光照強度、大氣溫度、光伏陣列的總面積和轉換效率等。對于確定的光伏電站，S、η都已包含在光伏陣列的歷史發電序列中，但是，不同天氣類型下太陽輻射的波動和氣溫的變化對光伏出力的影響也不可忽視。因此，本文取天氣類型、大氣溫度和光照強度作為影響光伏出力的主要因素。

3.2 相似日選取原理

考慮到光伏電站每天6:00—17:59 可能有功率輸出，定義6:00—17:59 各整點為基值點，故輸入變量為12個基值點對應的溫度值，輸出為預測日各基值點光伏陣列的輸出功率。RBF神經網絡是單隱含層結構，隱含層節點數根據實際情況增減。本文中，傳統的K-means算法的隱含層節點數K根據經驗法確定；改進的K-means算法中，使用減法聚類確定K值。

光伏發電出力受不同天氣類型下太陽光照強度的影響，利用歷史天氣數據將歷史日分為文獻[8]中所述的A、B、C、D 4類廣義天氣類型(見表1)。為了體現光照強度對發電量的影響，利用改進的K-means算法，按照光照強度將歷史日的專業氣象天氣類型重新按表1中的4類廣義天氣類型進行分類，然后，針對不同的天氣類型建立各自對應的預測模型。

表1 廣義天氣類型對應表

選擇預測日前30 d中與預測日天氣類型相同的歷史數據集Q1，分別計算Q1中歷史日與預測日溫度的歐氏距離diT，取diT較小的6 d作為該預測模型的相似日集Q2，即

(14)

式中，TiTnT為第iT個歷史日第nT個溫度值；TnT為預測日的第nT個溫度值；NT為溫度值個數。

3.3 RBF神經網絡的訓練

確定預測模型的結構后，將相似日集Q2作為訓練樣本，并根據預測誤差調整網絡參數；利用預測日的樣本作為測試集，測試網絡的預測效果，并對預測模型進行改進和優化。RBF神經網絡的訓練步驟如下：

(1) 對輸入數據進行預處理。篩選歷史日樣本，剔除奇異數據；為防止神經元出現飽和現象，對樣本數據歸一化處理，使其介于[0，1]之間，即

(15)

式中，vi為歸一化后的樣本點；Vi為第i個樣本點；Vmin和Vmax分別為對應歷史數據的最小值和最大值。

預測值y為歸一化后通過RBF神經網絡模型得到的預測數據，是介于[0，1]的值，需對y進行反歸一化，轉化為實際預測值Y，即

Y=y(Ymax-Ymin)+Ymin

(16)

式中，Ymin和Ymax分別為歷史數據中發電功率的最小值和最大值。

(2) 進行預測時，相似日集D2作為預測模型的訓練樣本。

4 實驗分析

本文以上海某光伏電站2015年3—5月歷史發電數據及當地同時間的氣象數據為例，使用Matlab 2013a進行仿真。選取與A、B、C、D類4種廣義天氣類型相對應的5月22日、5月26日、5月17日、5月30日作為預測日。為驗證本文方法的有效性，利用傳統K-means算法建立了RBF神經網絡功率預測模型，記為模型1；利用本文提出的改進K-means算法建立了RBF神經網絡功率預測模型，記為模型2；利用本文提出的改進K-means算法按照光照強度對歷史數據分類，再建立的RBF神經網絡功率預測模型，記為模型3，分別進行光伏電站發電功率預測。

圖3給出了預測結果與實際發電功率的比較圖。由圖3可知，對于A類天氣，3種模型的預測值與實際值都比較接近，預測效果較好，發電功率變化比較有規律；對于B類天氣，某些時段的預測誤差較大，這是由于陰云天氣使一天中云層的厚薄和位置變化難以預測，云層造成的陰影對光伏電池陣列的輸出影響較大，使得預測結果誤差增大；對于C、D類天氣，由于天氣變化情況比較復雜，導致某些時段預測結果誤差較大，但從結果可見，本文提出的方法預測結果更好。

(a) A類天氣(2015-05-22)

(b) B類天氣(2015-05-26)

(d) D類天氣(2015-05-30)

由于預測結果與實測值之間存在誤差，需要對發電功率預測模型做出評估。本文采用平均絕對百分比誤差[18](Mean Absolute Percentage Error，MAPE)和均方根誤差[18](Root Mean Square Error，RMSE)作為預測模型的綜合評價指標，如果誤差值越低，說明預測模型的精度越高。

(17)

(18)

式中，PMi為第i個基值點實際功率；PPi為第i個基值點的預測功率；Cap為日平均開機容量，kW；M0為輸出樣本個數。

預測結果評估如表2所示。通過對比表中各模型的RMSE和MAPE值可知：模型3較模型1、2的預測精度都要高。因此，本文提出的模型3可有效預測光伏系統輸出功率，從而滿足可再生能源系統的有效規劃。

表2 各模型的預測結果評估

5 結語

本文提出了一種確定RBF神經網絡隱含層中心的算法：利用減法聚類自動確定隱含層中心數目，確定能夠反映輸入樣本分布的初始聚類中心，最后利用點對稱算法更新初始中心。利用本文提出的改進K-means算法將歷史日按光照強度聚類分成4種類型，取相似日作為訓練樣本，建立基于K-means算法的RBF神經網絡功率預測模型，并利用改進的K-means算法優化RBF神經網絡預測模型。比較3個模型的預測結果可知，本文提出的預測模型性能較高，但是對于C和D類天氣類型，預測精度還有待提高，這是由于這兩類天氣變化情況較復雜，某些時段可能出現較為明顯的天氣變化，導致預測結果誤差較大。針對這種情況，可將這兩類天氣的數據劃分時段，選取與預測日天氣預報各時段天氣類型分別相同的歷史數據組成相似日作為訓練樣本。本文利用歷史數據直接預測光伏發電功率，不需要復雜的建模和計算，適當增加訓練樣本數目并結合本文提出的預測模型3，可提高光伏電站發電功率的預測精度。

[1] RAZA M Q, NADARAJAH M, EKANAYAKE C. On recent advances in PV output power forecast [J]. Solar Energy, 2016, 136:125-144.

[2] CANDELISE C, WINSKEL M, GROSS R J K. The dynamics of solar PV costs and prices as a challenge for technology forecasting [J]. Renewable Sustainable Energy Reviews, 2013, 26: 96-107.

[3] International Energy Association Photovoltaic Power Systems Programme (IEA PVPS)．IEA PVPS annual report 2015 [EB/OL]. (2016-05-13)[2016-08-26].http://iea-pvps.org/index.php?id=6&eID=_frontend push & docID=3195.

[4] 陳煒,艾欣,吳濤,等.光伏并網發電系統對電網的影響研究綜述 [J].電力自動化設備，2013,33(2):26-32，39.

[5] 楊德全. 基于神經網絡的光伏發電系統發電功率預測 [D].北京: 華北電力大學, 2014：1.

[6] 丁明,王磊,畢銳.基于改進BP神經網絡的光伏發電系統輸出功率短期預測模型 [J].電力系統保護與控制，2012,40(11):93-99，148.

[7] 盧靜,翟海青,劉純,等.光伏發電功率預測統計方法研究 [J].華東電力，2010,38(4):563-567.

[8] 王飛. 并網型光伏電站發電功率預測方法與系統 [D].北京: 華北電力大學,2013.

[9] 張嵐,張艷霞,郭嫦敏,等.基于神經網絡的光伏系統發電功率預測 [J].中國電力，2010,43(9):75-78.

[10] MELLIT A, PAVAN A M. Performance prediction of 20 kWp grid-connected photovoltaic plant at Trieste(Italy) using artificial neural network [J]. Energy Conversion and Management, 2010,51(12): 2431-2441.

[11] 白俊良, 梅華威.改進相似度的模糊聚類算法在光伏陣列短期功率預測中的應用 [J].電力系統保護與控制, 2014，42(6):84-90.

[12] 周品. MATLAB神經網絡設計與應用 [M].北京: 清華大學出版社,2013：232-237.

[13] MACQUEEN J. Some methods for classification and analysis of multivariate observations [C]// Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, Califor-nia: University of California Press, 1967,1: 281-297.

[14] VISALAKSHI N K, SUGUNA J. K-means clustering using Max-min distance measure [C]//2009 Annual Meeting of the North American Fuzzy Information Processing Society. Cincinnati, Ohio, USA: Nafips, 2009:1-6.

[15] 王洪斌,楊香蘭,王洪瑞.一種改進的RBF神經網絡學習算法 [J].系統工程與電子技術，2002,24(6):103-105.

[16] CHIU S L. Fuzzy model identification based on cluster estimation [J].Journal of Intelligent & Fuzzy Systems, 1994, 2(3):267-278.

[17] 裴繼紅,范九倫,謝維信.聚類中心的初始化方法[J].電子科學學刊，1999,21(3):320-325.

[18] PAL N R, CHAKRABORTY D. Mountain and subtractive clustering method: Improvements and generalizations [J].International Journal of Intelligent Systems,2000,15(4):329-341.

[19] SU Muchun, CHOU C H. A modified version of the K-means algorithm with a distance based on cluster symmetry [J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2001, 23(6):674-680.

[20] ANTONANZAS J, OSORIO N, ESCOBAR R, et al. Review of photovoltaic power forecasting[J]. Solar Energy, 2016, 136:78-111.

[21] YONA A, SENJYU T, FUNABASHI T. Application of recurrent neural network to short-term-ahead generating power forecasting for photovoltaic system[C]//IEEE Power Engineering Society General Mee-ting.Tampa, FL, USA: IEEE,2007: 1-6.

Short-term Forecasting for PV Power Generation Using RBF Neural Network Based on Improved K-means Algorithm

SHAOKunxia1，GUOWeimin2，YANGNing1，WANGLiang1

(1.College of Automation Engineering, Shanghai University of Electric Power, Shanghai 200090， China; 2. Electric Power Research Institute of State Grid Henan Electric Power Company, Zhengzhou 450052, China)

This paper proposes an improved K-means algorithm. The number of clustering centers is determined by subtractive clustering. The farthest two samples are taken as the boundary of cluster centers. The improved algorithm aims to distribute theKinitial centers in each region of the input space to reflect the relationship and distribution characteristics of samples. A point symmetry distance measure is used to update the initial cluster centers. Historical data are divided into four types of weather using the improved K-means algorithm, and the data of similar days are used as training samples. Four prediction models are established based on the improved K-means algorithm. The results show that the proposed method has high performance and practicability, verified by the measured data of a PV power station in Shanghai.

power prediction; radical basis function (RBF) neural network; K-means algorithm; subtractive clustering; point symmetry distance

2016 -11 -21

上海市科委地方院校能力建設項目資助(15160500800)；分布式試驗檢驗系統數據處理平臺(H2015-159)

邵堃俠(1990-)，女，碩士生，主要研究方向為光伏發電功率預測，E-mail：shaokunxia@163.com

2095 - 0020(2017)01 -0027 - 07

TM 615

基于K-means算法的RBF神經網絡預測光伏電站短期出力

1 RBF神經網絡

2 改進的K-means算法

3 預測模型設計

4 實驗分析

5 結 語

5 結語