999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GBDT回歸的光伏電站出力人工智能預測算法研究

2021-03-02 10:01:16朱祺楊鵬
電力大數據 2021年11期
關鍵詞:特征模型

朱祺,楊鵬

(中國電力工程顧問集團華東電力設計院有限公司,上海 200001)

隨著3060碳中和目標的提出,光伏發電作為典型的綠色電源形式,其裝機容量占整個電力系統總裝機容量的比重越來越大,在電力系統中所起的作用也愈發重要。準確的光伏發電出力預測對于保障高比例光伏接入后系統的安全穩定與經濟運行具有重要意義[1]。

在光伏發電預測方面,最初的數據挖掘方法比較原始,如靜態知識和單源挖掘方法,它們不適用于包含大量異構和流數據的智能電網場景,針對這一問題,學者們提出了多源挖掘機制和動態數據挖掘方法。如文獻[2]將馬薩諸塞州東南部分為15個片區,通過分析歷史開源氣象數據及光伏電站歷史出力數據并構建氣象參數-輸出功率的轉化模型,最終實現了預測時間分辨率為1小時的區域日前出力預測。文獻[3]依據多維參量,包含氣象參數、經緯度以及光伏陣列安裝傾斜角等,對整個歐洲地區進行了片區劃分并建立了不同片區的區域光伏發電模型,對整個歐洲地區的光伏出力實現了時間分辨率為1小時的預測。

相較于低效率、高成本傳統集中式數據處理的分析方法,分布式計算更加高效,已被廣泛應用于地質、氣候和環境分析、人類基因組計劃、暗能量測量計劃等領域[4]。隨著計算能力的大幅提高和硬件成本的降低,一些新的信息提取方法被提出,機器學習就是其中之一。本文即是通過基于GBDT回歸的光伏電站出力人工智能預測算法對于光伏電站的出力進行預測,通過準確度較高的預測結果提前預知光伏電站的未來超短期和短期的出力情況,保證電網的運行安全。同時,各類氣象元素與光伏電站出力之間的相關性數據也能為光伏電站的選址提供參考,為光伏電站的選址決策提供數據支持。

1 GBDT算法原理

針對預測場景的算法有很多種,較為常見的有線性回歸、Bayes、LDA、KNN等。這些算法有的適用于回歸場景,有的適用于分類場景,部分能夠同時被應用在兩大類場景中。如文獻[5-8]采用混合k-聚類和主成分分析相結合的方法,進行數據降維和估計映射。文獻[9]基3639個用戶電表數據,利用回歸分析的方法進行用戶負荷分類。

GBDT算法全稱為梯度提升迭代決策樹算法,是機器學習算法中對真實分布擬合的最好的幾種算法之一,其典型特點為既可以用于分類也可以用于回歸。

算法的原理如下[10]:

梯度提升迭代決策樹預測函數的表達式為:

(1)

式中:x為輸入樣本;ht為第t棵回歸樹;ωt為回歸樹參數;ρt為第t棵回歸樹的權重。

對于N個樣本,預測函數的最優值為:

(2)

式中:L為損失函數。

梯度提升迭代決策樹算法的迭代過程如下:

(1)定義

(3)

式中:fi為弱學習器。

(2)構造基于回歸樹的訓練樣本、目標函數分別為:

(4)

L(yi,F(xi))=(yi-F(xi))2

(5)

式中:(yi,xi)∈R×RN。

(3)基于梯度下降方向訓練決策樹得到的擬合數據為:

(6)

其最佳擬合數據為:

(7)

(4)求得梯度下降方向的最佳步長為:

(8)

式中:ρt0為第t棵回歸樹的初始權重。

(5)求得第t棵回歸樹的弱學習器為:

ft=ρ*ht(xi,ω*)

(9)

(6)迭代后的預測函數為:

Ft(x)=Ft-1(x)+ft

(10)

若損失函數滿足誤差收斂條件或得到的回歸樹的t值達到預設值,則迭代終止;若不滿足,則繼續迭代。

2 光伏電站出力預測算法

2.1 數據集情況

本文所采用的數據集為某光伏電站的氣象及出力實測數據,時間跨度為3年(其中包含1個完整年),數據的采樣周期為5分鐘。數據的總數為42969條,特征構成如下表所示:

按照人工智能訓練、調節參數和測試的習慣,整個數據集需要按照比例進行拆分,分別用于訓練模型、調節模型參數和測試模型預測效果。如文獻[11]提到了采用LSTM模型來預測電力系統負荷的方法,數據集的拆分比例為81%的數據用于訓練模型,19%的數據用于測試模型預測效果。文獻[12]采用了XGBoost極限梯度提升模型、隨機森林模型和LSTM模型三種模型融合的方式來進行電能表需求預測,使用最大約之前75%的數據預測約之后25%的結果。本文采用Holdout交叉驗證[13]方法,將整個數據集按照60%、20%和20%進行拆分,分別用于訓練模型、調節模型參數和測試模型預測效果,如下表所示:

Holdout交叉驗證方法能夠避免訓練完成的模型出現過擬合情況,防止出現模型對訓練數據擬合較好但是卻沒有辦法對于測試數據做出精確預測的情況。在以上數據集拆分基礎上進行光伏電站出力預測算法模型的設計及后續的訓練、調節和測試驗證工作。最終成果為形成光伏電站出力預測算法模型。

2.2 光伏電站特征維度和出力間的相關性分析

光伏發電的輸出功率曲線在時域范圍呈現不穩定性和波動性,外界的干擾極易造成輸出功率的突變[14]。光伏出力與輻照度及轉換率有很強的關系,影響光伏出力的根本因素只有兩個,包括太陽能電池實際接受的輻照度和電池板面溫度,天氣、濕度、氣溫等都是通過影響上述兩個根本因素,進而對光伏出力產生影響的[15]。由于12個特征維度未必每個都會影響光伏電站最終出力,因此在光伏設備不變的情況下,光伏發電量主要受到客觀物理因素的影響,可選擇其中關聯性較強的因素作為特征進行預測學習建模。先計算訓練集中每個特征與光伏出力之間的相關系數,以確保用于GBDT回歸模型訓練的特征最符合光伏電站運行的實際情況。相關性分析是對兩個或多個具備相關性的變量進行分析,衡量變量間的密切程度[16]。相關性一般分為:正相關、負相關和無相關。Pearson相關系數能較好地表示變量的相關性,當Pearson 相關系數r 的平方,即相關判定系數r2 大于0.3 時,可認為兩變量具有強相關性,支持使用回歸模型進行預測[17]。計算結果如圖1所示:

圖1 光伏電站特征與出力相關性分析圖Fig.1 Correlation analysis diagram between characteristics and output of photovoltaic power station

圖中,紅色的代表特征與光伏電站出力之間為正相關性,綠色的代表特征與光伏電站出力之間為負相關性,白色的代表特征與光伏電站出力之前幾乎沒有相關性,顏色越深則相關性就越強。根據相關性分析的結果,確定將以下六個特征作為GBDT算法模型的輸入特征:

表3 GBDT算法模型輸入特征表Tab.3 GBDT algorithm model input characteristic table

2.3 GBDT回歸算法流程設計

按照數據科學的標準運作流程進行預測算法流程設計,明確訓練數據集、交叉驗證數據和測試數據集的數據流向,完整地反映從數據輸入到模型訓練、參數調節、預測結果輸出直至預測結果驗證的流程,為通過代碼構建算法提供基礎性輸入資料。

本文所采用的數據集為多模態數據集[18]。在數據層面理解,多模態數據則可被看作多種數據類型的組合,如圖片、數值、文本、符號、音頻、時間序列,或者集合、樹、圖等不同數據結構所組成的復合數據形式,乃至來自不同數據庫、不同知識庫的各種信息資源的組合[19]。因此,本文在多種氣象數據基礎上設計的機器學習方法應該歸類為多模態機器學習算法。按照多模態機器學習算法設計模式進行算法流程設計。

所完成的預測算法流程圖如下圖所示:

圖2 GBDT回歸算法流程圖Fig.2 GBDT regression algorithm flow chart

3 算法實施及結果驗證

采用Python語言按照算法流程圖的設計進行代碼構建。將訓練集中根據之前相關性分析選定的六個特征輸入GBDT算法模型,采用交叉驗證數據集對于訓練完成的模型進行驗證和參數調節[20],運用交叉驗證思想的算法求解出來的屬性子集不僅進一步降低了訓練集合的總決策代價,而且更加有效地降低了測試集合的決策總代價[21]。參數調節過程中通過經驗法則防止出現而不會出現梯度消失[22]和梯度爆炸的問題。常用的參數調節方法有手動調參和自動調參兩種,手動調參的方法是通過手動調整超參數,直到找到一組很好的超參數值組合,這個過程需要通過手工調節進行反復嘗試,從效率角度相對較低,但對于有足夠調參經驗的技術人員也是經常被采用的調參方法。本文采用網格自動調參方法,在算法實施過程中設置所需要調節的模型的超參數和需要嘗試的值的范圍,在算法實施過程中算法將會使用交叉驗證來評估超參數值的所有可能組合,根據交叉驗證的結果選擇使模型預測效果最為精準的超參數組合。

最終,當GBDT算法的參數調節至如下表所示時,模型的預測結果有較好的表現,如下表所示:

表4 GBDT算法參數表Tab.4 GBDT algorithm parameter table

其中,弱學習器的最大迭代次數太小,模型容易欠擬合,而太大又容易過擬合,一般與學習速率結合考慮,本文中經過參數調節,當弱學習器的最大迭代次數為100并且學習速率為0.3的時候,模型的表現最為良好。最大深度一般來說,數據少或者特征少的時候可以不管這個值,但是結合本文的數據多特征特點,需要限制最大深度防止過擬合,經過參數調節,當最大深度為3的時候,模型的表現最為良好。每個拆分的最小樣本數限制了模型子樹繼續劃分的條件,如果某節點的樣本數少于這個值,則不會繼續再嘗試選擇最優特征來進行劃分。 本文的數據樣本總量并不大,因此設置為2時模型的表現最為良好。葉節點處所需的最小樣本數限制了葉子節點最少的樣本數,如果某葉子節點數目小于樣本數,則會和兄弟節點一起被剪枝,同樣因為本文的數據樣本量不大,采用默認的值1會使模型表現較為良好。

采用測試數據集對于參數調節完畢并已經訓練完成的模型進行預測及結果驗證。在驗證指標的選擇方面,由于決定預測模型精確性的評價指標較多,采取單一的評價指標容易受到計算誤差的影響[23],因此本文采用的驗證指標為均方誤差(MSE)[24]及R方值,均方誤差(MSE)能夠判斷參數估計值與參數值之差平方的期望值,是衡量平均誤差的一種較方便的方法,通常用來評價數據的變化程度,MSE的值越小,說明預測模型描述實驗數據具有更好的精確度。R方值能夠反映因變量的全部變異能通過回歸關系被自變量解釋的比例,其使用均值作為誤差基準,計算預測誤差是否大于或者小于均值基準誤差,R方值為1時代表樣本中預測值和真實值完全相等,沒有任何誤差,為0時代表樣本的每項預測值都等于均值,為負時代表模型的預測表現不如隨機采取,處于失效狀態[25]。

驗證指標的輸出結果及說明如下表所示:

表5 驗證指標輸出結果及說明Tab.5 Verification index output results and description

驗證指標顯示模型對于光伏電站出力有較好的預測效果。采用可視化工具進一步驗證模型的預測效果,選取測試數據集中的前100條數據及前500條數據,疊加繪制真實值及預測值,直觀顯示兩者之間的差異,如下圖所示:

圖3 測試集前100條數據預測值真實值對比曲線圖(藍色為預測值,黃色為真實值)Fig.3 Comparison curve of predicted value and real value of the first 100 data in the test set (blue is the predicted value and yellow is the real value)

圖4 測試集前500條數據預測值真實值對比曲線圖(藍色為預測值,黃色為真實值)Fig.4 Comparison curve of predicted value and real value of the first 500 data in the test set (blue is the predicted value and yellow is the real value)

兩幅預測值真實值對比曲線圖驗證指標同樣顯示模型對于光伏電站出力有較好的預測效果。

GBDT算法進行訓練模型時,不能使用類似于mini-batch的方法,而是需要對樣本進行無數次的遍歷。如果想要提高訓練的速度,就必須提前把樣本數據加載到內存中;但這樣會造成可以輸入的樣本數據受限于內存的大小。然而在I/O數量眾多的情況下,算法運行速度仍相對較慢。為了使GBDT能夠更加高效地使用更多的樣本,學者開始考慮引入分布式GBDT。但是相對于分布式GBDT,LightGBM更具優越性。本文算法實施過程中所采用的LightGBM是一個實現GBDT的快速、分布式、高性能框架,它的特點是訓練時保留所有梯度較大的樣本,而對梯度較小的樣本隨機采樣,并引入常量系數,抵消采樣對數據分布的影響。

其他能源電力行業在實施GBDT算法時LightGBM框架也是最常用的GBDT框架之一,如文獻[26]提出了基于LightGBM和深度神經網絡(DNN)的配電網在線拓撲辨識方法。該方法借助LightGBM實現特征選擇,篩選出對配電網拓撲辨識最有效的少量量測。文獻[27]在基于卷積神經網絡與LightGBM的短期風電功率預測方法時考慮到單一卷積模型在預測風電時的局限性,將LightGBM分類算法集成到模型中,從而提高預測的準確性和魯棒性。

4 結論

(1)GBDT算法對于多維度特征的光伏出力預測有較好的預測效果,適用于光伏電站出力預測場景。由于光伏電站的數據各個特征維度之間的測量單位不同,各維度的單位之間存在數量級差異,與其他基于樹的模型類似,GBDT算法不需要對數據進行縮放,能夠避免各維度的單位之間存在的數量級差異對模型的預測效果產生影響。

(2)通過相關性分析能夠準確判斷對光伏電站出力影響較大的特征,從原始數據中找出具有物理意義的特征。從而剔除不相關或者冗余的特征,減少有效特征的個數,減少模型訓練的時間,提高模型的精確度。

(3)本文所采用的交叉驗證方法為Holdout交叉驗證法,能夠避免模型訓練過擬合[28]的情況。將整個數據集以60%、20%和20%的比例分別拆分成訓練數據集、交叉驗證數據集和測試數據集是較符合常規的做法,三個數據集之間需要確保完全獨立沒有重復。

(4)預測效果驗證采用指標驗證和可視化驗證結合的方式是較為理想的多角度驗證手段。本文所采用的兩個驗證指標包括均方誤差(MSE)及R方值指標適用于光伏電站出力預測場景。

(5)GBDT算法實施過程中,本文所采用的LightGBM是一個實現GBDT算法的快速、分布式、高性能框架,適用于光伏電站出力預測場景。

(6)本文在GBDT模型超參數調節過程中采用了網格自動調參方法,在算法實施過程中算法將會使用交叉驗證來評估超參數值的所有可能組合,根據交叉驗證的結果選擇使模型預測效果最為精準的超參數組合。避免了手工調節參數的片面性。

(7)光伏電站出力預測有超短期、短期,根據時間周期的不同可以采用不同的機器學習、深度學習或者時序預測算法,可以考慮采用包含本文的GBDT模型在內的多種預測模型融合的方案來適應不同的時間周期預測。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 免费jjzz在在线播放国产| 国产高清在线精品一区二区三区| 日韩精品视频久久| 国产人成网线在线播放va| 亚洲激情99| 无码免费的亚洲视频| 色亚洲激情综合精品无码视频| 中文字幕波多野不卡一区| 永久毛片在线播| 99爱在线| 婷婷激情亚洲| 99re这里只有国产中文精品国产精品| 亚洲精品制服丝袜二区| 丝袜美女被出水视频一区| 国产在线拍偷自揄观看视频网站| 日韩无码黄色| 国产亚洲第一页| 久久99蜜桃精品久久久久小说| 亚洲精品国偷自产在线91正片 | 日本国产在线| 女同国产精品一区二区| 欧美五月婷婷| 国产微拍精品| 日韩欧美国产成人| 午夜毛片免费观看视频 | 一本色道久久88综合日韩精品| 凹凸国产分类在线观看| 天堂中文在线资源| 欧美中文一区| 欧美啪啪视频免码| 中文字幕永久在线看| 97在线国产视频| a级毛片一区二区免费视频| 亚洲第一区在线| 亚洲无码不卡网| 亚洲Av综合日韩精品久久久| 国产一级视频在线观看网站| 欧洲av毛片| 日韩第一页在线| 久久国产毛片| 久久综合一个色综合网| 亚洲一区二区无码视频| 亚洲Va中文字幕久久一区| 国产aⅴ无码专区亚洲av综合网| 四虎永久免费网站| 国产欧美精品午夜在线播放| 欧美精品综合视频一区二区| 久久毛片基地| 思思99思思久久最新精品| a毛片免费看| 亚洲福利片无码最新在线播放 | 国产性生大片免费观看性欧美| 欧美在线精品怡红院| 亚洲欧美一区二区三区蜜芽| 欧美在线伊人| 欧美日韩中文字幕二区三区| 国产极品美女在线播放| 色呦呦手机在线精品| 久久黄色影院| 中文字幕自拍偷拍| 又粗又硬又大又爽免费视频播放| 亚洲免费播放| 91福利国产成人精品导航| 在线精品自拍| 国产区福利小视频在线观看尤物| 亚洲 成人国产| 国产乱肥老妇精品视频| 亚洲欧美人成人让影院| 免费不卡视频| 亚洲手机在线| 久久综合色88| 亚洲欧美另类久久久精品播放的| 国产精品免费久久久久影院无码| 久青草网站| 国产区人妖精品人妖精品视频| 亚洲v日韩v欧美在线观看| 国产99视频精品免费视频7| 欧美精品在线观看视频| 天天操天天噜| 狼友视频国产精品首页| 欧美日韩中文字幕在线| 四虎影院国产|