吳明朗
【關鍵字】分布式光伏;特征工程;光伏發電功率預測;XGBoost
為應對全球氣候變化,解決資源環境約束突出問題,我國提出 “力爭2030年前實現碳達峰、2060年前實現碳中和”的“雙碳”目標。隨著“雙碳”行動方案的實施和“整縣開發試點”工作的推進,低壓分布式光伏裝機容量的不斷增加,同時低壓分布式光伏發電的波動性、間歇性使電網系統面臨調峰壓力大、提升光伏發電消納困難等問題[1],為電網安全、經濟運行帶來了嚴峻挑戰。《“十四五”能源領域科技創新規劃》指出要大力發展包括多時空尺度光伏發電功率預測技術,要利用大數據、機器學習等先進技術手段提高低壓分布式光伏等新能源發電功率預測準確度,提升可再生能源負荷預測水平。因此,分布式光伏發電功率預測具有重要意義。
隨著近年來人工智能技術的發展,光伏發電技術也從傳統的方式向機器學習[2]和深度學習方向轉變。孔紅梅、張家安、時珉等人對分布式光伏空間相關性進行了深入分析,提出了一種基于空間相關性的區域分布式光伏出力預測方法[3-5] 。闞博文等人基于圖機器學習提出了一種面向分布式光伏電站的深度時空特征提取預測模型[6]。董雷等人提出一種條件概率預測方法,應用動態貝葉斯網絡理論,建立光伏發電預測的DBN模型[7]。李光明等人對硅太陽電池單一組件發電功率進行了理論計算,建立了一種以輻射量及組件溫度為變量的多元線性回歸光伏發電功率及發電量預測模型[8]。栗然,William VanDeventer,Abdel-Nasser等人在建立光伏并網發電系統模型基礎上,采用支持向量機回歸算法建立光伏發電系統的功率預測模型[9-11]。
因此,為解決分布式光伏發電功率預測問題,本文采用XGBoost實現分布式光伏的發電功率預測。本文對光伏發電的影響因子對各個變量分別進行了復雜的特征工程,擴展了原始的特征空間,并選出有效的特征變量用于XGBoost模型輸入。采用了超參數調節的方法,對算法進行優化,并選取某區域的分布式光伏用戶進行了實驗。實驗表明:本文提出的特征工程方法對分布式光伏發電功率預測技術有效,基于XGBoost的分布式光伏發電功率預測模型有很好的預測精度,各個誤差指標小,泛化性能好,符合分布式光伏發電功率預測的要求。
(一)影響因素分析
根據低壓分布式光伏發電的機理,分布式光伏發電功率受到氣候、地理環境、氣象等多種因素影響,不同環境下不同的氣象對其影響程度也不同。分布式光伏發電特性和太陽輻射強度、太陽輻射能量、溫度、濕度、云量、風速、風向、降雨等氣象因子密切相關。因此,發電功率受多種條件綜合影響,而這些影響因子隨時間動態變化,表現出間歇性、周期性和不穩定性等特征。本文選取了多個影響因子用于模型輸入,如下表1所示。

表 1 分布式光伏發電影響因子輸入
(二)特征工程在
(一)中的部分變量不能直接輸入到模型,如天氣條件、日出時間和日落時間。另外,需要對特征進行泛化、轉換生成新的特征,得到更多隱藏的特征變量,實現特征空間的擴展。為低壓分布式光伏發電預測算法提供更豐富的特征輸入,提升模型預測的精度。本文中使用了編碼、差分、統計、交叉和趨勢計算特征等方法構建特征。
(1)時間特征構造
基于某一時間點的日期和時間,對各個部分進行拆分,構造出新的特征,主要拆分出月,周,日,小時特征,衍生出4個新的特征。



基于以上3個指標對模型的性能進行評價,MSE和MAE在測試樣本上的值越小越好,R2在測試樣本上的值越接近1越好。
(三)基于xgboost的預測模型構建
1、試驗數據
本文以某區域的分布式光伏用戶的發電功率為對象,以分布式光伏用戶歷史發電功率數據和該區域的歷史氣象數據作為基礎,其數據項為包括了表1中所示。數據時間范圍為2021年4月20日至2022年4月20日,數據均為1小時一個點,每天24點的數據。本文以該數據進行建模分析。
為構建基于XGBoost的預測模型,將數據按照“特征工程”和“特征篩選”章節所述進行了特征構造和特征篩選,并將數據拆為2部分:2021年4月20日至2022年3月31日作為訓練集;2022年4月1日至2022年4月20日作為測試集。
2、模型參數
在XGBoost模型中參數很多,本文使用網絡搜索(Grid Search)實現XGBoost的超參數調節,最后得到如下表2所示的最優參數取值。

表 2 XGBoost超參數取值
(四)模型預測結果及分析
為對XGBoost模型進行評估,對2022年4月1日至2022年4月20日的測試集進行了預測,如下圖1所示。

圖 1 在測試集上的預測結果
從圖2中可以看出橙色的線為預測值,藍色的線為真實值,發電功率的真實曲線和預測曲線基本重合,說明XGBoost能較好地對分布式發電功率進行預測。下面分別對24小時和72小時的發電功率曲線進行預測和可視化,如下圖3所示,可以看出不同時間尺度上的預測效果較好。

圖 2 日預測效果(左)和72小時預測效果(右)
從模型性能指標角度進行分析,分別計算整個測試集預測曲線、24小時預測曲線和72小時預測曲線的評價指標,得到如下表3所示。

表 3 模型評價指標
從MSE、MAE和R2三個評價指標看,XGBoost在整個測試集上都有較好的預測效果,MSE可以達到0.02以下,MAE可在0.08以下,R2更是在0.96以上;而24小時的預測結果和72小時的預測結果,從指標上72小時的預測結果效果模型性能更好,也說明XGBoost在分布式光伏發電功率預測上的泛化性好,XGBoost模型的整體性能很好。
XGBoost模型可以對特征變量的重要性進行量化分析,因此對特征變量的重要性進行可視化,如下圖3所示。

圖 3 基于XGBoost的特征重要性
從特征重要性排序中可以看出太陽輻射強度,紫外線指數,前2天和3天的發電功率的查分特征,交叉特征都比較重要。但是太陽輻射能量重要性較低,可能是因為該特征和太陽輻射強度特征相關性較高導致。總之,通過特征重要性可以看出本文中的特征工程是非常有效的。
本文通過對歷史氣象數據和發電功率曲線數據進行特征工程的計算、特征篩選,并基于XGBoost建立分布式光伏發電功率預測模型。基于某區域的分布式光伏發電功率數據進行了驗證,得出結論如下:
1)本文中的特征工程對分布式光伏發電功率預測是有效的,構造的特征變量在模型中具有較高的重要性,構造后的特征空間能幫助模型提高模型性能。
2)XGBoost模型在分布式光伏發電功率預測中具有很好的性能,在獨立測試集上進行發電功率預測,XGBoost模型表現出模型精度高,泛化能力強。
在不同時間尺度下的預測,XGBoost模型的性能表現較好,分別在24小時和72小時的時間尺度下進行測試,XGBoost模型性能指標表現都很好,甚至72小時的模型性能可以超過24小時。