摘 要: 分布式光伏發電系統(photovoltaic generation system,PGS) 往往存在運行數據采集缺失及維數過多問題,這給平穩電力供應的PGS 發電功率準確預測建模帶來困難。為此,該文提出一種應用插補+主成分分析(principalcomponent analysis,PCA) 的PGS 數據時間序列補齊與降維方法,以采集時間戳的環境、光伏發電數據完整為目標,采用線性插值、多重插補、生成對抗插補網絡等3 種典型插補算法對PGS 數據時間序列補齊構成完整數據集,并對數據集所包含13 種輸入變量、3 種輸出變量進行PCA 處理,有效地減少數據維度及減低建模難度。實驗選取環境溫度、光伏發電功率缺失數據,時間序列補齊數據表明多重插補相對于線性插值、生成對抗插補網絡效果更佳;對環境溫度、光伏發電功率補齊數據PCA 處理,5 主成分累計貢獻率>95%,較好地完成時間序列補齊與降維處理,有助于數據后續建模、預測及其他挖掘工作,其研究工作具有重要的推廣應用價值。
關鍵詞: 分布式光伏發電系統; 運行數據; 補齊處理; 數據降維
中圖分類號: TB9; TP391.4 文獻標志碼: A 文章編號: 1674–5124(2024)10–0066–07
0 引 言
隨著“雙碳”目標的提出,各行業相繼采取各類措施降低碳排放[1],PGS 加裝已成為綠色供電的有效方法之一。光伏發電具有不確定性、隨機性特點[2],易受光伏周邊環境、天氣等因素影響,過程數據采集也普遍存在數據缺失現象[3],所采集數據變量多、維度多、量大問題,需要對過程數據采集進行補齊與降維處理,提高數據質量及可用性。目前,數據補齊預處理方法主要有數學計算插補法、統計學插補法、智能插補算法等[4]。其中數學計算插補法是通過數學運算完成數據補齊,典型有線性插值(linear interpolation, LI) 算法,具有插補過程簡單、計算速度快,僅利用缺失數據前后所觀測到信息、主觀性較強的特點,可在數據規模小、缺失數據占比小數據集中應用[5-6],如文獻[5](2014) 采取LI 算法對歷年流行病學缺失病例時序數據插補,在缺失少量數據情況下有效提升數據集的可信度。統計學插補法是基于統計學原理而通過參數估計、概率密度分布估計等方法實現數據補齊,典型有多重插補(multiple imputation, MI) 算法,具有保持原數據集不確定性,變量間關系密切、穩定性好,操作過程復雜,結果對概率參數依賴性高特點,在缺失數據占比大、具有多個輔助變量數據集補齊中應用[7]。智能插補算法通過K-最近鄰算法、生成對抗插補網絡(generative adversarial imputation networks,GAIN) 等智能算法補齊缺失數據集,具有全局分析并學習數據間關系補齊數據,穩定性高,操作過程復雜,學習時間長等特點,在缺失數據占比大數據集中應用[8-9],如文獻[9](2018) 研究電力消耗數據缺失的GAIN 模型,有效利用電力數據時間序列、模式特征,插補性能優異,但過程復雜。此外,PCA處理已表明是解決數據維度多問題有效數據降維方法[10-12]。
本文針對PGS 在環境數據、光伏發電數據采集過程中現場采集傳感器檢測故障、天氣變化等問題數據缺失情況,通過研究LI、MI、GAIN 典型數據插補算法補齊缺失數據集,并通過評價指標對比,再對處理后完整數據集進行PCA 處理,處理所得到的數據集具備完整性、簡潔性。
1 PGS 運行數據時間序列補齊方法
PGS 運行采集原始數據集存在數據異常、數據重復、數據缺失的情況,數據異常、數據重復可以用誤差統計判斷方式加以處理,剩下的數據缺失才是難以解決的問題。由于LI、MI、GAIN 典型數據插補算法存在復雜程度、插補性能不同特點,下面嘗試以真實PGS 運行數據集為支撐,對其應用及比較,確定在保證性能情況下的有效插補算法。
1.1 PGS 運行環境、發電數據集
PGS 運行環境、發電數據集由廣東省中山市某能源有限公司提供,包含2022 年10 月-2023 年9月共12 個月數據集。表1 為PGS 運行環境數據參數及單位[13],包括風速、大氣溫度等13 種數據參數及對應具體時間戳,數據量規模為13×(20 000~50 000)個/項(時間采集間隔為1 min);表2 為PGS 運行發電數據參數及單位,包括有功功率、當日發電量等3 種數據參數及對應具體時間戳,數據量規模為3×(10 000~30 000) 個/項(時間采集間隔為5 min),且各月份PGS 運行環境、發電數據集均有不同程度數據缺失。圖1 為PGS 運行環境數據、發電數據采集原理框圖,其中:1) 為PGS 系統與環境傳感、發電量傳感;2) 表示存在數據缺失的PGS 運行環境、發電數據,雖然PGS 通過數據采集器采集13 種運行環境、5 種運行發電數據,但由于傳感器故障等原因導致數據采集缺失。