中圖分類號:TM615 文獻標識碼:A 文章編號:2096-3998(2025)04-0042-08
光伏發電作為一種清潔、可再生能源,近年來得到了迅速發展,并已成為全球能源結構中不可或缺的一部分。然而,光伏發電的輸出功率受天氣條件(如日照強度、云量、溫度等)和地理環境的影響較大,發電功率呈現出明顯的波動性、隨機性以及逆負荷特性,給電網的安全、穩定和電能質量帶來巨大挑戰[1]。因此,為了改善光伏發電的穩定性以及與電網的兼容性,對光伏發電進行準確預測至關重要。
光伏發電預測模型根據其預測機制可分為物理模型、統計模型和人工智能模型。物理模型是基于溫度、云量、太陽輻射和風速等天氣信息結合光伏系統自身電氣參數,建立物理機理模型用于光伏發電量預測[2];統計模型則是通過對光伏發電的歷史數據找出光伏輸出功率與影響因子的內在關聯進行預測。這兩種模型預測結果受氣象因素的影響顯著,并且對非線性數據的泛化能力較差。因此現在主流的預測方法是通過人工智能模型進行光伏發電功率預測。
近年來,深度學習以出色的特征提取能力和非線性擬合能力被廣泛應用于光伏發電功率預測。常見用于短期光伏發電預測的模型有長短期記憶網絡(Long Short Term Memory,LSTM)、門控循環單元(Gated Recurrent Unit,GRU)等循環神經網絡(Recurrent Neural Networks,RNN)。然而,歷史光伏發電量數據是時間序列數據,包括時空信息,并且數據波動較大,導致現有的方法對其特征提取存在不足,因此許多的研究者引人了卷積神經網絡(Convolutional Neural Networks,CNN)和循環神經網絡(RNN)變體組合的混合模型[35],通過CNN模型提取局部特征,并將其轉化為高質量的特征表示,使得RNN模型更好地學習序列數據中的長期依賴關系;一部分研究者通過引入一些序列分解的方法[將序列數據分解為多個分量,通過對多個分量進行預測讓模型能夠學習到更多的特征。這些組合方法大大提高了預測的準確率,因此越來越多的研究者用組合模型運行于短期光伏發電功率預測。如姜建國等[7]提出一種變分模態分解(Variational Modal Decomposition,VMD)、模糊熵(FuzzyEntropy,FE)、CNN和雙向長短期記憶神經網絡(Bidirectional Long Short Term Memory,BiLSTM)的光伏發電功率組合預測模型,該方法首先是將序列數據分解為多個分量,減少隨機波動分量和噪聲干擾對預測模型的影響,再通過CNN與 BiL-STM的組合模型分別對各個分量進行預測,最后將各個分量預測結果疊加得到最后的預測結果。臧鵬發等[8提出一種基于多特征提取的超短期光伏發電功率預測方法,該方法是通過建立多個特征提取模塊用于提取光伏發電功率影響因素的特征,最后將提取的特征經由多層LSTM神經網絡得到最后的預測結果。
盡管RNN模型在捕獲長期依賴中表現出色,但在短期多步預測任務中,由于誤差累積效應,其預測效果往往不佳。因此部分學者將CNN、LSTM與Transformer模型結合用于光伏發電功率的短期多步預測。KIMJ等[9提出了一種將Transformer與LSTM結合的模型,首先通過LSTM對數據進行時間特征提取,然后將提取的特征通過 Transformer進行特征選擇,以提高預測的準確率。劉世鵬等[10]提出了一種基于長短期時序數據融合的Transformer生成式光伏發電功率預測模型,通過利用數據融合提取多時間尺度時序特征,提高模型的在短期多步預測的準確率。MOONJ等[\"提出了一種將CNN與Transformer模型結合用于光伏發電功率的短期多步預測,該模型利用CNN提取局部的趨勢特征,將提取的特征通過Transformer捕獲不同時間步長的復雜依賴關系,達到提高多步預測的準確率。
雖然現有的方法在短期多步預測中取得了較好的效果,但是這些方法大部分是基于Transformer模型進行改進的,存在復雜度較高、計算量較大的問題,針對這些問題本文提出了一種用于光伏發電功率短期多步預測的iTCNTransformer模型。
基本方法原理
1.1 時間卷積網絡
時間卷積網絡[12](Temporal Convolutional Networks,TCN)是一種卷積神經網絡結構,由擴張因果卷積與殘差連接相結合組成。因其能有效捕捉時間序列中的時間特征,因此時常將其用于時間序列建模。時間特征的捕捉是通過擴張因果卷積實現的,該卷積模塊通過不斷擴大感受野,有效捕捉時間序列中的長期依賴關系,從而能夠獲取更廣泛的歷史信息。其結構如圖1所示。
圖1擴張因果卷積

TCN通過堆疊多層擴張因果卷積來增加網絡深度,但過深的層數會導致梯度消失。為此,TCN引入殘差連接,確保梯度能夠穩定傳播。每個殘差模塊由兩層小模塊堆疊而成,每個小模塊包括4個網絡層,分別為擴張因果卷積層、權重層歸一化、激活函數層和Dropout層。其中擴張因果卷積是用于擴展感受野讓網絡記住更多的歷史信息,權重歸一化用于解決梯度爆炸問題,采用ReLU作為激活函數,并使用Dropout操作隨機選擇一部分神經元暫停工作來防止過擬合和加快模型訓練速度。擴張因果卷積具體計算過程:
假設輸入序列為 x ,模型設置的卷積核為f: {0,1,…,k-1} ,一維擴張因果卷積的第 s 個神經元輸出值

式中, k 為卷積核尺寸, d 為擴張系數 f(i) 為卷積核中的第 i 個元素, xs-di 為卷積核中元素對應相乘的序列元素。
1.2iTransformer模型
iTransformer模型[13]由反轉嵌入層、編碼模塊和投影層組成,其中編碼模塊采用的是Transformer 編碼器結構。該模型首先通過反轉序列輸人的維度,將每個變量的時間序列映射到高緯度空間,使得模型能夠更加有效地捕捉每個變量的時間特征,再通過多頭自注意機制提取變量的相關性特征,最后通過投影層對預測結果進行輸出。該模型與現在 Transformer[1-16]系列模型和 MLP[17-19] 系列模型相比,擁有更高的準確率,其模型結構如圖2所示。
圖2iTransformer 結構

反轉嵌入層將每個變量的時間序列獨立嵌人為變量標記,并將其投射到 D 維潛在空間,以獲得更多的特征表示。假設使用 T 個時間步和 N 個特征作為序列的歷史觀測值,表示為
RT×N ,預測未來 s 個時間步 Y={xT+1,…,xT+S}∈RS×N ,輸人序列經過反轉嵌人層的具體計算過程為

式中, X 是原始輸人序列, Xem∈RN×D 是輸出的結果。
編碼模塊由 N 層TrmBlock組成,用于對嵌入層輸出的特征進行變量相關性特征提取和時間特征提取,該TrmBlock由多頭自注意力機制層、層歸一化、前饋網絡層組成。
多頭自注意力機制層通過將每個變量的整個時間序列視為一個獨立的過程,在每個變量之間應用自注意力機制,使得模型可以更好地學習變量之間的相關性特征,其具體計算為

式中,
為查詢向量, K 為關鍵詞向量, V 為值向量,softmax為實現數據歸一化計算, d?K 為關鍵詞向量K 的維度。
層歸一化是在每個變量的特征表示上進行歸一化處理,通過將每個變量的特征表示歸一化為高斯分布,減少由不一致的測量引起的差異,提高模型的穩定性。具體計算公式為

式中, H 為待歸一化的矩陣, hn 為矩陣 H 中待歸一化的第 n 個序列, Mean(ξ) 為均值函數, Var 為方差函數。 N 為矩陣 H 中需要歸一化的序列數。
前饋網絡層通過將激活函數與卷積模塊組合使模型能夠學習到各個特征變量更多復雜關系的特征表示,提升模型對時間序列數據的特征提取能力以及復雜非線性數據的建模能力。
投影層由一個線性層構成,通過將編碼模塊提取的特征進行非線性映射輸出得到預測結果。
2 模型建立與分析
現有的用于短期光伏發電功率預測的模型大部分是基于LSTM模型進行改進的,該模型的主要優點在于其獨特的細胞狀態和門控機制(輸入門、遺忘門、輸出門)。這些門控機制允許LSTM有選擇性地記住或遺忘信息,從而有效地避免梯度消失問題,同時可以有效地捕捉時間序列數據中不同時間步之間的依賴。但是由于光伏發電數據的波動性較大,LSTM模型對非線性特征學習存在不足,并且隨著預測步長的增加,該模型會出現誤差累計的現象,導致在多步預測中結果較差。然而隨著iTransformer模型將輸入序列進行反轉,將每個時間序列獨立嵌入為變量標記,使得模型能夠有效地捕捉不同變量之間的復雜關系和時間特征。因此本文將TCN與iTransformer模型結合用于短期的光伏發電功率的多步預測,該模型結構分為3個部分,時間特征提取模塊、編碼模塊和解碼模塊,如圖3所示。
圖3 iTCNTransformer結構

2.1 時間特征提取模塊
時間特征提取模塊由反轉嵌入層、TCNBlock 和線性層組成,其結構如圖4所示。其主要的作用是將每個變量的時間序列投影到高維度空間并提取更多的時間特征。由于傳統的線性投影對局部特征捕捉存在不足,因此將其替換為一維卷積進行映射。一維卷積的優勢在于捕捉短期局部信息,發現時間序列趨勢,經過反轉投影后使每個變量的整個時間序列嵌人到變量標記中,嵌入的變量標記不僅聚合了整個序列的全局信息還捕捉了序列的局部信息和趨勢信息。假設輸入序列 X={x1,…,xT}∈RT×N,T 是序列長度, N 是變量特征,其處理過程為

式中, X 是原始輸人序列, Xem∈RN×D 是通過嵌人得到的序列。然后將序列經過TCNBlock進行時間特征提取。TCNBlock通過擴張卷積和因果卷積捕捉復雜序列中的局部特征和時間特征,并構建復雜的非線性關系。由于傳統的TCN隨著感受野的擴大導致局部特征提取存在不足,使其在局部細節上的表達能力相對較弱。因此本文的TCNBlock是將TCN的殘差模塊進行重構,通過在擴張卷積后面引入一個 1*1 的卷積,提高局部特征的精細化提取和整合擴張卷積提取的信息。
圖4時間特征提取模塊結構

2.2 編碼模塊
編碼模塊由 N 層TrmBlock組成,每層由多頭自注意力機制、層歸一化和前饋神經網絡構成。該模塊首先通過自注意力機制進行變量相關性特征提取以及進一步時間特征提取,具體計算公式:

headi=Attention(QWiQ,KWiK,VWiV),
式中, W0 表示可學習的輸出投影矩陣, WiQ,WiK,WiV 分別表示 Q,K,V 的投影矩陣。再通過前饋神經網絡將自注意力機制層輸出的特征映射到更高維度的非線性空間,從而學習各個特征變量更多復雜關系的特征表示,進一步提高特征表達能力。最后為了確保深層網絡訓練的穩定性,引人了殘差連接和層歸一化,有效防止了梯度消失問題。具體計算過程:
Xenl,1=LayerNorm(SelfAtten(Xenl)+Xenl),
FFN(Xenl,1)=ReLU(Xenl,1W1+b1)W2+b2,
Xenl+1=LayerNorm(FFN(Xenl,1)+Xenl,1),
式中, Xenl 表示第 l 層的輸出結果, Xenl+1 表示第 l+1 層的輸出結果, W1 和 W2 是權重矩陣, b1 和 b2 是偏置項。
2.3 解碼模塊
解碼模塊包含兩個部分,分別是全局特征感知模塊和投影層。其中全局特征感知模塊是由多個線性層組成,通過堆疊多個線性層學習變量之間非線性關系,以及學習變量的全局信息特征,提高特征的表達能力,最后再通過投影層進行預測結果輸出。具體計算過程:
Y=GFPBlock(XenN),Yout=Projection(Y),
式中, XenN 是編碼模塊輸出的結果。
3 數據處理與分析
3.1數據集來源及數據預處理
本文實驗使用的數據來源于新疆某地光伏發電站2019年1月1日至12月31日發電功率數據,該數據采樣頻率間隔 15min ,記錄的數據包括組件溫度(ComponentTemperature,CTEMP)空氣溫度(AirTemperature,TEMP)、氣壓(Atmospheric Pressure,AP)、濕度(Relative Humidity,RH)、總輻射(Total Radi-ation,TR)、直射輻射(Direct Normal Radiation,DNR)、散射輻射(Diffuse Horizontal Radiation,DHR)實際光伏發電功率(PV),共35040行數據。為了提高短期預測時間長度,以及驗證模型對波動性較大的數據的學習能力,因此將該數據合并為時間間隔為 1h 。具體處理方式為對特征列采用平均值合并,目標列采用求和進行合并,通過數據合并最后剩下8760行,然后再通過箱線圖分析法檢查數據的異常值與缺失值,并使用平均值替換法代替大部分明顯異常的數據,然后將經過處理的數據進行相關性分析,確定各個環境因素對光伏發電輸出功率影響的強弱。本文使用的皮爾遜相關系數來權衡輸出功率與氣象因素之間的相關性。其具體計算公式為

式中,
是 x 序列的均值,
是 y 序列的均值, n 是數據個數, xi 是 x 序列第 i 個數據, yi 是 y 序列第 χi 個數據。其結果如圖5所示。
圖5光伏發電功率與環境因素的相關系數熱力圖

根據相關系數熱力圖結果顯示,光伏發電功率與組件溫度、空氣溫度、濕度、總輻射、直射輻射和散射輻射相關性較大,特別是輻射強度相關性最大對光伏發電功率影響達到0.8以上。因此本文選擇這6列特征作為數據的變量特征輸人。處理后的數據如圖6所示。將處理好的整個時間序列進行分割,選擇時間序列的 70% 為訓練集, 10% 用于驗證集, 20% 用于測試集。
圖6各變量的時間序列曲線圖

3.2 評價指標
本文使用了均方誤差(Mean Squared Error,MSE)和平均絕對誤差(Mean Absolute Error,MAE)對預測結果進行評估。MSE表示預測值和真實值之間的誤差平方和的平均值。MAE表示預測值和真實值之間的絕對誤差的平均值。MSE和MAE的值越小說明預測結果與實際結果偏差就越小,模型的預測能力就越強。其計算公式為

式中, n 是數據個數,
是第 χi 個數據的預測值, yi 是第 i 個數據的真實值。
4 實驗結果與分析
4.1實驗環境及參數設置
本文實驗環境采用Inteli5-12400f 處理器、NVIDIAGeForceRTX4060顯卡,算法模型采用Python3.12作為編程語言,基于開源機器學習框架pytorch搭建模型相關網絡。經過參數調優,最終的超參數設置為自注意力層的多頭數n_heads =2 ,模型隱藏層特征數 d-model=512 ,編碼層個數 e-layers=2 ,全連接層維度 lff=2 048 ,丟失率dropout =0.1 ,激活函數為ReLU,學習率 =0.000 1 ,批次大小batch_size Σ=Σ 32,采用MSE作為損失函數,Adam作為優化器。
4.2光伏發電功率預測結果
為了驗證本文算法的有效性和優越性,將本文算法和 LSTM、Trasnformer[20]、Crossformer[16]、PatchTST[21]、iTransformer 等算法進行對比分析。各個模型預測結果見表1。
表1各個模型光伏數據預測結果

根據表1中信息可知本文模型與當前先進的模型iTransformer相比,在單步預測上MAE下降了33.80% ,MSE下降了 15.38% ,在多步預測上MAE平均下降 20.11% ,MSE平均下降了 12% ;與LSTM模型相比,在單步預測上MAE下降了 57.70% ,MSE下降了 59.6% ,在多步預測上MAE平均下降43.92% ,MSE平均下降了 40.93% 。并且本文模型在多步預測結果中始終保持最低的MAE和MSE,因此本文模型有效提高了光伏發電功率在短期多步下預測的準確率。綜上,由于光伏發電數據具有明顯的波動性和周期性,導致LSTM模型對其特征提取存在不足,隨著預測步長的增加逐漸出現誤差累計的現象,導致預測結果較差;而iTransformer模型則存在時間特征提取不足的問題,導致預測結果較差。因此本文通過結合TCN提高模型對時間特征的提取用以達到較好的預測效果。
為了驗證本文模型計算量大小與復雜度的問題,分別對各個模型平均一輪訓練時間進行了分析,其結果顯示:本文模型訓練時間為3.5 s,PatchTST模型訓練時間為5.3s,Crossformer 訓練時間為9.4 s,Transformer訓練時間為 7.3s 。由此可知本文模型在計算量與復雜度方面比這些模型更低。
4.3 消融實驗
為了驗證本文模型各個優化模塊的有效性,進行了消融實驗。將本文模型中改進的模塊分別從本文模型中移除進行對比實驗,數據集選擇本文實驗的光伏發電數據,預測時序長度選擇1步、2步、4步、8步、16步,結果見表2(實驗設置為A組去除時間特征提取模塊,B組去除全局特征感知模塊)。
表2 消融實驗結果

由實驗結果可知,去除本文模型中的任何一個模塊都會導致MAE、MSE 提高,因此時間特征提取模塊能有效地提取到更多的時間特征,全局特征感知模塊有效地提高了對每個變量的全局特征提取,通過將兩者結合應用于iTransformer模型中,大大提高了模型對非線性數據的學習能力以及對全局特征和時間特征的提取能力。
5 結論
針對LSTM模型在短期多步預測中存在誤差累計導致預測結果較差,以及一些組合模型用于短期多步預測模型計算量大、復雜度高的問題,本文提出一種用于光伏發電功率短期多步預測的iTCNTrans-former模型。根據實驗結果得出以下結論:(1)文中提出的iTCNTransformer模型,將TCN模型與iTrans-fomre模型結合用于短期預測,該模型能有效提高光伏發電功率短期多步預測精度;(2)構建了時間特征提取模塊和全局特征提取模塊,使本文模型能夠捕捉到更多的時間特征和全局特征;(3)iTCNTrans-former模型與現在的LSTM和Transformer系列的組合模型相比,在短期多步預測上擁有更高的精度,并且模型計算量較小、復雜度較低。但本文模型仍然還有優化空間,在后續的研究中,將針對變量相關性特征與時間特征提取進一步優化。
[參考文獻]
[1]周伊,肖先勇,趙清華,等.基于組合數據清洗與改進注意力機制的光伏發電功率預測[J].供用電,2024,41(10): 31-37+49
[2]張海濤,李文娟,李雪峰,等.基于變分模態分解和時間注意力機制TCN 網絡的光伏發電功率預測[J].電測與儀 表,2024,61(12):156-163.
[3]LI G Q,XIES,WANG B ZH,et al.Photovoltaic power forecasting with a hybrid deep learning approach[J].IEEEAccess, 2020,8:175871-175880.
[4]AGGA A,ABBOU A,LABBADI M,et al. CNN-LSTM:An eficient hybrid deep learning architecture for predicting shortterm photovoltaic power production[J].Electric Power Systems Research,2022,2O8 :107908.
[5]王登海,安玥馨,廖晨博,等.基于CNN-LSTM混合神經網絡的光伏發電量預測方法研究[J].西安石油大學學報 (自然科學版),2024,39(1):129-134.
[6] 鄒港,趙斌,羅強,等.基于PCA-VMD-MVO-SVM 的短期光伏輸出功率預測方法[J].電力科學與技術學報,2024, 39(5) :163-171.
[7]姜建國,楊效巖,畢洪波.基于 VMD-FE-CNN-BiLSTM 的短期光伏發電功率預測[J].太陽能學報,2024,45(7):462- 473.
[8] 臧鵬發,王珂琪,張中偉,等.基于多特征提取的超短期光伏發電功率預測研究[J].激光與光電子學進展,2025, 62(5) :333-343.
[9]KIM J,OBREGON J,PARK H,et al.Multi-stepphotovoltaic power forecasting using transformer and recurrnt neuralnetworks[J]. Renewable and Sustainable Energy Reviews,2024,200:114479.
[10]劉世鵬,寧德軍,馬崛.針對光伏發電功率預測的LSTformer 模型[J].計算機工程與應用,2024,60(9):317-325.
[11] MOON J.A Multi-Step-Ahead Photovoltaic Power Forecasting Approach Using One-Dimensional Convolutional Neural Networksand Transformer[J]. Electronics,2024,13(11) :2007.
[12]ZHANG MY,HANY,WANG CH W,etal.Ultra-short-term photovoltaic power prediction based onsimilar dayclustering andtemporal convolutional network with bidirectional long short-term memory model:Acase studyusing DKASC data[J]. Applied Energy,2024,375:124085.
[13]LILY,HUTG,ZHANG HR,etal.itransformer:Inverted transformersareefective fortimeseries forecastingJ/OL]. [2024-12-04]. http:arxiv. org/ans/2310. 06625.
[14]ZHOUHY,ZHANGSHH,PENGJQ,etal.Informer:Beyond effcient ransformerforlong sequence time-series forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2021,35(12):11106-11115.
[15]ZHOUT,MA ZQ,WENQ S,et al.Fedformer;Frequencyenhanced decomposed transformer forlong-termseries forecasting[C]//International Conference on Machine Learning.PMLR,2O22:27268-27286.
[16]ZHANG YH,YANJCH.Crosformer:Transformer utilizing cross-dimension dependency formultivariate timeseries forecasting[C]//The Eleventh International Conference on Learning Representations,2023.
[17]ZENGAL,CHENMX,ZHANGL,etal.Are transformers efectivefor time series forecasting?[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2023,37(9) :11121-11128.
[18]CHEN SA,LI CHL,YODERN,et al.Tsmixer:An al-mlparchitecture for time series forecasting[J/OL].[2024-12- 04]. http:arxiv. org/ans/2303.06053.
[19]DAS A,KONG W H,LEACH A,et al.Long-term forecasting with tide:Time-series dense encoder[J/OL].[2024-12- 04]. http: arxiv. org/ans/2304. 08424.
[20]黃莉,甘恒玉,劉興舉,等.基于Transformer 編碼器的超短期光伏發電功率預測[J].智慧電力,2024,52(5):16-22.
[21]NIE Y,NGUYENN H,SINTHONG P,etal.A timeseries is worth 64 words:;Long-term forecasting with transformers[J/ OL].[2024-12-04]. http:arxiv. org/ans/2211. 14730.
[責任編輯:李莉]
Abstract:To addressthe challenge of low accuracy in existing models for short-term multi-step photovoltaic power prediction,we propose the iTCNTransformer model,which combines Temporal Convolutional Networks (TCN)with the iTransformer model. The iTCNTransformer model integrates two key components :a temporal feature extraction module and a global feature perception module. These components help overcome thelimitations of the iTransformer model incapturing temporal and global features.The processbegins with the temporal feature extraction module,which extracts features at various time scales. These features are then processed through an atention mechanism to establish relationships between variables and extract relevant features.Subsequently,the global feature perception module captures the global features of each variable,further enhancing the expressiveness of the features.Finally,the model generates predictions through a projection layer.Experimental results demonstrate that the proposed model consistently achieves the lowest Mean Absolute Error(MAE) and Mean Squared Error (MSE) compared to other models. Specifically,compared to the stateof-the-art iTransformer model, the iTCNTransformer model reduces the MAE by an average of 20.11% and the MSE by 12% in short-term multi-step predictions. Furthermore,when compared to the LSTM model,the MAE decreases by an average of 43.92% ,and the MSE decreases by 40.93% in the same prediction task.
Key words: iTransformer; TCN; photovoltaic power forecasting; short term multi step forecasting