999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

EMD-LSTM-LB分頻時序預測算法

2023-11-03 11:33:18孔繁苗李鵬程張曉琳
計算機工程與設計 2023年10期
關鍵詞:分配模型

孔繁苗,高 鷺+,李鵬程,張 飛,2,張曉琳,秦 嶺

(1.內蒙古科技大學 信息工程學院,內蒙古 包頭 014010;2.華北電力大學 可再生能源學院,北京 102206)

0 引 言

目前,為了實現高精度的時間序列預測[1-6],眾多研究者已經提出大量預測模型,包括傳統的統計模型、機器學習模型、深度學習模型和混合模型。統計模型對于時間序列的突變預測性能較差,機器學習、深度學習突破了這一問題,然而研究者們更傾向于利用組合預測模型,因為其可以將各單一預測模型的優勢結合起來。比如通過LSTM、CNN等神經網絡與EMD、小波變換(wavelet transform,WT)等數據分解處理方法相結合,對分解后的各分量分別進行預測,這樣可以把各單一分量信息有效的利用起來,既避免浪費有效信息又降低了其波動性對預測精度的影響。

1 相關工作

現有許多利用分解算法進行組合預測的模型,大致分為兩種:①采用單一模型對分解后的子序列進行單獨預測[7-10]:如Guoyan Huang等提出一種基于EMD(empirical mode decomposition)與門控遞歸單元神經網絡(gated recurrent unit,GRU)的混合方法用于預測PM2.5濃度[10]。首先利用EMD對PM2.5序列進行分解,然后各子序列分別進入GRU進行訓練預測,最后所有子序列相加得到最終預測結果。這種組合預測方法僅采用單一模型預測,無法精準擬合波動性各不同的全部序列,進而使得整體預測精度不高。②分解后的子序列分為高低頻,采用線性模型對平穩序列進行預測、非線性模型對非平穩子序列進行預測[11-13]:如Guangsheng Dong等提出一種基于小波分解(wavelet decomposition,WD)、支持向量回歸(support vector regression,SVR)和滑動平均(moving averag,MA)模型的服務預測時間序列[12]。WD提取原始數據中的非平穩高頻與平穩低頻子序列,分別進入SVR與MA模型中進行訓練預測,后將所有子序列進行組合。這種預測模型分別采用線性模型與非線性模型進行預測,其中線性模型只能預測較為線性平穩的序列,而多數情況下,經過分解的序列中線性平穩序列較少,這導致了計算成本的增加,尤其是處理劇烈波動數據。預測方法的文獻綜述見表1。

針對各趨勢特點將子序列分類,后采用具有不同優勢的模型預測是一種很好的解決方法。然而根據調查發現,暫無針對子序列分配問題的研究,大多數工作僅依據簡單標準差的分析判斷波動性,這無法有效地劃分子序列[14-16]。因此,本文提出一種分配函數D,其有兩點優勢:①能夠提高預測的精度;②有效節約了計算成本?;诜峙浜瘮礑與EMD、LSTM、LB(littlebit model)組合一種時間序列預測模型,其主要特點如下:

經過EMD分解得到的一系列子序列交由LSTM、LB兩種預測模型進行預測,解決了文獻[7-10]中單一預測模型無法擬合波動性不同的全部子序列的問題。

LSTM、LB兩種預測模型均可以很好預測具有突變性的非線性時間序列,解決了文獻[11-13]中計算成本增加的問題。

提出分配函數D根據波動趨勢將波動性較大的極端波動子序列篩選出并交由LSTM訓練預測,剩余子序列由LB進行訓練預測,解決了文獻[14-16]無法有效劃分子序列的問題。

2 模型構建

時間序列數據大多伴隨著高隨機性和非平穩性的特點,增加了預測的難度。為了學習時間序列數據更多重要的信息,提出一種EMD-LSTM-LB模型。原始時間序列經EMD分解為一系列具有不同特征尺度的子序列,分配函數D根據數據波動性大小決定這些子序列的分配情況。

EMD-LSTM-LB模型設計結構如圖1所示。

圖1 所提模型流程

LSTM是一種基于對數據進行表征學習的算法,會在長時間尺度上有選擇性的記憶部分重要特征,所以更擅長處理波動性大的時間序列預測,但LSTM需要調參且不能并行處理數據,處理大量數據集會導致計算效率低。LB是通過數據分析后,進行聚類融合去學習數據的根本性特征。當波動性大的數據且數據量相對較少的情況下,LB的預測效果沒有LSTM的預測效果好。因此,將分配函數D篩選出的波動性較大的子序列采用LSTM進行預測,剩余波動性不是很極端的子序列采用LB進行預測。

具體細節如算法1所示。

算法1:EMD-LSTM-LB

輸入:Xp1=(x1,x2…xt)——時間序列數據訓練集

Xp2=(xt+1,xt+2…xt+m)——時間序列數據測試集

輸出:Yq=(yt+1,yt+2…yt+m)——模型輸出預測值

參數:batch_size——批量大小

past_steps——歷史步長

lstm_units——BiLSTM神經單元個數

lr——學習率

epochs——迭代次數

p——參考范圍

(1) EMD將原始數據分解為一系列imfs

(2) 數據歸一化

(3)FORiINimfs:

(4) /*分配函數D(使用式(4)~式(6)選擇合適的預測模型)*/

(5)IF(tVn≥p):

(6) /*LSTM預測極端波動序列*/

(7) lstm= LSTM(xk)

(8) /*激活函數=‘relu’, 損失函數=‘mse’, 優化器=adam*/

(9) /*lr=0.001,epochs=20,batch_size=64*/

(10)predicts=lstm(xt)

(11)ELSE:

(12) /*LB預測平穩數據*/

(13)predicts=LB(xk,xt)

(14)ENDIF

(15)ENDFOR

(16) 數據反歸一化

(17)RETURNpredicts

(18)yt=sum(predicts)

2.1 時間序列分解方法

EMD是一種常用的自適應處理非線性、非平穩性時間序列的技術,其依據數據自身時間尺度特征識別出數據的固有模態,然后進行分解,無需提前設置基函數[17]。故本文采用EMD對時間序列進行分解,使復雜的信號分解為有限個本征模函數(intrinsic mode function,IMF)和一個剩余分量,各IMF包含原始數據不同波動性的局部特征信號。

EMD分解公式如式(1)~式(3)所示

(1)

ht=Xt-mt

(2)

(3)

mt為上下包絡線的均值;ut、lt為所有局部極大值點形成的上、下包絡線;ht為得到的分量;Xt為待分解序列;imfi為IMF分量;rn為剩余分量。

2.2 分配函數

在經過EMD分解后,得到一系列波動性不同的子序列。這些子序列中存有波動性較為強烈的極端子序列,然而如何區分極端子序列是一個重要問題。針對該問題,本文根據波動性提出一種分配函數D,相關公式如式(4)~式(6)所示。

B={T1,T2,T3,…,Tn} (n=1,…,N)

(4)

式中:B是原時間序列分解后的集合;其中,Tn∈R1×i(n=1,…,N) 為分解后的子序列

(5)

(6)

圖2 平穩序列

(7)

(3)本小節討論P值的設定。采用拐點法對P值進行設定。數學表達式如式(8)所示

P=1+3loge(n)(n=2,…,N)

(8)

隨著n值遞增,預測誤差也隨之遞減。圖3展示了P與n之間的關系,當出現n值遞增且預測誤差遞增時,會出現預測誤差的拐點,此時不再存在正相關關系,而是負相關。換而言之,n遞增導致預測誤差增大,則n-1就是P值最優的參數。P與n之間的關系如圖3所示。

圖3 P與n之間的關系

區分極端子序列的P值為一個超參數。由圖3建議設定n值為4,此時P值為2.8,對應預測誤差最小。對于每個子序列,當tVn大于P值的時候,該序列交由LSTM進行訓練預測;當tVn小于P值的時候,該序列交由LB進行訓練預測。閾值選取驗證將在3.3節進行說明。

2.3 極端波動子序列預測模型

LSTM解決了長期時間序列分析中存在的梯度消失與梯度爆炸問題[18],結構包含3個模塊:遺忘門、輸入門和輸出門。遺忘門和輸入門控制哪部分信息應該被移除或保留給網絡,輸出門選擇性的輸出經過處理的信息。LSTM還包括一個單元狀態,用來保存之前的重要信息,保證信息貫穿整個循環神經網絡,因此LSTM能夠記住長時間序列中比較重要的部分特征,對于波動性較為強烈的子序列采用LSTM預測更為合適。

LSTM公式如式(9)~式(14)所示

ft=σ·(Wf·[ht-1,xt]+bf)

(9)

it=σ·(Wi·[ht-1,xt]+bi)

(10)

(11)

(12)

ot=σ·(Wo·[ht-1,xt]+bo)

(13)

ht=ot*tanh(Ct)

(14)

2.4 非極端波動子序列預測模型

LB模型是Pengcheng Li等提出的一種新的時間序列預測模型[19],該模型只有一個超參數,無需進行參數訓練,模型性能穩定。LB的流程如圖4所示。

圖4 LB Model的流程

模型包含兩個部分:一部分是相似數據的聚類;另一部分是控制中樞,用于控制聚類和預測未來。該模型適用于處理數據量大的復雜非線性系統:打破時間序列,收集相似的數據到某些聚類中,并融合相似的數據以降低數據維數;利用時間序列的本質,即少量具有代表性的數據,可以有效地控制復雜系統。

融合相似數據的S-means聚類方法由3個函數組成:一是條件函數,計算趨勢條件的值。二是聚類函數,對時間序列進行分解,將相似數據聚類成組。該函數可以根據數據與中心之間的距離估計輸入數據是否符合當前聚類。三是數據融合功能,對聚類數據進行融合,降低數據維數,縮短計算時間,從而提高預測的穩定性和準確性。其數學表達式如式(15)~式(20)所示

(15)

(16)

(17)

(18)

βv={{μ},{TCD}} (v=1,2)

(19)

(20)

S-means聚類流程如圖5所示。

圖5 S-means聚類流程

控制中樞由匹配函數和預測滾動優化方法組成。匹配函數用來匹配最適合預測的聚類。

滾動優化算法是根據預測誤差更新權重值和聚類中的每個預測要素。預測模型的數學表達式類似于線性加權和,通過滾動優化確定不同的權重,基于預測誤差排名來確定第一個權重是最重要的權重值,第二個權重(1-第一個權重),等等。其數學表達式如式(21)~式(22)所示

(21)

(22)

3 實驗與分析

3.1 實驗數據

在本節中,提出的模型性能采用5種不同領域的數據集進行訓練驗證。數據集分別為:風電功率數據;谷歌股票價格數據;光伏數據;美元/加拿大元(USD/CAD)每日匯率數據和太陽黑子數據。采用keras框架進行建模計算。

3.1.1 風電功率數據集

采用內蒙古自治區某風電場2017年的實測歷史風電功率數據,風機裝載容量為1500 kW,數據分辨率為1 min。選取4月28日~4月30日共3000個數據點,其中前2000個數據點作為訓練數據,剩余1000個數據點作為測試數據。

3.1.2 谷歌股價數據集

股價的時間序列具有高度波動性和不確定性。為了評估所提模型在實際不確定場景中的財務預測能力,選取2004-08-19~2010-09-21谷歌股價數據,數據來自雅虎財經(https://finance.yahoo.com/)。為了與文獻[20]中的結果進行公平比較,選擇了631個數據點作為訓練數據,剩余900個數據點用作為測試數據。

3.1.3 光伏功率數據集

光伏數據選取于澳大利亞中部烏魯魯(艾爾斯巖)的分布式 1.8 兆瓦太陽能光伏電站,數據來源于DKA太陽能中心 (Home Page|DKA Solar Centre), 2020-01-20~2020-02-08共3000條數據,時間分辨率為5 min,數據容量為1.8 MW。選擇前2000個數據點作為訓練數據,剩余1000個數據點作為測試數據。

3.1.4 美元/加拿大元(USD/CAD)匯率數據集

所提模型可以用于預測美元/加拿大元(USD/CAD)匯率數據的每日匯率。數據采樣時間為2008-01-02~2013-12-16,數據來源于英為財情(https://cn.investing.com/),共有1554個數據點,其中前1243個數據點用于訓練模型,剩余311個數據點用于測試模型。

3.1.5 太陽黑子數據集

太陽黑子月度平滑時間序列數據來自世界太陽黑子指數數據中心(http://sidc.oma.be/silso/datafiles),采樣自1749年1月~2019年12月,總共使用了3252個樣本。其中前2602個數據點用于訓練模型,剩余650個數據點用于測試所提出模型的性能。

3.2 評價標準

為了合理評價不同模型的建模結果,在相同的條件下,可以采用一定的評價標準對建模結果進行分析。本文采用均方誤差(mean square error,MSE)、均方根誤差(root mean square error,RMSE)、平均絕對誤差(mean absolute error,MAE)、平均絕對百分誤差(mean absolute percen-tage error,MAPE)和R的平方(R squared,R2)作為評估標準來分析不同模型的建模性能,評價標準如式(23)~式(27)所示

(23)

(24)

(25)

(26)

(27)

3.3 分配函數合理性驗證

為了驗證分配閾值設定的合理性,隨機分配極端波動子序列進行對比實驗。采用風電功率數據,經過EMD處理后得到9個IMF分量,如圖6所示。

圖6 經過EMD分解后的各分量

利用分配函數D對各IMF波動性進行分析,見表2。

表2 各分量的波動性閾值

由圖6可以看出,imf1~imf3的波動性較強烈,對應表2可看出imf1~imf3的tVn值大于P值,符合分配函數D的分配原理。隨機分配子序列與分配函數D分配子序列的模型預測對比(采用3.2節所提評價標準)。可以看出,采用分配函數D計算閾值,再使用閾值分配子序列,與其它分配方式相比,模型預測效果更好。隨機分配模型對比結果見表3。

表3 隨機分配模型對比結果

3.4 實驗結果與分析

3.4.1 風電功率時間序列的預測

所提模型在風電功率預測的計算流程如圖7所示。

圖7 所提模型在風電功率預測的計算流程

所提模型的真實值與預測值對比結果如圖8所示。

圖8 風電功率預測結果

由圖8中可以看出,預測曲線可以很好擬合真實數據曲線。說明在大多數情況下,盡管風能波動不確定,所提模型仍能獲得較好的精度。圖9給出了所提模型對測試數據的預測誤差及其直方圖,表明在大多數情況下,所提模型對于時間序列預測的性能非常穩定。直方圖顯示近似高斯分布,驗證所提模型是較為理想的模型。

圖9 風電功率數據的預測誤差及其直方圖

選取CNN-LSTM、Attention-GRU、D-EMD-BPN-LSTM、D-EMD-LSTM-RNN等模型進行實驗對比,使用MAE、RMSE、R2作為評價標準,并對訓練預測時間進行統計??梢钥闯鲈赗MSE評價指標中,本文提出的模型比LSTM降低了27.3個百分點;比EMD-LB降低了23.9個百分點,克服了對比模型存在的波峰誤差大,擬合趨勢弱等問題。從計算代價來看,所提模型與EMD-LB、EMD-LSTM相比,雖然比EMD-LB多5 s,但是要比EMD-LSTM少15 s左右,重要的是預測效果要比EMD-LB、EMD-LSTM分別提高了19.7%、40.9%;與其它混合模型作對比,比D-EMD-LSTM-GR少了很多,而且效果也較為提高,與神經網絡和統計學習模型相比計算代價提高,但是同時預測效果也有所提高。對比結果見表4。

表4 風電功率數據預測的模型比較

3.4.2 谷歌股價時間序列預測

測試數據的真實值和預測值的比較結果如圖10所示,可以明顯看到所提出的模型能夠跟蹤時間序列的波動。盡管數據波動較大且變化幅度明顯表現出突然的變化(時間步長200~500為2008年金融危機期間),所提模型仍能夠很好地適應變化并預測。特別是在波峰和波谷附近,所提模型的性能優于文獻[20]中性能最好的NFIS-DN模型。

圖10 谷歌股價預測結果

文獻[20]僅采用了評價指標MSE,且提供了模型訓練預測所需時間,為體現結果一致性,本文也使用MSE并對訓練預測時間進行統計,與其進行對比。本文提出的模型與文獻[20]中精度最高的NFIS-DN模型相比,雖然計算代價有所提高,但是在MSE評價指標上誤差降低了78%。因此所提出的模型是一種更好的股票價格預測方法。

本文所提模型的實驗結果與文獻[20]中提到的模型結果對比,見表5。

表5 股票數據預測的模型比較

3.4.3 光伏時間序列預測

測試集數據的真實值和預測值的比較結果如圖11所示。

可以看出光伏數據呈現周期性波動,波峰存在的波動差異所提模型也可以很好擬合。選取CNN-LSTM、Attention-GRU、EMD-BPN-LSTM、EMD-LSTM-RNN等模型進行實驗對比,使用MAE、RMSE、MAPE、R2作為評價標準,并對訓練預測時間進行統計。所提模型的計算代價雖然不是最低的,但是預測精度較其它模型有所提高??梢钥闯鲈赗MSE評價指標中,本文提出的模型比Attention-GRU降低了24.9個百分點;比CNN-LSTM降低了28.6個百分點。對比結果見表6。

表6 光伏數據預測的模型比較

3.4.4 外幣匯率時間序列預測

所提模型的真實值與預測值對比結果如圖12所示。

圖12 外幣匯率預測結果

所提模型的預測結果與文獻[21]中一些模型的預測結果進行對比,使用MAE、RMSE、MAPE作為評價標準,并對訓練預測時間進行統計。所提模型的計算代價整體相比不是最高的,但是預測精度相對較高。在RMSE評價指標中,本文提出的模型比文獻[21]中預測效果最好的VMD-GRNN降低了88%,故驗證本文所提模型更適合外幣匯率的預測。對比結果見表7。

表7 外幣匯率數據預測的模型比較

3.4.5 太陽黑子時間序列預測

太陽黑子測試集數據的真實值與預測值的預測結果如圖13所示,可以看出預測值很好的擬合了真實值的趨勢。

所提模型預測效果與文獻[22]提到的模型結果進行實驗對比,使用RMSE、MAE作為評價標準,并對訓練預測時間進行統計。所提模型的計算代價整體相比不是最高的,但是預測精度相對較高??梢钥闯鲈赗MSE與MAE評價指標中,本文提出的模型比文獻[22]中精度最高的PHM-MAX-ARIMA-ETS-SVM降低了18.7%與19.1%,驗證了本文所提模型的預測準確率更高。對比結果見表8。

表8 太陽黑子數據預測的模型比較

3.4.6 實驗總結

從圖8~圖13所提模型對時間序列的預測結果來看,本文所提模型能夠很好擬合時間序列波動性趨勢,克服了LSTM等模型存在的預測滯后現象,減少時間序列預測模型普遍存在的波峰、波谷預測偏差大問題。從表4~表8與其它模型的比較結果來看,所提模型總體平均RMSE降低了45%,其中谷歌股價與外幣匯率平均降低了83%,風電功率、光伏功率、太陽黑子平均降低了24%。綜合比對之下,雖然預測效果提高較大,但本模型的計算代價稍高,不適合線上訓練。

根據表4~表8中D-EMD-LSTM-LB與EMD-LSTM-LB的實驗結果相比,預測誤差平均減少了5%左右,訓練時長平均減少了3 s左右。可以看出D函數進一步提高了預測精度以及減少了計算時間。

LSTM模型訓練時間相對較長但是預測的極端子序列個數少,LB模型需要預測的非極端子序列個數多然而無需訓練參數,因此模型穩定性相對較好且預測時間較短?;诟鲾祿膶嶒灲Y果均表明了本文模型具有較強的預測能力,因此該模型適用于預測一些存在不確定性、波動性大的時間序列。

4 結束語

所提模型中,分配函數D根據波動性閾值從EMD分解的一系列中劃分出波動性強烈的極端波動子序列,利用LSTM及LB各自特點對子序列進行預測。通過對5組時間序列建模對比的實驗結果,驗證在一般情況下,所提模型擁有更好的精度。

本文做出以下貢獻:首次結合文獻[19]提出的LB模型,且組合模型比LB模型預測效果更好。提出分配函數D從分解后的一系列子序列中選取波動性強烈的極端波動子序列。采用兩種非線性預測模型對波動性強烈的極端波動子序列與波動性不太強的子序列分別進行預測。

本文所提方法現有的缺點是LSTM的參數選取及模型計算代價較高問題,今后研究考慮使用優化算法進行調參,進一步提高模型預測精度,減少模型計算代價。

猜你喜歡
分配模型
一半模型
基于可行方向法的水下機器人推力分配
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
應答器THR和TFFR分配及SIL等級探討
遺產的分配
一種分配十分不均的財富
績效考核分配的實踐與思考
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 中文无码毛片又爽又刺激| 国产精品无码作爱| 在线国产91| 强乱中文字幕在线播放不卡| 久久a毛片| 福利视频99| 中国国语毛片免费观看视频| 热99re99首页精品亚洲五月天| 美女被操91视频| 视频二区中文无码| 亚洲人成网站在线播放2019| 五月丁香伊人啪啪手机免费观看| 激情五月婷婷综合网| aaa国产一级毛片| 成人午夜免费观看| 97se亚洲| 精品伊人久久大香线蕉网站| 久久先锋资源| 成人亚洲天堂| 国产在线无码一区二区三区| 无码福利日韩神码福利片| 免费看美女自慰的网站| 国产成人1024精品下载| 久夜色精品国产噜噜| 高清不卡一区二区三区香蕉| 五月天福利视频 | 亚洲国产日韩在线成人蜜芽| 亚洲综合国产一区二区三区| 亚洲国产欧美目韩成人综合| 亚洲一区二区三区中文字幕5566| www亚洲精品| 国内精品小视频在线| 麻豆精品久久久久久久99蜜桃| 日本精品一在线观看视频| 国产一级片网址| 久久伊人操| 国产欧美另类| 国产在线观看一区精品| 精品日韩亚洲欧美高清a| 国产JIZzJIzz视频全部免费| 国产精品视频白浆免费视频| 久久久久人妻一区精品| 国产a v无码专区亚洲av| 成年A级毛片| 91久久天天躁狠狠躁夜夜| 日本尹人综合香蕉在线观看| 中文字幕精品一区二区三区视频| 99色亚洲国产精品11p| 91精品国产一区自在线拍| 精品伊人久久久大香线蕉欧美| 极品性荡少妇一区二区色欲| 波多野结衣久久精品| 喷潮白浆直流在线播放| 久久毛片网| 国产午夜人做人免费视频中文| 久久精品日日躁夜夜躁欧美| 伊人91视频| 精品视频一区二区三区在线播| 亚洲日韩精品无码专区| 99精品免费在线| 亚洲开心婷婷中文字幕| 成人午夜福利视频| 亚洲欧美日韩另类在线一| 欧美色视频日本| 精品久久蜜桃| 国产最爽的乱婬视频国语对白| 色综合久久综合网| 成人国产小视频| 毛片久久久| 午夜影院a级片| 色网在线视频| 国产精品无码翘臀在线看纯欲| 亚洲国产精品一区二区第一页免| 精品福利网| 曰韩免费无码AV一区二区| 日韩AV无码一区| 成人久久精品一区二区三区| 国产精品漂亮美女在线观看| 亚洲最猛黑人xxxx黑人猛交| 成年A级毛片| 国产女人综合久久精品视| 亚洲精品第一在线观看视频|