基于SSA-LSTM模型的增江流域洪水模擬

2023-12-23 04:42:06李蘭茹

水利技術(shù)監(jiān)督 2023年12期

關(guān)鍵詞：模型

李蘭茹，孟涵，姚成

(1.廣東省水文局廣州水文分局，廣東廣州 510150；2.河海大學(xué)水文水資源學(xué)院，江蘇南京 210098)

我國(guó)幅員遼闊，季風(fēng)氣候顯著，是世界上洪澇災(zāi)害多發(fā)頻發(fā)的國(guó)家之一[1]。目前，受下墊面變化、人類活動(dòng)和水文循環(huán)不穩(wěn)定性影響，流域?qū)崪y(cè)流量過(guò)程的復(fù)雜性、非線性與隨機(jī)性等特征加劇，導(dǎo)致難以精準(zhǔn)實(shí)現(xiàn)洪水過(guò)程的建模和預(yù)測(cè)[2]。因此，流域洪水模擬精度的提升對(duì)于水資源管理和災(zāi)害防治具有意義。

洪水模擬方法主要包括水文模型驅(qū)動(dòng)法和數(shù)據(jù)驅(qū)動(dòng)法模型兩種類型[3]。水文模型驅(qū)動(dòng)法以水文學(xué)概念為基礎(chǔ)，通常需要?dú)庀髷?shù)據(jù)(例如降雨、溫度、濕度等)作為輸入，通過(guò)建立水文物理模型來(lái)解釋徑流變化，進(jìn)而推導(dǎo)出流域的水文過(guò)程，如趙人俊提出的新安江模型[4]。此類模型雖然可解釋性強(qiáng)，但是對(duì)輸入數(shù)據(jù)質(zhì)量要求高，具有一定的局限性。而數(shù)據(jù)驅(qū)動(dòng)法是通過(guò)分析輸入輸出數(shù)據(jù)間的最優(yōu)數(shù)學(xué)關(guān)系發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律來(lái)模擬洪水過(guò)程的模型，包括時(shí)間序列模型、回歸分析模型和機(jī)器學(xué)習(xí)模型[5]。其中時(shí)間序列模型是一種常用的預(yù)測(cè)未來(lái)時(shí)間序列數(shù)據(jù)的方法，但在處理數(shù)據(jù)較為復(fù)雜或者有高度噪聲的情況下可能表現(xiàn)不佳。而機(jī)器學(xué)習(xí)模型在非線性數(shù)據(jù)、過(guò)程和系統(tǒng)的模擬中效果較好且計(jì)算效率高，被廣泛應(yīng)用于洪水模擬。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的重要分支，通過(guò)利用多層神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中學(xué)習(xí)樣本數(shù)據(jù)的本質(zhì)規(guī)律和層次結(jié)構(gòu)。其能夠深層挖掘出數(shù)據(jù)之間的隱含關(guān)系，具有高效的特征表達(dá)能力[6]。深度學(xué)習(xí)中常見(jiàn)的網(wǎng)絡(luò)類型中長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)時(shí)間序列數(shù)據(jù)的模擬精度高[7]，且對(duì)流域降雨徑流關(guān)系的描述能力強(qiáng)[8]，在洪水模擬領(lǐng)域應(yīng)用廣泛。

考慮到實(shí)測(cè)流量過(guò)程的高頻隨機(jī)性同時(shí)又具有長(zhǎng)期變化趨勢(shì)的特點(diǎn)，本文提出一種基于奇異譜分析與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的(SSA-LSTM)組合模型的短期流量過(guò)程的預(yù)測(cè)方法，以期能夠提高預(yù)測(cè)精度。

1 模型框架及原理

1.1 奇異譜分析

時(shí)間序列分量提取的常用方法包括小波變換和奇異譜分析等。其中，小波變換對(duì)非線性的影響很大程度上取決于基函數(shù)和小波階數(shù)的選擇。而奇異譜分析在去除噪聲方面優(yōu)于經(jīng)驗(yàn)?zāi)B(tài)分解和小波變換[9]。因此，對(duì)于實(shí)測(cè)流量過(guò)程波動(dòng)大的特征，選擇奇異譜分析對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行降噪重構(gòu)，具體流程如下：

(1)嵌入：將原始時(shí)間序列映射成K個(gè)長(zhǎng)度為L(zhǎng)的向量，并構(gòu)建軌跡矩陣X：

(1)

式中，K=N-L+1，L(1

2)奇異值分解：通過(guò)奇異值分解(SVD)對(duì)軌跡矩陣計(jì)算，軌跡矩陣X可以被表示為：

X=X1+X2+…+XL

(2)

3)分組：將X分為n個(gè)不相交的子集I1，I2，…，In，表示不同的趨勢(shì)成分。令I(lǐng)={i1，i2，…，im}，則第I組矩陣可表示為：

XI=Xi1+Xi2+…+Xim

(3)

則表示為：

X=XI1+XI2+…+XIn

(4)

4)重構(gòu)：將軌跡矩陣X用對(duì)角平均法轉(zhuǎn)換為所對(duì)應(yīng)的長(zhǎng)度為T(mén)的序列RCIi=(rc1，rc2，…，rcT)，RCIi中第k個(gè)元素為矩陣XI中滿足i+j=k+1的所有元素的均值。

1.2 長(zhǎng)短期記憶網(wǎng)絡(luò)

長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)，用于處理序列數(shù)據(jù)的預(yù)測(cè)和分類[10]。相對(duì)于普通的RNN，LSTM支持更長(zhǎng)的時(shí)間序列，并且可以在多個(gè)時(shí)間步驟中保留和管理長(zhǎng)期記憶。LSTM引入遺忘門(mén)、輸入門(mén)和輸出門(mén)三個(gè)門(mén)來(lái)解決RNN存在的梯度不合理問(wèn)題。遺忘門(mén)決定了哪些狀態(tài)需要保存或遺忘，輸入門(mén)的作用是決定當(dāng)前的輸入應(yīng)該如何更新長(zhǎng)期狀態(tài)，輸出門(mén)決定了哪些信息應(yīng)該進(jìn)行輸出，其結(jié)構(gòu)如圖1所示。

圖1 LSTM結(jié)構(gòu)圖

1.3 隨機(jī)森林模型

隨機(jī)森林是由Leo Breiman和Adele Cutler于2001年提出的一種集成學(xué)習(xí)算法[11]，它的主要思想是通過(guò)構(gòu)建多個(gè)決策樹(shù)，并將它們組合起來(lái)來(lái)提高模型的準(zhǔn)確性和穩(wěn)定性，其結(jié)構(gòu)如圖2所示。每個(gè)決策樹(shù)基于訓(xùn)練集的不同子集和特征的不同子集進(jìn)行訓(xùn)練，這樣可以避免過(guò)擬合并提高模型的泛化能力。

圖2 隨機(jī)森林模型示意圖

在隨機(jī)森林中，每個(gè)決策樹(shù)都是基于不同的樣本集和特征集進(jìn)行構(gòu)建的。這樣可以保證每個(gè)決策樹(shù)都有不同的偏差和方差，提高了模型的準(zhǔn)確性和穩(wěn)定性。

1.4 支持向量回歸

支持向量機(jī)是一種二分類模型[12]，用于機(jī)器學(xué)習(xí)中的分類和回歸任務(wù)。它們基于尋找最佳線性邊界的思想，將不同類別的樣本分開(kāi)。SVM的基本思想是將樣本映射到高維空間，使得樣本更容易被線性分開(kāi)。當(dāng)輸入數(shù)據(jù)被轉(zhuǎn)換到一個(gè)高維空間后，可以找到一個(gè)線性邊界。然后將轉(zhuǎn)換后的數(shù)據(jù)映射回原始空間，在原始空間中給出非線性邊界。與其他機(jī)器學(xué)習(xí)算法相比，支持向量機(jī)具有的主要優(yōu)勢(shì)之一是能夠處理高維數(shù)據(jù)以及輸入和輸出之間復(fù)雜的非線性關(guān)系。

2 實(shí)驗(yàn)說(shuō)明

2.1 數(shù)據(jù)說(shuō)明

本研究選取增江流域下游麒麟咀水文站的2000年至2020年20場(chǎng)次洪數(shù)據(jù)為研究對(duì)象，該歷史數(shù)據(jù)采樣周期為1小時(shí)。利用前15場(chǎng)次洪數(shù)據(jù)訓(xùn)練模型，后5場(chǎng)次洪數(shù)據(jù)對(duì)訓(xùn)練的模型進(jìn)行驗(yàn)證。訓(xùn)練數(shù)據(jù)包含大、中、小洪水樣本，以及一個(gè)洪峰和多個(gè)洪峰的洪水過(guò)程。訓(xùn)練數(shù)據(jù)的多樣性有利于提高模型的泛化能力。

2.2 預(yù)測(cè)流程及模型建立

本文提出一種基于奇異譜分析與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(SSA-LSTM)的組合模型的短期流量過(guò)程預(yù)測(cè)方法。該方法首先通過(guò)相空間重構(gòu)模型確定窗口長(zhǎng)度[13]，依據(jù)選取的窗口長(zhǎng)度通過(guò)奇異譜分析將實(shí)測(cè)流量過(guò)程分解為趨勢(shì)成分、振蕩成分，然后利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)對(duì)降噪之后的重組序列進(jìn)行洪水預(yù)測(cè)，得到最終的預(yù)測(cè)值，其基本實(shí)現(xiàn)方式如下：

(1)選擇增江流域下游麒麟咀水文站的20場(chǎng)次洪數(shù)據(jù)為研究對(duì)象對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證。通過(guò)相空間重構(gòu)模型確定奇異譜分析所需要的窗口長(zhǎng)度，利用SSA方法對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行分解，得到包含趨勢(shì)成分、振蕩成分和噪聲成分的6個(gè)分量。

(2)對(duì)各個(gè)分量進(jìn)行周期分量重建，通過(guò)加法合成法將趨勢(shì)成分和振蕩成分選擇性進(jìn)行合成，最大程度地保留序列信息。利用LSTM模型對(duì)重構(gòu)后的序列進(jìn)行擬合。

(3)將SSA-LSTM模型與LSTM模型進(jìn)行不同時(shí)間步長(zhǎng)(6h、12h、18h、24h)下的單步預(yù)測(cè)性能比較。優(yōu)選時(shí)間步長(zhǎng)后，進(jìn)行不同預(yù)見(jiàn)期(1h，3h，6h，9h)的模擬，并將結(jié)果與SSA-RF、SSA-SVM模型進(jìn)行比較。

2.3 評(píng)價(jià)指標(biāo)

了對(duì)預(yù)測(cè)結(jié)果更加直觀的分析，本文選取納什效率系數(shù)、均方根誤差、平均絕對(duì)誤差作為衡量預(yù)測(cè)性能的標(biāo)準(zhǔn)，3種標(biāo)準(zhǔn)表示形式如下：

(5)

(6)

(7)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 基于SSA的流量數(shù)據(jù)分解和重構(gòu)

由圖3可以看出，實(shí)測(cè)流量過(guò)程呈現(xiàn)高頻波動(dòng)性與隨機(jī)性，且無(wú)明顯規(guī)律。通過(guò)對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行樣本熵測(cè)試，得到的SampEn為0.6196。這表明實(shí)測(cè)流量過(guò)程存在一定的復(fù)雜性，使用常規(guī)的預(yù)測(cè)模型可能會(huì)受到多種因素的干擾。

圖3 增江流域2000—2020年洪水過(guò)程序列圖

奇異譜分析是一種基于信號(hào)的奇異性分解方法，可以將時(shí)間序列分解為若干條成分曲線。這些成分曲線包含了時(shí)間序列不同的頻率、振幅和相位信息，能夠反映出時(shí)間序列的特征。而保證奇異譜分析精度的重要因素是窗口長(zhǎng)度M，文獻(xiàn)[13]中表明奇異譜分析中窗口長(zhǎng)度選取與相空間重構(gòu)存在相似之處，因此，窗口長(zhǎng)度可以通過(guò)相空間重構(gòu)模型進(jìn)行選取。

通過(guò)相重構(gòu)模型獲得的窗口長(zhǎng)度為6，對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行分解，序列分解后各個(gè)分量的波動(dòng)情況如圖4所示。

圖4 實(shí)測(cè)流量序列經(jīng)過(guò)SSA分解得到的6個(gè)分量

分量1代表了原始序列的趨勢(shì)成分，反映出實(shí)測(cè)流量過(guò)程的長(zhǎng)期變化趨勢(shì)，該分量包含了原始序列的絕大部分信息。分量2的波動(dòng)程度較其他分量來(lái)說(shuō)更劇烈，該分量描述了時(shí)間序列的短期漲落信息，具有一定的周期性和重復(fù)性。隨著分量貢獻(xiàn)程度的減少，分量波動(dòng)幅度減小，分量4、5和6對(duì)序列的貢獻(xiàn)度極低，可視為幾乎不包含任何有用信息，對(duì)原始序列不造成影響，故將其視為噪聲去除[14]。選擇分量1、2和3進(jìn)行重構(gòu)，去除噪聲后的重組序列與原始序列相比，在保留了原始序列的長(zhǎng)期變化趨勢(shì)的同時(shí)更加平滑，說(shuō)明奇異譜分析可以在保留流量序列主要特征的同時(shí)極大程度地減少數(shù)據(jù)中的噪聲，從而避免模型被無(wú)用信息干擾。

3.2 不同時(shí)間步長(zhǎng)下的模型性能評(píng)估

為了將實(shí)測(cè)流量過(guò)程重構(gòu)為一個(gè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集，通常采用滑動(dòng)窗口法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，窗口的大小是一個(gè)可變參數(shù)，通常被稱為時(shí)間步長(zhǎng)[15]。因此，將SSA-LSTM模型與LSTM模型進(jìn)行不同時(shí)間步長(zhǎng)(6h、12h、18h、24h)下的單步預(yù)測(cè)性能比較。為了保證模型在處理同樣的數(shù)據(jù)時(shí)具有相同的基礎(chǔ)配置，對(duì)LSTM、SSA-LSTM兩種模型中的LSTM結(jié)構(gòu)設(shè)置相同的參數(shù)。這樣的話，模型的表現(xiàn)差異可以更好地反映出它們?cè)诮Y(jié)構(gòu)和算法等方面的差異，并且可以減少由于不同參數(shù)配置而導(dǎo)致的誤差來(lái)源。模擬的表現(xiàn)見(jiàn)表1。

表1 SSA-LSTM與LSTM在不同時(shí)間步長(zhǎng)下的性能比較

表1為SSA-LSTM與LSTM在不同時(shí)間步長(zhǎng)下驗(yàn)證集的洪水模擬精度，SSA-LSTM的評(píng)價(jià)指標(biāo)表現(xiàn)均優(yōu)于LSTM模型，表明SSA-LSTM模型驗(yàn)證期精度較好。而SSA-LSTM模型在洪水模擬中具有更好的效果，可能是因?yàn)榻?jīng)過(guò)奇異譜分析后的實(shí)測(cè)流量過(guò)程去除了噪聲分量，使得數(shù)據(jù)更加平滑易于建模分析。當(dāng)時(shí)間步長(zhǎng)從6h逐漸增加至24h時(shí)，LSTM模型的模擬效果呈現(xiàn)波動(dòng)狀態(tài)，時(shí)間步長(zhǎng)為18h時(shí)，LSTM模型表現(xiàn)最優(yōu)。這表明LSTM模型具備保存時(shí)間序列長(zhǎng)期特征的能力，但是其模擬效果受到時(shí)間步長(zhǎng)的影響，時(shí)間過(guò)長(zhǎng)會(huì)導(dǎo)致模型接受的信息過(guò)載，從而使得LSTM模型被噪聲信息影響。因此選擇合適的時(shí)間步長(zhǎng)進(jìn)行模型的構(gòu)建至關(guān)重要。

各個(gè)時(shí)間步長(zhǎng)下兩種模型在驗(yàn)證集上的預(yù)測(cè)曲線如圖5所示。從圖中可以明顯看出在時(shí)間步長(zhǎng)為18h時(shí)，SSA-LSTM模型與LSTM模型相比優(yōu)化效果最好。而其他時(shí)間步長(zhǎng)下，SSA-LSTM模型的優(yōu)化效果雖然較為一般，但總體表現(xiàn)都優(yōu)于LSTM模型。這可以解釋為SSA-LSTM模型將實(shí)測(cè)流量過(guò)程分解為了趨勢(shì)成分、振蕩成分和噪聲成分，通過(guò)選擇性的重構(gòu)去除了噪聲成分，并提取出了實(shí)測(cè)流量過(guò)程中更多的特征

圖5 不同時(shí)間步長(zhǎng)下的SSA-LSTM與LSTM模型在驗(yàn)證集上的預(yù)測(cè)曲線

因此，選擇時(shí)間步長(zhǎng)為18h的SSA-LSTM模型進(jìn)行不同預(yù)見(jiàn)期(1h，3h，6h，9h)的對(duì)比，并將結(jié)果與SSA-RF、SSA-SVM模型進(jìn)行比較，模擬的表現(xiàn)見(jiàn)表2。由表可得，在3種模型中，本文所提模型都表現(xiàn)出最高預(yù)測(cè)精度。以預(yù)見(jiàn)期3h為例，SSA-LSTM模型的NSE最高，且RMSE與SSA-RF模型和SSA-SVM模型相比分別降低了35%和50%。這可能是經(jīng)過(guò)奇異譜分析分解重構(gòu)后的序列對(duì)LSTM模型更加適用。

表2 SSA-LSTM與其他模型在不同預(yù)見(jiàn)期下的性能比較T

各個(gè)預(yù)見(jiàn)期下模型在驗(yàn)證集上的預(yù)測(cè)曲線如圖6所示。由圖可知，本文所提出的SSA-LSTM模型在不同預(yù)見(jiàn)期的評(píng)價(jià)指標(biāo)均表現(xiàn)最優(yōu)。當(dāng)預(yù)見(jiàn)期為1h時(shí)，由于預(yù)測(cè)的時(shí)候輸入是最近的數(shù)據(jù)，故預(yù)測(cè)結(jié)果與實(shí)測(cè)流量過(guò)程最為接近。隨著預(yù)見(jiàn)期的增加，模型的模擬效果也逐漸下降。由各模型對(duì)比可知，本文所提SSA-LSTM模型在所有模擬中預(yù)測(cè)精度最高，且都優(yōu)于本文涉及的其他模型，具有一定的適用價(jià)值。

圖6 不同預(yù)見(jiàn)期下的SSA-LSTM與其他模型在驗(yàn)證集上的預(yù)測(cè)曲線

4 結(jié)論

由于實(shí)測(cè)流量過(guò)程存在一定的復(fù)雜性，使用常規(guī)的模擬模型可能會(huì)受到多種因素的干擾，提出了一種基于奇異譜分析的組合預(yù)測(cè)模型。通過(guò)奇異譜分析對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行分解和重構(gòu)，提取實(shí)測(cè)流量過(guò)程中的趨勢(shì)成分和振蕩成分，分離出噪聲成分，從而獲得更加穩(wěn)定、平滑和易于建模的數(shù)據(jù)，并且利用LSTM模型對(duì)重構(gòu)序列進(jìn)行洪水模擬。在不同時(shí)間步長(zhǎng)下，SSA-LSTM模型的可靠性和預(yù)測(cè)準(zhǔn)確度均優(yōu)于LSTM模型，克服了單一模型預(yù)測(cè)誤差波動(dòng)大、預(yù)測(cè)精度不穩(wěn)定等問(wèn)題，經(jīng)過(guò)SSA處理后模型模擬精度有較大提升。未來(lái)可進(jìn)一步考慮影響實(shí)測(cè)流量過(guò)程的外部影響因素，從而修正預(yù)測(cè)結(jié)果，進(jìn)一步提高預(yù)測(cè)精度。