李蘭茹,孟 涵,姚 成
(1.廣東省水文局廣州水文分局,廣東 廣州 510150;2.河海大學(xué)水文水資源學(xué)院,江蘇 南京 210098)
我國(guó)幅員遼闊,季風(fēng)氣候顯著,是世界上洪澇災(zāi)害多發(fā)頻發(fā)的國(guó)家之一[1]。目前,受下墊面變化、人類活動(dòng)和水文循環(huán)不穩(wěn)定性影響,流域?qū)崪y(cè)流量過(guò)程的復(fù)雜性、非線性與隨機(jī)性等特征加劇,導(dǎo)致難以精準(zhǔn)實(shí)現(xiàn)洪水過(guò)程的建模和預(yù)測(cè)[2]。因此,流域洪水模擬精度的提升對(duì)于水資源管理和災(zāi)害防治具有意義。
洪水模擬方法主要包括水文模型驅(qū)動(dòng)法和數(shù)據(jù)驅(qū)動(dòng)法模型兩種類型[3]。水文模型驅(qū)動(dòng)法以水文學(xué)概念為基礎(chǔ),通常需要?dú)庀髷?shù)據(jù)(例如降雨、溫度、濕度等)作為輸入,通過(guò)建立水文物理模型來(lái)解釋徑流變化,進(jìn)而推導(dǎo)出流域的水文過(guò)程,如趙人俊提出的新安江模型[4]。此類模型雖然可解釋性強(qiáng),但是對(duì)輸入數(shù)據(jù)質(zhì)量要求高,具有一定的局限性。而數(shù)據(jù)驅(qū)動(dòng)法是通過(guò)分析輸入輸出數(shù)據(jù)間的最優(yōu)數(shù)學(xué)關(guān)系發(fā)現(xiàn)數(shù)據(jù)背后的規(guī)律來(lái)模擬洪水過(guò)程的模型,包括時(shí)間序列模型、回歸分析模型和機(jī)器學(xué)習(xí)模型[5]。其中時(shí)間序列模型是一種常用的預(yù)測(cè)未來(lái)時(shí)間序列數(shù)據(jù)的方法,但在處理數(shù)據(jù)較為復(fù)雜或者有高度噪聲的情況下可能表現(xiàn)不佳。而機(jī)器學(xué)習(xí)模型在非線性數(shù)據(jù)、過(guò)程和系統(tǒng)的模擬中效果較好且計(jì)算效率高,被廣泛應(yīng)用于洪水模擬。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的重要分支,通過(guò)利用多層神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中學(xué)習(xí)樣本數(shù)據(jù)的本質(zhì)規(guī)律和層次結(jié)構(gòu)。其能夠深層挖掘出數(shù)據(jù)之間的隱含關(guān)系,具有高效的特征表達(dá)能力[6]。深度學(xué)習(xí)中常見(jiàn)的網(wǎng)絡(luò)類型中長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)時(shí)間序列數(shù)據(jù)的模擬精度高[7],且對(duì)流域降雨徑流關(guān)系的描述能力強(qiáng)[8],在洪水模擬領(lǐng)域應(yīng)用廣泛。
考慮到實(shí)測(cè)流量過(guò)程的高頻隨機(jī)性同時(shí)又具有長(zhǎng)期變化趨勢(shì)的特點(diǎn),本文提出一種基于奇異譜分析與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的(SSA-LSTM)組合模型的短期流量過(guò)程的預(yù)測(cè)方法,以期能夠提高預(yù)測(cè)精度。
時(shí)間序列分量提取的常用方法包括小波變換和奇異譜分析等。其中,小波變換對(duì)非線性的影響很大程度上取決于基函數(shù)和小波階數(shù)的選擇。而奇異譜分析在去除噪聲方面優(yōu)于經(jīng)驗(yàn)?zāi)B(tài)分解和小波變換[9]。因此,對(duì)于實(shí)測(cè)流量過(guò)程波動(dòng)大的特征,選擇奇異譜分析對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行降噪重構(gòu),具體流程如下:
(1)嵌入:將原始時(shí)間序列映射成K個(gè)長(zhǎng)度為L(zhǎng)的向量,并構(gòu)建軌跡矩陣X:
(1)
式中,K=N-L+1,L(1 2)奇異值分解:通過(guò)奇異值分解(SVD)對(duì)軌跡矩陣計(jì)算,軌跡矩陣X可以被表示為: X=X1+X2+…+XL (2) 3)分組:將X分為n個(gè)不相交的子集I1,I2,…,In,表示不同的趨勢(shì)成分。令I(lǐng)={i1,i2,…,im},則第I組矩陣可表示為: XI=Xi1+Xi2+…+Xim (3) 則表示為: X=XI1+XI2+…+XIn (4) 4)重構(gòu):將軌跡矩陣X用對(duì)角平均法轉(zhuǎn)換為所對(duì)應(yīng)的長(zhǎng)度為T(mén)的序列RCIi=(rc1,rc2,…,rcT),RCIi中第k個(gè)元素為矩陣XI中滿足i+j=k+1的所有元素的均值。 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN),用于處理序列數(shù)據(jù)的預(yù)測(cè)和分類[10]。相對(duì)于普通的RNN,LSTM支持更長(zhǎng)的時(shí)間序列,并且可以在多個(gè)時(shí)間步驟中保留和管理長(zhǎng)期記憶。LSTM引入遺忘門(mén)、輸入門(mén)和輸出門(mén)三個(gè)門(mén)來(lái)解決RNN存在的梯度不合理問(wèn)題。遺忘門(mén)決定了哪些狀態(tài)需要保存或遺忘,輸入門(mén)的作用是決定當(dāng)前的輸入應(yīng)該如何更新長(zhǎng)期狀態(tài),輸出門(mén)決定了哪些信息應(yīng)該進(jìn)行輸出,其結(jié)構(gòu)如圖1所示。 圖1 LSTM結(jié)構(gòu)圖 隨機(jī)森林是由Leo Breiman和Adele Cutler于2001年提出的一種集成學(xué)習(xí)算法[11],它的主要思想是通過(guò)構(gòu)建多個(gè)決策樹(shù),并將它們組合起來(lái)來(lái)提高模型的準(zhǔn)確性和穩(wěn)定性,其結(jié)構(gòu)如圖2所示。每個(gè)決策樹(shù)基于訓(xùn)練集的不同子集和特征的不同子集進(jìn)行訓(xùn)練,這樣可以避免過(guò)擬合并提高模型的泛化能力。 圖2 隨機(jī)森林模型示意圖 在隨機(jī)森林中,每個(gè)決策樹(shù)都是基于不同的樣本集和特征集進(jìn)行構(gòu)建的。這樣可以保證每個(gè)決策樹(shù)都有不同的偏差和方差,提高了模型的準(zhǔn)確性和穩(wěn)定性。 支持向量機(jī)是一種二分類模型[12],用于機(jī)器學(xué)習(xí)中的分類和回歸任務(wù)。它們基于尋找最佳線性邊界的思想,將不同類別的樣本分開(kāi)。SVM的基本思想是將樣本映射到高維空間,使得樣本更容易被線性分開(kāi)。當(dāng)輸入數(shù)據(jù)被轉(zhuǎn)換到一個(gè)高維空間后,可以找到一個(gè)線性邊界。然后將轉(zhuǎn)換后的數(shù)據(jù)映射回原始空間,在原始空間中給出非線性邊界。與其他機(jī)器學(xué)習(xí)算法相比,支持向量機(jī)具有的主要優(yōu)勢(shì)之一是能夠處理高維數(shù)據(jù)以及輸入和輸出之間復(fù)雜的非線性關(guān)系。 本研究選取增江流域下游麒麟咀水文站的2000年至2020年20場(chǎng)次洪數(shù)據(jù)為研究對(duì)象,該歷史數(shù)據(jù)采樣周期為1小時(shí)。利用前15場(chǎng)次洪數(shù)據(jù)訓(xùn)練模型,后5場(chǎng)次洪數(shù)據(jù)對(duì)訓(xùn)練的模型進(jìn)行驗(yàn)證。訓(xùn)練數(shù)據(jù)包含大、中、小洪水樣本,以及一個(gè)洪峰和多個(gè)洪峰的洪水過(guò)程。訓(xùn)練數(shù)據(jù)的多樣性有利于提高模型的泛化能力。 本文提出一種基于奇異譜分析與長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(SSA-LSTM)的組合模型的短期流量過(guò)程預(yù)測(cè)方法。該方法首先通過(guò)相空間重構(gòu)模型確定窗口長(zhǎng)度[13],依據(jù)選取的窗口長(zhǎng)度通過(guò)奇異譜分析將實(shí)測(cè)流量過(guò)程分解為趨勢(shì)成分、振蕩成分,然后利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)對(duì)降噪之后的重組序列進(jìn)行洪水預(yù)測(cè),得到最終的預(yù)測(cè)值,其基本實(shí)現(xiàn)方式如下: (1)選擇增江流域下游麒麟咀水文站的20場(chǎng)次洪數(shù)據(jù)為研究對(duì)象對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證。通過(guò)相空間重構(gòu)模型確定奇異譜分析所需要的窗口長(zhǎng)度,利用SSA方法對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行分解,得到包含趨勢(shì)成分、振蕩成分和噪聲成分的6個(gè)分量。 (2)對(duì)各個(gè)分量進(jìn)行周期分量重建,通過(guò)加法合成法將趨勢(shì)成分和振蕩成分選擇性進(jìn)行合成,最大程度地保留序列信息。利用LSTM模型對(duì)重構(gòu)后的序列進(jìn)行擬合。 (3)將SSA-LSTM模型與LSTM模型進(jìn)行不同時(shí)間步長(zhǎng)(6h、12h、18h、24h)下的單步預(yù)測(cè)性能比較。優(yōu)選時(shí)間步長(zhǎng)后,進(jìn)行不同預(yù)見(jiàn)期(1h,3h,6h,9h)的模擬,并將結(jié)果與SSA-RF、SSA-SVM模型進(jìn)行比較。 了對(duì)預(yù)測(cè)結(jié)果更加直觀的分析,本文選取納什效率系數(shù)、均方根誤差、平均絕對(duì)誤差作為衡量預(yù)測(cè)性能的標(biāo)準(zhǔn),3種標(biāo)準(zhǔn)表示形式如下: (5) (6) (7) 由圖3可以看出,實(shí)測(cè)流量過(guò)程呈現(xiàn)高頻波動(dòng)性與隨機(jī)性,且無(wú)明顯規(guī)律。通過(guò)對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行樣本熵測(cè)試,得到的SampEn為0.6196。這表明實(shí)測(cè)流量過(guò)程存在一定的復(fù)雜性,使用常規(guī)的預(yù)測(cè)模型可能會(huì)受到多種因素的干擾。 圖3 增江流域2000—2020年洪水過(guò)程序列圖 奇異譜分析是一種基于信號(hào)的奇異性分解方法,可以將時(shí)間序列分解為若干條成分曲線。這些成分曲線包含了時(shí)間序列不同的頻率、振幅和相位信息,能夠反映出時(shí)間序列的特征。而保證奇異譜分析精度的重要因素是窗口長(zhǎng)度M,文獻(xiàn)[13]中表明奇異譜分析中窗口長(zhǎng)度選取與相空間重構(gòu)存在相似之處,因此,窗口長(zhǎng)度可以通過(guò)相空間重構(gòu)模型進(jìn)行選取。 通過(guò)相重構(gòu)模型獲得的窗口長(zhǎng)度為6,對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行分解,序列分解后各個(gè)分量的波動(dòng)情況如圖4所示。 圖4 實(shí)測(cè)流量序列經(jīng)過(guò)SSA分解得到的6個(gè)分量 分量1代表了原始序列的趨勢(shì)成分,反映出實(shí)測(cè)流量過(guò)程的長(zhǎng)期變化趨勢(shì),該分量包含了原始序列的絕大部分信息。分量2的波動(dòng)程度較其他分量來(lái)說(shuō)更劇烈,該分量描述了時(shí)間序列的短期漲落信息,具有一定的周期性和重復(fù)性。隨著分量貢獻(xiàn)程度的減少,分量波動(dòng)幅度減小,分量4、5和6對(duì)序列的貢獻(xiàn)度極低,可視為幾乎不包含任何有用信息,對(duì)原始序列不造成影響,故將其視為噪聲去除[14]。選擇分量1、2和3進(jìn)行重構(gòu),去除噪聲后的重組序列與原始序列相比,在保留了原始序列的長(zhǎng)期變化趨勢(shì)的同時(shí)更加平滑,說(shuō)明奇異譜分析可以在保留流量序列主要特征的同時(shí)極大程度地減少數(shù)據(jù)中的噪聲,從而避免模型被無(wú)用信息干擾。 為了將實(shí)測(cè)流量過(guò)程重構(gòu)為一個(gè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集,通常采用滑動(dòng)窗口法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,窗口的大小是一個(gè)可變參數(shù),通常被稱為時(shí)間步長(zhǎng)[15]。因此,將SSA-LSTM模型與LSTM模型進(jìn)行不同時(shí)間步長(zhǎng)(6h、12h、18h、24h)下的單步預(yù)測(cè)性能比較。為了保證模型在處理同樣的數(shù)據(jù)時(shí)具有相同的基礎(chǔ)配置,對(duì)LSTM、SSA-LSTM兩種模型中的LSTM結(jié)構(gòu)設(shè)置相同的參數(shù)。這樣的話,模型的表現(xiàn)差異可以更好地反映出它們?cè)诮Y(jié)構(gòu)和算法等方面的差異,并且可以減少由于不同參數(shù)配置而導(dǎo)致的誤差來(lái)源。模擬的表現(xiàn)見(jiàn)表1。 表1 SSA-LSTM與LSTM在不同時(shí)間步長(zhǎng)下的性能比較 表1為SSA-LSTM與LSTM在不同時(shí)間步長(zhǎng)下驗(yàn)證集的洪水模擬精度,SSA-LSTM的評(píng)價(jià)指標(biāo)表現(xiàn)均優(yōu)于LSTM模型,表明SSA-LSTM模型驗(yàn)證期精度較好。而SSA-LSTM模型在洪水模擬中具有更好的效果,可能是因?yàn)榻?jīng)過(guò)奇異譜分析后的實(shí)測(cè)流量過(guò)程去除了噪聲分量,使得數(shù)據(jù)更加平滑易于建模分析。當(dāng)時(shí)間步長(zhǎng)從6h逐漸增加至24h時(shí),LSTM模型的模擬效果呈現(xiàn)波動(dòng)狀態(tài),時(shí)間步長(zhǎng)為18h時(shí),LSTM模型表現(xiàn)最優(yōu)。這表明LSTM模型具備保存時(shí)間序列長(zhǎng)期特征的能力,但是其模擬效果受到時(shí)間步長(zhǎng)的影響,時(shí)間過(guò)長(zhǎng)會(huì)導(dǎo)致模型接受的信息過(guò)載,從而使得LSTM模型被噪聲信息影響。因此選擇合適的時(shí)間步長(zhǎng)進(jìn)行模型的構(gòu)建至關(guān)重要。 各個(gè)時(shí)間步長(zhǎng)下兩種模型在驗(yàn)證集上的預(yù)測(cè)曲線如圖5所示。從圖中可以明顯看出在時(shí)間步長(zhǎng)為18h時(shí),SSA-LSTM模型與LSTM模型相比優(yōu)化效果最好。而其他時(shí)間步長(zhǎng)下,SSA-LSTM模型的優(yōu)化效果雖然較為一般,但總體表現(xiàn)都優(yōu)于LSTM模型。這可以解釋為SSA-LSTM模型將實(shí)測(cè)流量過(guò)程分解為了趨勢(shì)成分、振蕩成分和噪聲成分,通過(guò)選擇性的重構(gòu)去除了噪聲成分,并提取出了實(shí)測(cè)流量過(guò)程中更多的特征 圖5 不同時(shí)間步長(zhǎng)下的SSA-LSTM與LSTM模型在驗(yàn)證集上的預(yù)測(cè)曲線 因此,選擇時(shí)間步長(zhǎng)為18h的SSA-LSTM模型進(jìn)行不同預(yù)見(jiàn)期(1h,3h,6h,9h)的對(duì)比,并將結(jié)果與SSA-RF、SSA-SVM模型進(jìn)行比較,模擬的表現(xiàn)見(jiàn)表2。由表可得,在3種模型中,本文所提模型都表現(xiàn)出最高預(yù)測(cè)精度。以預(yù)見(jiàn)期3h為例,SSA-LSTM模型的NSE最高,且RMSE與SSA-RF模型和SSA-SVM模型相比分別降低了35%和50%。這可能是經(jīng)過(guò)奇異譜分析分解重構(gòu)后的序列對(duì)LSTM模型更加適用。 表2 SSA-LSTM與其他模型在不同預(yù)見(jiàn)期下的性能比較T 各個(gè)預(yù)見(jiàn)期下模型在驗(yàn)證集上的預(yù)測(cè)曲線如圖6所示。由圖可知,本文所提出的SSA-LSTM模型在不同預(yù)見(jiàn)期的評(píng)價(jià)指標(biāo)均表現(xiàn)最優(yōu)。當(dāng)預(yù)見(jiàn)期為1h時(shí),由于預(yù)測(cè)的時(shí)候輸入是最近的數(shù)據(jù),故預(yù)測(cè)結(jié)果與實(shí)測(cè)流量過(guò)程最為接近。隨著預(yù)見(jiàn)期的增加,模型的模擬效果也逐漸下降。由各模型對(duì)比可知,本文所提SSA-LSTM模型在所有模擬中預(yù)測(cè)精度最高,且都優(yōu)于本文涉及的其他模型,具有一定的適用價(jià)值。 圖6 不同預(yù)見(jiàn)期下的SSA-LSTM與其他模型在驗(yàn)證集上的預(yù)測(cè)曲線 由于實(shí)測(cè)流量過(guò)程存在一定的復(fù)雜性,使用常規(guī)的模擬模型可能會(huì)受到多種因素的干擾,提出了一種基于奇異譜分析的組合預(yù)測(cè)模型。通過(guò)奇異譜分析對(duì)實(shí)測(cè)流量過(guò)程進(jìn)行分解和重構(gòu),提取實(shí)測(cè)流量過(guò)程中的趨勢(shì)成分和振蕩成分,分離出噪聲成分,從而獲得更加穩(wěn)定、平滑和易于建模的數(shù)據(jù),并且利用LSTM模型對(duì)重構(gòu)序列進(jìn)行洪水模擬。在不同時(shí)間步長(zhǎng)下,SSA-LSTM模型的可靠性和預(yù)測(cè)準(zhǔn)確度均優(yōu)于LSTM模型,克服了單一模型預(yù)測(cè)誤差波動(dòng)大、預(yù)測(cè)精度不穩(wěn)定等問(wèn)題,經(jīng)過(guò)SSA處理后模型模擬精度有較大提升。未來(lái)可進(jìn)一步考慮影響實(shí)測(cè)流量過(guò)程的外部影響因素,從而修正預(yù)測(cè)結(jié)果,進(jìn)一步提高預(yù)測(cè)精度。
1.2 長(zhǎng)短期記憶網(wǎng)絡(luò)

1.3 隨機(jī)森林模型

1.4 支持向量回歸
2 實(shí)驗(yàn)說(shuō)明
2.1 數(shù)據(jù)說(shuō)明
2.2 預(yù)測(cè)流程及模型建立
2.3 評(píng)價(jià)指標(biāo)

3 實(shí)驗(yàn)結(jié)果與分析
3.1 基于SSA的流量數(shù)據(jù)分解和重構(gòu)


3.2 不同時(shí)間步長(zhǎng)下的模型性能評(píng)估




4 結(jié)論