程揚(yáng),王偉,王曉青
(1.重慶交通大學(xué)河海學(xué)院,重慶400074;2.重慶交通大學(xué)西南水運(yùn)工程研究所,重慶400042)
水文時(shí)間序列[1]是隨著時(shí)間推移觀測(cè)到的水文要素的離散有序集合。水文時(shí)間序列具有隨機(jī)性、模糊性、非線性、非平穩(wěn)性、多尺度變化等多種特性[2],其特性復(fù)雜多變,組成成分也極其復(fù)雜(圖1),目前認(rèn)為水文時(shí)間序列主要由趨勢(shì)項(xiàng)、周期項(xiàng)和隨機(jī)項(xiàng)三部分組成[3]。研究水文時(shí)間序列的特性和預(yù)測(cè)方法,尤其是利用觀測(cè)的水文序列進(jìn)行水文預(yù)測(cè),對(duì)于水文中長(zhǎng)期預(yù)報(bào)具有重要的現(xiàn)實(shí)意義。目前,處理實(shí)際預(yù)測(cè)問題的一般分析思路是:運(yùn)用數(shù)學(xué)方法將時(shí)間序列分解成不同尺度下的分量,然后采用合適的預(yù)測(cè)模型建模,最終得到序列的變化趨勢(shì)和預(yù)測(cè)值。
傳統(tǒng)的預(yù)測(cè)模型主要有回歸分析等,其原理簡(jiǎn)單、理論完備、結(jié)構(gòu)清晰、應(yīng)用成熟。生產(chǎn)部門多采用傳統(tǒng)的方法進(jìn)行水文預(yù)報(bào),但是隨著人們對(duì)水文學(xué)的研究逐步深入,學(xué)者們逐漸引入新興的技術(shù)和方法來提高預(yù)報(bào)精度。近年來,新興類的預(yù)測(cè)模型雖然應(yīng)用較少,但是其準(zhǔn)確、高效、快速、可操作性強(qiáng)的優(yōu)點(diǎn)引起了高度重視,不少學(xué)者在這方面展開了大量研究。本文就兩類時(shí)間序列的預(yù)測(cè)模型原理、應(yīng)用進(jìn)行了簡(jiǎn)要總結(jié),并對(duì)模型的不足和改進(jìn)進(jìn)行了展望。
回歸分析作為一種數(shù)理統(tǒng)計(jì)方法,用于處理水文數(shù)據(jù)變量間的統(tǒng)計(jì)相關(guān)性。回歸分析技術(shù)包括線性回歸和非線性回歸分析技術(shù),線性回歸分析技術(shù),如一元線性回歸、多元線性回歸和逐步回歸分析常用于水文學(xué)。一元線性回歸只研究了一個(gè)預(yù)報(bào)因子和研究對(duì)象之間的關(guān)系,這與受多因子影響的水文系統(tǒng)實(shí)際情況不符合,多元線性回歸彌補(bǔ)了這一個(gè)缺陷,然而針對(duì)諸多影響因子的主次關(guān)系問題,逐步回歸在多元線性回歸的基礎(chǔ)上全面考慮了各個(gè)影響因子對(duì)預(yù)報(bào)對(duì)象的影響程度。由于優(yōu)選了預(yù)報(bào)對(duì)象的影響因子,逐步回歸模擬效果優(yōu)于多元回歸。但是在逐步回歸分析中常常遇見一些問題,比如因子個(gè)數(shù)選擇的問題,又比如有時(shí)候某些物理意義明確的因子反而篩選指標(biāo)值不大等問題。
線性回歸分析適用于平穩(wěn)水文序列的預(yù)測(cè),對(duì)于復(fù)雜的非線性時(shí)間序列模擬效果較差。目前發(fā)展的非線性回歸分析技術(shù)主要是多元門限回歸、自回歸和最近鄰抽樣回歸,門限回歸用分區(qū)間的線性模型疊加在一起來描述序列在整個(gè)區(qū)間的非線性特性,它能有效描述非線性序列的突變性、周期性和相依性。自回歸模型具有時(shí)間相依性的非常直觀的形式,可以反映水文序列的主要統(tǒng)計(jì)特性,并且能夠體現(xiàn)水文過程的物理意義。不同于前2種模型,最近鄰抽樣回歸不具有假設(shè)基礎(chǔ),它不需要考慮研究對(duì)象的相依形式和概率分布形式,也不需要識(shí)別參數(shù),它的基本理論是認(rèn)為現(xiàn)在發(fā)生的一切總能在歷史軌跡中找到相似情況。
回歸分析雖然是一種傳統(tǒng)的預(yù)測(cè)方法,但由于其結(jié)構(gòu)簡(jiǎn)單,理論嚴(yán)謹(jǐn),并且隨著理論進(jìn)一步完善已延用到現(xiàn)在,今后隨著與其他方法的耦合應(yīng)用,回歸分析方法仍然可以在未來的實(shí)際應(yīng)用中體現(xiàn)它的價(jià)值。
馬爾科夫預(yù)測(cè)模型是應(yīng)用馬爾科夫鏈的基本原理和方法來分析時(shí)間序列變化規(guī)律的模型,該模型僅用于滿足馬爾科夫過程的隨機(jī)過程。馬爾科夫過程的統(tǒng)計(jì)特性取決于初始分布和轉(zhuǎn)移概率,馬爾科夫預(yù)測(cè)模型通常用于預(yù)測(cè)水文時(shí)間序列未來狀態(tài),比如未來平水年的出現(xiàn)概率,未來水文干旱年出現(xiàn)的概率等。杜懿[4]在研究南寧市年降水過程中采用馬爾科夫鏈方法確定已有的55 a降水量序列狀態(tài),再用根據(jù)已有序列狀態(tài)之間的轉(zhuǎn)移概率矩陣預(yù)測(cè)未來某時(shí)間段降水量不同狀態(tài)的概率大小。孫鵬等[5]等將鄱陽(yáng)湖1956—2005年的長(zhǎng)序列月徑流資料和月降雨資料分為氣象水文干旱、氣象水文濕潤(rùn)等5種狀態(tài),再運(yùn)用馬爾科夫鏈計(jì)算狀態(tài)之間的轉(zhuǎn)移概率,最后運(yùn)用轉(zhuǎn)移概率矩陣來預(yù)測(cè)未來某時(shí)段的干旱或濕潤(rùn)狀態(tài)出現(xiàn)的概率大小。
支持向量機(jī)是由 Vapnik[6]等人于1995年首先提出的,是一種以統(tǒng)計(jì)學(xué)習(xí)為理論基礎(chǔ)的監(jiān)督學(xué)習(xí)模型,它主要用于解決分類和回歸分析問題,其基本思想是利用核函數(shù)將低維度非線性問題轉(zhuǎn)換成高維度線性問題,在高維特征空間中利用核函數(shù)展開定理解決非線性問題。
支持向量機(jī)在求解過程中采用了二次規(guī)劃優(yōu)化來得到全局最優(yōu)解,解決了神經(jīng)網(wǎng)絡(luò)無(wú)法避免的局部極小問題。核函數(shù)用于巧妙地解決維數(shù)問題,使算法適合于處理非線性問題。另外,支持向量機(jī)具有非常好的推廣能力的原因在于其應(yīng)用了結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理。迄今為止,支持向量機(jī)已成功地應(yīng)用于分類、函數(shù)逼近和時(shí)間序列預(yù)測(cè)等多方面。任化準(zhǔn)[7]將支持向量機(jī)運(yùn)用到觀音巖水庫(kù)月徑流預(yù)報(bào),效果良好;劉德地等[8]采用將偏最小二乘回歸與支持向量機(jī)耦合的方法,建立了咸潮預(yù)報(bào)模型,并應(yīng)用該模型對(duì)珠海市平崗站鹽度的變化進(jìn)行了模擬和預(yù)測(cè),結(jié)果表明該方法預(yù)報(bào)精度優(yōu)于BP神經(jīng)網(wǎng)絡(luò)和多元回歸模型。支持向量機(jī)模型的成敗很大程度取決于參數(shù)的選擇,學(xué)者們?cè)趨?shù)選擇方面做了大量研究:徐瑩等[9]運(yùn)用遺傳算法優(yōu)選參數(shù),實(shí)現(xiàn)參數(shù)全局自動(dòng)化選取;張俊等[10]運(yùn)用蟻群算法優(yōu)化參數(shù),將優(yōu)化后的模型用于福建安砂水庫(kù)月徑流預(yù)報(bào)結(jié)果表明該模型擬合精度高、泛化能力強(qiáng);張巖等[11]運(yùn)用粒子群算法剔除序列的冗余信息和噪聲優(yōu)選參數(shù),以丹江口水庫(kù)1981—2016年實(shí)測(cè)資料為例建立了合適該水庫(kù)的預(yù)報(bào)模型,模型的合格率為83.33%。
支持向量機(jī)能較好地解決實(shí)際問題,如小樣本、非線性、高維數(shù)和局部極小點(diǎn)等,但在實(shí)際應(yīng)用中,核函數(shù)和核參數(shù)的選擇,以及訓(xùn)練時(shí)間和其他問題仍需要深入研究。
20世紀(jì)80年代,陳守煜教授提出了模糊水文學(xué)的概念,這是將模糊數(shù)學(xué)引用到水文學(xué)的起點(diǎn)。經(jīng)過近30 a的發(fā)展,廣大水文工作者已經(jīng)開展了十分廣范的應(yīng)用研究,其中最為突出的應(yīng)用是模糊聚類、模糊識(shí)別、模糊預(yù)測(cè)3個(gè)方面。
模糊聚類理論應(yīng)用于水文預(yù)報(bào)因子選擇,克服了水文預(yù)測(cè)因子隨機(jī)性和模糊性帶來的困難[12- 13];而模糊聚類分析的極值問題一直影響著聚類效果。丁亞明等[14]提出了一種用主成分分析降維簡(jiǎn)化計(jì)算的水文分區(qū)法,實(shí)踐證明這種方法優(yōu)于傳統(tǒng)水文分區(qū)方法;針對(duì)模糊聚類因子選擇的主觀性問題,郭瑜[15]提出了一種半監(jiān)督迭代模糊聚類模型,用已知的聚類成果訓(xùn)練預(yù)報(bào)聚類過程,這為探索和控制復(fù)雜的系統(tǒng)預(yù)報(bào)提供了新方法。模糊識(shí)別理論應(yīng)用于預(yù)報(bào)決策解決了無(wú)資料地區(qū)典型年選擇[16],相似流域優(yōu)選[17],地下水水源識(shí)別[18]等諸多不確定性問題。基于因果聚類的模糊預(yù)測(cè)模型鑒于自身能夠很好地分析多因子對(duì)洪水過程的影響規(guī)律,被用來建立實(shí)時(shí)洪水分類預(yù)報(bào),吳恒卿等[19]將其運(yùn)用于東水西調(diào)授水水庫(kù),發(fā)現(xiàn)該方法可以迅速判斷洪水類型并且選擇預(yù)報(bào)參數(shù)。
主觀性太強(qiáng)是模糊分析運(yùn)用于實(shí)際問題時(shí)的不合理之處,通常會(huì)導(dǎo)致預(yù)報(bào)結(jié)果精度不高。但模糊數(shù)學(xué)應(yīng)用在水文學(xué)上僅僅才開始,它在處理分析水資源系統(tǒng)的不確定性問題上意義顯著,相信今后會(huì)得到更加廣泛的研究和應(yīng)用。
中國(guó)鄧聚龍教授是灰色系統(tǒng)分析的創(chuàng)始人,他于1982年首先提出了這個(gè)研究對(duì)象是一個(gè)信息不全系統(tǒng)的理論,并應(yīng)用于水文資料信息不充分條件下的中長(zhǎng)期預(yù)報(bào)。灰色系統(tǒng)理論由于在解決貧信息、少數(shù)據(jù)、小樣本問題方面的獨(dú)立優(yōu)勢(shì),被廣泛應(yīng)用于水資源評(píng)價(jià)、規(guī)劃、管理和預(yù)測(cè)中。GM(1,1)模型是眾多灰色模型中最簡(jiǎn)單和最廣泛應(yīng)用的模型。
根據(jù)丹東地區(qū)5 a的年降雨量系列數(shù)據(jù),任海清[20]利用GM(1,1)建立預(yù)報(bào)模型來預(yù)測(cè)未來降雨;張輝[21]根據(jù)某河流監(jiān)測(cè)站的實(shí)測(cè)年最高洪峰水位數(shù)據(jù),利用灰色GM(1,1)建立預(yù)報(bào)模型,并且深入分析了灰色理論構(gòu)建模型的可行性與可靠性。
灰色系統(tǒng)理論由于對(duì)建模數(shù)據(jù)沒有特殊的要求和限制,通常廣泛應(yīng)用于水資源評(píng)價(jià)、規(guī)劃、管理和預(yù)測(cè)中。但是在實(shí)際應(yīng)用中這類模型精度不高,會(huì)受到時(shí)間序列變量的影響,加之對(duì)極小值預(yù)測(cè)不準(zhǔn),模型還需要進(jìn)一步改進(jìn)。
人工神經(jīng)網(wǎng)絡(luò)模型是一種模仿人腦結(jié)構(gòu)及其功能的非線性信息處理系統(tǒng),具有自適應(yīng)、自組織、自學(xué)習(xí)的能力,擁有較強(qiáng)的容錯(cuò)性和非線性映射能力。迄今為止,神經(jīng)網(wǎng)絡(luò)模型多達(dá)數(shù)十種,其中BP神經(jīng)網(wǎng)絡(luò)是迄今為止運(yùn)用最廣泛的網(wǎng)絡(luò)算法,它是一個(gè)三層的前饋網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),包含輸入層、隱層和輸出層,這種結(jié)構(gòu)具有很強(qiáng)的映射能力,對(duì)復(fù)雜信息的處理能力大大提高,BP神經(jīng)網(wǎng)絡(luò)在水文中長(zhǎng)期預(yù)報(bào)中應(yīng)用廣泛。
1943年W.Mcclloch 和W.Pitts提出了神經(jīng)元模型,這是人工神經(jīng)網(wǎng)絡(luò)的起點(diǎn)。1957年,Rosenblatt提出“感知機(jī)”的概念把人工神經(jīng)網(wǎng)絡(luò)的研究從理論探討付諸于實(shí)踐[4]。20世紀(jì)60年代初期,Widrow提出了自適應(yīng)線性元件網(wǎng)絡(luò),在此基礎(chǔ)上發(fā)展了非線性多層自適應(yīng)網(wǎng)絡(luò)[4]。1969年是神經(jīng)網(wǎng)絡(luò)的研究跌入低谷的一年,這一年Minsky和Papert用數(shù)學(xué)證明了單層感知機(jī)的嚴(yán)重缺陷。20世紀(jì)80年代期間提出的Hopefield網(wǎng)絡(luò)和反向傳播(BP)算法是神經(jīng)網(wǎng)絡(luò)走出低谷的里程碑[22]。人工神經(jīng)網(wǎng)絡(luò)在水科學(xué)領(lǐng)域的研究應(yīng)用開始于1992年,這一年French等[23]把人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到降雨預(yù)測(cè)。Hsu和Gupta等[24]在1997年采用了LLSSIM算法來優(yōu)化人工神經(jīng)網(wǎng)絡(luò),并將其應(yīng)用在日降雨徑流過程模擬中,結(jié)果很好。在中國(guó)國(guó)內(nèi),吳超羽等[25]在1994年應(yīng)用了BP神經(jīng)網(wǎng)絡(luò)對(duì)飛來峽水電樞紐北江橫石站的流量進(jìn)行了預(yù)報(bào),發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)既可增加預(yù)報(bào)長(zhǎng)度,又可提高預(yù)報(bào)精度。2002年苑希民等[26]出版的《神經(jīng)網(wǎng)絡(luò)和遺傳算法在水科學(xué)領(lǐng)域的應(yīng)用》一書系統(tǒng)闡述了模型的基本原理,以及在水科學(xué)領(lǐng)域的實(shí)例應(yīng)用。2017年,李敬庫(kù)、王鵬等[27-28]分別將神經(jīng)網(wǎng)絡(luò)應(yīng)用于水資源規(guī)劃和水文中長(zhǎng)期預(yù)報(bào)中取得了較好效果。鑒于人工神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)的問題,劉忠民、朱躍龍等[29-30]建立了基于小波分析的人工神經(jīng)網(wǎng)絡(luò)組合預(yù)測(cè)模型,實(shí)踐證明模型精度高于傳統(tǒng)預(yù)測(cè)模型。
人工神經(jīng)網(wǎng)絡(luò)鑒于自身良好的自學(xué)習(xí)、自組織、自適應(yīng)能力和高度的容錯(cuò)性,被廣泛應(yīng)用于水文學(xué)中,但其在實(shí)際應(yīng)用中也暴露出諸多不足,特別是容易陷入局部最優(yōu)、不易收斂和過分依賴初值等。加之網(wǎng)絡(luò)層數(shù)、神經(jīng)元個(gè)數(shù)的選擇缺乏相應(yīng)的理論指導(dǎo),使得神經(jīng)網(wǎng)絡(luò)的推廣能力有限,針對(duì)這些問題還需要進(jìn)行大量研究。
小波分析作為20世紀(jì)80年代發(fā)展起來的數(shù)學(xué)分支,基于自身良好的時(shí)頻局部變化分析能力,它被廣泛地應(yīng)用于諸多領(lǐng)域。隨著水文工作者將小波分析引入到水文學(xué)中,大量基于小波分析的計(jì)算、評(píng)價(jià)、預(yù)測(cè)方法被提出。小波變換把時(shí)間序列分解成確定成分和隨機(jī)成分,這樣可以達(dá)到識(shí)別原始序列主周期的目的,同時(shí)還能識(shí)別該序列的突變特征。
在Foufoula-Georgine和Kumar[31]較早研究了小波分析方法水文學(xué)的應(yīng)用之后,Labata[32-34],Schaefli[35]及Coulibaly[36]等人對(duì)水文小波分析方法做了大量研究。此外,Gauchere[37]利用小波變換的時(shí)、頻局部特性并結(jié)合其他徑流時(shí)間變異參數(shù)對(duì)法國(guó)地區(qū)9個(gè)流域進(jìn)行分類,為偏遠(yuǎn)流域特征描述提供了一種新方法;Nakeken[38]將小波變換應(yīng)用于降水、徑流以及降水~徑流關(guān)系的時(shí)間變異研究。國(guó)內(nèi),王文圣和丁晶等人[39]對(duì)小波分析在水文學(xué)的應(yīng)用現(xiàn)狀做了綜述,并展望了未來的研究趨勢(shì)和方向。2005年王文圣教授出版了國(guó)內(nèi)第一版水文學(xué)領(lǐng)域關(guān)于小波分析的著作——《水文小波分析》[40]。桑燕芳等研究了小波函數(shù)的選擇方法[41]、小波消噪[42]、分解層數(shù)選擇[43]等關(guān)鍵問題。近年來小波分析耦合人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型成為了水文時(shí)間序列的研究熱點(diǎn),不少學(xué)者對(duì)此展開了大量研究[44-48],耦合模型的預(yù)測(cè)精度優(yōu)于單個(gè)模型。
鑒于小波理論在分析數(shù)據(jù)時(shí)良好的局部聚焦優(yōu)勢(shì),其形成和發(fā)展引起許多水科學(xué)工作者的重視,并逐漸引入到水文水資源研究中。小波分析理論和方法尚處于發(fā)展階段,還遠(yuǎn)未成熟,在水文水資源中的應(yīng)用也僅僅是開端,今后的發(fā)展和應(yīng)用潛力很大。小波在實(shí)際應(yīng)用中,由于小波函數(shù)選擇的不同,結(jié)果往往差別很大,小波函數(shù)的選擇至關(guān)重要,這一方面需要進(jìn)一步研究。
水文時(shí)間序列預(yù)測(cè)模型分為傳統(tǒng)與新興兩大類。傳統(tǒng)的預(yù)測(cè)模型主要是統(tǒng)計(jì)類模型,運(yùn)用統(tǒng)計(jì)學(xué)原理,從已知的時(shí)間序列中得到水文規(guī)律,新興的預(yù)測(cè)模型是在統(tǒng)計(jì)學(xué)理論基礎(chǔ)上結(jié)合多種理論,考慮到了水文時(shí)間序列的隨機(jī)性,模擬的結(jié)果更加準(zhǔn)確。本文深入分析了兩類預(yù)測(cè)模型的原理、應(yīng)用領(lǐng)域后提出了各自的優(yōu)勢(shì)和不足,對(duì)今后水文預(yù)測(cè)模型的發(fā)展方向提出幾點(diǎn)展望。
a) 引進(jìn)非線性預(yù)報(bào)方法。水文要素在時(shí)空變化上具有非線性特點(diǎn),現(xiàn)行水文預(yù)報(bào)多以線性預(yù)報(bào)為主,以線性預(yù)報(bào)方法預(yù)測(cè)非線性序列,無(wú)疑增大了模擬結(jié)果的偏差,因此有必要引進(jìn)新的分析方法,提高預(yù)報(bào)的精度。
b) 耦合多種模型來提高預(yù)測(cè)的準(zhǔn)確性。鑒于水文系統(tǒng)變化的復(fù)雜性和不確定性,單一的預(yù)測(cè)模型難以達(dá)到要求的精度,例如譜分析受序列的長(zhǎng)度影響較大,相關(guān)分析受數(shù)據(jù)的隨機(jī)性影響較大;人工神經(jīng)網(wǎng)絡(luò)收斂速度慢、可能陷入局部最優(yōu)無(wú)法完全收斂等。因此,應(yīng)該通過模型之間的耦合來彌補(bǔ)單一模型的不足,以此來提升水文時(shí)間序列預(yù)測(cè)的精確性和可靠性。
c) 數(shù)據(jù)驅(qū)動(dòng)下的預(yù)測(cè)模型應(yīng)該考慮水文要素的物理機(jī)制。有時(shí)候水文變量之間的物理聯(lián)系不大,但是計(jì)算所得的相關(guān)性很大;又或者模型計(jì)算得來的要素之間聯(lián)系很小,但是物理聯(lián)系很大,這兩種情況下無(wú)疑都會(huì)使得模擬結(jié)果偏差變大。
d) 檢測(cè)多種預(yù)報(bào)因子對(duì)預(yù)報(bào)精度的影響。人類活動(dòng)、全球氣候變暖、大氣環(huán)流等因素往往從不同的程度影響著水文過程,比如厄爾尼諾現(xiàn)象對(duì)大陸水文氣象的降雨、徑流有著一定的控制作用。展開各個(gè)影響因素的規(guī)律分析,有利于提高預(yù)報(bào)精度。