李慶昕
(遼寧省沈陽水文局,遼寧 沈陽 110094)
降雨徑流模型經過多年的研究與發展已日趨成熟,其中數據驅動模型和概念性模型為目前應用較為廣泛且發展較為成熟的預測模型,尤其是數據驅動模型,因其具有明顯的計算簡潔、運行效率較高等優點,在降雨徑流模擬中應用最為廣泛,并在實際工程中取得了良好的效果[1]。其中最近鄰模型、神經網絡模型以及時間序列模型等為較常見數據驅動模型。然而在降雨徑流模擬中數據驅動模型仍存在一定的問題,如輸入變量和建模方式的確定[2]。實時校正模式即模型輸入對出流量利用實測前期流量和降雨量進行預測,該模式為傳統驅動模型的基本理論,且通常只能對單步外推進行預報,因此具有預見期短等缺陷[3]。另外,該模式通常利用大量離散單時間降雨量作為模型的降雨量最優輸入向量,而在實際降雨過程中一定歷時的積累降雨量往往與實際出流量密切相關,而不僅僅是單時刻非離散降雨量的疊加集合,由此降低了降雨徑流模擬效果[4]。神經網絡模型作為數據驅動模型在水文模擬中應用較為廣泛,然而該模型具有網絡集成方法與參數優化、模型構建方式與拓撲結構、輸入變量選擇等幾方面不足。
為提高降雨徑流模型的非實時校正精度,本文針對上述問題進行了基于數據驅動模型的次洪降雨徑流模擬分析,并構建了新型耦合數據驅動模型PEK。研究表明,PEK模型實現高精度連續的降雨徑流模擬,通過多步外推預報明顯提高了模型的預見期;PEK模型利用初始出流量即可完成高精度的出流量連續模擬而無需進行流域狀態變量的分析,并表現出較好的適用性與簡便性[5]。研究成果可作為常用水平模擬的補充和輔助,也可為降雨徑流模擬預測、防洪規劃決策、洪水預報以及水資源評價管理提供一定的決策依據。
輸入變量選擇法是指在候選變量中進行輸入變量挑選的方法,其中統計分析法、啟發式算法、試算法以及先驗知識等為常見的輸入變量選擇法[6]。對于統計分析法具有結果穩定可靠、應用性較廣且效率較高等優點,在數據驅動模型中比較適合應用。所以,本文對于模型的輸入變量選擇采用偏互信息處理的方法,該方法屬于目前在選擇方法中應用最好且較為廣泛的統計分析法[7]。
為避免降雨有效信息的丟失,本文在考慮實測前期流量、降雨量與出流量之間關聯性作用的基礎上,經過不同的輸入變量選擇過程對降雨量與實測前期流量進行選入,即利用分離式選擇策略對候選輸入流量進行選取,其表達式如下:
(1)
(2)
(3)

(4)

由于公式(3)是利用不連續的、離散的單時刻降雨量作為降雨量輸出變量,而在實際應用中一定歷時和延時的積累降雨量與出流量具有密切的關聯性,因此本文針對降雨量候選輸入向量選取滑窗積累雨量進行輸入并可利用下式進行求解:
(5)

本研究提出了一種個體網絡采用三次反向傳播的新型集成神經網絡模型,并對輸入數據和各自的輸出可采用個體網絡進行求解,對集成輸出網絡的輸出采用加權平均法進行求解,其中AIC信息準則的加權平均法是個體集成網絡輸出計算的基本理論和基礎[8]。
個體網絡權重生成和新型個體網絡生成方法為EBPNN模型的兩大主要特征,對于個體網絡一般由早停止LM算法與NSGA-Ⅱ算法的個體網絡進行生成,此方法可對網絡參數、最優拓撲結構以及個體網絡的個數進行一次性的自動確定,在確保模擬精度的前提下所生成的個體網絡具有良好的多樣性,可顯著提高神經網絡的泛化能力。
新型集成神經網絡模型是以有限個體網絡組合而集成的基于個體網絡的優化和編碼等過程,該模型可對決策變量的上限進行確定,并以此減少搜索空間提高優化網絡效率。NSGA-Ⅱ算法在優化過程中有兩個目標函數即保證拓撲結構復雜度最小和訓練誤差最小化。本研究中訓練集采用3/4率定期樣本,而早停止算法的測試集選取其他率定期樣本。在生成個體網絡后,利用加權平均法對每個個體網絡權重進行集成總輸出分析,本文結合相關文獻利用AIC信息準則法進行個體網絡權重的生成。
PEK模型是對出流量誤差利用K最近鄰算法進行求解、對出流量利用新型集成網絡計算、對輸入變量采用偏互信息進行選擇的一種降雨徑流模擬預測方法。通過利用模擬前期流量替代實測前期流量,PEK模型實現了高精度連續非實時校正模式下的降雨徑流模擬[9]。PEK模型通過利用EBPNN,可采用輸入向量進行求解預報輸出,對預報預測利用K最近鄰算法進行求解,并通過對預報誤差與輸出疊加得到網絡模擬輸出,其建模方式分別為:
(6)
(7)
(8)

(9)
(10)
(11)
(12)


PEK模型主要是對4個映射關系進行確定和率定,即利用偏互信息對前期流量候選輸入向量IVSQ_SIM進行選擇;采用偏互信息對滑窗積累雨量候選輸入向量IVSSWCR進行輸入變量的選擇;對出流量利用EPBNN進行預測;對出流量誤差利用KNN進行預測。PEK模型各參數的率定方法及詳細過程參照相關文獻。
CLS模型是由Todini與Natale所提出的基于總徑流響應TLR模型的約束線性系統,該模型是在TLR模型的基礎上添加了兩個約束條件即水量平衡與非負響應。并且,CLS模型將降雨量按照不同的閥值進行劃分并以此作為雨強對產匯流過程的影響的判別依據,其產匯流計算分別利用不同的響應函數進行求解,結合研究區域實際狀況,本研究中共有兩個CLS模型閥值[10]。
渾河流域面積約為11481km2,全長415km,河寬約2~5km,年平均降水量約718.3mm,年蒸發量約1805.4mm,年平均徑流量為30.52億m3。流域東面屬于富水區,西面處于少水區,徑流洪水受降雨影響顯著,降雨集中,短期暴雨是造成該流域洪水的主要原因,汛期主要集中在7—8月。研究區域屬于溫帶大陸性季風氣候,冬季干燥寒冷,夏季炎熱多雨,溫差變化較大,降水時空分布不均勻,東部降水較多,西部較少,自東至西逐級遞減。該流域東至清原,流經撫順、沈陽等市縣,為不對稱水系,主要有大伙房水庫站、沈陽水文站、邢家窩棚水文站等8個水文站,區域內支流主要細河、萬泉河、蒲河等10個子流域。本研究的次洪模型計算選取了2000—2009年間的20場次洪資料,其中模型率定和驗證場次分別為14和6場次,其中降雨蒸發站選取邢家窩棚水文站[11]。
次洪歷時最小值在邢家窩棚流域為70h,所以本研究首選設定邢家窩棚流域的階數nP=nQ=24進行驗證,并以此確保輸入變量能更好地包含較多輸入信息,對輸入變量利用偏互信息進行輸入變量的選擇。結果發現,生成最優滑窗積累雨量以及模擬前期流量和最優預報前期流量分別介于Pt~Pt-23、t-1~t-24范圍。選擇結果顯示出選擇nP=nQ=24可以滿足邢家窩棚流域降雨徑流相關研究,此選擇結果表現出良好的適用性與合理性。
通過合理設定NSGA-Ⅱ相關參數可有效提高模型的效率和優化效果,本研究種群數與總進化代數分別為100個和1000次,交叉與變異概率分別為0.9和0.1;LM算法的參數設定為:模型最小梯度為1~10,初始值與減少因子分別為0.001和0.1,增加因子和最大值分別為10和1E- 10。訓練集選取3/4的率定樣本作為早停止策略,測試集為其他各率定樣本,其中失敗次數為5次。權重系數和最優拓撲結構見表1。

表1 PEK模型個體網絡權重與最優拓撲結構
表1中權重最大的拓撲結構為8- 4- 1,由此可在一定程度上表明最優的拓撲結構包含于帕累托最優集。隱含層神經元個數往往不超過輸入層神經元個數且大部分處于較小水平。研究表明,在滿足模擬精度的條件下優化出的個體網絡規模往往較低且具有較好的泛化能力。
結合文中有關雨量閥值的設定,CLS模型共有兩個閥值和三個子響應函數,并且利用試算法對各子響應函數的寬度進行優化。其寬度值結合研究流域洪水歷時的最小值可預先設定區間為[1,24]。本研究針對預先設定區間的合理性利用優化結果進行對比分析,對CLS模型利用二次規劃算法和后選值進行率定并對模擬誤差進行記錄。當各寬度的候選值試算結束后選取誤差最小的寬度作為最優解。研究表明對于邢家窩棚流域的各子響應函數寬度整體上小于區間的上限值24,表明所設定的函數寬度24是合理可行的。
本研究分別采用MAE(平均絕對值誤差)、RMSE(均方根誤差)以及CE(納須效率系數)3個準則對次洪模擬結果進行評價和分析。
結合文中公式和相關理論對降雨徑流分別利用CLS與PEK模型進行模擬分析,其誤差結果見表2。結果表明,利用PEM模型在模擬驗證期與率定期的邢家窩棚小流域降雨徑流均顯著優于CLS模型。針對傳統數據驅動模型的不足,對PEK模型進行了多項改進和分析,主要是對輸入變量進行了選擇優化、訓練并涉及了集成神經網絡、添加了出流量誤差預測與模擬前期流量的新建模式,通過優化改進PEK模型取得了滿意的模擬結果。而CLS模型由于其具有的線性模擬特征,針對非線性問題未能取得理想的模擬結果,因此該模型不適于對非線性問題的模擬分析。

表2 各模擬方法的誤差統計結果表
(1)在本研究中訓練集采用3/4率定期樣本,而早停止算法的測試集選取其他率定期樣本。在生成個體網絡后,利用加權平均法對每個個體網絡的權重進行集成總輸出分析,本文利用AIC信息準則法進行個體網絡權重的生成。
(2)在滿足模擬精度的條件下優化出的個體網絡,其網絡規模往往較低且具有較好的泛化能力。