酈于杰 梁忠民 唐甜甜
摘要:根據漢江流域皇莊站1981-2008年逐月徑流量與1980-2007年逐月74項環流指數、北太平洋海溫場、500 hPa高度場的相關關系,利用逐步回歸挑選預報因子,構建基于遺傳算法的支持向量回歸機模型(GASVR),并對2009-2013年逐月徑流量進行預報;結果表明,徑流預報精度較高,汛期平均相對誤差在30%以內,非汛期、年總量平均相對誤差在20%以內,均優于隨機森林和多元線性回歸模型。將GASVR模型的預報結果作為概率預報的基礎,采用貝葉斯理論中的水文不確定性處理器(HUP)對預報的可靠度進行分析;結果表明,HUP不僅可以提供精度更高的定值預報,還能以置信區間的方式量化預報的可靠度,提供更為豐富的預報信息。
關鍵詞:漢江流域;長期徑流預報;支持向量回歸機;遺傳算法;貝葉斯概率預報
中圖分類號:P338文獻標志碼:A文章編號:16721683(2018)03004506
Longterm runoff forecasting based on SVR model and its uncertainty analysis
LI Yujie,LIANG Zhongmin,TANG Tiantian
(Hohai University, College of Hydrology and Water Resources,Nanjing 210098,China)
Abstract:In accordance with the Huangzhuang Station′s monthly runoff from 1981 to 2008 and the correlativity from 1980 to 2007 among the 74 circulation indexes of each month,the monthly north pacific sea surface temperature field,and the 500 hPa geopotential height,we used the stepwise regression method to select the forecast factors and built a GASVR Model (Genetic Algorithm Support Vector Regression Model) on the basis of GA (Genetic Algorithm),in order to forecast the monthly runoff from 2009 to 2013.The results showed that the accuracy of the runoff forecast was relatively high:the average relative error in flood season was within 25%;the yearly runoff amount was within 20% in nonflood season.It was superior to Random Forest and Multiple Regression Model.With the forecast results of the GASVR Model as the basis of the probability forecast,we used the Hydrologic Uncertainty Processor (HUP) of the Bayesian Theory to analyze the forecast reliability.The outcome indicated that HUP could not only give a constantvalue forecast with relatively high accuracy,but also quantify the forecast reliability in the form of a confidence interval to provide more forecast information.
Key words:Hanjiang River basin;longterm runoff forecast;support vector regression;genetic algorithm;bayesian probability forecast
徑流的長期預報是指預見期在15 d以上、一年以內,并提供各月徑流量的預報,其對防汛抗旱、水資源調度和高效利用具有重要意義[1]。目前,長期徑流預報大致可分為物理成因分析法、數理統計法和智能方法三大類[2]。物理成因分析法通過研究陸地海洋下墊面情況、太陽活動、大氣環流等要素,推求降水變化規律,再通過水文模型進行徑流預報[3]。由于影響徑流的因素復雜,該方法實施難度較大,仍處于摸索發展之中。數理統計法根據預報因子類別的不同可分為兩種:一是尋求水文要素自身的演變規律進行預報,如根據徑流的周期性、趨勢性、隨機性等特征,采用Morlet小波、方差分析、ARMA等方法構建基于徑流自相關關系的預報模型[47];二是尋求水文要素間相互作用的物理機制進行預報,如根據徑流與前期大氣環流指數、海溫場、高度場等遙相關關系,構建多元回歸、逐步回歸等預報模型[811]。智能方法是當前重點研究和應用的預報技術,隨著數學、計算機技術的快速發展,如隨機森林、灰色系統、混沌理論、支持向量機等開拓了長期徑流預報的新途徑,有效提高了預報精度[12]。
第16卷 總第96期·南水北調與水利科技·2018年6月酈于杰等·基于支持向量回歸機的長期徑流預報及不確定性分析支持向量機(Support Vector Machine,SVM)是Vapnik等人1995年提出的一種基于統計學習理論的新型機器學習算法,最初從線性可分情況下的最優分類面發展而來,其核心思想是最優分類面不但正確將兩類樣本分開,而且使分類間隔最大化,平行最優分類面且距離最短的直線上的訓練樣本即為支持向量;在線性不可分情況下,引入松弛變量和誤差懲罰參數,建立廣義最優分類面;對于非線性問題,通過核函數將低維非線性分類問題變換為高維線性分類問題,其形式上類似神經網絡,輸出的是中間節點的線性組合,每個節點對應一個支持向量。 SVM采用結構風險最小化準則(Structural Risk Minimization,SRM),具有避免過學習、全局最優、泛化能力好等性能,較好的解決了小樣本、非線性、高維度等水文中的常見問題[1315]。
1支持向量回歸機
支持向量回歸機(Suppport Vector machine for Regession,SVR)是建立在SVM上的回歸算法,其基本思想是用少數支持向量代表整個樣本集,利用非線映射(x),將低維非線性函數估計問題轉換為高維線性函數估計問題。設非線性回歸函數:
f(x)=〈ω,(x)〉+b,ω、x∈Rn,b∈R
min12‖ω‖2+C∑ni=1(ξi+ξ*i)(1)
式中:x為樣本輸入;f(x)在不敏感損失函數ε范圍內的線性回歸問題轉換為尋求最小‖ω‖問題,針對精度ε不能處理的問題,引入松弛變量ξi,ξ*i和誤差懲罰參數C,此時優化方程的約束為:
s.t.yi-f(xi)≤ε+ξi
f(xi)-yi≤ε+ξ*i
ξi,ξ*i≥0(2)
為求解此凸二次規劃,根據KKT條件,引入Lagrange函數:
L(ω,b,α,α*)=12‖ω‖2+C∑ni=1(ξi+ξ*i)-
∑ni=1αi(ξi+ε-yi+〈ω,φ(xi)〉+b)-
∑ni=1α*i(ξ*i+ε-yi-〈ω,φ(xi)〉-b)-
∑ni=1ηi(ξi+ξ*i)(3)
得到原優化問題的Lagrange對偶問題:
min12∑ni,j=1(a*i-ai)(a*j-aj)K〈xi,xj〉-
∑ni=1a*i(yi-ε)+∑ni=1ai(yi-ε)
s.t.∑ni=1(a*i-ai)=0
0≤a*i,ai≤C(4)
求解上述對偶問題,得到最優解α=(α1,α*1,…,αn,α*n)T,最優解中非零向量αi或α*i所對應的樣本點(xi,yi)的輸入xi即為支持向量,從而構造非線性回歸函數:
f(x)=∑(αi-α*i)K〈xi,xj〉+b(5)
式中:K〈xi,xj〉為核函數,本文采用徑向基核函數:
K〈xi,xj〉=exp(-‖x-xi‖2/σ2)(6)
誤差懲罰參數C起到調節模型復雜度和訓練誤差的作用,取太小或太大,將出現“欠學習”或“過學習”現象,使訓練誤差增大,泛化能力減弱;核參數σ反映了訓練樣本數據的分布特性,確定了局部領域的寬度。因此,SVR回歸問題的推廣性能取決于誤差懲罰參數C與核參數σ。由于遺傳算法(Genetic algorithm,GA)在復雜優化問題中只需構造一個適應度函數,通過選擇、雜交、變異等遺傳機制,完成對問題最優解的自適應搜索過程,且算法成熟,在水文中應用廣泛,故本次選擇構建GASVR算法進行參數優選,既保證參數的準確性,又保證計算的時效性,算法流程見圖1。
2預報因子挑選
本次所選的氣象因子分為北太平洋海溫場(SST)、500 hPa高度場、74項環流指數三大類,前兩類下載自NCEP再分析數據,第三類下載自中國氣象數據網。首先根據漢江流域的地理位置、水系分布等特征,選取SST的空間范圍為525°N-125°S,1175°E-775°W,分辨率為5°×5°,500 hPa高度場的空間范圍為80°N-10°S,0°E-360°E,分辨率為25°×25°及全范圍74項環流指數等作為初選預報因子,之后計算徑流序列與前一年氣象因子序列的相關系數,利用相關系數顯著性檢驗表剔除不顯著相關的初選預報因子。由于中長期徑流預報的物理成因復雜,預報因子與預報對象的本構關系仍處于摸索階段,故本次假定三類氣象因子的重要度相似,最終利用逐步回歸從每類氣象因子中各挑選5個作為最終預報因子。考慮到歷史資料存在非一致性,本文只選取1980年以后的數據。下面以1月、7月、年總量為例說明,其他不予贅述,預報因子見表1。
將Matlab作為本次編程平臺,將1980-2007年逐月預報因子作為輸入量,1981-2008年逐月徑流量作為輸出量,訓練GASVR模型。將2008-2012年逐月預報因子輸入訓練完畢的GASVR模型中,對2009-2013年逐月徑流量進行預報。預報精度的評價指標采用平均相對誤差(MRE)、均方根誤差(RMSE)和確定性系數(DC),公式見式(7)-式(9)。將預報結果與隨機森林(RF)、多元線性回歸(MLR)結果作對比,結論見圖2至圖4,表2至表3所示。
由圖2至圖4可知,非汛期在年際間的變化較小,以1月為例,其徑流量變化范圍在200~600 m3/s之間;而汛期在年際間的變化很大,以7月為例,其徑流量最小僅1 000 m3/s,最大可達7 000 m3/s;年徑流的變化也較大,且并無明顯規律可循,這在一定程度上加大預報難度同時,也表明GASVR模型不僅能反映各月、年際間的變化趨勢,也能較好地預測極值月與極值年的徑流量。
由表2可知,在平均相對誤差上,多元線性回歸表現最佳,GASVR次之,隨機森林較差。GASVR的平均相對誤差在非汛期第一階段(1月-5月)為8%-17%之間,汛期(6月-9月)為21%~39%之間,非汛期第二階段(10月-12月)為17%~38%之間,年總量的平均相對誤差為13%,這表明GASVR模型在1月-5月與年總量上率定良好,在汛期仍有一定的差距,而非汛期第二階段率定不佳的原因可能是隨著預見期的增長,預報因子的時效性與可靠性降低。在確定性系數上,GASVR與多元線性回歸相近,且均優于隨機森林。GASVR除6月的確定性系數為077外,其余各月均在085以上,年總量的模擬也達到089,表明GASVR模型整體上率定精度良好,可靠性較高。
由于驗證期序列時間較短,不宜采用確定性系數作為評價指標,故本次只采用平均相對誤差。由表3可知,兩種智能方法在驗證期表現均遠優于多元線性回歸。GASVR的平均相對誤差在非汛期除2、4、11月在26%~29%外,其余均在20%以下;在汛期(6月-9月)為23%~33%之間;在年總量上也表現最佳,平均相對誤差僅13%,這表明GASVR模型不僅可預報逐月徑流,也可預報年總量的豐枯趨勢。
4預報不確定性分析
Krzysztofwicz在1999年提出的貝葉斯預報系統(Bayesian Forecasting System,BFS)將預報的總不確定性分為降雨不確定性和水文不確定性,分別采用降雨不確定處理器(Precipitation Uncertainty Processor,PUP)和水文不確定處理器(Hydrological Uncertainty Processor,HUP)處理,最后通過集成器(Integrator,INT)綜合輸出[1719]。設H0為預報時已知的實測流量,Hn和Sn分別表示實際流量過程和預報流量過程,hn為Hn的實測值,sn為Sn的估計值,對于任意時刻n及Hn=hn,由貝葉斯原理可得在Sn=sn的條件下Hn的后驗概率密度函數為[20]:
φn(hn|sn,h0)=fn(sn|hn,h0)gn(hn|h0)∫+∞-∞fn(sn|hn,h0)gn(hn|h0)dhn(10)
將GASVR預報值作為確定性預報輸入,采用HUP計算徑流的后驗概率分布,并給出90%置信區間與50%分位數,結果見圖5至圖7。GASVR預報值與HUP50%分位數比較見表4。
由以上分析表明,GASVR模型的90%置信區間幾乎包括所有實測值,且50%分位數與實測值擬合更好,預報精度更高。將50%分位數與GASVR預報值相比,確定性系數進一步增大,平均相對誤差和均方根誤差均有一定程度的減小,說明經過HUP處理后,不僅能以置信區間的方式量化預報的可靠度,提供更為豐富的預報信息,同時若以某一分位數(如50%)作為定值預報,由于貝葉斯方法本身所具有的校正能力,可進一步提高預報精度。
5結論
(1)根據皇莊站1981-2008年逐月徑流量與1980-2007年逐月74項環流指數、北太平洋海溫場、500 hPa高度場的相關關系,利用逐步回歸挑選預報因子,構建GASVR模型,并對2009-2013年逐月徑流量進行預報,結果表明,徑流預報精度較高,汛期平均相對誤差在30%以內,非汛期、年總量平均相對誤差在20%以內,均優于隨機森林和多元線性回歸模型。但個別年份中的個別月平均相對誤差較高,這表明預報因子的時效性與穩定性仍需提高,其中的物理成因仍需進一步研究。
(2)將GASVR模型作為確定性預報結果,采用HUP可以實現徑流的概率預報。將概率預報的50%分位數與GASVR預報值進行對比,結果表明,50%分位數與實測值擬合更好,精度更高。HUP不僅可以提供精度更高的定值預報,還能以置信區間的方式量化預報的可靠度,提供更為豐富的預報信息,為防汛抗旱、水資源優化調度提供參考。
參考文獻(References):
[1]CLOKE H L,PAPPENBERGER F.Ensemble flood forecasting:a review[J].Journal of Hydrology,2009,375(3):613626.DOI:10.1016/j.jhydrol.2006.05.017.
[2]張俊.中長期水文預報及調度技術研究與應用[D].大連:大連理工大學,2009.(ZHANG J.Midandlong term hydrological forecasting and operation techniques research and application[D].Dalian:Dalian University of Technology,2009.(in Chinese))
[3]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Seasonal streamflow forecasting in eastern Australia and the El NioSouthern Oscillation[J].Water Resources Research,1998,34(11):30353044.DOI:10.1029/98WR02406.
[4]KRSTANOVIC P F,SINGH V P.A univariate model for longterm streamflow forecasting[J].Stochastic hydrology and hydraulics,1991,5(3):173188.DOI:10.1007/BF01544057.
[5]KALRA A,AHMAD S.Using oceanicatmospheric oscillations for long lead time streamflow forecasting[J].Water Resources Research,2009,45(3).DOI:10.1029/2008WR006855.
[6]BOX G E P,JENKINS G M,REINSEL G C.Time series analysis:forecasting and control[M].John Wiley & Sons,2011.
[7]Mohammadi K,Eslami H R,Kahawita R.Parameter estimation of an ARMA model for river flow forecasting using goal programming[J].Journal of Hydrology,2006,331(1):293299.DOI:10.1016/j.jhydrol.2006.05.017.
[8]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Development of exceedance probability streamflow forecast[J].Journal of Hydrologic Engineering,2001,6(1):2028.DOI:10.1061/(ASCE)10840699(2001)6:1(20).
[9]范鐘秀.中長期水文預報[M].南京:河海大學出版社,1999.(FAN Z X.Midandlong term hydrological forecasting.Nanjing:Hohai University Press,1999.(in Chinese))
[10]BROWN C,XU K,KWON H H,et al.Climate teleconnections to Yangtze River seasonal streamflow at the Three Gorges Dam,China[J].International Journal of Climatology,2007,27(6):771780.DOI:10.1002/joc.1437.
[11]PIECHOTA T C,CHIEW F H S,DRACUP J A,et al.Development of exceedance probability streamflow forecast[J].Journal of Hydrologic Engineering,2001,6(1):2028.DOI:10.1061/(ASCE)10840699(2001)6:1.
[12]王富強,霍風霖.中長期水文預報方法研究綜述[J].人民黃河,2010,32(3):2528.(WANG F Q,HUO F L,Review on study of medium and long term hydrological forecasting technique[J].Yellow River,2010,32(3):2528.(in Chinese)) DOI:10.3969/j.issn.10001379.2010.03.011.
[13]林劍藝,程春田.支持向量機在中長期徑流預報中的應用[J].水利學報,2006,37(6):681686.(LIN J Y,CHENG C T.Application of support vector machine method to longterm runoff forecast[J].Journal of Hydraulic Engineering,2006,37(6):681686.(in Chinese)) DOI:10.13243/j.cnki.slxb.2006.06.007.
[14]VAPNIK V.Estimation of dependences based on empirical data[M].Springer Science & Business Media,2006.
[15]VAPNIK V.The nature of statistical learning theory[M].Springer Science & Business Media,2013.
[16]楊曉華.參數優選算法研究及其在水文模型中的應用[D].南京:河海大學,2002.(YANG X H.Study on parameter optimazation algorithm and its application in hydrological model[D].Nanjing:Hohai University,2002.(in Chinese))
[17]KRZYSZTOFOWICZ R.Bayesian theory of probabilistic forecasting via deterministic hydrologic model[J].Water Resources Research,1999,35(9):27392750.DOI:10.1029/1999WR900099.
[18]KRZYSZTOFOWICZ R,KELLY K S.Hydrologic uncertainty processor for probabilistic river stage forecasting[J].Water Resources Research,2000,36(11):32653277.DOI:10.1029/2000WR900061.
[19]KRZYSZTOFOWICZ R.Bayesian system for probabilistic river stage forecasting[J].Journal of Hydrology,2002,268(1):1640.DOI:10.1016/s00221694(02)001063.
[20]梁忠民,戴榮,李彬權.基于貝葉斯理論的水文不確定性分析研究[J].水科學進展,2010,21(2):274281.(LIANG Z M,DAI R,LI B Q.A review of hydrological uncertainty analysis based on Bayesian theory[J].Advances in WaterScience,2010,21(2):274281.(in Chinese)) DOI:10.14042/j.cnki.32.1309.2010.02.008.第16卷第3期