魏光輝
(新疆塔里木河流域管理局, 新疆 庫(kù)爾勒 841000)
?
基于Copula函數(shù)的開(kāi)都河年徑流預(yù)測(cè)
魏光輝
(新疆塔里木河流域管理局, 新疆 庫(kù)爾勒 841000)
河川徑流量的準(zhǔn)確預(yù)測(cè)對(duì)于水庫(kù)調(diào)度、區(qū)域水資源優(yōu)化配置具有重要意義。本文以新疆開(kāi)都河為例,運(yùn)用Copula函數(shù)將自變量和因變量的相關(guān)程度和相關(guān)模式有機(jī)結(jié)合,構(gòu)建兩變量聯(lián)合分布函數(shù),研究?jī)勺兞颗c聯(lián)合分布之間的相依結(jié)構(gòu);在此基礎(chǔ)上,根據(jù)樣本值未知的因變量邊緣分布與聯(lián)合分布關(guān)系,結(jié)合樣本值己知的自變量概率分布,對(duì)因變量未知值進(jìn)行預(yù)測(cè)。結(jié)果表明:基于Copula函數(shù)的預(yù)測(cè)方法原理明晰、計(jì)算簡(jiǎn)便、性能穩(wěn)定、預(yù)測(cè)精度較高。
年徑流; 預(yù)測(cè); Copula函數(shù); 聯(lián)合分布; 開(kāi)都河
Copula函數(shù)是一類將兩個(gè)或多個(gè)隨機(jī)變量的任意邊緣分布函數(shù)進(jìn)行連接得到兩變量或多變量聯(lián)合分布函數(shù)的連接函數(shù),該函數(shù)克服了多變量聯(lián)合分布難以確定的困難,能夠簡(jiǎn)潔合理地構(gòu)造聯(lián)合分布函數(shù),清晰靈活地刻畫(huà)變量間的相關(guān)性關(guān)系,使變量的邊緣分布和相關(guān)性結(jié)構(gòu)分別得到研究,不產(chǎn)生信息失真。
目前,Copula函數(shù)廣泛應(yīng)用于變量頻率分析計(jì)算。在水文水資源領(lǐng)域,Copula函數(shù)在洪水頻率分析[1]、干旱特征分析[2]及水文隨機(jī)模擬[3]等方面均取得了很好的應(yīng)用成果,但在預(yù)測(cè)問(wèn)題上的應(yīng)用相對(duì)較少。目前常見(jiàn)的水文預(yù)測(cè)模型有神經(jīng)網(wǎng)絡(luò)[4]、組合模型[5]、分布式模型[6]等,本文將Copula函數(shù)應(yīng)用于預(yù)測(cè)研究,提出Copula預(yù)測(cè)方法。通過(guò)Copula函數(shù)構(gòu)建自變量和因變量的聯(lián)合分布函數(shù),分析自變量和因變量的相關(guān)程度和相關(guān)模式;在此基礎(chǔ)上,結(jié)合樣本值已知的自變量概率分布特點(diǎn),細(xì)致研究樣本值未知的因變量概率分布與聯(lián)合分布的關(guān)系,對(duì)因變量未知值進(jìn)行預(yù)測(cè)。對(duì)新疆開(kāi)都河年徑流預(yù)測(cè)的結(jié)果表明:該方法原理明晰、計(jì)算簡(jiǎn)便、預(yù)測(cè)精度較高。
1.1 Copula函數(shù)
二元Copula函數(shù)C(·,·),是定義域?yàn)閇0,1]2,有零基面且二維遞增,對(duì)任意變量u、v∈[0,1]滿足C(u,1)=u和C(1,v)=v的函數(shù)。即C(·,·)是一個(gè)邊緣分布服從[0,1]均勻分布的二元分布函數(shù),且對(duì)于定義域內(nèi)任意一點(diǎn)(u,v)均有0≤C(u,v)≤l。根據(jù)Sklar定理[7],令H(·,·)為具有邊緣分布F(·)和G(·)的聯(lián)合分布函數(shù),則存在一個(gè)Copula函數(shù)C(·,·),滿足

(1)
若F(·)和G(·)連續(xù),則C(·,·)唯一確定;反之,若F(·)和G(·)為一元分布函數(shù),C(·,·)為相應(yīng)的Copula函數(shù),則由式(1)定義的函數(shù)H(·,·)是具有邊緣分布F(·)和G(·)的聯(lián)合分布函數(shù)。
同時(shí),二元Copula函數(shù)的密度函數(shù)c(·,·)與聯(lián)合分布函數(shù)H(·,·)的密度函數(shù)h(·,·)滿足

(2)
由此可見(jiàn),Copula函數(shù)的Sklar定理為求取聯(lián)合分布函數(shù)及其密度函數(shù)、分析變量之間相關(guān)結(jié)構(gòu)提供了一條便捷的新途徑。
Copula函數(shù)C(·,·)的具體形式多樣,其中阿基米德Copula函數(shù)是最為常用的一類,即
(3)

φ-1(·)——生成元φ(·)的逆函數(shù),在[0,∞)區(qū)間完全單調(diào)。
阿基米德Copula函數(shù)由其生成元唯一確定,其分布函數(shù)和密度函數(shù)分別為
(4)
(5)
式中u、v——意義同前;
θ=2τ/(1-τ)。
τ為Kendall秩相關(guān)系數(shù):
(6)

xi、xj、yi、yj——樣本取值,當(dāng)(xi-xj)(yi-yj)>0時(shí)sign=1,當(dāng)(xi-xj)(yi-yj)<0時(shí)sign=-1,當(dāng)(xi-xj)(yi-yj)=0時(shí)sign=0。
檢驗(yàn)Copula函數(shù)是否能夠正確刻畫(huà)變量的聯(lián)合分布,可以通過(guò)經(jīng)驗(yàn)相關(guān)函數(shù)和Copula函數(shù)的曲線擬合情況進(jìn)行判斷[8]。經(jīng)驗(yàn)相關(guān)函數(shù)Cemp(·,·)是直觀反映樣本空間分布特點(diǎn)的函數(shù),表達(dá)式為
(7)
一般采用離差平方和準(zhǔn)則(OLS)對(duì)擬合情況進(jìn)行量化評(píng)價(jià),OLS值越小擬合越好:
(8)
式中Cemp,i、Cc1,i——在曲線擬合圖中經(jīng)驗(yàn)相關(guān)函數(shù)和Copula函數(shù)的對(duì)應(yīng)取值。
1.2 Copula預(yù)測(cè)方法基本思路
假定隨機(jī)變量X為自變量,隨機(jī)變量Y為因變量,Copula預(yù)測(cè)方法的基本思路如下:首先,運(yùn)用Copula函數(shù)對(duì)隨機(jī)變量X和Y的邊緣分布函數(shù)進(jìn)行連接,構(gòu)建隨機(jī)變量X和Y的聯(lián)合分布函數(shù);其次,在己知t+1時(shí)變量X的實(shí)測(cè)值或估計(jì)值xt+1條件下,基于Copula函數(shù)建立變量Y的邊緣分布和聯(lián)合分布的聯(lián)系,結(jié)合相關(guān)分析建立變量Y的邊緣分布與聯(lián)合分布的關(guān)系表達(dá)式;最后,根據(jù)關(guān)系式對(duì)變量Y的t+1時(shí)值yi+1進(jìn)行預(yù)測(cè)。
1.3 Copula預(yù)測(cè)方法的步驟

c.已知變量X在t+1時(shí)的樣本值xt+1,則相應(yīng)的邊緣分布概率為F(xt+1),將F(xt+1)代入式(4),可得
(9)
d.將a和b中計(jì)算得到的數(shù)對(duì)進(jìn)行多項(xiàng)式擬合,得到Cc1和v的近似關(guān)系式:
(10)
式中a1、a2、…、am+1——多項(xiàng)式系數(shù),m取值視擬合情況而定。
式(10)從另一角度表示Y的邊緣分布與X和Y的聯(lián)合分布之間的聯(lián)系。
e.聯(lián)立式(9)和式(10),求解得到v*,則變量Y在t+1時(shí)的預(yù)測(cè)值為
(11)
式中G-1(·)——邊緣分布函數(shù)G(·)的逆函數(shù)。
開(kāi)都河位于新疆焉耆盆地內(nèi),河流發(fā)源于天山中部的依連哈比爾尕山南坡,多年平均徑流量為35.18億m3。河流出山口處至下游分別設(shè)有大山口水文站與焉耆水文站。本文根據(jù)大山口水文站(出山口處)與焉耆水文站(下游)1956—2012年的年徑流資料(見(jiàn)圖1、圖2),令大山口水文站年徑流為自變量X、焉耆水文站年徑流為因變量Y,以預(yù)測(cè)2006—2012年焉耆水文站年徑流yt+1為例介紹模型的應(yīng)用。選取1956—2005年徑流資料為建模樣本(n=50),2006—2012年徑流資料為預(yù)測(cè)樣本(n=7)。

圖1 大山口水文站年徑流變化曲線

圖2 焉耆水文站年徑流變化曲線
采用P-Ⅲ型分布描述變量X與Y的概率分布[9-10],由矩法估計(jì)得到變量X的均值、變差系數(shù)Cv及偏態(tài)系數(shù)Cs分別為35.27億m3、0.178與0.373;同理,得到變量Y的均值、變差系數(shù)Cv及偏態(tài)系數(shù)Cs分別為25.37億m3、0.265與0.615。根據(jù)Clayton Copula函數(shù)構(gòu)造變量X和Y的聯(lián)合分布函數(shù)H(x,y)=Ccl(F(x),G(y)),其中Kendall秩τ=0.757、參數(shù)θ=14.122。
通過(guò)對(duì)Clayton Copula函數(shù)與經(jīng)驗(yàn)相關(guān)函數(shù)擬合,得到模型OLS值為0.045,可見(jiàn)計(jì)算分布與經(jīng)驗(yàn)點(diǎn)據(jù)擬合較好,說(shuō)明基于Copula函數(shù)構(gòu)建聯(lián)合分布的方法是可行和可靠的。
已知2006年開(kāi)都河大山口水文站年徑流量xt+1為40.3億m3,其分布概率F(xt+1)=0.823,帶入式(9)可得:
(12)
根據(jù)式(10),將數(shù)對(duì)進(jìn)行線性擬合,得
Cc1=0.813v-0.012
(13)
聯(lián)立求解式(12)和式(13),得v*=0.833。由式(11)和P-Ⅲ型分布G(y)的逆函數(shù)得
(14)

由式(14)最終得到焉耆水文站2006年的年徑流預(yù)測(cè)值。同理以1956—2006年徑流資料為建模樣本對(duì)2007年焉耆水文站年徑流進(jìn)行預(yù)測(cè)。依此類推,逐一預(yù)測(cè)焉耆水文站2008—2012年的年徑流,結(jié)果見(jiàn)下表。

年徑流預(yù)測(cè)結(jié)果表
為對(duì)比分析,分別采用線性回歸模型、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)模型預(yù)測(cè)焉耆水文站2006—2012年徑流量。
線性回歸模型是通過(guò)建立回歸方程式Y(jié)=a+bX,由X預(yù)測(cè)Y。根據(jù)1956—2005年開(kāi)都河大山口水文站和焉耆水文站的年徑流資料可求得a=-4.4378,b=0.8652,據(jù)此由大山口水文站2006—2012年徑流量可計(jì)算得焉耆水文站同期年徑流量,成果見(jiàn)上表。
RBFNN是以高斯函數(shù)為隱層節(jié)點(diǎn)激勵(lì)函數(shù)的一種三層前饋人工神經(jīng)網(wǎng)絡(luò)[11]。大山口水文站、焉耆水文站的年徑流分別為變量X和Y,以兩變量1956—2005年徑流系列為學(xué)習(xí)樣本,對(duì)模型進(jìn)行訓(xùn)練,由最近鄰聚類學(xué)習(xí)算法完成迭代,確定高斯函數(shù)的均方差、隱層節(jié)點(diǎn)數(shù)以及各隱層節(jié)點(diǎn)到輸出節(jié)點(diǎn)的權(quán)重。在此基礎(chǔ)上,輸入X變量(2006—2012年的徑流量),對(duì)Y變量同期值進(jìn)行預(yù)測(cè),成果見(jiàn)上表。
計(jì)算各模型的平均相對(duì)誤差和合格率(以相對(duì)誤差小于20%作為合格),統(tǒng)計(jì)各模型最大相對(duì)誤差(見(jiàn)上表)。相比之下,Copula預(yù)測(cè)方法預(yù)測(cè)精度更高更穩(wěn)定。線性回歸模型原理簡(jiǎn)單、計(jì)算便捷,但由于僅為線性擬合,不能深入分析變量間的相關(guān)關(guān)系,故應(yīng)用有較大局限,這也是導(dǎo)致該模型在本實(shí)例分析中預(yù)測(cè)誤差偏大的原因。而RBFNN模型具有運(yùn)算速度快、能有效避免局部極小值出現(xiàn)等優(yōu)點(diǎn),但模型本身更適用于多影響因子的預(yù)測(cè),故對(duì)單因子的情況而言尚有一定局限。
Copula函數(shù)將聯(lián)合分布的構(gòu)建分為確定邊緣分布和分析相關(guān)性結(jié)構(gòu)兩部分,能夠有力地捕捉變量間的非線性、非對(duì)稱以及尾部相關(guān)關(guān)系,更加充分地利用已有信息,分析結(jié)果實(shí)用,是一種有效的構(gòu)造聯(lián)合分布函數(shù)、研究變量相關(guān)關(guān)系的方法。
基于Copula函數(shù)的Copula預(yù)測(cè)方法,利用Copula函數(shù)將變量的相關(guān)程度和相關(guān)模式有機(jī)結(jié)合,靈活適用地揭示變量之間復(fù)雜的協(xié)同變化特點(diǎn),準(zhǔn)確地捕捉變量聯(lián)合分布尾部對(duì)稱或非對(duì)稱的相關(guān)關(guān)系,在此基礎(chǔ)上研究因變量邊緣分布與聯(lián)合分布的關(guān)系,從而對(duì)因變量進(jìn)行預(yù)測(cè),因此具有較為精確的預(yù)測(cè)能力。Copula預(yù)測(cè)方法及其在年徑流預(yù)測(cè)中的應(yīng)用,為水文預(yù)測(cè)提供了一種全新的預(yù)測(cè)思路。fffffe
[1] 閆寶偉,郭生練,郭靖.基于Copula函數(shù)的設(shè)計(jì)洪水地區(qū)組成研究[J].水力發(fā)電學(xué)報(bào),2010,29(6):60-65.
[2] 閆寶偉,郭生練,肖義.基于兩變量聯(lián)合分布的干旱特征分析[J].干旱區(qū)研究,2007,24(4):537-542.
[3] 陳士永,王祥三,張濤.Copula函數(shù)和AR模型在洪水隨機(jī)模擬中的應(yīng)用[J].水電能源科學(xué),2009,27(2):1-7.
[4] 張曉偉,沈冰,黃領(lǐng)梅.基于BP神經(jīng)網(wǎng)絡(luò)的灰色自記憶徑流預(yù)測(cè)模型[J].水力發(fā)電學(xué)報(bào),2009,28(1):68-77.
[5] 張建興,馬孝義.生命旋回-Markov組合模型在年徑流預(yù)報(bào)中的應(yīng)用[J].水力發(fā)電學(xué)報(bào),2008,27(6):32-36.
[6] 何小剛,楊大文.分布式水文模型與氣象遙相關(guān)分析相結(jié)合的丹江口水庫(kù)月入庫(kù)徑流預(yù)測(cè)[J].水力發(fā)電學(xué)報(bào),2013,32(3):4-9.
[7] 魏艷華,張世英.Copula理論及其在金融分析上的應(yīng)用[M].北京:清華大學(xué)出版社,2008.
[8] 王占海,陳元芳,黃琴.M-Copula函數(shù)在洪水遭遇中的應(yīng)用研究[J].水電能源科學(xué),2009,27(1):69-73.
[9] 詹道江,葉守澤.工程水文學(xué)[M].北京:中國(guó)水利水電出版社,2000.
[10] 王正發(fā).MATLAB在P-Ⅲ型分布離均系數(shù)值計(jì)算及頻率適線中的應(yīng)用[J].西北水電,2007(4):1-4.
[11] 劉俊萍,暢明琦.徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)需水預(yù)測(cè)研究[J].水文,2007,27(5):12-15.
Prediction of Kaidu River annual runoff based on Copulas function
WEI Guanghui
(Xinjiang Tarim River Basin Administration, Korla 841000, China)
Accurate prediction of river runoff has important significance for reservoir scheduling and optimal allocation of regional water resources. In the paper, Kaidu River in Xinjiang is adopted as an example. Copulas function is utilized for organically combining relevance of the independent variable and dependent variable with related mode. Joint distribution function of two variables is constructed. Dependence structure between two variables and joint distribution is studied. On the basis, known independent variable probability distribution is combined for predicting unknown value of the dependent variable on the basis according to unknown dependent variable marginal distribution and joint distribution relationship of the sample value. The result shows that the prediction method based on copulas function has clear principle, simple calculation, stable performance and higher prediction accuracy.
annual runoff; prediction; Copulas functions; joint distribution; Kaidu River
10.16616/j.cnki.10-1326/TV.2016.07.019
TV123
A
2096- 0131(2016)07- 0066- 04