吳金冉,李維德,孔德萌
(蘭州大學數學與統計學院,蘭州 730000)
淡水資源危機現已成為嚴重制約西北半旱區可持續發展的首要因素。而其中,半旱區降水作為該地區主要淡水來源,其的預測研究分析對半旱區的居民農牧活動及野生物種生存等各方面具有重要指導意義。而本文以生態穩定性較為脆弱的青海省海東地區和果洛州的月度降水為研究對象,通過構造具有高精度的降水預報模型以對該地區的經濟農業生活提供有效的指引。
一般而言,依據不同的模型構造原理,降水預報模型通??煞譃閮纱箢愋停簲祿寗幽P?Data Driven Models)和物理過程模型(Physical Process Models)[1,2]。第一大類方法主要依據所獲得的各種氣象數據集,通過“黑箱”建立輸入和輸處變量間的數量關系,這里需要指明,該方法僅僅依賴一條序列信息也可以獲得較為突出預報效果;而第二大類方法,通常要求較高的空氣動力學系統基礎,并依賴于大量的變量信息(濕度,日照,溫度等),通過極為復雜數學公式來有效的表示降水的物理過程,從而獲得較為準確的降水預報值[3,4]。而近些年來,以機器學習為代表的數據驅動模型,憑借其出色的獲取歷史經驗數據集特征的能力,被廣泛運用于水文數據預報研究中,其中,又以支持向量機模型(Support Vector Machine, SVM)和人工神經網絡模型(artificial neural network, ANN)最為常見[5-7]。雖然該類建模方法可以通過觀測點數據集來建立非線性系統,但大量該方法研究僅僅局限于單點(觀測點)降水預報上,而并未將空間相關站(多觀測)點信息運用于模型構造中。這里需要提及,機器學習學家Vapnik于1995年創立的支持向量機模型以其出色的非線性擬合能力和魯棒性,該模型現已廣泛的運用于河流徑流量、臺風降水、月度降水和地下水井深等水文變量預報中來[8-11];統計學家Engle和Granger為了解決多條時間序列的非平穩性所導致的“偽回歸”現象的發生,提出了協整分析(Co-integration Analysis)[12];而當前,該方法已初步被應用于降水預報和空氣顆粒預報等環境工程研究中[13,14]。而本文以西北半旱區海東地區和果洛州月度降水為研究對象,將上述兩種方法進行結構以構建聯合降水預報模型。具體的來看,將協整分析運用于降水預報研究中,打破了傳統單一觀測點的降水預報建模方法,且以經典的支持向量機模型作為主算法來獲得輸入變量(input variables)和目標(targets)之間的“黑箱”(非線性系統)來對多觀測點降水進行同步降水預報。
本文主要介紹降水預報的意義、常用的建模技術以及文章所提出的方法技術的發展;本文采用的預報技術詳情,主要包括聯合預報模型所運用到的協整理論、支持向量機原理和聯合模型構造的過程;主要包含驗證模型所運用的研究對象簡介、數據集、模型仿真結果以及相關對比模型的比較分析結果;總結所構建的基于協整關系—支持向量機模型(CI-SVM)在半干旱區降水預報研究中的突出的效果,以及該預報模型的結果在海東地區和果洛州的降水資源管理規劃中的實際意義。
為了獲得高效的機器學習模型來解決分類和回歸問題,1997年Vapnik教授改進了支持向量機模型[14]。該方法主要是尋求模型的經驗誤差與模型復雜度之間的最佳權衡關系,而此關系是將支持向量機回歸(SVR)的表達函數f(·)約束至分類的超平面所得到的。這里可以認為,f(·)只決定于減少的訓練集的支持向量(support vectors),但支持向量對于優化問題的約束空間。具體的來說,存在m個樣本(sample)數據集(xi,yi)∈RN×R,其中N為輸入變量的維度,可以得到,支持向量回歸優化問題的數學表達式為:
maxW(α,α*)=
(1)
(2)
表達式(2)中,C為模型的負責度懲罰參數,α和α*是約束的二變量。需要說明的是,支持向量機回歸引入了核函數(kernel function)k(xi,x)來將非線性回歸問題轉化為線性回歸問題來解決,進一步,結合公式(1)可得到模型的最終模型為:
(3)
由于時間序列變量間的回歸容易導致“偽回歸”的發生;因此,為了描述非平穩時間序列間的長期均衡關系的而提出了協整的概念。若存在某非平穩時間序列經過d次差分后為平穩序列,則稱該序列為d階單整,也記為I(d)[12]。若存在Xt和Yt為同階單整序列,且其的線性組合ut=Yt-βXt為平穩序列,即uy~I(d),則稱Xt和Yt為協整關系。這里需要重點指出,為了判斷兩條序列間存在顯著的因果關系,1987年Engle和Granger提出了E-G兩步檢驗法。該主要想法是,第一步,運用最小二乘法進行用Xt對Yt做回歸模型,得到殘差εt;第二步,檢驗殘差εt是否為平穩序列,若是則認為二變量間為協整關系,若否則認為不存在協整關系。
本文所建立的聯合同步降水預報模型----協整關系的支持向量機模型(CI-SVM)的主要想法是,利用協整理論檢驗多個站點間的空間相關性,并以此來增加在構建降水預報模型中可運用到的相關信息,然后,采用支持向量機模型來建立輸入和目標變量間的非線性系統,進而得到多空間同步聯合降水預測結果。具體的模型流程如下:
Step 1:輸入兩地區降水時間序列信息,記為{Xt}和{Yt}。
Step 2: 對{Xt}和{Yt}的是否存在偽回歸進行協整檢驗。
Step 3: 用協整檢驗結果確定兩條序列間的輸入變量和目標之間的映射關系。
(4)
式中:p和q分別為{Xt}和{Yt}的滯后期數;f為支持向量機所獲得的“黑箱”。
Step 4: 通過所建立的非線性映射系統進行多空間聯合降水預報。
為了驗證所提出的聯合降水預報模型的效果,本文選取了位于西北半干旱區的海東地區和果洛州的月度降水量為預報對象。海東地區是青海省重要的農牧業生產基地和鄉鎮企業發達區域之一,而果洛州位于青藏高原的腹地,且二地區皆具有高寒、缺氧、低溫、干旱和日照較長等特征,二者的年平均降水量取值分別為319~531和400~760 mm。
本研究對象為青海省海東地區和果洛州的月度降水h,而本次試驗數據集主要源于青海省統計年鑒(http:∥www.qhtjj.gov.cn/tjData/qhtjnj/)。其具體月度降水量趨勢如圖1所示。
海東地區和果洛州的月度降水量如圖1 所示,可以得出,二地區的月度降水量存在明顯的周期性變化規律;具體的看,夏季(6-8月)的降水量遠遠高于其他三季,而冬季的降水量最低;并且,對比兩折線趨勢可發現,海東地區和果洛州具有較高的同步性,而該特征將被運用于協整關系的建模分析中。通過SPSS軟件對兩地降水量進行描述統計分析得到表1。

表1 海東和果洛月度降水量描述分析 mm

圖1 海東和果洛月度降水量
這里需要說明,為了驗證所提出聯合預報模型的高效,本文所提到的模型所采用的訓練數據集和測試數據集分別為前96個月降水序列數據和后12個月度降水序列數據。
海東和果洛的月度降水量平穩性和協整檢驗結果見表2。

表2 海東和果洛的協整檢驗
通過表2可得,序列平穩性ADF單位根檢驗的原假設為存在單位根,通過計算得到海東和果洛的月度降水量序列的p值分別為0和0.083,在置信水平10%下,拒絕原假設,則認為該兩條降水序列皆為0階單整的。然后,通過建立回歸模型得出對應的殘差序列,在置信水平1%下,該序列的平穩性檢驗的p值為0,拒絕原假設,則可認為其是平穩的,進一步得到海東地區和果洛州的月降水量間存在顯著的協整關系。經過多次試驗嘗試,本次仿真以海東地區和果洛州前36月降水量為預報模型的輸入變量,兩地下一月的降水量為預測模型的目標變量進行滾動預測。
在Matlab2018a版本下建立支持向量機回歸模型,結果見表3。

表3 CI-SVM 模型對海東和果洛月度降水測試指標
表3為提出的CI-SVM模型分別對海東地區和果洛州月度降水量的預報結果。① 從絕對水平上,二地區的所有平均絕對誤差MAE皆小于12.5;② 從相對水平上,標準化平均方差誤NMSE全都小于0.13;③從相關水平上,納什系數NS都大于0.86;可認為所提出的聯合模型CI-SVM對海東地區及果洛州的月降水量具有較好的預報效果。具體來看,海東地區和果洛州的月降水預報的三指標分別為7.97、0.1、0.89、12.37、0.12、0.87。其對海東地區和果洛州的月度降水預報的結果具體見圖2。

圖2 CI-SVM模型的海東和果洛聯合預報結果
在此構建兩種模型(即SVM和CI-NN)作為參照模型,和CI-SVM模型就海東地區和果洛州月降水量的預測精確度進行對比分析。SVM即持向量回歸模型,不考慮序列相關性,除去CI-SVM的協整關系;CI-NN即BP神經網絡模型,建立在協整關系基礎上,用ANN替換CI-SVM模型中的SVM。具體對比分析見表4。
參照表4,對比CI-SVM、CI-NN、SVM 3種模型預測結果可得,CI-SVM模型的預測精確度最好,該模型中平均MAE10.17、平均NMSE0.11、平均NS系數0.88,此三項指標優于CI-NN模型的相應指標數據10.23、0.15、0.85和SVM模型的相應指標13.51、0.17、0.83。

表4 模型指標對比分析
由表4得出,CI-SVM模型優于CI-NN模型,由此可得,在聯合模型中SVM貢獻值優于ANN,即SVM作為主體算法所得的效果更好。從數據分析看來,CI-SVM指標優于SVM,由此得出,多觀測點同步預報的精度優于單觀測點預報的精度,即由協整理論引入的多觀測點信息提高了模型的精準性。綜上所述,相較于其他模型,經由CI-SVM模型所得出的預測結果是非常精確、科學且合理的。
本文所構建的二空間聯合同步降水預報模型CI-SVM在海東地區和果洛州月度降水數據集的驗證中獲得較為突出的效果,其的平均MAE、平均NMSE和平均NS系數分別為10.17、0.11和0.88。進一步可以得到,所提出的CI-SVM模型利用協整關系將傳統的單觀測點降水預報拓展到了多空間同步聯合預測,通過提高建模中所使用的相關空間信息,進而取得了更優的預報精度。并且,通過其他對比模型,該聯合模型驗證了機器學習中的支持向量回歸模型可以提高月度降水預報的效果。最終,可以將該聯合模型的預報結果運用于半旱區的生態監管和規劃中,且運用計算出來的結果給農牧民的產品種植以及家畜養殖提供些指導意見,進而,促進海東地區和果洛州的可持續發展。