張中月 吳長悅 鄭浩
(華北理工大學,河北 唐山 063210)
近百年來,全球氣候變暖對自然生態和人類生存環境產生了顯著影響,各種極端天氣及災害事件不斷增加,給人類的生產生活和經濟發展帶來嚴重影響[1,2]。其中降水也是極其重要的,并且對人類生活與經濟有著重要的影響。作為氣候變化的基本要素之一,降水是一種復雜自然事件,在時間和空間上都表現出顯著的多變性[3,4]。作為陸地水循環的重要組成部分,降水不僅是陸地表面重要的水源補給,還對土壤-水分狀態密切相關的生態系統和農業生產力、水分和溫度狀態函數關聯的生物地球化學過程以及依賴于水資源可持續性經濟系統的功能等具有重要的作用[5,6]。本文以甘肅省為例,基于MTALAB軟件研究多元回歸模型在降水量空間分布格局中的應用。
本實驗共獲取了甘肅省53個氣象臺站的經度、緯度、海拔、多年的年降水量以及年蒸發量的平均數據,選取其中43組數據,作為模型建立的基礎數據,將剩余的10組數據作為驗證數據以驗證模型精度。
1.2.1 歸一化處理
本研究為消除指標之間的量綱影響,對降水數據集標準化處理,以解決數據指標之間的可比性,使原始數據經過數據標準化處理后,各指標處于同一數量級,適合進行綜合對比評價。歸一化處理的2種常用方法包括Z-score標準化方法和min-max標準化方法。本文使用min-max標準化方法也稱為離差標準化,是對原始數據的線性變換,使結果值映射到[0-1]之間。轉換函數如下:
(1)
式中,max為樣本數據的最大值;min為樣本數據的最小值。
對選定的43個氣象臺站的樣本數據,利用式(1)進行歸一化處理,將原始數據歸一化為[0,1]之間的無量綱數據。
1.2.2 相關分析
相關分析的任務,是揭示地理要素之間相互關系的密切程度。而地理要素之間相互關系密切程度的測定,主要是通過對相關系數的計算與檢驗來完成的。
相關系數的計算:
(2)

表1 相關系數與相關程度關系
1.2.3 多元線性回歸分析
1.2.3.1 多元線性回歸模型的建立
多元線性回歸模型的結構形式如下[7]:
ya=β0+β1x1a+β2x2a+…+βkxka+εa
(3)
式中,β0,β1,…,βk為待定參數;εa為隨機變量。
如果b0,b1,…,bk分別為式(3)中β0,β1,β2,…,βk的擬和值,則回歸方程為:
(4)
在式(4)中,b0為常數,b1,b2,…,bk稱為偏回歸系數。偏回歸系數的意義是,當其自變量都固定時,自變量xi每變化一個單位而使因變量平均改變的數值。
1.2.3.2 多元逐步回歸分析
逐步回歸是一種通過添加或刪除預測變量來構建模型的方法,通常通過一系列F檢驗或T檢驗。根據估計系數的檢驗統計量選擇要添加或刪除的變量。以確保每次引入新的變量之前回歸方程中只包含顯著性變量。
將甘肅省各氣象臺的經緯度以及海拔數據作為自變量,降水量和蒸發量作為因變量。可以利用式(2)對降水量(p)和經度(x)、緯度(y)、海拔(a)之間的相關系數以及蒸發量(v)和經度(x)、緯度(y)、海拔(a)之間的相關系數進行計算,結果見表2。

表2 氣象臺站的降水量、蒸發量與經緯度、海拔的相關性
結合表2與表4分析可得到年降水量(p)與經度(x)高度相關;與緯度(y)和年蒸發量(v)顯著相關,且呈負相關;與海拔(a)間存在實相關關系。年蒸發量與緯度(y)呈正相關,與經度(x)和年降水量呈負相關;與海拔之間相關性僅為0.0004,相關性微弱,可忽略不計,與經度(x)實相關,與年降水量(p)顯著相關,與緯度的相關性高達0.905,兩者高度相關。
因為年降水量與經緯度、海拔、年蒸發量都具有一定的相關性,因此將年降水量(p)作為因變量,將經度(x)、緯度(y)、海拔(a)以及年蒸發量(v)作為自變量建立多元線性回歸方程:
p=β0+β1x+β2y+β3a+β4v
(5)
利用MATLAB軟件中regress函數進行多元線性回歸,得到降水量(p)的擬合方程:
p=0.7370+0.1625x-0.8659y+0.1531a-0.1510v
(6)
擬合方程的R2為0.8497,F統計量為53.7205,顯著性P值為3.9317×10-15。
利用rcoplot(r,rint)繪制殘差圖,進行異常值剔除,異常值是指一組測定值中與平均值的偏差超過2倍標準差的測定值,與平均值的偏差超過3倍標準差的測定值,稱為高度異常的異常值。建立循環函數對數據的異常值進行異常值剔除。得到最終的無異常值存在的35組數據,剔除過程如圖1所示。
利用殘差剔除后的35組數據再次建立多元線性回歸模型,得到降水量(p)的擬合方程:
p=0.4280+0.4629x-0.6133y+0.1916a-0.0743v
(7)
擬合方程的R2為0.9210,是一個評價擬合好壞的指標,R2越接近1,擬合效果越好;F統計量為87.4911,顯著性P值為4.28×10-16,F統計量用于判定模型中自變量X中是否至少有1個對因變量Y產生影響,如果呈現出顯著性(看P值),則說明所有X中至少1個會對Y產生影響關系。分析可得,年平均降水量(p)的擬合方程的擬合程度很高,且相較于殘差剔除前的擬合效果提高顯著。
利用異常值剔除之后的數據在顯著性概率95%的條件進行多元逐步回歸分析,篩選出滿足顯著性條件的參數。通過非參數檢驗將經度(x)、緯度(y)、海拔(a)以及年蒸發量(v)4個變量作為自變量賦值為X1、X2、X3、X4,以年平均降水量(p)作為因變量,對年平均降水量(p)的影響因素進行多元逐步回歸分析,納入標準為α=0.05。
多元逐步回歸分析結果顯示,參數X4(海拔a)不符合標準,F=119.224,P=4.1547×10-17,R2=0.9202,RMSE=0.0822。說明回歸方程成立且擬合較好。影響年平均降水量的因素按其效應由大到小依次為緯度(y)、經度(x)、海拔(a)。多元回歸分析結果如圖2所示。
利用多元逐步回歸分析的結果在regress中再次建立回歸方程,求解參數,重新建立年平均降水量的擬合方程:
p=0.4134+0.4840x-0.6642y+0.2019a
(8)
采用方差分析法進行回歸方程總體顯著性檢驗。在MTALAB中利用regstats函數求解方程的F統計量為119.224,F檢驗的P值為4.1547×10-17。在給定的顯著水平0.05下,按單尾檢驗法,以分子自由度3,分母自由度31為引數,查F分布表Fa為2.9113,可知F遠大于Fa,總體回歸效果顯著,說明年平均降水量(p)和緯度(y)、經度(x)、海拔(a)之間線性相關可信。
參數顯著性檢驗。在多元線性回歸中,并不滿足于回歸方程是顯著的這一結論,因為F>Fa只能說明方程總體的回歸效果,但并不能排除某個β=0,所以還需逐一對參數的顯著性進行檢驗。在MTALAB中利用regstats函數求解方程各參數的t統計量,見表3。

表3 各參數t統計量及查表值
查t分布表,在自由度為31時,t0.05=2.0395,顯然t>tα,這表明在置信度水平α=0.05上,回歸方程的系數β0、β1、β2、β3是顯著的。
回歸分析的一個主要目的是根據給定的x值對y值進行預報。甘肅省年平均降水量(p)的有效線性回歸方程如式(8)所示,利用式(5)、式(6)計算歸一化后的預報值的區間估計。并進行反歸一化,得到年降水量的預報區間,選擇10個氣象臺站的年平均降水量作為預報區間驗證。驗證數據及預報區間見表4。

表4 氣象臺站經緯度、海拔及降水量驗證數據
表4的結果顯示,10組數據的實際年降水量都在預報區間內,其中民勤氣象臺站的實際數據接近預報區間邊緣,準確度較低。其余9組數據的預測可靠性較高。也證實了回歸方程的擬合效果顯著。可用于預測甘肅省不同經緯度、海拔的年平均降水量。
本文對年降水量及蒸發量做相關性分析,得到年降水量及蒸發量與其他各參數間的相關程度。利用甘肅省各氣象臺站多年平均降水量作為因變量,以經度、緯度、海拔、年平均蒸發量作為自變量,建立多元回歸模型。通過逐步回歸剔除了年平均蒸發量,篩選出滿足顯著性0.95以上對多年平均降水量的影響程度為緯度>經度>海拔。所建立的模型計算結果精度較高,對甘肅省年平均降水量的空間分布格局的預測有一定的參考價值,對農業發展中不同季節降水量有著預測作用。