林良君
(福建省良源建設(shè)工程有限公司,福建 寧德 352000)
氣候變化和極端天氣事件的發(fā)生給人類(lèi)社會(huì)和自然環(huán)境帶來(lái)了嚴(yán)重的影響。氣象預(yù)測(cè)是預(yù)防和減輕自然災(zāi)害的重要手段。眾所周知,獲取降水量空間柵格面方法有很多種,例如統(tǒng)計(jì)學(xué)方法、計(jì)算機(jī)模型方法等。然而,這些方法中往往存在一些缺陷,例如面臨數(shù)據(jù)樣本不充足、難以解釋和預(yù)測(cè)的問(wèn)題。目前,氣象站點(diǎn)資料結(jié)合機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用于氣象柵格化研究中。其中,隨機(jī)森林是一種強(qiáng)大的非線(xiàn)性回歸技術(shù),已被證明可有效提取空間尺度上大氣含水量、大氣顆粒、氣溫等信息。福建地處東南沿海,氣候濕潤(rùn)、降雨充沛,但降水量空間分布差異大,獲取該地降水量精細(xì)柵格面對(duì)對(duì)農(nóng)業(yè)生產(chǎn)和城市規(guī)劃具有重要意義。因此,本文將運(yùn)用隨機(jī)森林算法和氣象站點(diǎn)數(shù)據(jù)提取福建省的降水量1km分辨率水平的分布信息,探究該結(jié)果的準(zhǔn)確性。
研究區(qū)屬武夷山系、東南丘陵,海拔在2479m以下,總體地勢(shì)自西北向東南沿海傾斜,該省海岸線(xiàn)總長(zhǎng)3368km,另形成灘涂、海島地貌。地帶性植被為亞熱帶常綠闊葉林,森林覆蓋率達(dá)到62.8%。氣候類(lèi)型屬于亞熱帶海洋性季風(fēng)氣候,夏季綿長(zhǎng)且濕熱,全年平均氣溫為18~21℃,降水量為1800~2800mm,雨日數(shù)多在150~200d之間。典型氣象災(zāi)害為臺(tái)風(fēng)、洪澇和寒潮等。如圖1所示。

圖1 福建省位置與雨量站
本研究所采用的數(shù)據(jù)源于福建省氣象局提供的從1981—2016年的降水量觀(guān)測(cè)數(shù)據(jù),其中包括了福建省69個(gè)氣象站點(diǎn)的觀(guān)測(cè)數(shù)據(jù)。該雨量站空間分布相對(duì)均衡,因此具有良好空間代表性。另外,還使用了福建省地理信息數(shù)據(jù)如DEM和氣象站點(diǎn)經(jīng)緯度信息。考慮到降水量空間分布受地形、海陸位置等因素影響,參考陳君等人研究經(jīng)驗(yàn),利用DEM生成的海拔、坡度、坡向、經(jīng)度、緯度和經(jīng)緯度乘積作為輔助變量。為消除數(shù)據(jù)之間的量綱不同和數(shù)值差異,采用標(biāo)準(zhǔn)化處理方法將各項(xiàng)指標(biāo)轉(zhuǎn)化為無(wú)量綱指標(biāo),用于建立隨機(jī)森林預(yù)測(cè)模型。
貝葉斯加性回歸樹(shù)(Bayesian Additive Regression Trees,BART)是一種總和樹(shù)模型,其聯(lián)合貝葉斯自適應(yīng)原理和梯度回歸樹(shù)的特點(diǎn),旨在近似未知函數(shù)f。每個(gè)樹(shù)作為一個(gè)弱學(xué)習(xí)器,僅解釋一部分結(jié)果。其采用決策樹(shù)(CART)作為基函數(shù),為避免CART易過(guò)度擬合缺陷,引入了正則化先驗(yàn),規(guī)定每一CART僅能解釋自變量和因變量之間有限關(guān)系。BART回歸原理是推斷對(duì)于輸入向量x=(x1,…,xp)時(shí)輸出y的未知函數(shù)f,其中
y=f(x)+,~N(0,σ2)
(1)

y=h(x)+,~N(0,σ2)
(2)
利用隨機(jī)森林回歸算法預(yù)測(cè)得到的降水量柵格點(diǎn)值y′為參考值,以地面觀(guān)測(cè)站降水量y為真值,計(jì)算決定系數(shù)(R2)、平均絕對(duì)誤差(MAE)和均方根誤差(RMSE),對(duì)福建地區(qū)降水量預(yù)測(cè)精度進(jìn)行量化評(píng)估,其具體計(jì)算公式如下:
(3)
(4)
(5)

研究區(qū)近35年平均降水量的站點(diǎn)尺度統(tǒng)計(jì)特征見(jiàn)表1。其中最大值在閩北的金山站,年降水量達(dá)1992mm,最小值出現(xiàn)在閩南的周寧站,僅為1435mm,空間相差557mm,其平均值為1689mm,屬豐水區(qū)。統(tǒng)計(jì)得到其離差系數(shù)為13.52%,呈中度程度變異性,說(shuō)明全省降水量豐沛,空間差異性一般。利用單樣本Kolmogorov-Sirmov發(fā)現(xiàn),其PKS值為0.08>0.05,說(shuō)明該站點(diǎn)數(shù)據(jù)具有正態(tài)分布特征。

表1 福建省69個(gè)氣象站點(diǎn)數(shù)據(jù)降水量統(tǒng)計(jì)特征
利用ArcGIS的Trend analysis工具擬合全部站點(diǎn)降水量空間趨勢(shì)特征。如圖2所示,研究區(qū)降水量在東西方向(x軸)上呈現(xiàn)反“L”型變化,說(shuō)明站點(diǎn)降水量高值聚集于研究區(qū)西部,而東部地區(qū)降水量之間差異不大。在南北方向上(y軸),降水量呈平緩“L”型特征,表明區(qū)域北部降水量高于南部。圖2揭示了區(qū)域降水量分布宏觀(guān)趨勢(shì),因此可使用BART模型進(jìn)一步發(fā)掘降水量與其他環(huán)境變量之間非線(xiàn)性關(guān)系。

圖2 福建省站點(diǎn)降水量空間趨勢(shì)統(tǒng)計(jì)
本研究中,我們采用Python語(yǔ)言的Scikit-learn庫(kù)實(shí)現(xiàn)了隨機(jī)森林算法。首先,將數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,并按照7∶3的比例劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于評(píng)估模型的預(yù)測(cè)能力。該模型性能不僅受數(shù)據(jù)結(jié)構(gòu)影響,還對(duì)超參數(shù)的配置敏感。利用Random方法先對(duì)參數(shù)設(shè)置搜索空間。經(jīng)交叉驗(yàn)證顯示,當(dāng)超參數(shù)num_trees、k、alpha、beta、nu的組合配置依次為500、7、0.01、0.46、0.3時(shí),模型訓(xùn)練精度參數(shù)RMSE達(dá)到最低,僅為16.87mm。
圖3直觀(guān)展示了BART算法提取福建省降水量空間分布的獨(dú)立驗(yàn)證精度,可知其R2=0.86,MAE和RMSE分別為36.03、57.44mm,表明該模型具有較好的驗(yàn)證一致性和較低的觀(guān)測(cè)誤差,該精度在可接受范圍內(nèi)。為進(jìn)一步BART方法的優(yōu)越性,同樣利用獨(dú)立驗(yàn)證法得到了OK、Anusplin傳統(tǒng)插值法的驗(yàn)證精度,其中對(duì)OK方法而言,其R2為0.44,MAE和RMSE依次達(dá)到97.79、118.35mm;對(duì)Anusplin方法來(lái)看,其R2達(dá)0.76,而MAE和RMSE為73.51、92.86mm。上述分析表明,非線(xiàn)性擬合技術(shù)的BART算法比經(jīng)典OK和Anusplin線(xiàn)性方法在研究區(qū)降水量空間分布分析方面更加優(yōu)勢(shì)[9]。

圖3 不同模型精度散點(diǎn)圖
基于BART非線(xiàn)性回歸算法生成福建省1km分辨率水平的降水量柵格面,如圖4所示。該區(qū)降水量空間范圍介于1578~2218mm之間,其空間平均值為1795mm,離差系數(shù)為23.56%,這與表1中站點(diǎn)統(tǒng)計(jì)觀(guān)測(cè)值接近,表明該降水量柵格面數(shù)據(jù)具有一定可靠性。

圖4 福建省降水量空間分布特征
從空間分布特征來(lái)看,福建省降水量分布中心位于寧都北部和武夷山麓地區(qū),這一地段降水量在1800mm以上;而泉州中部和漳州西北部降水量次之,分布范圍介于1650~1800mm之間;其他地區(qū)降水量最少,在16500mm以下。總體來(lái)看,區(qū)域降水量空間分布受季風(fēng)路徑和海陸位置影響,由于迎風(fēng)坡、高地勢(shì)的影響,海洋性季風(fēng)水汽易于成云致雨形成降雨中心;而在沿海平原、盆地區(qū)蒸散發(fā)較為旺盛,濕氣不易聚集。此外該分布圖詳細(xì)呈現(xiàn)了降水量地帶性特征,并避免了“牛眼”現(xiàn)象,刻畫(huà)了降水量隨地形變化的分布規(guī)律,因此符合區(qū)域?qū)嶋H。
本文基于GIS技術(shù)和GBZT算法,對(duì)福建省2020年的降水?dāng)?shù)據(jù)進(jìn)行空間插值研究。結(jié)果表明,GBZT算法在福建省降水量空間插值中表現(xiàn)較好,插值精度R2達(dá)0.86,MAE和RMSE分別為36.03、57.44mm;比經(jīng)典OK、Anusplin模型的插值精度的R2提升了95.45%、13.16%;MAE和分別減小了37.27%、50.99%;RMSE依次降低了9.93%、2.08%,反映了GBZT模型在降水量插值方面具有良好應(yīng)用性,此外該分布圖詳細(xì)呈現(xiàn)了降水量地帶性特征,并避免了“牛眼”現(xiàn)象,刻畫(huà)了降水量隨地形變化的分布規(guī)律,符合區(qū)域?qū)嶋H。下一步應(yīng)在該方向上進(jìn)行深入研究,探討更多基于機(jī)器學(xué)習(xí)算法的降水量空間插值方法,將其應(yīng)用于水資源管理和環(huán)境保護(hù)中。