萬慶同
(安徽省城建設計研究總院股份有限公司,安徽 合肥 230000)
強對流天氣一直是影響我國農業、畜牧業、旅游業等產業發展的重要因素之一,水氣作為大氣中最活躍的部分,在大氣運動中扮演著重要角色。而水氣的變化與大氣加權平均溫度(Tm)息息相關,因此獲取高精度的Tm數據具有十分重要的現實意義[1,2]。
目前,國際通用計算Tm的方法為1992年Bevis提出的線性模型,該模型結構簡單,但適用區域較小,且僅考慮地表溫度(Ts)一種因素,在其他地區的適應性有待提高。文獻[3]結合多因素分析,得出了Tm與緯度、高程、氣壓三者呈周期性的負相關,與地面溫度和水汽壓呈周期性正相關的結論,并建立了中國地區的多因子回歸模型。隨著GNSS氣象學的發展,區域性Tm的精度要求逐漸提高,文獻[4]分別建立了多種區域性的Tm與Ts模型。但以往的區域模型均采用了線性關系,在部分地區的精度仍無法滿足應用要求。文獻[5]基于數理統計模型,證明了Tm與Ts之間的非線性關系,為之后對于Tm的研究提供了新的方向。傳統的機器學習方法,如支持向量機、BP神經網絡[6]、卡爾曼濾波模型等,因其訓練樣本分布的比重較大,易導致過擬合現象和穩健性不足等問題,隨機森林作為一種新興的機器學習模型,能夠處理高維數據樣本而不用進行降維處理,且參數調試少,泛用性強,可以有效避免過擬合現象,具有很好的魯棒性,因此得到了廣泛的運用[7]。
中國東部地區受季風氣候的影響,水氣較為紊亂,易發生強對流天氣,從而導致大氣加權平均溫度的非線性變化明顯[8,9],傳統Tm模型難以滿足該地區發展的需求,因此亟須建立一種新的高精度Tm區域性模型。
本文選用2010年~2014年中國東部地區13個探空站的數據,分析Tm和Ts的相關性,相關系數(R2)結果如表1所示:

中國東部13個探空站Tm-Ts相關系數 表1
由表1可知,相關系數整體處于0.7~0.93之間,按25°N與35°N從南向北依次劃分為三個研究區域,考慮到隨緯度變低,對流層與電離層相對更為活躍,進而Tm的活躍程度越強,因此,本文選用適用性較好的傅立葉級數模型,通過中國東部地區均勻分布的13個探空站2010年~2014年的Tm與Ts數據,構建了適用于該地區的非線性F-Tm模型,公式如下:
F-Tm=a*cos(k*Ts)+b*sin(k*Ts)+c
(4)
其中a=6.943,b=-13.8,k=0.0571,c=275.7。
以2010年-2014年積分求解的Tm數據作為檢核值,分別對F-Tm模型與傳統BEVIS模型進行精度檢驗,偏差(BIAS)和均方根誤差(RMS)結果如圖1所示:

圖1 F-Tm與BEVIS模型偏差圖
由圖可知,F-Tm模型相較于BEVIS模型,整體具有更好的精度,RMS提高了約14%,其中在香港、章丘、射陽、臺州、福州、廈門、汕頭、南寧、海口共9個探空站地區的模型精度改善較高;但在大連、青島、上海、臺北4個探空站地區的精度沒有明顯提升,甚至在少部分地區,因該地區特殊的地理位置,以及工業污染等影響,存在該模型精度下降的情況。為了進一步提高模型的整體精度,使其能夠更好地服務于旅游業和農業的生產,本文基于隨機森林的方法對F-Tm模型進行了進一步的改善。
隨機森林于2001年由Breiman和Culter提出,屬于集成學習中的bagging算法。該方法通過bootstrap重采樣技術,將數據分為原始訓練樣本N以及預測樣本Z,從N中有放回地重復隨機抽取k個樣本生成新的訓練樣本集合,然后根據特征值的選取,自助樣本集生成k個分類樹組成隨機森林,對模型預測結果有影響的兩個重要參數分別為決策樹數目(ntree)和備選變量(mtry),ntree一般取值為樣本個數的1/3,預測樣本Z的分類結果按分類樹而定。相對于常用神經網絡以及支持向量機等機器學習方法所體現出的過擬合、結構復雜等問題,隨機森林算法具有明顯優勢,因此近年來被廣泛運用在遙感影像監測,海洋次表層結構預測等多個領域。
本文使用隨機森林的方法,選取與Tm有關的4個參數(氣壓P、地表溫度Ts、水汽壓es、比濕s)作為特征值,以2010年-2015年的偏差值為樣本數據,對模型進行預測改正,構建RFF-Tm模型。結果表明,區域1的改進程度尤為顯著,經統計可得,相對于F-Tm模型,其MAE分別提高81%、76%、77%,RMS分別提高78%、72%、75%,能夠很好彌補該區域水氣的紊亂現象。而在區域2和區域3中,可能因為預測的時間尺度不合適,致該區域預測信號失真,精度有所下降,故而改進程度并不明顯。
故而以不改變特征參數為前提,通過調整預測時長對RFF-Tm模型在區域2、區域3的適應性進行分析。以夾逼準則的方式,分別對區域2和區域3的探空站作為期1年、半年、一季度、兩個月、一個月,以及15天的6種時間尺度上隨機森林預測建模,檢核精度結果如圖2所示:

圖2 RFF-Tm模型時空適應性分析
由圖可知,隨著預測時間尺度的減少,兩個區域的MAE與RMS逐漸減小且趨于穩定,在預測時間段為1個月的時間尺度上達到最佳預測狀態,同時,區域3改進精度略優于區域2,且更為穩定。兩者在1個月的時間尺度上,MAE與RMS均小于1.5,具有很好的適應性,可以提供一種高精度的Tm參考數據,進而更好地服務于中國東部地區的旅游業和農業等領域發展。
本文利用中國東部地區13個探空站2010年-2014年的Tm和Ts數據,采用傅立葉級數分析法,構建了F-Tm模型,結果較BEVIS模型精度有所提高,但在部分地區精度仍存在改進空間。故在F-Tm模型的基礎上,利用隨機森林的方法,選取4個特征值(P、Ts、es、s),對偏差進行預測,得到RFF-Tm模型。對RFF-Tm進行時空適應性分析,空間上將探空站按緯度分為3個區域,時間上采用6個時間尺度進行隨機森林預測。結果表明:①RFF-Tm模型在中國東部地區具有很好的適應性,相對于F-Tm模型的改進程度較明顯。②在緯度較低的區域1中具有很好的適應性。③在區域2與區域3中,RFF-Tm模型隨著時間尺度的減小而逐漸趨于穩定,并于1個月的時間序列預測效果達到最佳,其中區域3的改正幅度略優于區域2,且改正效果更為穩定,兩者均適應于較短時間序列分析。