羅貴東,吳海周,肖 鵬
(四川省達州市氣象局,四川 達州 635000)
基于MOS方法建立達州溫度預報模型
羅貴東,吳海周,肖 鵬
(四川省達州市氣象局,四川 達州 635000)
利用2009年4月—2010年6月歐洲中心數值預報資料及達州6個國家氣象站站溫度觀測資料,根據影響溫度變化的因素和相關分析篩選出了10余個因子,基于MOS方法建立預報模型。在溫度預報模型建立上,利用動態最優子集回歸,經過多次試驗,確定了最低氣溫和最高氣溫預報因子。通過2010年1月—2010年 6月與預報員主觀預報結果對比分析和7—9月試報檢驗,預報方法能夠有效提高達州溫度預報準確率。1—6月檢驗結果最低氣溫平均偏小0.31℃,最高氣溫平均偏小0.53℃。7—9月份試報結果最低氣溫偏小0.34℃,最高氣溫偏小0.62℃。
MOS法;動態最優子集回歸;溫度預報
達州市地處區地處亞熱帶,地形復雜多樣,位于四川省東北部,川陜渝交界處,以山地為主,北部處于大巴山腹地,南部是華鎣山、明月山、銅鑼山三山構成的川字型地形。復雜地形使其溫度變化也有不同于其他地區的特殊性。溫度變化對達州的影響也十分巨大,特別是對于農業生產,如2006年的特大高溫伏旱和2008年的低溫雨雪冰凍災害給達州造成了巨大的損失。因此高溫或低溫災害在某種程度上并不亞于暴雨、干旱等氣象災害的影響。提高溫度預報的準確率,是氣象更好地為社會經濟發展和人們生產生活服務的重要方面,具有很強的現實意義。
目前最常用的溫度預報統計方法有神經網絡、卡爾曼濾波、回歸分析等幾種。徐琳娜等[1]以ECMWF數值預報輸出產品為基礎,對卡爾曼濾波、最優子集回歸和嶺回歸3種方法針對溫江、宜賓、內江、達縣2005年6—7月的溫度預報進行了計算。結果表明:在樣本完全相同的情況下,3種預報方法效果相當。在預報方法相同而樣本長度不同的情況下,樣本長度為 60 d的預報效果較好。趙聲蓉[2]基于中國國家氣象中心T213模式、德國氣象局業務模式和日本氣象廳業務模式2 m高溫度預報,利用神經網絡方法中的BP網絡建立了我國600多個站的溫度集成預報系統,預報結果檢驗,表明集成的溫度預報結果明顯優于3個模式單獨的預報結果,72 h內預報的平均絕對誤差在3℃以內。王慶國等[3]利用數值預報產品的客觀分析場、南寧市單站溫、壓、濕等資料,建立未來南寧市24 h、48 h、72 h 最高、最低氣溫的動態因子逐步回歸預報方程。張慶奎等[4]用NCEP 格點資料,采用線性插值方法,計算出24 h預報場中各站點850 hPa溫度、850 hPa相對濕度和850 hPa垂直速度作為卡爾曼濾波的因子。各站的最低溫度預報效果要好于最高溫度預報效果,且最高溫度和最低溫度預報效果夏季要好于冬季。預報結果存在滯后性,尤其當氣溫變化幅度較大時,明顯滯后實況值。陳優平等[5]用GFS數值預報產品和當地地面觀測氣溫資料,采用卡爾曼濾波方法作嘉興市24 h和48 h日平均氣溫、 最高氣溫、最低氣溫的逐日滾動預報。結果表明:平均氣溫的預報效果最佳,最低氣溫次之,最高氣溫的準確率相對最低;隨著時效增長,誤差增大;秋季的最高溫度誤差較小,而冬季則最低氣溫準確率最高。段榮等[6]利用EC、T213天氣數值產品的溫度格點實時分析資料、預報資料以及貴州省黔西南州8個測站觀測資料,建立了“回歸方程預報值+修正值”的分縣溫度預報方程。回歸方程先用相關系數篩選出相關較好因子,然后把這些因子作多元回歸統計;訂正值根據地理環境,天氣形勢分型造成的溫度差值來確定。方法在應用中取得較好效果,預報誤差小于± 3.0℃,平均誤差 1.3℃。
2.1 影響氣溫變化的因素
由氣象學中常用的熱流量方程
(1)
可知,影響氣溫變化的因子主要是溫度平流、 垂直運動和非絕熱因子,在日常分析某地點氣溫變化時主要就考慮這三方面的因子。
2.1.1 溫度平流的影響 溫度平流項是由于氣溫沿水平氣流方向分布不均勻時,空氣水平運動所引起的局地氣溫變化,暖平流使氣溫上升,冷平流使氣溫下降。氣溫變化的程度取決于溫度平流的強度,它是一個決定日平均氣溫的主要因子,同時,溫度平流對于氣溫日變化也有很大的影響,常常會掩蓋氣溫的正常日變化。當強冷空氣入侵時,氣溫明顯下降,一直處于負變溫,最低氣溫有可能出現在白天時段。
2.1.2 垂直運動的影響 垂直運動對氣溫變化的影響,主要與垂直運動的方向、強度以及大氣穩定度有關,在一般情況下γd>γ,因而,(γd-γ)RT/Pg>0當出現上升運動時ω< 0,這時溫度降低,當出現下沉運動時ω> 0,溫度升高。
2.1.3 非絕熱因子的影響 氣溫的非絕熱變化是空氣與外界熱量交換的結果,包括輻射、 湍流交換、 凝結等過程,主要表現在大氣低層。影響局地氣溫變化的主要因子包括云、霧、降水和風等。
2.2 預報統計方法
本文選擇的方法為動態最優子集回歸。具體的做法就是先利用相關系數檢驗,篩選預報因子,然后根據這些因子建立多元線性回歸方程,方程每天用最近的新樣本進行回歸分析,經過各種因子組合,選擇最優子集回歸,確定預報因子。
回歸模型中自變量如果太多,會導致信息成本高,模型復雜,計算困難和不易理解分析,而且高度相關的自變量并不增強模型的預測能力,反而加大回歸系數的樣本變差,削弱模型的描述能力。
多元線性回歸中自變量的確定,根據理論知識和經驗決定自變量,由于對部分自變量的作用不確認,借助統計分析來實現剔除對問題的研究可能不重要,可能實際上與其他變量重疊以及較大測量誤差的因子。選出的自變量數既要足夠少,對因變量無重要作用的自變量不能多,也要充分多,對因變量有重要作用的自變量不能少。自變量應選擇對因變量作最好預報的一組變量,該組自變量使回歸方程擬合得最好。
簡單地說最優子集法實際上就是對所有自變量進行組合建立回歸模型,然后各模型預報結果和實際結果相比較確定預報誤差最小的那一組組合作為最后需要的回歸模型。該方法的優點是殘差均方最小,F最大,回歸方程最優;缺點是如果備選的預報因子較多時計算量很大,如有15個因子則需要215-1個子集回歸方程來挑選最優。不能保證引入回歸方程的各自變量都有統計學意義、回歸方程外的各自變量都無統計學意義。
2.3 資料與數據來源
建立預報方程的資料樣本時間為2009年4月25日—2010年6月25日。本文所用的數值預報產品為ECMWF每天08時和20時(北京時 ,下同)的資料 ,空間分辨率為2.5°×2.5°,時間分辨率為24 h。ECMWF資料包括。數據均采用雙線性插值法,將歐洲中心的格點預報資料插值到達州市6個站點。方程建立和檢驗所用的實況資料為達州6個觀測站溫度資料。如果遇到缺少數值預報資料的樣本,該樣本舍去不要。
3.1 相關分析初選預報因子
根據影響氣溫變化的因素結合本地氣候特點,對達州氣溫變化的主要氣象因素選取溫度平流、天空狀況、大霧和降水,因此我們從歐洲中心數值預報產品中提取與這幾大因素有關的因子,并做相關分析。選850 hPa溫度以及海平面氣壓作為反映溫度平流的因子;選700 hPa和850 hPa的相對濕度能表征天氣活躍區,作為反映云天狀況和降水的因子;高度變化與溫度變化相關性不好,舍去。最后共確定了歐洲20時和08時850 hPa溫度、700 hPa濕度、850 hPa濕度、海平面氣壓、20時和08時平均溫度、平均海平面氣壓、700 hPa濕度和850 hPa濕度、平均濕度等因子作為數值預報因子。預報當日的最高氣溫和最低氣溫作為實況資料預報因子。
3.2 預報方程的因子的確定
根據多元線性回歸分析的特點,不是變量越多擬合得越好,當因子數是4~6個時擬合效果一般是最好的,為了減少計算量,結合預報經驗我們選取了4~6個因子的各種組合來做回歸模型,預報誤差最小的回歸模型確定為最優的一個組合。徐琳娜等[1]指出氣候變化的漸變性對預報結果有較大的影響 ,樣本數并不是越多越好,資料樣本長度60 d最好。我們在確定預報因子時利用過去60 d的資料樣本建立回歸模型。
經過大量的計算,對各種因子組合的預報誤差進行比較,最后確定最優回歸方程子集:
24 h最低氣溫的預報因子為:預報日前1 d歐洲中心48 h 08時和20時 850 hPa平均溫度;48 h 08時和20時平均海平面氣壓;48 h 08時 850 hPa、700 hPa平均濕度;24 h 08時 850 hPa、700 hPa平均濕度;預報日最高氣溫;預報日最低氣溫等6個因子。
24 h最高氣溫的預報因子為:48 h 08時 850 hPa溫度;48 h 20時 850 hPa溫度;48 h 08時和20時平均氣壓;48 h 08時 850 hPa、700 hPa 和20時 850 hPa、700 hPa平均濕度;預報日最高氣溫等5個因子。

表1 24 h最低氣溫回歸誤差排名前3的因子組合

表2 24 h最高氣溫回歸誤差排名前3的因子組合
48 h、72 h、96 h、120 h最高、最低氣溫預報因子和24 h一樣,只是數值預報時次不同,需要對應各自的預報時效。
3.3 樣本長度的選擇
常規的統計方法,都是以大數定律為基礎的,即樣本越多則預測效果越好,但天氣變化存在周期性,如果不考慮年際變化、季節的逐漸轉變,利用固定不變的資料建立預報方程,以此為基礎進行統計預報,就會帶來預報結果很大的誤差。因此,需要找出一個相對較好的樣本長度,以使建立的預報方程的預報誤差最小。我們選擇了70 d、60 d、50 d、40 d、30 d 5個樣本長度對逐日最低氣溫、最高氣溫進行預報試驗。
圖1是依據5個樣本長度對2009年4月25日—2010年6月25日全市6個站點24~120 h日最低、最高氣溫預報值進行絕對誤差統計的平均結果。從中可見,幾個樣本長度下,預報效果差別不大,最低氣溫誤差在1.49~1.56℃之間,最高氣溫誤差2.31~2.33℃之間,不同樣本數之間的差值在0.1℃以內。最低氣溫30 d誤差最大,為1.56℃;60 d誤差最小,為1.49℃。最高氣溫30 d、50 d天誤差均為3.33℃;60 d誤差最小,為2.31℃。因此,最后確定建立預報方程的樣本數量為60 d。

圖1 不同樣本數量絕對誤差
3.4 回歸系數的計算
回歸模型中預報因子已經確定,但是回歸系數并不是固定的,而是每天加入新樣本重新統計。如何做到系數的動態變化,每天我們取預報日前60 d資料為統計樣本建立回歸方程,這樣預報方程回歸系數可以根據時間的變化不斷修訂,從而提高下一時刻預報精度。這也避免了用固定回歸系數時,當今后數值預報結果精度提高,預報反而不準確的問題。
該方法在保證預報準確率的前提下,更容易和VB、EXCEL結合,具有編程簡單、使用方便的特點。在實現預報自動運行中主要用到了VBA技術,用EXCEL中的linest函數便可以進行多元回歸統計,計算出溫度預報結果。這里linest函數作用就是應用最小二乘法建立回歸方程(公式4)。
3.5 預報誤差分析
3.5.1 時效誤差 從圖2可以看出溫度預報的準確率與預報時效長短成反比,時間越長,誤差越大。最低氣溫平均絕對誤差,24 h最小,為1.22℃;120 h最大,為1.64℃。最高氣溫平均絕對誤差,24 h最小,為1.76℃;120 h最大,為2.66℃。不論是哪一個時次的預報,最高氣溫誤差始終大于最低氣溫誤差,這可能是最高氣溫波動更大的緣故。

圖2 各預報時效平均最低、最高氣溫絕對誤差
3.5.2 季節誤差 從圖3可以看出最低氣溫絕對誤差,夏季最小,為0.99℃,春季最大,為1.80℃,總的來說夏半年誤差小于冬半年。最高氣溫絕對誤差,冬季最小,為1.94℃,夏季最大,為2.49℃,總的來說冬半年誤差小于夏半年。春季最低氣溫誤差最大、夏季最高氣溫誤差最大,其原因是由于春季最低氣溫波動更大,夏季最高氣溫波動更大。另外,夏季最低氣溫準確率1~5 d都很高,誤差在0.8~1.13℃之間,這也說明夏季最低氣溫波動較小。

圖3 各季節平均最低、最高氣溫絕對誤差(單位:℃)

表3 達州各站最低氣溫預報絕對誤差 (單位:℃)
3.5.3 地區誤差 從表1和表2可以看出,1~5 d平均絕對誤差,最低氣溫預報大竹最小,為1.36℃,開江最大,為1.68℃;最高氣溫預報開江最小,為2.21℃,渠縣最大,為2.37℃。
3.5.4 與預報員主觀預報結果對比分析 為了便于業務應用和比較,這里客觀預報結果首先四舍五入到整數。通過對達州市2010年1—6月,1~5 d預報員主觀預報質量檢驗結果和本研究客觀預報報結果對比分析可以看出:研究取得了較為明顯的成果,1~5 d最高、最低氣溫預報誤差均比主觀預報要小,最低氣溫平均偏小0.31℃,最高氣溫平均偏小0.53℃,見表3,表4。通過對比分析說明課題研究成果可以有效減小溫度預報誤差,提高達州市溫度預報能力。

表4 達州各站最高氣溫預報絕對誤差 (單位:℃)

表5 2010年1—6月最低氣溫預報對比 (單位:℃)

表6 2010年1—6月最高氣溫預報對比 (單位:℃)
3.5.5 強降溫天氣預報效果 2009年10月—2010年4月,出現的區域性強降溫天氣過程有2009年11月11—13日,2010年3月21—24日,2010年4月11—14日,其中3月21—24日全市氣溫平均下降13.2℃,另外兩次過程降溫幅度分別為8.2℃、7.9℃。
從3次強降溫過程的預報情況來看:強降溫時最低氣溫誤差明顯大于最高氣溫誤差,這與總體的誤差情況正好相反;最低氣溫預報絕大多數時候預報偏高,3次過程平均預報誤差偏高3.0℃,根據這個特點,在預計將會發生較強降溫的時候,預報員可以將最低氣溫預報值調低3℃左右;最高氣溫預報大多數時候預報也是偏高,3次過程平均預報誤差偏高1.4℃,根據這個特點,在預計將會發生較強降溫的時候,預報員可以將最高氣溫預報值調低1℃左右;預報方程提前2~3 d對降溫過程做出的預報已經具有較好的指導作用,最低溫度預報時效長短和預報誤差大小的相關性不大,最高溫度預報誤差時效越長,誤差越大。

表7 強降溫過程最低、最高溫度預報誤差 (單位:℃)
3.5.6 誤差原因分析 溫度預報產生誤差的原因:一是,盡管歐洲中心數值預報是眾多數值預報產品中預報效果較好的,但其預報值肯定還是存在一定的誤差,那基于其產品制作的溫度預報也就必然會存在一定的誤差。二是,天空狀況對溫度有很大的影響,雖然數值預報因子中高空濕度對天空狀況有一定指示意義,但很難準確反映出局地的天空狀況變化情況,從而導致預報出現偏差。三是在溫度出現較大波動時,線性回歸的平滑特性會減小溫度波動,從而導致溫度預報變化的幅度偏小。四是運用的數值預報產品的精細化程度不夠高,時間分辨率為12 h,空間分辨率為2.5°,這就不能完全反映出現最低最高氣溫時預報站點所在地的大氣情況。五是,短時的天氣變化對溫度影響較大,如陣雨等。本文所運用的數值預報產品反映的主要是大的環流形式,還無法預報短時局地天氣過程,而這些天氣對溫度的影響也至關重要。
最高氣溫誤差較大的原因:一是由于最高氣溫波動較最低氣溫波動更大,線性回歸平滑特性會減小這種波動。二是最高氣溫一般要先經歷最低氣溫后再出現,根據蝴蝶效應,微小的初始值變化,可能會引起后面巨大的變化。三是天空狀況變化對最高氣溫影響更為顯著,特別是午后,這是一般是最高氣溫出現的時段,而這時空氣又是一天中最不穩定的時候,云的發展將對最高氣溫產生較大影響。
3.6 業務試驗效果
2010年7—9月對溫度預報平臺進行試運行,結果顯示:溫度試報結果較預報員主觀預報有明顯的提高,除了24 h最高溫度預報誤差比主觀預報大外,其余均較主觀預報要小,5 d平均最低溫度預報誤差減小了0.34℃,最高溫度預報誤差減小了0.63℃。

表9 2010年7—9月最低氣溫預報對比 (單位:℃)

表10 2010年7—9月最高氣溫預報對比 (單位:℃)
①客觀的溫度預報方法能夠明顯的提高預報員溫度預報的準確率。從1—6月檢驗結果1~5 d平均誤差最低氣溫為1.49℃,最高氣溫為2.31℃,最低、最高氣溫預報誤差均比主觀預報小,最低氣溫平均偏小0.31℃,最高氣溫平均偏小0.53℃。7—9月份試報結果也表明預報平臺溫度預報誤差也較預報員主觀預報小,最低氣溫偏小0.34℃,最高氣溫偏小0.62℃。
①預報誤差與溫度波動幅度成反比,當溫度比較穩定時準確率較高,這與線性回歸本身的特性有關。因此夏天最高氣溫預報誤差最大,而最低氣溫誤差又最小;冬季最高氣溫預報誤差最小,春季最低誤差最大;最高氣溫預報大于最低氣溫。
③溫度預報的準確率與預報時效長短成反比,時間越長,誤差越大。
④在有明顯降溫天氣過程出現,可以加入預報員的經驗訂正,或者是加入不同天氣系統形式下的訂正預報值,這樣利于溫度預報誤差的進一步縮小。
⑤存在的不足。方法比較單一,還能進一步豐富,下一步可以采用不同方法和不同的數值預報產品,實現幾種方法和幾種模式的集成預報,這樣溫度預報的準確率可能還會有一定提升。在缺少歐洲中心數值預報資料時,無法做預報,因此要盡量保證每天資料的完整。最高氣溫預報還有較大難度,需進一步研究。
[1] 徐琳娜,馮漢中.基于數值預報產品的溫度釋用方法比較[J].四川氣象,1998, 96 (2):3-7.
[2] 趙聲蓉.多模式溫度集成預報[J].應用氣象學報,2006,17 (1):52-58.
[3] 王慶國, 黃歸蘭, 李廣海.南寧市溫度預報的動態因子逐步回歸方法研究[J].廣西氣象,2006,27 (增刊1):51-53.
[4] 張慶奎,壽紹文,陸漢城.卡爾曼濾波方法在極端溫度預報中的應用[J].科技信息,2008(35):51-53.
[5] 陳優平,陸琛莉,李云泉.基于GFS產品和卡爾曼濾波的嘉興市溫度客觀預報[J].氣象科技,2009,37 (2):141-144.
[6] 段榮,李莉群,何海燕,等.利用天氣數值預報產品建立貴州黔西南州分縣溫度預報方程的方法及應用[J].云南地理環境研究,2007,19(增刊):67-70.
2015-02-03
羅貴東(1980—),男,工程師,主要從事天氣預報及氣象服務工作。
1003-6598(2015)04-0016-06
P423
B