高榮珍,李 欣,任兆鵬,王建林(青島市氣象局,山東青島266003)
青島沿海海霧決策樹預報模型研究
高榮珍,李欣,任兆鵬,王建林
(青島市氣象局,山東青島266003)
利用青島2006—2013年4—8月地面觀測資料以及FNL再分析資料,采用分類與回歸樹(CART)方法建立了青島沿海海霧決策樹預報模型,并根據2014年4—8月海霧預報空報情況,調整了預報模型中部分判別流程及預報指標閾值。2015年5月預報結果表明:修訂后的青島沿海海霧決策樹預報模型72 h內海霧預報準確率可達70%—75%左右,表明修訂后的海霧決策樹預報模型可基本滿足常規業務預報需求。青島沿海海霧決策樹預報模型中2 m相對濕度和海表溫度最為關鍵,另外850 hPa風向在海霧判別中也很重要,而且隨著季節的不同判別閾值也明顯不同。
CART;決策樹預報模型;海霧;青島沿海
海霧是青島沿海地區主要災害性天氣之一。隨著社會的不斷發展,海霧對人們日常生活的影響日趨明顯,不僅直接影響海上的各類活動,而且對沿海地區交通的正常運行、空氣質量、人類健康等均有重要影響。與其他災害性天氣相比,海霧的業務預報水平還遠不能滿足業務需求[1]。
海霧的預報方法主要有天氣學方法、數值預報方法以及統計預報方法。天氣學方法即基于天氣形勢利用天氣學原理做出的天氣預報方法,是目前沿海海霧預報的主要方法之一。近年來,海霧數值預報研究成果豐碩,部分成果進行了業務轉化[2-3]。使用結果表明,數值預報對大范圍海霧預報效果較好,對于局地性的、小范圍海霧預報效果稍差[3]。統計預報方法在我國沿海地區海霧的業務預報中也取得了一定成效[4-7],常見的建模方法有逐步回歸、模糊和神經網絡、支持向量機(Support Vector Machine,SVM)以及分類與回歸樹(Classification and regression tree,CART)等,可實現未來是否有霧的判別。關于青島沿海海霧有模式輸出(Model Output Statistic,MOS)統計預報方法[4]、SVM統計預報方法[6],由于建模基于數值預報產品,所以隨著數值預報模式的更新換代,上述預報方法已不在業務中使用。為此,需要重新建模。在統計預報方法中,分類與回歸樹方法是近年來普遍采用的一種數據分類方法[8],在醫療判斷、氣象預測等方面得到了很好的應用[8-11]。
本文旨在采用CART方法建立青島沿海海霧預報模型,為海霧預報提供新方法。利用2006—2013年4—8月青島沿海觀測站(54857)地面觀測資料,以及同期FNL再分析(Final Operational Global Analysis)資料,采用CART方法建立海霧決策樹預報模型,并依據2014年4—8月空報情況對其進行修訂,獲得最終的青島沿海海霧預報模型。
2.1資料
本文所用資料包括2006—2013年每年4—8月每天02、08、14、20時(北京時,下同)54857站地面人工觀測資料和2014—2015年能見度儀觀測資料。54857站為國家氣象基本觀測站,位于36.1°N、120.3°E,海拔76 m,距離海邊2 km左右。本文以2006—2013年能見度、地面風向和天氣現象作為挑選海霧記錄的依據,并以“0、1”二元變量表示無霧和有霧。當能見度低于1 km、且天氣現象記錄為霧時,記為1;當能見度大于1 km,或能見度小于1 km,但天氣現象為降水時記為0。另外,由于沿海地區的霧有可能混雜了輻射霧等其他不同性質的霧,考慮到青島沿海海霧多出現在偏南風情況下,因此刪除了在上述大霧記錄中地面風向范圍為270°—360°以及0°—90°記錄。經上述預處理后,54857分類記錄數3 462組,其中海霧記錄291組。由于中國氣象局2014年起取消了人工夜間觀測,所以2014—2015年海霧日以能見度儀監測為準。

圖1 地面觀測站(*,54857站,36.1°N、120.3°E)與預報參考點(*,35.5°N、120.5°E)地理位置(文中預報參考點

表1 用于CART方法的預報變量
另外,本文使用FNL再分析資料作為分析青島沿海海霧與海洋氣象條件關系的預報變量。FNL資料空間分辨率為0.5°×0.5°,時間分辨率為逐6 h。預報參考點的位置選在54857站正南方海上一點(見圖1),資料為周圍四點平均。在預報變量的選擇上,考慮到海霧發生條件,選取了海上低層大氣風溫濕要素以及海表溫度、近海面層氣溫與海溫差作為預報變量,共計52個(見表1),包括海表溫度、2 m氣溫、海氣溫差、2 m相對濕度、行星邊界層厚度(PBL)、2 m比濕、10 m風向風速和U、V分量,1 000—850 hPa各層相對濕度、云水、氣溫、U、V、風向、風速。
本文以實測海霧記錄作為分類分析的目標變量,1為有霧,0為無霧,上述FNL資料中要素為預報變量。在分類記錄構成上,海洋氣象要素時間與海霧記錄同時,因此將數值預報產品直接代進預報模型,即可預報未來是否有霧。
2.2 CART方法
CART方法是對數據進行分類,分類結果表現為結構簡潔的二叉樹(見圖2),可以揭示數據中的結構化信息。決策樹由節點和連線組成,每個節點會分成2個子節點,在樹形結構末端的節點為終節點。CART算法核心是根據目標變量(本文中即有霧/無霧變量)從眾多的預報變量中選擇一個當前的最佳分支變量,從當前分支變量的眾多取值中找到一個當前的最佳分割閾值,將數據分為兩部分,重復這個過程,直到數據不可再分或人為指定結束。對于數值型預報變量,將記錄的值從小到大排序,計算每個值作為臨界點產生的子節點的Gini系數[8-9],最小的Gini系數即是最佳的劃分點。通過比較每個預報變量的最小Gini指數值,確定最后的分類及閾值,使在該閾值下的分裂能最大化的將節點上的樣本分類。Gini指數表示一個隨機選中的樣本在子集中被分錯的可能性,即為這個樣本被選中的概率乘以它被分錯的概率[8-9]。
2.3決策樹預報模型修訂方法
基于CART方法建立的海霧預報模型,采用2014年4—8月FNL資料,即可實現青島54857站海霧有無的預報。根據空報情況,對該模型的部分判別流程和閾值進行調整,以減少模型的空報率。首先確定空報時次以及預報有霧正確時次的終節點,對同一終節點的記錄進行匯總;根據該終節點的判別流程,分析其中判別變量空報時次以及預報有霧正確時次的取值分布,以不影響無霧預報準確率、少增加漏報率為前提,對該判別變量的閾值進行調整,達到減少模型空報率的目的。另外,結合空報時次、預報有霧正確時次氣象要素取值以及海霧形成氣象條件(如海霧形成時風速不能太大、風向分布等),在部分終節點的判別流程中增加了相應的判別流程。
3.1海霧預報決策樹的建立
以54857站海霧記錄作為目標變量,以預報參考點上52個海洋氣象要素作為預報變量,采用CART方法進行分類分析,得到誤分率最小的分類樹含有9個終節點(見圖2)。圖中最上端為節點1(根節點),紅色框為終節點。每個節點框內信息依次為節點名稱、類名稱、分類變量及閾值、當前節點下0/1類別記錄數及所占比例以及總記錄數,其中某節點類名稱取決于0/1類記錄百分比。節點1類名稱為0(表示無霧類),包含全部樣本共3 462個記錄,其中無霧記錄數為3 171,占當前節點樣本數的91.6%,有霧樣本記錄數為291,占8.4%。分類變量為2 m相對濕度,分裂閾值為88.5%,依據節點1的判別條件(左側為是,右側為否)分裂出節點2和節點6。其中節點2表示當2 m相對濕度小于等于88.5%時,包含樣本2 437個記錄,其中無霧記錄數為2 343,占當前節點樣本數的96.1%,有霧樣本記錄數為94,占3.9%,節點2類名稱也為0;節點6表示當2 m相對濕度大于88.5%時,包含樣本1 025個記錄,其中無霧記錄數為828,占當前節點樣本數的80.8%,有霧樣本記錄數為197,占19.2%,類名稱為1(表示有霧類)。以此類推,終節點類別為0的均可作為無霧判別,類別為1的則可作為有霧判別。

圖2 青島沿海海霧決策樹模型
該決策樹預報模型中,終節點2、終節點7以及終節點9為預報有霧分支。終節點2分支是當2 m相對濕度在77.5%—88.5%時,海表溫度低于22.52℃,900 hPa相對濕度≤46.5%,若850 hPa風向<225.5°,則判斷有霧。終節點7分支是當2 m相對濕度>88.5%時,海表溫度低于23.67℃,若1000 hPa U風速>-6.21 m/s,則判斷有霧。終節點9分支同樣是在2 m相對濕度>88.5%條件下,但海表溫度高于23.67℃時,若850 hPa風向>205.5°則判斷有霧。以往研究表明,青島沿海的海霧多出現在地面偏南風流場下[5],海霧與850 hPa風向的關系研究較少,而本文通過分類回歸獲得的決策樹預報模型中,終節點2和終節點9兩個海霧預報分支均與850 hPa風向有關,2 m相對濕度相對低、海表溫度相對低時要求850 hPa風向<225.5°,而高溫高濕情況則要求850 hPa風向>205.5°,這還需要進一步驗證,表明今后分析青島沿海海霧不僅要考慮地面風還需要考慮到850 hPa風。
如上所述,與青島沿海海霧相關性較大的預報變量有2 m相對濕度、海表溫度、900 hPa相對濕度、850 hPa風向、1000 hPa U,這與廣東沿海海霧以及韓國Kunsan附近海霧預報變量均有所不同[10-11]。對于決策樹而言,高層節點上的判別變量和閾值比低層節點上的判別變量和閾值更有價值[8]。可見,2 m相對濕度以及海表溫度在青島沿海海霧預報中最為關鍵,強調了水汽以及海溫在海霧形成中的重要性。
3.2修訂決策樹預報模型
為檢驗該模型的預報準確性,本文利用2014年4—8月153 d資料進行了檢驗。預報模型基于圖1預報參考點上GFS每日20時起報預報結果,時間間隔逐6 h,預報時效72 h。每日20—次日20時5個時次,一個時次判別有霧則預報當日有霧。2014年4—8月,54857站能見度儀監測霧日35 d,預報員主觀預報以及決策樹客觀預報結果見表2。其中,主觀預報有霧正確19 d,漏報16 d,空報12 d,預報無霧正確81 d,預報準確率為78%,TS評分為0.4;決策樹預報TS評分0.43,預報準確率為70%。兩者TS評分相當,決策樹預報略好于主觀預報,但由于決策樹空報較多,漏報較主觀預報明顯偏少,所以對決策樹預報模型進行消空是非常必要的。

表2 2014年4—8月海霧預報結果對比
為解決決策樹空報問題,本文對空報記錄進行了詳細分析,其中終節點2分支空報12次,終節點7分支空報21次,終節點9分支空報2次。通過對空報記錄氣象要素的分析對該預報模型進行了修訂。
由圖2可見,終節點2預報有霧流程中900 hPa濕度限制條件是小于等于46.5%,但對于下限沒有要求。圖3為終節點2分支空報時次以及預報有霧正確時次900 hPa相對濕度,一天當中多個空報時次或預報有霧時次選取最小相對濕度。分析后發現900 hPa相對濕度基本>20%,只有3 d是<20%的,其中2 d屬于空報日,1 d屬于預報有霧正確,在終節點2流程中將RH900 hPa≤46.5增加下限改為20%≤RH900 hPa≤46.5%條件,可以減少空報2 d,由終節點4分支可知也不會影響無霧預報準確結果,但有可能導致漏報,由圖3中黑線右側有1 d 900 hPa相對濕度<20%卻是有霧的,就2014年情況而言更改條件后增加1 d漏報,即2014年4月8日。

圖3 900 hPa相對濕度
另外,終節點2流程中最后一步對850 hPa風向的限定條件也是沒有下限。圖4給出了終節點2空報有霧時次以及預報有霧正確時次850 hPa風向分布,可見850 hPa風向多處于一、四象限,其中空報中部分時次850 hPa風向為東北向;對于預報有霧正確情況,其中4 d里有3 d是部分時次為東北風部分時次偏南風,所以若去除850 hPa東北風預報有霧時次并不影響模型預報當天有霧,但有1 d是完全東北風,所以這天會漏報。漏報的這一天與上述900 hPa濕度增加限制條件下的漏報日相同,2014年4月8日,850 hPa為東北風,地面為偏南風,當天20時探空曲線上濕層非常淺薄(圖略),表明海霧厚度較薄。總而言之,從終節點2這個分支來看,850 hPa為東到東北風情況出現的海霧一般持續時間不長,海霧強度不大,如圖5所示。由此,在流程中增加對850 hPa風向的限定,即東到東北風不考慮海霧,105°≤wd 850≤225.5°,這樣可減少空報3 d,增加漏報1 d,且不影響預報無霧正確日數。

圖4 終節點2空報時次()以及預報有霧正確時次

圖5 不同日期下54857站能見度演變

圖6 54857站2014年4月8日20時—10日20時天空狀況、能見度、地面風以及850 hPa高空風演變
另外,在空報時次中,有兩天東南風情況下,分別為2014年4月25日和2014年5月10日,地面處于倒槽或江淮氣旋前部,1000 hPa U分量風速達到了-7到-10 m/s。黃斌等[10]指出黃海海霧形成時風速增強到10 m/s以上時,海面的動量交換增強,混合層增厚,水汽不能聚積在近水面,海霧易于消散或抬升為低云。結合終節點7限定條件,考慮在該流程中增加1000 hPa U分量風速限制即u1000>-7.0 m/s,東風分量不能太大。本文中為U分量,并非為全風速,所以CART方法確定的U分量閾值要略小于全風速。這樣通過修訂終節點2流程中部分判別條件可減少空報6次,僅增加漏報1次,即近地層比較薄的海霧過程被漏掉。
終節點7流程基本是指2 m濕度>88.5%、海表溫度低于23.67℃時,以1000 hPa U分量風速來判斷是否有霧。借鑒終節點2流程,考慮增加850 hPa風向限定條件,即90°<wd850<360°,對850 hPa東北風時次模型預報有霧情況進行消空,可減少空報9 d,而且沒有增加漏報、也不影響無霧預報準確(圖略)。與終節點2稍有不同的是,終節點7中850 hPa西北風時次預報有霧時次有所增多,所以風向上限設為360°。這種情況多為850 hPa低槽剛過境,西南風轉西北風,而地面仍為偏南風,前期海霧形勢以及海霧仍存在,待地面冷空氣下來后,北風逐漸加大,海霧逐漸消散,2014年4月10日即為這樣的情況。圖6為54857站2014年4月8日20時—4月10日20時天空狀況、能見度、地面風的演變以及850 hPa高空單站圖演變。為此,保留了850 hPa西北風時次預報的海霧情況,這也是符合天氣學原理的。
終節點9流程為高溫高濕條件下,依據850 hPa風向預報是否有霧。就終節點8、9而言,850 hPa風向均為西南到西北風向(圖略),根據風向分布情況若將流程中850 hPa風向閾值稍微調整到210°,則可減少空報1 d,不增加漏報。由此可見,850 hPa風向與青島沿海海霧的關系還是比較復雜的,還有待于今后進一步研究。
修訂后的決策樹預報模型流程圖如圖7所示。基于GFS數據,利用修訂后模型做2015年5月海霧預報,24 h、48 h、72 h海霧預報準確率分別為70%、69%和76%,高于預報員主觀預報準確率66%,基本可以滿足海霧日常業務預報的需求。

圖7 修訂后的青島沿海決策樹預報流程
本文利用2006—2013年4—8月青島沿海觀測站(54857)地面觀測資料,以及同期FNL再分析資料,探討了采用CART方法建立青島沿海海霧預報模型的可行性,并依據2014年4—8月試報及空漏報情況,結合海霧形成時氣象條件,調整了流程中部分判別條件和閾值,顯著的減少了模型的空報率,從而提高了模型的預報準確率。修訂后的預報模型對2015年5月的預報結果表明,72 h內海霧預報準確率最高可達76%,與采用MOS方法作青島海霧判別預報的預報準確率基本相當,表明CART方法對于海霧預報是切實可行的方法。當然,不同海域海霧的判別條件是不同的,韓國西海岸Kunsan附近海霧預報判別變量主要為露點與海表溫度之差、海表溫度以及850 hPa溫度[10],同屬廣東沿岸的3個站海霧判別條件也是存在較大差異的[11],因此,將CART方法推廣使用到其他海域仍需要重新建立模型。
青島沿海海霧決策樹預報模型中2 m相對濕度和海表溫度最為關鍵,基本反映了青島沿海海霧形成的水汽條件和下墊面條件,物理意義比較明確。另外,850 hPa風向在青島沿海海霧決策樹預報模型中也很關鍵,而且隨著季節的不同判別閾值也明顯不同,這是以往研究中尚未提及的,今后需要加強這方面的研究。
[1]張蘇平,鮑獻文.近十年中國海霧研究進展[J].中國海洋大學學報,2008,38(3):359-366.
[2]高山紅,齊伊玲,張守寶,等.利用循環3DVAR改進黃海海霧數值模擬初始場Ⅰ:WRF數值試驗[J].中國海洋大學學報,2010,40(10):1-9.
[3]黃彬,陳濤,陳炯,等.黃渤海海霧數值預報系統及檢驗方法研究[J].氣象科技,2009,37(3):271-275.
[4]胡基福,郭可采,鄢利農.應用模式輸出統計作海霧出現判別預報[J].青島海洋大學學報,1996,36(4):439-445.
[5]王厚廣,曲維政.青島地區的海霧預報[J].海洋預報,1997,14(3): 52-57.
[6]江敦雙,張蘇平,陸惟松.青島海霧的氣候特征和預測研究[J].海洋湖沼通報,2008,(3):7-12.
[7]胡波,杜惠良,郝世峰,等.一種統計技術結合動力釋用的沿海海霧預報方法[J].海洋預報,2014,31(5):82-86.
[8]Breiman L,Friedman J H,Olshen R A,et al.Classification and regression trees[M].Wadsworth,Belmont,CA,1984:358.
[9]Benz R F.Data mining atmospheric/oceanic parameters in the design of a long-range Nephelometric forecast tool[D].Dayton:Air Force Institute of Technology,2003:42-47.
[10]Lewis D M.Forecasting advective sea fog with the use of classification and regression tree analyses for Kunsan air base[R]. AFIT/GM/ENP/04-08,2004.
[11]黃健,黃輝軍,黃敏輝,等.廣東沿岸海霧決策樹預報模型[J].應用氣象學報,2011,22(1):107-114.
[12]黃彬,毛冬艷,康志明,等.黃海海霧天氣氣候特征及其成因分析[J].熱帶氣象學報,2011,27(6):920-929.
Study of the sea fog prediction by classification and regression tree(CART)analyses in Qingdao coastal area
GAO Rong-zhen,LI Xin,REN Zhao-peng,WANG Jian-lin
(Qingdao Meteorological Bureau,Qingdao 266003 China)
Using surface observation data and FNL reanalysis data during the period from April to August in 2006—2013,a forecast decision tree for sea fog in Qingdao coastal area was produced based on the CART tree method.The flow path and threshold were adjusted partly based on the sea fog forecasting results from April to August,2014.A final sea fog forecast tree for Qingdao coastal area was developed.The final forecast decision tree produced an accuracy rating of about 70—75%for application in real-time sea fog forecasting 72 h in advance in May,2015.Relative humidity at 2 m and sea surface temperature were considered important predictors in the forecast decision tree model of Qingdao coastal sea fog.Moreover,850 hPa wind direction also had a close relation with Qingdao coastal sea fog,and the threshold changed with the seasons.
CART;forecast decision tree;sea fog;Qingdao coastal area
P732
A
1003-0239(2016)04-0080-00
10.11737/j.issn.1003-0239.2016.04.010
2015-10-12
山東省氣象局氣象科學技術研究項目青島專項課題“青島沿海海霧及能見度精細化預報技術研究”(sdqd2013-03)。
高榮珍(1974-),女,高級工程師,博士,從事中短期預報業務以及海霧研究。E-mail∶gaorz0@163.com