夏 昕, 王冬萌, 賀 南
(1.成都市氣象局,四川 成都 611130;2.成都信息工程大學通信工程學院,四川 成都 610225;3.成都溫江國家觀象臺,四川 成都 610225)
為提供精細化氣象服務,提升氣象減災防災能力,中國陸續建設了大量區域氣象自動站,其中成都地區自動氣象站的總量已超過500 個。為滿足社會對氣象服務工作提出的更高要求,氣象監測網格將進一步加密,臺站數量還將繼續增長,臺站管理和數據應用面臨全新壓力:盡管區域站連續監測的雨量、風速等實時數據已在防災減災等氣象服務工作中發揮了重要作用,但由于氣溫測量數據受局部環境條件的影響很大[1-2],同時數量巨大的區域自動站并不適宜沿用國家級站點(大監站)的建設和維護標準,區域自動站監測數據的可比性、代表性和數據序列的連續性受到不同程度局限,使區域自動站的數據在精細化預報與服務等領域的應用價值未能充分體現;尤其設置在市區內的站點受場地限制,因道路、公園水體等外部環境受到的影響顯著[3-10],自動站測量值的精細化應用更需要準確匹配站點的背景環境條件,但這對環境變動頻繁的區域站而言有一定難度。
在站點數量迅速增長和城市建設發展的背景下,如何從大量建成站點中快速篩選出觀測環境已發生較大變化、觀測數據質量下降的站點,為站點遷址、優化布局、數據精細化管理等提供參考依據方面進行了研究。通過氣象大數據的聚類分析有益于實現站點自動化分型[11-12],但氣象數據的聚類還需注重物理機理[13]以便于應用解析。賀南等[14]在對成都地區氣溫極小值的站間空間差值序列的頻數分析中注意到,較高的頻率與兩個站觀測條件的一致性有關聯,并同陰晴等天氣條件也有關聯[15-19],頻率與站間距離等客觀因素也聯系密切,因此可考慮使用分析溫差的頻率特點這種技術線路,實現區域站點依照觀測環境條件聚類分型,以解決區域自動站數據應用中的實際環境背景的主動識別問題[20]。
數據資料來源于成都地區14 個國家氣象站近10年逐日歷史資料和252 個建站時間較長區域自動站近5年逐小時資料,區域站小時數據剔除異常值后計算得到逐日最低氣溫。氣象站自動分型方法中采用聚類方法對分型量化因子做進一步處理,從而實現聚類分型。
分型運算使用的數據為通過兩個站點日最低氣溫的差值生成的溫差位/頻率序列{Xi,fi},整理時將站A 的日氣溫極小值與站B 的日氣溫極小值一一對應求差,該差值記為ΔTmin,此時ΔTmin∈{…、-0.2 ℃、-0.1 ℃、0 ℃、 +0.1 ℃、 +0.2 ℃、…}。通常ΔTmin<5 ℃且ΔTmin>-5 ℃,在這個值域內,用0.1 ℃為步長,按照溫差值的高低,順序排列溫差,溫差的檔位值記為“Xi”,令Xi=0.1i℃,i=…,-4,-3,-2,-1,0,+1,+2,+3,+4,…。單個由兩個站點生成的ΔTmin會對位某個檔位的Xi值一次,即ΔTmin=Xi時,計數Pi=1;取一個時段共M天,將可以用M個ΔTmin構成ΔTmin的時間序列{ΔTminj},(j=1,2,3,…,M),在這個序列中,統計出各檔Xi溫差值上ΔTmin出現的頻數f(xi):
即可以得到反映某個溫差位Xi擁有多少樣本量的頻次分析序列{Xi,f(xi)}。觀察不同長度的時間序列時,需將頻次量轉化為歸一化的頻率值F,數據處理流程見圖1。

圖1 F 值計算流程
分析所選用的特征頻率反映一段時間內兩個站點日氣溫極小值的差值的分布特征,差值集中時特征頻率較高,差值分散時特征頻率較低,由于以往對這類頻次/溫差位數據序列進行系統分析的理論文獻夠不豐富,因此對于分型方法的客觀依據的闡述,以常識性規律的歸納為主,包括:
(1)如果一個站點環境干燥,另一個站點環境濕潤,它們之間的氣溫差值分布相較于兩個濕潤的站點間的氣溫差值分布要分散一些;兩個荒漠環境下干燥站點間的氣溫差值分布比兩個臨海環境下濕潤的站點間的氣溫差值分布分散,這說明地面觀測站點的環境條件,與兩個站點的氣溫空間差值的分散程度存在關聯,進而也就與特征頻率有關聯。
(2)即使下墊面條件相近,相對干燥的冬春季,與水汽充分的夏秋季相比較,站點之間產生的氣溫差值也會相對分散,再次說明觀測環境中的含水量等因素與特征頻率有關聯。
(3)受地形等地理條件影響,對天氣系統能同步響應的站點之間產生的溫差值會相對集中一些,說明兩個站點的地形系數差異對特征頻率會有影響。
(4)在眾多無風的安靜夜晚,空氣團的熱交換形式主要是長波輻射散熱,日氣溫極小值形成的機理較單一,便于更穩定地提取下墊面的特征信息,同時,日氣溫極小值對環境敏感,如通常城市中測得的日氣溫極小值會高于郊外,因此氣溫極小值為基礎的數據序列中隱含有可以用于提取分析觀測環境的信息。
(5)天氣背景條件為陰天時,站間的日最低氣溫差值更為集中。使用陰天較多的成都地區國家站30 a的74710 組有日照背景的站間最低氣溫差值樣本,同45828 組兩站均無日照條件的站間最低氣溫差值樣本相比較,后者的溫差值分布更集中(參考頻次中位數對應的溫差位的絕對離差值小30%),這顯示出站間日最低氣溫差值的分布方式,以及特征頻率還會附帶有天氣背景條件的波動量。但特征頻率中的環境影響量卻是比較穩定的值,因而可以通過對較長時間序列的觀察削弱天氣背景影響,突出特征頻率中的環境影響量。
(6)間距小的站點間,溫差值的分布要集中很多,距離對特征頻率的影響強勢并且恒定,因此,要突出觀測環境量的影響必須消除距離影響因素,這是方法的運算基礎。
成都地區氣候平和,有很多無風和寡照的天氣,有較多日最低氣溫是在絕熱環境下的晝夜日周期背景下形成[15],站間的氣溫差值分布集中并且比較穩定,有利于提取下墊面的差異信息。當使用一定時間長度序列,平均化天氣條件對特征頻率F的影響使其穩定,再設置量化因子Kf,量化距離影響因素Kf=?F/?D(式中F指特征頻率,D指站間距離),進而下墊面一致性的影響就可以用Kf體現。通過選用觀測條件一致的站點組合的Kf值作為判斷兩個站下墊面一致性的參照指標,再對本地國家站、區域站間的大量溫差數據組合的排序計算,就可以實現區域自動站以足夠的一致性指標Kf值聚類分型。
通過統計成都地區站點間組合的距離D與特征頻率F,可以粗略得到F隨D的漸變關系F=K×D+11.3,如圖2 所示。

圖2 成都地區國家站呈現的頻率與距離的關系
圖2 中,如果F值在距離增加時急速衰減,說明兩個站點不容易重疊出現固定氣溫差異值,聯系不穩定,即關系式中K對一致性有所反映。但斜率k不方便觀察,Kf將斜率k的變動量轉化為便于比對的指標化倍率值,整理成都本地樣本的實際數據可以得到K2f=((K×D)2+23×K×D+128)×D。由此這些樣本的Kf提取式為
指標值Kf中和了距離權重后,不再隨距離變化,圖3為成都地區國家站間形成的Kf值。

圖3 國家站之間呈現的Kf 指標與距離的關系
Kf指標量不隨距離變化的特點,為觀察特征頻率中的其他影響因素提供了基礎,圖4 中的A,B,C 3 個站點,A,B 站點為環境理想的站點(國家站),C 為觀測環境遭受干擾的站點(國家站),在同一時段,A,B站點間的Kf值達到45,但A,C 之間Kf值為35,B,C之間Kf值只有32,這組樣本中,C 站的觀測環境異樣對Kf的影響很明顯。

圖4 3 個樣本站的環境影像(1 ∶2256)

圖5 分型計算流程
Kf指標整合了F值與站間距離的關系,同一間距上F越高兩個站點的環境相似度會越高;不同間距則Kf越大,兩個站點的環境相似度會越高, 因此Kf可用于設置站點間的比對閥值[21]。成都地區國家站間的Kf值主要在30 ~48,區域站與國家站間Kf值分布在8 ~48。以國家站間的下限值30 為參考閥值,聚類分型的實現的方法流程如圖4。主要流程步驟包括:基礎數據導入與{Xi,fi}序列生成;站點地理信息導入與Kf計算;Kf排序;Kf值聚類分型及后續分型特征解析。
使用成都地區14 個大監站(國家站)和252 個區域站的大樣本驗證,用大監站間的Kf為參考標準,經運算分型,站點被自動分為3 個大群。第一大群(A群)包含全部大監站和125 個區域站,該群觀測環境條件的主要特點是鄉村站點,農田下墊面為主,市區內沒有站點入群,地理位置分布見圖6(a);第二大群(B群)包含79 個區域站,該群觀測環境條件的主要特點是較大面積的公園綠地、山區森林等,自然下墊面為主,地理位置分布見圖6(b);第三大群(C 群)包含48個區域站點并形成6 個子群,其中站點數量最多的是32 個城鎮站點,地理位置分布見圖6(c)、圖6(d)。

圖6 分群站點位置分布
從圖6(a)、圖6(c)對比看出,通過聚類分型,城鎮型站點與鄉村型站點在地理分布上被清晰地自動區分,同時這兩類站點在觀測數據上也有顯著差異:圖7對比了所有站點在2008年2-4月的平均相對濕度和平均最低溫度,可見A 群相對濕度明顯高于C 群,A群最低氣溫明顯低于C 群。

圖7 分群站點平均相對濕度與最低溫度對比
表1 ~4 對A 群和C 群數據進行了抽樣檢查。

表1 2008年2-4月階段平均值數據對比
表1 中的數據反映本地樣本在季均值方面,C 群(城鎮站)的最高氣溫略高于A 群(鄉村站)點,最低氣溫明顯高于A 群;C 群的相對濕度明顯低于A 群,同時日較差也低于A 群。說明分型算法區分出的這兩類站點,在氣溫、濕度數據上有明顯的整體差異。
統計在表2 中的數據反映本地樣本最高氣溫時段的相對濕度逐日對比結果,城市站點多數低于鄉村站點。說明分型算法區分出的鄉村站點的濕度明顯整體高于城市站點,分型運算有效。

表2 樣本90 d 數據里日氣溫極大值時段城市站點與鄉村站點相對濕度的統計比較
統計在表3 中的數據反映,本地樣本最低氣溫時段的相對濕度逐日對比結果,城市站點絕大多數情況下低于鄉村站點。再次說明分型算法區分出的鄉村站點的濕度,在最低氣溫發生時段顯著整體高于城市站點,鄉村站點會有更多的霜、霧、露,分型運算符合客觀存在。

表3 樣本90 d 數據里日氣溫極小值時段城市站點與鄉村站點相對濕度的統計比較
表4 的數據反映出,絕大多數情況下,分型歸類為城市站點(C)的樣本站點的日氣溫極小值要高于歸類為鄉村型的站點,這種結果符合常識,再次說明分型算法準確有效。

表4 樣本90 d 數據里日氣溫極小值(Tmin)城市站點與鄉村站點的統計比較
特別說明的是,在這組隨機抽取的6 個數據樣本站點中,3 個城市型站點間距10 ~15 km;3 個鄉村型站點中,S1018 距3 個城市型站點間距20 ~30 km,距另外兩個鄉村型站點間距為55 km和65 km。
提出一種區域氣象站自動分型的方法,分型算法能夠綜合反映站點下墊面差異,算法輸出的結果在氣象觀測臺站管理應用、結論的物理機制解析以及相關理論的建立完善等方面都有實質意義。方法采用的觀測數據為一個空間區域內的氣溫差異量,是很重要的熱動力基礎值,但這個量的演化規律在以往臺站管理中很少被發掘應用,根據算法輸出結論的精細程度,利用這種方法可以解決的問題包括:對大量區域自動站的觀測環境異常變動的自動化在線識別;對站點的布局進行客觀研判和優化;與測量數據配套的精細化地形系數的自動生成;分布式觀測系統的構建;以高精度監控閥值改善數據質量等。其中分布式觀測系統架構下站點的互補替代與數據的平行應用較為常見,如解決成都站數據的替代與延續需求。