盧俐 張曉玲 玉坤 趙文芳 王麟春
摘要 當前北京地區300多個自動氣象站形成了一個時間和空間分辨率均極高的自動站觀測網,數據質量成為了首要也是最重要的問題,在此對北京地區自動站觀測資料進行質量控制研究,開發了可用于實時業務的質量控制系統,同步開發前臺WEB網頁實時顯示質控結果和數據,供自動站安裝維護人員、數據管理人員以及氣象業務和科研人員查詢和下載,滿足多業務類型的需要。系統質控結果表明,除了國家站5 min數據外,其他種類的資料的正確率均在95%以上,國家站1 h數據質量最高;整體小時數據質量優于5 min觀測數據,國家站與區域站之間的質量差異不明顯;影響正確率的最主要因子是數據缺失,不管國家站還是區域站,總體的可疑率和錯誤率均不高。
關鍵詞 北京地區;自動站氣象站;質量控制;觀測資料
中圖分類號 S161 文獻標識碼 A 文章編號 0517-6611(2014)16-05153-03
當前,北京地區較均勻分布著300多個自動氣象站(國家站、區域站),數據采集的頻率包括1 min、5 min和1 h,形成了一個時間和空間分辨率均極高的自動站觀測網,為天氣預報數值模式提供了非常重要的同化資料。而這些觀測數據也正是北京市氣象局預報業務系統BJ-RUC(北京地區高分辨率快速循環同化預報系統)的同化資料之一[1]。要使觀測資料得到最充分的利用,觀測資料的質量就是首要也是最重要的問題。國家級站點有月報表審核制度,數據質量有保證,但實時性差,審核后數據一般要滯后1個月以上。區域站與國家級站比較,具有站點分布密集、地形差異大、測站環境惡劣、設備維護非實時、數據采集和傳輸自動化程度高、資料實時性強、中小尺度天氣現象明顯等特點,因此,觀測資料的問題更嚴重和復雜[2-3]。
氣象資料的質量控制在國外很早就已展開。最早開始氣象觀測的北歐地區國家,觀測資料從臺站到資料中心經歷了4個級別的質量控制流程,質量控制方法分為單站和空間質量控制兩大類,每類方法又有不同的檢查方案,已經形成了一套較為完善的質量控制方法流程[4]。美國俄克拉荷馬州的中尺度氣象觀測網,有一套完整的計算機自動質量控制系統,實時監測采集數據,并將質量檢查報告發送給相關的數據管理者、儀器維護人員[5]。在國內,王伯民探討了氣象資料質量控制綜合判別法,以解決對于單項檢驗為可疑的數據,如何進一步判別其錯誤與正確[6];劉小寧等對地面觀測資料的質量控制方法做了總結,并對空間一致性檢查方法做了研究[7-8]。國家氣象信息中心研制地面自動站A、J、R、Y文件三級質量控制業務系統并已在業務中使用[9]。2008奧運前,王玉彬等對地面自動站資料的質量控制做過初步的研究[10-11]。陶士偉等對加密自動站資料的質量保障體系做過詳細的分析,并在此基礎上,根據數值天氣預報模式(NWP)的要求,在質量控制中除了常規的方法,特別考慮將質量控制與NWP提供的背景場發生聯系,有效避免了觀測資料和背景場偏離太大,模式初值不協調問題[2-3]。已有的研究中,一般以國家級站的觀測資料為研究對象,對近年來大量建設的區域站資料的質量控制研究不多,或僅針對某特定業務需求做質量控制。該研究對北京地區300多個自動氣象站的觀測資料進行質量控制研究,開發質量控制軟件系統用于實時業務。
1 質控方案及應用流程
從質控方案及質控后數據應用整體流程圖(圖1)可以看出,自動站采集的原始1 min數據,首先格式檢查,按站整合成1 min、5 min、1 h 3種資料(1級數據);然后對5 min數據(包括1 h)逐一進行界限值檢查、內部一致性檢查、時間一致性檢查(時間變率檢查和長時間數據無變化檢查)、空間一致性檢查,得到5個分步質控碼;再對這5個質控碼綜合運算得到要素的最終質控碼,生成帶質控碼的數據文件(5 min、1 h)(2級數據);在此基礎上,一方面對缺失數據以及質控中被確定為錯誤的數據進行插補,得到插補后數據(3級數據),另一方面,對質控后數據做日、月、年的統計值運算(4級數據)。
1.1 質控碼 參考已有的研究,質控碼(QC)的規定如下:數據通過檢查,QC=0;數據可疑,QC=1;數據錯誤,QC=2;無觀測數據(缺測),QC=8;數據未進行質量控制,QC=9。此外,在該研究中,對缺失(錯誤)數據進行了插補的,規定QC碼為3。
1.2 質量控制
1.2.1 格式檢查。對數據逐行檢查,當某觀測要素字節數與規定不匹配、出現規定外的字符(亂碼),則視為格式檢查不通過,該觀測要素值視為缺測(“/”表示)。
1.2.2 質控方法。根據對已獲取的觀測數據(2000~2011年)的統計分析,確定每一分步檢查的參數(界限值)和方法。
1.2.2.1 界限值檢查。
1.2.2.1.1 氣溫。統計北京20個國家級站建站至今,各月上下限值,分別向外擴展5 ℃,再四舍五入取整,作為氣溫的界限值,超過界限值的觀測值,認為錯誤。
1.2.2.1.2 氣壓。點繪所有站點的最高氣壓值與海拔高度的散點圖(圖2a),散點呈直線分布,擬合海拔與最高氣壓的線性方程,R2為0.983 8。利用擬合方程計算每個站點的最高氣壓,得到與該站點實際觀測值的差值的標準差。以50 m為一個高度區間,根據擬合方程計算出一個氣壓值,再外擴一個標準差并取整,作為該海拔高度范圍內的氣壓觀測上限值,超過該上限值的觀測值視為錯誤。氣壓下限值的計算方法與之相同,各站最低氣壓值與海拔高度的散點圖如圖2b所示。
1.2.2.1.3 風速。對風速的界限值范圍使用氣候界限值,即最大風速0~65 m/s,極大風速0~75 m/s[12]。超過氣候界限值的觀測值判定為錯誤。
圖2 各站的最高(a)和最低(b)氣壓值與海拔高度的散點圖1.2.2.1.4 降水量。根據分鐘降水量統計結果以及雨量器的觀測強度指標,將分鐘降水量超過4.0 mm的觀測值認為可疑。根據統計的北京地區小時降水量最大值,參考已有的研究結果,規定小時降水量超過130 mm為可疑,超過150 mm為錯誤。
1.2.2.2 內部一致性檢查。 內部一致性檢查是指觀測要素間的一致性,即根據一定的氣象學原理,對觀測資料中某些物理特性關聯的氣象要素或項目之間是否符合一定規律進行的檢查。內部一致性檢查是氣象要素之間的邏輯檢查,不涉及檢查方法的差異,只有檢查內容的差異。理論上,內部一致性檢查的內容越詳細,數據質量越高。考慮實時質控的要求以及質控效率,對主要的氣象要素進行內部一致性檢查:①小時最低本站氣壓≤定時本站氣壓≤小時最高本站氣壓;②小時最低氣溫≤定時氣溫≤小時最高氣溫;③小時最小相對濕度≤定時相對濕度;④10 min平均風速≤小時最大風速;⑤極大風速≥最大風速;⑥極大風速≥瞬時風速;⑦極值出現時間與采集時間段保持一致;⑧風向為“C”,風速≤0.2 m/s;⑨風向范圍0~360°,濕度范圍0~100%。其中出現①~⑥、⑧的情況時,2個觀測值的質控碼均為“1”;出現⑦、⑨的情況時,質控碼均為“2”。
1.2.2.3 時間一致性檢查。時間一致性檢查指要素隨時間的變化是否符合客觀規律的檢驗[6],包括時間變率檢查和長時間數據無變化檢查。時間變率檢查是對氣溫、氣壓和相對濕度做檢查。根據文獻中的閾值標準,統計相鄰觀測值之間差值區間的變化特點,分別確定5 min、1 h數據的相鄰觀測值的變率上限。長時間數據無變化檢查是對氣溫、氣壓、相對濕度以及風向風速做檢查。根據已有觀測數據,統計各要素連續不變數N的變化規律,進而確定各要素連續N個不變的可疑、錯誤上限。其中相對濕度僅考慮觀測值<90%的情況,風速分>0 m/s、=0 m/s 2種情況,風向僅考慮風速>0 m/s的情況。與時間變率檢查類似,對5 min、1 h觀測數據分別確定N值。
1.2.2.4 空間一致性檢查。兼顧計算效率與準確性,采用Madsen-Allerupt法[13]做空間一致性檢查,并利用平均值扣除法來消除地形的影響,即將鄰近參考站同一時刻某要素觀測值減去其所在時次的平均值后再由小到大排序。空間一致性檢查對溫度、氣壓、濕度、風速4種要素進行。對降水量的空間一致性檢查是根據降水量等級標準,將被檢查站與周圍最近的10個臺站的降水量做比較,以此確定疑誤情況。
1.2.2.5 綜合質控碼運算。根據前面5個分步得到的質控碼,按照規定的每步檢查的權重比,進一步運算得到最終質控碼。對于缺測(“8”)和未做質量控制(“9”),如果5個分步質控碼均為“9”,則綜合質控碼為“9”;如果5個中有一個為“8”,則綜合質控碼為“8”。
1.3 插補算法 根據對主要業務單位的調研結果以及基于業務實際需求,對溫度和氣壓缺失數據進行插補。插補方案是反距離加權法和最近鄰域法的綜合,詳細可參考文獻[14]。
1.4 實時質控業務流程 原始觀測數據以分鐘文件為單位采集,60個文件批量傳輸,為保證數據完整,設定在每小時的03分開始處理前1 h的數據。首先格式檢查,寫入1 min、5 min、1 h文件,格式有錯誤的行寫入日志文件;對5 min、1 h數據進行質控,相關的疑誤寫入對應的日志文件,并生成質控后文件;最后,統計一次近3 d的各站質控情況(缺測率、正確率、可疑率、錯誤率、未做質控率)。數據插補和常規要素統計則以計劃任務形式,每天定時執行。
質量控制程序用Vb語言編寫,每步質控一個exe可執行文件,利用時間控制exe文件將整個質控過程、包括質控結果的統計串聯起來,逐一執行,每小時啟動一次。為便于質控碼的計算以及前臺WEB頁面對質控結果和數據實時顯示,除了將相關數據寫入文件永久保存,并將最近30 d的觀測數據、質控碼以及常規要素的統計數據存入MS SQL數據庫。
1.5 質控產品 質量控制的主產品即為格式檢查后按站整合的文件、質控后帶質控碼的文件、對缺失和錯誤數據插補的文件、常規要素的統計文件4個等級的數據集。此外還有3類副產品:①質控統計文件。每站的正確率、可疑率、錯誤率、缺失率等;②質控log日志。在格式檢查以及質控過程中的疑誤值,將相關的信息寫入對應日志文件;③質控結果文件。將所有站點中判別為疑誤的觀測值,單獨存入文件,方便查閱。
2 前臺WEB顯示
作為質控結果的實時顯示查閱界面,《北京地區自動站質量控制系統》網頁采用B/S構架,以Microsoft SQL Server 2005+Web為系統框架,用PHP語言編寫。網站包括8個內容模塊,即首頁,今日質控結果、今日數據缺失站點顯示(圖3);觀測數據顯示;質量控制結果顯示;要素(質控)統計結果顯示;內插前后對比曲線圖顯示;數據下載;幫助;管理員界面。
3 質控結果初步分析
質控系統從2012年7月開始試運行以來,獲得了一些初步結果。統計觀測數據總體質量情況(表1)發現,除了國家站5 min數據外,其他種類的資料的正確率均在95%以上,國家站1 h數據質量最高,國家站5 min數據的可疑率明顯高于其他;整體小時數據質量優于5 min觀測數據,國家站與區域站之間的質量差異不明顯。影響正確率的最主要因子是數據缺失,其次才是可疑率和錯誤率。不管國家站還是區域站,總體的可疑率和錯誤率均不高,北京地區自動站觀測數據質量較好。
4 結論
該研究開發的自動站質量控制軟件對北京地區300多個自動站觀測數據每小時進行一次實時整合,并經質量控制得到可靠、可信的觀測資料和相關產品,獲取了一套高時空分辨率的4個質量等級的數據集,即格式檢查整合后的原始數據、質量控制后的數據、對缺失和錯誤觀測值插補的數據、常規統計產品;同時還生成質量控制日志文件以及臺站質控結果統計文件等。同步開發的WEB網頁顯示和查詢界面,實現了質控結果、質控數據和相關統計數據的實時顯示及下載,可實時對自動站安裝維護人員提供站點的故障信息,對數據管理人員提供資料的缺失率等質量信息,對氣象業務及科研人員提供資料的質量信息、插補數據和常規統計數據以及不同類型的數據集下載,滿足了多業務類型的需要。
42卷16期 盧 俐等 北京地區自動氣象站觀測資料的實時質量控制及應用參考文獻
[1] 范水勇,陳敏,仲躋芹,等.北京地區高分辨率快速循環同化預報系統性能檢驗和評估[J].暴雨災害,2009,28(2):119-125.
[2] 陶士偉,仲躋芹,徐枝芳,等.地面自動站資料質量控制方案及應用[J].高原氣象,2009,28(5):1202-1209.
[3] 陶士偉,徐枝芳.加密自動站資料質量保障體系分析[J].氣象,2007,33(2):34-41.
[4] 熊安元.北歐氣象觀測資料的質量控制[J].氣象科技,2003,31(5):314-320.
[5] SHAFER M A,FIEBRICH C A,ARENT D S,et al.Quality assurance procedures in the Oklahoma Mseonetwork[J].Journal of Atmospheric and Oceanic Technology,2000,17:474-494.
[6] 王伯民.基本氣象資料質量控制綜合判別法的研究[J].應用氣象學報,2004,15(S1):50-59.
[7] 劉小寧,任芝花.地面氣象資料質量控制方法研究概述[J].氣象科技,2005,33(1):199-203.
[8] 劉小寧,鞠曉慧,范邵華.空間回歸檢驗方法在氣象資料質量檢驗中的應用[J].應用氣象學報,2006,17(1):37-43.
[9] 任芝花,熊安元.地面自動站觀測資料三級質量控制業務系統的研制[J].氣象,2007,33(1):19-24.
[10] 王玉彬,周海光,余東昌,等.奧運短時臨近預報實時數據處理[J].氣象,2008,4(7):75-82.
[11] 竇以文,屈玉貴,陶士偉,等.北京自動氣象站實時數據質量控制應用[J].氣象,2008,34(8):77-81.
[12] 中國氣象局.地面氣象觀測規范[M].北京:氣象出版社,2003.
[13] LANZANTE J R.Resistant.Robust and nonparametric techniques for the analysis of climate data:Theory and examples,including applications to historical radiosonde station data[J].International Journal of Climatology,1996,16:1197-1226.
[14] 張曉玲,盧俐,康金俠,等.北京地區自動氣象站實時數據(氣溫、氣壓)缺測的插補研究[J].氣象,2014(已投).安徽農業科學,Journal of Anhui Agri. Sci.2014,42(16):5156-5158,5160責任編輯 黃小燕 責任校對 李巖