支亞京,郭 茜,陳怡璇,魯 霞,李從英
(貴州省氣象信息中心,貴州 貴陽 550002)
歐美國家已建立了較完備的全球地面小時資料質量控制業務。如NCEP基于MADIS系統實現了全球地面資料的實時質量控制,其運用綜合質量控制和決策算法能有效發現全球地面觀測資料的錯誤。當前,通過引入全球、區域背景場(初猜場)提高質量控制能力已是主流趨勢,如歐洲中心、英國氣象局基于貝葉斯理論的質量控制和日本氣象廳的動力質量控制均考慮了觀測、背景場及兩者差異的誤差分布特征,可以進一步提升地面觀測資料質量控制的能力。
2018年5月,中國氣象局印發《智能網格預報行動計劃(2018—2020年)》,國家氣象信息中心牽頭攻關任務之一的“多維實況數據分析業務”,其中也用到了常規站的資料,做好氣象資料質量控制這個關鍵環節之后,就能為多維實況數據分析提供堅實的數據支撐。質量控制確保資料的可靠性和代表性,提高資料的應用價值。目前,經過已有的自動化質量控制(Quality Control,QC)[1-3]之后,地面常規站觀測資料中質量控制仍有錯判、漏判等問題存在,完整、準確、標準格式的數據是做好氣候研究的基礎和必然要求。
通過綜合參考《全球天氣報實時質量控制方案》、MADIS實時質量控制方案、NCEP在線質量控制方案以及英國、日本氣象局的地面資料質量控制方法,對現有常規質量控制算法進行本地優化,對2018年1月1日—12月31日貴州省地面常規站逐小時資料(氣溫、露點溫度等要素)進行質量控制,并對質控結果進行比較分析。
質量控制對象主要包括氣溫、露點溫度、過去12 h最高氣溫、過去12 h最低氣溫、過去24 h最高氣溫、過去24 h最低氣溫等,以及觀測站點元數據基本信息。評估數據為來源于省級CIMISS接口的2018年1月1日—12月31日中國地面逐小時資料。
實時質量控制技術框架如圖1所示:第1階段對粗大誤差進行檢查,包括元數據信息檢查(PC)、有效值檢查(VC);第2階段,包括主要變化范圍檢查(CC)、時間一致性檢查(TC)、內部一致性檢查(IC);第3階段包括與模式一致性檢查(MC)、空間一致性檢查(SC)。

圖1 實時質量控制技術框架圖Fig.1 Block Diagram of Real-time Quality Control Technology
對觀測數據進行質量控制的階段,就是利用觀測要素自身的特點、時空變換特征以及不同要素甚至不同資料的關聯性,逐步判斷數據質量的過程。針對該觀測值質量的檢查手段和判斷結果,用相應的標識碼標注,即質量標識碼(Quality Control Indicator, QCI),分為事件標識碼和質量標識碼兩類。在對數據進行質量控制的過程中,隨著控制進程的進行,需要不斷的對被檢查數據設置或修改QCI。事件標識碼包含數據經過的檢查環節和質量狀況,面向數據加工人員,主要表征數據的質控環節及其相應的質控結果;質量標識碼表征數據質量,面向最終用戶,標識應盡量簡單,方便用戶判讀和使用,具體規定見表1。

表1 事件標識碼及其含義Tab.1 Event Identifiers and Their Meanings
這個階段主要包括格式檢查、元數據基本信息檢查、缺測與特征值檢查和有效值檢查4個部分。經過對引入質量控制算法的參數優化,具體檢查方法如下:
元數據基本信息檢查指對觀測站的經緯度和拔海高度進行檢查。根據貴州觀測站的實際情況規定如下:若經度LON不滿足103°≤LON≤110°,則不通過檢查,事件碼標記為X,質量碼標記為2,否則事件碼標記為C,質量碼標記為0;若緯度LAT不滿足24°≤LAT≤30°,則不通過檢查,事件碼標記為X,質量碼標記為2,否則事件碼標記為C,質量碼標記為0;若海拔高度ALT不滿足100 m≤ALT≤3 000 m ,則不通過檢查,事件碼標記為X,質量碼標記為2,否則事件碼標記為C,質量碼標記為0。
檢查觀測數據是否為缺測數據或特征值[4],若為缺測數據,最終質控碼為8, 過程質控碼設為D,若為特征值,最終質控碼設為6 ,過程碼設為Z,缺測數據和特征值均不再進行其他檢查。
有效值檢查是對觀測值是否超越其氣候學有效值的檢查。將觀測值與有效值進行比較,根據貴州全省從建站以來的多年氣候極值實際情況,如果觀測值OBS滿足以下關系:OBS<-20 ℃ 或者OBS>45 ℃,則視為未通過有效值檢查,未通過有效值檢查的觀測值為錯誤數據,事件碼賦為X,質量碼賦為2,不參與后續檢查;通過有效值檢查的數據事件碼賦為C,質量碼暫時賦值為0,繼續參與后續檢查。
同一時間觀測的氣象要素記錄之間的關系應符合一定物理聯系的檢查[5]。不滿足內部一致性檢查,判為可疑。若被檢數據在檢測時段由于關聯要素缺測,不參加該項檢查。氣溫與露點溫度,若氣溫未通過檢查;定時氣溫(TT)和12 h最高(Tmax12)和最低氣溫(Tmin12)、24 h最高(Tmax24)和最低氣溫(Tmin24),應滿足以下關系:Tmin12≤TT≤Tmax12;Tmin24≤ TT ≤Tmax24;Tmin24≤Tmin12;Tmax12≤Tmax24。若不滿足上述關系,則視為不通過檢查。
時間一致性檢查是指氣象觀測數據在一定時間范圍內的變化是否能滿足特定規律的檢查[6]。主要包括僵值檢查和時間變率檢查。僵值是由于儀器故障以及傳輸和記錄過程中,使觀測數據長時間保持不變,將連續出現某個觀測值的數目在10個以上的數據段定義為僵值[7]。若出現僵值,該項檢查未通過;若被檢要素在檢測的時間窗口不足11個數據時,該項檢查不執行。不滿足觀測值時間變化規律的數據為可疑數據。根據本地實際情況和文獻資料[8],氣溫、露點溫度觀測值需滿足以下可能變化范圍:0.5 h內變化范圍值的絕對值≤11 ℃;1 h內變化范圍值的絕對值≤20 ℃;6 h內變化范圍值的絕對值≤20 ℃;12 h內變化范圍值的絕對值≤25 ℃。若超出范圍,未通過檢查。若被檢要素在檢測的時間窗口不滿足各小時段均有觀測值,該項檢查不執行。
利用多個鄰近站資料,將被檢站觀測值和鄰近站觀測值進行比較。比較結果超出給定的閾值,即認為被檢站觀測數據可疑。鄰近站需滿足兩個條件:與目標站的距離在50 km以內;與目標站海拔高度差在100 m以內。鄰近站多于3個時,做此項檢查;鄰近站小于3個時,不執行該項檢查[9-11]。空間一致性檢查流程圖如圖2所示:

圖2 空間一致性檢查流程圖Fig.2 Flow Chart of Spatial Consistency Check
最終事件碼和質量碼,遵照以下原則:
①若觀測數據未通過粗大誤差檢查,事件碼標記為X,質量碼標記為2,不再進入后續檢查;否則,事件碼標記為C,質量碼標記為0 ,進入下一階段檢查。
②觀測數據進入單站檢查,若通過時間一致性檢查或內部一致性檢查,則事件碼改為S,質量碼標記為0;否則,事件碼仍為C,質量碼標記為1。
③觀測數據進入空間一致性檢查,若通過空間一致性檢查,事件碼標記為V,質量碼標記為0;若未通過空間一致性檢查,事件碼標為S,質量碼標記為1。
統計了氣溫、露點溫度等相關要素2018年的缺測率,缺測值檢查結果表明:經度、緯度、海拔高度缺測率為0;氣溫、小時最高氣溫、小時最低氣溫缺測率走向一致,基本維持在31.5%左右;露點溫度基本維持在75%左右。圖3給出了2018年氣溫(T)、露點溫度(Td)、1 h最高溫(Tmax)、最低溫(Tmin)的缺測率。

圖3 2018年氣溫相關要素缺測率Fig.3 Unmeasured Rate of Temperature Related Factors
圖4給出了經度、緯度超出有效值范圍的臺站如下圖☆所示,海拔高度超出有效值范圍臺站如下圖紅色×,其中經度不正確的臺站為R8117(101.64°E),海拔高度不正確的為R1817(8 900 m)。

圖4 元數據信息檢查結果Fig.4 The Check Results of Metadata Information
為了檢查超過氣候極值的錯誤數據,設置了有效值檢查和主要變化范圍檢查。由于目前評估數據相對較短,本次只對有效值進行了檢查,有效值的閾值是根據本地多年來氣候極值設定的。通過分析2018年全年氣溫、露點溫度等要素的有效值檢驗結果,發現全年有26個數據(Tmax:20個;Tmin:6個)超過氣候極值。2018年4月21日03時和05時的最低氣溫值分別為59.8 ℃、57.7 ℃,超過了其所在地區的極端氣溫的有效值。
圖5給出了氣溫、露點溫度以及極端氣溫的可疑數據百分率。從圖5中可以看出,2018年整體內部一致性疑誤率低于0.16%,其中,氣溫與露點溫度的可疑數據百分率走勢保持一致,小時最高氣溫的可疑數據百分率基本穩定在0.04%,小時最低氣溫的可疑數據百分率最低。

圖5 2018年要素可疑數據百分率Fig.5 The Percentage of Suspicious Data for Elements
圖6給出了內部一致性和時間一致性檢查出可疑數據的個例分析。圖6a展示R5120站2018年1月3日的氣溫T和露點溫度Td序列,該站16—23時露點溫度Td比氣溫T高,被標記可疑。圖6b給出了R0830站2018年1月1日06時的氣溫比03時陡升了24.1 ℃,經過1 h、3 h和6 h時間變率的檢查,被標記為可疑數據。

圖6 內部一致性(a:R5120 T與Td,2018年1月3日)和時間一致性(b:R0830,2018年1月1日)個例分析Fig.6 Case Analysis of Internal Consistency and Time Consistency
圖7給出了空間一致性檢查有疑誤數據的站點分布圖,共檢查出70個站次共394個可疑數據。

圖7 空間一致性疑誤數據站點分布Fig.7 Spatial Consistency of Suspected Error Data Site Distribution
圖8給出本方案空間一致性檢查成功命中的異常數據個例分析,在1月16日08時,R7127氣溫距平值達到12.5 ℃,明顯大于其10個鄰近站。圖9是R7127臺站臨近站分布圖。

圖8 R7217站空間一致性個例分析Fig.8 Spatial Consistency Analysis of R7217

圖9 R7217站鄰近站分布Fig.9 The Distributed Nearby of R7217
圖10是與CIMISS中中國地面逐小時資料質控結果對比的一致率與不一致率,由圖可以看出不一致率比較高的是小時最高氣溫(Tmax)。從圖中可以看出本方案對常規站數據質控的結果與CIMISS的一致率很高,在一定程度上證明了本方案的適用性。當然它們也存在一定的差異,為了分析差異存在的原因,統計了CIMISS對本方案標記錯誤或可疑數據的命中率,氣溫為34/4219,露點溫度為1/2412,存在差異原因皆為:CIMISS中未做氣溫和露點溫度的內部一致性檢查。

圖10 與CIMISS中氣溫等要素質量控制結果的對比Fig.10 Compared with the Results of Quality Control of Air Temperature and Other Factors in CIMISS
為了進一步地對比分析,表2給出了本方案對CIMISS方案疑誤數據命中率。從表中可以明顯看出氣溫、小時最高氣溫、小時最低氣溫的命中率不高,對這些未命中的數據做了進一步分析,基本都是氣溫與小時最高氣溫或者小時最低氣溫相等時被標記。圖11是CIMISS命中的有疑誤的一個個例,R1511站2018年3月2日的T、Tmax和Tmin數據序列。

表2 本方案對CIMISS方案疑誤數據命中率Tab.2 The Hit Rate of Suspected Data of CIMISS Scheme

圖11 R1511站2018年3月2日觀測數據序列Fig.11 The Observation Data Series of R1511
與CIMISS上的全球地面逐小時資料的質控結果對比后,發現CIMISS資料存在漏判和錯判等現象,而本地優化的質量控制方案能更準確有效地檢查數據質量。