年飛翔,王丹丹,金津,司 鵬,郭 陽,黃純璽
(1. 天津市氣象信息中心 天津300200;2. 天津市靜海區沿莊鎮農業技術推廣服務中心 天津301605;)
天津地面自動氣象站系統自 2006年建設至今,已經擁有陸地區域自動氣象站270余個,各類小時觀測資料為本市防汛抗災、數值模式分析、數據同化等氣象業務提供了重要的數據支持。同時,隨著業務科研水平的提高,服務需求的提升,各業務科研單位對區域自動站統計產品的需求大為提升。由于業務系統的升級變更,天津區域自動站的觀測數據在“氣象資料業務系統(MDOS)”業務化運行之前存在儲存分散、格式不統一、數據質量控制不系統等問題。
基于氣象資料質量控制的研究成果以及現代氣象業務的發展對氣象資料完整性、時效性和質量需求,組織開發了“氣象資料業務系統(簡稱MDOS)”,實現了對國家站及區域自動站地面資料進行實時自動質量控制[1],并提供基礎數據產品。2016年 12月20日,由國家氣象信息中心牽頭建設的全國綜合氣象信息共享平臺(CIMISS)正式業務化運行,形成國省一致的實時、歷史長序列數據在線服務能力,并與MDOS組成了完整的“質量控制-實時歷史數據一體化”管理體系,但其區域站統計產品仍不能滿足業務服務需求,尤其 2013年以前,天津區域自動站資料在數據質量與統計產品上均存在短板。因此,對天津區域自動氣象站歷史資料進行質量控制,研發日值、月值等統計產品,對提高數據服務的時效性、準確性,保障天津市氣象業務及科研應用、重大活動服務、各區局對外服務工作的順利開展都具有重要意義。
國內外針對地面氣象資料的質量控制方法開展過許多研究,主要有氣候學界限值檢查、范圍值檢查、要素間內部一致性檢查、時間一致性檢查以及空間一致性檢查[2-4]。目前國內針對國家級自動氣象站觀測數據統一開展過逐年、逐月及累年數據統計產品的制作工作,其統計項目和統計方法已經標準化[5-7],但對區域自動站并未開展過相關工作。本研究根據天津氣候特點和實際情況制定了以學界限值檢查、內部一致性檢查等方法為主的質控方案,對天津區域自動氣象站歷史觀測數據進行質量控制,并以質控后數據為基礎開展統計產品的加工與制作。
2008—2017年數據來源于天津區域自動氣象站10min數據,包括部分時段天津國家站小時數據,所有數據均未經過質控。2018年數據來源于“氣象資料業務系統(MDOS2.0)”實時數據庫中地面自動站逐小時質控后數據。
2008—2018年天津區域地面氣象站觀測資料統計產品包含了天津區域地面氣象站溫度、氣壓、相對濕度、風向、風速、降水量共 6個要素的日值、月值、年值、累年年值、累年月值。其中日值、月值、年值包括各要素平均值(4次、24次)、最高(最大)值、最低(最小)值、極大值、總量值。累年年值包括各要素累年年平均值(4次、24次)、累年年平均最高(最大)值、累年平均最低(最小)值、累年極端最高(最大)值、累年極端最低(最小)值、累年年平均降水量。累年月值包括各要素累年各月平均值(4次、24次)、累年各月平均最高(最大)值、累年各月平均最低(最小)值、累年各月極端最高(最大)值、累年各月極端最低(最小)值、累年月平均降水量。
根據《地面氣象觀測規范》、《1981—2010天津地面氣候標準值》、省級地面氣象資料質量控制技術規程等制定了針對天津區域氣象站歷史小時觀測數據的質控方案,對要素小時數據進行了質量控制,各要素按照界限值檢查、時變檢查、持續性檢查、內部一致性檢查的順序進行質量控制,當某一檢查方法判斷數據為錯誤時不再進行其他方法質控。若其他檢查方法判斷小時數據為正確,內部一致性檢查出現矛盾時,判定小時極值錯誤,置缺測處理。各要素設置5位質控碼(如00499),分別代表界限值檢查和范圍值檢查(降水、風速)、時變檢查 0H、時變檢查 3H、持續性檢查、內部一致性檢查 5類方法檢查結果,具體含義見表1。

表1 質量控制碼設置及含義Tab.1 Setting and meaning of quality control codes
1.4.1 小時數據質量評估
使用實有率評估小時觀測數據各要素項的完整性,用正確率評估小時觀測數據各要素項的質量狀況。統計量的計算方法如下:

式中:i表示第 i個站,i=1,2,3,……,N。
各統計參數的意義如下:實有觀測數據量i,小時數據中第 i個站某要素項非“999999”和“NULL”的數據量;正確數據量i,檢測數據中第 i個站某要素質控程序判斷為正確的數據;數據總量i,小時數據中第i個站某要素項為“999999”和“NULL”的數據量i與實有統計數據量i之和。
1.4.2 統計值質量評估
使用實有率評估各要素統計值的完整性,用一致率評估數據產品各要素項的質量狀況。統計量的計算方法如下:


式中:i表示第 i個站,i=1,2,3,……,N。
各統計參數的意義如下:實有觀測數據量i,產品中第 i個站某要素項非“999999”和“NULL”以及符合統計規范的數據量;一致數據量i,檢測數據中第i個站某要素統計值與對應站 A、Y文件相同的數據;數據總量i,產品中第i個站某要素項為“999999”和“NULL”的數據量i與實有統計數據量i之和。
以北京時20:00時為日屆。除特別標明外,由上文數據中提取得到的各要素逐日 4次定時(02:00、08:00、14:00、20:00)觀測數據統計日平均值。由日平均值統計月平均值,日平均值有缺失時,月平均值按橫行統計。由月平均值統計年平均值。當數據有缺失時,統計值按實有數據統計,并按照表 2中設置的標識碼對統計值進行標識。

表2 統計值標識碼設置及含義Tab.2 Setting and meaning of statistical value identification codes
本產品中天津區域自動站 2008年共有站點數224個。如圖 1所示,隨著區域自動氣象站的建設,站點數逐年增加,其中 2009—2010年、2015—2016年新增站點數量較多,截止2018年底共有區域站點數 288個,除氣溫、降水量外其他要素均為建站后陸續增加且時間不定。因此,表 3中實有率僅反映2008—2018年各要素實有的數據量,不能反映數據的缺失情況。其中氣溫和降水量數據實有率均在90%以上,每年 11月至次年 3月為翻斗雨量筒加蓋期,此期間小時降水量未參與統計。風要素數據實有率接近 50%,氣壓和相對濕度由于增加時間較晚,數據實有率為20%左右。

圖1 2008—2018年天津區域站點逐年變化曲線Fig.1 Annual change curve of Tianjin regional stations from 2008 to 2018

表3 各要素小時數據完整性Tab.3 Hourly data integrity of each element
由于不同的質量控制方法和質控參數值都會直接影響數據正確與否的判斷,本文所述數據質量情況均為基于本文質量控制算法的質控結果,可反映數據的質量情況而非數據準確性的絕對值。由表 4可以看出,2008—2018年天津區域自動氣象站小時觀測數據質量總體較好,各要素數據正確率均在 95%以上,其中氣壓、氣溫、降水量等要素的數據正確率超過99%,為各要素統計產品的制作提供了良好的數據基礎。通過統計發現,天津區域自動氣象站各要素錯誤數據多集中在建站或新增要素初期。如圖 2所示,氣溫、相對濕度、風要素的錯誤數據集中在 2008年,在 2008年建立的自動氣象站約占總站點數的 80%;2018年氣壓要素出現錯誤數據的大幅增加則與該年各站新增氣壓要素吻合。

圖2 不同要素錯誤數據個數年際變化Fig.2 Annual changes in number of error data for different elements

表4 各要素小時數據質量情況Tab.4 Hourly data quality of each element
根據地面觀測規范及相關標準中氣象資料統計方法,利用天津區域自動氣象站質控后小時觀測數據,完成氣溫等 6要素的統計值計算。其中,每年11月至次年 3月為翻斗雨量筒加蓋期,此期間日降水量未進行統計。對各要素統計值中符合相關規范、標準的數據量進行統計發現,降水量統計值(除年降水量外)實有率在所有要素中最高,氣溫次之,實有率均在 90%以上;風要素統計值根據不同統計類型,實有率在 30%~50%之間;氣壓和相對濕度統計值實有率較低,僅在20%上下。
為保證本文所用統計方法的可靠性及各要素統計值的準確性,使用質控后的 A、Y報表文件數據與之進行對比驗證。具體參與對比數據如表 5所示,不同要素各類統計值與對比數據的一致率均為100%。

表5 各類統計值質量對比情況Tab.5 Quality comparison of various statistical values
利用各要素統計值制作天津區域自動氣象站基本氣象要素統計值數據集,數據集中文名稱:天津區域自動氣象站基本氣象要素日值數據集、天津區域自動氣象站基本氣象要素月值數據集、天津區域自動氣象站基本氣象要素年值數據集。數據集代碼:SURF_CLI_TJ_MUL_DAY、SURF_CLI_TJ_MUL_MON、SURF_CLI_TJ_MUL_YEAR。數據集由數據文件組成,數據文件命名由數據集代碼(SURF_CLI_CHN_MUL_DAY)、站號代碼(AXXXX)、年份標識(YYYY)和月份標識(MM)組成。其中,SURF表示地面氣象資料,CLI表示地面氣候資料,TJ表示天津,MUL表示多要素,DAY 表示日值數據,MON表示月數據集,YEAR表示年數據。
文件命名:①日值,SURF_CLI_TJ_MUL_DAYAXXXX-YYYYMM.TXT;②月值,SURF_CLI_TJ_MUL_MON-AXXXX-YYYY.TXT;③年值,SURF_CLI_TJ_MUL_YEAR-AXXXX.TXT。
本研究使用氣候學界限值檢查等方法對天津區域自動站歷史資料進行數據質量控制并以質控后數據為基礎開展逐日、逐月等統計產品的加工與制作。結論如下:
①2008—2018年天津區域自動氣象站小時觀測數據質量總體較好,各要素數據正確率均在 95%以上,各要素錯誤數據多集中在建站或新增要素初期。使用質控后的A、Y報表文件數據與統計值進行對比驗證,不同要素各類統計值與對比數據的一致率均為100%,保證了本文所用統計方法的可靠性及各要素統計值的準確性。
②除氣溫、降水量外,其他要素均為建站后陸續增加,氣壓和相對濕度由于增加時間較晚,數據實有率較低。此外,天津每年 11月至次年 3月翻斗雨量筒需要加蓋,此期間無降水量數據,對年降水量的統計造成了影響。