摘 要:為了促進大氣多元資料質量控制方法的研究,以幾個有代表性的數據集,如GHCN、GDCN、ISH為例,概述了國外地面氣象資料質量控制技術的進展及新動態。研究表明:傳統的質量控制方法仍是主要工具。在計算機技術迅速發展的時代,可以有更好的條件,使用自動控制和人機交互、氣候背景資料和統計檢驗相結合的技術,并適當應用空間檢驗方法,來設計大氣多元資料質量控制業務流程。
關鍵詞:大氣多元資料;質量控制;控制方法
中圖分類號:P4 文獻標志碼:A文章編號:16717953(2009)04010703
Study on Quality Control Methods of Atmospheric Multivariate Data
FU Wenting
(Nanjing University of Information Science and TechnologyNanjing 210044,China)
Abstract: For facilitating the researches in quality control (QC) of atmospheric multivariate data,the QC methods of several representative data sets (e.g.GHCN,GDCN and ISH) are introduced.The latest international development and trends of the correlative technologies are expounded.It is indicated that the conventional QC methods are still the basic tools.Along with the development of computer technology,several new technologies,such as auto-control,HCI (Human Computer Interaction),the spatial test method and the technology of combining climate data and statistical test,etc.,will be applied to the QC of surface meteorological data to help design the operation flow of quality control of surface meteorological data from autonomous weather stations.
Key words: atmospheric multivariate data;quality control;QC method
大氣多元資料包括全球大氣、海洋、海冰、積雪、臭氧、國內外大氣科學試驗課題考察和成果等多種數據和圖像的資料;它既有全球、系統的數據,也有區域性、短期的、專注某一領域的資料,還有科普教學軟件等。
海洋環境調查資料是分析研究海洋環境變化規律的重要依據。海洋環境調查資料的準確性和可靠性直接影響到分析結果和結論的正確性。為保證資料的準確、可靠,世界各國對海洋環境調查資料用計算機進行自動質控制方法進行了大量的研究[1]。地面氣象觀測資料是研究區域乃至全球氣候變化與預測、天氣動力分析、數值天氣預報模式研究、資料同化的基礎,是雷達與衛星定標、水文設計、農業決策的重要依據,也是人類有器測以來最長的氣象資料。氣象觀測資料質量控制的重要性已經為所有使用氣象資料的科學家所公認。地面氣象觀測記錄必須具有代表性、準確性、比較性[2]。根據誤差的性質和產生的原因,氣象觀測資料可能存在3類性質完全不同的誤差:隨機誤差、系統性誤差、過失誤差(偶然誤差)[3]。
質量控制的目的是確保提供應用的資料符合各種要求(包括不確定性、分辨率、連續性、均一性、代表性、時限、格式等)。本文試圖以幾個有代表性的數據集為例,概述近年國外在地面氣象資料質量控制中的進展及最新動態,并對我國該技術的發展進行探討。
1 大氣多元資料質量控制技術的進展
傳統的質量控制(QC)主要根據氣象學、天氣學、氣候學原理,以氣象要素的時間、空間變化規律和各要素間相互聯系的規律為線索,分析氣象資料是否合理。其方法包括:范圍檢查、極值檢查、內部一致性檢查、空間一致性檢查、氣象學公式檢查、統計學檢查、均一性檢查。這些方法被普遍應用到大氣多元資料的質量控制中。
1.1 全球日氣候資料數據集
美國NCDC制作的全球日氣候資料數據集GDCN(Global Daily Climatology Network V1.0)是最近開發出的數據集,其包括最高/ 最低氣溫、24h降水量,年代為1840-2001年[4]。
對最高/最低氣溫資料進行了極端值檢查、內部一致性檢查。該數據集的檢查也使用了雙權重標準差的統計檢驗方法,并使用了月平均值與格點資料比較,進行了空間檢驗。
對于日降水資料進行了極端值檢查。所用的極端值為目前觀測到的全球曾出現過的日極端記錄:極端最高氣溫:57.8℃;極端最低氣溫:-8914℃:最大24 h降水量:1828.8mm。
1.2 全球地面小時數據集
美國NCDC所制作的的全球地面小時數據集ISH(Intergated Surface Hourly Database),共有全球20000 個臺站,早從1900年開始,臺站類型有自動站(ASOS)、自動天氣站(AWOS)、天氣站等[5]。QC分為兩個步驟,第1步進行了各種源數據集的集成、整理、轉換、統一格式、統一時間(格林威治時間) 。第2 步去除隨機及系統誤差。通過一系列QC 的計算法則,進行自動和人工的質量控制。共使用54種QC方法,包括:變量檢查、極值檢查、內部一致性檢查。
但目前該數據集檢查中未使用空間檢驗方法,NCDC計劃今后進一步發展。
2 大氣多元資料質量控制方法發展新動態
2.1 自動觀測資料質量控制對傳統方法的挑戰
隨著觀測自動化技術的發展,產生了大量的自動觀測資料。自動化資料與傳統資料的QC方法主要差別在于:傳統的QC主要面向人工觀測的數據,數據的時間跨度大,方法側重于對單個數據的檢查。電子傳感器及自動傳輸的發展,對傳統QC方法是一種挑戰。這是因為電子觀測系統更多的誤差是連續性的漂移,而不是孤立的誤差;因此,對資料的連續性檢查比單個數據的檢查更重要。電子觀測儀器產生了更多的資料量,具有高時間分辨率,使得自動觀測資料比人工觀測資料有更多的自動QC方法。
2.2 美國地面自動觀測系統
美國地面自動觀測系統(ASOS)[6]已經有超過1100個觀測站點,能實現數據的自動采集、質量控制、運行監控和數據傳輸和調用。在ASOS的運行中,對資料質量進行了3級監視和控制。
3 關于我國地面氣象資料質量控制方法發展的探討
3.1 地面自動站資料的質量控制方法
3.1.1 強化臺站級質量控制
由于自動站資料的特點,觀測站級的質量控制就顯得更加重要。應當充分發揮自動采集數據、計算機自動檢查資料的自動化優勢,使觀測站傳輸出的資料絕大部分得到很嚴格的控制。
臺站的實時質量控制是自動站資料質量控制系統的關鍵。因此,要在質量控制方案的設計中將所有能在臺站進行的質量控制全部做好。對于采集的每一個實時數據,都要及時進行檢查,有可疑數據,顯示提示信息,以人工判斷。在臺站上報的數據文件中要有質量控制的標識。
3.1.2 要有不同層次的質量控制
觀測站、省、國家級對資料質量控制應該有不同的層次。在觀測站強調對逐時、逐日資料,使用傳統的QC方法;在省及國家級對準實時的月、日資料更多地使用統計判斷方法。
3.1.3 重視質量評估專家的作用
國外成功的質量控制方法表明,完全自動化的質量控制不可能解決所有的數據質量問題,對于一些特殊情況或問題的判斷還要輔以人工檢查。必須采取計算機自動控制和人工相結合的方式。在各級,尤其是省、國家級要重視質量評估專家的作用。
3.2 中國地面月氣候資料質量控制方法
3.2.1 連續性錯誤資料的檢測
觀測中儀器出問題或觀測員操作失誤以及儀器標定錯誤、儀器有明顯的漂移等問題,若發現太晚甚至始終沒注意到,則有可能導致連續幾個月甚至跨年的月氣候資料錯誤。雖然這種錯誤資料相對于氣候平均值來說,有時表現得并不是很離奇,但是對氣候分析仍有一定的影響。對這種連續性錯誤資料的檢測,應把12個月的氣候資料序列聯合起來統一檢查。
3.2.2 單個數據點錯誤資料的檢測
3.2.2.1 奇異值的時間域檢測
(1)近正態分布序列的建立
一般情況下,當數據越遠離序列平均值時,錯誤的可能性越高,越接近平均值時,則錯誤的可能性降低。在傳統的質量控制技術中,通常當距平超過臨界值如3倍標準差時,該數值被認為奇異值。但是,由于中國臺站信息和觀測規范的變動,許多時間序列普遍存在非均一性。某些時間段的奇異值有的由于離序列平均值比較近而檢測不到。
(2)奇異值的確定
一個數據在時間域內要多離奇才會被認為是奇異值呢?常用的方法是用3倍標準差控制。Lanzante[7]于1996年介紹過用Biweight法計算序列的平均值和標準差,認為用Biweigh法計算序列的平均值和標準差具有高效性和對奇異值的抵抗性。
3.2.2.2 奇異值的空間域檢測
一個數據點從時間序列角度看可能是極端的,但它也可能是完全有效的。所以, 要判斷一個數據點的有效性,簡單地從時間序列角度標出它還不足夠。如果一個站的氣候在那個月異常的冷,鄰近站應該也如此。因此,有必要把空間QC結合到整個檢測中來,用空間QC來判定時間域檢測中被標出的奇異值正確性和錯誤性??臻gQC有很多不同的方法。Eischeid等[8]曾介紹了6種不同的方法來預測或估計某個站的值, 通過分析觀測值和估計值的差異來判斷數據點是否通過空間QC,并把這些方法用于1版全球歷史氣候網(GHCN)資料的QC中。2版GHCN資料采用距平比較法進行月平均氣溫的空間QC[9]。
4 錯誤資料分析
用上述質量控制方法,再次對1971-2000年中國地面700多個基準基本站約250000個月地面氣溫、氣壓、空氣濕度、風速、各層地溫、日照、小型蒸發、凍土深度與積雪深度等要素月統計資料進行上述檢查后,共發現136個月資料出現錯誤現象。反饋在原始資料(地面信息化資料)中,主要錯誤原因為:①用其他站或其他月資料代替本站資料;②資料擴大或縮小10倍錄入以及其他錄入錯誤;③原始資料應為缺測或非“0”值,而信息化資料為“0”;④觀測儀器有問題導致資料異常。
5 結語
近年來國外在地面氣象資料質量控制技術方面有了顯著進展,但是在質量控制方法的運用時,傳統的QC方法仍是主要工具。在計算機技術迅速發展的時代,我們可以有更好的條件,使用自動控制和人機交互、氣候背景資料和統計檢驗相結合的技術,并適當應用空間檢驗方法,來設計我國地面自動站資料質量控制業務流程。
參考文獻
[1] Quality Assurance System.Edited by National Oceanographic Data Center.U.S.A May 1,1987.
[2] 中國氣象局.地面氣象觀測規范.北京:氣象出版社,2003.
[3] 幺枕生,丁裕國(編著).氣候統計.北京:氣象出版社,1990.776.
[4] GLEASON B E.For Data Set 9101 Global Daily Climatology Network V1.0[C].Asheville: National Climatic Data Center Data Documentation,2002.
[5] LOTT N,BALDWIN R,JONES P.The FCC integrated surface hourly database:a new resource of global climate data.National Climatic Data Center Technical Report .2001(01).Asheville:National6Climatic Data Center,2001.
[7] DALY C,GIBSON W,DOGGETT M,et al.A probabilistic spatial approach to the quality control of climate observations[C]. AMS Annual Meeting,Seattle,2004.
[8] LANZANTE J R. Resistant,robust and nonparametric techniques for the analysis of climate data:Theory and examples,including applications to historical radiosonde station data[J].Int J Climatol,1996,16:.
[9] EISCHEID Jon C,BRUCE BAKER,TOM KARL,et al.The quality control of long-term climatological data using objective data analysis[C].J Appl Met,1995,34:2787-2795.
[10] PETERSON T C,VOSE R S,SCHMOYER R ,et al.Global historical climatology network (GHCN) quality control of monthly temperature data[J].Int J Climatol,1998,18:1169-1179.