






摘 要:【目的】建立一套基于機器學習方法的探空數據的自動化質量控制檢測算法模型,為提高大氣探空數據質量控制的效率及質量提供參考。【方法】本模型使用大氣探空觀測原始數據,以三西格瑪準則完成初步質控,基于三西格瑪準則檢測結果標記生成機器學習數據集,應用XGBoost機器學習算法完成最終質控模型的構建。【結果】實現了對大氣探空觀測數據溫度、氣壓、濕度、仰角、方位角、斜距素數的異常數據檢測,模型異常數據檢測精確率96.7%,識別率比人工檢測提高了43.5%。【結論】模型對要素異常值檢測具有較好的效果,較人工識別性能有明顯提升。
關鍵詞:機器學習;高空數據質控;XGBoost
中圖分類號:TP311" " "文獻標志碼:A" " 文章編號:1003-5168(2023)21-0095-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2023.21.021
Research on Quality Control of Sounding Data Based on Machine Learning Method
LIU Hui
(Inner Mongolia Autonomous Region Data Center, Hohhot 010051, China)
Abstract: [Purposes] In order to improve the efficiency and quality of atmospheric sounding data quality control, this study established an automated quality control detection algorithm model for sounding data based on machine learning methods. [Methods] This model uses atmospheric sounding observation raw data, completes preliminary quality control using the Three Sigma criterion, generates machine learning datasets based on the Three Sigma criterion detection results, and applies XGBoost machine learning algorithm to complete the construction of the final quality control model. [Findings] The model achieved the detection of abnormal data in atmospheric sounding observation data such as temperature, pressure, humidity, elevation, azimuth, and diagonal prime. The test results showed that the accuracy of abnormal data detection in the model was 96.7%, and the recognition rate was improved by 43.5% compared to manual detection. [Conclusions] The model has a good effect on the detection of element outlier, which is significantly improved compared with the performance of manual identification.
Keywords: machine learning; high-altitude data quality control; XGBoost
0 引言
大氣探空觀測能夠提供完整的三維大氣的溫、壓、濕、風等特征信息,是高空觀測體系中最為可靠的基準數據,因此,這些數據的數據質量尤為重要[1]。目前對實時高空探測數據的質量控制仍然以人工方式為主。由于此項工作工作量大,業務要求高,時效也相對滯后,且需要業務人員掌握豐富的基礎知識和觀測經驗才能開展,現有手段已無法適應高空業務發展的要求。因此迫切需要通過自動化、智能化手段開展質量控制工作。
目前國內外針對高空數據的質量控制有很多種研究方法, 如數據校正方法,包括對探空數據的傳感器校準、數據插值處理、探空數據異常值刨除、數據插值平滑等[2]。美國 NCAR 的大氣探空數據處理軟件(ASPEN)具備開放式的質量控制參數設置、格式轉換和圖形分析功能,已被不同類型用戶廣泛應用到眾多科學試驗的氣球探空資料、下投式探空資料的質量控制和數據處理分析中。美國NCEP則借助模式產品的背景場研發了探空綜合質制算法[3]。國家氣象信息中心研發的探空觀測數據的計算和檢查方法,包括臺站氣象學界限值檢查、允許范圍檢查、氣壓高度垂直變化檢查、溫度露點一致性檢查、對流層頂合理性檢查、雙權重離群值檢查、溫度超絕的遞減率檢查、靜力學檢查等,并集成到氣象數據質控系統(MDOS)中[4]。但這套質控算法主要是從氣候的角度進行的計算,在實際的業務應用中,疑誤信息準確率較差,且誤報率較高,并沒有開展正式的業務運行。內蒙古自治區擁有12個高空觀測站點,2015年全部實現L波段探空觀測,相比于過去的701探空系統,獲取資料的頻次更高,探空數據從分鐘數據精細到秒數據,對質量控制時效提出了很高的要求。
1 數據來源
本研究所用數據為2020年內蒙古自治區12個業務運行探空站每日00:00和12:00(世界時)兩個時次的L波段探空數據(S文件),資料來自內蒙古自治區氣象數據中心。
2 方法與模型
2.1 算法流程
本研究使用異常檢測方法三西格瑪準則和機器學習算法XGBoost構建探空數據異常檢測模型。首先以數據為驅動,對L探空原始文件數據解碼、清洗,其次以三西格瑪準則完成初步質控,最后以三西格瑪準則檢測結果標記生成機器學習數據集,并基于XGBoost算法構建機器學習模型完成最終質控,流程如圖1所示。檢測要素包括溫度、氣壓、濕度、仰角、方位角、斜距等6個高空要素秒數據。
2.2 構建三西格瑪準則異常數據檢測
2.2.1 數據正態分布預處理。三西格瑪準則原理及方法僅局限于對正態或近似正態分布的樣本數據處理。由于高空要素數據會隨著氣球的升高不斷變化并不符合正態分布,需要首先將高空要素數據轉換為正態或近似正態分布的數據。通過對于高空數據要素分析,發現在一定范圍內高空要素數值可近似為正態分布,結合三西格瑪準則測量次數充分多的要求,通過反復試驗,本研究以連續20秒的數據作為一個檢測組,構建三西格瑪準則異常檢測模塊,獲取當前組數據異常數據。
2.2.2 滑動窗口生成數據集。三西格瑪準則是以測量次數充分大為前提的,在測量次數較少的情況下,用該準則剔除異常數據并不可靠。本研究由于需要數據滿足近似正態分布,測量數據確定為20,而對三西格瑪準則一般數據集應足夠多(n≥30),當 n>10只能做粗略判別,同時由于高空數據并不符合正態分布,小范圍的數據集只是符合近似正態分布,使其基本滿足三西格瑪準則,所有使用三西格瑪準則檢測出某一個檢測組中的某個數據異常并不可靠。因此本研究采用滑動窗口檢測法,對于高空探測數據以連續20個數據為一檢測組,某個時刻的數據可以出現在20個檢測組中,如圖2所示。
滑動窗口分為4個步驟:(1)從放球開始,首先通過三西格瑪準則獲取起始T時刻20秒數據中異常數據,正常數據標記為0,異常數據標記為1;(2)窗口滑動獲取T+1時刻20秒數據中異常數據,窗口每次滑動為1秒,同樣正常數據標記為0,異常數據標記為1;(3)依次類推完成一個高空過程所有數據的檢測;(4)根據檢測結果,生成探空數據任意時刻20個三西格瑪檢測結果(除去開始19條和結束19條秒數據)。通過三西格瑪檢測和滑動窗口處理將獲取高空數據三西格瑪檢測結果數據集,如圖3所示。
2.3 基于三西格瑪檢測結果的XGBoost模型構建
Gradient Boosting是一種解決機器學習中分類和回歸任務的技術,其預測模型也是由一系列弱預測模型組成的[5]。Gradient Boosting中將負梯度作為上一輪基學習器犯錯的衡量指標,算法思想就是不斷地添加樹,不斷地進行特征分裂來生長一棵樹,去擬合上次預測的殘差。按這樣的過程重復訓練出M個學習器,最后進行加權組合。Gradient Boosting有多種實現方式,包括XGBoost、CatBoost、LightGBM等,本研究采用了較為健壯的XGBoost,其特點是將正則項引入到損失函數及并行處理,通常可以避免過度擬合。本研究通過兩個步驟完成基于機器學習的異常檢測模型的構建。
2.3.1 基于三西格瑪檢測結果生成機器學習數據集。基于三西格瑪準則檢測結果生成的數據集標記生成機器學習訓練集數據。生成數據集分為2個步驟:(1)參考《高空觀測資料審核單》對數據進行標記;(2)對于訓練集三西格瑪檢測結果異常個數大于10個,但是《高空觀測資料審核單》并未記錄數據集進行人工判斷標記。
2.3.2 生成基于機器學習的異常檢測模型。對生成的機器學習訓練集數據預處理分別生成溫度要素數據集、氣壓要素數據集、濕度要素數據集、仰角要素數據集、方位角要素數據集、斜距要素數據集,將所有數據集按照80∶20的比例劃分為訓練集和測試集。通過XGBoost機器學習分類算法,分別搭建高空溫度數據異常檢測機器學習模型、氣壓數據異常檢測機器學習模型、濕度數據異常檢測機器學習模型、仰角數據異常檢測機器學習模型、方位角數據異常檢測機器學習模型和斜距數據異常檢測機器學習模型,通過對各個模型的反復訓練、評估、參數調整最終選擇出各高空要素最優異常檢測模型。
2.4 濕度數據閾值點檢測
由于大氣探空觀測濕度的特性和靈敏性,當達到一定高度后,濕度值將持續保持2%不變,因此本研究構建了濕度閾值輔助模塊。步驟如下,先基于濕度閾值點檢測算法判斷出閾值時間點,時間點之前的數據使用三西格瑪準則、XGBoost分類算法模型計算異常值,閾值時間點之后的濕度數據值不等于2%直接拋出異常,濕度閾值輔助模塊時間點判斷標準及檢測流程如圖4所示。當連續10個濕度值等于2%時,以第一個濕度值為2%時間為閾值時間點。
3 結果分析
精確率更能反映算法的準確度,計算公式為式(1)。
精確率=被正確識別出來的異常樣本個數/識別出來的異常樣本個數×100% (1)
本研究使用數據為2020年1月到12月內蒙古自治區12個業務運行探空站00:00和12:00(世界時)兩個時次的L波段探空數據(S文件),其中54135和50527兩個站點數據為模型測試數據。其余10個站次為訓練驗證模型數據。通過54135和50527兩個探空站1 464份L波段探空數據對模型的檢驗評估,結果顯示,模型檢測出異常數據426條(秒),檢測出異常數據正確412條(秒),人工檢出異常數287條(秒),模型異常數據檢測精確率96.7%,相比人工檢出提高了43.5%。該方法可以檢測出L波段探空數據溫度、氣壓、濕度、仰角、方位角、斜距中的異常要素。
4 樣例舉例分析
使用基于機器學習方法的內蒙古探空數據質量控制模型對54135高空站2020年1月L波段探空數據(S文件)進行質控,結果顯示1月3日19時、" " 1月5日19時、1月25日19時數據發現異常。系統檢測異常數據與球坐標秒數據對比如圖5至圖7所示。從圖可以看出在球坐標廓線出現異常的時刻,系統均能對應檢測出異常,證明了該模型的合理性和可用性。
5 結論
內蒙古自治區高空數據的質量控制一直以人工判斷為主,本研究實現了一套自動化方式高空數據質量控制,將機器學習方法應用到高空數據質量控制中是一個新的嘗試,為內蒙古高空數據質量控制方法開辟了新途徑。如果可以獲得L波段探空數據(S文件)完整編碼方式,對質控后的數據生成指控后L波段探空數據(S文件),將對業務有更好的幫助。
參考文獻:
[1] 王丹,王金成,田偉紅,等.往返式探空觀測資料的質量控制及不確定性分析[J].大氣科學,2020,44(4):865-884.
[2]陳中鈺, 徐曉莉. 四川探空秒級數據質量控制[J]. 氣象科技, 2018, 46(3):462-467.
[3]COLLINS W G. The operational complex quality control of radiosonde heights and temperatures at the national centers for environmental prediction. part II: examples of error diagnosis and correction from operational use[J]. Journal of Applied Meteorology, 2001, 40(2):152-152.
[4]LIAO J,WANG B,LI Q X .A new method for quality control of chinese rawinsonde wind observations[J].Advances in Atmospheric Sciences,2014,31(6):1293-1304.
[5]HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine:a new learning scheme of feedforward neural networks[J].IEEE, 2004: 985-990.
收稿日期:2023-05-18
基金項目:內蒙古自治區科技計劃項目“基于機器學習的沙塵暴監測預警及時研究與應用”(2022YFSH0128)
作者簡介:劉輝(1989—),男,本科,工程師,研究方向:氣象數據處理、衛星數據遙感。