自動站數據質控及其在實時業務中的應用*

2021-03-09 00:27:34許駿寧楊志勇田功平葉棟水

海峽科學 2021年1期

袁偉許駿寧楊志勇田功平葉棟水

(1.福建省氣象信息中心,福建福州 350001;2.福建省減災中心,福建福州 350001；

3.海峽氣象開放實驗室,福建廈門 361000)

1 概述

區域自動站觀測資料往往因站點建設位置、數量多不易精細化管理等原因，數據質量一定程度上難以保證，同時也鑒于目前技術手段的投入與限制等問題，一旦數據進入相關業務系統，往往不易察覺，并帶來系列不良影響。本文圍繞區域自動站觀測數據，研究實時業務中的質量控制問題，期望在關鍵時候能夠阻止顯性錯誤，業務應用前對疑似錯誤提示告警,必要時對大概率異常值先行剔除。

此外，在結合業務需求的研究過程中，我們將隨機取一次包含降雨的天氣過程的區域自動站、雷達資料，用于對文中算法的學習與驗證，其中區域自動站資料5分鐘觀測頻率，資料窗口包含天氣過程頭尾共7天的數據量進行演算。

2 技術內容

2.1 誤差的來源分類

通常來說，觀測值與真值之間的誤差有系統誤差、測量誤差、環境誤差等[1]，表達如下：

X(t)=X′(t)+E(t)

其中，X′(t)為真值，X(t)為觀測值，E(t)為觀測誤差，t為觀測時次。

立足區域自動站的觀測數據，我們使用誤差來表述觀測值正常與否，觀測誤差的基本組成部分理解如下：系統誤差(記為：S(t))可理解為設備故障、接觸不良、通信中斷等情況代入的數據誤差；測量誤差(記為：R(t))可理解為測量設備因可能的老化、校正等情況引起的測量變動；環境誤差(記為：V(t))可理解為測試、人為性質代入的數據誤差。為簡化分析，我們僅研究E(t)=S(t)+R(t)+V(t)誤差模型，忽略其他誤差源。對于不同的誤差來源，需采用相應的一些技術手段，本文將通過重構或改造或利用一些分析方法，提出誤差抑制的相關性分析。值得關注的是，在較長序列的數據中，上述誤差可能會相互轉換，因此需要考慮不同計算法的混合應用。

根據誤差模型，應用歷史資料研究誤差分布，進而用于實時觀測的預測，也是一種研究思路。

此時根據原始觀測值與經過人工訂正后的歷史資料，做相應研究，如差分、樣條函數、最小二乘擬合等相關性研究，挖掘誤差分布情況。

2.2 數據質量控制技術

對于氣象觀測數據的質量控制，結合觀測設備的類型和觀測對象，國內外做了大量的算法研究[2-4]，如氣候學界限值檢查、氣候極值檢查、空間一致性檢驗、時間一致性檢驗、統計分析等。本文的自動站數據質量控制，綜合考慮實時業務中的時效性、準確性，除了結合這些成熟的技術外，還將根據具體的實時應用，改造或重構計算法，來滿足現有業務的部分急需應用。

此外，考慮到業務實時應用，將采用更多的輕量級的質控技術，遴選若干種后，最后做綜合評分，如果質控評估分值超大，則認為數據顯性異常，如果評估分值較大，則認為數據存疑。其他情況對數據放行。

根據觀測數據的統計分析，本文復合應用IQR、Z-Score、DBSCAN、LSM等方法進行平滑、濾波、外推研究，并根據其計算結果作為質量控制的依據。

2.3 差分游程技術

相鄰時次的觀測值之差，可以有效削弱系統誤差所帶來的影響，尤其是觀測對象本身變動有規律的情況下，差分結果跳變較大時，比較容易發現異常值，如氣溫、氣壓等要素。與此同時，當測量值出現不變或變動范圍很小時，需要改造差分算法，引入長序列穩態判斷，即需要對長序列數據進行監控，我們通過實時計算差分游程，來探測數據誤差的影響。

設觀測時次t1,t2，t3,...,tn,n為當前觀測，觀測值差分：DX(ti)=X(ti)-X(ti-1) ，則差分游程計算式如下：

其中α是游程標尺閾值，當α取0時，為嚴格的游程過程，容易描述長時序數據的穩定性，當取α非零值，不同觀測要素下，適當取值，容易描述長時序數據的微變性。統計連續0態或連續1態的資料觀測時次的次數，稱為穩定周期。表1為實際數據在不同標尺下的游程穩定性估測。

表1 游程穩定周期評估

從表1可見，隨著α增大，穩定周期由小逐漸變大，并開始趨于相對固定。在實際業務中，我們選取穩定周期相對固定的最小α值作為差分游程技術的游程標尺閾值。

2.4 鄰近判識

通過對區域自動站進行地理分析，從地理相似條件、距離、海拔等位置出發，嘗試匹配出每個站的若干鄰近站，用于對當前站的觀測數據質量進行研判。與此同時，本文嘗試引入雷達資料進行格點化，用于對某區域的自動站進行降水量輔助質量控制判斷。綜合這些方式方法，構建區域站鄰近判識技術。為找到最佳鄰近站，首先從地理相似條件出發進行篩選：

d={D[Fk(B,L,H),F(B,L,H)]}

其中F(B,L,H)為本站的GCCS地理坐標，Fk(B,L,H)為除本站外的其他站GCCS地理坐標，D為判斷函數，最簡單的一種方式是取歐氏距離，較復雜的方式可以考慮等緯度線、等溫線、等壓線等條件。d為篩選集合，在實際使用時，可取TOP5(例如，按歐氏距離由小到大排序后，取前5個)。通過計算，則每個站均能得到相應的鄰近站。

其次，針對每個站的鄰近站集，再通過歷史數據進行對比，找出其觀測要素相關性更好的站。要素相關性采用均方差計算(考慮到天氣過程的尺度問題，不同的觀測要素有不同的相關性屬性，需要設計更復雜的計算法，本文假設在同一尺度下進行各要素的相關性研究)，取均方差最小的作為觀測一致性符合程度的判識依據：

代入實際區域站相關信息運算后，并不能保證每個站都有理想的鄰近站。同時在實際運算過程中，該算法過程可以設置為動態學習過程，確保找到的鄰近站更能反映本站的一些特性，從而為本站數據質控提供參考依據。

天氣過程的尺度選擇依據，我們從某次天氣過程中的雷達回波演變過程，來粗略劃定一個區域，得到一個回波過程區域:經度范圍[118.00,118.45]，緯度范圍[26.75,27.25](按3小時演變，統計24小時的回波覆蓋區域)。

在這個區域內，再考慮測站的地理特性，并對選定的觀測站點進行遍歷計算，得到每一個參考站所屬的鄰近集。以F9742觀測站為例，得到相應的鄰近集如表2所示。

表2 TOP5鄰近集

針對每個參考站及其鄰近集，分析觀測要素的相關性(這里采用要素的均方差)：

進一步鎖定一個時間段內的最佳鄰近集，以此確定每個觀測站在實時業務中相當可靠的鄰近集。表3是部分鄰近判識的測算過程和最佳鄰近集選擇參考,統計表明歐式距離遠近能夠反映出部分相關性，距離越近相關性要強些，以F9742為例，對應最佳鄰近集的相關性計算結果如表3所示。

表3 最佳鄰近集

根據每個參考站的最佳鄰近集，可以采用大數判決、最小方差等方法，進行觀測預測，預測值可作為參考站的當前觀測值的質量控制依據。整個計算過程平滑滾動，其結果將隨學習過程而作動態調整，便于實時業務的應用展開。

2.5 概率落點技術

針對各種誤差所帶入的觀測要素，相關質量控制技術在國內外也做過大量的研究如空間一致性、時間一致性等均有不同程度的質量控制效果。本文針對相關地區的區域站在特殊環境，設計較短時序的概率落點技術，即統計分析較短時序下的觀測要素的相鄰觀測值相關性，構建落點統計矩陣，獲取相應落點概率，以此作為判斷短時效內觀測要素的變動范圍及質控依據。

記ti時次的觀測值對應ti+1時次的觀測值為落點C[X(tk)]，相同觀測值的相同落點計數加1,累積落點值∑X(tki)，得到落點統計矩陣：

針對落地統計矩陣，到落點概率分布：

其中，p(ki)=∑X(tki)/(∑X(tk1)+…+∑X(tkn))。

當C[X(tk)]是ti時次的觀測值對應ti+2時次的觀測值時，稱為二階落點，并對應相應的二階落點矩陣和二階落點概率分布，依此類推，本文暫不贅述。

經過一定時間的算法訓練后，落點概率分布將趨于穩態，學習時間越長，分布越穩定，但同時落點也變得更加離散，擴大判斷范圍，不利于質量控制應用。本文采用實際數據作為算法學習訓練依據，不同的觀測要素存在相應的最佳時間窗口。

從上述雷達回波過程中選取一塊區域進行研究，以F9742對應的降水量要素落點進行研究，過程描述如圖1所示。

(a)8日降水落點

計算表明，降水在8～9日之間有切變，與實際天氣過程較吻合；氣溫變化穩定，落點概率平穩，表明預測參考前一值(或前一天的當前時刻值)有一定意義；氣壓落點概率固定，后經數據驗證為氣壓計輸出值長時段內不改變。

3 結果分析

融合上述幾種計算法，我們針對每個站，利用一定時序的數據，預測下一個時次的數值，并結合實際值進行對比，觀測與預測對比如圖2所示。

圖2 觀測與預測對比過程(實際數據分析)

觀測值與動態預測值的相關系數為：

觀測值與動態預測值的均方差為：

圖3 觀測與預測對比過程(模擬異常值)

此時，觀測值與動態預測值的相關性系數為：Correl(X,Y)=0.293 ，觀測值與動態預測值的均方差為Stdev(X,Y)=7.01。這反映出相關性變低，兩者之間表現出背離。從圖3對比結果來看，預測值能夠較好符合實時觀測值，當出現顯性異常時，相關性背離加快，這在實時業務應用中具備了風險研判和數據質量訂正依據。

4 結論

自動站數據在災害性天氣監測預警中應用最廣泛、最直接，其數據質量對于預報分析和服務效果有直接影響。目前也有很多數據質控平臺專門對數據進行研究與應用，且也已經實現了快速質控、人工疑誤處理等多種處理方式。然而在實際業務中，仍然存在各式各樣的要素冒“大數”的現象，如雨量、風速、溫度等。本文主要從實際業務出發，業務數據入口之前通過一定的技術研究增加數據質量防火墻或預警墻，并取得了一定的預期效果。本文所提的計算法還有不斷完善和改進的空間，需要繼續探索國內外技術，以期繼續豐富數據的質量控制技術。