【摘要】 海濱觀測資料的前端質量控制,不涉及控制符,可以根據萊茵達準則和肖維勒準則判斷數據異常的真正原因,區分出含有過失誤差的異常值以及因周邊海況變化導致的正確異常值。本文在水文氣象自動觀測系統配備的計算機質量自動控制的基礎上,優化設置各要素的測量范圍,通過報警短信的模式發現異常數據,挑出非誤差產生而是因環境變化造成的正確異常數據,從而確定出海洋站的水文氣象要素數據合理性檢驗值。
【關鍵詞】 實時觀測數據;前端質控;異常值;識別;檢驗值
1、引 言
觀測資料數據文件質量控制根據數據傳輸節點,實行“海洋站-中心站-海區信息中心-國家海洋信息中心”四級質控體系,分成前端質控和后端質控兩個階段。前端質控的內容是是在計算機錄入前的預審,對錯誤或可疑記錄進行查詢、修改和處理,以及在計算機錄入或轉換過程中進行計算機自動質量控制。
這些數據采集錄入計算機后首先需經過計算機自動質量控制(自診斷)。質量控制的結果不是改變或簡單剔除數據,而是通過質量控制,實事求是地反應真實情況。雖然計算的“自診斷技術”可以剔除一部分“錯誤”數據以達到數據質量控制的前端處理(前端質控),但是不可能解決數據前端處理的所有質量問題。與機器故障有關的異常數據固然是錯誤數據可以被剔除。然而,對一些特殊情況如周邊環境的新變化導致該海域海洋環境的變化,從而造成數據與以往的歷史數據不同,這些情況產生的異常數據也許并非是錯誤數據,而恰恰是有可能成為有價值的數據,這是需要技術人員進行判斷后再做處理的。這些數據如果在海洋站-中心站沒有及時發現,在海區級或國家級質量控制中發現時,技術人員很難重現當時的環境找尋答案并加以判斷。
2、設計實現
2.1 整體思路
在自動觀測系統配備的計算機自動質量控制技術上(自動控制),利用質量檢查模塊和人機互動的方式研究判斷數據異常的真正情況(是機器異常抑或是海域周邊環境變化導致的結果),從而重新界定測量范圍,確定出特定環境變化下水文氣象各要素數據合理性檢驗值,有效地防止遺漏有價值的數據。
2.2 選取測量范圍
精準、恰當地選取要素測量范圍,才能確定出數據合理性檢驗值。如果上下界限設置太大,就變成要素允許方位檢查。如果范圍過小就會出現誤檢現象。因此,參照工程設計中極值方法提取要素設計值的置信區間的上下限作為要素極值的上下界值。
具體分成兩步驟實施:
第一步:保留計算機的自動質控技術的非法碼、合理性、唯一性檢驗方法完成第一步質控:促發短信報警,判斷是對規定的類型、格式、代碼不符合的數據,直接進行改正。
第二部:增加極值的概念,將范圍檢驗、相關性檢驗方法引入到海濱觀測資料中異常數據的判別方法和處理上來。
該步驟中,數據質量檢查模塊通過“范圍檢驗、相關性檢驗方法”檢查出超出原有測量范圍的異常數據。這些異常數據通過短信報警及時發現,并顯示在計算機可視化窗口上,然后通過人機互動方式,根據萊茵達準則和肖維勒準則進行判斷,具體如下:
如觀測值中含有隨機誤差,當 N 足夠大的時候,剩余誤差服從正態分布。萊因達準則規定凡是剩余誤差超出±3σ,即 | Vi |>3σ則認為該剩余誤差Vi 為過失誤差;
肖維勒準則:當樣本的觀測次數 N 較少時,若出現概率小于或等于1/2N的剩余誤差,則認為是過失誤差。過失誤差判別公式為下式:
| Vi |>Zgσ
用 Vi 的標準差 S 代替 σ,Zg可從標準正態分布表查出。
3、數據處理
a)對于過失誤差的異常值,根據《海濱觀測規范》的要求在資料的質控中加以標識或刪除,留待后端質控上加以判斷處理;
b)對判斷出有可能因海況急劇變化造成的異常數據,短信呈現給海洋站值班員進行實地考察核實,核實確認清楚后將正確的異常數據更正為正確值,并且在原有區間下參照統計學計算置信區間的方法,重新界定測量范圍上下限極值——也就是測量范圍(區間),然后將要素極值用乘以;一個放大系統代替通過概率分布函數推求的極值。計算公式如下:
其中Ei+ Ei- 分別代表各要素第i月的上下界值; Emax,i Emin,i分別為第i月各要素從建站到所測年份的最大最小值,a 為范圍放大因子,與要素的變率有關;σ為要素的標準差, 分別表示向上和向下取整。從而確定出特定環境變化下該海洋站潮汐、風要素數據合理性檢驗值。
參考文獻:
[1].海洋水文氣象實時數據質量控制
[2].王海軍,楊志彪等. 自動氣象站實時資料自動質量控制方法及其應用