雷發美,萬 艷,商少平,陳劍橋
(1.廈門大學海洋與地球學院,福建 廈門 361005;2.廈門大學海洋觀測技術研發中心,福建 廈門361005;3.福建省水產設計院,福建 福州 350003;4.福建省海洋預報臺,福建 福州 350003)
隨著國家對海洋的重視,我國的海洋開發和管理日益加強,海洋經濟日益繁榮,極大地推動了海洋觀測系統的發展,也促進了海洋觀測儀器的技術革新及海洋觀測數據種類和數據量的快速增長。多源海洋觀測數據的融合和同化將成為準確描述和預測近岸和開闊大洋的物理、生物、化學狀態的關鍵技術,進而服務于科研和社會的多種應用。在海洋環境預報、海洋工程建設、海洋災害應對、海洋權益保障等方面,海洋環境觀測資料提供了重要的基礎信息,是不可缺少的依據,尤其是高質量的監測數據能夠科學地反映海洋環境,而這一切的前提是對多源數據的質量有清晰明確的認識,即要求對各種海洋觀測系統和平臺所獲取的數據有簡便、可靠的質量描述與控制。然而,在實際觀測過程中,數據采集、傳輸、保存、儀器故障、采樣地點的偶發事件等一系列因素都可能對觀測結果產生影響,導致數據出現異常。目前,對來源眾多、格式不一、數據量越來越大、時效性越來越高的多源觀測數據,實行準確有效的數據質量評估和控制是海洋工作者面對的重大挑戰之一。海洋觀測數據的獲取更新、整合處理、管理應用和共享服務等工作已經成為社會各界共同關注的議題。
20世紀末開始,美國環境保護署(United States Environmental Protection Agency,EPA)建立了一系列標準化的數據質量控制和質量評估方法,即《數據質量評估導則》[1-2],對環境監測數據進行質量評估[3]。美國海洋政策委員會(United States Commission on Ocean Policy)于2012—2016年完成實時海洋數據的質量保證與質量控制計劃,該計劃針對26個物理、化學和生物等方面核心要素的實時海洋觀測數據建立了標準化的質控流程[4]。日本海洋學會(The Oceanographic Society of Japan)也將海洋數據質量控制作為重要的工作內容[5]。我國海洋監測數據的質量控制主要依據GB 4883—2008《數據的統計處理和解釋 正態樣本離群值的判斷和處理》[6]、GB/T 14914.6—2021《海洋觀測規范第6部分:數據處理與質量控制》[7]、《海洋監測質量保證手冊》[8]和HY/T 0315—2021《海洋觀測延時資料質量控制審核技術規范》[9]。
為了保證海洋監測數據的代表性、完整性、精密性、準確性和可比性(即“五性”),近年來國內外都將數據質量控制和評估作為海洋觀測的重要內容來考慮,并陸續建立一系列標準化的質量控制或評估流程和方法[10]。海洋監測數據具有多源性、多態性、多樣性和區域性等特征,這就決定了對數據質量的控制和評估不能一概而論,需要結合具體的觀測方式、觀測平臺和觀測區域等要素來綜合考慮。雖然在海洋數據質控方面存在大量研究成果,但主要是圍繞質控共性理論方法的探究[11],專門針對浮標表層環境要素數據質控流程和方法的研究較少[12]。本文主要研究海洋浮標表層環境要素數據的質控,并對質控結果進行分析,以此來建立一種可靠且實用的數據質量控制流程和方法,該方法流程清晰,簡潔實用,正常情況下不需人工干預就可以有效檢出異常數據,質控過程中采用誤差控制,可最大限度防止誤刪,并且質控后對每個值進行質量標識,根據質量標識可以快速追蹤數據異常的原因,為最終獲得完整、準確、質量可靠的海洋觀測數據提供保障。
海洋浮標包括大型海洋環境監測浮標和小型海洋環境監測浮標,兩者觀測要素基本相同,數據格式也基本相同[13],主要包括剖面流速、剖面流向、有效波高、平均波高、最大波高、1/10大波波高、有效波周期、平均周期、最大波高周期、1/10大波周期、平均波向、波數(測波個數)、平均風速、平均風向、最大風速、氣溫、氣壓、能見度、相對濕度、表層水溫、電導率、表層鹽度等表層環境要素和溶解氧、溶解氧飽和度、葉綠素、濁度、pH等生化要素,另外,數據中還包括浮標名稱或編號、時間、經度、緯度、儀器狀態等信息。本文僅對大浮標表層環境要素進行質控,但不包括海流。
質控流程一般分為計算機自動質控和人工審核兩部分,其中計算機自動質控部分包括數據前處理質控、數理統計質控、局地質控和誤差控制等4個部分,人工審核包括剔除未自動識別出的異常值和恢復被誤刪的正確值。質控過程中根據每步質控結果對數據進行質量標識,標識出正確數據、未評估數據、可疑數據、錯誤數據和缺失數據等。
1.2.1 前處理質控
在浮標表層環境要素數據記錄中,空白值一般為特殊符號或者缺省值,該值的存在嚴重影響數據的處理和后續質控的進行,應優先剔除。在某些情況下,僅從數據本身很難判斷該值是否為需要的測量值,比如跑標,因此要從時間、地點和日志等多方面進行檢驗,基本屬性錯誤的數據直接剔除。若獲取的數據明顯超過該區域歷史觀測資料的范圍,也判定為錯誤值,直接剔除。因此,前處理質控主要包括空白值檢驗、時間檢驗、位置檢驗、設備日志檢驗和閾值檢驗等。
(1)空白值檢驗
空白值檢驗包括空格和缺省填充值檢驗,海洋觀測資料一般是按照規定的格式進行記錄的,對缺測數據的填寫都有相應的要求,一般用預先設置的值(明顯區別于正常值)進行填充。檢驗時,空格不處理,缺省值直接剔除。
(2)時間檢驗
時間檢驗包括時間范圍和時間連續性檢驗。數據的觀測時間應在質控數據的起止時間范圍內,觀測時間不合理的判定為異常值;依據數據的觀測頻率進行連續性判斷,刪除不在理論采樣時間點的數據,同時補充缺失的理論采樣時間點的數據記錄,要素觀測值設置為空格。對于時間間隔不規律的觀測,不進行連續性檢驗。
(3)設備日志檢驗
根據設備的工作情況記錄,對儀器維護、故障等非正常運行期間的數據,各要素觀測值直接剔除。
(4)位置檢驗
若浮標位置信息缺失,一般問題不大(浮標通常比較固定),將缺失經緯度的觀測要素值標識為可疑值,參與后續處理。若某一時刻浮標位置明顯超出預先設定的范圍,該位置及其對應的要素值均判定為異常值。若一段時間內浮標位置不斷變化,則可能發生移標(跑標或人為移動),位置變化過程中的所有數據判定為異常值,穩定后數據保留。
(5)閾值檢驗
對監測參數在該區域歷史觀測資料中的范圍進行統計,找出該監測參數的取值變化范圍,指導參數閾值范圍的劃分,超出閾值范圍的數據判定為異常值,但要注意邊界值,比如波高和風速記錄值為0的時候,有可能是正確值。
1.2.2 數理統計質控
數理統計是以概率論為基礎研究大量隨機現象的統計規律性的一門數學學科[14]。數理統計檢測數據異常的方法一般具有普適性,應用范圍廣泛,但需要滿足一定的數據量,且該數據具有隨機性,這樣才具有穩定性和準確性。對于浮標數據來說,數據量一般不是問題,長時間觀測獲得了大量的數據,在隨機性方面,基于成本考慮,一個變量同一時刻一般只有一個測量數據,等到下一個時刻再次測量時,環境參數可能已經發生了變化,無法對同一參數進行多次獨立重復測量,也就是說,隨著時間的推移,獲取的變量數據不是隨機的。為了使用數理統計理論,需要做一個假設:在t時刻測得某個變量值,在時刻之前測n個數據,在t時刻之后測m個數據,把這些數據視為一個整體,看成是對同一個變量的多次測量,環境引起的變化視為隨機變化造成的,于是可以對該數據使用數理統計方法。基于該假設,對浮標數據進行質控時,時間窗口的選擇尤為重要。
基于以上假設,可以用數理統計的方法來檢驗數據,數理檢驗的方法很多,各方法基本原理大同小異,但不同情形下采用的準則有所不同[15]。選取數理檢驗方法時,遵循簡單易用并且大家都比較熟悉和公認的方法,同時參照國家標準[6]和行業標準[9],選擇幾種適當的方法對各種要素進行多次檢驗,防止漏檢。本次采用的數理統計質控方法主要有萊特檢驗(三倍標準差)、奈爾檢驗、格拉布斯(Grubbs)檢驗、狄克遜(Dixon)檢驗、峰度檢驗等。
(1)萊特檢驗
萊特準則是一種正態分布情況下判別異常值的方法,比較適用于樣本n>10的情況,具有普適性。σ為已知的總體標準差,為樣本均值,若第i個測量值xi對應殘差的絕對值滿足式(1),則判定該測量值xi為異常值。

(2)奈爾檢驗
當已知標準差時,使用雙側奈爾檢驗法,樣本量為3≤n≤100,該檢驗主要針對短時間內高頻測量數據,此時可以把儀器的精度當作標準差來使用。

確定檢出水平α后,從國家標準[6]查表A.1得出臨界值R1-α/2(n),當Rn>Rn′且Rn>R1-α/2(n)時,判定xn為可疑值;當Rn′>Rn且Rn′>R1-α/2(n)時,判定x1為可疑值。對可疑值確定剔除水平α*,從國家標準[6]查表A.1得出臨界值R1-α*/2(n),當Rn>R1-α*/2(n)時,判定xn為異常值;當Rn′>R1-α*/2(n)時,判定x1為異常值。
(3)Grubbs檢驗
未知標準差時,可以使用雙側Grubbs檢驗法,樣本量為3≤n≤100。
對樣本最大值計算統計量如下。

確定檢出水平α后,從國家標準[6]查表A.2得出臨界值G1-α/2(n),當Gn>Gn′且Gn>G1-α/2(n)時,判定xn為可疑值;當Gn′>Gn且Gn′>G1-α/2(n)時,判定x1為可疑值。對可疑值確定剔除水平α*,從國家標準[6]查表A.2得出臨界值G1-α*/2(n),當Gn>G1-α*/2(n)時,判定xn為異常值;當Gn′>G1-α*/2(n)時,判定x1為異常值。
(4)Dixon檢驗
未知標準差時,可以使用雙側Dixon檢驗法,樣本量為3≤n≤100。
對樣本最大值xn和最小值x1計算統計量Dn和Dn′,計算公式見表1。

表1 Dixon檢驗統計量計算表
確定檢出水平α后,從國家標準[6]查表A.3′或C.2得出臨界值D1-α(n),當Dn>Dn′且Dn>D1-α(n)時,判定xn為可疑值;當Dn′>Dn且Dn′>D1-α(n)時,判定x1為可疑值。對可疑值確定剔除水平α*,從國家標準[6]查表A.3′或C.2得出臨界值D1-α*(n),當Dn>Dn′且Dn>D1-α*(n)時,判定xn為異常值;當Dn′>Dn且Dn′>D1-α*(n)時,判定x1為異常值。
(5)峰度檢驗
分析樣本觀測值,發現樣本主體來自正態總體而極端值較明顯偏離樣本主體時,可以使用峰度檢驗法。峰度統計量公式如下。

確定檢出水平α后,從國家標準[6]查表A.5得出臨界值b1-(αn),當bk>b1-(αn),判定離均值最遠的值為可疑值。對可疑值確定剔除水平α*,從國家標準[6]查表A.5得出臨界值b1-α(*n),當bk>b1-α(*n)時,判定距離均值最遠的值為異常值。
1.2.3 局地質控
浮標觀測數據是多樣的,有些數據通過數理統計方法不能有效地檢出,比如短時間內整體漂移或者長時間數值不變,因此,引入局地質控檢驗[12],主要包括梯度檢驗、卡值檢驗(粘滯檢驗)、尖峰檢驗、濾波檢驗和關聯性檢驗等。
(1)梯度檢驗
梯度檢驗主要是針對短時間內數據的整體漂移,該部分漂移值用數理檢測方法難以檢出,而使用梯度檢驗效果較好。對同一個站位某一要素的連續觀測數據計算梯度(即觀測要素的時間變化率),計算公式如下。

式中,t為觀測時間;ξ(t)為時刻的觀測值;gradξ(t)為梯度。
對梯度進行三倍標準差檢驗,在一個梯度數據序列中,如果兩個梯度數值都超出三倍標準差并且這兩個數據相隔時間較短,則認為該段數據出現了整體偏移,這兩個數值之間的整段數據判定為異常值,剔除后繼續對剩余數據檢驗,直到沒有異常數據檢出。
(2)卡值檢驗
觀測儀器靈敏度和精度足夠的情況下,海洋觀測要素受流體動力因素的影響,在一定時間或空間內不會恒定不變,若恒定不變,則數據可能異常,需要進行卡值檢驗,具體方法如下。
找出某段時間中要素最大值xmax和最小值xmin,兩者之間的差值應大于一定的值,否則該段數據判定為異常數據。

式中,H為卡值檢驗參數,根據要素類型、觀測時間和區域等確定,通常取值接近0。
(3)尖峰檢驗
在數據量較少時,數理統計方法比較難以判斷是否為異常值,可以采用尖峰檢驗,計算公式如下。

式中,β是臨界系數,根據不同的觀測要素進行設置,并且默認前一時刻值xn-1和后一時刻值xn+1均為正常數據,大于臨界系數的判定為異常值。
(4)濾波檢驗
濾波方法有很多種,根據不同的變量可以采用不同的濾波方法,比如限幅濾波法、中位值濾波法、算術平均濾波法、遞推平均濾波法、中位值平均濾波法、限幅平均濾波法、一階滯后濾波法、加權遞推平均濾波法、消抖濾波法、限幅消抖濾波法、卡爾曼濾波等。每種濾波方法有各自的優缺點,根據質控變量數據本身的性質,選擇合適的濾波法,可獲得較好的效果,該方法主要用于海流檢驗。
(5)關聯性檢驗
根據觀測資料數據間的相互關系進行檢驗,例如電導率、鹽度和水溫之間的關聯性,這三個變量之間存在函數關系,水溫異常會導致電導率、鹽度異常,電導率的異常會導致鹽度異常等。風、浪和流之間也有關聯性,風速增大會導致波浪變高、流速變快等。當風速突然變大為確定事件時,例如臺風天,對浪和流檢出的異常值要引起注意,很可能是正確值。
此外,由于矢量包括大小和方向,兩者分別進行質控,若其中一個量為異常值,則判定該矢量為異常值,對質控后的矢量再分解為東分量和北分量,若其中一個分量為異常值,則判定該矢量為異常值。
1.2.4 誤差控制
在數理統計質控中,做了一個隨機的假設,但事實上觀測數據并不是隨機的,因此基于該假設的計算結果無法保證準確性,甚至有可能是錯誤的,需要進一步對結果進行檢驗,檢驗方法主要采用誤差控制法,把檢測結果與相鄰數據進行比較,超過誤差控制值的才判定為可疑值或者異常值,該檢驗可以有效防止因儀器本身誤差而造成的過度刪除。

式中,xE為xn前后時刻的相鄰值(也可以取平均值);Er為誤差控制值。Er可以分為理論誤差值和經驗誤差值,理論誤差值是基于儀器自身精度來計算的,根據誤差傳播定律[16],兩次獨立測量的差值最大允許范圍為儀器精度的倍,即Er可取對應儀器精度的倍;經驗誤差值則是根據實際經驗,認為一段時間內差值要大于某一特定值(或者百分比)才算異常值,該值可以根據不同時間、不同地點、不同變量而設不同的值。一般來說,經驗控制誤差值要大于理論控制誤差值。當xn與xE差值不大于誤差控制值時,判定xn為正常數據,不能剔除。誤差控制部分不單獨使用,在每個異常數據檢出后均進行誤差控制檢驗。
1.2.5 人工審核
由于數據的多樣性和環境變化復雜性,通過以上質控步驟不能完全達到質控要求,可能有部分錯誤數據沒被檢出,也有可能會誤刪部分正確數據,比如過于稀疏的數據、臺風過境的數據等,因此還需要進行人工審核。人工審核一般通過繪制可視化的圖形進行對比,觀察挑選出遺漏的錯誤數據,同時恢復誤刪的正確數據。
1.2.6 質量標識
參照美國海洋政策委員會開展的實時海洋數據的質量保證與質量控制計劃[17],對各觀測要素質控后分離出的數據進行質量標識,正確數據標識為1,未評估數據標識為2,可疑數據標識為3,錯誤數據標識為4,缺失數據標識為9,在此基礎上,為了便于區分和追蹤質控過程,對每種質控檢驗方法也都給定相應的編號,兩兩相互組合,詳細情況見表2,根據質量標識就可以快速了解可疑值和異常值的檢出原因。

表2 檢驗方法及質量標識
由于質控是按固定流程進行的,異常值第一次檢出時就會被剔除并進行標識,而可疑值會繼續保留參與質控直到流程結束,所以異常值的標識為第一種檢出異常值的方法,而可疑值的標識為最后一種檢出可疑值的方法。比如質控后某個異常值標識為4.23,表示該值在Grubbs檢驗時未通過,判定為異常值,雖然該值在Dixon檢驗時也可能是異常值,但Grubbs檢驗在前面,該值已經被判定為異常值,不參與后面的Dixon檢驗。同樣的,如果質控后某個可疑值標識為3.25,表示該值在峰度檢驗時判定為可疑值,當然在Grubbs和Dixon檢驗時也可能是可疑值,但只保留最后一個檢驗出可疑值的方法。
1.2.7 質控流程
根據浮標數據的特點,采用了前處理質控、數理統計質控、局地質控、誤差控制、人工審核及質量標識等步驟,其中誤差控制只有在數理統計和局地質控未通過時才使用,質量標識在每個數據檢驗完成之后進行,整個質控流程步驟見圖1。質控時,不同要素質控流程會有所不同,有些要素無法使用數理統計或者局地質控。

圖1 質控流程示意圖
本文使用的海洋浮標數據來源于福建省海洋觀測網的海洋1~5號大浮標和海峽1~2號大浮標(該浮標命名在行業標準[18]執行之前,故未按標準命名),數據時間從2017/01/01 00∶00開始至2017/01/15 23∶50結束,采樣間隔均為10 min,各浮標數據信息見表3。
采用以上質控流程和方法,對海洋1號大浮標數據按要素逐一進行質控,時間窗口約為1 d(數理統計部分每次檢驗最大為100個數據),質控參數的選取參考浮標觀測的時間、地點、歷史資料等,控制誤差均設置為經驗誤差,各要素閾值范圍和控制誤差見表4,其中波向、風向、波數、能見度等幾個要素未進行數理統計檢驗,不設控制誤差。

表4 質控參數設置
一般來說,前處理質控對所有要素均適用,只是參數的選擇有所不同,但數理統計和局地質控對不同要素質控時應當選擇適當的檢驗方法。比如能見度,在一段時間內大部分數據為固定值,但也可能存在突然變化的情況,因此,不能使用數理統計質控檢驗方法。矢量中的方向也要注意,由于方向取值范圍為0°~360°,但0°和360°是同一個方向,所以方向數值未做處理時,一般的異常值檢測方法都不適用。針對各要素的特點,以海洋1號大浮標為例,海洋表層環境不同要素質控方法的選取和異常數據檢出情況見表5,質控前后對比見圖2至圖7(僅給出部分圖,無數據或者無效數據過多者略)。

圖2 海洋1號大浮標有效波高和平均波高質控前后對比圖

圖7 海洋1號大浮標相對濕度和表層水溫質控前后對比圖

表5 海洋1號大浮標各質控方法檢出異常值情況
從表5質控結果來看,海洋1號浮標理論記錄為2 160個,實際記錄為2 087個,缺失73個,波數和表層鹽度數據基本缺失。檢出的異常值中,閾值檢出占大部分,主要是因為空白部分數據記錄為0,這些空白值通過閾值檢出。平均波高和平均波向、平均風速和平均風向則通過關聯性檢出部分異常值,但需要注意的是,由于測量原理和儀器不同,該矢量可能不是嚴格意義上的關聯矢量(大小和方向分別測量),可根據需要選擇關聯性質控。日至15日7個大型海洋浮標各要素數據質控統計結果見表6,該表中的異常值個數不含缺測數據,空白值(包括空值和填充值)在異常值后面用括號單獨列出。

圖3 海洋1號大浮標平均波向和最大波高質控前后對比圖

圖4 海洋1號大浮標1/10大波波高和平均風速質控前后對比圖

圖5 海洋1號大浮標最大風速和氣溫質控前后對比圖

圖6 海洋1號大浮標氣壓和能見度質控前后對比圖

表6 各個大浮標表層環境要素異常值個數統計
對7個海洋浮標質控檢出的異常值進行人工審核時,發現平均風速誤刪較多,刪除標識為4.34,表明是關聯性檢驗時刪除,進一步查詢原數據,發現是浮標數據記錄的問題,當風向為0°的時候記錄為空白,導致質控時風矢量被判為異常值。對于該異常值,風速大小通過數理統計未出現明顯異常,但缺少對應的風向,可以根據需要是否保留使用。
一般來說,通過質控處理后如果還有未被剔除的異常數據,很容易通過作圖比較看出,但是如果有誤刪則比較難以發現。在引入誤差控制后,誤刪的可能性較小,從質控結果來看,誤刪一般發生在極端天氣或者有效數據太少的情況下,另外有些臨界值也不容易判定是否為異常值。
以海洋1號大浮標有效波高為例,實際數據記錄為2 087條,以個人經驗判斷,原始數據圖8中紅線以下部分的數據都可能是異常值,共81個值。通過以上質控檢出79個異常數據(表5),有2個數據未被判定為異常數據,見圖8中A、B兩點。通過查看數據發現,2017年1月2日21點40分(即A點)有效波高值為0.3 m,兩側鄰近值為0.7 m,其對應的質量標識為3.25,表明該值被判定為可疑值;另一個出現在2017年1月7日23點10分(即B點)有效波高值為0.4 m,兩側鄰近值為0.7 m,其對應的質量標識為1,表明該值判定為正確值。究其原因,在質控過程中,把控制誤差設定為0.5 m[19],只要不超過控制誤差都判定為正確值,由于A、B點與兩端的差值均沒有超過控制誤差,所以不會被判定為異常值。因此,通過質控后A點被判定為可疑值(數理統計判定),B點被判定為正確值。從圖8中也可以看出,A、B兩點與其他異常值所處的環境條件是不同的,這兩點處于波谷,環境的變化加上儀器測量的誤差,這個測量值可能是真實的,所以這個質控結果是合理的。

圖8 海洋1號大浮標有效波高原始數據圖
通過對7個浮標各海洋表層環境要素質控前后數據和圖形對比可以看出,該質控流程和方法達到了預期的目標,異常值均被檢出并且剔除,沒有發現明顯異常。基于以上質控結果,采用該質控流程和方法對小浮標、漁排基、潮位站等同類型觀測站點獲取的海洋表層環境要素數據進行質控,同樣可得到滿意的結果,但由于不同站點的觀測要素不完全相同,在輸入、輸出和前處理等方面要做出相應的改變。
針對福建省海洋觀測網的7個海洋大浮標表層環境要素數據,通過前處理質控、數理統計質控和局地質控后可以有效地檢出異常數據,再通過人工審核對一些特殊數據進行處理,最后可根據數據的質量標識,追蹤數據質量的判斷依據。本文對海洋浮標表層環境要素數據質控流程和方法的研究結論如下。
(1)前處理質控很有必要,因為浮標數據不可避免地會有空白值及儀器維護和故障等,這些值嚴重影響數理統計質控。數理統計質控是質控的核心部分,可以有效地檢出異常數據,使用多種數理統計方法檢驗,防止漏檢。
(2)誤差控制是質控過程中的重要環節,數理統計和局地質控檢出的每個異常值都要進行誤差控制,能有效防止誤刪,人工審核為漏檢和誤刪做最后把關。
(3)質控后對每個值進行質量標識,根據質量標識可以快速追蹤數據異常的原因,后期也可以按照質量標識根據實際需要使用數據。
(4)本文質控流程和方法思路清晰,簡潔實用,由于在不同質控環節使用多種質控方法,一般情況下不需人工干預,但是在特殊環境下,存在誤刪的可能。
(5)本文質控是基于大型海洋浮標表層環境要素延時資料提出的,但也適用于其他同類型海洋觀測平臺獲取的延時或實時資料。