王立俊,施晨曉,王 旭,賀永興,吳 軍
(1.海南省氣象信息中心,海南 ???570203;2.海南省南海氣象防災減災重點實驗室,海南 ???570203)
土壤水分是土壤的重要物理參數,準確地測量土壤水分及其變化,對了解土壤水分狀況,指導灌溉施肥和研究土壤水分運動具有十分重要的意義[1]。中國是一個農業大國,農業生產對氣象服務的需求與日俱增。土壤水分觀測則是農業氣象觀測的重要組成部分,其資料的應用,對掌握土壤水分變化規律,提供實時農業生產服務和氣象防災減災具有重要意義[2]。
海南省自2010年開始安裝、建設土壤水分自動觀測站;2012年,第一批自動土壤水分站通過了中國氣象局的考核驗收,開始業務化運行。截至2013年底,海南已建成自動土壤水分站18個,全部通過中國氣象局驗收,成為業務考核站,其分布情況如圖1所示。

圖1 海南省土壤水分自動觀測站分布圖
中國氣象局與各省、市級氣象局設計研發了國家級-省級-臺站三級質控的MDOS(meteorological data operation system)氣象資料業務系統[3],實現對各種類型的氣象原始觀測數據進行質控和以人機交互的形式審核質控后產生的疑誤數據[4-5]。
氣象信息共享系統CIMISS(China integrated meteorological information service system)由中國氣象局設計、研發,整個系統由五個功能模塊組成,分別是:收集與分發模塊CTS、數據加工處理模塊DPC、數據存儲管理模塊SOD、綜合業務監控模塊MCP、數據共享服務模塊GDS。這些模塊分別部署在國家和各省級節點,對各種氣象資料和產品進行收集、加工、存儲及服務,是氣象業務、服務和管理的核心基礎數據支撐平臺[6],是MDOS系統的數據來源。
目前,MDOS系統使用通用閾值來質控土壤水分觀測數據中0~100 cm土層要素,篩選出的疑誤數據以“未通過降水關系檢查”為主提示到值班人員,許多疑誤數據被誤檢、漏檢,使值班人員的審核效率低下。
針對上述問題,通過分析海南各臺站歷年小時土壤水分觀測數據不同土層的特異性,總結出不同土層各要素的閾值范圍,引入氣候極值檢查、時變檢查、持續性檢查等檢查方法,提出基于CIMISS的MQCSM(multiple quality control method of soil moisture)算法。該算法采用多時次、多方法的方式質控原始土壤水分觀測數據,能快速、準確地篩查出疑誤數據,值班人員閱覽web頁面查看疑誤信息。業務試用結果表明,系統能有效地質控出更多的誤檢或漏檢土壤水分疑誤數據,提高值班人員審核疑誤數據的效率。
目前,國內外氣象研究者設計研發了各種質量控制系統,用于對不同類型的氣象數據進行質量控制。例如:在地面觀測業務中,北歐國家使用臺站級質控、入庫前實時質控、入庫后非實時質控和人工質控等多種方式質控地面自動站觀測數據[7],美國使用臺站-州-國家三級質控方式來質控觀測數據[8],中國使用臺站級、省級和國家級三級質控方式,由下至上地對觀測數據進行質量控制。
在不同的質量控制系統中,所使用的數據質量控制方法分為以下五種[9-14],分別是氣候界限值檢查、臺站極值檢查、內部一致性檢查、時間一致性檢查和空間一致性檢查。
(1)氣候界限值檢查:一般是從氣候學的角度去判斷某個氣象要素的數值是否超過了不可能出現的氣象要素臨界值[9],通過設置極值上下界來判定要素數值是否正確。
(2)臺站極值檢查:通常是檢查原始觀測數據中某個要素值是否超出臺站已出現過的歷史極值,若數值超過歷史極值,由觀測員分析站點歷史數據,按照實際情況和工作經驗判斷觀測數據的正確性[10]。
(3)內部一致性檢查:在同一時次或時段內,不同氣象要素之間是否滿足一定的物理關系。若不滿足這些關系,則至少有一個氣象要素為錯誤數據[11]。
(4)時間一致性檢查:在連續時間段內,某個氣象要素必須滿足一定的規律性變化。如最高氣溫存在明顯的日變化,若連續24小時數值不發生變化,則可判定為疑誤或錯誤。
(5)空間一致性檢查:在同一空間上(相鄰站點),同一氣象要素滿足一定的連續性,常用方法有空間插值法、Madsen方法[13]、空間回歸檢查法[14]等。
該文設計的質控平臺是基于CIMISS接口服務進行研發的。在CIMISS系統中,觀測數據的處理流程如下:CTS模塊實時收集市、縣臺站及無人自動站上傳至省級節點的各類氣象觀測數據,自動對上行數據進行格式檢查,快速質控等操作,接著分別分發至國家級和DPC等分發地址;DPC模塊實時對分發數據進行解碼入庫,由數據簡約處理流程負責入庫地面資料、高空資料等結構化數據,雷達、衛星云圖等非結構化數據由SOD模塊中的處理流程負責入庫;MCP模塊實時接收CTS、DPC等模塊發送的處理及告警信息,并監控、預警各類觀測數據的處理狀態;將數據庫中的數據封裝成MUSIC接口,對外提供數據訪問服務。
該文設計的質控平臺的開發架構采用SSH框架技術,以B/S模式來跨平臺呈現逐小時土壤水分質控結果。SSH框架是由Struts 2、Spring和Hibernate組成的,屬于主流的輕量級J2EE軟件開發架構。采用該框架開發應用,能較好地對應用功能模塊分層、解耦,簡化系統開發的復雜度,縮短系統開發時間,使系統具備良好的可拓展性和可移植性。
其中,Struts2是以Webwork為核心的邏輯控制器,采用攔截器機制來響應前端用戶提交的web請求,將Servlet與業務邏輯控制器分離[15]。Spring是屬于輕量級的Java Web框架,通過配置文件及事務管理機制,可靈活管理多種數據庫,提供多元化的業務邏輯[16]。Hibernate采用O/R Mapping技術,通過配置XML文件或Annotation注解為Java對象和各類數據庫中的表結構建立一種或多種映射關系,操控對象即操作數據庫[17]。
目前,MDOS系統使用通用閾值來質控土壤水分觀測數據,使得部分疑誤數據被漏檢和誤檢,降低值班人員的疑誤數據篩查效率。因此,通過分析、研究海南地區各臺站土壤水分觀測數據不同土層要素的特異性,總結出不同土層的閾值范圍,并引入時變檢查、持續性檢查等檢查方法,提出基于CIMISS的MQCSM算法。該算法對不同土層的要素值進行質控檢查,能快速、有效地質控出土壤水分疑誤數據。
海南地區的原始土壤水分逐小時觀測數據僅在0~10 cm、10~20 cm、20~30 cm、30~40 cm、40~50 cm五個土層有實際的觀測數值,這些觀測參數分別是土壤體積含水量Q(%)、土壤體積重量含水率w(%)、土壤相對濕度R(%)和土壤有效水分貯存量u(mm),其中通過Q可計算出w,R和u的數值,具體公式見《土壤水分觀測 頻域反測法》[18]。
該文使用的具體質量控制方法共四種:(1)界限值檢查;(2)極值檢查;(3)時變檢查;(4)持續性檢查。選取2018年1月至2019年12月時間段,共計314 908條原始土壤水分逐小時觀測數據,分析、總結出0~50 cm五個土層各土壤要素的閾值范圍,用于檢查不同土層中的不同要素是否疑誤。
2.1.1 界限值檢查閾值選取
根據《自動土壤水分觀測規范(試行)》的規定,自動土壤觀測儀傳感器對各層土壤體積含水量的閾值范圍是0%~50%。分析海南地區2018至2019年的逐小時觀測數據分析,發現大多數臺站的各層土壤體積含水量數值(尤其是表層)往往大于50%,結合樣本的數據特征,將界限值檢查中土壤體積含水量的閾值范圍設為0%~60%,當某一層次的Q被判定為疑誤時,同一層次的w,R和u均為疑誤。
2.1.2 極值檢查閾值選取
統計、分析2018年至2019年期間的各臺站0~50 cm土層中各土壤水分要素的極值,得出不同土層的體積含水量數值變化范圍較大,最小值有4%,最大值有99%,且最大值基本分布在30~40 cm土層,確定不同土層各要素的閾值范圍,如表1所示。

表1 不同土層各要素的閾值范圍
2.1.3 時變檢查閾值選取
時變檢查是檢查0~50 cm土層中某土壤水分要素前后2個時次的變化值是否落在合理的閾值范圍內,這是因為無降水、觀測儀器傳感器無故障或其他外界因素影響時,要素的變化值在一定時間內波動較小。對所選取的業務樣本數據進行個例統計和分析,總結出適用0~50 cm土層各要素相鄰時次變化值的閾值范圍,如表2所示。

表2 各要素相鄰時次變化值的閾值范圍
其中,ΔQ0~20表示0~20 cm土層體積含水量當前時次與上一次的變化值,其中ΔQ30~50表示30~50 cm土層體積含水量當前時次i與上一時次i-1的變化值,如式(1)所示,其他要素類似,不逐一詳述。
(1)
2.1.4 持續性檢查閾值選取
持續性檢查是檢查土層中各土壤要素的數值在一段連續時間段內是否發生變化,若數值未發生變化,則有可能是觀測儀器存在故障問題,或是觀測儀器周圍受到積水影響。此外,由于深層土壤各要素數值變化幅度不大和土壤特性,該文將持續性檢查中的時間時長設為48小時,若某個土壤要素在設定的時長內未發生變化,則判定為“疑誤”。
MQCSM算法采用上述檢查方法對海南土壤水分站0~50 cm土層的各土壤要素進行質量控制,實現對土壤水分數據的多重質控,及時、有效地篩選出疑誤數據。根據選取的檢查方法,算法思路主要分為三個部分,如圖2所示。

圖2 算法流程
(1)閾值初始化:使用上小節的閾值選取來初始化0~50 cm土層各檢查方法的閾值范圍,閾值范圍可根據實際情況自定義調整。
(2)多重質控檢查:依次對待質控時次的土壤水分數據進行質控檢查,整個流程按檢查方法分為四個部分,分別是:(a)對0~50 cm土層中的體積含水量Qn0i(n∈(1,2,3,4,5))進行界限值檢查,其中Q10i表示某一時次的10 cm土層體積含水量,其他土層類似。若Qn0i的數值不在閾值范圍內,則判定Qn0i為疑誤;(b)對0~50 cm土層的重量含水率wn0i、相對濕度Rn0i、有效水分貯存量un0i進行極值檢查,w10i、Rn0i和un0i的表示與Q10i類似,n∈(1,2,3,4,5)。若w10i、Rn0i或un0i的數值不在閾值范圍內,則可判定該要素為疑誤;(c)對0~50 cm土層的體積含水量時變值ΔQn0、重量含水率時變值Δwn0、相對濕度時變值ΔRn0和有效水分貯存量時變值Δun0進行時變檢查,這里用10 cm土層體積含水量時變值ΔQ10來舉例,ΔQ10的數值為當前時次的要素值Q10i減去前一時次的要素值Q10i-1,若差值不在閾值范圍,則判定Q10i為疑誤,其他時變值的判定與Q10i類似,n∈(1,2,3,4,5);(d)對0~50 cm土層各土壤要素進行連續48小時的持續性檢查,若某個時次某土壤要素連續48個時次未發生改變,則可判定為疑誤。上述4個檢查判定為疑誤的土壤要素用于生成下階段的疑誤記錄。
(3)生成疑誤記錄:后臺自動獲取上階段產生的疑誤土壤要素關聯的臺站號、觀測時次、疑誤狀態、疑誤要素及要素值等關鍵字段,生成最終的疑誤記錄。
根據審核人員的值班需求,分析、總結出逐小時土壤水分實時質控的流程,使用SSH開發框架,研發了一個集數據質控、疑誤數據展示及搜索的土壤水分實時質控平臺。
平臺的工作流程如圖3所示:值班人員打開土壤水分監控頁面后,后臺會自動調用數據質控模塊:(1)數據入庫:若數據庫為新庫,則獲取系統時間,自動生成相應的Music語句來調用接口獲取相應時間段內的原始觀測數據,對數據預處理后,初始化數據庫;若數據庫已有數據,后臺獲取庫中最新的觀測時次,并生成相應的Music語句來獲取待入庫的原始觀測數據。
(2)數據質控:后臺實時對未質控過的觀測數據進行多重質控檢查,篩選出疑誤數據,生成相應的質控記錄。

圖3 平臺工作流程
土壤水分質控結果展示頁面如圖4所示,值班人員能實時看到最新時次的土壤水分質控結果,質控結果內容包含疑誤數據的相關信息,便于值班人員定位疑誤數據產生的原因。

圖4 質控結果展示頁面
使用Java編程語言實現MQCSM算法,系統參數為:(1)CPU:Intel (R) Core(TM) i7-6700HQ 2.60 GHz;(2)內存:8 G;(3)硬盤:500 G;(4)操作系統:Windows 10 x64 專業版。
算法處理的業務數據集為2020年1月至2020年2月期間的所有土壤水分站的逐小時數據,每個逐小時數據有5個土層數據(0~50 cm),每層包含4個土壤要素,共計518 400個數據,調用CIMISS接口獲取該時間段原始數據,預處理后入本地數據庫。
使用MQCSM算法質控后的結果與MDOS系統質控后的結果,對比結果如表3所示,表中誤檢率表示數據本身正確,經人工核實確認正確的,但被程序質控出來的疑誤記錄占總記錄數的比值;漏檢率表示數據本身可疑或錯誤,經人工核實確認可疑,但未被程序質控出來的疑誤記錄占總記錄數的比值。

表3 對比結果
由對比結果可知,與MDOS系統的質控結果對比,MQCSM算法在數據質控中具有更低的誤檢率和漏檢率,這是因為MDOS系統中檢查方法采用通用閾值來對土壤水分數據進行質量控制,篩查出較多的疑誤數據,但部分疑誤數據在本地屬于正常數據范圍,人工審核后為正確數據,且多以“未通過降水關系檢查”提示,而MQCSM算法的0.13%誤檢率都是未通過持續性檢查的疑誤數據,這些數據的數值是正確的,但在實際日常業務中,需要臺站人員去檢查儀器周邊確認是否有干擾因素,導致數值長時間未發生變化。所以MQSCM算法采用分析出的要素閾值范圍,引入時變檢查、持續性檢查等檢查方法,對觀測數據進行多重質控,能更準確地發現疑誤數據。
MDOS系統使用通用閾值來質控土壤水分數據,會漏檢或誤檢較多疑誤數據,且疑誤結果多以“未通過降水關系檢查”提示為主。為提高土壤水分疑誤數據的質控效率,通過分析海南歷史數據,結合海南本地的氣候特點,總結出適用本地的閾值范圍,引入極值檢查、時變檢查和持續檢查等檢查方法,提出了MQCSM算法。該算法對土壤水分數據進行多重質控,與現有MDOS系統的土壤水分質控效果對比,能更有效、準確地質控出疑誤數據。在此基礎上,研發了一個土壤水分質控監控平臺,使值班人員能快速地篩查土壤水分疑誤數據。經業務試用,各模塊運行穩定,能有效地提高土壤水分數據審核效率。