周強



摘要:基于農田特有氣象觀測設備和環境屬性,建立農業氣象數據清洗標準和質控方法,以提升農業氣象觀測數據質量。針對數據屬性異常和重復記錄情形,選取Bohn數據清洗模型的空缺值清洗方法和噪聲數據清洗方法。通過農業微氣象觀測站點空間內觀測要素歷史數據統計,獲取清潔數據指標,應用于數據質量動態閾值生成方法,建立農業微氣象數據質量控制模型。清洗質控后的數據評估指標表明,經過數據清洗和質控模型后數據準確率和重復性均有明顯改善。數據清洗質控方法有助于準確獲取農業氣象災害監測信息,為農業的防災減災提供有效決策支撐。
關鍵詞:農業微氣象;數據質控;Bohn數據清洗模型
中圖分類號:P49;TP274? ? ? ? ?文獻標識碼:A
文章編號:0439-8114(2020)14-0037-04
DOI:10.14088/j.cnki.issn0439-8114.2020.14.006 開放科學(資源服務)標識碼(OSID):
Abstract: In order to improve the quality of agrometeorological observation data, the cleaning standard and quality control method of agrometeorological data are established based on the unique meteorological observation equipment and environmental attributes of farmland. For the case of abnormal data attributes and repeated records, the method of cleaning the blank value of Bohn data cleaning model and the method of cleaning the noise data are selected. Through the historical data statistics of observation elements in the space of agricultural micro meteorological observation station, the clean data index is obtained and applied to the dynamic threshold generation method of data quality, and the quality control model of agricultural micro meteorological data is established. The data evaluation indexes after cleaning and quality control showed that the accuracy and repeatability of the data are significantly improved after data cleaning and quality control model. The data cleaning quality control method is helpful to obtain the monitoring information of agrometeorological disaster accurately and provide effective decision support for agricultural disaster prevention and reduction.
Key words: agromicro meteorology; data quality control; Bohn data cleaning model
農田氣象信息是農業生產管理的重要參考依據,隨著物聯網監測技術的迅速發展,農業設施微型氣象觀測站點已大規模布設。數據質量問題伴隨農業氣象觀測數據的急劇增長而日益凸顯,從而促使了數據清洗技術在農業氣象數據方面的應用。
國內對數據清洗技術的研究還處于初步階段,通常是在統計回歸方法中驗證數據進行一些基礎研究。于力超等[1]基于關聯規則的缺失數據插補和最近鄰插補方法,利用挖掘得到的關聯規則提升度和支持度乘積的倒數作為權重,解決了最近距離樣本單元產生不同插補值的問題。戴明鋒等[2]在分析數據缺失機制前提下,通過二分類Logistic回歸插補法,根據發生概率大小確定插補值。劉燕[3]選取近鄰擇優補差法繼承Logistic回歸插補法的高精確度和最近鄰插補法的單元擇優性,通過模擬比較多種回歸插補方法發現,基于回歸的近鄰擇優插補法可以獲得更好的插補效果。
隨著氣象部門觀測手段自動化和數據傳輸速度持續的提高,在地面自動站觀測資料質量控制技術方面也積累了一定的經驗[4-6]。肖心園等[7]針對不同異常數據提出了基于3次樣條插值和皮爾遜相關的光伏數據清洗方法,可以得到更優化的數據利用率和重構正確率。潘騰輝等[8]提出了一種ETL與數據清洗結合的分布式數據集成工具,將數據清理的技術引入到ETL中,基于統計聚類方法和關聯規則的數據清洗算法,清洗數據信息的框架。
氣象數據質量控制方法多通過閾值和一致性檢驗完成,但結合農業特定應用領域,需要用農業和氣象并存的屬性規則判定。本研究選取符合農業氣象特性的數據清洗和質控方法,建立農業微氣象數據質控流程,檢測并剔除數據文件中所有明顯的錯誤和不一致,同時對比和合并相似重復記錄,以期及時高效地為用戶提供可靠的農田氣象觀測信息,提升農業生產效率。
1 數據清洗質控技術介紹
1.1 數據清洗技術
數據清洗目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性[9-11]。數據清洗的主要內容如圖1所示,依據數據源種類不同,解決數據屬性、完整性和惟一性等方面的問題。
從數據清洗方法上進行分類,結果如圖2所示。數據清洗原理通常是指利用數理統計、數據挖掘或預定義的清理規則將臟數據轉化為滿足數據質量要求的數據。
以目前被普遍采用的Bohn數據清洗模型為例,首先對源數據進行數據檢查,通過統計分析的方法識別可能的錯誤值或異常值,如偏差分析、識別不遵守分布或回歸方程的值,利用常識性規則和業務特定規則等簡單規則庫檢查數據值,并使用不同屬性間的約束、外部的數據來檢測和清理數據。通過聚類分析方法分析數據詞法,明確各個字段內不同要素的連貫性,同時確保所有數據字段與已知清單匹配。最后判斷記錄間的屬性值是否相等來檢測記錄是否相等,相等的記錄合并或清除為一條記錄。
1.2 數據質控技術
氣象領域對數據質量控制方法有其特殊的規范和要求,主要是要求數據符合天氣學、氣候學原理,以氣象要素的時間、空間變化規律和各要素間相互聯系的規律為線索,分析氣象資料是否合理[12-15]。常用的處理方法如下。
1)臺站氣候極值檢查。極值是指某個固定測站歷史記錄中某要素曾出現過的最大值(最小值),氣象資料要素值是否超出極值的檢查為極值檢查。判斷資料的基礎是進一步核實超出對應觀測站點要素極值的觀測資料。
2)時間一致性檢查。利用氣象要素隨時間變化的規律,對氣象資料變化進行時間一致性的檢查,各要素資料不能超出一定時間內的變化范圍,超出的資料為可疑資料。
3)空間一致性檢查。根據氣象參數具有一定的空間分布特點而進行的檢查。通常采用空間回歸檢驗法進行空間一致性檢查,其有效性取決于觀測站網的密度和被檢參數與空間的相關程度[16-19]。
將逐日的觀測站要素數據與被檢站周邊站點相關系數進行顯著性檢驗,找出相關性最好的5個站,被檢測觀測要素與5個相關站逐一建立一元線性回歸方程。
式中,yi,j為第j個初步參考站第i日要素實測值,為被檢站第i日要素估計值。
最后,計算被檢站全月要素觀測值與各回歸方程估計值間的均方根偏差([s2j])。
式中,xi為被檢站第i日的實測值;m為全月日數。
分別計算被檢站被檢要素第i日加權估計值[xi]及要素估計值的加權標準差([s])。
式中,j為第j個最終參考站;n為最終參考站的總數,在這里n=5。
當[xi-xi]>[fs]時,表示被檢站第i日的實測值xi未通過空間一致性檢查。[fs]為控制系數,取值范圍為3.0~5.0。
2 農業微氣象數據質控方法
本研究中的數據治理方法主要分為數據清洗和質量控制兩方面。首先根據農業微型氣象觀測站設備特性,建立適用于數據清洗流程的農業氣象數據屬性標準。針對數據屬性異常和重復記錄情形,選取高效的辨識算法以及相應的空缺值清洗方法和噪聲數據清洗方法。基于農業微氣象觀測站點空間內觀測要素歷史數據,應用數據質量動態閾值生成方法,建立氣象數據質量控制模型。
2.1 基于Bohn的數據清洗模型
對于大多數農業氣象觀測數據來說,數據格式較為固定,常規數據或者特定數據都是進行專門的定義,比如氣溫為連續數字,日照可以用0、1表示,但對于挖掘或者提取到的數據來說,字段的類型格式、長度及語義都可能存在差異,這就需要對數據清洗重新設定規范格式。
基于Bohn模型建立的數據清洗流程如圖3所示。按照數據清洗需求建立農業氣象數據標準,采用關聯規則方法中效率較高的FP-樹頻集算法辨識數據屬性質量。基于空缺值清洗方法和噪聲數據清洗方法,將判斷出的異常屬性數據進行篩除分離;通過遞歸字段匹配算法,在適當的位置使用間隙,允許不匹配字符的缺失,識別字符串縮寫的情形,檢測出標識同一個數據實體的重復記錄。最后利用多趟近鄰排序法,將數據庫中的記錄排序,比較鄰近記錄,來判識排除重復記錄。
2.2 農業微氣象數據的質量控制模型
借鑒氣象觀測數據質量控制方法,建立針對微氣象數據的涵蓋閾值、時空一致性以及要素一致性等標準檢查的質量控制模型(圖4)。模型重點包括基于站點回歸模型的動態閾值生成技術,開展基于動態質控閾值標準的微氣象時空一致性檢驗;基于空間回歸方法的空間一致性檢驗,通過異構異源觀測數據輔助的要素一致性檢驗。
3 農業微氣象數據質控模型評估
為評估上述數據清洗和質控方法的效果,引入查準率、精確度和查重率3項指標分別檢測數據樣本。選取10個具有訂正站的農田小氣候氣象觀測站點,分別以使用率較高的氣溫和相對濕度要素為例,利用2019年全年逐小時的觀測數據作為整體樣本評估數據。
以訂正站數據為標準,將樣本數據劃分為真實正確樣本(TP)、真實錯誤樣本(FP)、清洗正確樣本(TN)、清洗錯誤樣本(FN)4種情形,令TP、FP、TN、FN分別表示其對應的樣本數,則本次被清洗數據總數=TP+FN,識別樣本總數=TP+FP+TN+FN。
查準率P=TP/(TP+FP)表示為正確數據占清洗后真實總樣本的比率。精確度A=(TP+TN)/(TP+FN+FP+TN)則是清洗質控后正確的樣本數占樣本總數的比例。查全率R=TP/(TP+FN)是正確識別樣本和被清洗數據總數的百分比。
選取氣溫和相對濕度兩類氣象要素,分別計算其評估指數的逐月變化情況,結果如圖5所示。從清洗質控后的結果來看,不同月份的數據質量存在一定差異,其中兩類要素的查全率和查準率都在80%左右,其中相對濕度的查全識別效果較好,而溫度的逐月查準率均優于相對濕度;氣溫和相對濕度的最低精確度分別是71.0%和72.6%。經過數據清洗和質控模型后數據準確率和重復性均有明顯改善,農業微氣象數據清洗質控方法可以有效提升觀測數據質量。
5 小結與討論
本研究將農業系統特有氣象觀測數據與氣象行業傳統監測數據深度融合,建立農業微氣象數據屬性標準,采用FP-樹頻集和多趟近鄰排序等算法,實現清洗模型和質量控制模型在農業微氣象數據治理中的應用。
基于回歸模型的農業微氣象觀測歷史數據集以及動態檢測閾值的生成技術,建立了可以實現異源異構觀測數據輔助的要素一致性檢驗的農業微氣象數據質量控制模型。評估表明數據清洗質控方法可以準確獲取農業氣象災害監測信息,科學防治農業氣象災害,為農業的防災減災、應急決策提供有效的支持服務和技術手段,為實現農業生產的安全、優質、高效運行發揮積極作用。
參考文獻:
[1] 于力超,金勇進,王 俊. 缺失數據插補方法探討——基于最近鄰插補法和關聯規則法[J]. 統計與信息論壇,2015,30(1):35-40.
[2] 戴明鋒,金勇進,查奇芬,等. 二分類Logistic回歸插補法及其應用[J]. 數學的實踐與認識,2013, 43(21):162-167.
[3] 劉 燕. 基于Logistic回歸的近鄰擇優插補法[D]. 天津:天津財經大學,2013.
[4] 俞榮華,田增平,周傲英. 一種檢測多語言文本相似重復記錄的綜合方法[J]. 計算機科學,2002, 29(1):118-121.
[5] 趙一凡,卞 良,叢 昕. 數據清洗方法研究綜述[J]. 軟件導刊,2017,16(12):222-224.
[6] OTHMAN L B,YAHIA S B. GBARMVC: Generic basis of association rules based approach for missing values completion[J]. International journal of computing & information sciences,2011,9(1):16-22.
[7] 肖心園,江 冰,任其文,等. 基于插值法和皮爾遜相關的光伏數據清洗[J]. 信息技術,2019(5):19-22,28.
[8] 潘騰輝,林金城,鄭細燁,等. 面向數據庫清洗的數據質量控制設計[J]. 信息技術,2017(10):133-136.
[9] 李昌華,卜亮亮,劉 欣. 基于聚類和神經網絡對建筑節能氣候數據清洗的算法[J]. 計算機應用,2018,38(S1):83-86,111.
[10] 竇以文,屈玉貴,陶士偉,等. 北京自動氣象站實時數據質量控制應用[J]. 氣象,2008,34(8):77-81.
[11] SHAFER M A,FIEBRICH C A,ARNDT D S,et al. Quality assurance procedures in the oklahoma mesonetwork[J]. Journal of atmospheric & oceanic technology,2000,17(4):474-494.
[12] 陳奕隆. 美國自動地面觀測系統[J]. 氣象科技,1994(3):48-54.
[13] 廖 捷,周自江. 全球常規氣象觀測資料質量控制研究進展與展望[J]. 氣象科技進展,2018,8(1):56-62.
[14] 任芝花,張志富,孫 超,等. 全國自動氣象站實時觀測資料三級質量控制系統研制[J]. 氣象,2015, 41(10):1268-1277.
[15] 韓海濤,李仲龍. 地面實時氣象數據質量控制方法研究進展[J]. 干旱氣象,2012,30(2):261-265.
[16] JEFFERY S R,ALONSO G,FRANKLIN M J,et al. Declarative support for sensor data cleaning[A]. Proceedings of 4th international conference on pervasive computing[C]. Springer, New York,2006.83-100.
[17]GILL S,LEE B. A framework for distributed cleaning of data streams[J]. Procedia computer science,2015,52(1):1186-1191.
[18] 李良富,王漢杰,劉金玉,等. 基于黑板模型的地面氣象數據質量控制[J]. 氣象科技,2006,34(2):199-204.
[19] 范文波. 地面氣象觀測數據綜合質量控制方法研究與實現[D]. 南京:南京信息工程大學,2016.