摘要:氣象觀測數據質量好壞直接影響到數據應用效果,如何進行氣象資料質量控制,確保氣象自動站資料代表性,準確性和比較性,是氣象資料工作者和氣象資料使用者迫切需要解決科學問題。本文提出基于關聯規則挖掘技術自動氣象站數據質量控制算法,以提高氣象觀測數據準確度。
關鍵詞:觀測數據;質量控制;關聯規則;數據挖掘;
氣象觀測數據綜合質量控制工作主要是指對所觀測到的氣象數據進行分析及質量檢查,并對每組數據的質量控制情況記錄,及時發現其中錯誤數據,并及時改正。一般情況下,地面氣象觀測數據需要通過收集、讀數、傳輸、編碼及解碼等程序,每個環節誤差都會導致觀測數據出現偏差,因此,數據質量控制就成為自動站觀測數據應用環節。目前國內針對自動站實時觀測資料質量控制方法主要有:氣候界限值或要素允許值檢查、 臺站極值檢查、時間一致性檢查、內部一致性檢查、空間一致性檢查,人機交互檢查等方法。但由于實際天氣現象復雜多變,在不同區域、不同氣候特征下,一些觀測要素間無物理意義變化也存在著一定規律。如何快速準確地發現其中關聯信息,進一步提高自動站質量控制算法準確率,引入數據挖掘技術就成為解決問題有效方法之一。
1數據挖掘技術
數據挖掘,又譯為資料探勘、數據采礦。是數據庫知識發現中的一個步驟。數據挖掘技術誕生與發展帶領氣象領域進入了新時期,國內外越來越多氣象工作者開始使用數據挖掘技術在氣象數據分析、氣象信息存儲、天氣預報預測和氣象服務等領域開展一定研究和應用,但對氣象觀測數據的質量控制主要還有以下兩點不足:質控集中在使用傳統氣象數據質控方法,根據歷史資料得出氣候界限值及各要素允許值對觀測值質控,靈敏度不高;數據挖掘算法應用主要集中于氣象要素之間相關性分析,天氣現象分類,降水量預測等,在氣象數據質量控制方面研究工作開展的較少。
2 關聯規則挖掘
2.1 關聯規則定義
1993年,Agrawal等人在首先提出關聯規則概念,同時給出相應挖掘算法AIS,但是性能較差。1994年,他們建立項目集格空間理論,并依據上述兩個定理,提出著名的Apriori算法,至今Apriori仍然作為關聯規則挖掘經典算法被廣泛討論,以后諸多研究人員對關聯規則挖掘問題進行大量研究。
關聯規則定義為:
假設I={I1,I2,…,Im}是項的集合,給定一個交易數據庫D,其中每個事物(Transaction)T是I的非空子集,即T?I,每一個事物都與一個唯一的標識符TID(Transaction ID)對應。設A為一個數據項集合,當且僅當A?T時,稱事物T包含A。關聯規則形如X?Y形式蘊含式,其中X,Y∈I且X∩Y=φ,X和Y分別稱為關聯規則的先導和后繼。關聯規則X?Y在D中支持度是D中事物包含X∪Y百分比,即概率P(X∪Y);置信度是包含X的事物中同時包含Y百分比,即條件概率P(Y│X)。
2.2 Apriori算法
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。該算法的基本思想是:首先找出所有的頻集,這些項集出現頻繁性至少和預定義的最小支持度一樣。然后由頻集產生強關聯規則,這些規則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產生期望的規則,產生只包含集合的項所有規則,其中每一條規則的右部只有一項,這里采用的是中規則定義。一旦這些規則被生成,那么只有那些大于用戶給定最小可信度規則才被留下來。為生成所有頻集,使用遞推方法。其算法偽代碼如下:
輸入:數據集D;最小支持度minsupport
輸出:頻繁項集L
L1= {頻繁1項集} //初始化頻繁項集L[1](也稱單品項集)
for(k=2;Lk-1不為空;k++){
Ck= Apriori_gen(Lk-1); //生成所有長度為K的候選相集
for all transactions t∈D; { //對所有的交易記錄做循環
C = subset(Ck,t); //找出當前交易記錄t和候選頻繁項集C[k]的交集
for all candidates c∈C do //對存在的候選頻繁項集的交集進行支持度計數
c.count ++; //候選項目支持度計數加1
end for;
Lk={c∈Ck|c.count≥min_sup}; //得出滿足最小支持度的頻繁k項集
end for;
return L=UKLK
3 關聯規則挖掘技術應用
3.1數據處理
選取自動站實時觀測資料數據庫中相關氣象要素觀測項目,構成用于關聯規則挖掘的數據庫事物集合D。氣溫T,相對濕度H,氣壓p,降水量R,風速Wv,風向Wd,就是數據庫D的維,即D={T,T,P,P,Wv,Wd},數據庫中所有記錄就是集合D全部對象。
3.2 數據清洗
在數據挖掘過程中,問題數據會直接誤導挖掘過程,并對挖掘結果產生影響。數據清洗就是填補缺失數據、平滑噪聲數據、處理不一致數據。對于氣溫、相對濕度、氣壓、地表溫度等具有連續性變化要素,其短時間序列缺失值采用就近跨距均值法處理,選擇缺失值前后各2h平均值代替缺失值;對于風速、風向、降水等離散型變化氣象要素,缺失值填補參考空間插值法處理。長時間序列(12h以上)缺測記錄,則借助對比人工定時觀測記錄將日極值加以補充。
3.3數據變換
分析自動站實時觀測資料中各觀測項目變化趨勢間聯系,需要將數據庫中以時間序列存放的具有連續變化特征數據進行序列化,即用ΔT、ΔT表示T、H的小時變化值。以氣象觀測規范為依據,將數據庫D中數據屬性進行泛化,將數值類型數據變換為支持Microsoft關聯算法的離散型數據。以降水量R、風 向Wd為例,將數據庫中的降水量數值按照氣象等級概念的無降水、小雨、中雨、大雨、暴雨等級別劃分,劃分區間為[0,1)、[1,10)、[10,25)、[25,50)、[50,100)、…;風向Wd按照角度值轉換為風向標識N、NE、E、SE、S、SW、W、NW。強相對濕度小時變量ΔH進一步泛化,得到ΔH分別處于[0,30%)、[30%,50%)和[50%,100%]中為變化率低、中、高。
3.4數據挖掘
選取武漢市國家基本氣象觀測站5年的小時整點數據作為數據庫事物集合,以武漢“千湖之城”的地域特點和相對濕度變化較快的獨特氣候條件, 與相關主導風向、風速、氣溫、降水量等級為研究對象,設定最小支持度閾值和最小置信度閾值,進行數據挖掘,找出關聯規則,剔除可疑數據。
4 結語
數據挖掘技術是目前國際上數據庫和信息系統最前沿的研究方向之一,在商業領域已經取得成功應用,利用關聯規則數據挖掘技術對大量觀測數據分析,以發現其數據模式及特征,觀察數據變化趨勢和數據之間關聯規則,對進一步完善自動站數據質量控制算法提供技術支撐。今后還將行氣象數據深入挖掘研究。
參考文獻
[1]史靜,黨岳,張永欣,等. 自動站數據質量控制中關聯規則挖掘的應用[J]. 氣象科技,2014(4)
[2]李曉蘭,曹曉鐘,朱君,等. 基于關聯規則挖掘的自動站觀測數據相關性分析[J]. 氣象科技,2016,44(5).
作者簡介:陳聲超(1989-),男 ,漢族,湖北武漢黃陂人,大學本科,助理工程師,從事氣象裝備保障工作。