王宏記 張冰松 楊代才


摘要:分析了數據挖掘技術中關聯規則分析方法的原理和一般數據挖掘的系統結構和主要步驟,通過收集、加工和處理大氣環流指數等大量信息,以湖北省汛期異常氣候現象為對象,使用關聯規則挖掘方法試圖找出各物理量和氣象要素與未來一段時間內湖北的汛期降水之間的關系。基于Apriori算法2013年針對湖北短期氣候預測,初步建立了一個關聯規則挖掘系統,實現了參數配置、關聯挖掘和規則顯示等功能。
關鍵詞:數據挖掘;關聯規則挖掘;氣候預測
中圖分類號:S126 文獻標識碼 A 文章編號 0517-6611(2015)08-150-03
隨著通信技術和數據庫技術的發展,湖北省氣象局通過INTERNET網、部門交換、本地大氣探測等手段,特別是通過中國氣象局9210衛星通信系統每天均能接收到越來越多的氣象數據資料,并通過關系型數據庫[1-6]對這些數據進行了管理。但就氣象應用特別是短期氣候預測業務而言,要在越來越堆積的數據中間找出有用的數據或帶有預測性質的信息是一件非常復雜的事[7-9]。氣象預報通常需要使用大量的歷史氣象數據和實時氣象數據,業務和研究人員往往首先采用建立數據庫的方式,再從這些大量的數據中分析天氣的規律。湖北短期氣候的預測人員在實際業務中既要面對堆積如山的氣象數據,同時傳統的數據分析方法很難處理在時間和空間等多維度的信息,難以找到氣象數據屬性信息之間的內部關系,基于這些原因,將數據挖掘技術應用于短期氣候預測領域,從一個新的角度對氣象數據進行處理,在關聯模式挖掘的基礎上,找出部分物理量和未來的氣象要素之間氣候關系,解決長期困擾預報員面對海量氣象數據無法下手的情況,是氣象業務人員努力的一個方向。
數據挖掘(Data Mining,簡稱DM)就是要從大量的數據中挖掘或獲得實用信息的技術之一,雖然該技術出現的時間不長,但20世紀90年代以來發展速度很快。此外作為一個多學科交叉結合的一項技術,數據挖掘正好就是要從海量的數據中挖掘出可能有潛在意義信息的技術,這些信息可能為一些科學研究找到突破點;該技術已廣泛應用于氣象、網絡安全、電信、零售業以及保險服務等行業[10-12]。筆者主要是探討數據挖掘技術在短期氣候預測中應用的可能性,并提出一個適合于湖北短期氣候預測的關聯挖掘方案,建立了一個關聯規則挖掘系統。
1 關聯規則挖掘技術分析
關聯規則挖掘[13-14]是從大量的數據中挖掘出有價值的描述數據項之間相互聯系的信息技術之一。通常關聯規則具有以下形式:
XY(S%,C%),即“X1∩X2∩…∩ XM→ Y1∩Y2∩…∩YN”;其中Xi(i∈{1,…,M})和Yj( j ∈{1,…,N})均為屬性值,C%表示確信度(Confidence),S%表示支持度(Support)。支持度S%表示X和Y項集同時出現的概率,而確信度C%表示X項集出現的前提下Y項集出現的概率,兩者之間存在特定關系,Confidence(XY)= Support(Xi∪Yj)/ Support(Xi)。
如果將某區域氣候狀況看成屬性Y,而將前期多個氣象因素實況看成屬性X,就可通過設定支持度S,利用關聯規則挖掘技術找到一些有用的關聯規則或聯系,這些規則具有用戶給定的支持度,這是非常有意義的。
2 數據挖掘系統總體結構
2.1 數據挖掘系統的組成
2.1.1 數據庫或數據倉庫。它表示挖掘系統主要是由數據倉庫、數據表單或其他信息數據庫組成。一般需要使用數據清洗和數據集成等操作過程,對這些數據信息進行預處理。
2.1.2 數據庫服務器。它是負責根據用戶的數據挖掘請求讀取相關的數據。
2.1.3 知識庫。用于存放數據挖掘所需要的知識,這些知識將用于指導數據挖掘的搜索過程,或用于幫助對挖掘結果的評估,如用戶根據預測經驗定義的閾值就是最簡單的知識。
2.1.4 數據挖掘引擎。這是數據挖掘系統的最基本部件,它通常包含一組挖掘功能模塊,完成關聯分析或分類歸納、進化計算和偏差分析等挖掘功能。
2.1.5 規則評估模塊。該模塊可根據標準,協助數據挖掘模塊更快地收斂到有意義的知識,該模塊能否與數據挖掘模塊有機結合,與數據挖掘模塊所使用的具體挖掘算法有關。
2.1.6 可視化用戶界面。該模塊幫助用戶與數據挖掘系統本身進行交互操作。一方面用戶通過該模塊可以將自己的參數或任務提交給挖掘系統,以及提供挖掘搜索所需要的相關知識;另一方面系統通過模塊向用戶展示或解釋數據挖掘的結果;此外該模塊還可以幫助用戶瀏覽數據對象內容與數據定義模式、評估所挖掘出的模式規則,以及以多種形式展示挖掘出的模式規則。
2.2 數據挖掘系統的結構 數據挖掘是屬于在線分析處理(OLAP)的高級階段,其數據分析能力遠超過以數據匯總為主的在線分析處理功能,它能夠實現來自多學科技術的有機結合,這些技術包括數據庫、數理統計、高性能計算、模式識別、神經網絡、數據可視化、信息檢索分析等技術。目前較為成熟的“數據挖掘系統”有很多,2012~2013年基于Apriori算法初步建立了一個基于關聯規則的挖掘系統,建立了數據庫服務器和數據庫表、基于閾值的氣象知識庫、基于Apriori算法等方法的數據挖掘算法庫,初步實現了閾值調整、參數配置以及規則顯示等功能。系統結構示意圖如圖1所示。
3 數據挖掘技術的實際應用
3.1 短期氣候預測方法分析 大約50年前,短期天氣預報和短期氣候預測工作均還處在同一個水平上的業務工作,它們都是根據當地前期的某些實況信息來預測未來的天氣變化,準確率均不高。到了今天,因為氣象觀測系統的發展和數值天氣預報的成功,短期天氣預報工作已取得了巨大的成功,然而短期氣候預測水平還是很低,沒有一整套有效的方法。近幾十年來,業務工作人員還是進行了大量的研究工作,有人提出“短波制約短期天氣,長波制約中期天氣,超長波制約長期天氣即短期氣候”的想法,多年的實踐和檢驗表明,使用大氣中的波動也沒法根本解決短期氣候預測問題。后來又有人又提出了三類短期氣候預測方法,一是事件相關統計法,就是從業務實際工作中注意到某2個事件先后出現的現象,采用常規的統計方法進行一段長序列時間的回算,發現它們的相關系數很高,于是用一個事件的發生來預測另一事件的發生。但往往這樣的聯系本身太少且找出的難度也很大。二是周期規律統計法,該方法認為氣候變化的規律可能都隱藏在過去的氣候資料的長時間序列之中,人們可以采用各種常規數學統計方法去找到氣候資料時間序列中的“周期”等規律,從而做出短期氣候的預測。20世紀70年代開始,我國氣象部門開展了大量的常規數學統計工作,但其效果被不斷地證明是不理想的,業務人員經過分析,認為可能是這些方法的歷史擬合率很高,但往往應用到實際預報預測業務工作時,預報預測的準確率均很低。這種現象表明常規數學統計方法發現的“周期規律”不一定是客觀存在的,數學方法可以證明的是,若干長度的氣候資料內部本來沒有因果聯系,但通過計算機總是可以找到幾對相關系數很高的因子,該類方法可能只是數字的游戲。第三類是數值模式方法,20世紀70年代以來,國內外開展了短期氣候預測的數值模式方法研究,其基本理論框架與短期天氣預報是一樣,也是通過大氣動力學方程組、海洋動力學方程組以及熱力學方程,采用離散數學以及時間積分等技術進行數值模擬[15-17],該方法被認為可能是短期氣候預測工作的未來出路,然而40多年過去了,該方法的技術方案和應用效果并不理想。筆者在此以湖北省汛期降水趨勢為對象,采用關聯規則分析方法,探討該方法在湖北短期氣候業務中應用的可行性。
3.2 對象選擇 短期氣候預測一般指月、季以及年際尺度的氣候預測,全年和汛期降水情況的預測是氣候預測中的重點之一。在此根據湖北省汛期趨勢預測的要求,從數據庫中選取了與數據挖掘相關的數據,分析了湖北省1951~2005年的降水情況,分全年1~12月、汛期5~9月、夏季6~8月3個時段統計出5個最多雨年份和5個最少雨年份(表1),選擇其中汛期5個最多雨的年份為研究對象。
3.3 因子選擇 關聯規則分析方法中的因子選擇非常重要,結合短期氣候預測的實際情況,對業務工作中常用的數據和前人的研究成果進行了分析。有人發現湖北異常氣象要素的變化與東海、西風環流、極渦、南亞熱帶、天文因素等方面異常表現有一定關系。如張順利等通過對青藏高原多雪、少雪的合成分析和數值試驗,討論了青藏高原對亞洲夏季風和我國東部氣候的影響,結果表明,高原積雪多,亞洲季風環流弱,亞洲夏季風弱,副熱帶高壓弱,副高位置偏南,長江流域降水多,認為這些因子一方面通過改變下墊面物理性質引起大范圍持續時間較長的大氣環流變化,從而使得夏季有利于降水產生的天氣系統出現,造成主要雨帶位置與強度不同[18]。隨著對災害性氣候機理和預測研究的不斷深入,很多氣象專家和氣象工作者從不同的角度,采用多種統計方法分析了影響夏季降水的前兆因子[15,19-20]。
根據這些研究成果,結合關聯規則分析方法的實際需要,在此選取了北半球500 hPa月平均高度場、北半球100 hPa月平均高度場、北半球SLP月平均氣壓場、西北太平洋月平均海溫場、74項環流特征量、關鍵區海溫指數、東亞季風指數、阻高強度指數等因子,對湖北省汛期降水趨勢進行了關聯規則分析求解。
3.4 數據預處理 數據預處理主要是對數據進行再加工,包括檢查數據的完整性及數據的一致性等,對其中的噪音數據(如缺測數據、錯誤數據等)進行質量控制處理,對缺測的數據進行填補并將數據轉換成為有效形式,建立合適的數據模型。在此對選取的74項大氣環流指數以及5個關鍵區海溫指數對應多雨年、少雨年和多年的平均值進行了編號和統計,發現因子序號為0、1、2的因子,多年平均值在多雨年平均和少雨年平均值之間,且多雨年平均值大于少雨年平均值;因子序號為3、14、25等的因子表示歷史上有缺測資料,對這種情況按以上數據預處理的原則進行了處理,即忽略對應的數據項;因子序號為7、22、47的因子,多年平均值、多雨年平均以及少雨年平均值之間沒有規律,對這類數據項按缺測資料處理。
3.5 數據挖掘算法選取 Apriori算法是產生布爾關聯規則所需頻繁項集的基本算法,該算法是根據有關頻繁項集特性的先驗知識而命名的。該算法利用了一個層次順序搜索的循環方法來完成頻繁項集的挖掘工作。這一循環方法就是利用k-項集來產生(k+1)-項集。具體做法就是:首先找出頻繁1-項集,記為L1 ;然后利用L1來挖掘L2,即頻繁2-項集;不斷如此循環下去直到無法發現更多的頻繁k-項集為止。每挖掘一層Lk就需要掃描整個數據庫一遍。
為提高按層次搜索并產生相應頻繁項集的處理效率,Apriori算法利用了一個重要性質,即一個頻繁項集中任一子集也應是頻繁項集,來幫助有效縮小頻繁項集的搜索空間。
3.5.1 Apriori算法詳述。輸入:數據庫D;最小支持度閾值sup_min。輸出:D中的頻繁項集L。
4 小結
采用Apriori算法,在設定最小支持度0.65以上的情況下,對湖北多降水年進行了求解;求解過程中通過數據劃分的方法來減少了I/O次數,即對74項氣象環流指數數據集劃分為3個邏輯數據塊,找出局部頻繁項目集,然后將所有局部頻繁項目集合并為全局頻繁項目集上,在支持度0.65時找到了幾組關聯規則,如A(75,77)B(1),顯示前一年因子75和77即關鍵區海溫指數的第1和3項達到閾值即可認為第二年為多雨,其物理含義是:黑潮區和西風漂流區海溫偏低,預示第二年湖北為多雨年。湖北省氣象局開發了一個關聯規則挖掘系統,實現了因子錄入、對象數據錄入、閾值設置和規則可視化顯示等功能,系統在2013~2014年的應用中效果良好。當降低支持度為0.62時,輸出規則多達2 000條以上,由于其規則表述較為復雜,且物理意義尚不清楚,文中沒有列出,需要進行進一步的探索。
參考文獻
[1] 高梅,張文華.基于氣象信息共享系統的雷達資料網絡數據庫[J].氣象科技,2002,30(1):32-36.
[2] 王勝利.新疆省級氣象數據庫建設及其管理系統軟件設計[J]. 新疆氣象,2003,26(5):41-42.
[3] 彭駿,劉興華,陳棟.氣象數據在網絡結構中的應用模型探討[J].四川氣象,2002(4):44-45.
[4] 覃天信,黃福瑩,李漫霜.廣西氣象臺業務數據庫系統簡介[J]. 廣西氣象,2001,22(4):43-44.
[5] 易烈剛,楊溢,范元品.基于Internet的氣象實時資料查詢系統[J].貴州氣象,2003,27(3):39-41.
[6] 張帆,武疆艷.歷史資料數據庫管理系統的研制[J].新疆氣象,1998,21(3):29-31.
[7] 何婧,王麗珍,鄒力鵑. 基于云南氣象數據的空間關聯規則挖掘[J]. 計算機工程與應用,2003(34):187-190.
[8] 趙海青,李社宗,周幸福.數據庫中的知識發現及其在氣象中的應用[J].河南氣象,2002(2):35-36.
[9] 黃文玲,陳德軍.灰色趨勢災變預測及其在數據挖掘中的應用[J]. 華中科技大學學報, 2005,33(1):55-57.
[10] 郝先臣,張德下.數據挖掘工具和應用中的問題[J].東北大學學報,2001,22(2):183-187.
[11] 曹輝,蔡穎,朱善君.教據倉庫技術在電力系統中的應用[J].華北電力技術,2001(3):44-54.
[12] HAN J,CAMBER M.數據挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業出版社,2001.
[13] 陳德軍.一般灰色趨勢關聯系統及其分析方法研究[J].華中科技大學學報,2003,31(8):82-84.
[14] 陳綿云.趨勢關聯度及其在灰色建模中的應用[J].華中理工大學學報,1994,22(8):64-68.
[15] 王革麗.時空結構對短期氣候預測影響的初步分析[J].氣候與環境研究,2005,10(2):193-200.
[16] 顧群.顧節經. 短期氣候預測的物理基礎和診斷預測[J]. 遼寧氣象,2004(4):10-11.
[17] 趙振國.我國短期氣候預測的業務技術發展[J].山東氣象,2001(3):4-7.
[18] 張順利,陶詩言.青藏高原積雪對亞洲夏季風影響的診斷及數值研究[J].大氣科學,2001,25(3):372-390.
[19] 陳菊英.山東區域汛期旱澇預測概論[J].山東氣象,2001(3):12-17.
[20] 王錦貴,許君強.東北地區夏季低溫與旱澇預測系統研究[M].北京:氣象出版社,2000.