杜曉春,劉 林
(西安歐亞學院,710065)
目前,針對數據挖掘的應用非常的多,幾乎覆蓋了各個不同的領域。在地質領域,我們一般采用空間數據挖掘技術來進行地質數據的集中處理。這樣,也就找到了傳統地質數據處理方法與空間數據挖掘技術對接的方法,建立了一種適合地質行業的地質數據預處理模型,從而使各單位的地質數據具有統一的標準,方便地質人員進行數據分析。
本次研究的數據主要從陜西省氣象局和陜西省水利廳獲得。眾所周知,地下水系統、氣象系統都是非常復雜的、持續變化的系統,它們都只存在相對的穩定。變化是一個復雜的非線性過程,它受諸多自然和人為因素的影響。因此,在進行數據挖掘前需要在實際生活中搜集相關的數據,而這些搜集而來的原始數據往往有很多問題不便于研究人員進行直接的分析和統計,如圖1所示。它們的主要問題有:數據雜亂無章,因為大部分原始數據都是從生活中搜集來的,這些數據在產生前并沒有經過統一的定義,也就是說,并沒有統一的標準,數據的格式、結構都有很大的不同,因此,將這些在不同情況下搜集來的數據根本無法直接放在一起比較。
本次數據選取了有代表性的連續性數據,其中,主要選擇了五段相對完整的數據分別是寶雞地下水數據(1956-1971年段)、寶雞的氣象數據(1956—1971年段);西安地下水數據(1966—1974年段)、西安的氣象數據(1966—1974年段);西安五縣的氣象數據(1956—1971年段)、山西某地的地下水分析數據(1956—1971年段)等。對于這些數據,我們需要進行預處理。數據預處理的主要過程包括:數據集成、數據清洗、數據轉換、數據裝載等。
數據的預處理結束后,可以通過數據變化找到數據的特征表示,包括規格化、歸納、切換、旋轉和投影等操作。其目的是將數據轉換成適于挖掘的形式。這里,我們應用云理論來進行數據的變換。
云是用自然語言值表示的某個定性概念與其定量表示之間的不確定性轉換模型。云由許多云滴組成,每一個云滴就是這個定性概念在數域空間中的一次具體實現。如果給定符合某一正態云分布規律的一組云滴(xi,μi),即可利用逆向云發生器計算出它們所代表的正態云的三個數字特征(Ex,、En、He),即從實現定量到定性的轉換,將一定數量的精確數據有效轉換為以恰當的定性語言值{Ex,En,He}表示的概念,從而實現定性評價。

圖1 :地下水數據資料
這里我們將消除噪音以后的隨機函數作為云滴,采用劉常昱于2004年提出的一維逆向云發生器新算法來處理地下水的升降概念,具體算法如下:
輸出:這N個云滴表示的定性概念的期望Ex、En、He
算法:
概念區間的劃分采用五區間方案和三區間方案兩種。
(1)五區間方案
利用某一次定量值對定性概念的貢獻定義。把En一3He和En + 3He作為熵的上界和下界,將地下水的升降概念劃分為 [Ex-3En ,Ex-2En],[Ex-2En ,Ex-En],[Ex-En,Ex+En],[Ex+En, Ex+2En],[Ex+2En, Ex+3En]五個區間。[Ex-3En,Ex-2En]表示異常下降,[Ex-2En ,Ex-En],表示異常下降,[Ex-En,Ex+En]表示穩定,[Ex+En, Ex+2En]表示上升,[Ex+2En,Ex+3En]表示異常上升。
(2)三區間方案
利用某一次定量值對定性概念的貢獻定義。把En一3He和En + 3He作為熵的上界和下界,將地下水的升降概念劃分為[Ex-3En ,Ex-En], [Ex-En,Ex+En], [Ex+En, Ex+3En]三個區間。[Ex-3En ,Ex-En],表示異常下降,[Ex-En,Ex+En]表示穩定,[Ex+En, Ex+3En]表示上升。
根據上述兩種區間劃分方案分別生成新的空間數據庫。各方案的轉換依據見表1和表2。

表1 基于五區間的概念劃分及轉換結果數據表

表2 基于三區間的概念劃分及轉換結果數據表
依據表1和表2系統生成三元表示的空間定性概念數據庫。由上表可見新生成的空間數據庫中對某一個因素的表達有下降、穩定、上升三種狀態的,實現了不確定概念與定性概念的量化轉化,注意它不同于數據挖掘中常規的布爾型關系數據庫,故不能直接用常規數據挖掘中的關聯規則,需要開發新的空間關聯規則算法。但不確定概念與定性概念的量化轉化模型已經成立。
從上述分析可以看出,云理論的五區間方案和三區間方案最大限度的劃分出了主體對象云的主體,而五區間方案中剔除的非主體就是我們所要獲取的異常。顯然,剔除[Ex-2En ,Ex-En]、[Ex-En,Ex+En]、[Ex+En, Ex+2En],而 保 留 [Ex-3En ,Ex-2En]、[Ex+2En, Ex+3En],即是我們需要的異常(如,表3)。由此也得到了地質數據的異常提取模型。

表3 基于五區間的概念劃分及轉換結果數據表
最終,我們可以通過處理后的數據建立地質數據殘缺數據的補充模型,還可以建立地質學中不確定概念與定性概念的量化轉化模型以及建立地質數據的異常提取模型。
[1]張志兵著,《空間數據挖掘及其相關問題研究》[M],華中科技大學出版社,2011年10月。
[2]李德仁,王樹良,李德毅著,《空間數據挖掘理論與應用》[M],科學出版社,2006年10月。