李 佳,李 瀟
(1.北方工業大學,北京 100186;2.北京市地質調查研究院,北京 102206)
數據挖掘技術在金融業、零售業、餐飲業及電信等行業中的到了廣泛應用,并為人們帶來了良好的經濟效益,但在地質行業中的應用相對比較少,主要被用在石油挖掘、探礦工程、地震預警預報等重大領域。但數據挖掘技術分析、處理大量數據信息能力的特點很適合應用在有大量數據的地質環境評測工作上。如果能夠通過數據挖掘技術分析出地質環境各數據之間的關聯關系,并歸納出其權重指標,將會推進環境評測工作的精準性。
(1)數據挖掘過程
地質環境數據挖掘過程一般由數據準備、數據挖掘、知識表達3個階段組成,如圖1所示。地質環境數據挖掘算法對數據有一定的要求,如數據冗余性小,出錯率小等。由于地質行業的特殊性, 現實各區域所采集到的地質環境數據通常具有數據來源廣泛、異構性、模糊性、冗余性、不完整性、噪聲、隨機性、數據量大而復雜的特點。因此,數據挖掘必須經過數據準備以提高數據質量;數據挖掘階段包括選擇合適的數據挖掘算法模型, 并對挖掘模型進行分析、驗證、調整, 挖掘有價值的知識;知識表達階段是對結果進行分析, 提取出最有價值的信息。
(2)數據準備
使用的數據為北京市房山區地質環境評估報告中的實際數據,共包括土壤樣2643件、河流沉積物樣17件、垃圾土壤樣36件、水樣33件、玉米樣74件、柿子7件、梨5件,總計2888件。
(3)核心算法
標準方差是在樣本統計中,特別是大量樣本的統計計算,最常用到的幾種算法之一,公式為:

然而,在計算機編程中,還需要計算運行方差(running variance),因為樣本的個數總是的在不斷變化的,即不斷遞增;如果每次增加,都要重新計算平均值,再按此公式計算出方差,雖可以實現,但計算量會隨著數據的增加變的很大。
因此,遞推的公式就顯得格外重要;通過n-1個樣本時的方差值,和新增的樣本,就能得到此時這N個樣本的方差;這樣計算量不會變同時保持在一個很小的值,可大大提高程序的計算效率。遞推公式如下:


圖1 地質環境評測數據挖掘過程
Mn為平均值,初始時:M1 = x1, S1 = 0,而樣本方差 s =Sn/(n-1)
土地養分評價指標包括大量營養元素、微量營養元素、有益元素等3個部分,均采用加法模型來計算指數得分P:
P肥綜=Σfi×Ci(i=1,2,3,4……n)
式中:P為指數得分;
fi為第i個評估指標的隸屬函數值;
Ci為第i個評估指標的權重。
由此得到養分指標(大量元素指標得分
將土地養分和肥力劃分為3等(表1)。

表1 土地養分或肥力分等與綜合參數對應表
數據導入后,經過系統的分析統計,結果如圖2所示:

圖2 數據挖掘系統計算結果
通過與人工計算結果(圖3)對比,可以算出數據挖掘計算結果與人工處理結果一致。

圖3 人工計算統計表
在數據挖掘過程中首先需要把已有的數據進行規范化處理,建成數據挖掘源數據庫。處理方法包括統求和、求平均、正態分布、統一坐標體系、監測資料的規范化、評測單元的統一。然后進行數據挖掘建模,進行模型評估,選擇合適數據挖掘模型,部署模型,根據實施結果評測地質環境健康度。實驗證明,利用數據挖掘技術生成評測單元, 并利用預處理屬性數據庫對各區域進行地質環境評測, 其結果與環境現狀基本相符, 具有較高的可信度。
[1]黃 淇等.北京市平原區土地質量地球化學評估報告[R].北京:北京市地質調查研究院,2011.
[2]于春香.數據挖掘技術簡介[J].福建信息技術教育,2005年01期.
[3]梁 循.數據挖掘:建模、算法、應用和系統[J].計算機技術與發展,2006年01期
[4]韓家煒.數據挖掘:概念與技術[M].北京:機械工業出版社,2012.
[5]張良均.數據挖掘:實用案例分析[M].北京:機械工業出版社,2013.
[6]坎塔爾季奇(美).數據挖掘:概念、模型、方法和算法[M].北京:清華大學出版社,2013.