趙 耀
(西南民族大學 四川 成都 610041)
數據挖掘是深層次的分析方法,是現代科學技術之間滲透與融合的必然結果。故通過數據挖掘技術的基本原理,結合地質數據的特點,深入研究數據挖掘技術在地質方面的應用研究,地質條件影響人們的生命財產安全,故地質災害預測意義重大,利用數據挖掘技術,挖掘出地質災害有用的信息,可以科學認識地質災害、了解地質災情、提高地質災害意識,為產業合理布局,分區發展,實現區域化、現代化提供地質災害區劃方面的依據。
數據挖掘,又稱作知識發現,是從大量數據中挖掘出具有潛在價值信息的過程,為人們的決策提供依據。分類是數據挖掘當中一種常用的方法,建立并使用分類模型,可以將數據劃分到某個給定的類別,進而得到有價值的信息。決策樹用圖形化樹型結構的方式表現結果,很直觀的呈現可以理解的規則,受到業界的歡迎。盡管今年來數據挖掘技術發展飛速,但是在滑坡地質災害領域的研究十分有限。本文針對九寨溝縣地震后引起的二次地質災害數據的特點,結合決策樹分類方法,并將其應用于泥石流因子的分析,得到有價值的決策信息,用于預測泥石流的危險等級。
評價泥石流危險等級的因子有很多(如最大流動量、雨后堆積物質、覆蓋范圍、主溝長度、降雨量、地震以及人為破壞等)。不同地區、地貌環境、地質條件的不同導致泥石流的誘因也大大不同。因此要根據當地具體情況對誘發泥石流的危險因子進行針對性分析。
九寨溝地處山區,又處于龍門山地震帶,由于板塊運動活躍,造成山體不穩定,泥石流等地質災害頻繁。隨著信息化發展,相關部門已經建立了信息數據庫,積累了大量數據,然而在數據的分析方面還相當欠缺,尚待挖掘數據背后潛藏的有價值的信息。
結合數據挖掘技術的數據采集、數據預處理,通過一定的算法模型進行分析挖掘,找出誘發泥石流的危險因子以及不同因子間的關聯性,從而得到泥石流危險等級評價結果。這是當地地質領域目前需要迫切研究的,對于預防具有重要的現實意義。
決策樹是不斷地通過一定的規則遞歸的將數據分類,這一過程直到所有新節點給出的結果一致或足以判斷分類。由于決策樹算法簡單直觀,不必處理缺失值、歸一化,既可以處理離散值也可以處理連續值等,能夠產生易于理解及分析的規則,因而也是業界廣泛應用的分類方法。
決策樹包含三種常用算法,ID3算法是不斷的通過信息增益來選擇特征,遞歸的構建決策樹,它只適合處理離散型變量。C4.5算法是對ID3算法的改進,它使用信息增益率(比)來選擇特征,可以處理連續型變量。CART基于基尼指數作為屬性選擇的度量,分為CART回歸樹和CART分類樹,既可以處理離散型又可以處理連續型變量。
本文采用C4.5算法,首先計算得出各個屬性的信息增益率,接著比較它們的大小,選擇信息增益率最大的屬性進行分類。步驟如下:
數據集信息熵是所有樣本中各種類別出現的不確定性之和。熵越大,隨機變量的不確定性就越大。

各屬性信息熵是一種條件熵,它代表在某種屬性的條件下,各種類別出現的不確定性之和。
信息增益=數據集信息熵-屬性信息熵,它代表信息不確定性變小的程度。
lnfoGain(S,A)=E(S)-EA(S)
信息增益比定義為其信息增益與訓練數據集關于某一特征的值的熵之比:
通過查閱相關文獻、實體調研,結合當地實際情況,本文選擇最大流動量、雨后堆積物質、覆蓋范圍、主溝長度作為泥石流危險度評價的4個指標。
本文選取九寨溝縣境內24處常年易發生泥石流的研究區域,數據部分來源于九寨溝縣相關部門,部分通過網上查閱資料所得。以最大流動量、雨后堆積物質、覆蓋范圍、主溝長度作為危險因素,將危險等級劃分為輕度、中度、高危和極高危4個等級。信息統計情況如下表1。

表1 九寨溝縣24處泥石流信息統計情況
相關部門建立了泥石流危險因素評定規定如下表2.
針對表1,以最后的評價結果為決策屬性,以各危險因素為條件屬性,用1~4級量化的方式代表評價結果,分別代表輕危害、中危害、高危害以及極高危害,針對表2,通過各危險因素評定規定將數據離散化,得到離散化的泥石流信息統計情況.

表2 九寨溝縣泥石流危險因素評定規定
根據C4.5算法,求得條件屬性最大流動量信息增益率最大,因而選取最大流動量作為決策樹的根節點,接著分別對它的4個取值進行分析,當值取4時,評價結果唯一,屬于極高危害;當值取3時,雨后堆積物質唯一,選取雨后堆積物質為下一節點,當雨后堆積物質值分別為2,3,4時,決策屬性分別為中危害,高危險,高危險。以此類推,逐步構建決策樹,直到所有屬性分類唯一,實現泥石流危險評價決策樹模型的構建。如下圖1。

圖1 泥石流危險評價決策樹模型
本文通過對少量數據構建決策樹模型,從而提供了可以進行合理挖掘的模式,得到了一些具有參考價值的結論。在得出這些規則前,首先使用了數據挖掘技術的數據采集、數據預處理(數據離散化),在此基礎上,利用決策樹相關知識框架,通過C4.5算法構建評價模型。決策樹分類模型簡單直觀,可以很清楚的得到影響泥石流危險程度評價結果的最主要兩個因素是最大流動量和雨后堆積物質。
這些結論可以作為分析與預測泥石流的重要參考,具有一定參考價值及應用價值,可以為當地政府、企業以及群眾提供針對性強的災害預警服務,為防災、減災提供一定的科學依據。如何在大規模數據集上構造高精確率的決策樹,以及構建其他理論與決策樹理論相結合的模型尚待進一步研究。