馬 麗 陳桂芬
【摘要】 應用粗糙集與決策樹相結合的數據挖掘方法評價吉林省某地的土壤地力等級。研究數據共有161條記錄,16個屬性,使用粗糙集對土壤屬性進行約簡,去除了5個土壤冗余屬性,得到屬性約簡集;使用決策樹方法對土壤數據建立決策樹模型,得到了土壤評價的決策樹模型,并提取了分類規則。實驗表明:將粗糙理論與決策樹相結合的數據挖掘方法能去除冗余屬性,同時保留了原始數據的內部特點,相對于單一使用決策樹方法,決策樹規模減小,規則集較精簡,提高了分類的效率。
【關鍵詞】 粗糙集 決策樹 數據挖掘 土壤評價 地力等級
【Abstract】 In this paper, rough set and decision tree combination were used to evaluate the productivity grade of soil in somewhere of Jilin province. The research data had a total of 161 records and 16 attributes. The paper used rough set to reduce the soil attributes, removed 5 redundant attributes and obtained the attributes reduction set, then decision tree method was used to construct the decision tree model, after that classifying rules were withdrawn. The experiment indicates that the data mining methods that unify the rough set theory and the decision tree can remove redundant attributes and retain the internal features of the original data. Compared with the single—use decision tree method, the decision tree scale is smaller,the rule set is more streamlined and the mining efficiency is improved.
【Keywords】 rough setdecision treedata miningsoil evaluationproductivity grade
引言
土壤評價的影響因素較為復雜,傳統的土壤評價方法需要領域專家的參與,有一定的主觀性,而且較少考慮土壤各屬性間的依賴關系,較難表達土壤性質和環境變量間的非線性關系。從數據挖掘的角度來看,土壤評價實質上屬于分類預測問題。決策樹方法是一種較好的分類方法,適宜處理非線性數據和描述數據,建立的樹型結構直觀,具有生成速度快,能得到簡單易懂的分類規則等優點。決策樹在土壤等級評定方面也有了一些應用,但決策樹方法不考慮土壤屬性之間的潛在關系,當數據集中的屬性過多時,用決策樹分類易出現結構性差,難以發現一些本來可以找到的、有用的規則信息等情況。粗糙集理論在處理大數據量,消除冗余信息等方面具有一定的優勢,因此廣泛應用于數據預處理、屬性約簡等方面。鑒于粗糙集和決策樹具有很強的優勢互補性,本文采用粗糙集與決策樹相結合的方法評價土壤地力等級,即采用粗糙集方法對土地屬性進行約減,得到低維訓練數據,使用決策樹方法構建決策樹,產生分類規則集,形成評價地力等級的新方法。
1.數據挖掘方法設計
1.1粗糙集理論
粗糙集(Rough Set,RS)理論是新的處理模糊和不確定性知識的數學工具,其特點是不需要預先給定某些特征和屬性的數量描述,而是直接從給定問題的描述出發,找出該問題的內在規律,其基本思想更接近現實情況。
粗糙集的基本思想是:稱S=(U,A,{Va},a)為知識表示系統,其中,U為非空有限集,稱為論域;A為非空有限集,稱屬性集合;Va為屬性a∈A的值域;a:U→Va為一單映射。如果A由條件屬性集合C和結論屬性集合D組成,C,D滿足C∪D=A,C∩D=Φ,則稱S為決策系統。在一個決策系統中,各個條件屬性之間往往存在著某些程度上的依賴或關聯,約簡可以理解為在不丟失信息的前提下,以最簡單地描述表示決策系統的結論屬性對條件屬性的集合的依賴和關聯。
可以利用C相對于D的任一約簡來代替C,而不會對決策有任何影響,這就是粗糙集屬性約簡的原理。
1.2 決策樹方法
決策樹主要應用于對事物進行分類、預測以及數據的預處理等。構造決策樹通常包括兩個步驟:利用訓練集生成決策樹,再對決策樹進行剪枝。決策樹的生成是從一個根節點開始,從上到下的遞歸過程,通過不斷的將樣本分割成子集來構造決策樹。
得到了完全生長的初始決策樹后,為了除去噪聲數據和孤立點引起的分枝異常,需要對決策樹進行剪枝。決策樹的剪枝通常是用葉結點代替一個或多個子樹,然后選擇出現概率最高的類作為該結點的類別。
1.3基于粗糙集的決策樹模型
基于粗糙集和決策樹結合的數據挖掘算法過程描述如下:不斷地從條件屬性C中取出相對于決策屬性D較為重要的屬性,使得決策屬性D對其依賴度等于D對C的依賴度,得到屬性約簡集。然后,利用信息增益作為啟發信息,選擇能夠最好地將樣本分類的屬性,創建一個分枝,并據此劃分訓練集,直到不存在可以再分割的屬性,之后使用測試集對構建的決策樹模型進行驗證修正。
2.實驗及結果分析
本文引用粗糙集理論和決策樹方法,研究新的土壤評價方法,目的是對吉林省某地土壤等級進行分類預測,確定土壤的地力等級。該地地力等級劃分為1,2,3,4,5,6共6個等級。研究數據包含15個條件屬性和一個決策屬性,共161條記錄。粗糙集屬性約簡算法要求數據為離散數據,根據土壤數據特點,采用Equal Frequency Binning算法對數據進行離散化處理。將土壤數據的圖上面積(m2) 、平差面積(mu)、 有機質、全氮、速效磷、速效鉀、緩效鉀、有效鋅、有效硼、有效銅、有效鐵、有效錳、有效鉬、PH值、代換量15個屬性作為條件屬性輸入粗糙集算法,形成條件屬性集C,將地力等級作為決策屬性D。使用粗糙集約簡算法約簡屬性集C,得到約簡屬性集。得到的約簡屬性為有機質、全氮、速效磷、緩效鉀、有效硼、有效銅、有效鐵、有效錳、PH、代換量,共10個條件屬性,共去除5個冗余屬性。
利用粗糙集方法對條件屬性進行約簡之后,調入決策樹程序,進行決策分類。在161條記錄中,能正確分類的數據為137條,24條數據未正確分類,其中地力等級為1的數據共25條,全部正確分類,地力等級為2的數據18條,16條數據正確分類,地力等級為3的數據13條,10條數據正確分類,地力等級為4的數據63條,53條數據正確分類,地力等級為5的數據34條,29條數據正確分類,地力等級為6的數據8條,4條數據正確分類。
根據生成的決策樹,可以提取出決策規則。提取出的部分決策規則如下:
if有機質 <= 2.964 and PH <= 6.5 and有效錳 <= 26.314 then 地力等級=3;
if有機質 <= 2.964 and PH <= 6.5 and有效錳> 26.314 then 地力等級=4;
if有機質 <= 2.964 and PH >6.5 and全氮 <= 0.1406 then 地力等級=3;
if有機質 <= 2.964 and PH >6.5 and全氮> 0.1406 then 地力等級=2;
if有機質 >2.964 and緩效鉀 <= 713.31 then 地力等級=2;
if有機質 >2.964 and緩效鉀 > 713.31 then 地力等級=1;
使用44條記錄數據對得到的決策模型驗證,正確率為85.3 %,模型預測結果較好。地力等級較低時,預測準確率較高,對于高地力等級的預測,還需進一步修正數據集和模型。
3.結語
數據挖掘中決策樹方法適用于分類預測,在地力等級評價中已有應用。但是這種方法還有冗余屬性存在,構造的樹的規模較大,提取的規則較多。
本文提出了一種基于粗糙集和決策樹結合的評價土壤等級的方法。先使用粗糙集進行屬性約簡,之后使用決策樹進行土壤分類,得到評價規則進行地力等級評定,最后使用土壤數據進行算法驗證。結果表明相對于單一使用決策樹方法,使用粗糙集進行屬性約簡之后進行決策評價的方法,可以去除冗余屬性,生產的決策樹規模較小,提取的規則較少,分類精度較高,速度更快,提高了挖掘的效率。
從實驗效果來看,模型評價的結果與實際情況基本符合,并且該模型可解釋性較好,易于從中提取評價規則。運用決策樹模型能夠揭示該地區耕地質量狀況,有利于提高對該區耕地的利用效益。該方法是土壤評價的有效方法。
【參考文獻】
[1]黃健, 李會民, 張惠琳, 馬兵, 孫宇新, 張國恩, 朱健菲. 基于GIS的吉林省縣級耕地地力評價與評價指標體系的研究——以九臺市為例[J]. 土壤通報, 2007,(03):422—426.
[2]薛正平,鄧 華,楊星衛,等.基于決策樹和圖層疊置的精準農業產量圖分析方法[J].農業工程學報,2006,22(8):140—144.
[3]PAWLAK Z, GRZYMALA—BUSSE J, SLOWINSKI R. Rough sets[M]. Communications of the ACM, 1995, 38(11):88—95)
[4]王玉珍.基于數據挖掘的決策樹方法分析[J].電腦開發與應用,2007(05):64—66.
[5]田苗苗.數據挖掘之決策樹方法概述[J].長春大學學報,2004 (06):48—51.
[6]范潔,楊岳湘,溫璞.C4.5算法在在線學習行為評估系統中的應用[J].計算機工程與設計,2006,27(6):946—948.
[7]ALEX BERSON, SETPHEN SMITH. Data Warehousing,DataMining & OLAP[M]. New York: Mcraw—HillBookCo.,1999:272—320.
馬麗(1980—),女,吉林長春人,助教。研究方向:計算機農業應用。
陳桂芬(1956—),女,博士生導師,教授。研究方向:專家系統,精準農業。