999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進ID3型決策樹挖掘算法

2016-01-22 09:20:38潘大勝屈遲文
華僑大學學報(自然科學版) 2016年1期
關鍵詞:數據挖掘

潘大勝, 屈遲文

(百色學院 信息工程學院, 廣西 百色 533000)

?

一種改進ID3型決策樹挖掘算法

潘大勝, 屈遲文

(百色學院 信息工程學院, 廣西 百色 533000)

摘要:分析經典ID3型決策樹挖掘算法中存在的問題,對其熵值計算過程進行改進,構建一種改進的ID3型決策樹挖掘算法.重新設計決策樹構建中的熵值計算過程,以獲得具有全局最優的挖掘結果,并針對UCI數據集中的6類數據集展開挖掘實驗.結果表明:改進后的挖掘算法在決策樹構建的簡潔程度和挖掘精度上,都明顯優于ID3型決策樹挖掘算法.

關鍵詞:數據挖掘; ID3型決策樹; 熵值計算; UCI數據集

數據倉庫技術的出現,成功地解決了大數據的存儲和管理問題,并配套數據挖掘技術從海量數據中提取最有價值的信息[1-2].數據挖掘技術是從已有數據信息中提取有價值信息,甚至形成知識.目前,已經出現的數據挖掘技術包括基于機器學習的挖掘技術、基于聚類分析的挖掘技術、基于關聯規則的挖掘技術等[3-5].在各種基于機器學習的挖掘技術中,決策樹挖掘算法獲得了廣泛的應用[6-12].ID3型決策樹挖掘法是最經典的決策樹挖掘算法之一.在決策樹的各級節點上,采用信息增益構建屬性選擇依據,最高的信息增益屬性最終會被確定為節點的判別標準,這樣就可以達成訓練樣本的信息最小化,提升決策樹的構建速度,并簡化決策樹的結構.本文在經典ID3型決策樹算法的基礎上,構建一種改進型的決策樹挖掘算法.

1改進的決策樹挖掘算法

經典的ID3型決策樹挖掘算法具有搜索空間完整、測試次數少、分類挖掘速度快、構建的決策樹節點少、適合于噪聲數據和離散數據的挖掘等優點.然而,其最大的局限性在于它的建樹原則是依據信息熵理論計算出的屬性增益.這種算法選取出的最佳屬性是一種多值屬性,并不一定是最優的,導致其挖掘結果往往只具有局部最優的特性,而無法達到全局最優.文中對經典的ID3型決策樹算法進行改進,構建一種能夠達到全局最優的決策樹.

信息熵值的計算是ID3型決策樹算法挖掘過程實現的關鍵.文中主要對熵值的計算進行改進,進而在此基礎上重新設計執行流程.在經典ID3型決策樹算法中,屬性A在計算過程中會出現多值,選取這些值的個數作為權重系數,融入屬性A的熵值計算中.

假設屬性A存在m個屬性,這些屬性出現的概率用p1,p2,…,pm表示,屬性A作為節點對應的m個子節點可以用屬性值集合表示為{θ1,θ2,…,θm},這些屬性值對應的信息熵G(θ1),G(θ2),…,G(θm).改進算法最終設計的用于計算屬性A的熵,其表達式為

改進決策樹算法主要有以下5個執行步驟.

步驟1對于任意一個屬性Ai,假設它有mi個屬性值,可以用{θ1,θ2,…,θmi}表示.這些屬性值對應的概率分別為p1,p2,…,pmi,其中,每個屬性值對應的信息熵計算式為

步驟2借助式(1)計算屬性Ai對應的熵.

步驟3按照步驟1,2的方法,繼續計算屬性Ai+1,Ai+2,…對應的熵值,并從所有的熵值中,選擇最小的熵值所對應的屬性為節點.

步驟4按照步驟1~3的方法,繼續各個后繼節點.

步驟5當新一輪計算結果確定的各個節點為葉子節點時,決策樹構建完畢;否則,繼續執行以上各步驟.

2驗證性實驗

2.1 實驗所用數據集

為了驗證文中算法的有效性,選擇6種加利福尼亞大學的UCI測試數據集(Wine,Spect Heart,Balance Scale,Vehicle Silhouettes,Hill Valley,Yeast)執行數據挖掘實驗.

Wine數據集是用于判斷白酒種類的化學成分數據,這些數據主要來自產于意大利的白酒,這些化學成分涉及酒精、果酸、黃酮等.Wine數據集中含有178個樣本數據,13個整數屬性,3個分類類別.

Spect Heart數據集是根據CT圖像判斷病患心臟是否正常的數據集,這些數據是根據質子發射CT掃描結果得出的.Spect Heart數據集中含有267個樣本數據,22個屬性特征,每個屬性只有“-1”和“1”兩種表達可能,2個分類類別,即正常和不正常.

Balance Scale數據集是根據心理學實驗判斷天平是否平衡的數據集,這些數據根據天平2個托盤的質量、距離和測試者的心理判斷天平是否會發生傾斜.Balance Scale數據集中含有625個樣本數據,每個樣本數據含有4個屬性特征,這些屬性需要在“1,2,3,4,5”中取值,3個分類類別(左側傾斜、右側傾斜、平衡).

Vehicle Silhouettes數據集是根據圖像的二維特征信息判斷汽車類別所形成的數據集合.Vehicle Silhouettes數據集中含有846個樣本數據,每個樣本數據含有18個屬性特征,這些屬性需要在整數空間上取值,4個分類類別.

Hill Valley數據集是用于判斷多數據點連接曲線后凹凸形狀的數據集,它先將100個數據點連接成曲線,再判斷曲線的凹凸形狀.Hill Valley數據集中含有1 212個樣本數據,每個樣本數據含有100個屬性,這些屬性在實數空間上取值,2個分類類別.

Yeast數據集是利用據蛋白質成分推測細胞位置的數據集.Yeast數據集含有1 484個樣本數據,每個樣本數據含有8個屬性,這些屬性在實數空間上取值,10個分類類別.

表1 ID3算法與改進算法的性能對比結果

2.2 ID3算法與改進算法的實驗對比

分別采用ID3型算法和改進算法執行挖掘分類實驗,結果如表1所示.ID3算法與改進算法在決策樹構建的節點數和挖掘精度上的對比結果,如表1所示.

由表1可知:改進算法相比于經典的ID3算法,其構建的決策樹的節點數量更少,表明改進算法構建的決策樹更加精簡,且在挖掘精度方面也有明顯的提高.

3結束語

針對ID3型決策樹挖掘算法中存在的數據挖掘問題,重新設計ID3型決策樹構建中的熵值計算過程,構建一種改進的ID3型決策樹挖掘算法.通過UCI數據集中的6種數據集展開實驗,結果表明改進算法具有更精簡的決策樹結構、更高的挖掘精度,優于ID3型決策樹挖掘算法.

參考文獻:

[1]SETTOUTI N,AOURAG H.A comparative study of the physical and mechanical properties of hydrogen using data mining research techniques[J].JOM:the Journal of the Minerals, Metals & Materials Society,2015,67(9):2145-2153.

[2]沈偉.基于數據挖掘技術的高職院校招生決策倉庫設計與實現[J].網絡安全技術與應用,2015(3):165-167.

[3]錢昭勇,陳梅.數據挖掘技術在突發事件應急系統中的應用與研究[J].電子技術與軟件工程,2014,19(8):217.

[4]PALACIOS A,MARTINEZ A,SANCHEZ L,et al.Sequential pattern mining applied to aeroengine condition monitoring with uncertain health data[J].Engineering Applications of Artifical Intelligence,2015,44:10-24.

[5]羅來曦,朱漁.以XML為基礎的Web數據挖掘技術系統的框架設計與實現[J].電子技術與軟件工程,2014,15(7):201.

[6]BANAEE H,LOUTFI A.Data driven rule mining and representation of temporal patterns in physiological sensor data[J].IEEE Journal of Biomedical and Health Informatics,2015,19(5):1557-1566.

[7]PORRO-MUNOZ D,OLIVETTI E,SHARMIN N,et al.Tractome: A visual data mining tool for brain connectivity analysis[J].Data Mining and Knowledge Discovery,2015,29(5):1248-1279.

[8]吳春瓊,胡國柱,徐靜.高職院校項目驅動模式下基于數據挖掘決策樹分類的教學效果分析[J].呂梁教育學院學報,2015,32(10):18-21.

[9]李楠,段隆振,陳萌.決策樹C4.5算法在數據挖掘中的分析及其應用[J].計算機與現代化,2008,160(12):160-163.

[10]高媛媛.基于數據挖掘的財務舞弊識別研究:決策樹-神經網絡組合模型的構建[J].科技經濟市場,2014(11):93-95.

[11]ELYASIGOMARI V,MIRJAFARI M S,SCREEN H R C,et al.Cancer classification using a novel gene selection approach by means of shuffling based on data clustering with optimization[J].Applied Soft Computing,2015, 35:43-51.

[12]李翔,劉韶濤.FP-Growth的并行加權關聯規則挖掘算法[J].華僑大學學報(自然科學版),2014,35(5):523-527.

(責任編輯: 黃曉楠英文審校: 吳逢鐵)

An Improved ID3 Decision Tree Mining Algorithm

PAN Dasheng, QU Chiwen

(School of Information Engineering, Baise University, Baise 533000, China)

Abstract:By analyzing the problem of ID3 decision tree mining algorithm, the entropy calculation process is improved, and a kind of improved ID3 decision tree mining algorithm is built. Entropy calculation process of decision tree is redesigned in order to obtain global optimal mining results. The mining experiments are carried out on the UCI data category 6 data set. Experimental results show that the improved mining algorithm is much better than the ID3 type decision tree mining algorithm in the compact degree and the accuracy of the decision tree construction.

Keywords:data mining; ID3 decision tree; entropy calculation; UCI data set

基金項目:廣西自然科學基金青年基金資助項目(2014GXNSFBA118283)

通信作者:潘大勝(1975-),男,副教授,主要從事數據挖掘技術的研究.E-mail:bspandsh@163.com.

收稿日期:2015-11-13

中圖分類號:TP 301.6

文獻標志碼:A

doi:10.11830/ISSN.1000-5013.2016.01.0071

文章編號:1000-5013(2016)01-0071-03

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 久久婷婷综合色一区二区| 色色中文字幕| 欧美在线视频不卡| 欧美国产精品不卡在线观看| 亚洲美女一区二区三区| 中文字幕佐山爱一区二区免费| 无码精品福利一区二区三区| 狠狠色综合网| 国产又色又刺激高潮免费看| 亚洲国产综合精品一区| 就去色综合| 国产精品吹潮在线观看中文| 中文字幕啪啪| 四虎在线观看视频高清无码| 999国产精品永久免费视频精品久久 | 国内精品九九久久久精品| 色婷婷亚洲十月十月色天| 欧美乱妇高清无乱码免费| 亚洲精品国产精品乱码不卞 | 久久精品视频一| 8090成人午夜精品| 亚洲欧洲免费视频| 亚洲swag精品自拍一区| 国产一级在线播放| 国产簧片免费在线播放| 国产成人1024精品| 毛片视频网址| 中文字幕波多野不卡一区| 视频二区亚洲精品| 欧美午夜性视频| 乱人伦视频中文字幕在线| 国产特级毛片| 成人毛片在线播放| 中国毛片网| 欧美一区精品| 欧美一区二区啪啪| 久久永久视频| 亚洲国产天堂久久综合226114| 激情综合图区| 欧美在线天堂| 日韩黄色精品| 囯产av无码片毛片一级| 精品一区二区三区水蜜桃| 欧美翘臀一区二区三区| 亚洲一级毛片免费看| 亚洲国产欧美国产综合久久| 2021最新国产精品网站| 午夜精品福利影院| 亚洲国产精品美女| 国产欧美亚洲精品第3页在线| a在线观看免费| 91小视频在线观看| 欧美一级爱操视频| 成年人国产视频| 欧美在线一级片| 无码中文字幕加勒比高清| 日本免费一区视频| 亚州AV秘 一区二区三区| 超碰aⅴ人人做人人爽欧美| 亚洲伦理一区二区| 老熟妇喷水一区二区三区| 51国产偷自视频区视频手机观看| 毛片a级毛片免费观看免下载| 国产亚洲欧美在线中文bt天堂| 久无码久无码av无码| 波多野结衣无码视频在线观看| 欧美成人精品一级在线观看| 亚洲三级视频在线观看| 91网在线| 婷婷亚洲天堂| 日韩av高清无码一区二区三区| 色综合天天操| 高清无码手机在线观看| 国产在线视频二区| 亚洲无码精彩视频在线观看| 毛片在线播放网址| 日韩无码视频专区| 99ri精品视频在线观看播放| 二级特黄绝大片免费视频大片| 婷婷午夜天| 国产女人在线观看| 亚洲天堂久久|