999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的C4.5決策樹算法

2016-10-21 16:57:00王志春劉麗娜
電子技術(shù)與軟件工程 2016年9期
關(guān)鍵詞:分類信息

王志春 劉麗娜

【關(guān)鍵詞】數(shù)據(jù)挖掘 決策樹 C4.5算法 信息增益率

1 引言

數(shù)據(jù)挖掘中決策樹是解決分類問題的方法之一,是一種歸納學(xué)習(xí)算法。通過一組屬性值向量和相應(yīng)的類,采用歸納學(xué)習(xí)算法構(gòu)造分類器和預(yù)測模型,能夠從一組無序和無規(guī)則的數(shù)據(jù)中生成決策樹形式的分類規(guī)則。決策樹基本不依賴于任何專業(yè)領(lǐng)域的知識,所以在分類,預(yù)測和規(guī)則提取等領(lǐng)域都被廣泛的應(yīng)用。70 年代末,J.ROSS Quinlan提出了ID3算法后,在機器學(xué)習(xí)和知識發(fā)現(xiàn)領(lǐng)域決策樹算法都得到了進一步應(yīng)用和發(fā)展。

ID3算法的核心是選擇屬性時,用信息增益(information gain)作為選擇屬性的度量標(biāo)準(zhǔn),在測試每一個非葉子結(jié)點時,能獲得關(guān)于被測試記錄最大的類別信息。雖然ID3算法具有算法清晰,方法簡單和學(xué)習(xí)能力較強的優(yōu)點,但是ID3算法不能處理連續(xù)的屬性值,并且依賴于訓(xùn)練數(shù)據(jù)集的質(zhì)量,只對數(shù)據(jù)集較小的情況有效,訓(xùn)練數(shù)據(jù)集在逐漸變大時,決策樹可能會隨之改變。由于ID3算法存在著許多需要改進的地方,為此,J.ROSS.Quinlan于1993提出了C4.5算法,對ID3算法進行了補充和改進。C4.5 算法具有ID3 算法優(yōu)點的同時也改進和擴展了算法,使其產(chǎn)生易于理解和準(zhǔn)確率較高的分類規(guī)則。相比于ID3算法,C4.5算法用信息增益率來選擇屬性,而不是ID3算法所用的信息增益;在ID3算法的基礎(chǔ)上還增加了對連續(xù)屬性的離散化、對不完整屬性的處理能力和產(chǎn)生規(guī)則等功能。

2 C4.5算法

2.1 信息增益和信息增益率

設(shè)D是m個不同值的訓(xùn)練集有m個不同類Ci (i=1,2,…,m),設(shè)Ci, d是元組的集合,D和Ci, d中的元組個數(shù)是|D|和|Ci, d|。

2.1.1 信息增益

ID3算法中選擇具有最高信息增益的屬性作為節(jié)點N的分裂屬性,使元組分類的信息量最小。期望信息為:

用|Ci, d|/|D|估計D中任意元組屬于類Ci的概率Pi。Info(D)為D的熵。

若D的元組用屬性A可分成v個不同的類{D1, D2,…,Dn}, Dj包含D中的元組且在A上有值aj,則屬性A的信息熵為:

A屬性上該劃分的獲得的信息增益為:

2.1.2 信息增益率

信息增益率用“分裂信息”值將信息增益規(guī)范化,假設(shè)以屬性A的值為基準(zhǔn)對樣本進行分割,訓(xùn)練數(shù)據(jù)集D用分類信息SplitInfoA作為初始信息量劃分成對應(yīng)于屬性A的有v個輸出的v 個劃分信息。定義如下:

信息增益率定義為信息增益與初始信息量的比值:

C4.5算法選取信息增益比最高的屬性為集合D的測試屬性,創(chuàng)建一個節(jié)點并為每個屬性創(chuàng)建分支劃分樣本。

2.2 C4.5算法實現(xiàn)

假設(shè)用D代表當(dāng)前樣本集,當(dāng)前候選屬性集用A表示,則C4.5算法的流程圖如圖1所示。

3 C4.5算法的改進

3.1 C4.5算法改進原理

C4.5算法得到很好的應(yīng)用,但是還存在一些不足,C4.5 算法因為要對數(shù)據(jù)集進行多次的掃描和排序所以算法的效率降低。根據(jù)信息量計算公式的特點,改進劃分函數(shù)的屬性選擇度量計算公式和連續(xù)屬性處理方法,簡化信息量的計算復(fù)雜度,提高C4.5算法的執(zhí)行效率。

C4.5算法由于大量使用了對數(shù)函數(shù)進行熵值運算,增加了計算機的運算時間,降低了每一次屬性選擇時算法的運算效率,所以為了解決這個問題,引入泰勒中值定理和麥克勞林展開式,對熵值中的對數(shù)運算進行變換,優(yōu)化熵值運算,縮短其運算時間。

C4.5 算法對每個分割點都要計算相應(yīng)的熵值,才能得到最優(yōu)的分割點,所以在選擇最佳的屬性分割點時效率較低。為了解決這個問題,引入邊界點定義和Fayyad 定理。

邊界點定義:設(shè)序列L={x1, x2,…, xn}為升序排列的有序序列,實例X所屬的類為Cx。如果有實例xi和xj(其中j=i+1),且Cxi≠Cxj,則邊界點Bp =(xi +xj)/2。

Fayyad 定理:連續(xù)屬性 X 各個候選分割點對應(yīng)的信息熵值的最小值一定在邊界點 Bp上取得。

由以上定理可知,連續(xù)屬性的最優(yōu)分割點在計算時,只需要通過比較屬性值序列在邊界點的最小信息熵值,就可以計算出該屬性的最大修正信息增益率,減少了候補分割點,因此可以大大提高了計算的效率。

3.2 實驗及結(jié)果分析

使用Weka 作為數(shù)據(jù)挖掘平臺,對改進C4.5算法與傳統(tǒng)C4.5算法的分類性能進行比較。實驗所需數(shù)據(jù)來自于UCI數(shù)據(jù)集中IRIS的樣本實例。算法執(zhí)行效率及分類正確率實驗結(jié)果如圖2、3所示。

隨著樣本實例數(shù)的增加,改進算法的執(zhí)行效率得到提高的同時分類的正確率也有一定的提升,因此改進的 C4.5 算法縮短了數(shù)據(jù)分析的等待時間,提高工作效率,保障了分類正確率。

4 結(jié)束語

本文通過對決策樹分類算法C4.5的分析,在此基礎(chǔ)上,針對該算法所存在的不足之處,改進了熵值的計算和連續(xù)屬性最優(yōu)分割點的計算,并用實驗驗證,得到較好的驗證結(jié)果。

參考文獻

[1]Quialan J R.hduetion ofdecision trees[M].Machine Learning,1986,(1): 81-106.

[2]陳青山.決策樹算法在高校教學(xué)質(zhì)量評價系統(tǒng)中的應(yīng)用研究[C].西南交通大學(xué)碩士論文,2010.

[3]Quialan J R.C4.5:Programs for Machine Learning[M].NewYork:Morgan Kaufnan, 1993.

[4]黃愛輝.決策樹C4.5算法的改進及應(yīng)用[J].科學(xué)技術(shù)與工程.2009,9(1):34-36.

[5]楊學(xué)兵,張俊.決策樹算法及其核心技術(shù)[J].計算機技術(shù)與發(fā)展,2007,17(1):44-46.

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美日韩国产成人在线观看| 亚洲国语自产一区第二页| 成人免费午夜视频| 亚洲男人天堂久久| 久热99这里只有精品视频6| 丝袜亚洲综合| 精品久久久久成人码免费动漫| 日本午夜影院| 亚洲一区色| 9999在线视频| 日本福利视频网站| 亚洲欧美在线看片AI| A级全黄试看30分钟小视频| 影音先锋丝袜制服| 无码福利日韩神码福利片| 亚洲色无码专线精品观看| 国产成人亚洲欧美激情| 国产成人久视频免费| 国产无码网站在线观看| 久久亚洲精少妇毛片午夜无码 | 国产精品久线在线观看| 成人福利一区二区视频在线| 日韩经典精品无码一区二区| 欧美日韩成人| 国产在线拍偷自揄观看视频网站| 国产午夜精品鲁丝片| 97久久免费视频| 一级不卡毛片| 国产99免费视频| 9久久伊人精品综合| 国产资源站| 欧美无专区| 精品自窥自偷在线看| 国产99视频免费精品是看6| 国产精品亚洲一区二区三区z| 伊人色天堂| 沈阳少妇高潮在线| 好吊色妇女免费视频免费| 成年人免费国产视频| 久久毛片基地| 国产成人福利在线| 日本成人一区| 无码 在线 在线| 国精品91人妻无码一区二区三区| 欧美日韩国产成人高清视频| 免费观看精品视频999| a毛片在线免费观看| 在线日韩一区二区| 手机在线免费不卡一区二| 亚洲成肉网| 丁香亚洲综合五月天婷婷| 国产无码精品在线播放| 国产视频大全| 国产亚洲视频播放9000| 婷婷开心中文字幕| 久久久久国产精品嫩草影院| 欧美日韩北条麻妃一区二区| 亚洲第一中文字幕| 亚洲人成人伊人成综合网无码| 九色视频线上播放| 国产H片无码不卡在线视频| 欧美精品高清| 日本欧美在线观看| 黑色丝袜高跟国产在线91| 亚洲国产欧美目韩成人综合| 欧美午夜精品| 亚洲 日韩 激情 无码 中出| 久久久久久国产精品mv| 欧美成人看片一区二区三区| jizz国产在线| 小13箩利洗澡无码视频免费网站| 亚洲bt欧美bt精品| 亚洲天堂.com| 国产福利一区在线| 亚洲国产精品一区二区第一页免 | 色亚洲成人| 97人妻精品专区久久久久| 最新痴汉在线无码AV| 久久久精品无码一二三区| 激情亚洲天堂| 成人伊人色一区二区三区| 视频一区视频二区日韩专区|