999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的組合優化決策樹算法研究

2015-03-07 02:26:58浙江工業職業技術學院
電子世界 2015年20期

浙江工業職業技術學院 張 敏

?

一種改進的組合優化決策樹算法研究

浙江工業職業技術學院 張 敏

【摘要】本文主要基于經典的決策樹算法,引入信息熵的概念,在屬性的選取和分支策略上進行改進,對每個屬性下的樣本集,計算熵和平均值,將大于均值的樣本合并,形成新的樣本子集,最后通過實驗驗證改進后的算法在屬性選擇度量的可解釋性,減少空支,過度擬合等方面有顯著的提高。

【關鍵詞】組合優化;決策樹;度量;熵

作為分類和預測的主要技術之一的決策樹(Decision Tree),致力于從大量無序的海量數據中建立分類模型,抽象出規則集,算法采用由上而下的遞歸方法,構造出決策樹。在決策樹內部節點根據屬性值不同判斷分支路徑,最終在葉節點得到結論,形成從根節點到葉節點的完整規則,整棵樹的規則集合形成一套分類體系。

近年來,決策樹分類方法在人工智能、機器學習等領域得到廣泛應用。國內外研究人員先后提出十幾種不同的決策樹分類方法,針對不同的分類問題給出了解決方法,但并未形成統一的決策樹構建方案,不同算法在一定程度上都存在不足。

1 經典決策樹算法簡述

ID3(Iterative Dichotomizer 3)是一種經典的決策樹算法,該算法從根節點開始,賦予根節點最優選擇的屬性,然后根據屬性取值生成不同分支,對各分支又生成新的節點。屬性選擇標準上,ID3采用基于信息熵的信息增益來進行取舍。

設S是具有n個樣本的數據集,將樣本集劃分為k個不同的類Ci(i=1,2,…k),每個類Ci含有ni個樣本,把S分成k個不同類的信息熵為:

公式中Pi是樣本集S中歸屬于第i類Ci的可能性,即:

假設屬性A的各不同值的集合組成為XA,Sv為樣本S中所有屬性為v形成的子集,可表示為:

在分支路徑選擇上,計算出樣本子集Sv的信息熵為E(Sv),平均加權期望熵可定義成各子集Sv的加權和,權值是Sv樣本集在原有集合S中的比例值:

亦期望熵表示為:

其中,E(Sv)是把Sv劃分為k個不同類的信息熵。屬性值A較原樣本集S的信息增益可表達為:

由于ID3算法局限于屬性只能取離散值,J.R.Quinlan給出了ID3擴展算法,即C4.5算法,使決策樹分類算法可應用于連續屬性值。

2 改進的組合優化決策樹模型

經典的C4.5模型雖然得到廣泛的應用,但一直存在可解釋性低、空枝、無意義分支及過度擬合的問題。考慮到在構造決策樹過程中關鍵點在于節點屬性的選取,針對C4.5算法存在的問題,改進屬性選擇標準,在確保C4.5決策樹算法準確性的前提下,進一步提高算法效率。改進算法的基本思路如下:

(1)對各屬性(考慮離散值的情形),計算屬性值的樣本子集的熵。

(2)計算各樣本子集信息熵均值,對大于平均閾值的子集進行合并,組成臨時復合子集,同時計算出該子集的信息熵。

(3)參考臨時復合樣本子集信息熵及未合并集合的熵值計算當前節點的信息增益值。

(4)在所有計算出的信息增益值中選擇最大值的屬性作為當前節點的屬性,未合并子集及臨時子集形成其分支。

優化后的分類算法根據熵值進行分支合并,熵值越大,分類精度越高。對熵值越小的分類也進行合并,有效減少無意義分支,同時把對劃分根本不起參考作用的分支歸并,有效避免形成多值屬性問題。

3 實驗研究與分析

為了驗證改進后算法的性能,實驗中選取經典的UCI數據測試集,選取其中8個不同數據集進行,分別采用C4.5算法及改進算法進行分類。最后產生的決策樹使用10-cross-validation方法檢驗分類劃分的準確度,實驗過程中參數選擇weka默認值,最終結果如表1所示。

表1 預測準確率及葉子數比較

從表1實驗得到的結果可以看出,改進算法后的決策樹模型整體預測準確性保持原有水平,其中Soybean、German、Mushroom三個數據體的準確度有一定程度提高。同時我們發現在葉子節點有效降低的情況下,預測準確率是提高的,只有當葉子節點有較大幅度降低時,預測的準確性才開始降低,改進后模型空枝和碎片葉子節點得到大大減少,健壯性較以前有明顯提高。

4 結論

本文在研究經典決策樹算法的基礎上,提出一種改進的決策樹模型,并通過實驗驗證,改進后的算法能有效地減少決策樹的層數,提高決策樹分類效率,降低復雜性。在改進的決策樹模型中考慮如何對連續型屬性進行改進以及如何將缺失數據添加到實驗分析中,將在今后的工作中繼續關注。

參考文獻

[1]陳麗.數據挖掘中聚類算法研究[D].東北:東北大學,2007.

[2]金微.基于遺傳算法的K-means聚類算法研究[D].常州:河海大學,2007.

[3]孫秀娟.基于遺傳算法的K-means聚類算法分析研究[D].山東:山東師范大學,2009.

[4]周明孫,樹棟.遺傳算法原理及應用[M].北京:國防工業出版社.

[5]毛國君,段立娟等.挖掘原理與算法[M].北京:清華大學出版社,2007:30,165-166.

[6]David,Heikki Maxnnaa,Padhraic Smyth.數據挖掘原理[M].北京:機械工業出版社,2003:167.

主站蜘蛛池模板: 亚洲AⅤ波多系列中文字幕| 亚洲天堂网在线视频| 91免费国产高清观看| 日韩精品无码不卡无码| 中文字幕有乳无码| 亚洲免费三区| 华人在线亚洲欧美精品| 国产一二三区视频| 91在线国内在线播放老师| 一级毛片在线播放| 思思99思思久久最新精品| 日韩东京热无码人妻| 色综合手机在线| 欧美精品啪啪一区二区三区| 91视频99| 污网站免费在线观看| 99久久无色码中文字幕| 她的性爱视频| 日日拍夜夜嗷嗷叫国产| 暴力调教一区二区三区| 99re在线免费视频| 久久福利网| 中文毛片无遮挡播放免费| 午夜视频www| 黄色网站不卡无码| 99热这里只有精品在线播放| 97国产在线播放| 亚洲欧美另类久久久精品播放的| 国产白浆在线观看| 国产成+人+综合+亚洲欧美| 漂亮人妻被中出中文字幕久久| 欧美日韩一区二区三| 夜夜拍夜夜爽| 欧美日韩免费| 天天做天天爱夜夜爽毛片毛片| 久久综合色视频| 国产区成人精品视频| 日韩大乳视频中文字幕 | 99这里只有精品6| 青青操视频在线| 55夜色66夜色国产精品视频| 黄色网站在线观看无码| 国产69精品久久久久妇女| 國產尤物AV尤物在線觀看| 久久国产亚洲欧美日韩精品| 日本草草视频在线观看| 五月婷婷亚洲综合| 少妇精品在线| 情侣午夜国产在线一区无码| 亚洲三级成人| 久久99国产视频| 亚洲精品自在线拍| 日韩小视频网站hq| 欧美综合区自拍亚洲综合天堂| 国产综合亚洲欧洲区精品无码| 欧美一级高清片欧美国产欧美| 久久精品无码国产一区二区三区| 欧美色99| 欧美一级夜夜爽www| 亚洲人成网18禁| 亚洲精品午夜无码电影网| www.亚洲一区| 在线观看欧美精品二区| 亚洲日本韩在线观看| 青青青伊人色综合久久| 免费Aⅴ片在线观看蜜芽Tⅴ| 中文国产成人久久精品小说| 国产手机在线小视频免费观看| 嫩草国产在线| 99久久国产自偷自偷免费一区| 国产精品手机在线观看你懂的 | 国产成人禁片在线观看| 国内老司机精品视频在线播出| 亚瑟天堂久久一区二区影院| 成人午夜免费视频| 自偷自拍三级全三级视频| 亚洲精品片911| 免费一级全黄少妇性色生活片| 试看120秒男女啪啪免费| 无码精品一区二区久久久| 国产精品香蕉在线| 伊人天堂网|