999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分析數(shù)據(jù)挖掘中決策樹算法及其應(yīng)用

2015-08-18 10:25:29戴艷麗江蘇省宿遷高等師范學(xué)校江蘇宿遷223800
科技傳播 2015年23期
關(guān)鍵詞:數(shù)據(jù)挖掘信息

戴艷麗江蘇省宿遷高等師范學(xué)校,江蘇宿遷 223800

分析數(shù)據(jù)挖掘中決策樹算法及其應(yīng)用

戴艷麗
江蘇省宿遷高等師范學(xué)校,江蘇宿遷223800

數(shù)據(jù)分析中一種比較新的形式就是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的應(yīng)用非常廣泛,在金融保險(xiǎn)業(yè)、政府部門、運(yùn)輸領(lǐng)域等都有廣泛的應(yīng)用。本文通過分析決策樹的算法研究,闡述了ID3、C4.5、CART等算法的優(yōu)劣勢(shì)以及在數(shù)據(jù)挖掘中的運(yùn)用,在實(shí)際的科研活動(dòng)中,要進(jìn)行綜合考慮和科學(xué)總結(jié),為未來相關(guān)方面的發(fā)展提供更加科學(xué)和合理的依據(jù)。

數(shù)據(jù)挖掘;決策樹算法;應(yīng)用

數(shù)據(jù)分析中一種比較新的形式就是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘就是指挖掘具有價(jià)值的但有相當(dāng)隱蔽性的信息。現(xiàn)在,數(shù)據(jù)挖掘的應(yīng)用非常廣泛,在金融保險(xiǎn)業(yè)、政府部門、運(yùn)輸領(lǐng)域等都有廣泛的應(yīng)用。決策樹算法在數(shù)據(jù)挖掘中可以起到很好的作用,本文將通過分析決策樹的算法研究和在數(shù)據(jù)挖掘中的改進(jìn),希望對(duì)決策樹在數(shù)據(jù)挖掘中的應(yīng)用提供幫助。

1 決策樹算法的概述

決策樹算法是一種數(shù)學(xué)歸納方法,強(qiáng)調(diào)從復(fù)雜無序的事例中,推導(dǎo)出最終結(jié)果的方法,在分類器、預(yù)測(cè)模型和數(shù)據(jù)挖掘中應(yīng)用比較廣泛。決策樹算法要首先建立一個(gè)決策樹模型,然后通過所建立的模型對(duì)復(fù)雜無序的數(shù)據(jù)進(jìn)行逐項(xiàng)測(cè)試,從根節(jié)點(diǎn)一直到最終的葉節(jié)點(diǎn)。

2 數(shù)據(jù)挖掘中常見的決策樹算法研究

決策樹經(jīng)過長(zhǎng)時(shí)間的發(fā)展,現(xiàn)在常見的算法主要包括ID3算法、C4.5算法以及CART算法。下面我們對(duì)相關(guān)的算法做一個(gè)簡(jiǎn)單的介紹。

2.1ID3算法

ID3算法在決策樹算法中,是一種比較主流的算法。它的屬性選擇的標(biāo)準(zhǔn)是信息增益方法,通過在各級(jí)結(jié)點(diǎn)上運(yùn)用信息增益方法,來確定結(jié)點(diǎn)生成時(shí)的屬性。這樣做可以使取得相關(guān)信息最小[1]。ID3算法的流程圖如圖1所示。

主要公式為:假設(shè)U是整個(gè)集合,{X1,……,Xn}是整個(gè)集合的一個(gè)部分,它的概率分布可以表示為Pi=P(Xi),則稱:

為信息源的信息熵。里面的對(duì)數(shù)取2為底,當(dāng)Pi為零的時(shí)候,則

通過上面的分析,我們對(duì)ID3算法已經(jīng)有了一個(gè)簡(jiǎn)單的了解,下面對(duì)ID3算法的優(yōu)劣勢(shì)進(jìn)行相應(yīng)的研究。ID3算法具有的優(yōu)勢(shì)是:1)由于ID3算法對(duì)所有可能出現(xiàn)的決策樹都有所涉及,所以具有完整性;2)信息增益減少了訓(xùn)練樣例不夠準(zhǔn)確的敏感性;3)算法在所用時(shí)間上比較少,同時(shí)分類效率較高;4)ID3算法的結(jié)點(diǎn)數(shù)量在所有算法中最小。ID3算法的劣勢(shì)是:1)由于ID3算法的假設(shè)前提比較單一,所以不具有對(duì)所有假設(shè)進(jìn)行表示的特點(diǎn);2)ID3算法在進(jìn)行測(cè)試之后,不會(huì)選擇在對(duì)這個(gè)點(diǎn)進(jìn)行測(cè)試,所以相對(duì)來說得到的結(jié)果只是個(gè)體最優(yōu)的;3)ID3算法對(duì)于屬性值數(shù)目比較依賴,但屬性值本身并不能保證是最優(yōu)的;4)ID3算法的開銷較大;5)ID3算法主要基于屬性選擇,而屬性選擇是否對(duì)決策樹有很大影響,在學(xué)術(shù)界缺乏確定的結(jié)論。通過對(duì)ID3算法的優(yōu)劣勢(shì)分析,可以認(rèn)為ID3算法的理論明白,方法也并不復(fù)雜,在數(shù)據(jù)挖掘中,可以得到一個(gè)很好的應(yīng)用。

2.2C4.5算法

C4.5算法是昆蘭在1993年創(chuàng)立的,它創(chuàng)立的主要依據(jù)是ID3算法,但更加完整。相比于ID3算法,C4.5算法對(duì)于屬性的不間斷性和屬性值不完整的情況進(jìn)行了改變,在決策樹剪枝階段也有了比較成熟的算法。C4.5算法采用的是信息增益率為基準(zhǔn)進(jìn)行屬性測(cè)試。信息增益率的英文名稱是:information gain ratio。基本公式為:

假設(shè)整個(gè)集合為S,離散屬性A的不同取值用n表示,子集劃分為S1,……,Sn,用A表示的信息增益率為:

其中:

C4.5算法的優(yōu)點(diǎn)是對(duì)于離散和連續(xù)屬性都可以很好地進(jìn)行處理,信息增益率相比信息增益屬性來說,對(duì)于整個(gè)決策樹保持穩(wěn)定也更加有利。但同時(shí)C4.5算法也暴露出了一些問題:1)C4.5算法的結(jié)果在準(zhǔn)確性上有很大提高,但對(duì)于全局最優(yōu)效果還有待加強(qiáng);2)決策樹的整體性能在決策樹構(gòu)造完成后不易改變;3)C4.5算法在分組時(shí)的效率有待提高;4)C4.5算法的核心信息增益率也有著局限性,如果信息熵的值選擇較小的話,那么信息增率的牢固性則很可能達(dá)不到要求[2]。

2.3CART算法

CART屬于挖掘算法,最早在統(tǒng)計(jì)學(xué)中開始廣泛應(yīng)用,相對(duì)來說比較靈活。CART算法的一個(gè)特點(diǎn)就是是一種監(jiān)督學(xué)習(xí)法,即在使用時(shí),要首先建立一個(gè)可以對(duì)CART進(jìn)行評(píng)價(jià)的樣本集。一般情況下CART的學(xué)習(xí)樣本集為:

其中X為屬性向量,Y為標(biāo)簽向量,其中,回歸樹的Y的數(shù)量值是有序的,分類樹的Y的數(shù)值是無序的。

CART算法是基于統(tǒng)計(jì)理論建立的,它的解析能力比較強(qiáng)大,對(duì)非參數(shù)的識(shí)別具有一定作用,對(duì)于相關(guān)的數(shù)據(jù)要求也不是特別的嚴(yán)格,可以是無序或者離散的,最終獲得的數(shù)據(jù)結(jié)果的規(guī)則也比較簡(jiǎn)單。當(dāng)然,CART算法也存在著一定缺陷。相對(duì)來說CART算法在穩(wěn)定性方面的表現(xiàn)不盡如人意,所建立的模型之間的差異也比較明顯,對(duì)于樣本較小的處理結(jié)果能力有待提高。

3 數(shù)據(jù)挖掘中決策樹算法的改進(jìn)

3.1決策樹算法的優(yōu)化

在數(shù)據(jù)挖掘中,決策樹的算法要有所優(yōu)化。首先應(yīng)該明確加權(quán)簡(jiǎn)化熵的理念,所謂的加權(quán)簡(jiǎn)化熵指的是決策樹的權(quán)值取決于屬性A的值的具體數(shù)量,然后根據(jù)子集Vi計(jì)算相應(yīng)的簡(jiǎn)化熵值,再和權(quán)值進(jìn)行相乘,所得結(jié)果就是加權(quán)簡(jiǎn)化熵。最后在對(duì)結(jié)果進(jìn)行比較得出最優(yōu)選擇,主要公式為:

其中P為A對(duì)應(yīng)的概率。

3.2新算法的優(yōu)劣勢(shì)分析

通過與傳統(tǒng)的ID3算法進(jìn)行比較,發(fā)現(xiàn)新算法具有下面的優(yōu)點(diǎn):1)權(quán)值的引入是一個(gè)比較新的觀念,對(duì)于決策屬性的取值有很大的幫助;2)由于新算法解決了決策樹“空枝”的問題,所以算法的可靠性和易讀性得到了提升;3)新算法相比傳統(tǒng)算法在時(shí)間上的節(jié)省比較多,提升了運(yùn)行效率。

3.3挖掘流程闡述

數(shù)據(jù)挖掘的過程比較復(fù)雜,首先要通過對(duì)數(shù)據(jù)進(jìn)行分析,分出不同的數(shù)據(jù)類型和格式,在經(jīng)過清理篩選等工作,存入SQL SERVER。然后選擇ID3、C4.5、CART或者改進(jìn)算法,生成對(duì)應(yīng)的決策樹,并對(duì)其進(jìn)行檢測(cè)[3]。

4 結(jié)論

隨著社會(huì)經(jīng)濟(jì)的發(fā)展,數(shù)據(jù)挖掘的作用越來越重要,決策樹算法在數(shù)據(jù)挖掘中的作用也越來越廣泛,各種決策樹算法的各有其自己的優(yōu)劣勢(shì)。在數(shù)據(jù)挖掘中,要根據(jù)實(shí)際情況,進(jìn)行綜合考慮和科學(xué)總結(jié),為未來相關(guān)方面的研究提供更加科學(xué)和合理的依據(jù)。

[1]張悅,楊學(xué)全.決策樹算法在學(xué)生選課系統(tǒng)中的應(yīng)用[J].科技經(jīng)濟(jì)市場(chǎng),2014(7):185.

[2]張莉.數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢(shì)[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2014(18):14-15.

[3]胡常偉,錢程.基于決策樹的模具制造企業(yè)訂單履約數(shù)據(jù)挖掘[J].模具工業(yè),2014(11):4-7.

TP3

A

1674-6708(2015)152-0033-02

猜你喜歡
數(shù)據(jù)挖掘信息
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲欧美激情小说另类| 久视频免费精品6| 色视频国产| 高清不卡一区二区三区香蕉| 亚洲精品你懂的| 亚洲国产综合精品一区| 亚洲AV永久无码精品古装片| 激情影院内射美女| 免费在线色| 丝袜高跟美脚国产1区| 72种姿势欧美久久久大黄蕉| 少妇人妻无码首页| 九九热视频在线免费观看| 亚洲精品自拍区在线观看| 手机成人午夜在线视频| 99久久婷婷国产综合精| 国产成人高清亚洲一区久久| 日韩天堂在线观看| 欧美三级自拍| 亚洲无码精品在线播放| 丝袜国产一区| 亚洲欧美国产五月天综合| 欧美日韩一区二区三区四区在线观看| 日韩色图在线观看| 亚洲男人天堂2020| 国产精品久久久久久久久| 欧美不卡二区| 免费 国产 无码久久久| 亚洲中文字幕国产av| 日韩欧美中文字幕在线精品| 欧美国产精品不卡在线观看| 免费又黄又爽又猛大片午夜| 日韩毛片免费观看| 亚洲中文字幕久久精品无码一区| 国产成人精品视频一区二区电影| a级免费视频| 国产精品久久久久久久伊一| 特级做a爰片毛片免费69| 日韩欧美中文字幕在线韩免费| 亚洲色图欧美视频| 日日碰狠狠添天天爽| 成人噜噜噜视频在线观看| 日韩一区二区三免费高清| 最新亚洲人成无码网站欣赏网| 99精品视频播放| 日本不卡在线播放| 奇米影视狠狠精品7777| 欧美国产菊爆免费观看 | 国产性爱网站| 91久草视频| 精品国产乱码久久久久久一区二区| 中文纯内无码H| 尤物精品国产福利网站| 久久久久久久蜜桃| 全部免费毛片免费播放| 亚洲三级片在线看| 免费在线播放毛片| 亚洲福利一区二区三区| 草逼视频国产| 国产一区二区人大臿蕉香蕉| 女同国产精品一区二区| 亚洲精品国产精品乱码不卞| 亚洲人成网站在线观看播放不卡| 国产日本一线在线观看免费| 亚洲综合第一页| 99久久国产综合精品2020| 超级碰免费视频91| 福利小视频在线播放| 亚洲色图在线观看| 国产午夜人做人免费视频中文| 又黄又爽视频好爽视频| 国产亚洲精久久久久久久91| 黄色网址免费在线| 亚洲国产理论片在线播放| 伊人91视频| 久久久久久久久18禁秘| 日本成人精品视频| 国产精品尤物铁牛tv| 中文字幕日韩久久综合影院| 天天激情综合| 国产福利大秀91| 国产在线高清一级毛片|