999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的實踐及應(yīng)用

2021-10-30 02:35:52雷湘琦
科學(xué)與生活 2021年19期
關(guān)鍵詞:數(shù)據(jù)挖掘

雷湘琦

摘要:過去數(shù)十年中,數(shù)據(jù)挖掘得到廣泛的應(yīng)用,作用的領(lǐng)域包括人工智能、統(tǒng)計學(xué)、數(shù)據(jù)庫等等。于當(dāng)下的學(xué)生來說,數(shù)據(jù)挖掘是一門經(jīng)久不衰的學(xué)科,而對于從事數(shù)據(jù)挖掘的工作者來說,更是深刻地體會到了數(shù)據(jù)挖掘強有力的發(fā)展前景。對數(shù)據(jù)挖掘這個領(lǐng)域應(yīng)用最多的就是算法,掌握算法的意義就抓住了數(shù)據(jù)挖掘的核心。如今,雖然數(shù)據(jù)挖掘技術(shù)的應(yīng)用相當(dāng)廣泛,但是就算法而言其本質(zhì)并未發(fā)生改變?,F(xiàn)今運用的都是一些比較經(jīng)典的算法,如傳統(tǒng)的決策樹算法等,同時這些算法也是學(xué)習(xí)數(shù)據(jù)挖掘算法的根基。文中主要列舉相關(guān)算法并應(yīng)用相應(yīng)的實例加以佐證,指出其中的不足和需要改進(jìn)的地方。

關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;鳶尾花數(shù)據(jù)

引言

決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風(fēng)險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。決策樹模式呈樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點代表一個類別。學(xué)習(xí)時利用訓(xùn)練數(shù)據(jù),根據(jù)損失函數(shù)最小化的原則建立決策樹模型;預(yù)測時,對新的數(shù)據(jù),利用決策樹模型進(jìn)行分類。在機器學(xué)習(xí)中,決策樹是一個預(yù)測模型,它代表的是對象屬性與對象值之間的一種映射關(guān)系決策樹是一種基本的分類與回歸方法,本文應(yīng)用的是用于分類的決策樹。

1 基本原理

決策樹學(xué)習(xí)通常包括三個步驟:特征選擇,決策樹的生成和決策樹的剪枝。

1.1 特征選擇

特征選擇在于選取對訓(xùn)練數(shù)據(jù)具有分類能力的特征,這樣可以提高決策樹學(xué)習(xí)的效率。通常特征選擇的準(zhǔn)則是信息增益(或信息增益比、基尼指數(shù)等),每次計算每個特征的信息增益,并比較它們的大小,選擇信息增益最大(信息增益比最大、基尼指數(shù)最小)的特征。

下面重點介紹一下本文特征選擇的準(zhǔn)則:信息增益。首先定義信息論中廣泛使用的一個度量標(biāo)準(zhǔn)——熵(Entropy),它是表示隨機變量不確定性的度量。熵越大,隨機變量的不確定性就越大。而信息增益(Informational Entropy)表示得知某一特征后使得信息的不確定性減少的程度。簡單的說,一個屬性的信息增益就是由于使用這個屬性分割樣例而導(dǎo)致的期望熵降低。信息增益、信息增益比和基尼指數(shù)的具體定義如下:信息增益:特征A對訓(xùn)練數(shù)據(jù)集D的信息增益,定義為集合D的經(jīng)驗熵與特征A給定條件下D的經(jīng)驗條件熵之差,即信息增益比:特征A對訓(xùn)練數(shù)據(jù)集D的信息增益比定義為其信息增益與訓(xùn)練數(shù)據(jù)集D關(guān)于特征A的值的熵之比,即其中n是特征A取值的個數(shù)。

1.2 決策樹的生成

? 從根結(jié)點開始,對結(jié)點計算所有可能的特征的信息增益,選擇信息增益最大的特征作為結(jié)點的特征,由該特征的不同取值建立子結(jié)點,再對子結(jié)點遞歸地調(diào)用以上方法,構(gòu)建決策樹;直到所有特征的信息增均很小或沒有特征可以選擇為止,最后得到一個決策樹。決策樹需要有停止條件來終止其生長的過程。一般來說最低的條件是:當(dāng)該節(jié)點下面的所有記錄都屬于同一類,或者當(dāng)所有的記錄屬性都具有相同的值時。這兩種條件是停止決策樹的必要條件,也是最低的條件。在實際運用中一般希望決策樹提前停止生長,限定葉節(jié)點包含的最低數(shù)據(jù)量,以防止由于過度生長造成的過擬合問題。

1.3 決策樹的剪枝

? 決策樹生成算法遞歸地產(chǎn)生決策樹,直到不能繼續(xù)下去為止。這樣產(chǎn)生的樹往往對訓(xùn)練數(shù)據(jù)的分類很準(zhǔn)確,但對未知的測試數(shù)據(jù)的分類卻沒有那么準(zhǔn)確,即出現(xiàn)過擬合現(xiàn)象。解決這個問題的辦法是考慮決策樹的復(fù)雜度,對已生成的決策樹進(jìn)行簡化,這個過程稱為剪枝。

本文將應(yīng)用鳶尾花數(shù)據(jù)進(jìn)行決策樹分析。

2 決策樹的剪枝

Iris 鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集。數(shù)據(jù)集內(nèi)包含 3 類共 150 條記錄,每類各 50 個數(shù)據(jù),每條記錄都有 4 項特征:花萼長度、花萼寬度、花瓣長度、花瓣寬度,可以通過這4個特征預(yù)測鳶尾花卉屬于(Iris-setosa,Iris-versicolour,Iris-virginica)中的哪一品種。

2.1 利用Decision Tree分類器對Iris data進(jìn)行分類

2.1.1 Decision Tree分類過程

如圖1-1。

2.1.2 Decision Tree分類結(jié)果

如圖1-2。

3 結(jié)束語

經(jīng)上述分析,決策樹分類算法與統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)分類算法相比較具備以下優(yōu)點:首先,通過決策樹分類算法進(jìn)行分類,出現(xiàn)的分類規(guī)則相對較容易理解,并且在決策樹中由于每一個分支都對應(yīng)不同的分類規(guī)則,所以在最終進(jìn)行分類的過程中,能夠說出一個更加便于了解的規(guī)則集。其次,在使用決策樹分類算法對數(shù)據(jù)挖掘中的數(shù)據(jù)進(jìn)行相應(yīng)的分類過程中,與其他分類方法相比,速率更快,效率更高。最后,決策樹分類算法還具有較高的準(zhǔn)確度,從而確保在分類的過程中能夠提高工作效率和工作質(zhì)量。決策樹分類算法與其他分類算法相比,雖然具備很多優(yōu)點,但是也存在一定的缺點,其缺點主要體現(xiàn)在以下幾個方面:首先,在進(jìn)行決策樹的構(gòu)造過程中,由于需要對數(shù)據(jù)集進(jìn)行多次的排序和掃描,因此導(dǎo)致在實際工作過程中工作量相對較大,從而可能會使分類算法出現(xiàn)較低能效的問題。

參考文獻(xiàn):

[1]程一芳.數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述[J].數(shù)字通信世界,2021(02):136-137+140.

[2]韓成成,增思濤,林強,曹永春,滿正行.基于決策樹的流數(shù)據(jù)分類算法綜述[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2020,41(02):20-30.

[3]姚奇峰,楊連賀.數(shù)據(jù)挖掘經(jīng)典分類聚類算法的研究綜述[J].現(xiàn)代信息科技,2019,3(24):86-88.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 美女被操91视频| 人妻一本久道久久综合久久鬼色| 久久视精品| 无码高潮喷水专区久久| 55夜色66夜色国产精品视频| 欧美精品v| 亚洲欧洲AV一区二区三区| 欧美日本在线播放| 99re视频在线| 巨熟乳波霸若妻中文观看免费| 欧美日韩国产综合视频在线观看 | a级毛片毛片免费观看久潮| 呦女亚洲一区精品| 成人综合在线观看| 欧美高清国产| 精品久久高清| 国产在线观看一区精品| 国产精品va免费视频| 美美女高清毛片视频免费观看| 欧美日韩精品一区二区视频| 在线99视频| 亚洲欧美成aⅴ人在线观看| 激情爆乳一区二区| 亚洲一区二区在线无码| 欧美人在线一区二区三区| 国产久草视频| 污网站在线观看视频| 色噜噜综合网| 在线观看免费AV网| 国产精品亚洲а∨天堂免下载| 色综合狠狠操| 思思99思思久久最新精品| 97无码免费人妻超级碰碰碰| 久久6免费视频| 萌白酱国产一区二区| 精品无码一区二区在线观看| 日韩国产一区二区三区无码| 亚洲精品欧美重口| 欧美黄色a| 五月激情婷婷综合| 日韩福利在线视频| 国产人成乱码视频免费观看| 欧美日韩国产在线播放| 国产精品专区第一页在线观看| аⅴ资源中文在线天堂| 在线国产三级| 一区二区三区在线不卡免费| 四虎影视永久在线精品| 久久熟女AV| 毛片视频网址| 欧美无遮挡国产欧美另类| 欧美伦理一区| 午夜性爽视频男人的天堂| 亚洲国产成人精品一二区| 久99久热只有精品国产15| 日本一区中文字幕最新在线| 无码中文字幕加勒比高清| 99精品福利视频| 成年人国产网站| 亚洲Av综合日韩精品久久久| 在线精品视频成人网| 亚洲精品少妇熟女| 中文字幕人成乱码熟女免费| 毛片免费观看视频| a天堂视频| 草逼视频国产| 国产人免费人成免费视频| 91久久国产综合精品| 日本高清免费一本在线观看| 国产极品粉嫩小泬免费看| 成人一级黄色毛片| 四虎影视国产精品| 国产在线精彩视频论坛| 麻豆精选在线| 尤物亚洲最大AV无码网站| 国内精品久久人妻无码大片高| 伦伦影院精品一区| 久久精品视频一| 国产极品美女在线播放| 91精品最新国内在线播放| 五月婷婷丁香色| 国产麻豆福利av在线播放|