999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹剪枝研究

2016-02-19 17:28:57李泓波彭三城白勁波楊高明黃少偉
計算機時代 2016年2期
關鍵詞:機器學習

李泓波+彭三城+白勁波+楊高明+黃少偉

DOI:10.16644/j.cnki.cn33-1094/tp.2016.02.001

摘 ?要: 決策樹技術是一種重要的機器學習技術,現已廣泛應用于工業、商業、金融、醫療衛生等多個學科和領域,并成為學術熱點問題。在眾多的應用中,存在由于使用剪枝算法簡化決策樹而導致系統性能下降的情況。針對濫用剪枝問題,通過對決策樹技術的研究,闡述剪枝與過擬合現象的關系,并從奧卡姆剃刀原理、沒有免費午餐原理、人類本能、孤立點分析等方面對剪枝的合理性和必要性展開討論,提出了慎用剪枝的主張以及免剪枝措施。

關鍵詞: 決策樹; 機器學習; 過擬合; 剪枝; 免剪枝措施

中圖分類號:TP391 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2016)02-01-03

Study on decision tree pruning

Li Hongbo1, Peng Sancheng1, Bai Jinbo2, Yang Gaoming3, Huang Shaowei1

(1. School of Computer/School of Software, Zhaoqing University, Zhaoqing, Guangdong 526161, China; 2. College of Economics & Management, Zhaoqing University; 3. College of Computer Science and Engineering, Anhui University of Science & Technology)

Abstract: Decision tree technology is an important machine learning technology, has been widely used in industrial, commercial, financial, medical and health care, and other disciplines and fields, and become the academic hot issue. There are decision tree performance degradation phenomena existing in many applications because of using of pruning algorithms to simplify the decision tree. In view of the problem of abusing pruning, through a brief introduction to decision tree technology, explaining the relationship between pruning and over fitting phenomenon, and discussing on the rationality and necessity of pruning from several aspect, such as Occam's razor theorem, no free lunch theorem, the human instinct, outlier analysis, etc., the careful pruning claims and avoiding pruning measures are put forward.

Key words: decision tree; machine learning; over fitting; pruning; avoiding pruning measure

0 引言

決策樹是一種重要的非參數機器學習技術,其本質為歸納學習,主要用于分類、預測和規則獲取等[1-9],現已廣泛應用于工業、商業、金融、醫療衛生等多個學科和領域[10-13]。一般認為,決策樹應用大致分為數據預處理、決策樹訓練和剪枝、決策樹檢驗和應用四大步驟[9]。從目前研究看,在眾多實際應用中都采用了剪枝算法對決策樹進行簡化處理。然而,在有些情況下,剪枝處理會導致決策樹性能的下降。

1 過擬合現象與剪枝

1.1 過擬合

在訓練決策樹的過程中,可能會現一種稱為過擬合(也稱為過渡擬合或過適應)的現象。以下簡述過擬合的相關概念,并通過介紹這些概念的引入闡釋過擬合現象。

⑴ 訓練誤差:是指在訓練樣本集上決策樹誤分類所占的比例。

⑵ 泛化誤差:經過訓練樣本集訓練過的決策樹在進行分類預測樣本集上的期望誤差。

⑶ 噪聲:對于噪聲的定義尚未統一,為對其有多角度的觀察和更加開放的目光進行審視,下面給出兩個經典的定義。一個定義來自著名模式識別專家Duda;另一個來自決策樹技術專家Quinlan。Duda給出的定義是:噪聲是一個非常廣義的概念,如果一個感知到的模式屬性(值)并非來自真正模式的模型,而是來自環境中的某種隨機性或者是傳感器的性能缺憾,那么就是噪聲[14]。Quinlan的定義是:訓練樣本中的錯誤就是噪聲;它包含兩方面,一是屬性值取錯,二是分類類別取錯。概括地說,Duda和Quinlan都認為,噪聲產生的原因是訓練樣本集合存在錯誤數值,這些數值跳出了其正常的取值范圍。

⑷ 過擬合:如果訓練誤差低而泛化誤差高,則稱為過擬合。出現過擬合現象主要有兩個原因:一是訓練樣本數量少,二是噪聲的存在。

1.2 剪枝

⑴ 剪枝的作用

人們發現,在有些時候,一棵經過訓練的決策樹過于“繁茂”,知識過多,或者說得到的規則集合過大。經過剪枝,可以得到一棵相對簡潔的決策樹,較少的規則使得在進行分類預測時,決策樹效率更高。同時,剪枝也可以減少過擬合現象的發生。

⑵ 先剪枝

所謂的先剪枝是指在決策樹的構造過程中,當滿足設定條件時,以當前分枝的樣例子集中出現次數最多的類別值作為當前分枝的節點標記名,而提前停止決策樹的構造。

⑶ 后剪枝

所謂的后剪枝是指在決策構造完成之后,刪去某些滿足某種條件的結點及其子孫結點和分枝,并以該結點分枝的樣例子集中出現次數最多的類別值作為當前分枝的節點標記名。

圖1為一棵剪枝前的決策樹,圖2為對前圖所示決策樹剪枝后的情形。

2 決策樹剪枝討論

一般說來,經訓練獲得一棵決策樹后,考慮到簡潔和效率因素,并為避免過擬合現象,往往要對其進行剪枝。但是,剪枝是否總是合理或必要則是個問題。

2.1 奧卡姆剃刀原理與剪枝

奧卡姆剃刀原理由14世紀哲學家奧卡姆提出,如今已經廣泛應用于哲學、管理學、社會科學、自然科學等多個領域,取得了輝煌成就。奧卡姆剃刀原理的哲學內涵非常豐富,其中的“思維經濟原則”后來演變為“如無必要,勿增實體”,也稱“簡單有效原則”。依據這一原則,如果一個問題存在多個解決方案,則應該選取前提條件最少且最簡單的那一個。因此,決策樹剪枝就是該原理的一次應用——盡量去除冗余“實體”,只保留必要“實體”。在很多情況下,一棵經過剪枝的決策樹,不但具有更加清晰的知識表示,而且更富執行效率。

然而,從目前的研究現狀看,存在濫用剪枝并導致決策樹分類性能下降的現象[14]。從本質上說,剪枝濫用現象來源于人們對奧卡姆剃刀原理的片面理解,一味強調“勿增實體”,而忽視“如非必要”這一前提條件。剪枝之所以在實踐中起作用,僅僅是因為這恰好與它們所要解決的問題相“匹配”[14]。

2.2 沒有免費午餐原理與剪枝

沒有免費午餐原理揭示了獲得與付出的共生性。許多剪枝算法雖然能提高效率或避免過擬合現象的發生,但同時也要付出很大的代價。例如,先剪枝算法由于前瞻性不足而過早停止生長,導致視野效應,難以確定被剪結點的子結點對分類的貢獻程度,往往不能得到比較優化的決策樹[15]。再如,后剪枝算法雖然可避免先剪枝算法帶來的弊端,但或者具有較高的時間復雜度,或者需要額外的檢驗樣例集,或者不能得到較優的決策樹。因此,經過剪枝的決策樹也許更易理解、更富效率,但其性能卻未必最佳。正如Duda所指出的那樣:不存在與“語境無關”(context-free)或與“應用無關”(usage-free)的任何理由來認定某種學習或分類算法比另外一種更好[14]。

2.3 人類本能與剪枝

既然剪枝后的決策樹不一定擁有最佳性能,那么是什么原因使我們更偏愛剪枝后的決策樹呢?一種解釋是:由于在強大的自然選擇作用下,為了生存,人類更喜歡理解簡單、耗時最少的分類器[14]。在人類社會早期,自然條件十分惡劣,為保證在種間和種內競爭中保持優勢并成為勝出者,人類更喜歡高效率的工具。經過幾十萬年的沉淀,這種認知已經深深印入了人類集體意識中,選擇簡單、高效的工具已經變成了人類的一種本能。因此,對決策樹的剪枝行為也許恰恰是人類本能的反映。

2.4 孤立點與剪枝

決策樹剪枝既能提高效率又能在很大程度上避免過擬合現象的發生,但也存在著一個很大的弊端,即將訓練樣例集中的孤立點等同于噪聲一樣處理,從而會使得與孤立點相關的規則(知識)被屏蔽掉,而這些規則往往具有重要價值。事實上,孤立點在科學研究中往往具有特殊的作用,孤立點檢測已經廣泛應用于網絡入侵檢測、電信和信用卡欺騙、氣象預報、客戶分類、RFID數據流及傳感器數據處理等諸多領域[16]。屏蔽掉孤立點相關規則,雖然會使得決策樹具有較強的泛化能力,但同時也可能失去重要規則(知識)。

3 免剪枝措施

雖然決策樹剪枝可以提高效率,避免過擬合現象,但由于剪枝行為可能只是迎合了人類本能,或忽視了奧卡姆剃刀原理的前提,并需要額外代價,有可能造成決策性能下降,以及存在丟失重要規則的可能,因此本文主張慎用剪枝,在有些情況下不用剪枝。

為避免剪枝,建議采取以下措施。

⑴ 加強數據預處理。在訓練決策樹之前,加強對訓練樣例集進行數據清洗、數據補齊、離散化,以及規范化等處理,盡量平抑噪聲。

⑵ 擴大訓練樣例集規模。因決策樹本質上為歸納學習方法,而噪聲數據相對于正常數據畢竟所占比例較低,因此適當擴大訓練樣例集規模可以有效減少噪聲的影響。

⑶ 縮小測試屬性集合規模。在實際應用中,除分類屬性外,存在測試屬性強相關的情況。對測試屬性集合進行盡可能的約簡,去除強相關屬性,可以有效縮小決策樹規模和減少生成規則的維度。

4 結束語

本文通過闡釋剪枝與過擬合現象的關系,從奧卡姆剃刀原理前提條件被忽視、沒有免費午餐原理所揭示的獲得與付出的共生性、人類追求簡單性的本能,以及孤立點規則被屏蔽等多個方面對決策樹剪枝的合理性和必要性展開了討論,提出了慎用剪枝的主張以及免剪枝措施。

參考文獻(References):

[1] Liang Chunquan, Zhang Yang, Shi Peng, et al. Learning

accurate very fast decision trees from uncertain data streams[J]. International Journal of Systems Science,2015.46(16):3032-3050

[2] Li Peipei, Wu Xindong, Hu Xuegang, et al. Learning

concept-drifting data streams with random ensemble decision trees[J]. Neurocomputing,2015.166:68-83

[3] Kretser Heidi E, Wong Ramacandra, Roberton Scott, et al.

Mobile decision-tree tool technology as a means to detect wildlife crimes and build enforcement networks[J]. Biological Conservation,2015.189(SI):33-38

[4] Dhurandhar Amit. Bounds on the moments for an

ensemble of random decision trees[J]. Knowledge and Information Systems,2015.44(2):279-298

[5] Czajkowski Marcin, Grzes Marek, Kretowski Marek.

Multi-test decision tree and its application to microarray data classification[J]. Artificial Intelligence in Medicine,2014.61(1):35-44

[6] Mehenni Tahar, Moussaoui Abdelouahab. Data mining

from multiple heterogeneous relational databases using decision tree classification[J].Pattern Recognition Letters,2014.40:136-136

[7] Tuerkcan Silvan, Masson Jean-Baptiste. Bayesian Decision

Tree for the Classification of the Mode of Motion in Single-Molecule Trajectories[J]. Plos One,2013.8(12):e82799

[8] Lupascu Carmen Alina; Tegolo Domenico; Trucco

Emanuele. Accurate estimation of retinal vessel width using bagged decision trees and an extended multiresolution Hermite model[J]. Medical Image Analysis,2013.17(8):1164-1180

[9] 韓家煒,Kam ber. M.數據挖掘:概念與技術(第2版)[M].機械

工業出版社,2007.

[10] 梁循.數據挖掘算法與應用[M].北京大學出版社,2006.

[11] 郭宇紅,王路寧,毛玉琪.SPSS Clementine決策樹建模在圖

書館中的應用[J].計算機時代,2014.4:30-33

[12] 陳玉珍.基于決策樹的高職學生創業傾向分析[J].計算機時

代,2010.3:31-35

[13] 張立敏,晉新敏.基于決策樹的心理危機預警模型研究[J].計

算機時代,2013.1:3-5

[14] Richard O. Duda, David G. Stork. 模式分類[M]. 北京-機

械工業出版社, 2003

[15] 鄭偉,馬楠.一種改進的決策樹剪枝算法[J].計算機與數字工

程,2015.43(6):960-966,971

[16] 孫煥良,鮑玉斌,于戈等.一種基于劃分的孤立點檢測算法[J].

軟件學報,2006.17(6):1009-1016

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 狠狠色丁香婷婷| 欧美性色综合网| 欧美亚洲另类在线观看| av手机版在线播放| 尤物视频一区| 日韩精品资源| 亚洲色图欧美在线| 无码日韩人妻精品久久蜜桃| 91九色国产在线| 国产99久久亚洲综合精品西瓜tv| 无码啪啪精品天堂浪潮av| 国产熟女一级毛片| 女人18毛片一级毛片在线| 久久中文无码精品| 亚洲人成网18禁| 国产噜噜噜| 无码不卡的中文字幕视频| 在线日本国产成人免费的| 国产凹凸一区在线观看视频| 男人天堂亚洲天堂| 亚洲男人天堂2020| 91人人妻人人做人人爽男同| 综合色在线| 色婷婷成人| 国产主播福利在线观看| 欧美精品v欧洲精品| 亚洲欧州色色免费AV| 91成人免费观看在线观看| 国产一级毛片在线| 香蕉伊思人视频| 2020国产免费久久精品99| 日本草草视频在线观看| 波多野吉衣一区二区三区av| 国产一级小视频| 欧美区在线播放| 亚洲欧洲天堂色AV| 欧美一级高清片欧美国产欧美| 国产毛片基地| 激情综合五月网| 亚洲男人的天堂网| 小蝌蚪亚洲精品国产| 亚洲国产中文精品va在线播放| 麻豆精品国产自产在线| 午夜高清国产拍精品| 无码国产伊人| 欧美三级自拍| 色老头综合网| 色综合a怡红院怡红院首页| 亚洲AⅤ永久无码精品毛片| 午夜国产在线观看| 国产青榴视频| 思思热在线视频精品| 国产精品手机视频| 91成人免费观看在线观看| 亚洲欧洲一区二区三区| 久久黄色一级视频| 美女被躁出白浆视频播放| 日韩在线观看网站| 亚洲国产成人在线| 国产午夜不卡| 久久精品丝袜高跟鞋| 国产精品欧美在线观看| 二级特黄绝大片免费视频大片| 国产精品观看视频免费完整版| 国产日韩丝袜一二三区| 久久综合丝袜日本网| 亚洲成人动漫在线观看| 国产精品区视频中文字幕| 99re在线观看视频| 夜精品a一区二区三区| 国产精品自在线天天看片| 久久婷婷五月综合97色| 色综合狠狠操| 国产福利免费观看| 欧美不卡二区| 国产亚洲欧美在线中文bt天堂 | 国产精品偷伦在线观看| 精品99在线观看| 极品尤物av美乳在线观看| 免费观看精品视频999| 久久国产精品波多野结衣| 国产在线啪|