蔡雨昕

摘 要:數據挖掘,即利用大量的、不完整的、隨機的實際應用數據,提取潛在其中的有用信息,解決相關問題。針對圖像特征數據,利用提取的圖像特征向量的基礎上,基于決策樹對圖像數據進行分類處理,并對生成的決策樹進行優化和剪枝處理。
關鍵詞:圖像分類;決策樹;交叉驗證誤差;信息增益
中圖分類號:TB 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.28.097
0 引言
本文已知樣本數為10000個,23個特征形成的向量,并且,樣本已分為0與1兩類。在此基礎上,我們運用決策樹模型進行分類器的訓練。分別利用算葉子結點所含最小樣本數和剪枝的方法對決策樹進行優化,并比較分類結果,得到最后決策樹模型。
1 模型假設
(1)所給的樣本集中無重復樣本;
(2)圖像特征的提取均正確可靠;
(3)屬性之間的關聯性較弱。
2 模型建立
2.1 決策樹的建立
針對不同的屬性,首先我們考慮信息熵。假設其中的一個離散屬性a,有n個可能的取值,則當使用屬性a來對數據集D來劃分時,會產生n個不同的分支結點,其中第m個結點在屬性a上取值為am的樣本,將其記為Dm,則對應的信息熵為:
其中Dmk表示Dm中分類為k的樣本。其次,在考慮到樹上不同的分支結點所包含樣本個數的不同,則分別對分支節點進行賦權。利用屬性a,劃分所獲得的信息增益為:
基于上述理論,利用MATLAB軟件進行決策樹分類器的訓練。我們從10000個樣本中取9000個樣本數據進行訓練,得到以下決策樹模型,如圖 1所示。
從圖中不難看出,原始決策樹體系龐大且復雜。隨后,將測試的10000個樣本通過決策樹模型進行分類。結果顯示,樣本正確分類的概率為81%,其中正確分為1的概率為86.48%,正確分為0的概率為66.04%。
2.2 決策樹優化
關于決策樹,其葉子節點數會影響樹的生長情況及性能。優化時,為找到最優的葉子結點最小樣本取值,我們首先在10至1000的范圍內,等距取200個點進行遍歷。結果顯示,葉子結點的最小樣本數隨取值的增大,它的交叉驗證誤差也呈現增大的趨勢。隨后,我們將范圍縮小至10-100,等距取50個點進行遍歷,遍歷結果如圖 2所示。
由上圖可以發現,當取值約為15時,模型的交叉驗證誤差是最小的。因此,我們將葉子結點處的最小樣本數限制為15。為檢驗優化后模型分類效果,我們計算優化前后交叉驗證誤差進行比較。結果顯示,優化前為0.1912,優化后為0.2043,因此舍棄該方法。
2.3 決策樹剪枝
為減少異常數據對決策樹模型的影響,得到更好的分類效果,我們采用剪枝的方法進行優化和簡化。葉結點的數量越多,反映了決策樹對訓練數據的細節問題反映了越多,繼而弱化了泛化的能力。因此,我們采用后剪枝的方法進行處理,結果如圖3。
為驗證剪枝后的決策樹分類情況,進行了誤差檢驗。結果顯示,剪枝后交叉驗證誤差為0.1917,僅比剪枝前的大了0.0005,可以忽略不計。此時建立決策樹為最終模型。
參考文獻
[1]王惠中,彭安群.數據挖掘研究現狀及發展趨勢[J].工礦自動化,2011,37(02):29-32.
[2]欒麗華,吉根林.決策樹分類技術研究[J].計算機工程,2004,(09):94-96+105.
[3]楊明,張載鴻.決策樹學習算法ID3的研究[J].微機發展,2002,(05):6-9.
[4]唐華松,姚耀文.數據挖掘中決策樹算法的探討[J].計算機應用研究,2001,(08):18-19+22.