蔡星
摘 要:該文對傳統的C4.5決策樹數據挖掘算法進行了改進,提出了一種雙重熵平均決策樹算法。傳統的C4.5決策樹算法易出現無意義分枝,過度擬合等問題,針對該類問題,基于雙重熵平均決策樹算法,通過兩次對樣本子集熵平均值的計算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據,從而解決了傳統C4.5決策樹算法可解釋性差、易產生碎片等問題。
關鍵詞:C4.5決策樹 算法 熵 平衡因子
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-098X(2014)04(c)-0040-02
數據聯機分析功能是通過對數據的處理發現已知要素與分析度量值之間的關系,而數據挖掘則是從大量的數據中發現隱藏的規律。數據挖掘包括多種挖掘算法,為了研究畢業生不同屬性與其就業狀況之間的潛在知識和規律,該文采用決策樹方法對高校畢業生數據進行分析,主要選用的是C4.5決策樹算法。
1 C4.5算法思想
決策樹的優點在于原理簡單,發現知識較快;計算較為簡單,運算速度較快,對于訓練數據的處理和待決策數據的處理效率相對較高;適用于大量數據的綜合處理,有利于挖掘數據中的重要屬性;最終得到的挖掘結果是有意見的規則,有利于用戶的理解。決策樹的主要缺點包括:對數據的時間屬性較為敏感,需要大量的預處理工作;對于非離散的連續性數據值處理效率和準確率不佳;易出現過度擬合的情況,產生大量的決策分支,導致決策規則過于龐大。
C4.5決策樹算法是決策樹算法的主流,它繼承于傳統的ID3算法,繼承了其優勢,改進了其缺點。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準確性方面的問題。針對上述問題,本課題提出了一種改進的C4.5決策樹算法,在算法構建過程中,以樹分枝的信息熵為研究對象,將熵值較高的部分和熵值較低的部分進行合并和平衡處理,從而達到減少決策樹分支數量的目的;與此同時,考慮到C4.5算法在決策分支的確定過程中采用的是局部最優的方法,在準確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優化性。
C4.5決策樹算法設研究對象數據集為,該數據集中包括個類別,每一個類別表示為,選取該數據集中的一個屬性數據,則可以被劃分為多個子集,設有個取值,則被劃分的子集可表示為。設為的例子總數,而為的例子數,為的例子總數,是的所有例子中所包括的的例子數,基于上述的設定,則可以得到如下定義:
(1)類別在出現的概率如式(1)所示:
(1)endprint
摘 要:該文對傳統的C4.5決策樹數據挖掘算法進行了改進,提出了一種雙重熵平均決策樹算法。傳統的C4.5決策樹算法易出現無意義分枝,過度擬合等問題,針對該類問題,基于雙重熵平均決策樹算法,通過兩次對樣本子集熵平均值的計算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據,從而解決了傳統C4.5決策樹算法可解釋性差、易產生碎片等問題。
關鍵詞:C4.5決策樹 算法 熵 平衡因子
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-098X(2014)04(c)-0040-02
數據聯機分析功能是通過對數據的處理發現已知要素與分析度量值之間的關系,而數據挖掘則是從大量的數據中發現隱藏的規律。數據挖掘包括多種挖掘算法,為了研究畢業生不同屬性與其就業狀況之間的潛在知識和規律,該文采用決策樹方法對高校畢業生數據進行分析,主要選用的是C4.5決策樹算法。
1 C4.5算法思想
決策樹的優點在于原理簡單,發現知識較快;計算較為簡單,運算速度較快,對于訓練數據的處理和待決策數據的處理效率相對較高;適用于大量數據的綜合處理,有利于挖掘數據中的重要屬性;最終得到的挖掘結果是有意見的規則,有利于用戶的理解。決策樹的主要缺點包括:對數據的時間屬性較為敏感,需要大量的預處理工作;對于非離散的連續性數據值處理效率和準確率不佳;易出現過度擬合的情況,產生大量的決策分支,導致決策規則過于龐大。
C4.5決策樹算法是決策樹算法的主流,它繼承于傳統的ID3算法,繼承了其優勢,改進了其缺點。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準確性方面的問題。針對上述問題,本課題提出了一種改進的C4.5決策樹算法,在算法構建過程中,以樹分枝的信息熵為研究對象,將熵值較高的部分和熵值較低的部分進行合并和平衡處理,從而達到減少決策樹分支數量的目的;與此同時,考慮到C4.5算法在決策分支的確定過程中采用的是局部最優的方法,在準確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優化性。
C4.5決策樹算法設研究對象數據集為,該數據集中包括個類別,每一個類別表示為,選取該數據集中的一個屬性數據,則可以被劃分為多個子集,設有個取值,則被劃分的子集可表示為。設為的例子總數,而為的例子數,為的例子總數,是的所有例子中所包括的的例子數,基于上述的設定,則可以得到如下定義:
(1)類別在出現的概率如式(1)所示:
(1)endprint
摘 要:該文對傳統的C4.5決策樹數據挖掘算法進行了改進,提出了一種雙重熵平均決策樹算法。傳統的C4.5決策樹算法易出現無意義分枝,過度擬合等問題,針對該類問題,基于雙重熵平均決策樹算法,通過兩次對樣本子集熵平均值的計算、排序、合并處理,得到修正后的屬性信息增益,并以此作為屬性選擇的依據,從而解決了傳統C4.5決策樹算法可解釋性差、易產生碎片等問題。
關鍵詞:C4.5決策樹 算法 熵 平衡因子
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1674-098X(2014)04(c)-0040-02
數據聯機分析功能是通過對數據的處理發現已知要素與分析度量值之間的關系,而數據挖掘則是從大量的數據中發現隱藏的規律。數據挖掘包括多種挖掘算法,為了研究畢業生不同屬性與其就業狀況之間的潛在知識和規律,該文采用決策樹方法對高校畢業生數據進行分析,主要選用的是C4.5決策樹算法。
1 C4.5算法思想
決策樹的優點在于原理簡單,發現知識較快;計算較為簡單,運算速度較快,對于訓練數據的處理和待決策數據的處理效率相對較高;適用于大量數據的綜合處理,有利于挖掘數據中的重要屬性;最終得到的挖掘結果是有意見的規則,有利于用戶的理解。決策樹的主要缺點包括:對數據的時間屬性較為敏感,需要大量的預處理工作;對于非離散的連續性數據值處理效率和準確率不佳;易出現過度擬合的情況,產生大量的決策分支,導致決策規則過于龐大。
C4.5決策樹算法是決策樹算法的主流,它繼承于傳統的ID3算法,繼承了其優勢,改進了其缺點。但C4.5決策樹算法依然存在著較多的問題,其中最為突出的是過度擬合情況,以及決策準確性方面的問題。針對上述問題,本課題提出了一種改進的C4.5決策樹算法,在算法構建過程中,以樹分枝的信息熵為研究對象,將熵值較高的部分和熵值較低的部分進行合并和平衡處理,從而達到減少決策樹分支數量的目的;與此同時,考慮到C4.5算法在決策分支的確定過程中采用的是局部最優的方法,在準確性方面從整體上看有所欠缺,所以引入了了平衡因子控制算法的整體最優化性。
C4.5決策樹算法設研究對象數據集為,該數據集中包括個類別,每一個類別表示為,選取該數據集中的一個屬性數據,則可以被劃分為多個子集,設有個取值,則被劃分的子集可表示為。設為的例子總數,而為的例子數,為的例子總數,是的所有例子中所包括的的例子數,基于上述的設定,則可以得到如下定義:
(1)類別在出現的概率如式(1)所示:
(1)endprint