張琪琪
摘 要 在大數據背景之下,數據挖掘技術已經在商業、金融業和市場營銷等方面得到了廣泛的應用。本文主要介紹了分箱離散化技術處理連續數據,再使用改進C4.5算法去構建決策樹,并且利用后剪枝算法進行模型優化,不僅減少運算的時間,提高運算效率,而且增加了模型的準確性。該方法應用于企業員工培訓,對影響培訓結果的員工年齡,性別,工齡,試卷難易程度,理論知識的學習以及實操課課時的安排情況等因素進行分析,找到影響培訓結果的關鍵因素,從而為企業或者公司制定出合理的培訓計劃,提高員工培訓的質量,進而提升企業的競爭力。
關鍵詞 分箱技術 數據挖掘 決策樹 C4.5算法
中圖分類號:TP311.13 文獻標識碼:A
0引言
企業對于員工的培訓,不僅能夠提高員工的知識水平和技能要求,而且增加了本企業所具有的獨特性,能夠區別于市場,占據一定的市場份額,日積月累也會成為本企業談判的籌碼。培訓質量的高低又關聯到了諸多的因素,例如員工年齡,性別差異,工齡長短,理論知識的學習以及實操課課時的安排情況等。選取決策樹C4.5算法進行深層次的內部挖掘,找出關鍵因素,讓決策制定者可以有明確的方向去努力,從而制定出合理高效的培訓方案。
1決策樹
決策樹是一種比喻的說法,因為其生成的形狀類似于一棵倒立的大樹,所以命名為“決策樹”。決策樹是由根節點,分支,葉節點組成。對于根節點而言,它沒有父節點,只有朝下的各個子節點,葉節點作為最后一層節點沒有子節點,在根節點和葉節點之外的所有節點都成為內部節點,每個節點都對應一個數據樣本集。根節點和內部節點都包含有一個對于屬性的測試,其分支用于將各個子節點連接起來,代表測試的結果,可以根據測試的結果將樣本集劃分為多個子集。每一個葉節點對應于一個類別標識符,表示對應樣本集的類別。
2 C4.5改進算法
在計算信息增益率時,與ID3算法相比,C4.5算法用信息增益率代替了信息增益,找出其中信息增益率最高的屬性作為測試屬性,把候選樣本集劃分為若干子樣本集,對于每一個子樣本集用同樣的方法繼續分割直到不可分割或到達停止條件為之。
其中A是某一屬性,D是樣本數據,v是對應于A上測試的v個輸出,可以用屬性A劃分v個分區或者子集。
ID3中計算信息增益的式子如(2)所示:
(1)
(2)
而在C4.5改進算法中,信息增益率代替了信息增益,其中Gain(A)=Grain(A)如下式(3)所示:
(3)
(4)
3分箱離散化技術在員工培訓結果模型中的應用
在C4.5改進算法中,對于最佳分裂點的求取,即就是信息增益率最大的點的獲取一般都是要經過對于劃分的原始樣本進行多次掃描才能得到。假設對于一個樣本A,其屬于連續屬性,首先需要對于A中的值按照升序排列,就其一種比較典型的分裂方式來說,對于給定的A中的v個值,則需要v-1個可能的劃分。A的值ai和ai+1之間的中點就應該是式子(5)所示:
(5)
這樣分割點就將樣本集劃分為兩個子集,分別是A≤v和A>v,分別計算每個分割點的信息增益率,選擇具有最大信息增益率Gain Ratio(v)的分割點,而在序列v1,v2,…Vn中找到的最接近但又不超過局部閾值v的取值V成為屬性A的分割閾值。按照上述方法求出當前候選屬性集中所有屬性的信息增益率,按照這樣的方法,直至對于每個樣本集不能分割為止。
針對以上方法在找取最佳分割點時,多次掃描數據的問題,提出的分箱離散化技術,對于樣本數據提前進行分化處理,按照升序順序后采用等量劃分的思想,將數據存放入箱子中,每個箱子就看做一個新的樣本點,這個數據的取值就是該箱子中所有數據的平均值,在遇到小數時采用四舍五入法,將其取整。
假設某一樣本中的部分數據如下:
1,2,2,4,4,4,5,6,7,7,7,8,8,10,12,12,14,16,16,17
按照每箱5個數據進行分箱操作:
1,2,2,4,4 對應的數據點是 3
4,5,6,7,7 對應的數據點是 6
7,8,8,10,12 對應的數據點是 9
12,14,16,16,17 對應的數據點是 15
這樣,這個部分樣本數據就變為了3,6,9,15。與之前的一大串相比,確實簡化了數據樣本。這樣的操作相較于C4.5算法中尋找最佳分割點的方法要簡便許多,在同樣大的樣本下,經過比較,該方法因為前期的分箱預處理數據之后,減少了許多的噪聲數據和冗余數據,使得運算的速度大大提高,準確率也更靠近樣本原始數據,有所提升。
4結束語
分箱離散化技術的應用,使得改進的C4.5算法在使用性能等各方面更加的良好,改掉了以往C4.5算法在數據預處理階段多次重復掃描數據的情況,減少了資源和時間的浪費。分箱技術也更簡便快捷,沒有大量復雜的計算過程,簡便的計算就能快速的完成分箱造作,對于信息增益率的求取數目也大大減少,加快了決策樹的形成。
參考文獻
[1] 董曉娜.A公司人力資源培訓體系優化研究[D].北京:北京交通大學.2017.
[2] 傅亞莉.數據挖掘技術C4.5算法在成績分析中的應用[J].重慶理工大學學報:自然科學版,2013.
[3] 黃愛輝.基于決策樹算法的考試成績分析系統的研究與開發[D].長沙:湖南大學,2008.
[4] 韓家煒,裴健.數據挖掘概念與技術[M].機械工業出版社,2012.