999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術在員工培訓結果中的應用

2018-07-28 09:46:34張琪琪
科教導刊·電子版 2018年15期
關鍵詞:數據挖掘培訓

張琪琪

摘 要 在大數據背景之下,數據挖掘技術已經在商業、金融業和市場營銷等方面得到了廣泛的應用。本文主要介紹了分箱離散化技術處理連續數據,再使用改進C4.5算法去構建決策樹,并且利用后剪枝算法進行模型優化,不僅減少運算的時間,提高運算效率,而且增加了模型的準確性。該方法應用于企業員工培訓,對影響培訓結果的員工年齡,性別,工齡,試卷難易程度,理論知識的學習以及實操課課時的安排情況等因素進行分析,找到影響培訓結果的關鍵因素,從而為企業或者公司制定出合理的培訓計劃,提高員工培訓的質量,進而提升企業的競爭力。

關鍵詞 分箱技術 數據挖掘 決策樹 C4.5算法

中圖分類號:TP311.13 文獻標識碼:A

0引言

企業對于員工的培訓,不僅能夠提高員工的知識水平和技能要求,而且增加了本企業所具有的獨特性,能夠區別于市場,占據一定的市場份額,日積月累也會成為本企業談判的籌碼。培訓質量的高低又關聯到了諸多的因素,例如員工年齡,性別差異,工齡長短,理論知識的學習以及實操課課時的安排情況等。選取決策樹C4.5算法進行深層次的內部挖掘,找出關鍵因素,讓決策制定者可以有明確的方向去努力,從而制定出合理高效的培訓方案。

1決策樹

決策樹是一種比喻的說法,因為其生成的形狀類似于一棵倒立的大樹,所以命名為“決策樹”。決策樹是由根節點,分支,葉節點組成。對于根節點而言,它沒有父節點,只有朝下的各個子節點,葉節點作為最后一層節點沒有子節點,在根節點和葉節點之外的所有節點都成為內部節點,每個節點都對應一個數據樣本集。根節點和內部節點都包含有一個對于屬性的測試,其分支用于將各個子節點連接起來,代表測試的結果,可以根據測試的結果將樣本集劃分為多個子集。每一個葉節點對應于一個類別標識符,表示對應樣本集的類別。

2 C4.5改進算法

在計算信息增益率時,與ID3算法相比,C4.5算法用信息增益率代替了信息增益,找出其中信息增益率最高的屬性作為測試屬性,把候選樣本集劃分為若干子樣本集,對于每一個子樣本集用同樣的方法繼續分割直到不可分割或到達停止條件為之。

其中A是某一屬性,D是樣本數據,v是對應于A上測試的v個輸出,可以用屬性A劃分v個分區或者子集。

ID3中計算信息增益的式子如(2)所示:

(1)

(2)

而在C4.5改進算法中,信息增益率代替了信息增益,其中Gain(A)=Grain(A)如下式(3)所示:

(3)

(4)

3分箱離散化技術在員工培訓結果模型中的應用

在C4.5改進算法中,對于最佳分裂點的求取,即就是信息增益率最大的點的獲取一般都是要經過對于劃分的原始樣本進行多次掃描才能得到。假設對于一個樣本A,其屬于連續屬性,首先需要對于A中的值按照升序排列,就其一種比較典型的分裂方式來說,對于給定的A中的v個值,則需要v-1個可能的劃分。A的值ai和ai+1之間的中點就應該是式子(5)所示:

(5)

這樣分割點就將樣本集劃分為兩個子集,分別是A≤v和A>v,分別計算每個分割點的信息增益率,選擇具有最大信息增益率Gain Ratio(v)的分割點,而在序列v1,v2,…Vn中找到的最接近但又不超過局部閾值v的取值V成為屬性A的分割閾值。按照上述方法求出當前候選屬性集中所有屬性的信息增益率,按照這樣的方法,直至對于每個樣本集不能分割為止。

針對以上方法在找取最佳分割點時,多次掃描數據的問題,提出的分箱離散化技術,對于樣本數據提前進行分化處理,按照升序順序后采用等量劃分的思想,將數據存放入箱子中,每個箱子就看做一個新的樣本點,這個數據的取值就是該箱子中所有數據的平均值,在遇到小數時采用四舍五入法,將其取整。

假設某一樣本中的部分數據如下:

1,2,2,4,4,4,5,6,7,7,7,8,8,10,12,12,14,16,16,17

按照每箱5個數據進行分箱操作:

1,2,2,4,4 對應的數據點是 3

4,5,6,7,7 對應的數據點是 6

7,8,8,10,12 對應的數據點是 9

12,14,16,16,17 對應的數據點是 15

這樣,這個部分樣本數據就變為了3,6,9,15。與之前的一大串相比,確實簡化了數據樣本。這樣的操作相較于C4.5算法中尋找最佳分割點的方法要簡便許多,在同樣大的樣本下,經過比較,該方法因為前期的分箱預處理數據之后,減少了許多的噪聲數據和冗余數據,使得運算的速度大大提高,準確率也更靠近樣本原始數據,有所提升。

4結束語

分箱離散化技術的應用,使得改進的C4.5算法在使用性能等各方面更加的良好,改掉了以往C4.5算法在數據預處理階段多次重復掃描數據的情況,減少了資源和時間的浪費。分箱技術也更簡便快捷,沒有大量復雜的計算過程,簡便的計算就能快速的完成分箱造作,對于信息增益率的求取數目也大大減少,加快了決策樹的形成。

參考文獻

[1] 董曉娜.A公司人力資源培訓體系優化研究[D].北京:北京交通大學.2017.

[2] 傅亞莉.數據挖掘技術C4.5算法在成績分析中的應用[J].重慶理工大學學報:自然科學版,2013.

[3] 黃愛輝.基于決策樹算法的考試成績分析系統的研究與開發[D].長沙:湖南大學,2008.

[4] 韓家煒,裴健.數據挖掘概念與技術[M].機械工業出版社,2012.

猜你喜歡
數據挖掘培訓
歡迎訂閱《中小學教師培訓》
探討人工智能與數據挖掘發展趨勢
培訓通知
CIT培訓學院2020線上培訓正式啟航
從五方面做好引導培訓
勞動保護(2019年7期)2019-08-27 00:41:26
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 精品国产美女福到在线不卡f| 国产无码高清视频不卡| 国产三级国产精品国产普男人 | 欧美日韩激情在线| 欧美黄网在线| 国产欧美综合在线观看第七页| 日韩一区二区三免费高清| 2020亚洲精品无码| 91无码人妻精品一区二区蜜桃| 免费黄色国产视频| 精品一区二区三区自慰喷水| 欧美中文字幕无线码视频| 亚洲精品大秀视频| 99视频在线免费看| 国产区在线看| 欧美日韩91| 日韩精品欧美国产在线| 国产男人的天堂| 成人亚洲国产| 激情爆乳一区二区| 亚洲国产日韩欧美在线| AV不卡在线永久免费观看| av尤物免费在线观看| 国产在线精彩视频二区| 91在线国内在线播放老师| 在线人成精品免费视频| 国产精品.com| 综合久久久久久久综合网| 青青青草国产| 亚洲成人精品久久| 波多野结衣一区二区三区四区视频| 亚洲久悠悠色悠在线播放| 国产 在线视频无码| 91精品福利自产拍在线观看| 国产91色在线| 亚洲第一视频网站| 亚洲视频欧美不卡| 天堂岛国av无码免费无禁网站| 亚洲国产中文在线二区三区免| 97视频在线精品国自产拍| 天堂av综合网| 伊人久久大香线蕉综合影视| 99re在线视频观看| 欧美另类图片视频无弹跳第一页| 国产一区二区三区视频| 国产剧情一区二区| 美女视频黄频a免费高清不卡| 久久精品国产一区二区小说| 欧美人与性动交a欧美精品| 美美女高清毛片视频免费观看| 久久99蜜桃精品久久久久小说| 中文字幕人成乱码熟女免费| 亚洲Va中文字幕久久一区| 国产欧美另类| 女同久久精品国产99国| 久久精品一品道久久精品| 夜色爽爽影院18禁妓女影院| 国产欧美精品午夜在线播放| 久久久亚洲色| 欧美不卡二区| 国产永久在线视频| 国产亚洲精品97在线观看| 亚洲av片在线免费观看| 欧美伊人色综合久久天天| 国产一级在线播放| 亚洲an第二区国产精品| 国产女同自拍视频| 无码视频国产精品一区二区| 国产精品人成在线播放| 欧美成人午夜视频免看| 免费激情网址| 久久精品无码一区二区日韩免费| 亚洲第一中文字幕| 丁香亚洲综合五月天婷婷| 国产剧情一区二区| 久久精品无码中文字幕| 99福利视频导航| 99在线观看免费视频| 国产午夜精品一区二区三| 国产呦精品一区二区三区网站| 欧美精品伊人久久| 国产免费精彩视频|