999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹算法在高校學生就業分析中的應用研究

2016-11-14 03:27:51張永雄余丙軍鄧志虹
現代計算機 2016年29期
關鍵詞:分類信息

張永雄,余丙軍,鄧志虹

(1.廣州工商學院經濟貿易系,廣州 510850;2.華南理工大學計算中心,廣州 510641)

決策樹算法在高校學生就業分析中的應用研究

張永雄1,余丙軍2,鄧志虹1

(1.廣州工商學院經濟貿易系,廣州510850;2.華南理工大學計算中心,廣州510641)

隨著大數據分析技術的快速發展,對于高校就業信息的海量數據,如何有效地利用這些數據,發掘有價值的知識,是目前高校研究的熱點課題。提出一種利用決策樹算法分析就業信息的方法,并通過實例驗證其可行性,為高校決策部門改進教學管理提供有價值的參考方案。

決策樹;信息增益;準確率

2015廣東省青年創新人才類項目(No.2015WQNCX160)

0 引言

近年來,全球經濟面臨下行壓力,隨著高校招生規模的擴大,會導致畢業生就業形勢不樂觀,畢業生就業方式變得自主化和多元化。如何充分利用過去畢業生的就業信息資源,來挖掘有價值的信息,使得高校相關部門做出正確的決策,是目前高校研究的熱門課題。盡管數據挖掘技術在商業界上的應用取得了顯著的效果,但在教育界上的應用卻比較少。本文利用決策樹算法對電子商務專業畢業生的就業信息進行分析,找出影響畢業生就業的主要因素及其之間的關系,為高校決策部門提供一種數據分析的可行方案。

1 分類分析與決策樹算法

1.1分類分析的概述

分類就是要把一個事件或對象劃定到給定的類別上。例如,小額貸款公司可以根據收入水平、工作情況和教育程度等信息給客戶進行信用風險的分析,確定客戶的風險等級。分類的過程一般是包含兩個步驟:首先,分析已有的數據,建立一個分類的模型以描述數據屬性與類別之間的對應關系;其次,利用所獲得的分類模型對新數據進行類別預測。

在分類分析過程中,對于分類模型準確率的分析是必不可少的。要使得一個分類模型被認可,那么分類模型的準確率必須要符合規定的要求。

1.2決策樹算法

決策樹是一個類似流程圖的樹形結構[1],決策樹分類方法以樹的形式采用自上而下的方式給出分類規則。決策樹包含兩類節點:內部節點和葉子節點。其中,每個內部節點代表對一個屬性的測試,該屬性是分裂屬性,這是由于根據該屬性的不同取值可以把數據分成不同的部分。

使用決策樹方法一般分為兩個階段:一是決策樹構建;二是決策樹剪枝。決策樹構建是指訓練集得到一個基礎的樹形結構。但是,在決策樹構建的過程中,會有許多由噪聲或異常數據所產生的分枝。因此,決策樹減枝就是識別并消除這些分枝,提高分類的準確性。

本文采用信息增益方法的決策樹。信息論認為:一個信息所表達的信息量取決于它的概率p,并且可以用-log2(p)表示其包含的信息量[2]。

定義1 假設|T|是表示數據集T的記錄總數,f(Ci,T)表示數據集中屬于類別Ci的記錄總數,則:

定義2假設數據集T中的屬性D有k個不同的取值,那么可以把數據集T分為k個子集T1,T2,…,TK,則該屬性D的平均信息量為:

定義3根據屬性D對數據集T的劃分,信息增益為:

構建決策樹的基本過程是[3]:創建一個節點N,如果該節點中的所有樣本均為同一個類別C,那么返回N作為一個葉子節點,并標記為類別C;如果候選集為空,那么返回N作為一個葉子節點并標記為默認類別C_default。從候選屬性集中選擇最優分裂屬性D,把節點N標記為D,然后從候選集中刪除D,對于D中的每一個取值,都要建立測試分枝。遞歸以上過程,直到當前節點所有樣本均為同一類別,或者候選集為空,標記該節點為默認類別,或者某一分枝沒有符合測試條件的樣本,創建一個葉子節點并將其標記為默認類別。

2 決策樹在就業分析中的應用

2.1數據采集

高校對每一年的畢業生都有數據的統計,本文在眾多的數據屬性中,選一些用人企業較為關心的屬性作為研究內容。本文選取畢業生中性別、專業綜合成績、英語水平、計算機等級、專業技能等級、社團經驗(含學生會)和畢業生起薪作為研究的數據屬性。在電子商務專業應屆畢業生中隨機選取11名學生的信息作為研究的數據集。

2.2數據清洗和轉換

在采集的數據中,必須對數據進行清洗和轉換。例如,在專業綜合成績里,教務信息系統導出來的數據是學生各門課程的成績,那么需要取其平均成績,80分以上為良好及以上,60到80(不含)為及格。本文研究的是畢業生起薪與各項屬性的關系情況,把畢業生起薪作為類別,分為三類,分別是A1,A2和A3,其中,A1表示少于2000元,A2表示2000(含)到3500元,A3表示3500(含)元以上。所以,經過清洗和轉換后的數據如表1所示。

表1 學生樣本就業信息表

2.3構建決策樹

根據前面的定義可知,首先計算數據集T的平均信息量:

然后,計算每一個決策屬性的期望信息量。如英語水平的期望信息量為:

所以,屬性“英語水平”的信息增益為:

gain(英語水平)=info(T)-info英語水平(T)=0.845351

同理,可算出屬性性別,專業綜合成績,計算機等級,專業技能等級,社團經驗的信息增益分別為

gain(性別)=0.060879;

gain(專業綜合成績)=0.1831498;

gain(計算機等級)=0.0790364;

gain(專業技能等級)=0.1943273;

gain(社團經驗)=0.2426972;

通過比較,可知英語水平的信息增益是最大的,因此,最優分裂屬性為“英語水平”。由于當英語水平為四級時,所有的樣本都屬于同一類別,所以為該分枝創建一個葉子節點,標記為類別“A3”。

接下來,對英語水平為二級B的數據組成的節點進一步選擇分裂屬性,此時需要重新計算數據集的熵。通過遞歸以上步驟,最后生成的決策樹如圖1所示。

2.4規則知識描述

通過圖1可以提取分類規則,從根節點向下到每個葉子節點所進過的路徑都可以提取一條分類規則。提出的規則如下:

(1)IF(英語水平=四級)THEN畢業生起薪=A3(即工資大于或者等于3500元)

圖1 學生樣本的決策樹

(2)IF(英語水平=二級B)AND(社團經驗=有)THEN畢業生起薪=A2(即工資介于2000到3500元之間)

(3)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=高級)THEN畢業生起薪=A2(即工資介于2000到3500元之間)

(4)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=中級)THEN畢業生起薪=A2(即工資少于2000元)

從以上規則可知,對于電子商務專業的學生來說,如果英語水平是四級以上的,工資普遍都比較高,其次,企業比較重視學生的社會實踐經驗,接著才是專業技能等級。

3 結語

本文利用決策樹算法建立了一個簡單的學生就業信息分析模型。該模型能較好地反映出目前企業需要具有哪些技能的電子商務專業學生,為學校及教研室對課程的改革,教學管理的改進都有非常好的參考價值。但是,由于樣本量少,模型并非完全反映出企業的真實人才需要。該模型通過k倍交叉驗證法[4]進行準確率的評估,得到65%的準確率,這個準確度不算理想,也許是樣本量太小或者由其他因素造成。盡管如此,本文給出了一種利用決策樹分析高校學生就業信息的可行方法,為高校相關部分進行教學管理改革提供了有效的參考方案。

[1]Breiman L,Friedman J,Olshen R,et al.Classification and Regression Trees[M].1984,Nibterey,CA:Wadsworth and Brooks.

[2]Quinlan J R.C4.5 Programs for Machine Learning[M].1993:Morgan Kaufmann.

[3]MEHMED K,閃四清等譯.數據挖掘——概念、模型、方法和算法[M].北京:清華大學出版社

[4]毛國君,段立娟,王實.數據挖掘原理與算法[M].北京:清華大學,2007

Decision Tree;Information Gain;Accuracy Rate

Research on the Application of Decision Tree Algorithm in College Students' Employment Analysis

ZHANG Yong-xiong1,YU Bing-jun2,Deng Zhi-hong1
(1.Department of Economy and Trade,Guangzhou College of Technology and Business,Guangzhou 510850;2.Computing Center,South China University of Technology,Guangzhou 510641)

With the rapid development of large data analysis technology,the massive data of employment information for colleges and universities,how to effectively use these data to explore the value of knowledge,which is currently a hot topic of research in Colleges and universities. Puts forward a method of using decision tree to analyze the employment information,and verifies its feasibility through an example,which provides a valuable reference for the improvement of teaching management in Colleges and universities.

1007-1423(2016)29-0061-04

10.3969/j.issn.1007-1423.2016.29.014

張永雄(1982-),男,廣東廣州人,碩士研究生,講師,研究方向為數據分析與云計算余丙軍(1977-),男,湖北黃岡人,碩士研究生,工程師,研究方向為數據分析與云計算鄧志虹(1981-),女,碩士研究生,講師,研究方向為教育科研方法

2016-08-25

2016-10-10

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产在线视频福利资源站| 婷婷激情亚洲| 九九免费观看全部免费视频| 国产91九色在线播放| 一级爆乳无码av| 亚洲美女操| 色婷婷亚洲综合五月| 麻豆精品在线视频| 国产三级成人| 免费Aⅴ片在线观看蜜芽Tⅴ| 免费一极毛片| 国产乱人伦精品一区二区| 亚洲一区二区三区国产精华液| 日本人妻一区二区三区不卡影院| 国产手机在线观看| 99精品热视频这里只有精品7| 亚洲三级电影在线播放| 亚洲中文字幕日产无码2021| 久久精品国产免费观看频道| 国产精品成人啪精品视频| 熟妇丰满人妻av无码区| 亚洲中文字幕久久精品无码一区| 日本道综合一本久久久88| 波多野结衣第一页| 99久久精品久久久久久婷婷| 91破解版在线亚洲| 亚洲欧洲日韩综合色天使| 欧美日一级片| 视频二区国产精品职场同事| 国产乱子伦视频在线播放| 久久精品免费国产大片| 中美日韩在线网免费毛片视频| 在线看片中文字幕| 国产精品无码影视久久久久久久 | 国产91视频免费观看| 狠狠色噜噜狠狠狠狠色综合久| 久久亚洲高清国产| 最近最新中文字幕在线第一页 | 一级爆乳无码av| 国产成人高清在线精品| 欧美午夜视频| 午夜啪啪网| 欧美第一页在线| 亚洲成年人片| 亚洲精选高清无码| 久无码久无码av无码| 色哟哟精品无码网站在线播放视频| 久久国产精品娇妻素人| 女人18毛片水真多国产| 国产青榴视频| 国产视频一二三区| 波多野结衣AV无码久久一区| 国产精品成人啪精品视频| a级毛片在线免费| 乱系列中文字幕在线视频| 久久久无码人妻精品无码| 亚洲一区二区约美女探花| 国产成人在线小视频| 久久黄色小视频| 国产玖玖视频| 久久国产精品波多野结衣| 无码高潮喷水在线观看| 亚洲成人高清无码| 国模私拍一区二区| 97青青青国产在线播放| 国产精品亚洲一区二区三区在线观看| 中文无码伦av中文字幕| 一级香蕉视频在线观看| 99精品影院| 国产91特黄特色A级毛片| 国产一级毛片高清完整视频版| 欧美无专区| 亚洲黄色网站视频| 麻豆精品久久久久久久99蜜桃| 亚洲成人精品在线| 国产18页| 老色鬼久久亚洲AV综合| 一边摸一边做爽的视频17国产| 午夜视频免费试看| 中文一级毛片| 亚洲欧美不卡| 中文字幕天无码久久精品视频免费 |