999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹算法在高校學生就業分析中的應用研究

2016-11-14 03:27:51張永雄余丙軍鄧志虹
現代計算機 2016年29期
關鍵詞:分類信息

張永雄,余丙軍,鄧志虹

(1.廣州工商學院經濟貿易系,廣州 510850;2.華南理工大學計算中心,廣州 510641)

決策樹算法在高校學生就業分析中的應用研究

張永雄1,余丙軍2,鄧志虹1

(1.廣州工商學院經濟貿易系,廣州510850;2.華南理工大學計算中心,廣州510641)

隨著大數據分析技術的快速發展,對于高校就業信息的海量數據,如何有效地利用這些數據,發掘有價值的知識,是目前高校研究的熱點課題。提出一種利用決策樹算法分析就業信息的方法,并通過實例驗證其可行性,為高校決策部門改進教學管理提供有價值的參考方案。

決策樹;信息增益;準確率

2015廣東省青年創新人才類項目(No.2015WQNCX160)

0 引言

近年來,全球經濟面臨下行壓力,隨著高校招生規模的擴大,會導致畢業生就業形勢不樂觀,畢業生就業方式變得自主化和多元化。如何充分利用過去畢業生的就業信息資源,來挖掘有價值的信息,使得高校相關部門做出正確的決策,是目前高校研究的熱門課題。盡管數據挖掘技術在商業界上的應用取得了顯著的效果,但在教育界上的應用卻比較少。本文利用決策樹算法對電子商務專業畢業生的就業信息進行分析,找出影響畢業生就業的主要因素及其之間的關系,為高校決策部門提供一種數據分析的可行方案。

1 分類分析與決策樹算法

1.1分類分析的概述

分類就是要把一個事件或對象劃定到給定的類別上。例如,小額貸款公司可以根據收入水平、工作情況和教育程度等信息給客戶進行信用風險的分析,確定客戶的風險等級。分類的過程一般是包含兩個步驟:首先,分析已有的數據,建立一個分類的模型以描述數據屬性與類別之間的對應關系;其次,利用所獲得的分類模型對新數據進行類別預測。

在分類分析過程中,對于分類模型準確率的分析是必不可少的。要使得一個分類模型被認可,那么分類模型的準確率必須要符合規定的要求。

1.2決策樹算法

決策樹是一個類似流程圖的樹形結構[1],決策樹分類方法以樹的形式采用自上而下的方式給出分類規則。決策樹包含兩類節點:內部節點和葉子節點。其中,每個內部節點代表對一個屬性的測試,該屬性是分裂屬性,這是由于根據該屬性的不同取值可以把數據分成不同的部分。

使用決策樹方法一般分為兩個階段:一是決策樹構建;二是決策樹剪枝。決策樹構建是指訓練集得到一個基礎的樹形結構。但是,在決策樹構建的過程中,會有許多由噪聲或異常數據所產生的分枝。因此,決策樹減枝就是識別并消除這些分枝,提高分類的準確性。

本文采用信息增益方法的決策樹。信息論認為:一個信息所表達的信息量取決于它的概率p,并且可以用-log2(p)表示其包含的信息量[2]。

定義1 假設|T|是表示數據集T的記錄總數,f(Ci,T)表示數據集中屬于類別Ci的記錄總數,則:

定義2假設數據集T中的屬性D有k個不同的取值,那么可以把數據集T分為k個子集T1,T2,…,TK,則該屬性D的平均信息量為:

定義3根據屬性D對數據集T的劃分,信息增益為:

構建決策樹的基本過程是[3]:創建一個節點N,如果該節點中的所有樣本均為同一個類別C,那么返回N作為一個葉子節點,并標記為類別C;如果候選集為空,那么返回N作為一個葉子節點并標記為默認類別C_default。從候選屬性集中選擇最優分裂屬性D,把節點N標記為D,然后從候選集中刪除D,對于D中的每一個取值,都要建立測試分枝。遞歸以上過程,直到當前節點所有樣本均為同一類別,或者候選集為空,標記該節點為默認類別,或者某一分枝沒有符合測試條件的樣本,創建一個葉子節點并將其標記為默認類別。

2 決策樹在就業分析中的應用

2.1數據采集

高校對每一年的畢業生都有數據的統計,本文在眾多的數據屬性中,選一些用人企業較為關心的屬性作為研究內容。本文選取畢業生中性別、專業綜合成績、英語水平、計算機等級、專業技能等級、社團經驗(含學生會)和畢業生起薪作為研究的數據屬性。在電子商務專業應屆畢業生中隨機選取11名學生的信息作為研究的數據集。

2.2數據清洗和轉換

在采集的數據中,必須對數據進行清洗和轉換。例如,在專業綜合成績里,教務信息系統導出來的數據是學生各門課程的成績,那么需要取其平均成績,80分以上為良好及以上,60到80(不含)為及格。本文研究的是畢業生起薪與各項屬性的關系情況,把畢業生起薪作為類別,分為三類,分別是A1,A2和A3,其中,A1表示少于2000元,A2表示2000(含)到3500元,A3表示3500(含)元以上。所以,經過清洗和轉換后的數據如表1所示。

表1 學生樣本就業信息表

2.3構建決策樹

根據前面的定義可知,首先計算數據集T的平均信息量:

然后,計算每一個決策屬性的期望信息量。如英語水平的期望信息量為:

所以,屬性“英語水平”的信息增益為:

gain(英語水平)=info(T)-info英語水平(T)=0.845351

同理,可算出屬性性別,專業綜合成績,計算機等級,專業技能等級,社團經驗的信息增益分別為

gain(性別)=0.060879;

gain(專業綜合成績)=0.1831498;

gain(計算機等級)=0.0790364;

gain(專業技能等級)=0.1943273;

gain(社團經驗)=0.2426972;

通過比較,可知英語水平的信息增益是最大的,因此,最優分裂屬性為“英語水平”。由于當英語水平為四級時,所有的樣本都屬于同一類別,所以為該分枝創建一個葉子節點,標記為類別“A3”。

接下來,對英語水平為二級B的數據組成的節點進一步選擇分裂屬性,此時需要重新計算數據集的熵。通過遞歸以上步驟,最后生成的決策樹如圖1所示。

2.4規則知識描述

通過圖1可以提取分類規則,從根節點向下到每個葉子節點所進過的路徑都可以提取一條分類規則。提出的規則如下:

(1)IF(英語水平=四級)THEN畢業生起薪=A3(即工資大于或者等于3500元)

圖1 學生樣本的決策樹

(2)IF(英語水平=二級B)AND(社團經驗=有)THEN畢業生起薪=A2(即工資介于2000到3500元之間)

(3)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=高級)THEN畢業生起薪=A2(即工資介于2000到3500元之間)

(4)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=中級)THEN畢業生起薪=A2(即工資少于2000元)

從以上規則可知,對于電子商務專業的學生來說,如果英語水平是四級以上的,工資普遍都比較高,其次,企業比較重視學生的社會實踐經驗,接著才是專業技能等級。

3 結語

本文利用決策樹算法建立了一個簡單的學生就業信息分析模型。該模型能較好地反映出目前企業需要具有哪些技能的電子商務專業學生,為學校及教研室對課程的改革,教學管理的改進都有非常好的參考價值。但是,由于樣本量少,模型并非完全反映出企業的真實人才需要。該模型通過k倍交叉驗證法[4]進行準確率的評估,得到65%的準確率,這個準確度不算理想,也許是樣本量太小或者由其他因素造成。盡管如此,本文給出了一種利用決策樹分析高校學生就業信息的可行方法,為高校相關部分進行教學管理改革提供了有效的參考方案。

[1]Breiman L,Friedman J,Olshen R,et al.Classification and Regression Trees[M].1984,Nibterey,CA:Wadsworth and Brooks.

[2]Quinlan J R.C4.5 Programs for Machine Learning[M].1993:Morgan Kaufmann.

[3]MEHMED K,閃四清等譯.數據挖掘——概念、模型、方法和算法[M].北京:清華大學出版社

[4]毛國君,段立娟,王實.數據挖掘原理與算法[M].北京:清華大學,2007

Decision Tree;Information Gain;Accuracy Rate

Research on the Application of Decision Tree Algorithm in College Students' Employment Analysis

ZHANG Yong-xiong1,YU Bing-jun2,Deng Zhi-hong1
(1.Department of Economy and Trade,Guangzhou College of Technology and Business,Guangzhou 510850;2.Computing Center,South China University of Technology,Guangzhou 510641)

With the rapid development of large data analysis technology,the massive data of employment information for colleges and universities,how to effectively use these data to explore the value of knowledge,which is currently a hot topic of research in Colleges and universities. Puts forward a method of using decision tree to analyze the employment information,and verifies its feasibility through an example,which provides a valuable reference for the improvement of teaching management in Colleges and universities.

1007-1423(2016)29-0061-04

10.3969/j.issn.1007-1423.2016.29.014

張永雄(1982-),男,廣東廣州人,碩士研究生,講師,研究方向為數據分析與云計算余丙軍(1977-),男,湖北黃岡人,碩士研究生,工程師,研究方向為數據分析與云計算鄧志虹(1981-),女,碩士研究生,講師,研究方向為教育科研方法

2016-08-25

2016-10-10

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 污网站免费在线观看| 99久久亚洲综合精品TS| 67194在线午夜亚洲| 亚洲毛片网站| 日韩午夜片| 亚洲色图欧美激情| 亚洲欧美日韩另类在线一| 99热这里只有精品5| 亚洲性网站| 国产午夜精品一区二区三| 欧美一区精品| 亚洲日本精品一区二区| 国产精品jizz在线观看软件| 午夜啪啪福利| 国产91精品调教在线播放| 在线视频一区二区三区不卡| 国产网站一区二区三区| 亚洲床戏一区| 中文字幕色在线| 亚洲精品中文字幕无乱码| 国产麻豆精品在线观看| 成色7777精品在线| 欧美一级片在线| 国产导航在线| 91日本在线观看亚洲精品| 亚洲日韩精品无码专区| 欧美日本在线播放| 日本伊人色综合网| 激情六月丁香婷婷四房播| av在线手机播放| 欧美国产综合色视频| 国产毛片高清一级国语| 亚洲最大看欧美片网站地址| 国产乱人伦偷精品视频AAA| 强奷白丝美女在线观看| 亚洲欧美成aⅴ人在线观看| 欧美综合区自拍亚洲综合天堂 | 夜夜爽免费视频| 国产午夜精品一区二区三区软件| 日a本亚洲中文在线观看| 精品成人免费自拍视频| 国产人免费人成免费视频| 麻豆精品在线播放| 国产精品女人呻吟在线观看| 久久综合结合久久狠狠狠97色 | 国产免费人成视频网| 无码国内精品人妻少妇蜜桃视频| 亚洲欧美精品一中文字幕| 香蕉在线视频网站| 九色视频最新网址 | 免费人成又黄又爽的视频网站| 久久综合伊人 六十路| 97成人在线观看| 伊人久久大香线蕉成人综合网| 日韩在线欧美在线| 成人午夜久久| 免费A级毛片无码免费视频| 1769国产精品视频免费观看| 2021国产乱人伦在线播放 | 22sihu国产精品视频影视资讯| 久久免费成人| 青青草原国产免费av观看| 日韩在线2020专区| 国模粉嫩小泬视频在线观看| 五月天综合网亚洲综合天堂网| 欧美一区二区三区香蕉视| 91在线播放免费不卡无毒| 国产理论一区| 国产在线观看高清不卡| 亚洲欧美自拍一区| 性视频久久| 国产麻豆aⅴ精品无码| 热思思久久免费视频| 青青草一区二区免费精品| 亚洲欧美日韩成人高清在线一区| 国产视频你懂得| 亚洲精品国产乱码不卡| 亚洲不卡影院| 色综合天天视频在线观看| 色视频久久| 色综合久久久久8天国| 国产毛片网站|