張永雄,余丙軍,鄧志虹
(1.廣州工商學院經(jīng)濟貿(mào)易系,廣州 510850;2.華南理工大學計算中心,廣州 510641)
決策樹算法在高校學生就業(yè)分析中的應用研究
張永雄1,余丙軍2,鄧志虹1
(1.廣州工商學院經(jīng)濟貿(mào)易系,廣州510850;2.華南理工大學計算中心,廣州510641)
隨著大數(shù)據(jù)分析技術(shù)的快速發(fā)展,對于高校就業(yè)信息的海量數(shù)據(jù),如何有效地利用這些數(shù)據(jù),發(fā)掘有價值的知識,是目前高校研究的熱點課題。提出一種利用決策樹算法分析就業(yè)信息的方法,并通過實例驗證其可行性,為高校決策部門改進教學管理提供有價值的參考方案。
決策樹;信息增益;準確率
2015廣東省青年創(chuàng)新人才類項目(No.2015WQNCX160)
近年來,全球經(jīng)濟面臨下行壓力,隨著高校招生規(guī)模的擴大,會導致畢業(yè)生就業(yè)形勢不樂觀,畢業(yè)生就業(yè)方式變得自主化和多元化。如何充分利用過去畢業(yè)生的就業(yè)信息資源,來挖掘有價值的信息,使得高校相關(guān)部門做出正確的決策,是目前高校研究的熱門課題。盡管數(shù)據(jù)挖掘技術(shù)在商業(yè)界上的應用取得了顯著的效果,但在教育界上的應用卻比較少。本文利用決策樹算法對電子商務專業(yè)畢業(yè)生的就業(yè)信息進行分析,找出影響畢業(yè)生就業(yè)的主要因素及其之間的關(guān)系,為高校決策部門提供一種數(shù)據(jù)分析的可行方案。
1.1分類分析的概述
分類就是要把一個事件或?qū)ο髣澏ǖ浇o定的類別上。例如,小額貸款公司可以根據(jù)收入水平、工作情況和教育程度等信息給客戶進行信用風險的分析,確定客戶的風險等級。分類的過程一般是包含兩個步驟:首先,分析已有的數(shù)據(jù),建立一個分類的模型以描述數(shù)據(jù)屬性與類別之間的對應關(guān)系;其次,利用所獲得的分類模型對新數(shù)據(jù)進行類別預測。
在分類分析過程中,對于分類模型準確率的分析是必不可少的。要使得一個分類模型被認可,那么分類模型的準確率必須要符合規(guī)定的要求。
1.2決策樹算法
決策樹是一個類似流程圖的樹形結(jié)構(gòu)[1],決策樹分類方法以樹的形式采用自上而下的方式給出分類規(guī)則。決策樹包含兩類節(jié)點:內(nèi)部節(jié)點和葉子節(jié)點。其中,每個內(nèi)部節(jié)點代表對一個屬性的測試,該屬性是分裂屬性,這是由于根據(jù)該屬性的不同取值可以把數(shù)據(jù)分成不同的部分。
使用決策樹方法一般分為兩個階段:一是決策樹構(gòu)建;二是決策樹剪枝。決策樹構(gòu)建是指訓練集得到一個基礎(chǔ)的樹形結(jié)構(gòu)。但是,在決策樹構(gòu)建的過程中,會有許多由噪聲或異常數(shù)據(jù)所產(chǎn)生的分枝。因此,決策樹減枝就是識別并消除這些分枝,提高分類的準確性。
本文采用信息增益方法的決策樹。信息論認為:一個信息所表達的信息量取決于它的概率p,并且可以用-log2(p)表示其包含的信息量[2]。
定義1 假設(shè)|T|是表示數(shù)據(jù)集T的記錄總數(shù),f(Ci,T)表示數(shù)據(jù)集中屬于類別Ci的記錄總數(shù),則:

定義2假設(shè)數(shù)據(jù)集T中的屬性D有k個不同的取值,那么可以把數(shù)據(jù)集T分為k個子集T1,T2,…,TK,則該屬性D的平均信息量為:

定義3根據(jù)屬性D對數(shù)據(jù)集T的劃分,信息增益為:

構(gòu)建決策樹的基本過程是[3]:創(chuàng)建一個節(jié)點N,如果該節(jié)點中的所有樣本均為同一個類別C,那么返回N作為一個葉子節(jié)點,并標記為類別C;如果候選集為空,那么返回N作為一個葉子節(jié)點并標記為默認類別C_default。從候選屬性集中選擇最優(yōu)分裂屬性D,把節(jié)點N標記為D,然后從候選集中刪除D,對于D中的每一個取值,都要建立測試分枝。遞歸以上過程,直到當前節(jié)點所有樣本均為同一類別,或者候選集為空,標記該節(jié)點為默認類別,或者某一分枝沒有符合測試條件的樣本,創(chuàng)建一個葉子節(jié)點并將其標記為默認類別。
2.1數(shù)據(jù)采集
高校對每一年的畢業(yè)生都有數(shù)據(jù)的統(tǒng)計,本文在眾多的數(shù)據(jù)屬性中,選一些用人企業(yè)較為關(guān)心的屬性作為研究內(nèi)容。本文選取畢業(yè)生中性別、專業(yè)綜合成績、英語水平、計算機等級、專業(yè)技能等級、社團經(jīng)驗(含學生會)和畢業(yè)生起薪作為研究的數(shù)據(jù)屬性。在電子商務專業(yè)應屆畢業(yè)生中隨機選取11名學生的信息作為研究的數(shù)據(jù)集。
2.2數(shù)據(jù)清洗和轉(zhuǎn)換
在采集的數(shù)據(jù)中,必須對數(shù)據(jù)進行清洗和轉(zhuǎn)換。例如,在專業(yè)綜合成績里,教務信息系統(tǒng)導出來的數(shù)據(jù)是學生各門課程的成績,那么需要取其平均成績,80分以上為良好及以上,60到80(不含)為及格。本文研究的是畢業(yè)生起薪與各項屬性的關(guān)系情況,把畢業(yè)生起薪作為類別,分為三類,分別是A1,A2和A3,其中,A1表示少于2000元,A2表示2000(含)到3500元,A3表示3500(含)元以上。所以,經(jīng)過清洗和轉(zhuǎn)換后的數(shù)據(jù)如表1所示。

表1 學生樣本就業(yè)信息表
2.3構(gòu)建決策樹
根據(jù)前面的定義可知,首先計算數(shù)據(jù)集T的平均信息量:

然后,計算每一個決策屬性的期望信息量。如英語水平的期望信息量為:

所以,屬性“英語水平”的信息增益為:
gain(英語水平)=info(T)-info英語水平(T)=0.845351
同理,可算出屬性性別,專業(yè)綜合成績,計算機等級,專業(yè)技能等級,社團經(jīng)驗的信息增益分別為
gain(性別)=0.060879;
gain(專業(yè)綜合成績)=0.1831498;
gain(計算機等級)=0.0790364;
gain(專業(yè)技能等級)=0.1943273;
gain(社團經(jīng)驗)=0.2426972;
通過比較,可知英語水平的信息增益是最大的,因此,最優(yōu)分裂屬性為“英語水平”。由于當英語水平為四級時,所有的樣本都屬于同一類別,所以為該分枝創(chuàng)建一個葉子節(jié)點,標記為類別“A3”。
接下來,對英語水平為二級B的數(shù)據(jù)組成的節(jié)點進一步選擇分裂屬性,此時需要重新計算數(shù)據(jù)集的熵。通過遞歸以上步驟,最后生成的決策樹如圖1所示。
2.4規(guī)則知識描述
通過圖1可以提取分類規(guī)則,從根節(jié)點向下到每個葉子節(jié)點所進過的路徑都可以提取一條分類規(guī)則。提出的規(guī)則如下:
(1)IF(英語水平=四級)THEN畢業(yè)生起薪=A3(即工資大于或者等于3500元)

圖1 學生樣本的決策樹
(2)IF(英語水平=二級B)AND(社團經(jīng)驗=有)THEN畢業(yè)生起薪=A2(即工資介于2000到3500元之間)
(3)IF(英語水平=二級B)AND(社團經(jīng)驗=無)AND(專業(yè)技能等級=高級)THEN畢業(yè)生起薪=A2(即工資介于2000到3500元之間)
(4)IF(英語水平=二級B)AND(社團經(jīng)驗=無)AND(專業(yè)技能等級=中級)THEN畢業(yè)生起薪=A2(即工資少于2000元)
從以上規(guī)則可知,對于電子商務專業(yè)的學生來說,如果英語水平是四級以上的,工資普遍都比較高,其次,企業(yè)比較重視學生的社會實踐經(jīng)驗,接著才是專業(yè)技能等級。
本文利用決策樹算法建立了一個簡單的學生就業(yè)信息分析模型。該模型能較好地反映出目前企業(yè)需要具有哪些技能的電子商務專業(yè)學生,為學校及教研室對課程的改革,教學管理的改進都有非常好的參考價值。但是,由于樣本量少,模型并非完全反映出企業(yè)的真實人才需要。該模型通過k倍交叉驗證法[4]進行準確率的評估,得到65%的準確率,這個準確度不算理想,也許是樣本量太小或者由其他因素造成。盡管如此,本文給出了一種利用決策樹分析高校學生就業(yè)信息的可行方法,為高校相關(guān)部分進行教學管理改革提供了有效的參考方案。
[1]Breiman L,F(xiàn)riedman J,Olshen R,et al.Classification and Regression Trees[M].1984,Nibterey,CA:Wadsworth and Brooks.
[2]Quinlan J R.C4.5 Programs for Machine Learning[M].1993:Morgan Kaufmann.
[3]MEHMED K,閃四清等譯.數(shù)據(jù)挖掘——概念、模型、方法和算法[M].北京:清華大學出版社
[4]毛國君,段立娟,王實.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學,2007
Decision Tree;Information Gain;Accuracy Rate
Research on the Application of Decision Tree Algorithm in College Students' Employment Analysis
ZHANG Yong-xiong1,YU Bing-jun2,Deng Zhi-hong1
(1.Department of Economy and Trade,Guangzhou College of Technology and Business,Guangzhou 510850;2.Computing Center,South China University of Technology,Guangzhou 510641)
With the rapid development of large data analysis technology,the massive data of employment information for colleges and universities,how to effectively use these data to explore the value of knowledge,which is currently a hot topic of research in Colleges and universities. Puts forward a method of using decision tree to analyze the employment information,and verifies its feasibility through an example,which provides a valuable reference for the improvement of teaching management in Colleges and universities.
1007-1423(2016)29-0061-04
10.3969/j.issn.1007-1423.2016.29.014
張永雄(1982-),男,廣東廣州人,碩士研究生,講師,研究方向為數(shù)據(jù)分析與云計算余丙軍(1977-),男,湖北黃岡人,碩士研究生,工程師,研究方向為數(shù)據(jù)分析與云計算鄧志虹(1981-),女,碩士研究生,講師,研究方向為教育科研方法
2016-08-25
2016-10-10