


【摘 要】本文利用C4.5決策樹算法構造就業決策樹,對已畢業學生按計算機能力、英語等級、綜合成績、政治面貌、性格取向等決策屬性進行相應分類,并分析其對畢業生的就業類別和方向的影響,從而在提高就業率、就業層次、改進現行培養機制等方面為管理人員提供決策支持。
【關鍵詞】高職院校 就業信息平臺 決策樹 就業方向 就業決策
【中圖分類號】G 【文獻標識碼】A
【文章編號】0450-9889(2016)10C-0179-03
隨著高職院校畢業生人數的增多,就業工作及就業方向指導越發沉重,研究開發就業信息管理平臺非常必要。在平臺開發中引入決策樹這一方法來分析研究,有利于明晰高職院校畢業生的就業方向、增強高職院校畢業生的就業水平。
決策樹主要就是將大量的數據進行相應的分類。這些分類中的數據將是研究中給定的數據,通過數據的研究跟預測中的數據對比分析,找出其存在的規律屬性,并從中找到潛在的、有價值的信息,并利用這些數據對工作上的問題做出指導。決策樹方法主要應用的是(CLS)方法,經過研究摸索后來演化為ID3方法,最后經過多方的研究、努力,演化成了總所周知的C4.5算法,該算法也是本文中應用的一種算法。決策樹技術主要是把相關的問題分解化,把復雜的問題簡單化,從一些雜亂的數據中找出一些有規律的數據,并進行對比分類,產生出研究中所需要的結果,并根據相應的結果分析,指導現實中的工作,提高工作效率,強化學習能力。在數據的分析中,得出一些與就業相關的一些基本屬性,如畢業生的綜合成績、英語等級、計算機能力以及高考成績等,并通過對這些屬性的分析來判斷、預測其畢業后的就業方向與發展趨勢。因此,本文設計決策樹模型,通過對已工作的畢業生進行相應的分析,得出其實際有效的數據,并結合廣西農業職業技術學院學生就業的實際情況進行決策樹分析研究,最終指導畢業生的就業方向及就業層次。
一、就業信息轉換與預處理
學生就業統計管理信息表主要包括的字段有:學號,姓名,性別,性格取向、院系,專業,綜合排名,生源地,計算機能力,英語水平,政治面貌,工作單位,工作單位區域,本文采用的挖掘屬性就是從該表中獲取。挖掘出給定數據的單位性質,獲取一些找到好工作、好單位的畢業生與其哪些屬性相關,主要通過學生就業信息表中的數據來進行挖掘對比,由于挖掘的信息量比較大,在數據的挖掘中,首先要進行相應的數據篩選,找出與學生關聯度比較大的相關維度屬性。如實踐能力、綜合排名、英語水平、計算機能力、性格取向、高考成績、工作單位等作為決策屬性。在統計的工作單位中,對它們進行符號化,分成不同的層次,具體如下:國企(符號化G),其主要是一些大、中、小型的一些國有企業,一些事業單位、科研單位、政府單位等;外企(符號化W),其主要是一些在中國發展的外資企業;私企(符號化S),私企主要是一些私人企業,一些民企。在這三類單位中,又進行相關層次的分類即優秀(Y)與差(C),以便進行更好區分,把數據進行細化分析。在這些數據的細化后,現在可以把相應的工作單位分成以下幾大類,即優秀國企(GY)、差國企(GC)、優秀外企(WY)、差外企(WC)、優秀私企(SY)、差私企(SC),在這些數據確定后,并把所有的數據都進行符號化,然后進行統計分析。
二、模型分析與設計
(一)模型分析描述
高職院校畢業生人數在逐年增加,就業問題也逐年突出。以廣西農業職業技術學院為例,雖然加大了投入,千方百計提高就業率及就業水平,也取得了一定的成效,但離理想中的要求還有一定的差距,如何縮短這些差距,是作為學院的決策者必須思考的問題。因此,建立一個學院學生就業信息管理平臺,解決就業問題非常有實際意義。在這些大量的數據中找出所需要的數據,給學院的決策者來做出決策支持。在通過對比分析后,數據挖掘能很好地解決相關的問題,它能從大量的數據中挖掘出所需要的相關數據,根據此特點選擇決策樹C4.5算法建立決策分類樹,通過已給定的條件來找出學生屬性的影響情況。并由相關規則找出就業單位的類別進行排列選取,通過這些屬性的挖掘以及數據的整理分析,得到有價值的信息,為決策者進行決策支持。
(二)模型設計
決策樹其實就是生成一棵倒立的樹,其主要目的就是實現分枝歸類,把具有相同屬性的值,盡快與相應的分支對應屬性,每片葉子代表的是類別的最終屬性。通過以上的結構分析,決策樹的構建在數據的分析上有很大的優勢,很容易從葉子節點上分析得出所需要的數據。
通過C4.5進行對數據歸類劃分,并進行相應的最優屬性值的評估,盡快在最短的分枝路線上進行分類選擇,并能有效處理連續值的屬性。因此,通過C4.5算法利用數據挖掘,分析出樣本中所有的數據,并對所需要的數據,如綜合成績、計算機能力、英語水平、實踐能力進行處理分析,并得出畢業生就業好的一些基本因數。這些因數主要通過算法遞歸分配到每一個節點上,通過數據的處理就可以看出學生的就業跟哪些屬性關聯性比較大,這樣在學生的就業中,就可以做出正確的有方向性的指導。
C4.5算法主要產生所需要的增益率,其計算方法以及相應的計算公式步驟如下:
第一,在已選取的數據中,并把該數據集合表示是S,其中的項目數為s,并通過取不同的屬性值,把它設為n,其對應的屬性值也為n。另外,在就業信息數據挖掘系統中應用為Qi,(i=1,2,…,n)。假設Bi為類別Qi中的樣本數據個數,為每個數據的屬性信息計算增益率,并計算機出給定樣本分類所需要的信息熵,其計算公式如下:
第二,在分類劃分中,屬性的值是非常多的,如何取出所有屬性的值,并把它歸類到每一個節點中,這樣就需要取W個不同的值,即{w1,w2,…,wn}。并通過類別屬性W值的不同,來獲取劃分其中的其他節點的分枝值為S,并記為:{ S1,S2,…,Sz }。通過這些子集對應所包含的集合S,并由S的節點產生出來所需要的分枝,通過屬性劃分的方式,把當前樣本集合B,劃分成子集的信息熵或信息期望,通過下列公式進行劃分:
對于給定的子集S,通過類別屬性的分枝節點來計算出每一個測試屬性的信息增益量:如Gainration(綜合成績)、Gainration(英語水平)、Gainration(計算機能力)、Gainration(實踐能力),相應的計算機公式如下:
第三,利用公式(1)-(4)測試計算每個屬性即Gainration(綜合成績)、Gainration(英語水平)、Gainration(計算機能力)、Gainration(實踐能力)的信息增益量,同樣也計算出它們的增益率。通過增益率的測試計算,完成各個分枝的劃分,最終確立決策樹模型的建立,并得出各個分枝的支持情況,通過屬性數據的分析來達到預測的效果。
三、用C4.5算法構造決策樹
C4.5算法構造決策樹主要有以下幾個步驟:
(一)選取信息樣本數據集
如表1所示,工作單位作為工作好壞性質類別,即三類工作分類中的類別。屬性綜合成績、英語水平、計算機能力、實踐能力、畢業去向為決策屬性集。
(二)抽取信息樣本
在信息樣本數據集S中,一共有20條記錄,其中GY、GC、WY、WC、SY、SC類所對應的子集中元組個數分別為:t1=6、t2=6、t3=5、t4=1、t5=2、t6=0。由于需要計算S分類集合決策屬性的增益信息量,計算公式如下:
Z(綜合成績)=(S11,S21,S31,S41,S51,S61)+ (S21,S22,S23,S24,S25,S26)+(S31,S32,S33,S34,S35,S36)=1.86 (5)
因此,通過公式(5)可以計算出綜合成績屬性的信息增益量為:
Gainration(綜合成績)=I(t1,t2,t3,t4,t5,t6)-E(綜合成績)=0.582
并依此測試計算得到英語水平、計算機能力、實踐能力屬性的信息增益:Gainration(英語水平)=0.256,Gainration (計算機能力)=0.245,Gainration(實踐能力)=0.135。根據測試結果,比較各個測試屬性值的大小,值大的作為根部節點[56]。重復上述相關步驟,完成各個分枝的劃分,最終構造建立決策樹。根據廣西農業職業技術學院畢業生情況,由于該院的畢業生人數一年只有3000多人,因此,可以從中抽取出1500名畢業生的就業數據進行相關的決策樹分析,并獲得如圖1所示的決策樹。
圖1 C4.5算法構造就業決策樹圖
四、生成分類規則描述
通過以上的決策樹構成,可以分析得出各個單位的分類規則以及判斷它們的屬性關聯性,分類關聯情況如表2所示:
通過以上相關的規則以及分類的情況可以看出,綜合成績優良、外語水平較高、實踐能力以及計算機能力比較好的學生,其就業單位普遍在比較優秀的企業;綜合成績不怎么好,但實踐能力比較強的同學,在優秀私企工作的情況比較普遍,其他則基本是在一般的企業工作。
綜合各方面的分析來看,在這三類單位中,要想提高優秀企業的就業層次,就必須提高學生的綜合成績及其計算機能力與外語水平,要想提高優秀私企的就業情況,也可以進行實踐能力的培養,提高他們的實踐能力。總之,在以上分析結果中,能很清楚地給定決策者的培養目標,當然也不能排除例外情況的發生,只要能把握大的發展趨勢,就能為決策者提高決策支持。
五、小結
本文主要通過相應的數據屬性,并通過決策樹方法,對已畢業學生的就業工作情況,通過分類歸納,最終得出學生的哪些屬性對畢業生的就業情況有比較大的影響。因此,對于高職院校,特別是在目前就業壓力較大的情況下,如何調整就業方向,在激烈的就業競爭中,指導學生的就業方向,提高學生的就業層次及就業水平是決策者必須重視的。通過本文的分析,可以預測與就業相關的學生屬性的關聯情況,并對今后畢業找工作起到一定的指導作用。
【參考文獻】
[1]鄧自洋.改進決策樹算法在高校就業管理中的應用研究[D].上海:華東理工大學,2013
[2]韓曉穎.基于決策樹的數據挖掘技術在學生就業指導中的應用[J].科協論壇(下半月),2011(12)
[3]丁苗.決策樹技術在畢業生就業數據中的應用研究[D].吉林:遼寧工程技術大學,2012
[4]楊斷利,張銳,王文顯.基于模糊決策樹的高校就業數據挖掘研究[J].河北農業大學學報,2012(2)
【基金項目】基于WEB的高職院校就業信息管理系統的研發與應用(桂教科研[2016]3號)
【作者簡介】黃榮喜(1979— ),男,廣西桂林人,廣西大學碩士,廣西農業職業技術學院講師,研究方向:軟件開發及應用。
(責編 劉健華)