摘要:在海量的數據中,可以利用數據挖掘技術找出數據之間的關聯關系,通過對數據關系的分析,為決策者提供決策的依據。本文通過對畢業生就業信息的分析,創建一個就業的預測模型,利用該模型來預測畢業生能否順利就業,找出影響就業的因素,為學院在人才培養方面提供相關的數據支持。
關鍵詞:畢業生 就業 預測模型 創建 分析
高職學院畢業生的就業工作,既是一項關系眾多家庭的民生工作,也是一項幸福工程。隨著高校畢業生人數的增加,畢業生的就業壓力也日漸突出,因而,培養什么樣的學生,如何去培養學生,是高校培養人才工作的重中之重。利用數據挖掘技術,可以從以往的畢業生就業數據分析出與就業相關的因素,為人才培養提供決策依據。
1 畢業生就業模型的系統分析
1.1 問題的定義 可以收集學院畢業生的就業信息,通過對這些數據進行分析處理,建立一個畢業生的就業分析模型,從中找出和就業聯系緊密的因素,為學校的改革提供決策參考。將收集到的畢業生就業信息錄入到數據表中,然后對數據表中的數據進行預處理(清洗),使其適合數據挖掘。將數據隨機分成訓練集和測試集,選擇合適的挖掘方法,利用訓練集數據創建初始的預測模型,利用測試集數據對初始預測模型進行驗證,經過驗證如果不合格,需要重新抽取數據建立模型,否則利用驗證后的數據對畢業生進行就業的預測。項目目標說明書如圖1所示。
1.2 系統的研究對象 畢業生在就業時選擇企業和企業選擇畢業生的雙向選擇,是一個比較復雜的過程。但目前,很多的高職學院提出以“就業為導向”的辦學指導思想,也就是學校培養畢業生應當以企業的需求為根本出發點,學校站在企業的角度去考慮應該培養什么類型,什么條件的畢業生,才能夠提高就業率,因此,本課題所考慮的實體只有一個:畢業生。根據學院的畢業生就業信息系統分析的結果,可以得到圖2所示的畢業生實體模型。
2 畢業生就業分析模型的創建
2.1 創建數據庫 根據圖2的實體模型,綜合畢業生調查報告分析得出結論,將本數據庫的字段設置為14個,如下:序號,姓名,性別,成績,專業名稱,班干否,英語水平,計算機水平,綜合能力,工資待遇,專業對口否,主觀意愿,行業發展,就業否。由于數據挖掘技術中的ID3算法只能處理離散的數據信息,為了能夠將收集到的信息進行數字化處理,除姓名字段的類型設置為字符串以外,其余各字段的值的類型設置為整型數據,并將Excel中的數據信息導入到Access表中。
利用數據清理的方法,對收集到的數據進行處理。比如,對于性別字段而言,只有兩個值“男”和“女”,因此將所有“男”值替換為數值1,將所有“女”值替換為2。根據該學院的專業設置情況,將“專業”字段總共分為6個大類,其中計算機通信和通信技術專業統稱為通信類,將其值設置為0,電子技術應用和信息技術統稱為電子類,將其值設置為1,其余的各專業類別有會計類,藝術類,運輸管理類和機械制造類,它們的值依次為2,3,4,5。根據這樣的處理辦法,對其余各字段進行最后的處理。
2.2 創建模型 根據決策樹模型的創建要求,需要將數據集隨機分成兩個部分,一部分是訓練集,約三分之二的記錄,用于創建就業預測模型;另一部分是測試集,約三分之一的記錄,用于驗證模型的正確率。由于ID3算法是以信息增益作為屬性的度量值,因此,通過計算每個屬性的信息增益來選擇決策樹的當前結點。
為了能夠實現預測畢業生的就業是否成功,因此,最終需要的屬性為“就業否”,也就是分類屬性是“就業否”。該字段包含2種類型的值,它們分別是0,1(未就業、已經就業),經過統計,其中0有144個樣本,1有834個樣本。樣本“就業否”分類所需的期望信息由公式1決定。
I(s1,s2)= (公式1)
由此可以計算出“就業否”的期望信息,I(144,834)=0.60288,然后再計算每一個字段的接下來計算(除“姓名”和“就業否”以外)每一個屬性的熵。熵的計算公式由公式2完成。
(公式2)
根據期望信息和熵,可以得到對應的信息增益值。信息增益由公式Gain(A)=I(s1, s2, …, sn)-E(A)計算出來。
因此,計算出來的各字段的信息增益值如下:Gain(專業) =0.0252,Gain(成績) =0.0312,Gain(班干否)=0.0035,Gain(英語水平)=0.0967,Gain(計算機水平)=0.1077,Gain(綜合能力)=0.2557,Gain(工資待遇)=0.0475,Gain(專業對口否)=0.0395,Gain(主觀意愿)=0.0783,Gain(行業發展)=0.0482。第一次計算出來的最大值為是“綜合能力”,所以“綜合能力”是樹的根,計算樹的其它結點時,必須是以“綜合能力”字段的值作為樹枝來進行,對算法進行遞歸,可以創建畢業生的就業模型,如圖3所示。
3 就業模型的分析
3.1 模型的驗證
通過圖3畢業生就業信息分析模型,可以提取下面的規則:
If 綜合能力強 then
If 主觀上愿意就業 then 成功就業
Else 不能就業
Else if 綜合能力一般 then
If 行業發展很好 || 行業發展一般 then 成功就業
Else if 專業名稱為會計 || 藝術 || 運輸管理 then 成功就業
Else if 專業名稱為通信 then 未能就業
Else if 綜合能力很差 then 未能就業
End if
從收集到的數據中,隨機選取447條記錄出來,作為測試集。測試的結果如果在85%~98%,則該模型符合要求,否則需要重新創建模型。
例如:有一個姓名為趙媛華的畢業學生,其基本信息是:專業為通信類,成績一般,但是英語水平和計算機水平很強,綜合能力也很強,要求的工資待遇在600~1000之間,主觀上愿意就業,而且并不要求專業對口。根據上面的規則可以判斷,該生在畢業時會成功就業。從實際的情況來看,該生在畢業時的確成功就業,也就是說預測的結果和實際的情況完全相吻合。利用同樣的方法,將其它的數據利用上面的規則進行擬合,在所有的447條測試集中,正確的記錄數有425條,錯誤的記錄有22條。假設正確率用p表示,正確的記錄數用n表示,測試集記錄數用s表示,則
可知由此生成的決策樹模型的準確率在預定的值85%~98%之間,達到預期的目標,所以符合要求。
3.2 就業因素分析 根據決策樹獲得屬性各個取值的重要程度,在得到“決策影響程度值”的基礎上,通過在決策樹中獲得屬性每個取值中“成功就業”、“未能就業”出現人數的數量xj1、xj2,由公式求得屬性各個取值的“就業度量值”,Zj= ,其中,系數0.85、0.15為權重,對應于不同分類的概率。根據該公式可以計算出不同的字段每一個值所對應的可能的就業人數。成功就業的人數越高,“就業度量值”就越高。
4 結論
經過計算可知,綜合能力的評估值為35的影響程度最大,其次是計算機水平的評估值為15和英語水平的評估值為13,而行業的發展和畢業生對工資的要求態度也是主要因素。所以學院在培養人才的過程中,通過各種手段搭建平臺,來提高學院的綜合素質,提升他們的就業競爭力。
參考文獻:
[1]毛國君,段立娟等.數據挖掘原理與算法.清華大學出版社,2005年7月:11~119.
[2]陳文偉編著.數據倉庫與數據挖掘教程. 清華大學出版社,2006年8月:1~11,120~151.
[3]張云濤等.數據挖掘原理與技術.電子工業出版社,2004年4月:1~47.
[4]魏紅寧.決策樹剪枝方法的比較.西南交通大學學報.2005年2月,40(1):40~48.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文