白曉鑫
[摘 要]文章運用決策樹中的C4.5算法對所調查的數據進行數據挖掘。通過實例給出了該算法在大學生就業滿意度分析中的應用,以找出影響就業滿意度的因素,為大學生自身發展及高校學生工作提供依據,提高就業滿意度。
[關鍵詞]數據挖掘;決策樹;C4.5算法;就業滿意度
[DOI]10.13939/j.cnki.zgsc.2017.28.153
近年來,高等院校招生規模不斷擴大,高校畢業生人數不斷增多,預計2017年高校畢業生高達795萬人。面對就業難的形勢,高校畢業生的就業滿意度得到了廣泛的關注。就業滿意度是反映就業機會的可獲得性、工作穩定性、工作場所的尊嚴和安全、機會平等、收入、個人發展有關方面滿意度的綜合概念,也是反映高校人才培養水平的重要標志。[1]
文章對某大學2017屆畢業生進行問卷調查,并對所取得數據進行挖掘。基于大學生自身的角度,利用C4.5數據挖掘算法建立決策分類樹,找出大學生自身因素對就業滿意度的影響,為低屆學生提供學習方向,為高校決策者提供教學和學生工作建議。[2]
1 C4.5算法
C4.5算法是決策樹算法中最重要的算法之一,是對決策樹核心算法ID3的改進算法,該算法的基本流程與ID3算法基本相同;但是,值得注意的是,C4.5算法用信息增益率來選擇屬性,克服了ID3算法中用信息增益來選擇屬性時偏向選擇多值屬性的問題。
在C4.5算法中決策樹結點屬性的選擇是根據信息論中熵的概念來進行的。首先計算出類別屬性的信息熵,再計算出非類別屬性的期望信息熵,通過信息增益與分裂信息得出信息增益率,將信息增益率最大的屬性作為決策樹的節點,從而構造出決策樹。[3]計算過程如下:
設D為用類別對訓練集進行的劃分,則D的熵表示為:
Info(D)=-mi=1Pilog2(Pi)
其中Pi表示第i個類別在整個訓練集中出現的概率。
隨后假設將訓練集D按屬性A進行劃分,則A對D劃分的期望信息熵為:
Info(D)=nj=1DjDInfo(Dj)
其中D是表示訓練集中樣本的數量,Dj是基于屬性A的某個值的子樹中每一類的樣本數量;
那么信息增益就為兩者的差值:
Gain(A)= Info(D)-InfoA(D)
信息增益率為:
Gain Ratio = Gain(A)/ Split Info(A)
其中分裂信息Split Info(A)=- ki=1DjDlog 2DjD,D1到Dk是K個不同值的屬性A分割D而形成的K個樣本子集。
2 數據預處理
2.1 數據準備
在此次就業滿意度調查中,主要需要收集的數據有大學畢業生的性別、就業目標清晰度、對工作崗位的了解程度,為了保證數據的質量及一致性,需要對收集到的數據進行合并、量化、轉換、集成等處理工作。
2.2 數據轉換
數據樣本用一個三維向量X={X1, X2, X3}表示,分別描述性別、就業目標清晰度、對工作崗位的了解程度對大學生就業滿意度的影響。各屬性按如下方式進行定義:
就業滿意度:分為兩種,滿意用“Y”表示,不滿意用“N”來表示。
性別:分為兩種,即“男”或“女”。
就業目標清晰度:分為三個等級,高(有明確就業目標),中(就業目標不夠清晰),低(從未想過就業目標)。
對工作崗位的了解程度:分為三種,A(了解),B(不太了解),C(不了解)。
3 構造決策樹
選取訓練樣本數據集,如下表所示,將就業滿意度作為類別表示屬性,將性別、就業目標清晰度、對工作崗位的了解程度作為決策屬性。
(1)根據樣本類別屬性計算信息熵。就業訓練樣本集中樣本類別屬性為就業滿意度。首先計算出就業滿意度的信息熵,其中就業滿意的有12人,就業不滿意的有8人。根據公式計算其信息熵:
I(就業滿意度)=-(1220log21220+820log2820)= 0.9710
(2)計算每個非類別屬性的期望信息熵。
對屬性“性別”
t1=7(性別為“男”的個數),p1=6(就業滿意度為YES的個數),q1=1(就業滿意度為NO的個數)
t2=13(性別為“女”的個數),p2=6(就業滿意度為YES的個數),q2=7(就業滿意度為NO的個數)
E(性別)=-[720×(67log267+17log217)+1320×(613log2613+713log2713)] = 0.8543
因此,屬性“性別”的信息增益Gain(性別)= I(就業滿意度)-E(性別)= 0.9710-0.8543=0.1167
屬性“性別”的分裂信息:
Split Info(性別)=-(720log2720+1320log21320)= 0.9341
屬性“性別”的信息增益率Gain Ratio(性別)= Gain(性別)/ Split Info(性別)= 0.1249
同理計算得到
對于屬性“就業目標清晰度”
E(就業目標清晰度)= 0.9203,Split Info(就業目標清晰度)= 1.5129
所以Gain Ratio(就業目標清晰度)= Gain(就業目標清晰度)/ Split Info(就業目標清晰度)= 0.0335
對于屬性“對工作崗位的了解程度”
E(對工作崗位的了解程度)= 0.8797,Split Info(對工作崗位的了解程度)= 1.5813endprint
所以Gain Ratio(對工作崗位的了解程度)= Gain(對工作崗位的了解程度)/ Split Info(對工作崗位的了解程度)= 0.0577
(3)由于屬性“性別”具有最大信息增益率值,故將“性別”作為決策樹的根節點,引出一個分支,樣本按此劃分。對引出的每一個分支再用此分類方法進行分類,再引出分支,最后所構造出的決策樹如下圖所示:
C4.5算法構造決策樹
(4)分類規則提取。根據構造的決策樹,用IF—THEN對所分析出的結果進行描述。將數據可視化,以便于人們理解,本例中的部分分類規則如下:
IF性別=“男”and對崗位的了解程度=“了解”或“不太了解”THEN對就業滿意;
IF性別=“男”and對崗位的了解程度=“不了解”and就業目標清晰度=“中”THEN對就業滿意;
IF性別=“男”and對崗位的了解程度=“不了解”and就業目標清晰度=“低”THEN對就業不滿意;
IF性別=“女”and就業目標清晰度=“高”或“中”and對崗位的了解程度=“了解”或“不太了解”THEN對就業滿意;
IF性別=“女”and就業目標清晰度=“高”或“中”and對崗位的了解程度=“不了解”THEN對就業不滿意;
IF性別=“女”and就業目標清晰度=“低”THEN對就業不滿意。
4 結果分析
由以上規則可以看出男生與女生在就業滿意度中有較大程度的不同。男生對工作崗位了解或有一定程度的了解,無論就業目標是否清晰,都能找到滿意的工作;即使不了解崗位,如果對就業目標有一定程度的認知,也可以找到滿意的工作。而對于女生來說,只有當就業目標清晰度高或者適中且對工作崗位了解或有一定程度了解,才能找到滿意的工作。由此來看,性別是影響就業滿意度的重要因素,就業目標清晰度及對工作崗位的了解程度也起到了較大的作用。
5 提高大學生就業滿意度的建議
根據以上利用C4.5算法對大學生業滿意度的分析,對學生本身及高校學生工作提出以下3點建議:
(1)提前制訂職業生涯規劃。大學生應根據自己的興趣愛好及自身特點,進行自身的社會定位,提前制定職業生涯規劃,明確就業目標,提升自身能力,把握就業機會,提高就業滿意度。值得強調的是,女生相較于男生而言更需要有相對清晰的就業目標,以此來提高就業滿意度。
(2)加強對各工作崗位的了解。大學生應將自己的就業目標與對工作崗位的認知結合起來考慮,根據就業目標全面了解相應工作崗位的工作內容、工作技能和工作方法與工具,以便找到適合自己的工作,提高就業滿意度。
(3)高校提供高水平的就業指導。各高校要以市場需求為導向,制定全方位的就業指導體系,根據學生自身特點實行分類、分階段的就業指導,提升大學生對自身、企業需求、工作內容、就業方向的認知,引導大學生樹立積極的就業觀念,提高就業滿意度。
參考文獻:
[1] 徐才千.提高大學生就業滿意度途徑探索[J].繼續教育研究,2011(9).
[2] 張俊,王琴.C4.5算法在研究生就業信息庫中的應用研究[J].信息技術,2009(11).
[3] 傅亞莉.數據挖掘技術C4.5算法在成績分析中的應用[J].重慶理工大學學報,2013(11).endprint