段潤英+黃欣榮



摘要:為深入挖掘剖析影響應加大學生求職擇業的關鍵因素及其潛在的相互作用,筆者針對南京信息職業技術學院近年來的畢業生選擇推薦就業、自主擇業、自主創業或升學、待業等各種情況的決策因素進行了廣泛的統計,以數據挖掘分類技術為支撐設計了C4.5算法對各種潛在的影響畢業生就業選擇的因素進行了系統化的剖析,從而得出影響應屆畢業生就業率的決策模型。本研究的主要意義在于學生可以算法模型在大學在讀期間努力完善自己的知識結構,不斷增強自身的綜合素質及社會競爭力。從而適應日益嚴峻的就業形勢和經濟社會發展的需要,提高入職簽約成功率。應屆畢業生也可以參照算法模型對比自身的素質素養有針對性的選擇目標單位進行擇業。高等院校則可以根據該算法模型統計各界畢業生的就業指數進行縱向及橫向的對比分析,進有針對性的改良教學計劃,使院校培養出的畢業生更加符合當代社會的需求,刺激就業率快速增長。
關鍵詞:數據挖掘;分類;決策樹;C4.5算法;大學生求職
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2017)05-0151-03
1 C4.5算法
C4.5 算法是對ID3算法的優化改良。與ID3算法不同的是,C4.5算法是以數據增益率為標準來選擇決策樹的每個節點的節點屬性。算法默認選擇當前分支節點下數據增益率最高的屬性作為當前節點的測試屬性。C4.5算法具有的這一特性使得對數據挖掘結果中的樣本分類所需的數據量大大減少,而且能夠準確的反映出劃分的最小隨機性或“不純性”。這種理論方法使得對一個對象分類所需的期望測試數目達到最小,從而設計一棵最為簡單的決策樹。為了研究的方便,下面對算法中的相關術語給出定義。
定義1:設數據集S為包含S個數據樣本的集合,且類別屬性可以取m個不同的值,對應于m個不同的類別Ci (i=1,2,…,m)。假設Si為類別Ci中樣本的個數;對一個給定數據對象進行分類所需要的信息量,稱為S劃分前的熵,即:
其中Pi是任意一個數據對象屬于類別Ci的概率:。Pi=Si/S。
定義 2:設一個屬性A取v個不同的離散屬性值{a1,a2,…av}。利用屬性A可以將集合S劃分為v個子集{S1,S2,…Sv},其中Sj包含了S 集合中屬性A取aj值的數據樣本。若屬性A被選為測試屬性,即用屬性A 對當前樣本集進行劃分。設Sij為子集Sj中屬于Ci類別的樣本數。那么利用屬性A劃分當前樣
2 挖掘對象及目標確定
本文以南京信息職業技術學院六百名2016屆畢業生的就業情況作為研究對象,通過建立C4.5算法比對分析六百位2016屆畢業生的學習成績及個人素質等相關信息得出可能影響學生擇業就業的潛在因素,為在校學生有針對性的提高自身素養提供了參考方向,同時也給學校學生工作委員會就業指導中心的專兼任教師調整學校課程安排和就業指導工作的中心提供了理論支撐。
3 數據采集
利用C4.5算法進行數據挖掘分析需要確立具體、可查的研究對象,所以建立算法分析模板前應對可預見的可能影響學生擇業就業的潛在因素進行系統化、精細化的搜集整理。數據采集樣本的準確程度直接影響了算法分析結果的參考價值。
根據研究分析需要,本文主要從南京信息職業技術學院學生學籍管理系統中“基本信息服務”界面采集了學生“學生基本信息”,從“學習中心-成績查詢服務”界面導出了2016界畢業生的“學生成績信息”。南京信息職業技術學院學生工作委員會下轄的就業指導中心的同事們向我們提供了2016界相關畢業生的“就業狀況信息”。筆者使用隨機抽樣的方式從調取到的近五千條數據記錄中截取了600條相關記錄作為本次研究分析的對象。在截取的600條畢業生信息中安排400條數據組成訓練數據集,剩余200條數據分配為測試數據集。
從南京信息職業技術學院學生學籍管理系統中“基本信息服務”界面采集了學生“學生基本信息”主要包括以下內容:院系、專業、班級、姓名、學號、性別、能力特長、政治面貌、健康情況、獎懲情況與培訓工作經歷、社會實踐活動等。另外,該界面還顯示了諸如民族、籍貫、身份證號等與畢業生就業選擇無關或受反歧視、反地方保護政策限制對畢業生就業影響較小的因素,本文不作討論。
從“學習中心-成績查詢服務”界面導出“學生成績信息”,主要包括以下屬性:學號、姓名、學年、學期、學分、課程性質、總評成績等。該界面也提供了畢業生英語水平、計算機水平等被用人單位普遍重視的基礎技能成績的查詢服務。
由南京信息職業技術學院學生工作委員會就業指導中心提供的畢業生“就業狀況信息”主要包括以下屬性:專業、班級、學號、姓名、就業單位、單位性質、單位通信地址、單位聯系方式、單位效益等。
4 數據集成
本文研究的初始數據即從數據采集流程中“學生基本信息”、“學生成績信息”及“就業狀況信息”三個數據庫選取。為了進一步提高數據挖掘質量,提高算法效能我們需要將采集到的數據進行集成處理,即將采集到的三個數據庫中的相干信息統一整合到一個新的數據庫中。
通過觀察發現,三個數據庫中均包含的數據屬性有“姓名”、“學號”兩個,由于以中文字符作為數據存儲格式的“姓名”屬性相較于以數字字符作為數據存儲格式的“學號”屬性難以在算法中錄入、檢索,故本文采用樣本的“學號”屬性作為主鍵將三個獨立的數據庫整合形成一個“南京信息職業技術學院2016屆畢業生就業信息匯總表”。表內共包含以下樣本個體的屬性信息:專業、班級、姓名、學號、性別、政治面貌、獎懲情況、社會實踐活動、學習成績、英語水平、計算機水平、單位名稱、單位性質、單位聯系方式、單位地址、單位效益,共計16項。
經過認真的考校和從業內專業人士等渠道獲取的相關信息我們發現表內的有些屬性和算法實施的目的有關,一些與數據挖掘分析任務相干性較小或者不相干。因此,對表內的數據屬性進行歸約以得到最小的屬性集從而保證數據挖掘結論的正確性和有效性是十分必要的。endprint
5 構造決策樹
我們將“就業情況”中的“單位性質”作為類別標識屬性,把“學生基本信息”中的“性別”、“專業”、“政治面貌”、“獲獎情況”、“實踐能力”、“學習成績”、“英語水平”、“計算機水平”作為決策屬性構建訓練數據集。將學生就業的樣本集設為S,其包含有400個元組。這400個元祖根據就業單位性質劃分為A1、A2、A3、B1、B2、B3、C1、C2、C3九個類別,分別對應著較好的國企、一般的國企、差的國企、較好的外企、一般的外企、差的外企、較好的私企、一般的私企、差的私企九類就業單位。各個類別標識屬性對應的樣本數參照表1樣本統計分析表所示。
通過表1中的數據統計結果我們不難看出,400個訓練數據元組中進入A1、B1、C1類單位就業的僅有十一個個體,相較于400個數據的總體所占比例過低,不具有代表性。這與本文通過研究既有應屆畢業生就業數據分析得出潛在的可能影響就業的普適性因素以提高應屆畢業生就業率的初衷背道而馳。因此,本文僅選擇了進入二(A2&B2&C2)、三類(A3&B3&C3)單位工作的數據元祖使用決策樹C4.5 算法進行挖掘分析,冀圖得到更精確、更具有普適性的分析結果。C4.5決策樹的具體的構建過程如圖1所示。
400個元組,其中A2、A3、B2、B3、C2、C3對應的子集元組數分別為s1=32,s2=41,s3=35,s4=62,s5=61,s6=158,計算每個決策屬性的信息增益率,按照公式(1)首先計算集合S的熵:I(s1,s2,s3,s4,s5,s6)=I(32,41,35,62,61,158)=2.320543,然后根據公式(2)、公式(3)和公式(4)計算每一個決策屬性的信息增益率。
由上述結果可知,數據增益率最高的屬性是“社會實踐活動”,因此該屬性應作為決策樹的根結點。實踐能力分出“優”、“良”和“差”三個分支,對應的元組個數依次為116、259和25。由上述結果可知,數據增益率最高的屬性是“英語水平”,因此該屬性是實踐能力為“優”的分支結點。對實踐能力為“良”和“差”的分支進行上述計算,結果為實踐能力為“良”和“差”的分支結點均是屬性“獲獎情況”,同理確定其他的分支節點。
6 生成分類規則
從圖1實踐能力分支為優的決策樹中從根結點到每個葉結點的流程我們可以歸納出如下分類原則(表2)。
通過上述分類原則可以看出,有社會實踐經歷豐富且具有較高的英語應用能力的畢業生占了較好企業就業樣本中的絕大多數;而社會實踐經歷較為薄弱但獲得過省市以上獎勵榮譽的畢業生,基本上能夠在差的國企、一般性外企和較好的私企就業;社會實踐能力一般且沒有獲得過較高等級的獎勵的畢業生只能混跡于較差企業等。
7 結語
根據潛在的可能影響到應屆大學畢業生就業的數據屬性所具有的離散性的特點,本文利用決策樹C4.5算法對目標數據進行了挖掘分析,構建了大學生就業影響因素的分析模型,同時樹立建立了分類規則,數據挖掘分析具有較高的參考價值和實踐意義。通過C4.5算法模型分析出的應屆畢業生就業影響因素分類規則對在校大學生針對性的提高自身綜合素質具有導向作用,也可以為高校就業指導工作的轉型提供思路。
參考文獻
[1]楊斷利,張銳,王文顯.基于模糊決策樹的高校就業數據挖掘研究[J].河北農業大學學報,2012,35(2):111-114.
[2]麥曉冬,賈萍,翁建榮,等.基于多尺度粗糙集模型的決策樹在高校就業數據分析中的應用[J].華南師范大學學報(自然科學版),2014,46(4):31-36.
[3]李如平.數據挖掘中決策樹分類算法的研究[J].華東理工大學學報,2015,33(2):192-196.endprint