廖鳳露+周慶



摘要:研究生就業一直是社會、高校和學生關注的熱點問題。本文基于教育數據挖掘(Educational Data Mining)技術,通過研究生的行為數據來預測就業能力,從而為研究生的就業工作提供幫助。首先對收集到的數據進行預處理,然后運用特征選擇方法篩選出與就業能力相關的課程和網絡訪問類型,最后建立樸素貝葉斯模型進行就業能力進行預測。本文的模型可實現接近90%的召回率,說明該方法能準確地預測學生的就業能力。
關鍵詞:就業能力預測;學生成績;上網日志;數據挖掘
中圖分類號:G643 文獻標志碼:A 文章編號:1674-9324(2017)33-0065-02
一、引言
在我國高等教育進入大眾化階段后,研究生人數逐年激增,研究生的就業能力和就業狀況一直是高校和社會關注的熱點問題。如果能預測每位學生的就業能力,不僅有利于了解學生的總體情況,有利于改進教學工作,也有利于學生及時調整個人的學習計劃和目標。然而,研究生的就業能力受到多個因素的影響,因此準確預測研究生的就業能力是一個困難的問題。
教育數據挖掘(Educational Data Mining,以下簡稱EDM)是解決這一問題的潛在技術。EDM利用計算機科學、教育學、社會心理學和統計學等多門學科的理論和技術解決教育研究和實踐中的各類問題[1],如輔助教學管理者進行教育決策、提高學生的學習積極主動性和幫助教師改進教學方式方法等。EDM的特點在于使用教育環境中產生的數據發現知識,并將產生的知識應用于優化教育環境的目的[2]。
二、研究方法
為了挖掘出學生就業能力和學生行為表現之間的關系,本次研究主要分為以下幾個步驟進行:首先對原始數據進行采集,然后進行預處理和特征篩選,最后選取分類器建立預測模型。
(一)數據采集
本次實驗數據來源于某大學計算機學院2013級專業碩士和學術碩士共計139人的基本信息,研究生階段的所有課程成績,2016年3月在校期間上網記錄,就業單位信息以及在校期間發表的論文信息等。在數據處理過程中,我們首先對所有學生的學號進行加密操作,以保護學生的隱私。
(二)數據預處理
要對研究生的就業能力進行統計和分析,首先應對就業能力進行評價。評價的依據主要參照學生的就業單位和就業崗位。盡管這一依據并不能完全客觀地反映學生的就業能力,但可以給教學管理者提供有價值的參考信息。將每個研究生的就業能力編碼為1和0,分別代表“好”和“一般”兩種情況。
由于原始數據里包含噪聲數據情況,需要先對數據進行預處理,數據預處理的過程主要包括以下幾個方面:
1.成績數據處理。將其中成績有缺失的項去掉,將成績等級用數字型成績替換,計算各學生的平均成績。對每門具體課程,如果學生沒有選修該課程,則用該生的平均成績代替。
2.學生上網日志數據處理。學生上網日志原始數據存在大量冗余,需要過濾掉其中的無用信息,如IP地址、圖像等。然后將網址按照類型不同進行分類,統計學生訪問不同類型網站的時長和頻次。
3.學生發表論文數據處理。根據發表期刊的不同,將論文分為5等,然后分別統計出學生發表論文總數以及發表論文的最高等級。
(三)特征篩選
計算就業能力與各項特征的相關系數,篩選出相關性較強的特征加入預測模型。其中與就業能力相關性較高的課程如表1所示,上網類型如表2所示。
(四)分類器
本次研究所使用的分類器為樸素貝葉斯分類器(Na?觙ve Bayesian classifier,簡稱NBC)。它是基于貝葉斯理論的簡單概率分類器,假設實例的各個特征是相互獨立的。在此假設下,如果某個類別在實例的特征集合上具有最大的條件概率,則認為該實例屬于此類別。相比一般的分類模型,樸素貝葉斯模型具有簡單、計算復雜度低和內存消耗小等優勢。
三、實驗過程及結果
本次實驗采用樸素貝葉斯模型,分別在不同的數據集上對研究生就業能力進行預測。
通過前述的篩選方法確定的特征主要有學生平均成績、論文類型、論文總數、性別、是否推免、本科是否“985”、是否為學碩、表1選出的3門課程、表2選出8類網址訪問時長。將以上9類特征組合成3個數據集(參見表3),然后帶入預測模型進行預測。
圖1顯示了采用(交叉驗證)方法計算的召回率(recall)和預測精度(precision)分布情況。
根據上圖我們可以得出以下幾個結果:
1.隨著數據集特征的增加,召回率呈上升的趨勢,數據集C預測的召回率達到最大值89.66%。
2.隨著數據集特征的增加,預測精度呈上升趨勢,數據集C的預測精度達到最大值69.33%。
3.隨著數據集特征的增加,召回率提升的幅度大于預測精度的提升幅度。
所以,數據集C的預測效果最好,且召回率和預測精度均達到一個較好的值,說明我的模型能較好地預測學生就業能力的情況。
四、結論
本文主要是基于學生成績和上網日志,采用數據挖掘技術對其就業能力的預測。主要工作集中在數據預處理和特征選擇上,對成績和上網日志的預處理,并篩選出一些特征用于模型預測。我們采用樸素貝葉斯模型來對學生的就業能力進行預測,模型預測性能良好,召回率可達到89.66%,預測精度達到69.33%。這說明,本文提出的方法可以實際用于對學生就業的預測。
參考文獻:
[1]Kisor Y. The state of educational data mining in 2009:A review and future visions[J].Computer Communications,2009,6(2):82-87.
[2]周慶,牟超,楊丹.教育數據挖掘研究進展綜述[J].軟件學報,2015,(11):3026-3042.
Forecasting System of Postgraduate's Employability Based on EDM
LIAO Feng-lu,ZHOU Qing*
(College of Computer Science,Chongqing University,Chongqing 400044,China)
Abstract:Graduate employment has always been an important issue for society,universities and students. In this paper,we predict postgraduate's employability through student behavioral data based on the technology of Educational Data Mining,thus providing support for post-graduate employment. First,we preprocess the collected data. Second,we use the feature selection method to filter out the employment-related courses and network access types. Finally,a naive Bayesian model is established to forecast the employability. This model can achieve a recall of about 90%,indicating that the method can accurately predict the employability of students
Key words:employability forecast;student achievement;web log;data mining