周慶 肖逸楓
摘 要 以某高校計算機學院2012級293名學生前三學期的學籍信息和歷史成績信息作為研究對象,采用多種數據挖掘方法,旨在對高風險學生成績情況和留級風險進行預測分析。研究表明,通過學生前三學期的歷史成績和學籍信息,可以有效地預測學生在第四學期結束后是否留級,準確率達到87.5%。將這一數據挖掘方法運用到學生日常管理中,可以利用大數據處理技術整合學生數據,進行客觀、科學的分析和決策,起到學業監測和預警的作用。
關鍵詞 數據挖掘;成績預測;學業預警;教學管理;學籍信息
中圖分類號:G645 文獻標識碼:B
文章編號:1671-489X(2018)06-0036-04
Analysis and Precaution of College Students' Academic Record based on Data Mining Technology//ZHOU Qing, XIAO Yifeng
Abstract In this paper, we study the student status information and historical grade of 293 students in the first three semesters from the
college of computer science of a certain university. Based on multi-
ple data mining methods, we analysis and predict the future acade-mic performance and the repetition risk of target students. The study shows that the student 's historical academic records and student sta-tus information, we can effectively predict whether a student will repeat at the end of the fourth semester. The accuracy rate is 87.5%. By applying the data mining method to the daily management of stu-
dents, we can use big data processing technology to integrate student
data, do objective and scientific analysis and decision-making, and play the role of academic monitoring and precaution.
Key words data mining; performance prediction; academic precau-
tion; teaching management; student status information
1 引言
教育大數據是整個教育活動中產生的、根據教育需要采集到的,一切用于教育發展并可創造巨大潛在價值的數據集合[1]。教育數據挖掘EDM(Educational Data Mining)
是綜合利用機器學習和數據挖掘的技術和方法,對教育數據進行處理和分析,通過數據建模預測學生未來的學習趨勢[2]。
近年來,高校學生人數急劇增加。通過數據挖掘,研究學生在校數據背后的趨勢和問題,顯得尤為關鍵[1]。通過研究高校學生在校相關數據,利用數據挖掘技術分析學生的行為數據和歷史成績,可以起到學業監測預警的作用。同時,利用結果有針對性地對學生進行指導,可以有效提升高校教學管理的工作效率。
本研究主要通過學生學籍信息和歷史成績,預測學生是否存在留級風險。首先對學生歷史成績進行預處理,計算出用于預測的四個特征變量。利用數據挖掘模型來預測學生的留級風險,根據預測結果分析選取的特征變量和留級的相關性系數,闡述本研究對教學實踐的啟示和應用價值。研究結果表明,邏輯回歸模型的預測效果最佳,Precision
(準確率)和Recall(召回率)分別為70.00%和87.50%,F1
(F1-measure)為77.78%。通過學生學籍信息和歷史成績數據,能夠比較準確地預測出有留級風險的學生,可以幫助學院加強監督,為高校管理者提供有效依據。
2 相關研究
教育數據挖掘簡介及研究趨勢 數據挖掘的研究始于20世紀80年代,現在已經成功地應用于多個領域。教育信息化的發展使得教育領域的各種數據呈現爆炸式增長,如何從海量數據中挖掘出有用的信息,成為現代高校管理者的研究熱點。
自2005年起,人工智能(AAAI)、人工智能教育應用(AIED)及智能導師系統(ITS)等國際會議開展了多次“教育數據挖掘”主題研討會;2008年,在加拿大召開第一屆教育數據挖掘國際學術會議,2011年7月,在荷蘭埃因霍溫舉辦第四屆教育數據挖掘國際會議,并且成功創辦專門的電子期刊——教育數據挖掘雜志(JEMD)。
教育數據挖掘(EDM)從教育系統的數據中提取出有意義的信息,這些信息可以為教育者和管理者提供服務[3]。教育數據挖掘技術當前研究方向很廣泛,有助于管理者做出科學的決策。
國內外相關教育數據挖掘成果 國外高校在學生預警方面有很多相關研究成果。有研究表明,可以根據學生第一學期的新生成績和高中百分比排名,對學生的平均成績進行預測分析。Dursun Delen利用高校學生五年的數據研究模型,預測和解釋有風險的學生并進行適當干預[4]。在Ya-Han Hu等人的研究中也提到,關于利用學生在線學習課程和整個學習活動建立早期預警系統[5],幫助識別和預測有風險的學生。
隨著國內大數據研究的逐步推進,也有很多學者提出了自己的認識。例如:在陸璟的文章中就提到,要加強多個來源的數據庫整合[6],利用教育輿情分析降低學生學業風險;趙玉潔的文章中提出,需要深入挖掘高校數據特征,才能更好地實現高校教育信息化的全面建設[7];陳美娥提出,要從學生歷史成績和在校行為出發進行探索[8]。國內很多研究都表明,學生學業問題逐年增加,因此需要建立有效的防范機制來進行學業預警。
我國高校大數據研究的特點及問題 隨著我國教育信息化建設的不斷深入,學生在校數據成為高校一筆隱藏的財富,它們背后蘊藏的價值對于高校信息化管理有著相當深遠的意義。
高校數據主要呈現出三個特點,即“碎片化”“持續性”和“多維度”[7]。高校學生數據是隨著時間的不同呈現分布式、碎片化生成的。例如:學生的學習成績反映出學生的學習效果,上網數據體現學生的上網習慣,一卡通消費顯示出學生的作息規律。但是現在高校中未處理的數據使得大量數據價值密度低,無法挖掘其背后的深層含義,造成數據的浪費和丟失。
因此,只有將多維度的數據進行信息整合,深入分析學生的生活習慣和學習情況,才能為管理者提供有效的數據支撐。本文也將有效地通過學生歷史成績和學籍信息,預測學生是否存在留級的學業風險。
3 數據準備
本次實驗的數據來源于某大學在校學生的學籍信息數據和歷史成績數據。由于成績數據保密和數據源獲取的原因,學籍信息(61 919條)和歷史成績數據(1 422 780條)較為龐大。主要分析計算機學院2012級293名在校生入學至今的成績記錄(共計59 831條),同時結合學生的學籍信息和學籍狀態,分析高風險學生成績和學生留級預警情況。
學生學籍信息和歷史成績數據 從表1可以看出,學生學籍數據主要記錄了學生的學號、專業代碼、入學年級、現在年級、班號和學籍狀態??梢酝ㄟ^學生學籍狀態了解該學生當前學籍情況。
如表2所示,學生歷史成績是由學校學工部直接獲取,記錄了在校學生各門課程考試學年和考試學期、課程名稱、課程成績、課程學分和課程標志。其中課程標志有初修、重修和補考三種不同狀態。通過處理,對每個人的成績數據進行統計,可以將對學生的掛科數、重修數、補考數、補考學分進行整合。
學生歷史成績數據統計 如表3所示,經過對每個學生考試成績和課程狀態進行情況分析,可以根據學生歷史成績整合為考試情況統計表,計算得到學生在各學期的掛科數、補考數、重修數和掛科學分等數據。其中掛科學分的統計較為復雜,它是一個隨著學生考試進行隨時迭代更新的數據。如果學生該門課程重修通過,便在掛科學分中去掉該門課的對應學分;未通過就一直保留。
經過處理之后,可以根據學生歷史成績表整合為六個學期的學分成績統計表,如表4所示,其中記錄了學生各學期成績績點、平均分數、選課學分、學期獲得學分和學分獲得率等數據。
4 實驗研究與討論
根據獲取的學生學籍信息和歷史成績數據,通過對數據的特征選擇和預處理,主要選擇計算機學院2012級293名學生前三學期的成績數據進行分析,預測學生第四學期結束之后是否存在留級風險。
本實驗中未留級的學生標志為0,留級學生標志為1。通過從學院得到有效數據和相關文件進行實驗分析。使用幾種經典的數據挖掘模型,分別為決策樹模型、人工神經網絡模型、樸素貝葉斯模型和邏輯回歸模型。
模型分析 決策樹模型易于理解和實現。決策樹可以通過靜態測試來對模型進行評測,能夠在相對短的時間內對大型數據源做出可行結果,是一種直觀運用概率分析的方法。有不少學者也將決策樹算法應用于學生成績的退學研究中。
人工神經網絡模型對噪聲神經有較強的魯棒性和容錯能力,具備聯想記憶的功能。有項目使用人工神經網絡模型并預測了工程與信息科技專業學生的學業表現。
樸素貝葉斯是一種構建分類器的模型。Juan Feldman等使用樸素貝葉斯模型研究學生的認知風格[9]。
邏輯回歸適用于預測結果介于0和1之間的預測問題;同時適用于連續性和類別行的變量分析問題,具有很好的實用性和解釋性[10]。
評價指標及實際含義 本文選擇計算機學院2012級學生前三學期的成績數據進行分析,最終預測出第四學期結束后學生的留級情況。預測結果分為四種類型:TP表示預測為留級的學生該學期實際也留級了;FN表示預測為沒有留級的學生實際卻留級了;FP表示預測為留級的學生實際沒有留級;TN表示預測為沒有留級的學生實際也沒有留級。該實驗是一種典型的二分類問題,二分類預測問題中常用召回率(Recall)、準確率(Precision)和F1值(F1-measure)來評價模型的優劣。
Recall表示模型中正確預測出的留級學生占實際留級學生數量的百分比。Precision表示結果預測為留級學生中正確預測的比例。在模型的性能評價中,Recall和Precision越高越好;但這兩個數據在實驗結果的計算中本身存在沖突。因為F1是Recall和Precision的加權調和平均值,所以在結果分析中利用F1值來評價預測模型的綜合性能。
模型的性能對比與選擇 如表5和圖1所示,將實驗過程中運用到的模型的性能分析結果進行統一比較。四個模型的整體預測效果都較好,Recall均超過了70%,可以較為準確地預測出第四學期結束后可能留級的高風險學生。但是樸素貝葉斯的Precision和Recall誤差波動較大。雖然人工神經網絡模型兩項指標較為穩定,但是很難對所選特征進行解釋。在決策樹和邏輯回歸模型的對比中,邏輯回歸的Precision和F1均高于決策樹,而且邏輯回歸具有很好的實用性和解釋性,因此,最終決定運用邏輯回歸模型。
模型對教學實踐的啟示
1)特征值相關性分析。根據選定的模型計算統計,得到各項預選定的特征屬性與留級預測之間的關系,如表6所示。由表6可見,補考數與留級預測結果的相關性系數為0.366,數值較低。結合實際分析,不難得出,部分學生會有補考經歷,經過反思和準備,大多能通過。這不能完全作為預測留級的主要因素,但可作為輔助指標,從側面反映出該學生的學習狀態。
掛科數、重修數和掛科學分與留級預測的相關性較高。掛科學分達到一定標準,學生會留級,這一指標相關性最大。經過分析,重修數和掛科數較多的學生會有很大可能性留級。因此,這三個指標能夠作為預測學生留級情況的主要特征。
2)應用價值。結合學院政策和學生實際情況,對于學生留級預測這一研究課題,學院在處理的時候會參考學生在校的綜合行為和背景信息。因此在教學實踐中,學院領導和輔導員更加關心預測結果的準確率(Precision)和模型的綜合性能(F1)。
邏輯回歸模型Recall為70.00%、Precision為87.50%、F1為77.78%。Recall反映了模型能夠正確預測出10名留級學生中的七人。Precision表示模型預測出的10名可能留級的學生中有九名確實會留級。模型結果預測出的有留級風險的學生在實際教學中確實有很高概率留級。因此,該模型可以為輔導員和學院領導提供一份有較高準確度的留級學生預測名單。作為輔助依據,結合實際情況,對名單內的學生進行針對性監督和幫助,降低學生的留級風險,具有較高的實用價值。
5 結論
本文根據某高校計算機學院2012級293名學生學籍信息和前兩年的歷史成績數據,結合相關文件和學院學籍研究管理辦法,處理得到學生前三學期的補考數、重修數、掛科數和掛科學分,結合樸素貝葉斯、人工神經網絡、決策樹、邏輯回歸等模型,預測學生在前四學期結束后是否會留級。
最終經過數據統計和實驗分析,選取邏輯回歸模型作為預測模型,實驗召回率(Recall)為70.00%,準確率(Precision)
為87.50%,總體預測準確率(F1值)為77.78%。結合特征值分析和應用價值討論,表明該模型能對教學實踐予以啟示。因此,本文的研究成果可以幫助學院領導和輔導員有效監測學生學習情況,及時督促并進行人工干預,降低學生掛科和留級的風險。
但是本研究尚不完善,用于建模預測的數據不夠全面。高校學生在校產生大量的生活和學習數據,如果可以挖掘高校系統中學生不同行為數據背后隱藏的信息,如一卡通消費數據、學生上網數據等,就可以更加全面地分析在校學生的學業和生活情況,使研究結果更具有解釋性和可推廣性。在未來工作中將結合學生在校的一卡通消費數據和上網數據,完善對學生學業預警的研究和分析,為“智能化校園”建設和管理提供支持。
參考文獻
[1]徐鵬,王以寧,劉艷華,等.大數據視角分析學習變革:美國《通過教育數據挖掘和學習分析促進教與學》報告解讀及啟示[J].遠程教育雜志,2013(6):11-17.
[2]楊現民,唐斯斯,李冀紅.發展教育大數據:內涵、價值和挑戰[J].現代遠程教育研究,2016(1):51-61.
[3]李婷,傅鋼善.國內外教育數據挖掘研究現狀及趨勢分析[J].現代教育技術,2010(10):21-25.
[4]Delen D. A comparative analysis of machine learning
techniques for student retention management[J].Deci-
sion Support System,2010,49(4):498-506.
[5]Hu Y H, Lo C L, Shih S P. Developing early warning
systems to predict studentsonline learning perfor
mance[J].Computer in Human Behavior,2014(36):469-478.
[6]陸璟.大數據及其在教育中的應用[J].上海教育科研,
2013(9):5-8,22.
[7]趙玉潔.大數據在高校教育信息化中的應用探究[J].中國教育信息化,2015(19):38-41.
[8]陳美娥.獨立學院學生留級問題的應對及對策[J].和田師范專科學校學報,2011(1):52-53.
[9]Feldman J, Monteserin A, Amandi A. Detecting stu-
dents perception style by using games[J].Computers & Education,2014,71:14-22.
[10]Sarbakhsh P, Mehrabi Y. Transition Logic Regre-
ssion Method to Indentify Interaction in Binary Longi
tudinal Data[J].Open Journal of Statistics,2016,6(3):
469-481.