王雯麓 朱定局
【摘 要】隨著大數據時代的到來,如何利用數據資源分析學生學業的相關因素以改善教育效果,有著重要的現實意義和時代意義。本文利用Apriori算法和Pearson相關系數挖掘學生學業的相關因素與學生學業的關系及重要程度,從學生、家長和學校三方面給出建議;基于學生層面的相關因素,利用全連接神經網絡、邏輯回歸以及xgboost分類器進行訓練,對學生分類,以實行“因材施教”,改善教育效果。
【關鍵詞】Apriori算法;全連接神經網絡;學生學業影響因素;教育大數據
【基金項目】本文受以下項目資助:國家級新工科研究與實踐項目“新工科人才創新創業能力培養的辯證發展模式探索”(教高廳函【2018】17號);廣東省高等教育教學研究和改革重點項目“辯證發展創新教學法研究與實踐——以計算理論課程的創新思辨與實證為例”(粵教高函[2016]236號);廣東省學位與研究生教育改革研究重點項目“基于科研創新能力培養的辯證發展教學法研究與實踐”(粵教研函[2016]39號);廣東高校重大科研項目“基于大數據深度學習的辯證創新教學機器人核心技術研究”(2017KTSCX048);廣東省新工科研究與實踐項目“新工科人才創新創業能力培養的辯證發展模式探索”(粵教高函【2017】118號);廣東省聯合培養研究生示范基地“聯合培養研究生示范基地”(粵教研函[2016]39號)。
【中圖分類號】R197.4 【文獻標識碼】A 【文章編號】2095-3089(2019)21-00-01
一、背景
隨著大數據時代的到來,如何利用數據資源分析學生學業的相關因素以改善教育效果,有著重要的現實意義和時代意義。另外現階段,學校普遍存在學生學業水平參差不齊的現象,這使得教師的教學目標和教學活動難以針對到每一個學生身上。
目前已有一些學者對高校學生學業進行了關聯規則挖掘[1];有研究僅利用學生某一次成績一項指標對學生進行分類管理[2];也有一些僅針對某一學科某一專業進行影響因素挖掘的研究[3];但還沒有一項研究可以全面分析學生學業與學生層面、家庭層面及學校層面的多種因素之間的關系及重要程度。如何在保障教育公平的前提下,更好地開展因材施教的教學活動也是我們亟待解決的問題。
二、核心任務
本文利用CEPS的112所學校、近2萬名初中生的1700多個變量的數據,選取與學生學業相關的學生層面、家庭層面及學校層面的因素如圖2-1,通過可視化以及Apriori規則關聯挖掘算法分析各因素與學生學業之間的關系及重要程度。
本文的另一個任務是基于學生層面的相關因素建立學業綜合評價體系,對學生的學業進行綜合評價,以實行“周期性走班制度”(周期性走班制度是指周一至周四實行正常的教學活動,周五實行特殊的走班制教學,即針對學生學業上各個方面進行綜合評價,為學生提供基礎類、提升類、拓展類的教學,滿足各個層次學生的學習需求。)。
三、結果與分析
本文采用的數據集男女樣本數量均衡,男性樣本數量占全體樣本數量的51%,女性樣本占全體樣本數量的49%,這對提升結果的可靠性是有利的。對學生學業綜合成績進行標準化處理,將學業綜合成績進行H、M、L等級評定。
1.單一因素與學生學業綜合成績等級的關系
從個人層面來看:女生學業綜合成績比男生優秀,女生處于H等級的比例比男生比例高了17個百分點,L等級低了18個百分點;住宿情況對學生學業綜合成績等級影響較小,在學業綜合成績的各個等級中,住校人數的百分比與不住校人數的百分比基本持平。曾入讀幼兒園的學生處于H等級的比例比不曾入讀的學生比例高了7個百分點,L等級的比例低了5.5個百分點,可見進入幼兒園接受規范幼兒教育有利于學生未來學業水平的提高。周末的課外輔導班對學生的學業水平的促進明顯大于周一到周五的課外輔導班;學生回答問題次數、參加活動次數與學生等級之間存在明顯正相關關系;學生的遲到、逃課行為與學生等級之間存在明顯負相關關系。
而從家庭層面中可以發現:是獨生子女的學生中H等級和M等級的比例均略高于非獨生子女的比例;非農業戶口學生中H等級和M等級的比例均略高于農業戶口學生的比例;父母學歷相差較大的學生中L等級和M等級的比例略高,可見部分父母的學歷差距有會有教育觀念和教育方式的不一致,進而對孩子的學業等級有反作用;父親不經常喝醉酒的學生中H等級的比例較父親經常喝醉酒的學生高了6.7個百分點,L等級的比例少了8.2個百分點;父母關系好的學生中等級為H的比例較父母關系不好的學生高了6.2個百分點;家長的教育觀念不同的學生,學業等級分布有較明顯區別;只有父親在家同住的學生中,大部分學生的學業等級為M和L;
從學校層面來看,學校的圖書館情況、周邊環境以及師資力量對學生的學業等級都無較明顯關系。
2.Pearson相關系數分析
經所次篩選后,本文選擇若干因素進行Pearson相關系數分析如圖3-1:
由圖可知,家庭經濟、父母關系、父親學歷、母親學歷、教育觀念、是否獨生、是否住宿、自信心均與學生學業綜合成績等級正相關;戶口類型、是否與父母同住均與學生學業綜合成績等級負相關。其中相關系數大于0.05的影響因素由高到低依次是自信心、父親學歷、母親學歷、教育觀念和父母關系。說明學生自信心高有利于學生學業綜合成績的提高,學生學業綜合成績的提高反過來又可以增強學生自信心,兩者相互促進,因此應該有意識地增強學生自信心。此外,父母學歷的高低、教育觀念和父母間的關系也會對學生學業綜合成績造成較大影響,可見家庭環境十分重要。
3.Apriori關聯規則挖掘
使用Apriori算法進行關聯規則挖掘得到各變量與學生學業情況組成的支持度、置信度和提升度不盡相同的多種規則。其中confidence最高的20條規則如下圖3-2所示:
女學生是一個較為感性、細膩、易受干擾的群體,而從上面的規則中可以發現lhs中均有“性別=女”,這可以反映出家庭層面和學校層面的若干個外部因素對女生的學業等級影響更大。本文推測女生的學業等級與各因素之間的關系較男生更密切,更有規律可以供挖掘。
4.訓練分類
本文首先僅利用學生層面的34個因素,通過全連接神經網絡進行500次訓練,模型準確度達到0.64。由于模型的準確度不高,繼續加入家庭層面和學校層面的各因素繼續進行訓練。邏輯回歸和xgboost機器學習算法對學生進行訓練分類,訓練后邏輯回歸算法的模型準確度約為0.46,xgboost分類器的準確度為0.51。
通過對數據的標準化,將所有的數據縮放為0-1,并進行特征選擇,兩個模型的準確度均上升,分別變為0.49和0.53,圖3-3為xgboost分類器在測試集上測試的結果。再利用上文中的全連接神經網絡繼續進行訓練,訓練的前一千輪的損失值和準確率如圖3-4所示,經2000次訓練,模型最終準確率達0.76。
本文的研究旨在運用大數據分析數據挖掘分析,為學校、家庭以及學生三個維度提供一定的參考,改善教育以實現更高效的人才培養。
參考文獻
[1]朱東星,沈良忠.關聯規則在高校學業預警中的應用研究[J].電腦知識與技術,2017,13(23):196-197.
[2]李珍,刁鋼,趙慧峰.基于大數據分析的學生學業分類管理體系——河北農業大學商學院新生入學成績的K-mean聚類分析[J].河北農業大學學報(農林教育版),2018,20(05):96-99.
[3]滕廣青,張良軍,張凡.基于決策樹的英語專業學業影響因素的關聯規則挖掘[J].浙江教育學院學報,2010(04):97-102.
作者簡介:王雯麓,朱定局(通信作者),華南師范大學。