


摘? 要:該研究通過采集學生在校的圖書借閱、參加公益活動、上網等行為數據,采用隨機森林算法挖掘行為特征與學業成績之間的關聯程度,提取關鍵特征進行加權計算合并形成新特征,通過基礎模型K-means算法進行聚類分析,最終將學生劃分成自律學霸型、夜貓子上網型和缺乏規劃型三類學生。基于Logistics回歸模型建立預測模型,分別討論三類群學生的學習成績預測效果,為教育工作者深入診斷學生的學習狀態并給予精準的教學引導和干預提供參考。
關鍵詞:教育數據挖掘;行為數據;學生畫像;關聯度;預測分析
中圖分類號:TP311? 文獻標識碼:A? 文章編號:2096-4706(2023)04-0193-06
Research on Student Portrait Construction and Learning Condition Prediction
Based on Educational Data Mining
TANG Qian
(Beijing Institute of Technology, Zhuhai, Zhuhai? 519088, China)
Abstract: By collecting the behavioral data of students' book borrowing, participating in public welfare activities and surfing the Internet, this paper uses the random forest algorithm to mine the correlation degree between behavior characteristics and academic performance, and the key characteristics are extracted to weight and calculate for merger to form new characteristics. Through the clustering analysis of the basic model K-means algorithm, the students are divided into three types of excellent performance in self-discipline, late sleepers with Internet access and lack of planning. This paper establishes a prediction model based on the logistic regression model, and discusses the prediction effect of the three types of students, which provides a reference for educators to deeply diagnose students' learning status and give precise teaching guidance and intervention.
Keywords: educational data mining; behavioral data; student portrait; correlation; prediction analysis
0? 引? 言
教育信息化2.0時代,教育進入以大數據驅動的新時代。目前,高校內積聚了學生的各類在校行為數據并逐步構建成為智慧校園。學生畫像作為智慧校園中的重要組成部分,通過搜集和整理學生在各類平臺中留下的碎片化“烙印”,進行聚合和抽象形成學生的專屬“畫像”,以反映學生的多方面屬性。學生的學習成績作為教育教學中的核心指標,是衡量學校教學質量、檢驗教師教學成果和評價學生知識掌握程度的重要依據,分析學生行為特征與學習成績之間存在的內在聯系和潛在規律,獲得優化教學決策的信息并加以應用,已引起高校和研究者的廣泛關注。本研究基于數據挖掘技術,通過采集學生的基本信息、圖書借閱、上網行為、參與公益活動等各類數據,挖掘行為特征與學習成績之間的關聯性,進一步提取關鍵特征并構建學生畫像,針對不同類群的學生建立預測模型預測其學業成績,以達到對學生異常情況的早期預警,優化教學實施過程,以促進學校對不同類群學生的培養、引導和管理工作。
1? 相關研究
教育數字化轉型已成為高等教育高質量發展的重要引擎和創新路徑,引發了高等教育教學模式、治理體系等方面的系統性變革。在2020年出臺的《深化新時代教育評價改革總體方案》中提出,利用人工智能、大數據等現代信息技術,探索學生在學習全過程縱向評價和德智體美勞全要素橫向評價。教育數據挖掘已成為教育信息化、數字化的新方法,從應用需求上來看,王宏志、熊風等將教育數據挖掘劃分為三個層次,即描述分析、預測分析和規范分析[1]。其中,描述分析是依據歷史數據描述并分析學生行為特征,預測分析是指預判學情的未來趨勢及概率,規范分析根據學生的歷史數據提出學生下一步的學習計劃和引導方案。杜婧敏、方海光等認為教育數據挖掘的應用主要體現在評估、預測和干預,評估是指基本統計分析及其可視化、提取學生群體特征,預測是針對不同類型的學生構建預測模型研判學生成績,干預是指對教師的教學方法提供改進意見[2]。李鳳霞、徐玉曉提出了教育數據挖掘的三大主要趨勢為教育數據的挖掘分析以優化教學策略,開發自適應學習系統以實現個性化學習,以及開展多元化的學生綜合評價促進教育教學模式的創新[3]。國外相關學者也對此進行分析研判,KLA?NJA-MILI?EVI?等構建了教育大數據的理論框架,包含信息技術分析、學習分析和平臺機構分析[4]。美國智庫布魯金斯研究院提出了教育大數據研究的五種范式為趨勢分析、聚類分析、關系挖掘、自然語言轉化以及構建現象解釋模型[5]。Kirsty Kitto建立了一種新的教學數據挖掘方法“do(做)—analyse(分析)—change(改變)—reflect(反映)”,以區別傳統的特定系統范圍內的教學數據靜態分析,形成面向學生行為跟蹤的動態數據分析[6]。通過研究成果梳理分析,我們發現教育數據挖掘(Educational Data Mining,EDM)方法主要包括預測(Prediction)、聚類(Clustering)、關聯挖掘(Relationship Mining)、決策支持(Distillation for human judgment)和模型發現(Discovery with models)。當前教育數據挖掘應用主要聚焦于三大熱點:以解釋和優化學生學習過程的學習分析,以學生個性化需求為導向的教育空間及平臺分析,以學生動態性、全過程為研究對象的教育數據治理分析。
從數據來源來看,教育數據可分為學習者個人信息、學習資源信息(視頻、PPT、文檔等)以及學習者行為信息(行為跟蹤、社會交互等)等不同來源的異構數據。通過采集和整理學生海量的行為數據,抽象出學生的行為特征并形成學生用戶畫像。學生畫像是由用戶畫像概念遷移而來[7]。一般來說,學生畫像由學生特征、學生標簽和學生屬性三個基本要素構成[8]。學生畫像側重于對學生進行不同維度的劃分。目前,已形成了學生畫像的一定研究,Kiu等人通過研究圖書館的學生數據,挖掘分析其閱讀習慣,進而構建畫像,為學生讀者推薦圖書的目的[9]。張治等構建學生的個體畫像和群體畫像,分別服務于學生生涯規劃和個性發展,為學校辦學改進和政府教育治理提供決策支持[10]。薛耀峰等設計了基于德、智、體、美、勞五個維度的學生畫像用于呈現不同區域學生的培養發展情況[11]。因此,學生的數字畫像是以學生的行為數據為客觀事實和依據,通過數據挖掘等技術方法抽離出描述學生的真實特征及行為的標簽集,基于具體的教學情境的形成有信度和效度的綜合評價。
綜合已有的研究基礎,本研究基于預測、聚類和關聯分析三個教育數據挖掘的主要方法,通過采集學生的多維行為數據,分析學生們在生活規律、學習習慣等方面的群體特征,計算學生行為特征與學習成績之間的關聯程度,利用聚類算法對學生進行用戶畫像形成立體的評價,并構建預測模型深入分析預測各類群學生的學習成績變化特征[12,13]。
2? 數據采集與預處理
本研究以廣東省某高校的103名本科生為研究對象,使用學生脫敏數據進行分析,該數據集包含了學生基本信息、學籍信息等靜態數據,以及兩個學年的成績信息、圖書借閱記錄、參與公益活動記錄、上網記錄等動態數據。
數據預處理在數據挖掘中約占整個工作量的80%,數據的質量將會直接影響模型分析的效果,因此,在建模之前,需要先對數據進行預處理。為了提升數據質量,針對部分信息記錄不完全或存在缺失的樣本進行清洗等預處理操作。并進一步計算各特征值與學習成績相關性及影響度,針對關聯度大的標簽進行加權計算并強化學生屬性,最后通過合并新特征并聚類形成學生用戶畫像,分析模型基本流程如圖1所示。
對經過數據預處理之后的數據類型匯總,分為學生基本信息、圖書借閱信息、上網行為信息、參與公益活動信息以及教學活動信息5個部分,預處理后的2018級學生特征如表1所示。
3? 學生群體畫像分析
為了進一步探索數據,我們將預處理后的數據利用匯總統計及可視化進行數據特征的初步分析,勾勒出學生群體畫像。
3.1? 學生基本情況
本次的研究對象為2018級某專業103名本科生,其中男生46人,女生57人,從性別比例上來看相差不大。學生們主要來自廣東省內,占比68.75%,其余則來自湖南、湖北、浙江、陜西、吉林等11個省份。同時,我們采集了學生的語文、數學和英語三科的入學成績,因不同省份的高考總分不一致,無法對分數進行橫向比較,我們通過預處理將高考總分對標學分制5.0,進一步將學生入學的三科分數轉化為學分績點,并計算出語文、數學、英語三科的平均績點分別為3.39、3.06、3.24。從學生獲得獎學金情況來看,在統計周期內共計有68名同學獲得優秀學生獎學金,人均獲獎0.66次,學生生源地及性別分布情況如圖2所示。
3.2? 圖書借閱數據
大學圖書館是高校教學科研工作的支撐,也是學生學習的第二課堂。本研究選取的圖書借閱信息,包含學號、書名、書號、借閱日期、書籍所屬類型等指標,探索學生圖書借閱的數據特征。通過圖3和圖4圖書借書次數的分布情況可以看出,約有84%的學生借書圖書次數集中在[0,30]之間,最多的一位同學借閱圖書84本,最少的一位同學借閱圖書1本。其中,學生們借閱次數最多是文學類和經濟類的書籍,相比較而言,男生更愿意閱讀經濟、數理科學及化學、工業技術方面的書籍,而女生則更傾向于閱讀文學、語言文字以及政治法律方面的書籍。
3.3? 上網行為數據
利用網絡進行網上學習、社交和娛樂等已成為大學生在校生活的重要組成部分,基于此,通過對校園網的上網認證管理平臺有關學生的登錄時間、退出時間、登錄日期、登錄網址等字段的原始數據預處理,抽離出學生的上網次數與時長、平均上網時長、上網集中時段等指標,分析學生上網行為的典型特征。圖5和圖6展示了學生平均每周的上網時長,超過一半的學生平均每周上網時長控制在40小時以內,大約有30.1%學生平均每周的上網時長在20~40小時范圍內(即平均每天花在網上的時間為6小時以內),按照不同時間段的上網人數來看,學生們上網的高峰期為晚上19:00—24:00時,占比為81.16%,其次為下午13:00—18:00,占比69.36%,約有30.39%學生選擇在當日早晨或通宵至次日凌晨上網。
3.4? 參與公益活動數據
為鼓勵學生積極參與各類的公益活動陶冶心靈、服務社會,增強社會實踐經驗,各高校專設公益學分并通過公益活動管理平臺進行監管。因此,我們設置了學生們參與公益活動次數及時長、獲得公益活動認證學分等指標,了解學生參與公益活動的整體情況。通過圖7展示可知,學生們參與公益活動的積極性較高,人均參與公益活動約10次,但女生明顯要比男生更積極主動參加,從人均獲得公益學分數來看,女生參與公益活動獲得的學分超過男生的一倍。
4? 特征值的關聯性分析
在學生畫像的聚類算法中,特征的選取直接影響聚類效果。因此,本研究將各特征值與學生成績之間進行關聯性分析,以關聯度作為特征選擇的度量指標,針對關聯性高的標簽進行加權計算合并成新特征刻畫學生畫像。
本研究分別通過線性回歸、決策樹、隨機森林、K最鄰近節點(K-Nearest Neighbor, KNN)以及支持向量機(Support Vector Machine, SVM)算法開展關聯度計算,并針對算法性能進行比較分析,發現隨機森林算法的性能指標MSE值最小,且計算結果的上限、下限差值最小,即算法模型的波動最小,效果最穩定,比較如圖8所示。
采用隨機森林算法計算各特征值與學生成績之間的關聯度,其中,上網時間的特征值與學習成績之間的關聯度最高達到0.388,選擇在不同時間段上網的行為習慣也潛在影響學生學習成績。而語文、數學和英語三門科目的入學成績對學生大學階段的學習也存在一定的影響,其中語文科目的影響度為三科中的最高,達到0.296,其次為數學科目。學生參與公益活動、借閱不同類型的書籍與其學習成績之間也都存在內在聯系,針對學生的專業學科背景,從數據上來看,借閱語言、文化類的圖書對其成績的影響高于其他類型圖書,其次為經濟類圖書。圖9展示了與學習成績之間關聯度最高的八個特征。
5? 學生聚類畫像分析
本研究依據各特征值與學習成績之間的關聯度,采用層次分析法(AHP)在保證特征多樣性的基礎上分析特征的重要度并確定新權重,在盡可能保留特征全的基礎上增加特征之間的差異性。通過基礎模型K-means聚類算法進行中心點選擇的多次算法實驗,最終發現當聚類算法按照K=3進行聚類,得到學生類群的特征差異最顯著,Cluster_0、1、2共計3個聚簇及中心如表2所示,三維聚類圖如圖10所示。
學生畫像實驗結果分析如下:
自律學霸型學生:對應于聚簇Cluster_1,從性別上來看以女生居多,雖入學成績并不突出,但在校期間積極主動學習并嚴格要求自己,閱讀課外書籍的數量、參與公益活動的次數均遠高于其他兩類同學,并且具有較強的自律性,嚴格控制在宿舍里的上網時間,對應的平均學分績點達到三類學生中的最高值3.330 4。
夜貓子上網型學生:對應于聚簇Cluster_0,此類學生以男生居多,相比較而此類學生入校時三科成績最好,雖然也閱讀一定的課外書籍,但因缺乏自律性和主動性,不愿意參與公益活動,而且花費較長的時間上網,尤其是夜間上網時長最長,生活作息不規律,導致其學習成績在入學后產生倒退,反映出網絡對缺乏自制學生的負向影響更大。若后續加強對學生的引導和監督,幫助學生建立自律的學習、生活習慣將對該類學生產生較大的影響。
缺乏規劃型學生:對應于聚簇Cluster_2,此類學生中仍然是女生占比相對較高,從入學成績上來看,該類學生的學分績點為最低,同時,入校后不積極閱讀課外書籍,也不主動參與課外活動,學業要求不高,思想上中規中矩,對人生規劃缺乏思考,沉迷于網絡,學習成績也是三類群體中的最低。因此,可以將此類學生列為重點關注學生群體,針對女生出現兩極分化的現象,可設置一對一幫扶小組,通過教師的關注、引導和監督,幫助該類學生做好人生規劃、樹立學習目標,結合其他同齡人的帶領和幫扶,養成良好的學習和生活習慣,建立一定的學習自信心。
6? 基于學生畫像的學習成績預測分析
本研究以學習成績作為預測目標,分別選取樸素貝葉斯、廣義線性模型、Logistics回歸、決策樹、隨機森林、梯度增強樹和支持向量機等多個算法模型對樣本特征進行預測分析,并對比各模型的性能優劣。其中,Logistics回歸算法的綜合表現更佳,且準確率最高達到0.593,因此,選取該算法構建學習成績預測數據模型。并分別針對不同的學生類群構建學習成績預測數據模型,有針對性的進行學習成績預測分析。
以學生圖書借閱、上網行為、參與公益活動以及開展教學活動四類特征指標為自變量,以統計周期內學習成績的平均學分績點為因變量,對自律學霸類型、夜貓子上網型和缺乏規劃型三類學生的數據建立logistic回歸方程,分別對應表3中的模型1、模型2、模型3。各模型對應的顯著性p值均小于0.05,說明模型構建均具有統計學意義,三個模型對原始學習數據的擬合通過檢驗。根據依次列出模型1、2、3的最大偽R2值分別為0.443、0.362、0.472,這說明模型3和模型1對原始屬性變量變異的解釋程度最好,模型2對原始屬性變量變異的解釋程度一般,可能還存在一部分信息無法解釋,導致模型的擬合程度并未達到優秀。
從各類群預測結果對比上來看:
模型1在預測自律學霸型學生的學分績點在4.0以上的正確率為82%,該模型的整體預測正確率為73.2%,說明自律學霸型的logistic模型預測效果較好。
模型2在預測學分績點1.0以下正確率達到了100%,并且在預測夜貓子上網型學生的學分績點分布的正確率高于模型1和模型3的預測效果。
模型3對缺乏規劃型學生成績的預測正確率高達69.8%,對學分績點1.0以下的數據也實現了較好的預測效果,預測的正確率達到75%,這將為教學管理中的學情預警提供有效的數據支持。
7? 結? 論
在高校校園中,學習和生活是不可分割的兩個部分。借助學生畫像在描述學生不同類群特征上的優勢、學習成績預測在實施教學引導和干預上的價值,提出了基于學生畫像的學習成績預測流程,涵蓋構建標簽體系和數據建模、數據采集與預處理、行為特征與學習成績之間關聯度計算、學生畫像分析與輸出以及實施學習成績預測等步驟。針對學生畫像輸出的自律學霸型、夜貓子上網型和缺乏規劃型三類群學生,深入分析并討論了各類群的學習成績預測效果,為高校開展相應的學情預警工作提供有效的參考信息。今后,還將繼續在更多學習場景中整合學生不同類型的數據,以挖掘學生畫像及學習成績預測的應用潛力,促進個性化教育與現代信息技術的融合創新發展。
參考文獻:
[1] 王宏志,熊風,鄒開發,等.教育大數據分析:方法與探索 [J].中國大學教學,2017(5):53-57.
[2] 杜婧敏,方海光,李維楊,等.教育大數據研究綜述 [J].中國教育信息化,2016(19):1-4.
[3] 李鳳霞,徐玉曉.國際教育大數據研究綜述 [J].軟件導刊:教育技術,2019,18(12):83-85.
[4] KLA?NJA-MILI?EVI? A,IVANOVI? M,BUDIMAC Z. Data science in education:Big data and learning analytics [J].Computer applications in engineering education,2017,25(6):1066-1078.
[5] DARRELL M W. Big Data for education:data mining,data analytics,and web dashboards. Governance studies at brookings [R].Washington:Brookings Institution,2012:1-10.
[6] 卓文秀,楊成,李海琦.大數據與教育智能——第17屆教育技術國際論壇綜述 [J].終身教育研究,2019,30(3):62-67.
[7] 楊長春,徐筱,宦娟,等.基于隨機森林的學生畫像特征選擇方法 [J].計算機工程與設計,2019,40(10):2827-2834.
[8] 郭順利,張宇.基于VALS2的在線健康社區大學生用戶群體畫像構建研究 [J].現代情報,2021,41(10):47-58.
[9] KIU C. Data Mining Analysis On Students Academic Performance Through Exploration Of Students Background And Social Activities [C]//2018 Fourth International Conference on Advances in Computing,Communication & Automation (ICACCA).Subang Jaya:IEEE,2018:1-5.
[10] 張治,劉小龍,徐冰冰,等.基于數字畫像的綜合素質評價:框架、指標、模型與應用 [J].中國電化教育,2021(8):25-33+41.
[11] 薛耀鋒,曾志通,王亞飛,等.面向區域教育治理的學校畫像研究 [J].中國教育信息化,2020(7):67-70.
[12] 葉俊民,羅達雄,陳曙.基于短文本情感增強的在線學習者成績預測方法 [J].自動化學報,2020,46(9):1927-1940.
[13] 蔣卓軒,張巖,李曉明.基于MOOC數據的學習行為分析與預測 [J].計算機研究與發展,2015,52(3):614-628.
作者簡介:唐茜(1988—),女,漢族,湖北松滋人,講師,碩士,研究方向:數據挖掘與分析、供應鏈信息共享。
收稿日期:2022-09-26
基金項目:廣東省教育評估協會2021年度研究課題(21GJYPG10);北京理工大學珠海學院校級教學改革項目(2020009JXGG)