楊高明 方賢進(jìn) 葛斌
摘 要:綜述教育數(shù)據(jù)挖掘和學(xué)習(xí)分析在高等教育中的應(yīng)用,探討計算機(jī)支持的學(xué)習(xí)分析、計算機(jī)支持的預(yù)測分析、計算機(jī)支持的行為分析、計算機(jī)支持的可視化分析的各種學(xué)習(xí)問題以及所使用的數(shù)據(jù)挖掘技術(shù),提出應(yīng)用教育數(shù)據(jù)挖掘和學(xué)習(xí)分析幫助高等院校做出更好決策的方案.
關(guān)鍵詞:教育數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);高等教育;學(xué)習(xí)分析
[中圖分類號]TP309 ? [文獻(xiàn)標(biāo)志碼]A
Abstract:This article reviews the application of educational data mining and learning analysis in higher education.At the same time,we also discuss the various learning problems of computer-supported learning analysis,computer-supported predictive analysis, computer -supported behavior analysis,computer-supported visual analysis,and data mining techniques used.Our purpose is to apply educational data mining and learning analysis to help colleges and universities make better decisions.
Key words:educational data mining;machine learning;higher education;learning analysis
教育數(shù)據(jù)挖掘(Educational data mining,EDM)和學(xué)習(xí)分析(learning analytics,LA)可以連續(xù)收集、處理、報告和處理數(shù)字?jǐn)?shù)據(jù),改善教育過程,重塑現(xiàn)有的教學(xué)模式,為教師和學(xué)生的交互提供新的解決方案和更多個性化、適應(yīng)性和互動性的教育環(huán)境,提高學(xué)習(xí)成果,優(yōu)化機(jī)構(gòu)管理水平,對教師和學(xué)生做綜合評價.教育數(shù)據(jù)挖掘主要解決兩個問題:人們?nèi)绾问褂肊DM和LA解決教育方面的實(shí)際挑戰(zhàn),哪種數(shù)據(jù)挖掘技術(shù)最適合這些問題.本文從技術(shù)角度闡述EDM和LA在高等教育中的最新進(jìn)展,目的是為機(jī)器學(xué)習(xí)領(lǐng)域從事基于數(shù)據(jù)挖掘的同行提供參考.
1 教育數(shù)據(jù)挖掘分類
EDM和LA分為四個方面:計算機(jī)支持的學(xué)習(xí)分析(computer-supported learning analytics,CSLA)、計算機(jī)支持的預(yù)測分析(computer-supported predictive analytics,CSPA)、計算機(jī)支持的行為分析(computer-supported behavioral analytics,CSBA)和計算機(jī)支持的可視化分析(computer-supported visualization analytics,CSVA).CSLA的研究主要集中在使用數(shù)據(jù)統(tǒng)計分析的方法,在課程環(huán)境中分析學(xué)生的信息搜索和協(xié)作學(xué)習(xí)行為.CSPA的研究集中在使用預(yù)測函數(shù)或連續(xù)變量改善學(xué)生的學(xué)習(xí)和表現(xiàn)以及評估學(xué)習(xí)材料的適當(dāng)性.CSBA的研究主要關(guān)注發(fā)現(xiàn)學(xué)生行為和知識模型.CSVA的研究集中在可視化探索數(shù)據(jù)(使用交互式圖表)方法上,從而突出顯示有用的信息并產(chǎn)生準(zhǔn)確的數(shù)據(jù)決策.
協(xié)同學(xué)習(xí) EDM和LA通常用于處理與教學(xué)策略有關(guān)的問題,這些策略可以支持和增強(qiáng)合作學(xué)生之間協(xié)作過程,是衡量協(xié)作有效性的主要指標(biāo),其中學(xué)習(xí)平臺中用戶活動日志被用作推斷學(xué)習(xí)者活動的主要工具,以適應(yīng)特定人群行為和偏好.[1]C.VieiraP[2]研究了EDM對計算機(jī)支持協(xié)作學(xué)習(xí)在會議期間學(xué)生參與的影響,對學(xué)生參與元素做了可視化,并幫助他們在CSCL中更好地進(jìn)行協(xié)作.Cerezo[3]使用慕課數(shù)據(jù)研究學(xué)生與LMS互動模式,以幫助教師更好地了解學(xué)生的各種學(xué)習(xí)特征,從而幫助他們識別有學(xué)習(xí)困難的學(xué)生.
社會網(wǎng)絡(luò)分析 使用EDM和LA可以根據(jù)個人的學(xué)習(xí)活動以及他們在文化和社交環(huán)境中共同建立的關(guān)系進(jìn)行社交網(wǎng)絡(luò)分析,包括發(fā)現(xiàn)學(xué)術(shù)合作、評估社交關(guān)系、推薦學(xué)習(xí)課程等.Duval[4]通過收集用戶行為的數(shù)據(jù)提供有關(guān)學(xué)習(xí)資源和活動的建議.
自學(xué)行為 EDM和LA通過調(diào)查學(xué)生對學(xué)習(xí)資源和自我評估練習(xí)的使用情況及其對他們的表現(xiàn)影響,為在線自我學(xué)習(xí)環(huán)境提供了一個有效解決方案.[5]R.L.Rodrigues[6]根據(jù)學(xué)生解決問題的進(jìn)度來檢查學(xué)習(xí)系統(tǒng)中的自我調(diào)節(jié)學(xué)習(xí)行為.A.Littlejohn[7]運(yùn)用EDM來預(yù)測學(xué)習(xí)者如何根據(jù)目標(biāo)設(shè)定和監(jiān)控活動的證據(jù)將其智力能力轉(zhuǎn)化為學(xué)術(shù)技能.
1.1 計算機(jī)支持的預(yù)測分析(CSPA)
數(shù)據(jù)挖掘通過評估學(xué)習(xí)材料、學(xué)生之間參與的相互作用來增強(qiáng)當(dāng)前的教學(xué)經(jīng)驗,降低學(xué)生的輟學(xué)率和留級率.[8]S. RizviB[9]認(rèn)為,在學(xué)習(xí)環(huán)境中使用數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)大量數(shù)據(jù)中隱藏的知識和模式,并預(yù)測結(jié)果或行為.A.A.Saa[10]認(rèn)為,可以使用EDM和LA發(fā)現(xiàn)知識,幫助教師識別早期輟學(xué)的學(xué)生,并確定需要特別關(guān)注的人.
學(xué)習(xí)資料評估 數(shù)據(jù)挖掘為分析和研究學(xué)習(xí)管理系統(tǒng)數(shù)據(jù)提供了足夠的方式,以提高高等教育的質(zhì)量.T.Devasia[11]認(rèn)為,數(shù)據(jù)挖掘可用于研究影響學(xué)生表現(xiàn)的主要屬性,給學(xué)習(xí)者不同的教學(xué)支持.支持性反饋可以幫助教師了解學(xué)生對授課的反應(yīng),從而評估課程的有效性,幫助課程設(shè)計者、教師和機(jī)構(gòu)進(jìn)行決策.
評估和監(jiān)督學(xué)生的學(xué)習(xí) 學(xué)生的學(xué)習(xí)評估和監(jiān)控實(shí)踐是高等教育的重要方面.學(xué)習(xí)效率考核包括評估和評估過程,這些過程可以幫助學(xué)生、教師、管理人員和高等教育機(jī)構(gòu)的決策者做出決策.當(dāng)代教育可以使用各種數(shù)據(jù)挖掘技術(shù)監(jiān)測學(xué)生的表現(xiàn),提供各種調(diào)查分析方法,發(fā)現(xiàn)教育系統(tǒng)中隱藏的信息,以便生成評分.W.Yaacob[12-13]認(rèn)為,數(shù)據(jù)挖掘可用于識別學(xué)生行為和他們學(xué)習(xí)的方式,發(fā)現(xiàn)不良行為并進(jìn)行學(xué)業(yè)分析,預(yù)測學(xué)生的成績.S.Bharara[14]使用EDM和LA分析學(xué)生的學(xué)習(xí)行為,并警告處于危險狀態(tài)的學(xué)生以免他們中斷學(xué)業(yè).Salas[15]通過分析學(xué)生的行為創(chuàng)建聚類,支持科學(xué)技能的學(xué)習(xí),以增強(qiáng)學(xué)生的科學(xué)能力,并利用從學(xué)生互動中收集的信息為學(xué)生提供必要的幫助,以提高他們的元認(rèn)知能力.
輟學(xué)和留級 慕課為學(xué)生學(xué)習(xí)提供了方便,但退出在線課程的學(xué)生人數(shù)一直在增長,研究人員研究了各種退課的因素,發(fā)現(xiàn)這些因素在各個教育水平上都阻礙了學(xué)生的表現(xiàn).Pradeep[16]使用EDM研究分析了影響學(xué)生學(xué)習(xí)成績的因素,預(yù)測學(xué)生輟學(xué)情況,識別出表現(xiàn)較差的學(xué)生.Cambruzzi[17]發(fā)現(xiàn)學(xué)生的輟學(xué)狀態(tài)具有很高的可預(yù)測性,平均準(zhǔn)確性為87%,使用他們的預(yù)測結(jié)果以后,輟學(xué)率平均降低了11%.
1.2 計算機(jī)支持的行為分析(CSBA)
了解學(xué)生的學(xué)習(xí)行為模式可以更好地服務(wù)教師和學(xué)生,而利用數(shù)據(jù)挖掘技術(shù)可以很容易發(fā)現(xiàn)學(xué)生的行為模式.J.W.You[18]發(fā)現(xiàn),在遠(yuǎn)距離合作時,使用EDM和LA可以改善學(xué)生的學(xué)習(xí)體驗.R F Kizilcec[19]設(shè)計了一個學(xué)生模型,通過結(jié)合有關(guān)學(xué)生的知識、動機(jī)、元認(rèn)知和態(tài)度等信息預(yù)測學(xué)習(xí)過程.C Angeli[20]認(rèn)為,EDM可用于評估學(xué)生在線活動與其最終成績之間的關(guān)系來檢測學(xué)生在網(wǎng)絡(luò)環(huán)境中的不正常行為和活動.
1.3 計算機(jī)支持的可視化分析(CSVA)
教育數(shù)據(jù)可視化可以表示學(xué)生對學(xué)習(xí)任務(wù)的參與,幫助教師更好地了解學(xué)生的在線行為,簡化復(fù)雜數(shù)據(jù),跟蹤在線教育系統(tǒng)中學(xué)生的交互信息.[21]CSVA將信息可視化技術(shù)與數(shù)據(jù)挖掘和知識表示相結(jié)合,提供有關(guān)活動的個人行為可視化分析,以便研究者直觀的觀察研究結(jié)果.[22]O W Adejo[23]認(rèn)為,在高等教育評估系統(tǒng)中使用視覺數(shù)據(jù)挖掘可以使評估方法更靈活、更多樣、更直觀,從而提高學(xué)習(xí)效率.X Du[24]研究了使用EDM從大數(shù)據(jù)集中提取有意義的知識和信息,并使用此信息發(fā)現(xiàn)對高級決策有用的隱藏模式和關(guān)系.
2 數(shù)據(jù)挖掘技術(shù)
2.1 分類
分類技術(shù)可以有效地為學(xué)生提供早期干預(yù),特別是激發(fā)在特定活動或課堂上表現(xiàn)不佳的學(xué)生,并準(zhǔn)確衡量該形式的效率.分類是教育數(shù)據(jù)挖掘中常用的技術(shù),它屬于監(jiān)督學(xué)習(xí),既給定訓(xùn)練數(shù)據(jù),對測試數(shù)據(jù)進(jìn)行預(yù)測.訓(xùn)練數(shù)據(jù)由輸入輸出對組成,訓(xùn)練數(shù)據(jù)通常表示為:
T={(x1,y1),(x2,y2),…,(xN,yN)}.
分類模型首先根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練分類器模型參數(shù),然后根據(jù)測試數(shù)據(jù)對分類器模型參數(shù)進(jìn)行微調(diào),最終成為學(xué)習(xí)過程(學(xué)習(xí)系統(tǒng)).分類模型構(gòu)造好之后,新的預(yù)測數(shù)據(jù)就可以使用該模型進(jìn)行預(yù)測.
分類模型已經(jīng)用于預(yù)測學(xué)生的表現(xiàn)、學(xué)習(xí)成就、知識水平等,也應(yīng)用于預(yù)測/防止學(xué)生輟學(xué)、檢測在線課程/學(xué)習(xí)中有問題學(xué)生的行為上.B K Francis[25]指出,分類技術(shù)可以通過準(zhǔn)確預(yù)測學(xué)生在特定課程中的最終成績,提高高等教育系統(tǒng)的質(zhì)量.分類技術(shù)的目標(biāo)是檢查參與水平,防止學(xué)生退出遠(yuǎn)程學(xué)習(xí)和在線學(xué)習(xí)課程[26];評估學(xué)生對學(xué)習(xí)活動的參與度;持續(xù)評估學(xué)生的學(xué)習(xí)表現(xiàn)[27];識別學(xué)習(xí)積極性不高的學(xué)生;確定學(xué)生是否會完成作業(yè)[28];評估學(xué)生與學(xué)習(xí)材料的互動[29].此外,分類還用于提高學(xué)習(xí)的效率和有效性,為高等教育系統(tǒng)提供一些指導(dǎo),從而改善整個決策過程.可以說分類為決策者提供了更大的靈活性,使他們能夠評估一組學(xué)生的表現(xiàn)和行為,從而確定該組中的每個成員學(xué)習(xí)中如何表現(xiàn)良好,即使他們的特定知識或能力不適合該任務(wù),也可以執(zhí)行該任務(wù).
2.2 聚類和回歸分析
高等教育聚類是學(xué)生分組的有效技術(shù),它可以用來探索協(xié)作學(xué)習(xí)模式并提高保留率,使機(jī)構(gòu)能夠在早期識別出具有學(xué)習(xí)風(fēng)險的學(xué)生.聚類屬于無監(jiān)督學(xué)習(xí),目的是通過得到的類或者簇發(fā)現(xiàn)數(shù)據(jù)的特點(diǎn)或?qū)?shù)據(jù)進(jìn)行處理.聚類的核心是計算數(shù)據(jù)之間的距離.在教育數(shù)據(jù)挖掘領(lǐng)域使用聚類主要是為了支持學(xué)生在不同學(xué)習(xí)情況下的互動[30],向相似的用戶推薦活動和資源,根據(jù)訪問頁面的內(nèi)容和學(xué)習(xí)特征找到具有相似學(xué)習(xí)特征的學(xué)生群體,幫助教育決策者盡早發(fā)現(xiàn)潛在的輟學(xué)者,并解決將新學(xué)生分配到他們不感興趣的課程的問題.此外,聚類可以使教育者從LMS日志中預(yù)測學(xué)生的學(xué)習(xí)結(jié)果,識別不良的學(xué)生行為,并通過監(jiān)視學(xué)生之間的集體互動,支持教師評估學(xué)生建模合作過程的學(xué)習(xí)狀況.該技術(shù)還被用于支持學(xué)生掌握各種科學(xué)技能[31],發(fā)現(xiàn)常見的學(xué)習(xí)途徑,了解學(xué)生之間的協(xié)作過程.
回歸可以有效地用于預(yù)測,EDM研究人員經(jīng)常運(yùn)用幾種回歸技術(shù)來預(yù)測學(xué)生的學(xué)習(xí)成績,并確定可以預(yù)測大學(xué)課程成敗的變量.
3 結(jié)果與討論
本文綜述了EDM和LA在高等教育中的應(yīng)用,探討CSLA,CSPA,CABA和CSVA的各種學(xué)習(xí)問題以及所使用的數(shù)據(jù)挖掘技術(shù).EDM/LA的應(yīng)用可以帶來巨大的好處,可以幫助高等教育機(jī)構(gòu)開發(fā)更多以學(xué)生為中心的課程,實(shí)時預(yù)測學(xué)生的學(xué)習(xí)狀態(tài),推薦合適的課程.
數(shù)據(jù)挖掘技術(shù)可以使高等院校做出更好的決策,在指導(dǎo)學(xué)生更準(zhǔn)確地預(yù)測未來和個人行為時提供更高級的計劃,并使高等院校更有效地分配資源和人員.使用EDM和LA可以改善學(xué)生的學(xué)習(xí)體會、學(xué)習(xí)成果、發(fā)現(xiàn)模式,預(yù)測學(xué)生的行為和成就.
CSPA通常使用不同的數(shù)據(jù)挖掘技術(shù)評估在線學(xué)習(xí)材料,根據(jù)學(xué)生的最終成績來監(jiān)控學(xué)生的表現(xiàn).分類是解決CSPA問題最常用的技術(shù),其次是聚類.分類和預(yù)測都被用來形成用于促進(jìn)某些學(xué)習(xí)任務(wù)的學(xué)習(xí)模型;聚類技術(shù)可以基于學(xué)生的互動和學(xué)習(xí)困難的模式對學(xué)生進(jìn)行分組來識別類似班級的對象,發(fā)現(xiàn)常見學(xué)習(xí)途徑及不良的學(xué)生行為;可視化和統(tǒng)計技術(shù)可以提供學(xué)生學(xué)習(xí)的總體視圖,突出有用的信息并支持整個決策過程.
CSBA主要關(guān)注使用EDM和LA使大學(xué)能夠發(fā)現(xiàn)大型數(shù)據(jù)庫中的隱藏模式,并以高準(zhǔn)確度構(gòu)建模型,為設(shè)計在線課程提供有效的解決方案.聚類是解決與CSBA相關(guān)學(xué)習(xí)問題的最常用技術(shù),它可以有效地識別與學(xué)生學(xué)習(xí)風(fēng)格有關(guān)的隱藏模式,并發(fā)現(xiàn)不良的學(xué)生行為.分類技術(shù)是第二常用的技術(shù),主要用于構(gòu)建和發(fā)展學(xué)生表現(xiàn)的預(yù)測模型.再次是關(guān)聯(lián)規(guī)則挖掘和可視化.相關(guān)挖掘、因果數(shù)據(jù)挖掘和離群值檢測使用最少.
CSVA使用不同類型概念圖表示已知/未知概念,表示學(xué)生的知識水平以及幫助解決數(shù)據(jù)表示問題.視覺數(shù)據(jù)挖掘技術(shù)使用較廣泛,用于發(fā)現(xiàn)先前未知和隱藏的信息以及數(shù)據(jù)中的模式.使用可視化技術(shù)可以提供數(shù)據(jù)的全面視圖,以圖形方式呈現(xiàn)LMS/CMS收集的復(fù)雜學(xué)生跟蹤數(shù)據(jù),識別有趣的子集.這些結(jié)果可以揭示有價值的信息以及隱藏的見解、關(guān)聯(lián)或關(guān)系,用來促進(jìn)對學(xué)生在不同學(xué)習(xí)環(huán)境中的互動更深入了解,使決策者和系統(tǒng)開發(fā)人員能夠有效地重新設(shè)計學(xué)習(xí)機(jī)會和課程.
參考文獻(xiàn)
[1]Kurilovas E.Advanced machine learning approaches to personalise learning:learning analytics and decision making[J].Behaviour & Information Technology,2019,38(4):410-421.
[2]Vieira C,Parsons P,Byrd V.Visual learning analytics of educational data:A systematic literature review and research agenda[J].Computers & Education,2018,122:119-135.
[3]Cerezo R,Sánchez-Santillán M,Paule-Ruiz M P,et al.Students' LMS interaction patterns and their relationship with achievement:A case study in higher education[J].Computers & Education,2016,96:42-54.
[4]Slater S,Joksimovi' S,Kovanovic V,et al.Tools for educational data mining:A review[J].Journal of Educational and Behavioral Statistics,2017,42(1):85-106.
[5]楊文君.數(shù)據(jù)挖掘在教學(xué)中的應(yīng)用分析[J].牡丹江師范學(xué)院學(xué)報:自然科學(xué)版,2005(3):29-30.
[6]Rodrigues R,Ramos J,Silva J,et al.Forecasting students' performance through self-regulated learning behavioral analysis[J].International Journal of Distance Education Technologies,2019,17(3):52-74.
[7]Littlejohn A,Hood N,Milligan C,et al.Learning in MOOCs:Motivations and self-regulated learning in MOOCs[J].The Internet and Higher Education,2016,29:40-48.
[8]楊曉華.數(shù)學(xué)分析合作性學(xué)習(xí)的要素和作用[J].牡丹江師范學(xué)院學(xué)報:自然科學(xué)版,2009(3):64-65.
[9]Rizvi S,Rienties B,Khoja S.The role of demographics in online learning;A decision tree based approach[J].Computers & Education,2019,137:32-47.
[10]Saa A.Educational data mining & students' performance prediction[J].International Journal of Advanced Computer Science and Applications,2016,7(5):212-220.
[11]Devasia T,Vinushree T,Hegde V.Prediction of students performance using Educational Data Mining[C].2016 International Conference on Data Mining and Advanced Computing (SAPIENCE),2016:91-95.
[12]Dutt A,Ismail M,Herawan T.A systematic review on educational data mining[J].IEEE Access,2017(5):15991-16005.
[13]Yaacob W,Nasir S,Yaacob W,et al.Supervised data mining approach for predicting student performance[J].Indonesian Journal of Electrical Engineering and Computer Science,2019,16(3):1584-1592.
[14]Bharara S,Sabitha S,Bansal A.Application of learning analytics using clustering data Mining for Students' disposition analysis[J].Education and Information Technologies,2018,23(2):957-984.
[15]Salas D,Baldiris S,F(xiàn)abregat R,et al.Supporting the acquisition of scientific skills by the use of learning analytics[C].International Conference on Web-Based Learning,2016:281-293.
[16]Pradeep A,Das S,Kizhekkethottam J.Students dropout factor prediction using EDM techniques[C].2015 International Conference on Soft-Computing and Networks Security (ICSNS),2015:1-7.
[17]Cambruzzi W,Rigo S, Barbosa J.Dropout prediction and reduction in distance education courses with the learning analytics multitrail approach[J].Journal of Universal Computer Science,2015,21(1):23-47.
[18]You J.Identifying significant indicators using LMS data to predict course achievement in online learning[J].The Internet and Higher Education,2016,29:23-30.
[19]Kizilcec R,Pérez-Sanagustín M,Maldonado J J.Self-regulated learning strategies predict learner behavior and goal attainment in Massive Open Online Courses[J].Computers & Education,2017,104:18-33.
[20]Angeli C,Howard S,Ma J,et al.Data mining in educational technology classroom research: Can it make a contribution?[J].Computers & Education,2017,113:226-242.
[21]Noroozi O,Alikhani I,Ja··rvela··S,et al.Multimodal data to design visual learning analytics for understanding regulation of learning[J].Computers in Human Behavior,2019,100:298-304.
[22]Rodrigues M,Isotani S,Zárate L E. Educational data mining:A review of evaluation process in the e-learning[J].Telematics and Informatics,2018,35(6):1701-1717.
[23]Adejo O,Connolly T.Predicting student academic performance using multi-model heterogeneous ensemble approach[J].Journal of Applied Research in Higher Education,2018,10(1):61-75.
[24]Du X,Yang J,Shelton B,et al.A systematic meta-review and analysis of learning analytics research[J].Behaviour & Information Technology,2019(9):1-14.
[25]Francis B,Babu S.Predicting academic performance of students using a hybrid data mining approach[J].Journal of Medical Systems,2019,43(6):162.
[26]Burgos C,Campanario M,Pena D,et al.Data mining for modeling students' performance:A tutoring action plan to prevent academic dropout[J].Computers & Electrical Engineering,2018,66:541-556.
[27]Rawat K,Malhan I.A hybrid classification method based on machine learning classifiers to predict performance in educational data mining[C].Proceedings of 2nd International Conference on Communication,Computing and Networking,2019:677-684.
[28]Dra︿gulescu B, Bucos M,Vasiu R.Predicting assignment submissions in a multi-class classification problem[J].TEM Journal,2015,4(3):244.
[29]Paiva R,Bittencourt I I,Tenório T,et al.What do students do on-line?Modeling students' interactions to improve their learning experience[J].Computers in Human Behavior,2016,64:769-781.
[30]Ramanathan L,Parthasarathy G,Vijayakumar K,et al.Cluster-based distributed architecture for prediction of student's performance in higher education[J].Cluster Computing,2019,22(1):1329-1344.
[31]Salas D J,Baldiris S,F(xiàn)abregat R,et al.Supporting the acquisition of scientific skills by the use of learning analytics[C].International Conference on Web-Based Learning,2016:281-293.
編輯:琳莉