關(guān)鍵詞:智能學業(yè)測評;機器學習;集成學習;在線表現(xiàn)預測模型;虛擬仿真系統(tǒng) 【中圖分類號】G40-057【文獻標識碼】A【論文編號】1009—8097(2025)08—0087—10【DOI】10.3969/j.isn.109-8097.2025.08.009
引言
隨著人工智能技術(shù)的快速發(fā)展和教育信息化的深入推進,傳統(tǒng)的教育評價方式在多維度、全過程的學習表現(xiàn)評估方面逐漸顯露出局限性,難以滿足新時代教育高質(zhì)量發(fā)展的要求。為回應這一挑戰(zhàn),2020年國務院頒布《深化新時代教育評價改革總體方案》,明確指出了現(xiàn)行教育評價體系存在的問題,并強調(diào)信息技術(shù)在提升教育評價科學性、專業(yè)性及客觀性方面的重要性[1]。在此背景下,智能學業(yè)測評作為融合人工智能技術(shù)與教育評價的新興方向,逐漸成為教育領域研究和實踐的焦點。智能學業(yè)測評將人工智能技術(shù)如知識表示與推理、自然語言處理、預測分析、語音處理等引入學業(yè)測評,能夠?qū)崿F(xiàn)對在線學習過程中產(chǎn)生的多維伴生性數(shù)據(jù)的采集、智能識別和評估。此外,依據(jù)智能測評結(jié)果的教學干預能夠為教學提供基于數(shù)據(jù)的有效反饋,從而促進教學方法的改進和學習效果的提升。相比之下,傳統(tǒng)評價方法在信息獲取的維度、評估的全面性上存在顯著不足[2]。然而,盡管智能測評在教學反饋和數(shù)據(jù)處理方面展現(xiàn)出明顯優(yōu)勢,但其背后的建模與預測機制仍面臨諸多挑戰(zhàn),亟需進一步優(yōu)化和拓展。
機器學習憑借其能夠在沒有人為干預的情況下進行自我學習這一優(yōu)勢,被廣泛應用于社會各行業(yè)[3]。隨著技術(shù)的不斷發(fā)展,機器學習中的監(jiān)督學習在教育領域的應用愈發(fā)深入。但基于監(jiān)督學習算法構(gòu)建的模型存在不確定性,大多數(shù)預測結(jié)果與教育教學規(guī)律的關(guān)聯(lián)程度不高,在一些僅使用單一機器學習分類器(用于對輸入數(shù)據(jù)進行類別判斷的模型,如邏輯回歸、決策樹、神經(jīng)網(wǎng)絡和支持向量機等)的研究中,這種不確定性還會進一步放大。針對這一問題,集成學習可以訓練多個同質(zhì)或異質(zhì)集成的機器學習分類器并將其輸出組合在一起,以提升模型的準確率和改進模型的預測性能,其中大部分集成學習方法對基分類器的類型沒有限制,并且對于許多成熟的機器學習框架都具有良好的適用性[5]。由此,利用集成學習方法為在線學生構(gòu)建學習表現(xiàn)的預測模型,成為人工智能助力教育評價改革的關(guān)鍵突破口之一。
為了進一步驗證集成學習方法在智能學業(yè)測評中的適用性與有效性,本研究以學生在線學習行為為研究對象,結(jié)合虛擬仿真測評系統(tǒng)中的練習數(shù)據(jù)與最終測驗數(shù)據(jù),開展學業(yè)表現(xiàn)預測建模實踐。通過篩選出合適的學習表現(xiàn)預測指標,運用集成學習方法來分析和挖掘其中的內(nèi)在規(guī)律并不斷優(yōu)化預測模型,旨在幫助教師發(fā)現(xiàn)教育教學過程中的各種潛在問題,進而為學生在線學習提供個性化的干預和指導。
一文獻綜述
1智能學業(yè)測評研究的發(fā)展
現(xiàn)代學生學業(yè)測評研究的演進可以劃分為測量、描述、判斷與協(xié)商四個階段。早期的學業(yè)測評主要關(guān)注學生學習結(jié)果的量化測定,多以量表或標準化考試作為工具來測定其對知識的掌握程度;第二階段的學業(yè)測評強調(diào)明確描述教育目標與學生學習結(jié)果之間的一致性,評估重心從學生的個體表現(xiàn)轉(zhuǎn)向課程目標的達成情況,即測評由以測量為中心轉(zhuǎn)為以目標描述為中心;第三階段的學業(yè)測評強調(diào)對預定目標本身進行價值判斷與反思,學業(yè)測評也轉(zhuǎn)為以價值判斷為中心;進入第四階段后,學業(yè)測評開始強調(diào)師生共同參與和智能技術(shù)的深度介入,通過動態(tài)調(diào)整評估方式,更全面地關(guān)注學生的發(fā)展過程與個體差異。
智能學業(yè)測評不僅可以實現(xiàn)對學生在真實情境中多維伴生性數(shù)據(jù)的采集,還能對學業(yè)水平及相關(guān)因素進行智能識別。隨著技術(shù)水平的不斷發(fā)展,智能學業(yè)測評的應用日益廣泛,其中在線測試平臺和數(shù)據(jù)分析工具的發(fā)展已成為學業(yè)測評改革的重要內(nèi)容。例如,自適應測試平臺能夠根據(jù)學生在測試過程中的實時表現(xiàn),從題庫中動態(tài)選擇并提供符合其能力水平的題目。在自動化評分技術(shù)和大數(shù)據(jù)技術(shù)的支持下,系統(tǒng)可以為學生提供個性化的反饋信息,從而助力因材施教的實施[7]。此外,借助數(shù)據(jù)分析工具,智能測評系統(tǒng)能夠在測評過程中全面捕獲反映任務表現(xiàn)的相關(guān)信息,實現(xiàn)多維數(shù)據(jù)的采集,從而有效推進結(jié)果性評價與發(fā)展性評價的結(jié)合。例如,歐志剛等8通過構(gòu)建多維注意力混合卷積神經(jīng)網(wǎng)絡模型對國際中文課堂中的教師音頻片段進行教師情感識別和分析,結(jié)果顯示關(guān)懷情感占比最高;巴深等通過電腦的前置攝像頭記錄學生的面部表情,借由人工智能開放平臺來分析學生的學習情緒,以協(xié)助教師掌握課堂情況,并基于分析結(jié)果來改善教學過程。可見,智能學業(yè)測評的發(fā)展能夠有效地支持更加精準的教育決策,促進個性化學習的實現(xiàn),并為教育評價的發(fā)展提供重要的技術(shù)保障。
2學習表現(xiàn)預測相關(guān)研究進展
學習表現(xiàn)預測研究一般含有四個要素,即預測對象、學習情境、學習者及預測建模。其中,學習預測研究的對象聚焦學業(yè)成績,主要有成績分數(shù)和成績等級兩種表現(xiàn)形式,其中絕大多數(shù)研究的預測對象是成績等級。例如,武法提等[10]先計算學生的八次線下考試成績平均分,并根據(jù)全體學生的成績分布,由高到低命名為A到E五個等級,每個等級大致對應前 20% 的學生,用于學習表現(xiàn)預測。成績等級被重點關(guān)注的原因主要是: ① 相對于具體分數(shù),成績等級的提升更為顯著和直觀,基于此教師改進教學的可操作性更強。 ② 很多考試帶有“選拔”“擇優(yōu)”的性質(zhì),成績等級的設置能夠快速實現(xiàn)選拔目的;在教師資格證、英語等級考這類專業(yè)技能類考試中,相較于具體的考試成績,學生更關(guān)注成績是否合格[]。學習情境一般指學習發(fā)生的場景,如傳統(tǒng)學習環(huán)境、在線學習環(huán)境、混合學習環(huán)境。學習者指被預測對象所屬的群體。在預測建模方面,目前利用人工智能和機器學習算法建立模型來預測學生的學習表現(xiàn)成為研究熱點[12]。那么,哪一種機器學習預測模型的性能最優(yōu)呢?一般而言,僅使用單一算法建立預測模型可能會使模型受到數(shù)據(jù)變化的影響,因此有學者開始采用多個機器學習算法來建模,即通過對比各機器學習分類器的預測性能,選擇預測指標表現(xiàn)最優(yōu)的模型作為后續(xù)預測分析的基礎。例如,Lakkaraju等[3]使用了四種機器學習算法預測高中輟學率,發(fā)現(xiàn)隨機森林在多個性能指標上表現(xiàn)最佳。考慮到每個算法有不同的適用范圍,而集成學習可以將多個機器學習分類器進行組合,以實現(xiàn)更好的預測效果。因此,本研究將在根據(jù)預測指標選擇預測性能較好的模型后,使用裝袋、提升和隨機森林三種常用的集成學習方法提升模型的預測準確率,改進模型預測性能。
綜上,本研究嘗試基于一個虛擬仿真測評系統(tǒng)中的練習和考試數(shù)據(jù),通過邏輯回歸、決策樹、神經(jīng)網(wǎng)絡以及支持向量機四種機器學習算法來建立模型,挖掘與學生學業(yè)成績相關(guān)的變量并分析模型的預測效果,并通過集成學習算法提升模型的預測性能。主要涉及以下兩個研究問題: ① 哪些預測指標和學生在線學習表現(xiàn)的相關(guān)性更高? ② 哪種機器學習模型(邏輯回歸、決策樹、神經(jīng)網(wǎng)絡和支持向量機)能夠更準確地預測學生的在線學習表現(xiàn)?
二研究設計
1研究準備
本研究將上海市某高校醫(yī)學影像技術(shù)專業(yè)學生的在線行為作為研究對象。同時,考慮到數(shù)字化放射(Digital Radiography,DR)檢查項目是該專業(yè)學生必須掌握的臨床操作技能,具備較強的實踐性與標準化特征,因此將其作為本研究中學習表現(xiàn)預測的實踐任務載體。本研究為期三個月,共分為練習和考核兩個階段,參與練習階段的學生人數(shù)為552名,而參加最終考核的學生人數(shù)為324名(部分參與練習的學生未參加最終考核)。圖1展示了DR成像虛擬仿真測評系統(tǒng)(平臺)的界面,該系統(tǒng)能夠全面模擬DR 的檢查流程與操作擺位[4]。學生可先在虛擬仿真測評系統(tǒng)上選擇“練習模式”進行操作練習,隨后選擇“考核模式”進行技能考核。本研究收集了學生在系統(tǒng)中的所有練習和考試數(shù)據(jù)記錄,并對其進行了進一步的深入分析。
圖1DR成像虛擬仿真測評系統(tǒng)的界面
2研究過程
在考核開始前三個月,測評系統(tǒng)的練習模式會開放供學生練習。在練習模式下,測評系統(tǒng)為學生提供大量的操作過程與操作內(nèi)容提示,當鼠標懸浮在任務名稱上時,可以觸發(fā)懸浮功能菜單,顯示得分詳情,以此用來幫助修正操作過程。考核時統(tǒng)一使用考核模式,該模式與練習模式有不同的提示規(guī)則和結(jié)果顯示。相較于練習模式,在考核模式下測評系統(tǒng)只提供少量的操作過程提示,并且當鼠標懸浮在任務名稱上時不會顯示得分詳情。無論是在練習模式還是考核模式中,試題均是從系統(tǒng)題庫中隨機抽取。
3模型建構(gòu)過程
本研究的在線學習表現(xiàn)預測模型建構(gòu)過程如圖2所示,具體包括數(shù)據(jù)采集、數(shù)據(jù)處理、預測變量篩選與組合、預測模型構(gòu)建四個階段: ① 數(shù)據(jù)采集包含對練習數(shù)據(jù)以及考試數(shù)據(jù)的收集。 ② 數(shù)據(jù)處理是指對原始數(shù)據(jù)進行數(shù)據(jù)清洗、集成、離散,以初步得到預測變量和被預測變量。 ③ 通過預測變量與被預測變量之間的相關(guān)性、多重共線性,篩選出與最終考核成績關(guān)系最佳的預測變量,構(gòu)建預測變量組合。 ④ 通過邏輯回歸、決策樹、神經(jīng)網(wǎng)絡和支持向量機四個分類算法進行成績預測,在基分類器的基礎上構(gòu)建集成分類器,提升各基分類器的性能。結(jié)合模型評估指標,選擇預測結(jié)果最優(yōu)的模型。
4模型選擇及評估指標
本研究需要學生對設備操作和設備參數(shù)進行精細的控制,不當操作可能會造成嚴重后果,因此考核通過的成績要求較高。在總分為140分的情況下,獲得 90% 的分數(shù),即126分才能夠達到合格標準,頒發(fā)證書。通過數(shù)據(jù)預處理后的指標預測學生的最終考核成績是否大于、等于或小于126分,是一個典型的二分類問題(大于等于126分為1,小于126分為0);同時,鑒于各個算法的機制、側(cè)重點不同,并伴隨著模型誤差的不可避免性,故構(gòu)建多個模型并進行分析比較可以得出最適合于樣本數(shù)據(jù)的模型,使預測結(jié)果更加可信。本研究選擇邏輯回歸(LR)、決策樹(J48)、神經(jīng)網(wǎng)絡(NN)和支持向量機(SVM)四種較為常用的分類算法建立模型,并分別比較各模型的預測性能。
在機器學習中,對于二分類預測模型的預測性能一般會用到以下四類參數(shù):True Negative(真負類,TN)、True Positive(真正類,TP)、False Negative(假負類,F(xiàn)N)、False Positive(假正類,F(xiàn)P)[15]。此外,準確率(Accuracy)能直觀表現(xiàn)模型的預測效果,但僅用準確率判斷模型的預測能力既不準確也不客觀,因此還需關(guān)注其他指標以進行綜合考量,如精確度、召回率、Kappa 值和ROC 曲線下面積AUC 等。
三模型構(gòu)建
1數(shù)據(jù)采集
本研究收集的數(shù)據(jù)分為兩部分,一部分是學生在DR成像虛擬仿真測評系統(tǒng)上的練習數(shù)據(jù),另一部分是學生在虛擬仿真測評系統(tǒng)上的考試數(shù)據(jù)。前者包括來自552名學生的 5607條數(shù)據(jù)(同一名學生可以練習多次),后者包括來自324名學生的在線考試數(shù)據(jù)。除了具體的操作數(shù)據(jù),本研究還收集了學生的練習最高分、練習最低分以及練習分數(shù)信息。
2數(shù)據(jù)處理
(1)缺失值與異常值處理
在此階段,針對缺失值的處理至關(guān)重要,刪除法、替換法和插補法是缺失值的常見處理方法。本研究的樣本數(shù)據(jù)較為特殊,考核一共有22個模塊,每次練習會產(chǎn)生各模塊得分和總分。因此,在找到缺失值后,利用其他模塊的分數(shù)和練習總分,可計算缺失值的原有數(shù)值。此外,此階段還需要進行異常值的處理,在 DR虛擬仿真測評系統(tǒng)上進行練習時,答題時間也會影響到最終的得分,因此本研究對“擺位”和“曝光”兩個模塊設置了時間要求,當超出規(guī)定的時間時,得分會隨著時間的增加而降低,這樣當學生練習時可能會出現(xiàn)負分(一邊練習一邊查閱資料),負分過大就有可能是異常值,造成這種情況的原因可能是學生在練習過程中中途離開。通過數(shù)據(jù)篩選,本研究發(fā)現(xiàn)練習數(shù)據(jù)中有四條異常記錄,如“擺位”的得分分別是-52、-95、-1459和-295。對于該類異常值,本研究使用除異常值外其他記錄的平均分作為替代值。
(2)預測變量與被預測變量的構(gòu)建
在預測變量構(gòu)建階段,本研究的預測變量包含三個維度:首先根據(jù)練習數(shù)據(jù)確定包括練習次數(shù)、練習總時長、練習平均時間在內(nèi)的三個外顯投入指標作為預測變量,體現(xiàn)學生的努力程度[d]。其次,計算每個學生的練習最高分、練習最低分以及練習平均分三個練習表現(xiàn)指標[17]。最后,考慮到考核的每一模塊體現(xiàn)的能力不一,將22個模塊變量通過平均分集成為5個DR成像考核技能。在本次考核中,主要是對學生的計算機操作能力、醫(yī)患交流能力、信息識別能力、簡單情境操作能力、復雜 DR 操作能力進行技能考核,其分類如表1所示。而在被預測變量構(gòu)建階段,本研究將連續(xù)的考核成績根據(jù)設定的合格標準離散為二分類變量。
表1DR成像技能水平分類表
3預測變量篩選與組合
表2是預測變量與考核成績的相關(guān)性分析結(jié)果,可以看出:大部分的預測變量與考核成績存在顯著正相關(guān)。其中,練習平均分、復雜DR操作能力與考核成績的相關(guān)系數(shù)最大( (1=0.36 , plt;0.001 ; r=0.33 , plt; 0.001),練習平均時間與考核成績存在顯著負相關(guān)( ?r=-0.28 , plt;0.001 )。這可能是由以下兩方面原因造成的:首先,在復雜DR操作考核模塊設置了時間要求,超過規(guī)定時間會扣除學生成績;其次,如果學生在每次練習時花費的時間較長,說明其對操作過程不熟悉或是在練習過程中遇到了學習困難,因而無法在最終考核中取得佳績。結(jié)合相關(guān)系數(shù),本研究刪除了3個預測變量,共得到8個預測變量,其中醫(yī)患交流能力、練習最低分這兩個變量與考核成績不存在顯著相關(guān)關(guān)系( ?pgt;0.05 );計算機操作能力與考核成績雖顯著相關(guān),但相關(guān)系數(shù)非常低( 1=0.16 ),故予以剔除。
表2預測變量與考核成績的相關(guān)性分析
注: *plt;0.05 , **plt;0.01 , ***plt;0.001 。
為進一步提升模型的性能,排除變量間線性相關(guān)的影響,本研究計算了預測變量的方差膨脹因子(VIF)。結(jié)果顯示,簡單情景操作能力的VIF接近10(9.15),并與信息識別能力存在高度相關(guān)! (1=0.82 ),這可能是由于,簡單情境操作能力與信息識別能力都關(guān)注學生對放射檢查總流程的熟練程度。此外,信息識別能力與最終考核成績相關(guān)性更高,故選擇剔除簡單情境操作能力,最終篩選了7個預測變量用于建立模型。
綜上,本研究構(gòu)建變量組合預測學生的考核成績:變量組合1融合了練習表現(xiàn)與外顯投入,變量組合2融合了技能水平和外顯投入,變量組合3融合了所有預測變量。考慮到練習表現(xiàn)和技能水平的指標均是由學生的練習成績計算而得,因此本研究中不構(gòu)建“技能水平 + 練習表現(xiàn)”的預測變量組合。
4預測模型效果分析
本研究將三組預測變量依次作為自變量輸入四個分類模型來對學生的考試成績進行預測,得到了初始預測結(jié)果,如表3所示。
表3初始預測結(jié)果
在預測建模的實施操作中,樣本量大于100、檢查和報告多種評估指標、K倍交叉驗證被認為是保證預測算法有效性的重要措施,雖然K值越大,結(jié)果穩(wěn)定性增強,但計算成本也隨之增加,實際應用中 K=10 是平衡計算復雜度與結(jié)果穩(wěn)定性的常用選擇[18]。故本研究采用十折交叉法進行訓練和測試,即把數(shù)據(jù)集分成10份,依次將訓練數(shù)據(jù)和測試數(shù)據(jù)以9:1的比例進行預測,最后取10次結(jié)果的平均值作為模型評估指標。這種方法可以最大化地利用樣本。經(jīng)Rapidminer建模后,本研究得到四種分類模型的預測結(jié)果與相應評估指標,結(jié)果表明:除支持向量機外,其他各分類算法的Kappa值在 0.301~0.404 之間。由于Kappa值在 0.20~0.40 屬于一般一致性,在 0.40~0.60 屬于中等一致性,說明決策樹、邏輯回歸兩個模型的結(jié)果一致性較為良好。其中,邏輯回歸算法建立的模型準確率超過了 80% ,但是AUC略小于神經(jīng)網(wǎng)絡,其他指標都不低于另外三種算法;四種算法中神經(jīng)網(wǎng)絡的建模耗時最長,在綜合比較后邏輯回歸的預測效果最優(yōu)。在上述三個預測變量組合中,組合2取得了最好的預測效果,說明技能水平和外顯投入的組合能夠較好地預測學生的考核成績。
5采用集成學習方法提升模型預測性能
為進一步提升預測效果,本研究以組合2為預測變量,通過Bagging(裝袋)、Boosting(提升)和Random Forest(隨機森林)三種集成學習方法構(gòu)建集成分類器。其中,Bagging通過構(gòu)建若干新數(shù)據(jù)集訓練多個基分類器,核心在于新數(shù)據(jù)集是對原數(shù)據(jù)集進行有放回抽樣的基礎上得到的;Boosting 算法下的每次訓練都使用了所有數(shù)據(jù)集,但訓練集中樣例的權(quán)重會根據(jù)上一次的分類結(jié)果進行調(diào)整;RandomForest是專門為決策樹設計的集成學習算法,其核心思想是通過構(gòu)建多個在特征和樣本上均有差異的決策樹,再以多數(shù)投票(分類問題)或平均值(回歸問題)整合結(jié)果,從而提升模型的穩(wěn)定性與準確率。從整體結(jié)果來看,集成學習方法對單一分類器的性能均有不同程度的提升(如表4所示)。具體來說,在Boosting方法下大部分基分類器表現(xiàn)提升更為顯著,其中神經(jīng)網(wǎng)絡的精確度由0.565提升到0.647;其次是邏輯回歸,在Boosting方法下其精確度提升了2.8個百分點。而支持向量機在集成學習方法下的精確度和AUC都處于比較低的水平,這可能與其算法的運行機制有關(guān)。為篩選出預測性能最佳的模型,還需要綜合評估各模型的指標。
表4集成學習方法提升效果
AUC的值在 0.5~1 之間,數(shù)值越接近1代表預測性能越好。一般認為,AUC值為 0.6~0.75 時區(qū)分能力一般,大于0.75時區(qū)分能力較好。在Boosting下邏輯回歸的準確率(0.812)和AUC(0.773)都處于比較高的水平,并且其他三個指標都較高。故綜合考量下,邏輯回歸在使用了Boosting學習方法后預測性能最佳。
6在線學習表現(xiàn)預測模型構(gòu)建
通過模型性能評估,最終本研究通過提升(Boosting)方法下的邏輯回歸構(gòu)建了在線學習表現(xiàn)預測模型。如圖3所示,該模型收集學生的在線學習行為數(shù)據(jù),通過交叉驗證的方法動態(tài)地劃分訓練集和驗證集,并通過模型未見過的測試集來評估模型的泛化能力,最終得到在線學習表現(xiàn)預測模型。教師可以將學生的練習數(shù)據(jù)輸入模型來觀測學生未來考核成績合格與否,以進行干預和個性化輔導。
圖3在線學習表現(xiàn)預測模型
四總結(jié)與展望
本研究基于虛擬仿真測評系統(tǒng),采集了552名醫(yī)學生在為期三個月的練習階段產(chǎn)生的5607條練習數(shù)據(jù),以及324名學生在考核階段的數(shù)據(jù)記錄。通過對上述數(shù)據(jù)進行整理分類,本研究構(gòu)建了練習表現(xiàn)、外顯投入、技能水平三個預測變量,并運用邏輯回歸、決策樹、神經(jīng)網(wǎng)絡和支持向量機四種經(jīng)典機器學習算法構(gòu)建了學習表現(xiàn)預測模型。相關(guān)性分析結(jié)果表明,練習平均分、復雜DR操作能力以及練習時間這三個預測變量與學習表現(xiàn)之間存在顯著正相關(guān)。通過模型性能評估指標(準確率與召回率)的綜合比較,本研究最終選定邏輯回歸算法作為構(gòu)建表現(xiàn)預測模型的核心算法,并進一步引入集成學習算法優(yōu)化模型性能。
本研究借助虛擬仿真測評系統(tǒng)中的學習行為數(shù)據(jù)構(gòu)建在線學習表現(xiàn)預測模型,為智能學業(yè)測評的理論構(gòu)建與實踐應用提供了創(chuàng)新性思路與新方法。首先,模型通過對技能水平和外顯投入等關(guān)鍵變量的深入挖掘,揭示了影響學業(yè)成績的重要因素,為教師提供了早期預警信號。教師可根據(jù)模型提示,對可能存在學習風險的學生提前實施個性化輔導,如安排針對性的補習、調(diào)整課堂互動方式或提供專門的學習資源。這種數(shù)據(jù)驅(qū)動的干預方式有助于在問題初現(xiàn)時即進行有效干預,降低因?qū)W業(yè)成績下滑而導致的學習風險。其次,模型在揭示單一練習表現(xiàn)局限性的同時,強調(diào)了多維度指標(如技能水平的細分表現(xiàn)和學習投入的具體量化)的重要性,這為傳統(tǒng)實驗教學模式提供了新的評價視角。通過整合更全面的學習行為數(shù)據(jù),教師和教育管理者能夠更精確地了解學生的學習狀態(tài),從而設計出更符合實際需求的教學策略,實現(xiàn)教學資源的最優(yōu)配置。此外,盡管本研究的數(shù)據(jù)僅來自特定的虛擬仿真測評系統(tǒng),但其方法論和關(guān)鍵指標的篩選對于其他教學情境具有較高的借鑒價值。
盡管本研究在智能學業(yè)測評領域取得了一定成果,但仍存在一定的局限性,需要在后續(xù)研究中加以改進與完善。首先,本研究聚焦于特定高校醫(yī)學影像技術(shù)專業(yè)的學生群體,未來研究應擴大樣本規(guī)模,納入更多院校、專業(yè)背景及學科的學生,以增強結(jié)論的普適性和科學性。其次,本研究僅基于虛擬仿真測評系統(tǒng)這一學習情境,未來需在更多學習場景中整合不同在線學習行為數(shù)據(jù),針對各場景特點優(yōu)化在線表現(xiàn)預測模型,并借助智能技術(shù)提升預測精度。此外,本研究還需進一步拓展數(shù)據(jù)范圍,納入課程成績、學生的登錄時間、測試完成次數(shù)、查看和下載資源等后臺數(shù)據(jù),構(gòu)建更全面的數(shù)據(jù)分析框架,精準評估各類指標對學習表現(xiàn)的影響。同時,模型的不確定性和不透明性限制了其可解釋性,未來應整合傳統(tǒng)評估方法優(yōu)勢,增強模型的可解釋性,通過可視化手段展示模型決策過程,讓教師和學生更好地理解并信任這些數(shù)據(jù)驅(qū)動的干預措施。未來研究應將信效度檢驗貫穿于系統(tǒng)開發(fā)與應用全過程,持續(xù)優(yōu)化測評工具,以更好地服務于教育教學改革與發(fā)展。
參考文獻
[1]中共中央辦公廳、國務院.深化新時代教育評價改革總體方案[OL].
[2]鐘葦?shù)?數(shù)據(jù)驅(qū)動的核心素養(yǎng)評價:本源、困境與破局[J].中國電化教育,2022,(12):35-43.
[3]胡航,杜爽,梁佳柔,等.學習績效預測模型構(gòu)建:源于學習行為大數(shù)據(jù)分析[J].中國遠程教育,2021,(4):8-20、76.
[4]PinkwartN.學習分析:當前的挑戰(zhàn)與未來的發(fā)展[J].開放教育研究,2020,(2):42-46.
[5]徐繼偉,楊云.集成學習方法:研究綜述[J].云南大學學報(自然科學版),2018,(6):1082-1092.
[6]陳瑞生.學業(yè)測評理論研究的新趨勢:凸顯育人為本[J].課程·教材·教法,2014,(2):39-46.
[7]郭梓楠,王婉丁,劉嘉.人工智能助力教育評價改革[J].人工智能,2022,(2):126-132.
[8]歐志剛,劉玉屏,李若琳,等.國際中文課堂中的教師語音情感識別研究[J].現(xiàn)代教育技術(shù),2023,(8):87-95.
[9]巴深,劉清堂,吳林靜,等.教育智能體情緒線索對大學生學習情緒與動機的影響研究[J].遠程教育雜志,2021,(6):48-57.
[10]武法提,田浩.挖掘有意義學習行為特征:學習結(jié)果預測框架[J].開放教育研究,2019,(6):75-82.
[11]田浩,武法提.學習分析視域下學習預測研究的發(fā)展圖景[J].現(xiàn)代教育技術(shù),2020,(11):98-104.
[12]Hussain S, Gaftandzhieva S,Maniruzzaman M, et al. Regresion analysis of student academic performance using deeplearning[J]. Education and Information Technologies, 2021,(1):783-798.
[13]Lakaraju H,AguiarE,Shan C,et al.A machine learning framework toidentify students at riskofadverse academicoutcomes[A]. The 21th ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining[C]. New York:2015:1909-1918.
[14]陳珊珊,汪紅志,夏天,等.基于數(shù)字孿生技術(shù)的智能醫(yī)學影像實驗室構(gòu)建及應用[J].實驗技術(shù)與管理,2022,(10):101-107.
[15]Basila C.Good time management and motivation level predict student academic success incollgeon-line courses[J].International Journal of Cyber Behavior, Psychology and Learning (IJCBPL),2014,(3):45-52.
[16]李建偉,蘇占玖,黃贊茹.基于大數(shù)據(jù)學習分析的在線學習風險預測研究[J].現(xiàn)代教育技術(shù),2018,(8):78-84.
[17]尹弘飚.行為觀、心理觀與社會文化觀:大學生學習投入研究的視域轉(zhuǎn)移——兼論中國高校教學質(zhì)量改進[J].華東師范大學學報(教育科學版),2020,(11):1-20.
[18]Poldrack R A,HuckinsG Varoquaux G.Establishmentof best practices for evidence for prediction: Areview[J].JAMAPsychiatry, 2020,(5):534-540.
Research on the Prediction Model of Online Learning Performance: Data Analysis BasedonIntelligentAcademicAssessmentSystem
LENG Jing1 WUZi-Hao1 DU Yang-Lan2 LU Hong-Huan3
(1.Faculty of Education, East China Normal University,Shanghai, China 200062; 2.HighSchoolAfliated to UniversityofShanghai forScienceand Technology,Shanghai,China200093; 3.SchoolofEconomicsandManagement,EastChinaNormal UniversityhanghaiChina20062)
Abstract: The widespread application ofintellgent academic assessment hasdemonstrated significant advantages in teaching feedback and data processing,yet theunderlying modelingand prediction mechanisms stillface numerouschalenges that urgentlyneed furtheroptimizationand expansion.To address this,thepaper first systematicallreviewed the theoretical foundations and technological trajectoriesof intellgent academic assessment andlearning performance prediction,and accordinglydefined theresearch objectives and methodological framework.Then,the paper tookthe practice data of 552 students over athree-month period andthe examination data of324 students as samples to identifyand combine the most relevant predictivevariables forfinalassessmentscores.Subsequently,thefourtypes ofprediction models includinglogistic regression,decision treeneural ntwork,andsupport vector machine wereconstructedand evaluatedbasedontheindicators of acuracyrate,precisiondegree,andAUC.Finallthreeensemblestrategies,suchasBagging,BoostingandRandoorest, were aplied tooptimize the models.It was found thatensemble learning significantly improved the predictive performance, with Boosting yielding the largest enhancement for the neural network, as reflected by an 11.2% increase in precision. The findings demonstratedtheconstructedinteligent predictionmodelexhibitedhighpredictionacuracy,interpretabilityandease of operation,which can provide theoretical support and practical pathways for precise learning diagnosticsand timely instructional interventions.
Keywords: intellgent academic assessment; machine learning; ensemble leaming;online performance prediction model; virtual simulation system
編輯:小時