王文晶,閆俊伢
(山西工程科技職業大學信息工程學院,山西 太原 030619)
國際人工智能教育大會2020(AIED),大會主旨將人工智能與教育深度融合,實現“增強智能賦能教育”。Marbouti等(2016)通過挖掘本科生的課堂測驗、考試、作業等,使用樸素貝葉斯、人工神經網絡等組合為一個模型,并對學習成績達到好的預測效果。Leah P.Macfadyen 等對在線生物課程數據進行多元回歸分析、Logistic 分析以及社會網絡分析,開發預警系統。Lily Sun 構建基于學習行為的模型,利用學習成績對學習的效果進行驗證。維也納大學的學者通過搭建在線學習平臺,對平臺產生的學習數據進行分析后,對學生學習效果進行評價。
隨著人工智能的快速發展,如何使用大數據技術對在線學習產生的海量數據進行深度挖掘,對教學效果進行精準測試,是當前智能教育研究的熱點。近幾年,我國將學習分析技術應用于在線學習方面的論文數量呈現上升趨勢。數據挖掘技術采用的模型沒有固定模型,比較多樣化。如陳晉音利用神經網絡的方法分析上線學習行為,對學生的成績進行預測,分析學習行為,得出學習者的學習規律。牟智佳通過學生的學習行為和心理學、教學學理論,構建基于學習行為序列的識別模型,將學習者分類,并進行干預和提出學習策略。通過文獻對國內外情況進行研究對比,從文獻數量上看,2007年之前比較少,2015年以后論文數量逐漸快速增長,表明在線學習行為的研究,不斷受到關注和重視。從文獻學科分布,該學科作為一個交叉研究領域,基于數據挖掘的學習診斷研究受到了教育學、教育信息技術、計算機科學等不同學科的廣泛關注。從關鍵詞高頻度看,通過高頻詞看出“網絡學習行為”和“在線學習/網絡遠程/教育”是學術界關注的焦點,同時反映出網絡學習行為主要研究慕課平臺的自主學習行為。
通過參閱文獻,發現目前在線研究的落腳點基本都是與成績相關的學習行為的數據分析。例如,研究學習者參與線上教學活動地活躍度,相比之下,在線學習行為序列以及行為各要素之間的規律研究較少,并且行為序列更能反映學習者的認知過程。同時,相關研究缺乏通用的框架,忽略學習行為投入的多層次和多維度特點。
本研究用數據挖掘方法探究以下兩個問題:①學習者在自主學習的過程中,分析哪些行為序列與成績為正相關,以期獲得與成績有顯著相關的關鍵序列。②通過對在線學習行為聚類分析,探究不同行為序列的學習者在學習效果上的差異。
收集268 名同學SPOC 平臺和MOOC 平臺中“智能信息處理”和“編譯技術”兩門課程的數據,包括學習者產生或者發布的數據。利用數據處理流水線Logstash 工具,采集學生日常在兩個平臺生成的數據日志,例如課程數據、作業數據、考試數據、觀看教學視頻等,利用Elasticsearch 軟件,對數據進行清洗、抽取。通過交互序列分析軟件GSEQ 工具進行頻次矩陣統計,得到關于學習者數據的231 個行為序列。通過參閱文獻中學習行為分類的方法,同時結合在線學習的特點和學生學習行為的特征,本文將在線學習劃分為四種:訪問課程行為、參與討論行為、學習資源行為、測試學習效果行為。將231 個行為序列分別劃分到四類行為中,如表1所示。

表1 行為序列分類和編碼
通過分析工具SPSS20.0,得到18個課程訪問序列和成績之間的關聯表,具體如表2 所示。CJGW、LYCJ、CJTZ 與成績有顯著的關聯,CJGW、LYCJ 相關系數分別0.567 和0.543,三個學習行為顯著概率均為0.000,表明這兩種行為序列轉換與課程成績有顯著的正相關關聯。學習者在關注自己學習進度的情況下,會針對自己薄弱的環節進行學習,例如再次進行課程學習和參與一些學習主題的討論,對提高學習成績有顯著的作用,學習者在教師授課前,主動對教學內容預習、計劃,這些行為都是積極有效的。CJTZ 學習序列沒有與成績有顯著的關聯,顯著性為0.002,相對查看學習進度頁面后,再進行課件學習,對成績的促進起更重要的作用。

表2 課程訪問行為與成績相關分析
由表3可得出,學習者通過網頁->查看課件資源,與成績的相關系數為0.823,顯著率為0.000,與成績有極高的相關度。通過數據顯示,學習者在課程資源上預習,投入時間和精力,學習成績會更好學習者先查找網絡資源然后參與討論,此序列與成績相關系數為0.712,顯著率為0.000。學習者學習完教師的課件文檔轉至討論發帖,表明學習者對課程的掌握程度以及吸收、轉換知識的程度。CJBC 與課程成績相關系數為-0.415,顯著率為0.000,負相關表明學習者可能在觀看視頻中可能出現拖動進度條或者學習頻次低,或者掛線。其他兩個行為序列與成績為低度相關(0.462和0.456),涉及到共享資源學習和其他序列之間的轉換,反映出學習者學習的多樣性,但學習成績較中等,說明學習者的行為為低層次投入的序列轉換。

表3 資源學習行為序列與成績相關分析
從表4 可看出,三個測試行為序列與學習者成績有低相關度,也反映出學習者在測試之前的行為序列蹤跡。LCBC 行為序列表明,學生在測試之前,通過課件文檔,復習所學內容,然后進行測試,學習效果會得到提升,符合學習者學習規律。BCCJ 行為序列表明學習者測試后對學習進度進行追溯,可看出學習者比較重視學習情況和知識點的掌握程度,間接與成績發生關聯。CJGW 行為序列表明學生在進行測試完成后,發現問題,重新返回查看文檔,這個動作序列被不斷重復,一方面,表明學習成績的導向性導致學習者不斷重復學習資料,另一方面,也表明課件是學習者學習課程的重要資料,也是測試的依據。

表4 學習行為序列與成績相關分析
表5 中可看出,新討論主題->上傳共享資源行為序列與成績相關性最高,說明學習者通過討論方式對知識有更好的理解,循循漸進的學習,對知識有更深的理解,從而進一步發帖,表明對教學知識點的深入掌握,同時也表明對學習有高的積極性和學習動機。LTGW 行為序列與成績相關度為0.006,表明此序列轉換與成績沒有關聯,同時反映出討論參與行為與學習效果是由強的關聯關系。通過研究LTGW 行為序列的學習者參與的討論和發表的主題,基本偏離主體內容,可能是由于學習者缺乏知識的建構和成績導向的引導,導致學習者的參與度較低。

表5 參與行為序列與成績相關分析
由于單變量分析不一定能正確反映學習者的情況,故本文又采用多元線性回歸方法,探討行為序列對學習效果的影響。根據聚類分析結果得到,訪問課程行為參與數(C)、學習行為序列參與數(S)、參與行為序列參與數(I)、學習資源行為參與數(R)四類行為序列特征。通過聚類方法對行為序列特征進行聚類分析,聚類結果為四類,如表6 所示。在聚類分析中,各個行為序列都有顯著性,都為0.000,同時可看出,聚類選取的變量比較合理,但是各個行為序列變量在不同類之間的顯著性有所差別。故在此基礎上,對四類行為序列的參與程度做相關分析,如圖1所示。

表6 聚類結果
圖1為四類學習者參與訪問課程、學習行為、參與行為序列、學習資源四種活動的參與數。學習者參與程度最高的是C活動,參與數最低的I活動,每一類學習者體現到不同的學習行為上的數據也不同,這就體現出學習者在線學習中的個性化、差異化,具體如下:
第一類,學習自主型,共計5人,占總人數3.9%,此類學習者人數占比是最低的,參加C1R1S1I1的均值均高于其他三類,活躍度較高,能夠充分利用在線學習提供的資源來重構知識,主動學習者,有強的自主學習動力,較少依賴教師,有較好的學習習慣。
第二類,游離型,共51人,占總人數39.6%,此類學習者討論參與數高于第三類和第四類學習者,參與行為序列高于平均水平,參加討論活動的積極性較高,參與學習的時長也高于總體平均水平,但參與課程測試、訪問課程資源次數較低,不活躍,所以需要提供給此類學習者學習策略和有效的個性化學習路徑,從而提升學習動機和自身自控能力。
第三類,順應型,學習者的重心放在測試、資源和課程學習上,共21 人,占總數16.1%,從圖1 可看出,此類學習者對資源和課程訪問的序列值相對高,有可能只是跟隨教師進行淺層次的學習,學習積極性較高,但是參與討論行為較少,對此類學習者,應考慮推薦更優質的資源和個性化學習方案。

圖1 各類學習者參與行為序列活動數
第四類,低投入型,共178 人,占總人數40.4%,此類學習者比其他三個類別參與學習序列值低,在平臺中缺乏學習動力,不是很重視成績的高低,只是為了完成教師布置的任務,由于此類人數占比大,所以教師更應關注此類學習者,加強教學設計、注重情境教學,激發其對知識的渴望和學習動力,并實時跟蹤其學習路徑,推薦有效的學習路徑和教學策略。
本文將在線學習行為投入理論與行為序列聚類結果相結合,研究基于學習序列與成績之間的關聯,從而幫助學習者建立正確的學習行為模式,進而提高學習效果。首先使用單一相關分析四類學習行為與成績之間的關聯,然后用多元線性回歸方法,確定四類學習行為中影響學習效果的關鍵行為序列,并分析行為序列變量對學習效果的影響。由于本模型的實驗樣本是建立在兩門計算機專業課程的數據上,選取的學科樣本和年級有一定的局限性,所以收集的數據不能完全反映在線學習的全貌,下一步將增大樣本的數量,進一步完善分析結果。同時采用多種學習分析技術進行對比實驗,遵循個性化偏好和差異,給學習者量身定做有效的個性化學習路徑。