











[摘 要] 基于學習投入理論,依據學習者在線學習過程中產生的行為數據,采用滯后序列分析法與GSEQ工具進行行為序列分析,利用PSO-BP算法在Matlab編程軟件中構建基于學習行為序列的成績預測模型。實驗結果表明,訓練集與預測集的準確率均大約為80%,基于學習行為序列的成績預測模型具有一定實用意義。
[關鍵詞] 學習行為序列;滯后序列分析;成績預測模型;PSO-BP;學習行為投入
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2024)05—079—009
一、前言
隨著信息技術的高速發展,線上MOOC、超星學習通等線上教學模式逐漸成為一種教學趨勢。在線學習環境下,學習者學習過程產生的眾多數據也為學習分析提供了關鍵依據。EDUCAUSE 將學習分析定義為“使用數據和模型來預測學生的學習進步和行為表現,并能基于數據采取恰當策略”[1]。學習行為分析是學習分析的重要組成部分,通過對學習過程中的相關行為數據進行分析,挖掘出隱藏在行為數據背后的有價值信息[2]。目前關于學習預測的相關研究主要基于學習行為參與度數據,這些粗粒度數據并不能細致地反映出學習者的學習路徑、認知投入水平等,而學習行為序列則能更好地反映出學習者的學習偏好、學習模式、認知水平、投入度等。
當前國內關于學習分析技術的研究主要關注學習行為模式識別、挖掘學習模式與學習效果的關系等。例如,王溢琴通過學習行為序列對優秀群體與中等群體在不同學習階段的學習行為模式的差異進行了研究[3];Yang等人通過滯后序列分析法對高校學生在協同翻譯活動不同階段的學習模式的差異進行了研究[4]。國內外的研究主要集中于學習偏好、學習行為模式、學習行為數據、學習效果或成績預測關鍵技術等方面的研究,對學習行為分析中的行為序列進行分析與實踐研究尚不足,因此本文主要對學習行為序列的分析及成績預測的方法進行研究,構建基于行為序列的成績預測模型,并通過實驗數據進行模型的評價,探索學習者的學習路徑、偏好,為教師教學方案的改善提供參考信息,輔助學生對學習過程進行反思,同時為成績預測模型方向的研究提供新思路。
二、相關理論與概念
(一)學習行為投入理論
早期研究認為,學習投入僅受單因素影響。但隨著對學習投入研究的不斷深入,國內外研究者認識到學習投入需從多維角度去研究,而學習行為投入是學習投入中的重要一環。眾多關于學習行為投入的研究發現其概念的界定主要在時間、學習活動的強度與努力程度三個方面。本研究將學習行為限定于在線學習環境下,學習者與學習平臺的交互過程。王文晶將學習行為投入理論與行為序列聚類結果相結合,研究基于學習序列與成績之間的關聯,幫助學習者建立正確的學習行為模式,進而提高學習效果[5]。杜鑫基于SSLD的數據,利用學習行為序列,探索其與學習效果的相關性,深入理解課程學習過程及學生學習行為投入之間的關聯,進而得到促進學生學業成功的依據[6]。本研究主要依據學習行為投入理論對學習者進行序列特征分析。
(二)學習行為序列
學習行為是學習者在學習過程中產生的一類學習記錄,一般分為線上學習行為與線下學習行為。線下學習行為主要是學習者在課堂學習中發生的肢體、語言、表情等行為;線上學習行為主要是在線學習環境下,學習者在MOOC、SPOC、學習通等平臺上點擊相關課程、訪問資源、線上答題、討論等行為。
學習行為序列是學習者在發生一個行為后繼續發生下一個行為的連續過程產生的序列。本次研究主要是在線學習環境下,對學習行為序列的研究,即在線上學習過程中,學習者在學習通平臺按時間順序從一個模塊點擊進入另一個模塊的路徑,以及在每個模塊停留的時間、留下的足跡等,這些行為鏈即學習行為序列。研究中發現,不同成績等級的學習者在學習過程中會產生不同的學習行為序列,這些行為序列在一定程度上反映了學習者的學習偏好和學習路徑,而行為序列與成績之間具有相關關系?;诖?,將關鍵行為序列作為成績預測的特征向量,構建基于行為序列的成績預測模型。
(三)學習成績預測模型
學習過程產生眾多數據。雖然線上平臺的學習數據便于收集,并隱藏著大量潛在信息,但往往復雜、零散、無序。為解決此問題,研究者通常選擇數據挖掘技術進行數據分析,同時基于數據挖掘,圍繞在線學習數據對學習成績進行預測。例如,黎龍珍基于線上學習數據利用SMOTE過采樣與LightGBM算法進行預測模型的構建與優化,解決了數據不平衡問題對測算精度的影響[7];袁敏構建行為評價體系,分析不同特征學習者的行為差異,利用邏輯回歸與神經網絡對成績進行分類預測,從行為干預模型、平臺管理者及學習者三個視角對學習者進行干預[8]。本研究則基于學生學習行為序列與機器學習方法進行成績預測模型的構建。
三、基于學習行為序列的成績預測模型的構建
(一)方法概述
1. 滯后序列分析流程
滯后序列分析(lag sequential analysis,LSA)是由薩基特提出的,旨在評估序列行為隨著時間變化發生的概率。該方法主要檢驗學習行為顯著性,分析一種行為在另一種行為出現之后所發生概率的顯著性來挖掘學習者的學習行為模式[9]。一般包括如圖1所示的五個步驟。
滯后序列分析利用GSEQ來實現。分析過程中,首先嚴格按照GSEQ軟件的格式要求進行行為編碼并輸入該編碼,再經過系統編譯生成MDS文件,再檢驗行為編碼的一致性,然后進行行為序列分析,得到行為序列轉換頻率與殘差表,最后根據調整后的殘差值(Z-score)篩選出有顯著意義的行為序列,繪制行為轉換圖。
2.行為序列分析
從超星學習通平臺獲取學習者線上學習行為數據并進行行為編碼。利用滯后序列分析方法對學生的行為序列計算其行為序列頻次和調整后的殘差值,依據學習行為投入理論對行為序列進行分析。牟智佳基于學習行為投入理論,將行為序列進一步歸入不同的學習投入方式,根據學習者特征與學習行為投入進行學習行為序列分析[10];張家華基于學習行為投入理論將行為分為操作行為、協作行為、問題解決行為,對干預前后學習者的學習行為序列進行差異性分析[11]。本研究將主要依據張家華的方法。
3.粒子群優化BP神經網絡
BP(back propagation,反向傳播)神經網絡算法本質上是一種具有多層次結構神經網絡的學習方法,其特點是信號向前傳遞,而算法訓練的誤差向后傳遞,在比較誤差和期望值的過程中,對每一層網絡的連接權值及閾值不斷地進行調節,最終使得神經網絡的訓練輸出盡可能地與期望輸出接近,完成神經網絡訓練目的[12]。BP神經網絡結構主要由輸入層、隱含層和輸出層三個部分組成。
粒子群算法(Particle Swarm Optimization,PSO)是基于鳥群捕食活動而演化出來的優化算法。在尋優計算中,通過不斷跟蹤最優解,實現對粒子速度和位置的更新,從而不斷尋求最優解。該算法被廣泛應用于優化問題的求解過程[13]。粒子更新速度與位置的規則如下:
[Vj+1i=ωVji+c1r1pb-Xji+c2r2gb-Xji] (1)
[Xj+1i=Xji+Vj+1i] (2)
其中,[Vji]與[Xji]為第i次迭代時粒子的速度與位置,[ω]為慣性因子,[c1]與[c2]均代表個體學習因子,[r1]與[r2]為[0,1]間的隨機數,[pb]與[gb]代表當前單個粒子與全部粒子的最優位置。
BP神經網絡的各層初始權值和閾值對模型的訓練有很大影響,但其初始權值和閾值又是隨機生成的,會對神經網絡的預測精度產生較大影響[14]。因此本研究主要采用PSO-BP神經網絡算法(粒子群優化BP神經網絡)進行成績預測,將預測的迭代誤差、精確率、召回率、F1分數作為預測模型的評估指標。
(二)基于學習行為序列的成績預測模型設計
許多研究者依據學習行為粗粒度數據,并選擇不同算法構建預測模型。例如,郭濤等人構建PSO-BP神經網絡預測模型挖掘學生行為數據,篩選具有代表性的數據作為神經網絡的輸入,選擇課程成績作為神經網絡的輸出,成績預測效果較好,為提高教學質量提供了新思路[15];江波等人利用特征值,并通過四類機器學習算法,對及格、未及格這兩類學習效果進行預測[16]。本研究在學習行為序列的基礎上,利用機器學習算法構建成績預測模型,預測學習者的成績。主要采用了分類算法中的PSO-BP神經網絡算法,該算法是一種將粒子群優化與反向傳播相結合的訓練算法,集合了PSO和BP兩種算法的優點,可以克服單一算法在神經網絡訓練中的局限性,通過全局優化來提高神經網絡的訓練效率和訓練結果準確性,提高在模式識別、數據挖掘、預測分析等領域的廣泛應用。
如圖2所示,先對獲取的線上行為數據進行行為編碼,再通過滯后分析方法篩選出具顯著性的行為序列,繪制行為序列轉換圖,依據學習行為投入理論進行行為序列分析,再依據PSO-BP神經網絡算法對學生的學習成績進行預測。
(三)基于學習行為序列的成績預測模型評價
PSO-BP神經網絡算法的迭代過程如圖3所示。
圖4的PSO-BP神經網絡算法迭代過程中,粒子群迭代到17次時,適應度值0.14,趨于平穩,收斂性較好。
由于該模型利用PSO-BP神經網絡進行成績的分類預測,所以預測效果的評估主要依據訓練集與測試集預測的最終精確率、召回率、F1分數。如圖6所示,訓練集與預測集的預測精確率均在70%左右,召回率在80%左右,F1分數在70%-80%之間。因此,總體來講,該模型的預測效果具有研究意義。
四、基于學習行為序列的成績預測模型的應用
(一)實驗設計
基于滯后序列分析、相關性分析與神經網絡分類算法等方法,探索以下問題:
1.通過數據挖掘方法挖掘學習通平臺日志數據,探索學習者的行為序列轉換情況,行為序列出現的概率達到顯著性水平的有哪些;
2.探索學習行為序列與課程成績是否顯著相關;
3.基于行為序列構建的成績預測模型能否得到驗證,其準確率如何。
研究以某師范大學一門教育技術學專業課《教學技術與媒體》2022年春季學期學習通平臺記錄的102名學習者的日志數據為樣本。該課程采用線下講授與線上自主學習相結合的學習形式,課程持續6個月,共32學時。該課程利用多媒體平臺開展教學,學生基于學習通平臺的學習活動主要包括學習理論知識、參與交流討論、查閱資料、完成作業、參與測試、查看學習通知等。102名學生在學習通平臺共產生12252條日志數據作為本研究的數據樣本,依據記錄時間、學號、行為等重要字段研究學生的行為序列轉換情況與行為序列特征。
通過Python中的Requests庫、HTML解析庫及正則表達式爬取并解析學習者日志中的學生動作數據,去除偶發動作類型,將21種在學習通平臺的交互動作歸為6種行為,作為行為序列分析的行為數據。依據李爽基于行為序列分析對在線學習參與模式的探索中描述的行為編碼風格,對6種行為進行編碼,編碼內容如下表1所示。
(二)行為序列分析
1. 行為序列總體情況分析
首先對學生在該課程學習過程中產生的所有行為進行頻次統計。如表2行為序列頻次表所示,列表示起始行為,行表示緊接著起始行為后發生的行為,即由列行為跳轉到行行為稱為一個行為序列;表中數字為列行為跳轉到行行為發生的頻次。其中,產生頻次較多的行為序列為文檔學習DL后緊接著進行下一個文檔學習DL,該序列簡稱DLDL,頻次為1348次;作業練習AP后緊接著下一個作業練習AP,序列簡稱APAP,頻次為614次;作業練習AP后緊接著文檔學習DL行為,序列簡稱APDL,頻次為437次。
2. 行為序列轉換分析
基于行為序列頻次,利用滯后序列分析方法,得到調整后的殘差表Z-score,如表3。Z-scoregt;1.96表明該行為序列出現的頻次在統計學上具有顯著意義(plt;0.05)??梢姡?中FDFD從交流討論跳轉到另一個交流討論、VLVL從一個視頻學習跳轉到另一個視頻學習、APCN作業練習后緊接著進行查閱通知等16個行為序列發生的頻次具有顯著意義。
為更加清楚地觀察學生在課程學習過程中發生的行為路徑,依據表3繪制了圖5的行為序列轉換圖。
圖5中各個節點表示各種學習行為,節點之間的連線表示具有顯著意義的行為序列,箭頭表示行為轉換的方向。如圖所示,學生在學習通平臺上發生的行為序列轉換具有多樣性,在6種學習行為中,FD交流討論、VL視頻學習、DL文檔學習、AP作業練習有著更多顯著意義的序列,這些序列包括單向跳轉與雙向跳轉。圖5顯示出學習者具有如下的潛在學習行為習慣、模式、偏好:
(1)在進行一次交流討論后更傾于再進行下一次交流討論,在討論區連續發表或回復其他同學、老師的提問,或者查詢學習通知來了解當前的學習任務;
(2)在視頻學習后更傾向于選擇下一個視頻進行學習,或者進行章節測試;
(3)在文檔學習后更傾向于下一個文檔學習,或者進行章節測試檢測自己的學習效果,或者進行作業練習,完成課程作業;
(4)在作業練習后更傾向于完成下一個練習,或者查詢本章節的學習通知來了解本次學習的具體要求;
(5)在查詢本次學習的相關要求與任務后,更傾向于作業練習或者文檔學習。
(三)成績預測分析與評價
1. 特征選擇
學生成績由平時成績、考試成績、考核成績三部分組成,最終的成績為三部分成績的平均分。在進行各個行為序列與成績的相關性檢驗之前將學生的成績劃分為四個等級:等級4,不及格,小于60分;等級3,及格,大于等于60分且小于70分;等級2,良好,大于等于70分且小于80分;等級1,優秀,大于等于80分。將成績等級與各個行為序列進行獨立樣本檢驗,檢驗結果如下表4所示:表中的列表示行為序列,行表示成績等級;表中的數據為理論頻數,理論頻數越大說明相關性越大??ǚ街禐?9.30,拒絕域臨界值為25.03,卡方值大于臨界值說明對于不同成績等級,學生的行為序列有顯著性差異,plt;0.05說明原假設不成立。行為序列與成績有相關性,由表4可知,DLST文檔學習后緊接著章節測試行為、APAP作業練習后繼續作業練習行為、APDL作業練習后繼續文檔學習等行為序列與成績的相關性最高。由于學生的成績主要集中在良好與及格等級,因此特征選擇主要依據良好、及格的頻數分布情況與具有顯著意義的行為序列進行,最終確定特征為:DLST文檔學習后進行章節測試、APAP作業練習繼續另一個作業練習、DLDL文檔學習后繼續另一個文檔學習、DLAP文檔學習后進行作業練習、CNAP查閱通知后進行作業練習、CNDL查閱通知后進行文檔學習。
2.成績預測分析
通過Matlab利用PSO-BP神經網絡算法進行成績預測。將70%的數據作為訓練集,30%的數據作為測試集,預測的結果如圖6所示。經過數次訓練,第十七輪的預測性能最好,訓練集的準確率在84.32%,測試集的準確率在79.85%,總之在訓練到第十輪時模型準確率最高,誤差最小。
同時,表5顯示,訓練集的準確率均達到80%以上,預測效果較好;而測試集中,成績預測的準確率只有等級1、等級2達到80%以上。總體來看,等級1、等級2的準確率較高,等級3、等級4的準確率仍有提升空間。
五、結語
通過滯后序列分析方法,結合學習行為投入理論對學生整體的行為序列進行轉換與分析,歸納出具有顯著意義的行為序列,利用獨立性卡方檢驗將學生的學習行為序列與成績進行相關性分析,確定影響學生學習成績的關鍵行為序列特征,利用PSO-BP神經網絡算法進行成績分類預測。通過實驗發現,在36個行為序列中存在16種具有顯著意義的行為序列;獨立性卡方檢驗顯示,這些行為序列與成績具有相關性。因此,該模型具有實用意義。
參考文獻:
[1] 菅保霞.基于腦偏好風格的在線學習行為序列差異研究[D].東北師范大學,2019.
[2] 楊現民,王懷波,李冀紅.滯后序列分析法在學習行為分析中的應用[J].中國電化教育,2016,(02):17-23+32.
[3] 王溢琴,齊悅.基于LSA的在線學習行為序列演變分析[J].中國信息技術教育,2022,(08):108-112.
[4] Yang X,Li J,Guo X,et al. Group Interactive Network And Behavioral Patterns In Online English-To-Chinese Cooperative Translation Activity [J]. Internet amp; Higher Education,2015,25:28-36.
[5] 王文晶,閆俊伢.基于學習行為序列的在線學習研究[J].計算機時代,2022,(09):115-118.DOI:10.16644/j.cnki.cn33-1094/tp.2022.09.026.
[6] 杜鑫,陳敏,魏署光.學業成功學生是如何學習的——基于課程學習行為序列的分析[J].高等教育研究,2022,43(02):81-89.
[7] 黎龍珍.基于在線學習行為分析的成績預測模型研究[D].貴州財經大學,2021.DOI:10.27731/d.cnki.ggzcj.2021.000372.
[8] 袁敏.大數據環境下在線學習行為分析及學習成績預測研究[D].上海工程技術大學,2021.DOI:10.27715/d.cnki.gshgj.2021.000262.
[9] Sackett E. Observing Behavior [M] //" Vol.1:Theory And Applications In Mental Retardation. Univ. Park Pr,1978.
[10] 牟智佳,張勤娜,陳思睿.基于行為序列的學習行為模式識別與教學干預[J].現代教育技術,2020,30(05):74-80.
[11] 張家華,繆佳佳,鄒柳聰.學習干預對在線學習者的影響及其學習行為序列差異[J].現代教育技術,2020,30(03):32-38.
[12] 王佑鎂,李寧宇,尹以晴,等.從再現到預測:基于BP神經網絡的中小學生數字閱讀素養評測體系研究[J].電化教育研究,2022,43(08):68-76.DOI:10.13811/j.cnki.eer.2022.08.009.
[13] 張濤,劉晶,胡海波.IPSO-BP神經網絡模型的教學質量評價[J].實驗室研究與探索,2023,42(06):174-178+193.DOI:10.19927/j.cnki.syyt.2023.06.035.
[14] 曾麗芳,李麗萍,江紹萍.基于BP神經網絡的股票價格預測[J/OL].云南民族大學學報(自然科學版):1-11[2023-10-13].http://kns.cnki.net/kcms/detail/53.1192.n.20220706.1638.010.html.
[15] 郭濤,魏勇,熊杰.PSO-BP神經網絡預測模型在智慧課堂中的應用研究[J].計算機時代,2021,(03):52-56.DOI:10.16644/j.cnki.cn33-1094/tp.2021.03.016.
[16] 江波,高明,陳志翰,等.基于行為序列的學習過程分析與學習效果預測[J].現代遠程教育研究,2018,(02):103-112.
Research on the Construction of the Performance Prediction Model Based on the Student Learning Behavior Sequence
Ye Yi1" Xu Xinhua1" Ye Xiaoxiao2" Wang Chenyu1" Lu Yue3
1 School of Computer and Information Engineering,Hubei Normal University,Huangshi,Hubei,435002
2 School of Engineering and Technology,Hubei University of Technology,Wuhan,Hubei,430068
3 Jianghan University,Wuhan,Hubei,430056
Abstract:Based on the learning behavior input theory and learning behavior data generated by learners' online learning,this paper used the lag sequence analysis method and GSEQ tool,constructed the performance prediction model based on the Matlab programming software. The experimental results showed that the accuracy of both training set and prediction set were about 80%,and the performance prediction model based on learning behavior sequence had some practical significance.
Key words:Learning Behavior Sequence,Lag Sequence Analysis,Performance Prediction Model,PSO-BP,Learning Behavior Engagement
(責任編輯:陳暢)