999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識點表征強化的知識追蹤模型

2025-03-09 00:00:00張凱張慧玲王澤琛王雪方洋洋
計算機應用研究 2025年1期

摘 要:知識追蹤模型主要使用監督學習范式建模給定題目信息條件下的作答結果概率分布,無法根據新的題目信息即時調整模型,最終影響了預測效果。針對這一問題,融合強化學習范式,提出知識點表征強化的知識追蹤模型,主要包括基礎網絡、價值網絡和策略網絡三個部分。基礎網絡建模題目與知識點表征,價值網絡計算題目價值及時間差分誤差,策略網絡優化預測結果。通過五個基線模型在三個數據集上的實驗表明,該模型在AUC和ACC上表現優異,特別是在ASSISTments2009數據集上,AUC提升6.83%~14.34%,ACC提升11.39%~19.74%。進一步地,該模型表示質量較基線模型提高2.59%,還通過消融實驗驗證了強化學習框架的有效性。最后,將所提模型應用于三門真實課程的學習行為數據以預測學習者的表現,與基線模型的對比結果說明了所提模型在實際場景中的可用性。

關鍵詞:知識追蹤;知識點;圖神經網絡;強化學習

中圖分類號:TP183"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-012-0086-07

doi: 10.19734/j.issn.1001-3695.2024.06.0196

Knowledge tracing via reinforcement of concept representation

Abstract: Knowledge tracing models mainly use supervised learning paradigm to model the probability distribution of answers given the question information, which cannot adjust the model immediately based on new question information, ultimately affecting the prediction performance. To address this issue, this paper proposed a knowledge tracing model with enhanced knowledge representation by integrating reinforcement learning paradigm, which mainly consisted of three parts: a basic network, a value network, and a policy network. The basic network modeled the representation of questions and knowledge points, the value network calculated the value of questions and the temporal difference error, and the policy network optimized the prediction results. Experiments conducted with five baseline models on three datasets demonstrate that the proposed model excels in terms of AUC and ACC, especially on the ASSISTments2009 dataset, where AUC is improved by 6.83%~14.34% and ACC by 11.39%~19.74%. Furthermore, the quality of model representation is improved by 2.59% compared to baseline mo-dels, and ablation experiments confirm the effectiveness of the reinforcement learning framework. Finally, applying the proposed model to learning behavior data from three real courses shows its practical usability, as evidenced by its performance compared to baseline models.

Key words:knowledge tracing; knowledge point; graph neural network; reinforcement learning

0 引言

知識追蹤模型一般作為智能導學系統或教育大模型的組成部分,根據給出的擬作答的題目,建模給定題目信息條件下學習者作答結果的條件概率分布,從分布中采樣來預測學習者的未來表現。智能導學主要向學習者提供題目,并收集學習者的實時交互數據。知識追蹤主要利用上述交互數據建模學習者的知識狀態,并向智能導學反饋學習者未來的學習表現。 這種緊密的互動機制使得智能導學系統能夠為知識追蹤模型提供持續更新的訓練數據,而知識追蹤模型的預測結果又可以反過來為智能導學系統的決策提供支持,例如個性化教學資源的生成,從而顯著提升教學效果。

在深度應用的智慧學習環境中,如國家智慧教育公共服務平臺、學堂在線、edX、Coursera等,以及在備受關注的教育大模型中,如EmoGPT、MathGPT、Khanmigo等,知識追蹤模型均承擔判斷學習者知識狀態、預測學習者未來表現的作用,并為下游任務,如個性化教學資源生成和推薦等功能,提供有效的支撐和依據[1~6]。

當前的知識追蹤研究發展勢頭總體較好,但仍然存在若干問題與挑戰。其中,當前研究普遍利用監督學習范式訓練知識追蹤模型。嚴格來說,該范式得到的條件概率分布來源于訓練數據中的題目信息,忽視了訓練數據之外,知識追蹤模型與智能導學系統或教育大模型實時交互期間的題目信息的動態變化。而知識追蹤模型使用訓練數據范圍內建模的概率分布,預測實時交互期間的學習者未來表現,由于題目數據無法保證滿足獨立同分布假設,所以這種預測的效果受到了較大的制約。

針對上述問題,本文提出了一個知識點表征強化的知識追蹤模型(knowledge tracing via reinforcement of concept representation, KT-RCR),將強化學習范式引入知識追蹤,將智能導學作為強化學習中的環境,將智能導學提供的題目作為環境的狀態,將知識追蹤作為強化學習中的智能體,將知識追蹤的預測結果與學習者實際表現的一致性作為獎勵。建模知識追蹤模型與智能導學系統的實時交互,根據智能導學系統給出的每一時間步的獎勵,完成對給定題目信息條件下作答結果概率分布的動態建模,優化各個時間步的預測結果。通過引入強化學習,KT-RCR模型能夠根據智能導學系統在每個時間步的獎勵,動態調整和優化知識狀態表示,從而更好地應對題目數據的動態變化和非獨立同分布問題,提高知識追蹤的預測準確性。

本文主要的創新有:

a)利用強化學習框架,建模知識追蹤模型與智能導學系統的交互過程,根據智能導學系統在每個時間步的獎勵,優化知識追蹤模型,提高知識追蹤的預測準確性;

b)搭建適配強化學習范式的智能導學系統,通過對比實驗驗證強化學習在知識追蹤模型中的有效性和魯棒性。通過將模型應用于實際教學環境預測學習者的表現,進一步展示了提出模型的可用性。

1 相關工作

知識追蹤模型建模了給定題目信息條件下學習者作答結果的條件概率分布。具體地,根據所用的模型,當前的研究可分為使用循環網絡、使用注意力機制和使用圖神經網絡三類。

1.1 使用循環網絡建模作答結果的條件概率

這類研究一般首先對題目進行表示,再將上述表示按時間順序先后輸入循環網絡,將歷史信息融入當前時刻的題目表示,建模給定當前時刻題目信息的條件下作答結果的條件概率分布,最終采樣得到學習者的未來表現預測。這類研究的主要特點在于利用知識點、學習行為等不同信息增強對題目的表征。

這方面的具體工作主要包括,DKT模型[7]是使用深度模型建模知識追蹤的開創性工作,基于循環網絡架構將歷史題目信息融入當前題目表征,未加入其他信息。DKVMN[8]建立鍵值矩陣存儲全局知識點及其狀態,將題目映射為全局知識點狀態的權重表示,從而建模作答結果的條件概率。KTSA-BiGRU[9] 和DKP[10]通過雙向循環網絡捕獲歷史答題序列特征,增強當前題目的表征。DKTDM[11]使用若干學習行為的特征增強題目表征。KTCR[12]使用Q矩陣將題目映射為知識點,再將正確率等上下文信息融入知識點的表示,實現對題目信息的增強。EKT[13]提取題目的語義特征,與知識點表征矩陣,更加充分地表示題目中包含的知識點。LFKT[14]使用注意力機制建模題目中的知識點表示,又加入了遺忘機制作用各個知識點,增強題目的表征。KTR[15]使用可靠性增強題目的表示。FKA-DKT[16]建模能力向量與知識向量融合,增強題目表征。這類研究在增強題目表征的基礎上,利用循環網絡,使用歷史信息增強當前信息,從而預測給定題目信息條件下學習者作答結果的條件概率分布。

1.2 使用注意力機制建模作答結果的條件概率

這類研究一般首先建立題目與知識點的關系,利用知識點來表示題目,再對全局知識點施加注意力機制,將全局知識點信息根據權重系數融入當前時刻的題目表示,建模給定當前時刻題目信息的條件下作答結果的條件概率分布,最終采樣得到學習者的未來表現預測。

這方面的具體工作主要包括,SAKT[17]首次將自注意力機制引入解決題目數據稀疏的問題。TCKT[18]使用因果注意力機制增強表示目標知識點,以獲取知識點的一致性表示,表示當前題目。RFKT[19]使用相關性表示知識點,使用注意力機制建模知識點的演化過程,來對題目進行增強表征。MCAKT[20]使用Transformer架構建模目標知識點,其中的多頭注意力和位置編碼減少了歷史知識點對目標知識點建模表示的長期依賴問題,更加精確地表示題目。SAINT[21]使用Transformer架構將題目與作答結果分別作為編碼器和解碼器的輸入,能夠捕獲復雜的題目與作答結果的關系。這類研究利用注意力機制,使用加權的全局信息增強表示當前題目,從而預測給定當前題目信息條件下學習者作答結果的條件概率分布。

1.3 使用圖神經網絡建模作答結果的條件概率

這類研究的主要特點在于將題目分解為若干知識點,通過圖神經網絡對知識點的更新來增強題目的表征,最終獲取給定題目信息條件下作答結果的條件概率。

QFEKT[22]將題目信息映射為若干知識點,通過圖卷積神經網絡(GCN)結合對比學習的方式聚合目標知識點的鄰居信息,從而增強題目表示。Bi-CLKT[23]在知識點級別和圖級別分別應用GCN,再通過對比學習來增強知識點的表示。DGMN[24]使用矩陣存儲知識點表示,建立了潛在概念圖表示知識點之間的關系,使用圖卷積網絡捕捉知識點之間的關系。GAKT-IRT模型[25]在此基礎上作出了改進,引入了圖注意力機制(GAT),在GCN的基礎了引入了注意力機制,能夠注意到鄰居節點對中心節點的影響程度,并為鄰居節點分配不同的權重。SPKT[26]基于GAT網絡,采用多頭注意力機制聚合異質節點的鄰域信息,并通過全連接網絡將異質鄰居特征與中心節點屬性相融合,以此來表征知識點。TSKT[27]使用GAT網絡,結合了時間信息和空間信息來表征知識點。GKT模型[28]使用圖結構表示知識點,并利用神經網絡聚合和更新操作建模知識點的表示,GIKT[29]、GKT-FM[30]使用了同樣的方法。DKTMR[31]通過圖生成對抗網絡實現了對知識點的多關系表征。GAKT[32]建立題目與知識點組成的二分圖,使用GAT更新知識點的表示。DGEKT[33]利用超圖和有向圖的雙圖結構捕獲題目與知識點的關聯關系,增強題目與知識點的表示。這類研究利用圖神經網絡,使用鄰域信息增強當前知識點的表示,通過匯聚相關知識點得到當前題目的增強表示,從而建模作答結果在當前題目條件下的概率分布。

上述研究從多種角度建模給定題目條件下的作答結果概率分布,取得了較好的結果。然而它們受限于監督學習范式,訓練得到的條件概率已固定,無法根據實時交互進行自適應調整。為了解決這一問題,提出模型利用強化學習框架,增強建模的條件概率分布的自適應性。

2 知識點表征強化的知識追蹤模型

2.1 模型提出的思想

當前研究一般默認知識追蹤模型與智能導學系統互相交互,智能導學系統為知識追蹤模型提供諸如當前時刻練習題目、歷史練習題目及作答結果等各類數據。 知識追蹤模型基于這些數據,使用多種方法增強知識點的表示,從而建模作答結果在題目信息約束下的概率分布,已取得了較好的結果。然而,在與智能導學系統的交互方面,現存模型在自適應題目數據分布的動態變化方面仍然存在較大挑戰。具體地,目前的知識追蹤模型在完成訓練后就建模了靜態的分布,當題目信息發生動態變化時,模型的預測效果必然下降。

為了使知識追蹤模型具備建模動態概率分布的能力,利用強化學習范式,假設智能導學系統為知識追蹤模型所在的環境,智能導學系統提供的各類數據為狀態,提出的知識點表征強化的知識追蹤模型KT-RCR為智能體, KT-RCR給出的動作是預測學習者會作答正確還是錯誤。智能導學系統根據KT-RCR的動作對其進行獎勵,驅動KT-RCR調整動作以預測得更加準確,得到更大的獎勵。

2.2 問題的提出

智能導學系統為知識追蹤模型提供學習者練習的題目,具體定義如下:

智能導學系統根據KT-RCR的預測結果與學習者實際答題結果的一致性給出獎勵,兩者相同時獎勵值為1,兩者不同時獎勵值為0。具體地,t時刻的獎勵值記為Rt,如下:

其中:yt是t時刻真實的學習者作答結果,yt∈{0,1},0表示學習者作答錯誤,1表示學習者作答正確。設置折扣系數γ∈[0,1]。在折扣系數γ作用下,從當前時刻開始,未來折扣獎勵之和,記為折扣回報Gt,如下:

其中:Gt表示從t時刻開始的未來折扣獎勵之和。

策略網絡記為π(a|s;θ),在已知當前狀態st條件下,根據時間差分誤差δt,優化知識追蹤模型的動作輸出,使得預測的學習者動作趨向環境給出的獎勵最大值。

本文模型的目標是,策略網絡基于狀態st作出動作,即預測學習者會作答正確或錯誤;得到智能導學系統的獎勵Rt和下一時刻的狀態st+1;根據價值網絡計算出TD誤差δt;策略網絡根據TD誤差判斷動作的優劣并優化參數改進自身,使預測的學習者作答表現與真實的學習者表現一致性更好,即下一時刻預測的學習者作答表現得到的獎勵更大,如下:

θt+1=θt-β×δt×Δθlnπ(at|st;θt)(4)

其中:β為策略網絡的學習率;π(at|st;θt)也可視為知識追蹤模型建模給出當前題目條件下學習者作答結果的概率分布;θt、θt+1則表示相鄰時間步上述分布的動態變化。這也是提出的模型自適應建模條件概率分布動態變化的過程。

2.3 模型架構

模型框架如圖1所示。

提出的模型主要包括三個網絡,協同完成與智能導學系統的交互:a)基礎網絡,由策略網絡與價值網絡共享,該網絡在建立學習者知識點表示圖的基礎上,接收智能導學系統給出的狀態信息st=qt,建模狀態對知識點表示圖的作用和影響,在知識點表示圖上經過信息傳遞、信息聚合、迭代傳播和圖嵌入等步驟,得到學習者的知識表示嵌入向量;b)價值網絡,以知識點表示圖的嵌入向量和環境給出的當前獎勵Rt為輸入,使該網絡獲得的狀態值逐步收斂于環境給出的獎勵,并向策略網絡輸出狀態價值的TD誤差;c)策略網絡,以知識表示圖的嵌入向量和當前狀態價值的TD誤差為輸入,經過全連接和softmax激活函數,輸出知識追蹤模型的動作概率。

2.4 基礎網絡

2.4.1 知識點表示圖

2.4.2 知識點表示圖的嵌入

a)題目增強。學習者練習題目qt的過程中,其知識點表示圖會受到題目的作用發生演化。使用注意力機制建模上述過程,具體如下:

其中:Euclid Math OneNApz是目標知識點z的鄰居知識點集合;h(l)z′是知識點z′在第l層的表示;h(l)z是目標知識點z在第l層的表示;MSG(·,·)是信息傳遞函數,這里可以選擇MLP等。

c)信息聚合。目標知識點z聚合表示如下:

h(l+1)z=AGG(h(l)z,m(l+1)z)(8)

其中:m(l+1)z是目標知識點z的鄰居傳遞來的信息;h(l)z是目標知識點z本身的表示;h(l+1)z是知識點z在l+1層的表示;AGG(·,·)可以選擇均值、求和等函數。

d)迭代傳播。L輪迭代傳播后,最終目標知識點z的表示經過一個池化函數R0得到蘊涵子圖的表示:

hz=R0({h(L)z|z∈C})(9)

其中:h(L)z為目標知識點z在最終層的表示;R0是readout函數,可以選擇均值、求和等函數。

e)圖嵌入。經過一個讀出函數匯聚全體知識點表示,如下:

2.5 價值網絡

其中:MLP1(·)代表全連接層。

2.6 策略網絡

2.7 模型訓練算法

算法1 KT-RCR模型訓練算法

3 實驗結果與分析

為了全面評估KT-RCR的表現,選取DKT[7]、DKVMN[8]、SAINT[21]、GKT[28]和DKTMR[31]五個基線模型,在三個真實數據集上進行實驗。本章首先介紹實驗步驟,隨后將KT-RCR與基線模型在AUC和ACC等評價指標上進行對比。此外,本文還進行了表示質量、消融等實驗,最后展示了提出的模型在真實教學環境中的應用效果。

3.1 實驗步驟

a)基礎網絡嵌入知識點表示圖。根據智能導學系統當前的狀態st=qt,對知識點表示圖進行增強表示,經過信息的傳遞、聚合、傳播、嵌入得到知識點表示圖的向量表示。具體實驗過程參見2.4節。

d)迭代循環。將st+1=qt+1輸入步驟a)的基礎網絡開始下一輪強化學習過程。

3.2 數據集

為了評估KT-RCR的效果,選取了三個在知識追蹤領域中廣泛使用的數據集進行實驗,數據集的基本信息如下:

a)ASSISTments2009 (ASSIST09)[34]。該數據集是在線教育平臺ASSISTments于2009年到2010年期間收集的。最初因其存在重復數據項的問題,在進行了若干清理工作后發布了更新版本,本實驗使用更新版數據集。

b)Junyi Academy (Junyi)[35]。該數據集是2015年Junyi Academy的學習行為交互日志,包含了25萬名學習者的超過2 500萬交互記錄。

c)EdNet (EdNet)[36]。該數據集是Santa人工智能輔導服務收集的大型學生行為數據集,包括約78萬名以上的學習者,1.3億次以上的學習交互數據,是迄今為止面向公眾發布的最大的學習行為數據集。

3.3 基線模型

本文選取了五個基線模型與KT-RCR進行比較,其基本信息及選擇原因如下:

a)DKT[7]。該模型是深度模型在知識追蹤領域的首次應用,它使用只包含一個知識點的題目作為輸入,利用循環神經網絡得到題目的表示向量。該向量蘊涵了歷史所有題目的信息,但受限于循環神經網絡建模長期依賴不足的問題,題目的表示向量實際僅蘊涵了歷史題目中較為接近的若干題目的信息。

b)DKVMN[8]。該模型通過鍵值存儲機制,在知識點的全局范圍內更新學習者的知識點表示,目標知識點可以融入全局所有知識點的信息。

c)SAINT[21]。使用Transformer架構,將題目信息作為編碼器的輸入,將作答結果作為解碼器的輸出,能夠更好地建模題目與作答結果的關系。

d)GKT[28]。該模型使用圖神經網絡建模知識點之間的結構關系,經過聚合更新等操作迭代表示目標知識點。

e)DKTMR[31]。該模型在GKT基礎上更進一步,建模知識點之間的多種關系及其各自對應的知識點關系圖,融合多個知識點關系圖得到目標知識點的表示。

上述模型中,DKT、DKVMN是使用循環網絡的代表性工作,SAINT是使用注意力機制的代表性工作,GKT和DKTMR是使用圖神經網絡的代表性工作。

3.4 性能對比實驗

為了驗證KT-RCR的有效性,與DKT、DKVMN、SAINT、GKT、DKTMR進行AUC和ACC的值對比。其中,AUC指標通過計算ROC(receiver operating characteristic)曲線下面的面積來評估模型的性能。它代表了模型在預測過程中,將真實答對(預測答對且實際答對)的樣本排在虛假答對(預測答對但實際答錯)樣本之前的概率。AUC的取值在[0.5, 1],其中0.5表示隨機猜測的性能,而1表示預測正確。AUC值越大,說明模型的預測性能越好,反之則預測性能越差。ACC指標用于衡量模型預測正確的樣本占比。它計算的是模型預測正確的樣本數(包括預測答對、實際答對與預測答錯、實際答錯的樣本數之和)占總樣本數的比值。準確率的值域在[0, 1],其中0表示所有預測都錯誤,而1表示所有預測都正確。ACC的值越大,說明模型預測正確的概率越高,性能越好。通過這兩個評價指標的綜合考量,本文能夠全面評估KT-RCR在預測任務上的性能,并與基線模型進行對比分析,從而驗證KT-RCR的有效性。

圖2是KT-RCR與五個基線模型在三個真實數據集上的AUC結果對比。其中,橫坐標為實驗選用的數據集,縱坐標為對應的AUC的取值。

圖3是在三個數據集上,KT-RCR與五個基線模型預測結果的ACC指標對比。其中,橫坐標為實驗選用的數據集,縱坐標為對應的ACC的取值。

根據圖2展示的AUC實驗結果,可以觀察到KT-RCR在三個數據集上的AUC均表現出優勢。與第二名DKTMR相比,KT-RCR在三個數據集中分別提高了6.8%、0.9%和0.6%。類似地,圖3也展示出KT-RCR較好的ACC表現,相較于第二名DKTMR,在三個數據集中分別提高了11.3%、2.3%和3.8%。

這一結果的可能原因分析如下:DKTMR在計算知識點表示時,通過多種類型的知識點關系從各個角度匯聚了更加充分的鄰域表示,在一定程度上使目標知識點的表示更為充分,而GKT僅建模了知識點之間的單一關系,所以在表現上稍遜一籌。DKT、DKVMN、SAINT從全局范圍內匯聚信息,表面上看似乎可以聚合更多信息,然而由于長尾效應,絕大部分知識點與目標知識點之間的相似度不高,聚合它們的信息會對目標知識點的表示形成干擾。基于上述聚合全局和鄰域范圍的研究,本文KT-RCR更進一步,使用強化學習范式,使得提出的模型可以動態建模題目數據分布的變化,得到更好的預測結果,證實了提出模型的有效性。

3.5 表示質量對比實驗

知識點表示圖的嵌入向量蘊涵了學習者的知識狀態,該向量對學習者知識狀態表示的質量高低可以使用其與實際作答題目情況之間的一致性(degree of agreement, DOA)來衡量,其定義如下:

從表1可以看出, KT-RCR在三個數據集上的表示質量均取得了較好值,這表明了KT-RCR使用強化學習范式動態建模的學習者知識點表示圖向量能夠更真實和準確地反映學習者的知識掌握情況;其次,DKTMR的表現僅次于KT-RCR,分析原因可能是DKTMR在表示目標知識點時建模了知識點之間的多種關系,對目標知識點的表示更加充分。

3.6 消融實驗

本研究假設為:使用強化學習范式能夠動態建模題目數據的分布,提升知識追蹤模型預測性能。為了驗證該假設的準確性,以數據集ASSIST09為例,設計了消融實驗,對比是否使用強化學習框架對知識追蹤模型預測結果的影響。首先,在提出模型中刪除智能導學系統作為環境的反饋模塊和價值網絡,只使用基礎網絡和策略網絡,使用監督學習范式訓練上述基礎和策略兩個網絡,把該模型記為KT-CR。與提出的強化學習框架下的KT-RCR作對比,以AUC、ACC和DOA為評價指標,在數據集ASSIST09上進行相關實驗,結果如表2所示。

從表2可以看出,在ASSIST09數據集中,KT-RCR的AUC、ACC和DOA均取得了最好的結果,并且未使用強化學習的KT-CR性能數據下降幅度較大,其中AUC和ACC數據與GKT相當。分析其原因可能是:KT-CR對目標知識點的表征方法與GKT區別不大,都是經過若干圖神經網絡的缺省操作獲取更新目標知識點。另一方面,KT-RCR是對KT-CR增強了強化學習范式的模型,其性能就得到了較大幅度的提升,也可以說明強化學習框架對知識追蹤模型提高預測性能的有效性。

3.7 模型的應用

為了驗證提出模型在實際教學場景中的有效性,將其整合融入到本文第一作者指導研究生團隊開發的學習數據與認知模型雙驅的跨模態多尺度自適應智能導學環境(CMA-ITE)(圖4)。該環境集成了包括本文選擇的基線模型在內的多個知識追蹤代表模型。通過與KT-RCR的對比,能夠全面評估該模型在引入強化學習框架方面的優勢。

具體完成本次實驗的數據包括2022—2023學年第二學期本文第一作者講授的《人工智能》課程中76名學生的學習行為數據、《機器學習》課程中63名學生的學習行為數據,以及2023—2024第二學期講授的《人工智能》課程中76名學生的學習行為數據,對隱私信息進行脫敏處理,保存若干次作業的答題記錄。具體實驗步驟參見3.1節,再將數據的80%用作訓練集,20%用作測試集,計算五個基線模型和提出模型的平均預測準確率,結果如表3所示。

從表3可以看出,整體的實際應用結果大致可分為兩類,GKT、DKTMR、KT-RCR使用鄰域知識點建模目標知識點作用的模型,總體上表現優于DKT、DKVMN、SAINT這一類使用全局知識點建模目標知識點表征的模型,其ACC值最少提高了4.6%。進一步地,相較于只使用圖神經網絡建模知識點關系的模型,KT-RCR使用強化學習范式,更加準確地刻畫了題目數據的動態分布,得到了更好的預測結果。實驗結果表明,提出模型ACC值比GKT和DKTMR分別提高了5.9%和2.6%。上述實際環境中的對比結果能夠證明KT-RCR對實際學習情況的建模更加準確,通過實際學習環境驗證了該模型的有效性。

綜上所述,通過在CMA-ITE中的應用,KT-RCR不僅提升了對學習者學習表現預測的準確性,還展示了其在實際教學環境中的有效性。這一成果將強化學習范式引入知識追蹤領域,也為智能導學系統的開發提供了新的思路。

3.8 KT-RCR與智能導學系統交互過程

為了驗證KT-RCR在與CMA-ITE交互過程中的效果,隨機記錄了KT-RCR與CMA-ITE交互時連續10個時間步的學習數據。在每個時間步上,記錄以下信息:基礎網絡輸出、價值網絡輸出、策略網絡輸出值、學習者作答結果、獎勵。只有當策略網絡輸出值與學習者作答結果輸出值一致時,獲得獎勵(Rt=1),否則獲得獎勵(Rt=0)。

通過分析表4,可以看出KT-RCR在交互過程中對基礎網絡輸出的動態調整,這些輸出值實際上反映了學習者的知識狀態。在時間步1,基礎網絡輸出為0.85,價值網絡輸出為0.13,策略網絡預測學習者答題結果為“錯誤”(輸出值為0),實際結果也是“錯誤”,因此模型獲得了獎勵(Rt=1)。進入時間步2,基礎網絡輸出下降至0.57,價值網絡輸出為0.74,策略網絡預測“錯誤”(輸出值為0),但實際結果為“正確”,因此模型未獲得獎勵(Rt=0)。在時間步3,基礎網絡輸出提升至0.83,價值網絡輸出為0.09,策略網絡正確預測學習者答題結果為“正確”(輸出值為1),實際結果也為“正確”,模型獲得獎勵(Rt=1)。其他時間步中,基礎網絡輸出值有所波動,策略網絡對學習者答題結果的預測與實際結果大多一致,模型相應獲得或未獲得獎勵。

這一系列變化表明,KT-RCR會根據CMA-ITE提供的獎勵,對價值網絡和策略網絡進行不斷調整,從而作用到學習者的知識狀態。具體地,CMA-ITE提供的獎勵直接影響價值網絡的輸出,通過計算TD誤差為策略網絡提供反饋:當TD誤差較大時(如時間步2的0.74),說明預測結果與實際結果之間存在較大偏差,此時策略網絡會進行對應的調整;而當TD誤差較小時(如時間步3的0.09和時間步10的0.05),說明預測結果較為準確,策略網絡則進行微調。這表明KT-RCR能夠與CMA-ITE進行有效的交互,并根據CMA-ITE給出的反饋進行調整,從而不斷優化模型性能。

4 結束語

本文利用強化學習框架,提出了一個知識點表征強化的知識追蹤模型KT-RCR,能夠根據智能導學系統給出的題目,即時建模作答結果的動態分布,并將預測的學習者的未來表現作為動作反饋給智能導學系統,再得到系統給出的獎勵,從而優化下一時間步的動作。KT-RCR包括基礎網絡、價值網絡和策略網絡三個核心網絡。其中基礎網絡先將學習者的知識點表示圖與題目融合,在以目標知識點鄰域范圍內的知識點為對象,更新目標知識點的表示,最終得到知識點表示圖的嵌入向量;價值網絡輸入智能導學系統給出的題目,以基礎網絡得到的知識點表示圖向量為基礎,判斷題目的價值;策略網絡根據智能導學系統給出的題目,與借助價值網絡得到的TD誤差,預測學習者可能的動作。在實驗方面,與五個基線模型在三個真實數據集上進行對比,結果表明了KT-RCR的有效性和出色性能。同時使用消融實驗驗證了強化學習框架的有效性,還展示了提出模型在實際教學數據中的優越表現。未來將進一步深入研究使用強化學習范式在知識追蹤模型研究方面的優勢。

參考文獻:

[1]王宇, 朱夢霞, 楊尚輝, 等. 深度知識追蹤模型綜述和性能比較[J]. 軟件學報, 2023, 34(3): 1365-1395. (Wang Yu, Zhu Mengxia, Yang Shanghui, et al. Review and performance comparison of deep knowledge tracing models[J]. Journal of Software, 2023, 34(3): 1365-1395.)

[2]劉鐵園, 陳威, 常亮, 等. 基于深度學習的知識追蹤研究進展[J]. 計算機研究與發展, 2021, 59(1): 81-104. (Liu Tieyuan, Chen Wei, Chang Liang, et al. Research advances in the knowledge tracing based on deep learning[J]. Journal of Computer Research and Development, 2021, 59(1): 81-104.)

[3]陳之彧, 單志龍. 知識追蹤研究進展[J]. 計算機科學, 2022, 49(10): 83-95. (Chen Zhiyu, Shan Zhilong. Research advances in knowledge tracing[J]. Computer Science, 2022, 49(10): 83-95.)

[4]梁琨, 任依夢, 尚余虎, 等. 深度學習驅動的知識追蹤研究進展綜述[J]. 計算機工程與應用, 2021, 57(21): 41-58. (Liang Kun, Ren Yimeng, Shang Yuhu, et al. Review of knowledge tracing preprocessing based on deep learning[J]. Computer Engineering and Applications, 2021, 57(21): 41-58.)

[5]Abdelrahman G, Wang Qing, Nunes B. Knowledge tracing: a survey[J]. ACM Computing Surveys, 2023, 55(11): 1-37.

[6]Shen Shuanghong, Liu Qi, Huang Zhenya, et al. A survey of know-ledge tracing: models, variants, and applications [J]. IEEE Trans on Learning Technologies, 2024, 17: 1898-1919.

[7]Piech C, Bassen J, Huang J, et al. Deep knowledge tracing[C]// Proc of the 29th Annual Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 505-513.

[8]Zhang Jiani, Shi Xingjian, King I, et al. Dynamic key-value memory networks for knowledge tracing[C]// Proc of the 26th International Conference on World Wide Web. New York: ACM Press, 2017: 765-774.

[9]李浩君, 方璇, 戴海容. 基于自注意力機制和雙向GRU神經網絡的深度知識追蹤優化模型[J]. 計算機應用研究, 2022, 39(3): 732-738. (Li Haojun, Fang Xuan, Dai Hairong. Deep know-ledge tracking optimization model based on self-attention mechanism and bidirectional GRU neural network[J]. Application Research of Computers, 2022, 39(3): 732-738.)

[10]王士進, 吳金澤, 張浩天, 等. 可信的端到端深度學生知識畫像建模方法[J]. 計算機研究與發展, 2023, 60(8): 1822-1833. (Wang Shijin, Wu Jinze, Zhang Haotian, et al. Trustworthy end-to-end deep student knowledge portrait modelling method[J]. Journal of Computer Research and Development, 2023, 60(8): 1822-1833.)

[11]周東岱, 董曉曉, 顧恒年, 等. 基于雙流結構和多知識點映射結構改進的深度知識追蹤模型[J]. 現代教育技術, 2022, 32(8): 111-118. (Zhou Dongdai, Dong Xiaoxiao, Gu Hengnian, et al. An improved deep knowledge tracing model based on two-stream structure and multi-knowledge point mapping structure[J]. Modern Educational Technology, 2022, 32(8): 111-118.)

[12]王文濤, 馬慧芳, 舒躍育, 等. 基于上下文表示的知識追蹤方法[J]. 計算機工程與科學, 2022, 44(9): 1693-1701. (Wang Wentao, Ma Huifang, Shu Yueyu, et al. Knowledge tracing based on contextualized representation[J]. Computer Engineering amp; Science, 2022, 44(9): 1693-1701.)

[13]Liu Qi, Huang Zhenya, Yin Yu, et al. EKT: exercise-aware know-ledge tracing for student performance prediction[J]. IEEE Trans on Knowledge and Data Engineering, 2019, 33(1): 100-115.

[14]李曉光, 魏思齊, 張昕, 等. LFKT: 學習與遺忘融合的深度知識追蹤模型[J]. 軟件學報, 2021, 32(3): 818-830. (Li Xiao-guang, Wei Siqi, Zhang Xin, et al. LFKT: deep knowledge tracing model with learning and forgetting behavior merging[J]. Journal of Software, 2021, 32(3): 818-830.)

[15]趙琰, 馬慧芳, 王文濤, 等. 可靠響應表示增強的知識追蹤方法[J]. 計算機工程與科學, 2024, 46(3): 535-544. (Zhao Yan, Ma Huifang, Wang Wentao, et al. Reliable response representation enhanced knowledge tracing method[J]. Computer Engineering amp; Science, 2024, 46(3): 535-544.)

[16]陳成, 董永權, 賈瑞, 等. FKA-DKT:融合知識與能力的深度知識追蹤模型[J]. 南京師大學報: 自然科學版, 2024, 47(2): 129-139. (Chen Cheng, Dong Yongquan, Jia Rui, et al. FKA-DKT: deep knowledge tracing model based on the fusion of knowledge and ability[J]. Journal of Nanjing University: Natural Science, 2024, 47(2): 129-139.)

[17]Pandey S, Karypis G. A self-attentive model for knowledge tracing[C]// Proc of the 12th International Conference on Educational Data Mining. [S.l.]: International Educational Data Mining Society, 2019: 384-389.

[18]Huang Changqin, Wei Hangjie, Huang Qionghao, et al. Learning consistent representations with temporal and causal enhancement for knowledge tracing[J]. Expert Systems with Applications, 2024, 245: 123128.

[19]賈瑞, 董永權, 劉源, 等. 知識點相關性與遺忘程度融合的深度知識追蹤模型 [J/OL]. 計算機研究與發展. (2024-02-19). http://kns.cnki.net/kcms/detail/11.1777.TP.20240219.1356.018.html. (Jia Rui, Dong Yongquan, Liu Yuan, et al. Deep knowledge tracing model with the integration of skills relation and forgetting degree[J/OL]. Journal of Computer Research and Development. (2024-02-19). http://kns.cnki.net/kcms/detail/11.1777.TP.20240219.1356.018.html.)

[20]琚生根, 康睿, 趙容梅, 等. 多知識點融合嵌入的深度知識追蹤模型[J]. 軟件學報, 2022, 34(11): 5126-5142. (Ju Shenggen, Kang Rui, Zhao Rongmei, et al. Deep knowledge tracing model based on embedding of fused multiple concepts[J]. Journal of Software, 2022, 34(11): 5126-5142.)

[21]Choi Y, Lee Y, Cho J, et al. Towards an appropriate query, key, and value computation for knowledge tracing [C]// Proc of the 7th ACM Conference on Learning@ Scale. New York: ACM Press, 2020: 341-344.

[22]許智宏, 張惠斌, 董永峰, 等. 問題特征增強的知識追蹤模型[J]. 計算機科學與探索, 2024, 18(9): 2466-2475. (Xu Zhihong, Zhang Huibin, Dong Yongfeng, et al. Question feature enhanced knowledge tracing model[J]. Journal of Frontiers of Computer Science and Technology, 2024, 18(9): 2466-2475.)

[23]Song Xiangyu, Li Jianxin, Lei Qi, et al. Bi-CLKT: bi-graph contrastive learning based knowledge tracing[J]. Knowledge-Based Systems, 2022, 241: 108274.

[24]Abdelrahman G, Wang Qing. Deep graph memory networks for forgetting-robust knowledge tracing[J]. IEEE Trans on Knowledge and Data Engineering, 2023, 35(8): 7844-7855.

[25]董永峰, 黃港, 薛婉若, 等. 融合IRT的圖注意力深度知識追蹤模型[J]. 計算機科學, 2023, 50(3): 173-180. (Dong Yongfeng, Huang Gang, Xue Wanruo, et al. Graph attention deep knowledge tracing model integrated with IRT[J]. Computer Science, 2023, 50(3): 173-180.)

[26]閆秋艷, 司雨晴, 袁冠, 等. 基于學生-問題關聯的異構圖知識追蹤模型[J]. 電子學報, 2023, 51(12): 3549-3556. (Yan Qiu-yan, Si Yuqing, Yuan Guan, et al. Student-problem association based heterogeneous graph knowledge tracing model[J]. Acta Electronica Sinica, 2023, 51(12): 3549-3556.)

[27]張凱, 付姿姿, 覃正楚. 時空相關性融合表征的知識追蹤模型[J]. 計算機應用研究, 2024, 41(5): 1381-1387. (Zhang Kai, Fu Zizi, Qin Zhengchu. Knowledge tracing model of temporal and spatial correlation fusion[J]. Application Research of Compu-ters, 2024, 41(5): 1381-1387.)

[28]Nakagawa H, Iwasawa Y, Matsuo Y. Graph-based knowledge tra-cing: modeling student proficiency using graph neural network[C]// Proc of IEEE/WIC/ACM International Conference on Web Intelligence. New York: ACM Press, 2019: 156-163.

[29]Yang Yang, Shen Jian, Qu Yanru, et al. GIKT: a graph-based interaction model for knowledge tracing[C]// Proc of European Confe-rence on Machine Learning and Knowledge Discovery in Database. Cham: Spring, 2021: 299-315.

[30]鄭浩東, 馬華, 謝穎超, 等. 融合遺忘因素與記憶門的圖神經網絡知識追蹤模型[J]. 計算機應用, 2023, 43(9): 2747-2752. (Zheng Haodong, Ma Hua, Xie Yingchao, et al. Knowledge tracing model based on graph neural network blending with forgetting factors and memory gate[J]. Journal of Computer Applications, 2023, 43(9): 2747-2752.)

[31]Duan Zhiyi, Dong Xiaoxiao, Gu Hengnian, et al. Towards more accurate and interpretable model: fusing multiple knowledge relations into deep knowledge tracing[J]. Expert Systems with Applications, 2024, 243: 122573.

[32]Qin Changjiu, Hu Wenxin, Du Fangrui, et al. Graph attention-enhanced knowledge tracing: unveiling exercise variability and long-term dependencies[C]// Proc of the 12th International Conference on Information and Education Technology. Piscataway, NJ: IEEE Press, 2024: 482-488.

[33]Cui Chaoran, Yao Yumo, Zhang Chunyun, et al. DGEKT: a dual graph ensemble learning method for knowledge tracing[J]. ACM Trans on Information Systems, 2024, 42(3): 1-24.

[34]Feng Mingyu, Heffernan N, Koedinger K. Addressing the assessment challenge with an online system that tutors as it assesses[J]. User Modeling and User-Adapted Interaction, 2009, 19(3): 243-266.

[35]Chang H S, Hsu H J, Chen KT. Modeling exercise relationship sin e-learning: a unified approach[C]// Proc of the 8th International Conference on Educational Data Mining. 2015: 532-535.

[36]Choi Y, Lee Y, Shin D, et al. EdNet: a large-scale hierarchical dataset in education[C]// Proc of the 21st International Conference on Artificial Intelligence in Education. Cham: Springer, 2020: 69-73.

主站蜘蛛池模板: 国产一级小视频| 好吊妞欧美视频免费| 久久国产黑丝袜视频| 在线免费不卡视频| 国产成人91精品免费网址在线| 亚洲无码A视频在线| 日韩色图在线观看| 激情综合网激情综合| 国产在线自揄拍揄视频网站| 香蕉在线视频网站| 久久久久青草大香线综合精品 | 成人一级黄色毛片| 国产丝袜啪啪| 免费 国产 无码久久久| 亚洲日本中文字幕天堂网| 久久这里只有精品2| a天堂视频在线| 国产视频资源在线观看| 久久久久国产精品嫩草影院| 国产情侣一区二区三区| 一区二区无码在线视频| 午夜无码一区二区三区在线app| 潮喷在线无码白浆| 色妺妺在线视频喷水| 国产经典在线观看一区| av在线人妻熟妇| 波多野结衣无码AV在线| 好久久免费视频高清| 在线播放91| 久久精品免费看一| 亚洲人成网18禁| 在线观看av永久| 日韩东京热无码人妻| 一本一道波多野结衣av黑人在线| 免费国产黄线在线观看| 天堂网国产| av在线无码浏览| 亚洲系列无码专区偷窥无码| 欧美伊人色综合久久天天| 欧美特黄一级大黄录像| 亚洲一区二区精品无码久久久| 亚洲精品欧美日本中文字幕| 欧美亚洲欧美区| 88国产经典欧美一区二区三区| 国产精品色婷婷在线观看| 国产美女在线观看| 成人国产一区二区三区| 亚洲精品片911| 亚洲精品视频免费| 色AV色 综合网站| 亚洲第一区在线| 亚洲第一中文字幕| 啦啦啦网站在线观看a毛片| 日日拍夜夜操| 欧美日本在线一区二区三区| 国产女人18水真多毛片18精品| 男女性色大片免费网站| 91亚洲免费视频| 蜜臀AV在线播放| 亚洲成人精品在线| 成人a免费α片在线视频网站| 91午夜福利在线观看| 欧美日韩国产在线观看一区二区三区| 欧美一级在线看| 亚洲天堂网站在线| 九九久久精品免费观看| 91精品aⅴ无码中文字字幕蜜桃| 波多野结衣在线se| 国产成人麻豆精品| 欧美色图第一页| 97精品久久久大香线焦| 97免费在线观看视频| 亚洲天堂精品视频| 青草精品视频| 国产区免费| 91最新精品视频发布页| 日本久久网站| 女人18毛片一级毛片在线| 日韩av无码DVD| 真人高潮娇喘嗯啊在线观看| 日韩成人免费网站| 久久人搡人人玩人妻精品一|