周東岱 董曉曉 顧恒年 馬宇馳
基于雙流結構和多知識點映射結構改進的深度知識追蹤模型*
周東岱 董曉曉 顧恒年 馬宇馳
(東北師范大學 信息科學與技術學院,吉林長春 130117)
目前,知識追蹤已成為自適應個性化輔助學習的研究熱點,而基于循環神經網絡的深度知識追蹤(Deep Knowledge Tracing,DKT)模型在知識追蹤領域已取得了較好的效果。但是,DKT模型在融合領域特征時仍存在特征消減和知識點關聯關系遺忘等問題,其精準性有待提高。為此,文章在梳理DKT模型融合領域特征相關研究現狀的基礎上,提出了一種基于雙流結構和多知識點映射結構改進的深度知識追蹤模型,并通過實驗驗證了此模型的精準性相較于原始DKT模型及其相關的改進模型有明顯提升,并指出其在智慧學習環境下學生認知結構刻畫和學習服務精準推薦方面具有的廣闊應用前景。通過研究,文章旨在提升深度知識追蹤的精準性并進一步助力自適應個性化學習的實現。
自適應學習;知識追蹤;DKT模型;DKTDM模型
知識追蹤是自適應個性化輔助學習的研究熱點,旨在評價學生的知識狀態,預測學生下一時刻試題的正確回答概率[1]。傳統的知識評價模型主要是項目反應理論(Item Response Theory,IRT)和貝葉斯知識追蹤(Bayesian Knowledge Tracing,BKT)兩種經典模型[2][3],研究發現前者存在參數估計的問題,而后者存在單一知識點建模、知識狀態二元表征單一等問題[4][5][6]。Piech等[7]提出基于循環神經網絡的深度知識追蹤(Deep Knowledge Tracing,DKT)模型,以高維連續向量表示知識狀態和時間動態,為解決上述問題提供了思路。
學生的答題結果是多因素影響的產物,可能會受知識點關系、答題次數和答題時間等領域特征的影響。原始DKT模型僅考慮問題標簽和答題正誤信息,雖然已有模型嘗試將領域特征融入DKT模型,但實驗結果表明融入后模型的精準性提升并不明顯[8][9]。本研究認為,已有研究未關注領域特征在深度學習網絡傳遞中存在的特征消減問題和知識點關聯關系遺忘問題,這是導致模型精準性不足的原因。因此,本研究首先梳理深度知識追蹤模型融合領域特征的研究進展;然后針對特征消減問題和知識點關聯關系遺忘問題,提出基于雙流結構和多知識點映射結構改進的深度知識追蹤模型(Deep Knowledge Tracing Model with Dual-stream Structure and Multi-knowledge Points Mapping Structure,DKTDM),并驗證其精準性;最后,本研究對模型的應用前景進行展望,以期提升深度知識追蹤的精準性并進一步助力自適應個性化學習的實現。
DKT模型是一種基于循環神經網絡的深度知識追蹤模型,它通過將交互序列={1,2, …,x}[其中,t=(qa)表示學生回答問題q的正誤情況,a∈{0,1},0表示錯誤,1表示正確]輸入循環神經網絡,來預測下一時刻試題的正確回答概率(a+1|,q+1)。原始DKT模型的輸入只有問題標簽、答題正誤這兩種信息,而忽視了領域其他特征對預測結果的作用,其精準性有待提高。為此,研究者嘗試引入更多的領域特征來提高模型預測的精準性。例如,Zhang等[10]提出了基于特征工程的深度知識追蹤(DKT with Feature Engineering,DKT-FE)模型,采用棧式自編碼器將數據集中的3種特征(響應時間、第一行為、嘗試次數)降維后輸入DKT模型。Yang等[11]結合決策樹,提出了基于分類回歸樹的深度知識追蹤(DKT-Classification and Regression Tree,DKT-CART),并采用12種特征構建決策樹來預測學生的答題結果,然后與真實答題結果拼接后一起輸入原始模型,但這12種特征并未直接參與網絡訓練,故決策過程會損失特征中隱含的關鍵領域信息。實驗數據表明,上述融合領域特征的改進DKT模型相較于未融合領域特征的原始DKT模型在精準性上提升不明顯,如Zhu等[12]、Rum等[13]發現深度學習網絡在映射和投影之后不能確保利用了所需要的特征執行任務。基于以上分析,本研究認為已有DKT模型在融入領域特征時領域知識沒有被有效傳遞,即領域特征在從網絡底層向高層傳遞的過程中存在關鍵信息消減的特征消減問題。
此外,由于循環神經網絡自身會遺忘長期依賴關系,當輸入序列過長時,循環神經網絡就會隨之出現遺忘問題,即新的內容輸入后會遺忘之前的內容[14]。在知識追蹤過程中,一道試題可能關聯多個知識點,知識點間存在的關聯關系是循環神經網絡隱藏層捕捉的關鍵信息之一。當時間跨度很大時,可能會出現知識點跨度也很大的情況,前期的知識點間的關聯關系(長期依賴關系)就會被遺忘,導致出現錯誤關聯和預測結果波動現象,影響預測的精準性[15]。
綜上,本研究從緩解特征消減和抑制關聯關系遺忘出發,構建了一種新的深度知識追蹤模型,重點關注兩方面內容:①改進特征融合方法,提出一種雙流結構來緩解特征消減;②構建多知識點映射結構,抑制知識追蹤過程中知識點關聯關系遺忘。

圖1 DKTDM模型的整體框架

圖2 輸入層融合過程圖3 輸出層融合過程
根據前文研究現狀的分析,為解決特征消減和知識點關聯關系遺忘的問題,本研究在原始DKT模型的基礎上構建了DKTDM模型,其整體框架如圖1所示。DKTDM模型由輸入層、隱藏層和輸出層組成,其中輸入層設計了雙流結構(Dual-stream Structure),實現領域特征的兩次融入;輸出層設計了多知識點映射結構(Multi-knowledge Points Mapping Structure),將輸出結果記錄下來參與損失計算。
①輸入層:共有兩部分輸入。第一部分是原始DKT的答題交互x,表示作答問題的正誤情況,x∈{0, 1},其中表示知識點個數。學生回答問題如果正確,則在前長度編碼上的數值索引位上置1,反之則在后長度編碼上的數值索引位上置1,接著將x進行嵌入表示,得到維度為的嵌入表示向量v。第二部分是本模型新融入的數據集中的領域特征,對其采用one-hot編碼得到維度為的領域特征向量c。將嵌入表示向量v與領域特征向量c拼接,得到融合特征向量vc,其維度為,如公式(1)所示。
vc=(v,c)公式(1)
②隱藏層:本模型采用LSTM作為隱藏層單元,隱藏層維度為。通過內部的門控機制,可以篩選、計算當前時刻的隱藏層輸入即融合特征向量vc和上一時刻的隱藏層狀態h,得到當前時刻隱藏層輸出向量h,如公式(2)所示。其中,是維度為×的當前時刻隱藏層輸入權重矩陣,是維度為的上一時刻隱藏層狀態權重矩陣,是維度為的偏置向量。
h(vc+Uh+b) 公式(2)
③輸出層:將由輸入層恒等映射而來的領域特征向量c與h拼接,得到融合向量hc,其維度為然后輸入函數得到預測結果y,如公式(3)所示。其中,()=1/(1+e),W是維度為×的輸出層權重矩陣,b是維度為的偏置向量,和均為超參數
y=Sigmoid(Whc+b公式(3)
為克服已有DKT模型存在的特征消解和知識點關聯關系遺忘問題,本研究在輸入層設計了雙流結構,以通過領域特征的高層傳播和強化來抑制特征消減問題;同時,在輸出層設計了多知識點映射結構,以通過補充損失計算正則項的方式來緩解知識點關聯關系遺忘問題。
(1)雙流結構抑制特征消減問題
已有DKT模型融合領域特征的通常做法是將特征編碼后直接在輸入層融入,然而領域特征向網絡高層傳播時存在關鍵信息消減的問題。針對該問題,本研究將領域特征向量c分別在輸入層、輸出層融合,其融合過程分別如圖2、圖3所示。領域特征向量c一方面在輸入層融入;另一方面經過恒等映射后,在輸出層與h拼接,得到融合向量hc,如公式(4)所示。
hc=(h,c)公式(4)
領域特征在輸入層融合的數據流(圖2中的虛線)與輸出層再次融合的數據流(圖3中的虛線)共同構成雙流結構。基于殘差網絡原理,雙流結構能夠有效緩解特征在網絡結構中由低層向高層傳遞時因網絡梯度和退化導致的特征信息丟失問題[16]。

圖4 多知識點映射結構

圖5 特征關聯分析圖
(2)多知識點映射結構緩解知識點關聯關系遺忘問題
本研究對知識點關聯關系遺忘問題的處理分兩步進行:①主動捕捉和保存知識點關聯關系;②將該關系以變化量的形式再次加入訓練。針對這兩個步驟的內容,本研究設計了多知識點映射結構,如圖4所示。其中,行表示在不同時刻下第m個知識點節點的預測結果,列表示在t時刻下不同知識點節點的預測結果,通過這種映射結構保存了不同時刻下不同知識點的預測結果,間接實現了知識點關聯關系的捕捉和保存,從而緩解了知識點關聯關系遺忘的問題。
為了將保存的知識點關聯關系以變化量的形式再次加入訓練,本研究按照公式(5)、公式(6)、公式(7),計算了變化趨勢量k、絕對變化量k和平方變化量k。其中,T表示學生答題交互次數,M表示知識點數量。將上述三個變化量加入損失函數,連同原DKT損失函數共同計算損失,修正輸出結果。加入變化量的DKTDM損失函數如公式(8)所示。其中,μμ和μ分別是與三個修正量對應的超參數。




為檢驗DKTDM模型的精準性與有效性,本研究從兩個方面開展了相關實驗:①對比實驗,將DKTDM模型與主流的DKT模型在不同公開數據集上的精準性表現進行對比;②驗證實驗,通過消融實驗驗證DKTDM模型雙流結構與多知識點映射結構改進的有效性。
目前,知識追蹤領域的主流模型主要采用如表1所示的三個公開數據集進行精準性評估和比較,因此本研究也基于這三個數據集來驗證DKTDM模型的精準性。

表1 數據集統計表
1ASSISTment2009:https://sites.google.com/site/assistmentsdata/home/assistment-2009-2010-data/skill-builder-data-2009-2010.
2ASSISTment2015:https://sites.google.com/site/assistmentsdata/home/2015-assistment-skill-builder-data.
3Statics2011:https://pslcdatashop.web.cmu.edu/ DatasetInfo?datasetId=507.
本研究以ASSITment數據集中的嘗試次數(學生嘗試回答一道題的次數)特征為例開展DKTDM模型特征融合實驗,以驗證其改進優勢。本研究發現,從統計數據分析角度來說,嘗試次數和答題結果存在較大關聯,特征關聯分析圖如圖5所示,可以看出:嘗試次數attempt_count與答題結果correct的關聯度為0.744,相較于其他特征(如提示次數hint_count)與correct的關聯度最高;從認知規律角度來說,多次嘗試后答題正確率理論上也會明顯高于初次嘗試的結果。
本實驗采用了數據集中提供的訓練、驗證和測試數據,具體步驟為:在訓練集上訓練模型→根據驗證集結果調整模型參數→在測試集上評估模型的精準性。優化器采用Adam optimizer,學習率Learning rate設置為0.002。實驗結果評估使用ROC曲線下的面積(Receiver Operation Characteristic,AUC)和準確度(Accuracy,ACC)兩種深度知識追蹤精準性的主要衡量指標。
本實驗探索了三種不同批處理大小(Batch Size,記為b)下的精準性,包括訓練、測試AUC值和測試ACC值的比較。圖6列出了DKTDM模型在ASSISTment2009上的精準性評估結果,可以看出:當批處理大小為8時,DKTDM模型在數據集上的表現最佳。經過多組實驗,測試AUC平均值達到0.827,測試ACC平均值達到0.758。

圖6 不同批處理大小下的精準性評估結果

表2 主流模型AUC對比表

表3 主流模型ACC對比表
本研究對DKTDM模型與幾種先進的深度知識追蹤領域模型在三個公開數據集下的測試AUC、ACC值進行比較,結果如表2、表3所示(每個數據集的最佳結果都加粗表示)。其中,DKT是深度知識追蹤領域的開篇之作;DKT-FE采用棧式自編碼器,將數據集中的3種特征(響應時間、第一行為、嘗試次數)降維后輸入DKT模型;DKT-CART/GBDT采用決策樹模型處理多種特征得到預測結果后與真實結果拼接,之后輸入模型中進行預測;DKVMN是一種基于記憶增強網絡和鍵值矩陣的深度知識追蹤模型[17];SAKT采用自注意力機制,重新分配學生答題序列上的權重[18];SAINT是一種基于Transformer的深度知識追蹤模型,采用深度自注意力機制捕捉問題和答題結果間的復雜關系[19]。上述主流模型,都是在深度知識追蹤領域和融合領域特征方面具有代表性的模型。
通過對比,本研究發現:相較于DKT、DKT-FE、DKT-CART/GBDT和DKVMN,DKTDM模型的精準性提升明顯,說明雙流結構能夠更好地融合領域特征,多知識點映射結構能夠緩解知識點關聯關系遺忘,共同提高了預測的精準度;相較于新近的SAKT、SAINT,DKTDM模型在精準性的表現依然具有優勢。
本研究對DKTDM模型進行了消融實驗,以驗證DKTDM模型在解決原始DKT模型特征消減和知識點關聯關系遺忘問題方面的有效性。消融實驗對DKTDM模型、帶有雙流結構的DKT模型(DKT-DUAL)、帶有多知識點映射結構的DKT模型(DKT-Mul.K)和原始DKT模型的表現進行了對比。通過圖7(a)中AUC值的比較可以看出,相較于DKT,DKT-DUAL模型能夠充分利用、擬合領域特征,DKT-Mul.K模型能夠很好地發掘、擬合答題序列中隱含的復雜知識點關系并抑制遺忘,兩個模型的精準性均得到了提升;而與DKT-DUAL、DKT-Mul.K相比,DKTDM模型的精準性更高。通過圖7(b)中Loss值的比較可以看出,與DKT-DUAL、DKT-Mul.K、DKT相比,DKTDM模型隨著回合數增加在損失收斂上的表現最好。

圖7 DKTDM、DKT-DUAL、DKT-Mul.K和DKT的表現對比
深度知識追蹤模型通過追蹤學生的知識狀態來預測學生的認知水平,是評估學生認知水平的有效手段。針對現有DKT模型存在的特征消減問題和知識點關聯關系遺忘問題,本研究提出了DKTDM模型,并聚焦于解決兩個問題:①構建了一種將領域特征分別在輸入層和輸出層融合的雙流結構,解決了已有DKT模型融入領域特征時存在的特征消減問題;②在DKT輸出層構建了一種多知識點映射結構,通過補充損失計算正則項的方式來緩解知識點間關聯關系遺忘問題。實驗結果表明,本研究針對上述兩個問題的改進是有效的,且提出的DKTDM模型的精準性明顯優于原始DKT模型及其相關的改進模型。
隨著新一代人工智能技術與教育教學深度融合,未來精準的深度知識追蹤對于加快推進教育教學數字轉型和智能升級具有重要的作用,主要體現為:①認知結構刻畫方面,結合深度知識追蹤模型與學科知識圖譜,能夠精準刻畫學生的知識狀態、知識結構等特征,實現學生認知結構的可視化表征,進而支撐挖掘學生的認知發展模式,為后續學習服務的精準推薦奠定基礎。②學習服務精準推薦方面,在學生認知結構刻畫和發展模式挖掘的基礎上,結合學科知識圖譜,對學生學習過程中存在的問題進行溯源,進而為其制定適切的干預策略。在此基礎上,根據干預策略為學生推薦個性化的學習路徑或學習資源并檢驗其效果,構建“問題診斷—溯源歸因—干預推薦”的閉合回路,為學生達成個性化學習目標提供精準服務。
[1]盧宇,王德亮,章志,等.智能導學系統中的知識追蹤建模綜述[J].現代教育技術,2021,(11):87-95.
[2]Wyse A E. R.J.DE AYALA(2009)The theory and practice of item response theory[J]. Psychometrika, 2010,(4):778-779.
[3]Baker D R S J, Corbett A T, Aleven V. More accurate student modeling through contextual estimation of slip and guess probabilities in Bayesian knowledge tracing[A]. Proceedings of the 9th International Conference on Intelligent Tutoring Systems[C]. Berlin: Spinger, 2008:406-415.
[4]Xiong X, Zhao S, Van Inwegen E G, et al. Going deeper with deep knowledge tracing[OL].
[5]Chen L, Min C. A comparisons of BKT, RNN and LSTM for learning gain prediction[A]. Artificial Intelligence in Education[C]. Cham: Springer, 2017:536-539.
[6]戴靜,顧小清,江波.殊途同歸:認知診斷與知識追蹤——兩種主流學習者知識狀態建模方法的比較[J].現代教育技術,2022,(4):88-98.
[7]Piech C, Bassen J, Huang J, et al. Deep knowledge tracing[A]. Proceedings of the 28th International Conference on Neural Information Processing Systems[C]. Cambridge: MIT Press, 2015:505-513.
[8]Wang Z, Feng X, Tang J, et al. Deep knowledge tracing with side information[A]. Artificial Intelligence in Education[C]. Cham: Springer, 2019:303-308.
[9]Yeung C K, Yeung D Y. Incorporating features learned by an enhanced deep knowledge tracing model for STEM/Non-STEM job prediction[J].International Journal of Artificial Intelligence in Education, 2019,(3):317-341.
[10]Zhang L, Xiong X L, Zhao S Y, et al. Incorporating rich features into deep knowledge tracing[A].Proceedings of theFourth ACM Conference on Learning @ Scale[C]. New York: Association for Computing Machinery, 2017:169-172.
[11]Yang H, Cheung L P. Implicit heterogeneous features embedding in deep knowledge tracing[J]. Cognitive Computation, 2018,(1):3-14.
[12]Zhu X, Li T, De Melo G D. Exploring semantic properties of sentence embeddings[A]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics[C]. Stroudsburg: Association for Computational Linguistics, 2018:632-637.
[13]Rum D E, Hin G E, Will R J. Learning representations by back-propagating errors[J]. Nature, 1986,323:533-536.
[14]Kemker R, McClure M, Abitino A, et al. Measuring catastrophic forgetting in neural networks[A]. Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence[C].California: AAAI Press, 2018:3390-3398.
[15]Yeung C K, Yeung D Y. Addressing two problems in deep knowledge tracing via prediction-consistent regularization[A].Proceedings of the Fifth Annual ACM Conference on Learning at Scale[C]. New York: Association for Computing Machinery, 2018:1-10.
[16]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[A]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C].New York: IEEE Computer Society, 2016:770-778.
[17]Zhang J, Shi X, King I, et al. Dynamic key-value memory networks for knowledge tracing[A].Proceedings of the26th International Conference on World Wide Web[C].Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2017:765-774.
[18]Pandey S, Karypis G. A self-attentive model for knowledge Tracing[OL].
[19]Choi Y, Lee Y, Cho J, et al. Towards an appropriate query, key, and value computation for knowledge tracing[A]. Proceedings of the Seventh ACM Conference on Learning @ Scale[C].New York: Association for Computing Machinery, 2020:341-344.
Deep Knowledge Tracing Model Improved with Dual-stream Structure and Multi-knowledge Points Mapping Structure
ZHOU Dong-dai DONG Xiao-xiao GU Heng-nian MA Yu-chi
At present, knowledge tracing has become the research hotspot of adaptive personalized assisted learning, and the deep knowledge tracing (DKT) model based on the recurrent neural network has achieved good results in the field of knowledge tracing. However, the DKT model still has problems such as feature elimination and forgetting knowledge point association relationships when fusing domain features, and its accuracy needs to be improved. Therefore, on the basis of combing the research status related to fusing domain features of the DKT model, this paper proposed a deep knowledge tracing model with dual-stream structure and multi-knowledge points mapping structure (DKTDM), and through experiments verified that its accuracy was significantly improved compared to the original DKT model and its related improved models. In addition, it was pointed out that its application in characterizing students’ cognitive structure and accurate recommendation of learning services in smart learning environments would be promising.Through the study, this paper aimed to improve the accuracy of deep knowledge tracing, and contribute more to the realization of adaptive learning.
adaptive learning; knowledge tracing; DKT model; DKTDM model

G40-057
A
1009—8097(2022)08—0111—08
10.3969/j.issn.1009-8097.2022.08.013
本文為國家自然科學基金面上項目“基于深度學習的自適應學習系統關鍵技術研究”(項目編號:61977015)、吉林省自然科學基金項目“基于深度學習的學習者知識水平精準評估技術研究”(項目編號:20200201298JC)、國家自然科學基金青年項目“融合知識結構與試題屬性的概率知識追蹤關鍵技術研究”(項目編號:62107008)、吉林省科技發展計劃項目“智能化網絡學習空間構建關鍵技術研究”(項目編號:20200602053ZP)的階段性研究成果。
周東岱,教授,博士,研究方向為教育信息科學與技術的理論、方法與關鍵技術,郵箱為ddzhou@nenu.edu.cn。
2021年11月20日
編輯:小時