999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自注意力機制和雙向GRU神經網絡的深度知識追蹤優化模型

2022-01-01 00:00:00李浩君方璇戴海容
計算機應用研究 2022年3期

摘 要:針對現有深度知識追蹤模型存在輸入習題間復雜關系捕獲能力弱、無法有效處理長序列輸入數據等問題,提出了基于自注意力機制和雙向GRU神經網絡的深度知識追蹤優化模型(KTSA-BiGRU)。首先,將學習者的歷史學習交互序列數據映射為實值向量序列;其次,以實值向量序列作為輸入訓練雙向GRU神經網絡,利用雙向GRU神經網絡建模學習者的學習過程;最后,使用自注意力機制捕獲練習題之間的關系,根據雙向GRU神經網絡輸出的隱向量和注意力權重計算學習者正確回答下一問題的概率。實驗在三個公共數據集上的性能分析優于現有的知識追蹤模型,能提高深度知識追蹤的預測精度。

關鍵詞:知識追蹤; 深度學習; 雙向GRU神經網絡; 自注意力機制

中圖分類號:TP391 文獻標志碼:A

文章編號:1001-3695(2022)03-015-0732-07

doi:10.19734/j.issn.1001-3695.2021.08.0345

Deep knowledge tracking optimization model based on self-attention mechanism and bidirectional GRU neural network

Li Haojun1, Fang Xuan1, Dai Hairong2

(1.College of Education Science amp; Technology, Zhejiang University of Technology, Hangzhou 310023, China; 2.College of Business Administration, Zhejiang Finance College, Hangzhou 310018, China)

Abstract:This paper proposed an optimization model of deep-knowledge tracking (KTSA-BiGRU) based on self-attention mechanism and bidirectional GRU neural networks owing to the existing deep-knowledge tracking models with weak capture of complex relationships between input exercises and inability to effectively handle long-sequence input data. Firstly, it mapped the learner’s historical learning interaction sequence data to the real value vector sequence. Then, it trained the bidirectional GRU neural network as input to model the learner’s learning process, and finally used, the self-attention mechanism to calculate the probability of the learner correctly answering the next question based on the hidden vectors of the bidirectional GRU neural network output and the attention weight. The performance analysis on the three public datasets can improve the prediction accuracy of deep knowledge tracking.

Key words:knowledge tracking; deep learning; bidirectional GRU neural network; self-attention mechanism

0 引言

近年來,隨著教育信息化的不斷發展以及大數據、人工智能等新興技術與教育的深度融合,在線教育呈現多元化的發展,如何讓在線教育系統為學習者提供個性化的學習支持服務,已成為智能教育領域待解決的重要研究問題。知識追蹤(knowledge tracing,KT)是實現學習者個性化學習的重要技術支撐,根據學習者的歷史答題軌跡數據來自動追蹤學習者的知識水平隨時間變化的過程,從而能夠準確預測學習者在未來學習的作答表現,以便提供相應的學習支持服務。知識追蹤是對學習者的答題表現進行建模,已被廣泛應用于在線教育應用系統中。Liu等人[1]提出了預測學習者在未來時刻作答表現的EKT模型;馬驍睿等人[2]提出了一種結合深度知識追蹤模型與協同過濾方法應用于個性化習題推薦;Agrawal等人[3]研究了學習者獲得知識點的順序對學習者答題的影響并應用于習題序列研究;Jiang等人[4]提出了基于抽象語法樹(abstract syntax tree, AST)的知識追蹤模型并應用于編程練習。

深度知識追蹤模型[5](deep knowledge tracing,DKT)將循環神經網絡(recurrent neural network,RNN)應用于知識追蹤,在不需要專家標注練習題和知識點的情況下提高了知識追蹤模型的預測性能。然而,張蘭霞等人[6]發現隨著隱藏層的增加,RNN會產生梯度消失問題,這使得RNN很難學習到輸入序列中的長距離依賴關系。Zhu等人[7]利用有限狀態自動機(finite state automaton,FSA)的數學模型來解釋RNN在接收輸入時的隱藏狀態轉換,發現輸入序列越長,拒絕的比例越高,RNN的長期依賴問題使深度知識追蹤模型無法利用長歷史序列輸入數據,導致預測結果產生波動。本文旨在優化深度知識追蹤模型,解決RNN由于梯度消失產生的長期依賴問題并提升模型的預測精度。不同于以往對DKT模型的損失函數引入正則化的研究[8],本文提出了基于自注意力機制和雙向GRU神經網絡的深度知識追蹤模型(KTSA-BiGRU),利用雙向GRU神經網絡對學習者進行建模,通過注意力權重直接捕獲輸入練習題之間的關系,將學習者過去和未來的上下文序列信息集成到模型的多個知識點概念中,更精準地模擬學習者的學習狀態,預測學習者在未來學習中的作答表現。

1 知識追蹤優化研究

20世紀90年代以來,國內外學者一直在研究用數學和計算模型來解決知識追蹤問題,先后提出了多種知識追蹤模型及其改進的優化模型。現有的知識追蹤模型主要分為基于認知診斷的知識追蹤模型、基于概率圖的知識追蹤模型以及基于深度學習的知識追蹤模型。De La Torre等人[9]提出了認知診斷模型(cognitive diagnosis model,CDM),通過學習者的做題情況及習題與知識點之間的聯系來預測學習者知識點的掌握情況;Harvey等人[10]提出了項目反映理論模型(item response theory,IRT),該模型根據學習者回答問題的情況,通過對練習題特征函數的運算來預測學習者的知識狀態;王超等人[11]提出了DINA模型,通過分析學習者的答題表現,考慮學習者的心理因素猜測和失誤對學習者進行診斷分析。

Corbett等人[12]在1994年首次將概率圖應用于知識追蹤領域,提出了BKT模型,該模型利用隱馬爾可夫模型(hidden Markov model,HMM)來構建學習者認知狀態的變化;采用實時反饋的用戶交互序列建模,將學習者潛在的知識狀態建模為一組二元變量,每個變量狀態值表示是否理解某個知識點。但是BKT模型也存在一些局限性,其假設學習者一旦掌握了某個知識點就永遠不會遺忘。為了解決BKT模型存在的問題, Hawkins等人[13]提出了BKT-ST模型,在BKT模型的基礎上考慮了練習題之間的相似性問題,發現學習者在作答多道相類似的練習題后失誤概率降低、猜測概率提高、答題表現變好。Spaulding等人[14]將學習者的投入、愉悅、困惑或無聊等因素狀態融入BKT模型中,提出了Affect BKT模型并應用于可以實時評估學習者知識狀態的機器人輔導系統。Agarwal等人[15]提出了MS-BKT模型,將傳統BKT模型的兩個認知狀態擴展為21個,提高了模型捕獲可觀測序列信息的精度,同時模型使用權重參數替代靜態學習率,經歷反復練習的知識點表示學習者對該知識點的學習率較低,被賦予較小的權重。Lin等人[16]提出了Intervention-BKT模型,認為學習者的認知狀態會受到各種教學干預行為的影響,實驗結果表明,該模型的性能優于傳統的BKT模型。Khajah等人[17]將BKT模型與項目反映理論(IRT)結合,保留了BKT模型學習者建模特點,通過項目反映理論引入學習者的能力和題目的難度提升模型認知狀態評估的精確度,但基于概率圖的知識追蹤模型存在著結構簡單、模型預測精度較低且需要人工去標注練習標簽等問題。

為了解決基于概率圖的知識追蹤模型存在的問題,有學者將深度學習應用于知識追蹤模型優化研究中。2015年Piech等人[5]提出了DKT模型,將循環神經網絡(RNN)應用于知識追蹤問題,在不需要人工標注練習題和知識點之間關系的情況下,顯著提升了傳統BKT模型的預測性能。隨后,Huang等人[18]提出了一個數據驅動框架CKM-HSC,考慮了知識的應用上下文信息,追蹤學習者更深層次的認知狀態。Liu等人[1]提出了EKT(exercise-aware knowledge tracing)模型,該模型對學習者的認知狀態采用隱向量表示,實現了對學習者關于每道題各知識點的認知狀態追蹤。Nakagawa等人[19]提出了end-to-end模型E2E-DKT,通過學習者回答練習題記錄的日志信息自動學習練習題和知識點的向量嵌入,實驗結果表明了該模型學習向量嵌入對DKT的性能具有促進作用。Minn等人[20]將學習能力類似的學習者聚類為一個群體,基于K-means聚類算法提出了DKT-DSC模型,提高了DKT模型的知識追蹤能力。Abdelrahamn等人[21]提出了Hop-LSTM模型,進一步擴大了LSTM的學習序列容量,根據隱藏單元之間的相關性進行跳躍連接。Sha等人[22]提出了NKT模型,利用雙向LSTM對學習者進行建模并用殘差連接減小訓練難度,實驗結果表明,雙向LSTM能夠擴大學習序列容量。然而劉鐵園等人[23]提出了RNN變體(如LSTM和GRU)僅僅提高了序列學習的容量,沒有解決長期依賴問題。隨著隱藏層的增加,RNN會產生梯度消失問題,這會導致深度知識追蹤對學習者的知識狀態建模不準確,進而影響模型預測未來練習結果的精度。

2 理論依據

2.1 知識空間理論

知識空間理論(knowledge space theory,KST)是一種將人的認知和理解用數學形式表達出來并形成嚴謹的數學理論,主要應用于智能導學系統。知識空間理論認為考試成績排名等傳統的評估方式過于粗糙,學習者只知道自己的分數或者排名,這使得學習者無法明確自身的知識狀態水平以及接下來如何去學習。知識空間理論基于知識點組合及概率模型,并對學習者所處的學習情況,即學習者的知識狀態進行評估[24]。知識空間理論中的相關定理結合可實現的技術操作,能夠精準地預測學習者當前的知識狀態,從而為學習者的個性化學習提供幫助。然而,知識空間理論指導下,現有的深度知識追蹤模型存在輸入習題間復雜關系捕獲能力弱、無法有效處理長序列輸入數據等問題,本文在知識空間理論指導下使用自注意力機制和雙向GRU神經網絡協同優化知識追蹤模型。

2.2 GRU神經網絡

門控制循環神經網絡(gated recurrent unit,GRU)是LSTM神經網絡的簡化,用于處理和預測序列數據。相比于LSTM神經網絡,GRU神經網絡的參數減少了1/3,不容易產生過擬合,并且在需要的迭代次數和收斂時間上,GRU神經網絡效果更好。所以GRU神經網絡可以在保持LSTM神經網絡效果的同時使得模型更加簡單。GRU神經網絡在深度學習領域是訓練性能較好的神經網絡,已在多個領域得到廣泛應用。Han等人[25]提出了一種結合K-means聚類和GRU神經網絡的在線學習模型用于軌跡預測,利用基于GRU神經網絡的在線學習預測模型分別對各聚類的軌跡點進行學習。Tang等人[26]提出了基于GRU神經網絡的情感分類文檔建模研究,GRU神經網絡將句子的語義和句子之間的關系自適應地編碼到文檔中,實驗結果表明GRU神經網絡在情感分類的文檔建模方面顯著優于循環神經網絡。Wang等人[27]提出了基于混合注意力機制與GRU神經網絡(HATT-GRU)的投訴分類模型,用雙向GRU神經網絡捕獲不同長度的序列信息,并學習特征之間的關聯。Kim等人[28]提出了基于CNN-GRU的多元時間序列數據區域聚類特征提取模型,利用CNN來識別每個變量的特征,并基于GRU得出隨時間變化的趨勢。而本文中使用雙向GRU神經網絡對學習者進行建模 ,Bi-GRU將兩個方向相反的隱藏層連接到同一個輸出,可以同時從前向和反向訓練學習者的歷史答題序列獲取信息。

2.3 自注意力機制

自注意力機制是注意力機制的變體,自注意力機制減少了對外部信息的依賴,更擅長捕捉數據的內部相關性,主要通過計算練習題間的相互影響來解決長期依賴問題。Vaswani等人[29]使用自注意力機制代替循環神經網絡建模,提出了Transformer模型應用于機器翻譯。隨后,Pandey等人[30]首次將自注意力機制應用于知識追蹤領域,提出了基于自注意力機制的知識追蹤模型SAKT。Choi等人[31]認為SAKT模型的注意力層太淺,且Q、K、V的計算方法缺乏經驗,提出了SAINT模型解決這兩個問題。Pandey等人[32]提出了一種新的關系感知的知識追蹤自注意模型(RKT),引入了一個包含上下文信息的關系感知自注意力層。Gosh等人[33]提出了AKT模型,該模型使用Rasch模型對概念和問題嵌入進行正則化,使用了一種新穎的單調注意機制,將學習者對評估問題的未來反映與他們過去的反映聯系起來。本文使用自注意力機制來學習練習題之間的關系權重,以預測學習者能否正確回答下一練習題,通過增加練習題之間的關系來提高模型的預測性能。

3 模型描述

3.1 KTSA-BiGRU模型設計思想

針對現有深度知識追蹤模型隨著隱藏層的增加,循環神經網絡會產生梯度消失或梯度爆炸問題,導致模型無法通過加深網絡層來改善模型的預測效果,循環神經網絡只有靠近輸出層的若干層起到學習的作用,使得循環神經網絡難以學習到輸入序列中的長距離依賴關系。本文提出的KTSA-BiGRU模型通過研究練習題之間的關系對預測結果產生的影響,再采用自注意力機制和雙向GRU神經網絡對DKT模型進行優化。優化的過程先利用雙向GRU神經網絡對學習者進行建模,將學習者過去和未來的上下文序列信息集成到模型的多個知識點概念中;另外,將自注意力機制融入深度知識追蹤模型中,對注意力權重賦予初始值,同時隨著模型的訓練不斷地更新注意力權重的值,通過注意力權重直接捕獲輸入練習題之間的關系。表1總結了本文中使用的數學符號。

3.2 KTSA-BiGRU模型

本文提出了基于自注意力機制與雙向GRU神經網絡的深度知識追蹤模型KTSA-BiGRU,如圖1所示。KTSA-BiGRU模型包含對學習者的歷史學習交互序列x={x1,x2,…,xt}進行建模和預測輸出兩個部分。其中,KTSA-BiGRU模型建模過程包含兩個主要部分,即練習輸入和學習者嵌入。練習輸入以練習題qt以及練習題所對應的答案at作為輸入,將學習者的歷史學習交互元組x={(q1,a1),(q2,a2),…,(qt,at)}投影到實值向量中;學習者嵌入通過雙向GRU神經網絡獲取學習者歷史答題序列的特征向量,捕獲輸入序列數據的局部特征,實現學習者學習行為的有效建模;預測輸出使用自注意力機制計算練習題之間的相關權重,生成權重向量矩陣F,再以學習者t時刻的隱向量ht和自注意力機制得到的權重向量矩陣F作為輸入,通過sigmoid函數輸出學習者t+1時刻的做題表現。KTSA-BiGRU模型訓練過程偽代碼如算法1所示。

算法1 模型訓練過程

輸入:學習者歷史答題序列集合x={x1,x2,…,xt};迭代次數epoch。

輸出:學習者正確回答特定問題的預測概率集合。

a)OnehotEncoder(X); //將練習輸入進行onehot編碼

b)初始化模型參數;

c)for i=1;epoch do; //根據迭代次數進行訓練

d)ht=→ht+←ht; /*學習者嵌入訓練雙向GRU將兩個方向相反的隱藏層連接到同一個輸出*/

e)attention(Q,K,V)=softmax(QKT)d; //更新注意力權重

f)Pt+1=sigmoid(w0·ht)⊕(Fiw+b))/*預測輸出根據雙向GRU神經網絡輸出的隱向量和注意力權重計算學習者正確回答下一問題的概率*/

g)結束步驟

3.2.1 練習輸入

練習輸入旨在從學習者的歷史學習交互數據中獲得每個練習的實值向量表示。如圖1所示,給定學習者的練習過程x={(q1,a1),(q2,a2),…,(qt,at)},將學習者的歷史學習交互元組(qt,at)投影到實值向量中,輸入層的輸入是練習題qt以及練習題所對應的答案at。 為了把學習者的歷史學習交互數據轉換成一系列固定長度的輸入向量,將學習者的作答表現通過向量來表示。本文使用了one-hot編碼表示法和壓縮感知表示法。假設所有的練習題相關的知識點一共有M個,one-hot編碼表示為在任意一個時刻t,定義一個長度為2M空向量xt,用來存儲t時刻學習者的作答表現。設該時刻學習者作答的練習題與知識點q有關系,若學習者正確回答該練習題,則將向量xt的第M+q位標為1,其余位都標為0;若學習者回答錯誤該練習題,則將第q位標為1,其余位都標為0。依此類推將可獲得嵌入層的所有向量表示。所以,如果有M個知識點,那么xt∈{0,1}2M。當包含的知識點數量過多時,使用one-hot編碼表示會產生向量稀疏的現象,因此需要用壓縮感知表示法對向量進行壓縮。壓縮感知表示為通過學習者的歷史作答序列元組將其分配給一個固定長度為log 2M的隨機高斯輸入向量來精確編碼。

3.2.2 學習者嵌入

學習者嵌入旨在對整個學習者練習過程進行建模,并結合歷史上學習者表現的影響,學習者在不同練習步驟中的隱藏表征,即學習者的學習狀態。如圖2所示本文采用雙向GRU神經網絡對學習者進行建模,將每個特定學習者練習過程的實值向量作為輸入,假設時間步長正向隱藏狀態為ht∈?n×h(正向隱藏單元數為h),反向隱藏狀態為ht∈? n×h(反向隱藏單元數為h),同時訓練兩個相反方向的GRU神經網絡,將兩個方向相反的隱藏層連接到同一個輸出,輸出層可以同時獲得向前和向后狀態的信息。將學習者過去和未來的上下文序列信息集成到模型的多個知識點概念中,更準確地模擬學習者的學習狀態,從而不考慮輸入序列的長度。按照式(6)來計算更新隱向量。

其中:xt表示當前時刻的輸入;ht-1表示上一時刻的輸出;Wr、Wz、Wh~、W0為相應的權重矩陣;zt和rt分別表示更新門和重置門;[]表示矩陣的連接;* 表示矩陣元素相乘。

3.2.3 預測輸出

為了考慮學習者所做練習題之間的關系會影響其知識的掌握狀態,KTSA-BiGRU假設學習者t+1時刻的知識點掌握狀態基于練習題qt+1和歷史做題記錄{x1,x2,…,xt}。模型引入了自注意力機制,如圖1紅線所示(見電子版)。自注意力機制將實值向量作為輸入計算預測練習題之間的相關權重,生成權重向量矩陣F;使用縮放的點積向量注意力機制,找到對應每個先前所做練習的相對權重,用于預測當前練習是否能答對。本文使用以下公式計算查詢矩陣和鍵值對:

其中:WQ、WK、WV分別為查詢、鍵和值的投影矩陣,它們將各自的向量線性投影到不同的空間。使用注意力權重來確定每個先前的練習題與當前練習題之間的相關性。為了找到注意力權重,本文使用了向量點積,定義公式如下:

為了使模型能夠表示不同子空間中的學習相關信息,注意力權重被計算了x次,并將x次的結果相連接。稱為多頭注意力(multi-head attention,MHA):

為了將非線性納入模型,并考慮不同潛在維度之間的相互作用,本文使用了前饋神經網絡來計算,計算公式如下:

其中:W1∈? d×d,W2∈? d×d,b1∈? d,b2∈? d是訓練中學習的參數。

學習者正確回答練習題,不僅與學習者對之前掌握的練習題有關,還與學習者本身是否復習或預習有關,所以本文通過雙向GRU神經網絡對學習者進行建模,將兩個相反方向的神經網絡進行訓練,最終得到的輸出向量通過式(6)計算得到。最后,將通過雙向GRU神經網絡得到的隱向量和自注意力機制得到的練習題相關矩陣輸入到一個帶有sigmoid激活函數的全連接層中,得到表示學習者在t+1時刻答對練習題的概率Pt+1。其中,w0和b分別表示全連接層的權重和偏置,Fi表示相關練習矩陣F的第i行。

3.2.4 模型優化目標

損失函數是用來計算預測值與真實值之間的差值,故要最小化損失函數。基于自注意力機制和雙向GRU神經網絡的知識追蹤優化模型通過采用Adam算法作為優化方法,Adam算法是對隨機梯度下降算法(stochastic gradient descent,SGD)的擴展,它可以代替經典的隨機梯度下降算法來更有效地更新網絡的權重值。本文通過執行輸出向量yt的下一個問題qt+1的注意力權重的點積和二進制交叉熵損失函l來構建訓練模型。損失函數表示如下:

其中:t表示時刻;n為輸入實值向量的數量;l為交叉熵損失函數;at+1是目標輸入;Ft為自注意力機制的輸出;ht為雙向GRU神經網絡的輸出;Wt和bt為可訓練的參數。

4 實驗

為了評估KTSA-BiGRU模型的表現,本文將基于貝葉斯的知識追蹤模型(BKT)、基于深度學習的知識追蹤模型(DKT)和正則化的深度知識追蹤模型(DKT+)作為對照組,將KTSA-BiGRU、BKT、DKT和DKT+模型應用于三個公開數據集進行對比實驗。實驗結果表明,KTSA-BiGRU模型提升了知識追蹤模型的預測精度,并能夠有效地解決DKT模型在預測中存在的問題。

4.1 數據集介紹

本文使用了Heffernan教授團隊公開發布的數據集ASSISTmentsData[5]和KDD Cup2010的數據集。其中,ASSISTmentsData數據集從教學輔導系統獲得的小學數學練習題的答題記錄,是目前公開的知識追蹤領域最大的數據集。ASSISTmentsData提供了三組數據,在本文中使用了其中兩個數據集ASSISTments2009和ASSISTments2015。KDD Cup2010數據集是智能教學輔導系統和學習者之間的交互日志,用來預測學習者數學題的考試成績,本文使用了其中的Bridge to Algebra 2006—2007數據集[34]。三組數據集的相關信息如表2、3所示。

1)ASSISTments2009 該數據集包括了skill builder和non skill builder兩個子數據集,本文選取了skill builder數據集進行測試,其數據包括4 151名學習者、124個練習標簽、325 637次學習互動。選擇練習題ID(problem_id)和是否正確答題(correct)作為輸入序列。

練習題ID:學習者答題的題號。

是否正確答題(correct):學習者是否正確回答練習題,1表示回答正確,0表示回答錯誤。

2)ASSISTments2015 該數據集為2015年收集的skill builder數據,其數據包括19 804名學習者、100個練習標簽、683 801次學習互動。選擇練習題ID(problem_id)和是否正確答題(correct)作為輸入序列。

練習題ID:學習者答題的題號。

是否正確答題(correct):學習者是否正確回答練習題,1表示回答正確,0表示回答錯誤。

3)Bridge to Algebra 2006—2007 該數據集是從卡內基學習平臺收集,其數據包括1 146名學習者、207 794個練習標簽、3 669 306次學習交互。選擇練習題ID(problem_id)和是否正確答題(correct)作為輸入序列。

練習題ID:學習者答題的題號。

是否正確答題(correct):學習者是否正確回答練習題,1表示回答正確,0表示回答錯誤。

4.2 評價指標

為衡量本文提出的KTSA-BiGRU模型預測學習者作答表現的有效性,本文采用AUC(area under curve)、準確率ACC(accurary)、精確率(precision)評價預測性能的指標。AUC被定義為接收者操作特征曲線(ROC)下的面積(AUC),AUC值的在0~1,AUC值為0.5意味著模型結果為隨機猜測,AUC的值越接近1表明模型的預測準確性越高。ACC表示所有預測正確結果占全部預測結果的百分比,ACC的值越高說明模型的預測性能越好。精確率又稱做查準率,表示預測結果為正的樣本占實際為正樣本的百分比,精確率的值越高說明模型的預測性能越好。

4.3 對比方法參數設置

本文開展對比實驗的目的有兩個:a)驗證基于自注意力機制和雙向GUR神經網絡的深度知識追蹤優化模型(KTSA-BiGRU)是否能夠解決深度知識追蹤(DKT)模型無法處理長歷史交互序列輸入問題;b)相比同樣的知識追蹤模型,在相同的數據集上驗證本文提出的KTSA-BiGRU模型能否提高深度知識追蹤的預測精度。對比實驗的相關參數設置如下:

a)BKT[12]。BKT模型是基于隱馬爾可夫模型構建學習者認知狀態變化的模型。實驗設置四個主要參數:P(L0)表示學習者還未開始答題時對練習題所涉及知識點的掌握程度;P(G)表示學習者猜測的概率,即學習者未掌握該知識點但答對練習題的概率;P(S)表示學習者失誤的概率,即學習者掌握該知識點但答錯練習題的概率;P(T)表示學習者轉移概率,即學習者做題后知識狀態從不會到會的概率。

b)DKT[5]。 實驗超參數設置參照Piech等人的方法,長短時記憶神經網絡隱藏層的大小為100,每批數據大小batch_size設為64,使用Adam作為優化器,學習率為0.01。

c)DKT+[8]。實驗按照 Yeung等人的方法設置超參數,長短時記憶神經網絡隱藏層的大小為100,每批數據大小batch_size設為64,使用Adam作為優化器,學習率為0.01。

本文模型與其他三個較為經典的知識追蹤模型的區別與聯系如表4所示。

4.4 學習者表現預測結果分析

預測學習者未來做題表現是知識追蹤的任務之一。通過比較模型的預測結果來比較模型的預測性能。本文在三個數據集中,隨機劃分80%的學習者用于訓練,其余20%的學習者用于測試訓練后的模型。

表5給出了KTSA-BiGRU模型與三個對比模型在三個數據集上的AUC、ACC和準確率值的對比結果。KTSA-BiGRU模型在三個數據集上的AUC、ACC和準確率值都優于其他三種對比方法。實驗結果表明,KTSA-BiGRU模型在預測學習者未來作答表現的性能方面優于其他三種模型。從實驗對比結果可知,BKT模型在三個數據集上的預測性能最低,這說明BKT模型利用隱馬爾可夫模型將學習者對某一知識點的潛在知識狀態建模為二進制變量是有局限性的。DKT模型利用循環神將網絡為學習者的整體知識水平建模,而循環神經網絡存在梯度消失問題導致模型無法處理過長的歷史學習序列輸入,因此DKT模型在兩個數據集上的預測性能低于DKT+和KTSA-BiGRU模型。DKT+和KTSA-BiGRU模型都是對DKT模型無法處理過長的歷史學習序列輸入作出的改進,但是DKT+模型只是通過引入正則化參數來緩解此問題,而KTSA-BiGRU模型將自注意力機制和雙向GRU神經網絡融入知識追蹤模型,可以直接捕獲練習題之間的關系來解決DKT模型無法處理過長的歷史學習序列輸入。因此,KTSA-BiGRU模型的預測性能強于DKT+模型。

為了進一步驗證本文提出的KTSA-BiGRU模型優于其他模型,對模型進行了過擬合分析。過擬合現象表現為模型在訓練集上效果好,在測試集上效果差。本文比較了KTSA-BiGRU、DKT和DKT+模型訓練期間在訓練集和驗證集上的AUC值曲線。如圖3所示,DKT模型在ASSISTments 2009、ASSISTments 2015、Bridge to Algebra 2006—2007數據集上都出現了過擬合現象,且DKT模型在ASSISTments 2009數據集上驗證的AUC值波動很大。DKT+模型在ASSISTments 2009、ASSISTments 2015數據集出現了過擬合現象。KTSA-BiGRU模型在三個數據集上都能夠防止過擬合現象,訓練和驗證AUC值的曲線保持接近直至收斂。

4.5 消融實驗研究

為了更深入地了解KTSA-BiGRU模型中自注意力機制和雙向GRU神經網絡的效果,本文設計了兩個消融實驗來進一步研究KTSA-BiGRU模型。首先研究隱藏層數對模型的影響,將雙向GRU神經網絡的隱藏層數分別取30、50、80、100。實驗結果如表6所示,從表6中能夠發現,當隱藏層數為30~100時,KTSA-BiGRU模型的性能略有變化,所以在不影響模型訓練效率的情況下,采用更多的隱藏層數優于更少層的性能。

為了驗證自注意力機制和雙向GRU神經網絡對KTSA-BiGRU模型的影響,對自注意力機制和雙向GRU神經網絡進行了消融實驗。其中一個模型的訓練只融入自注意力機制,另一個模型的訓練只融入雙向GRU神經網絡。結果如表7所示。融入自注意力機制和雙向GRU神經網絡都能提高知識追蹤模型的性能,且融入自注意力機制模型的性能優于融入雙向GRU神經網絡,其原因在于自注意力機制能夠更好地捕獲學習者所做練習題之間的關系。而基于自注意力機制和雙向GRU神經網絡的模型KTSA-BiGRU性能更好,原因在于該模型不僅能夠更好地捕獲學習者所做練習題之間的關系,還能將學習者過去和未來的上下文序列信息集成到模型的多個知識點概念中,更好地模擬學習者的學習過程。

4.6 學習者預測可視化分析

為了更直觀地展示實驗結果,本文進行了一些可視化實驗。選取了數據集ASSISTments2009中一位學習者在某段時間里的學習記錄,并分別使用KTSA-BiGRU和DKT模型追蹤學習者對五個知識點掌握狀態的變化,得到的結果如圖4(a)(b)所示。圖中橫軸表示學習者的歷史學習記錄,元組(qt,at)中qt表示學習者回答的練習題,at表示學習者的回答情況。縱軸表示模型追蹤的五個知識點。實驗結果顯示圖4(a)DKT模型存在預測波動問題。首先是DKT模型在預測中不能重構輸入信息。例如在圖4(a)中的第三個時間步,與前一個時間步相比,正確回答與技能s20相關練習的概率增加,盡管回答s20不正確。其次是觀察到預測輸出(即學習者的知識狀態)在時間步上的轉變是不一致的,如圖4(a)所示,一些技能的預測性能在時間步長上有突然的波動。例如當學習者在學習序列的中間回答s20和s21時,正確回答s22、s23和s24的概率存在波動,這是不合理的,因為學習者的知識狀態預計會隨著時間的推移逐漸轉變,但是不會在已掌握和未掌握之間交替。相比之下,圖4(b)KTSA-BiGRU模型預測表現出明顯的平滑預測過度。本文可以從這些結果得出結論,自注意力機制與雙向GRU神經網絡協同的深度知識追蹤模型能夠較好地解決深度知識追蹤中的問題。

5 結束語

針對現有的深度知識追蹤模型使用循環神經網絡建模,隨著隱藏層的增加循環神經網絡會產生梯度消失問題,導致模型無法有效處理過長的歷史學習交互序列輸入。本文提出了基于自注意力機制和雙向GRU神經網絡的深度知識追蹤優化模型(KTSA-BiGRU)。實驗結果表明,KTSA-BiGRU模型不僅能夠通過學習者的歷史學習交互序列數據來預測學習者未來作答表現,還能通過輸入練習題之間的關系來預測學習者未來作答表現,更準確地模擬學習者的學習狀態,在三個公共數據集上的性能分析優于現有的知識追蹤模型,并提高了深度知識追蹤模型的預測精度。在未來的研究中,關注更多學習者的特征因素對模型的影響,提升了基于自注意力機制和雙向GRU神經網絡的深度知識追蹤優化模型(KTSA-BiGRU)的預測性能,盡管KTSA-BiGRU模型在實驗結果上取得了比DKT模型更好的結果,本文也只是在理論上對該模型工作流程進行了闡述,未來需要進一步對該模型的可解釋性進行探索和研究。

參考文獻:

[1]Liu Qi, Huang Zhenya, Yin Yu, et al. EKT:exercise-aware know-ledge tracing for student performance prediction[J].IEEE Trans on Knowledge and Data Engineering,2019,33(1):100-115.

[2]馬驍睿,徐圓,朱群雄.一種結合深度知識追蹤的個性化習題推薦方法[J].小型微型計算機系統,2020,41(5):990-995.(Ma Xiao-rui, Xu Yuan, Zhu Qunxiong. A personalized exercise recommendation method combined with deep knowledge tracking[J].Journal of Chinese Computer Systems,2020,41(5):990-995.)

[3]Agrawal S, Lalwani A. Analysing problem sequencing strategies based on revised bloom’s taxonomy using deep knowledge tracing[C]//Proc of International Conference on Intelligent Tutoring Systems.Berlin:Springer,2018:407-410.

[4]Jiang Bo, Ye Yun, Zhang Haifeng. Knowledge tracing within single programming exercise using process data[C]//Proc of the 26th International Conference on Computers in Education.2018:89-94.

[5]Piech C, Spencer J, Huang J, et al. Deep knowledge tracing[J].Computer Science,2015,3(3):19-23.

[6]張蘭霞,胡文心.基于雙向GRU神經網絡和雙層注意力機制的中文文本中人物關系抽取研究[J].計算機應用與軟件,2018,35(11):130-135.(Zhang Lanxia, Hu Wenxin. Research on character relationship extraction in Chinese text based on two-way GRU neural network and two-layer attention mechanism[J].Computer Applications and Software,2018,35(11):130-135.)

[7]Zhu Jia, Yu Weihao, Zheng Zetao, et al. Learning from interpretable analysis: attention-based knowledge tracing[C]//Proc of International Conference on Artificial Intelligence in Education.Berlin:Springer,2020:364-368.

[8]Yeung C K, Yeung D Y. Addressing two problems in deep knowledge tracing via prediction-consistent regularization[C]//Proc of the 5th Annual ACM Conference on Learning at Scale.New York:ACM Press,2018:1-10.

[9]De La Torre J. DINA model and parameter estimation:a didactic[J].Journal of Educational and Behavioral Statistics,2009,34(1):115-130.

[10]Harvey R J, Hammer A L. Item response theory[J].Counseling Psychologist,1999,27(3):353-383.

[11]王超,劉淇,陳恩紅,等.面向大規模認知診斷的DINA模型快速計算方法研究[J].電子學報,2018,46(5):1047-1055.(Wang Chao, Liu Qi, Chen Enhong, et al. Research on fast calculation method of DINA model for large-scale cognitive diagnosis[J].Acta Electronica Sinica,2018,46(5):1047-1055.)

[12]Corbett A T, Anderson J R. Knowledge tracing: modeling the acquisition of procedural knowledge[J].User Modeling and User-Adapted Interaction,1994,4:253-278.

[13]Hawkins W J, Heffernan N T. Using similarity to the previous pro-blem to improve bayesian knowledge tracing[C]//Proc of the 7th International Conference on Educational Data Mining.2014:136-140.

[14]Spaulding S, Breazeal C. Affect and inference in Bayesian knowledge tracing with a robot tutor[C]//Proc of the 10th Annual ACM/IEEE International Conference on Human-Robot Interaction Extended Abstracts.New York:ACM Press,2015:219-220.

[15]Agarwal D, Baker R S. Dynamic knowledge tracing through data driven recency weights[C]//Proc of the 27th International Conference on Computers in Education.2019.

[16]Lin Chen, Chi Min. Intervention-BKT: incorporating instructional interventions into Bayesian knowledge tracing[C]//Proc of International Conference on Intelligent Tutoring Systems.Berlin:Springer,2016:208-218.

[17]Khajah M M, Huang Yun, González-Brenes J P, et al. Integrating knowledge tracing and item response theory: a tale of two frameworks[C]//Proc of the 7th International Conference on Educational Data Mining.2014:7-15.

[18]Huang Yun, Guerra J, Brusilovsky P. A data-driven framework of modeling skill combinations for deeper knowledge tracing[C]//Proc of the 7th International Conference on Educational Data Mining.2016:593-594.

[19]Nakagawa H, Iwasawa Y, Matsuo Y. End-to-end deep knowledge tracing by learning binary question-embedding[C]//Proc of IEEE International Conference on Data Mining Workshops.Piscataway,NJ:IEEE Press,2018:334-342.

[20]Minn S, Yu Yi, Desmarais M C, et al. Deep knowledge tracing and dynamic student classification for knowledge tracing[C]//Proc of IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2018:1182-1187.

[21]Abdelrahman G, Wang Qing. Knowledge tracing with sequential key-value memory networks[C]//Proc of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2019:175-184.

[22]Sha Long, Hong Pengyu. Neural knowledge tracing[C]//Proc of International Conference on Brain Function Assessment in Learning.Berlin:Springer,2017:108-117.

[23]劉鐵園,陳威,常亮,等.基于深度學習的知識追蹤研究進展[J]. 計算機研究與發展,2022,59(1):81-104.(Liu Tieyuan, Chen Wei, Chang Liang, et al. Research progress in knowledge tracking based on deep learning[J].Computer Research and Development,2022,59(1):81-104.)

[24]張暖,江波.學習者知識追蹤研究進展綜述[J].計算機科學,2021,48(4):213-222.(Zhang Nuan, Jiang Bo. A review of the research progress of learner knowledge tracking[J].Computer Science,2021,48(4):213-222.)

[25]Han Ping, Wang Wenqing, Shi Qingyan, et al. A combined online-learning model with K-means clustering and GRU neural networks for trajectory prediction[J].Ad hoc Networks,2021,117:102476.

[26]Tang Duyu, Qin Bing, Liu Ting. Document modeling with gated recurrent neural network for sentiment classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2015:1422-1432.

[27]Wang Shuyang, Wu Bin, Wang Bai, et al. Complaint classification using hybrid-attention GRU neural network[C]//Proc of Pacific-Asia Conference on Knowledge Discovery and Data Mining.Berlin:Springer,2019:251-262.

[28]Kim J, Moon N. CNN-GRU-based feature extraction model of multivariate time-series data for regional clustering[M]//Advances in Computer Science and Ubiquitous Computing.Berlin:Springer,2021:401-405.

[29]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems.Cambridge,CA:MIT Press,2017:5998-6008.

[30]Pandey S, Karypis G. A self-attentive model for knowledge tracing[EB/OL].(2019).https://arxiv.org/abs/1907.06837.

[31]Choi Y, Lee Y, Cho J, et al. Towards an appropriate query, key, and value computation for knowledge tracing[C]//Proc of the 7th ACM Conference on Learning Scale.New York:ACM Press,2020:341-344.

[32]Pandey S, Srivastava J. RKT: relation-aware self-attention for know-ledge tracing[C]//Proc of the 29th ACM International Conference on Information amp; Knowledge Management.New York:ACM Press,2020:1205-1214.

[33]Ghosh A, Heffernan N, Lan A S. Context-aware attentive knowledge tracing[C]//Proc of the 26th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining.New York:ACM Press,2020:2330-2339.

[34]http://pslcdatashop.web.cmu.edu/KDDCup/downloads.Jsp[EB/OL].

主站蜘蛛池模板: 亚洲视屏在线观看| 91精品免费久久久| 丰满人妻被猛烈进入无码| 综合五月天网| 日韩性网站| 中文字幕资源站| 四虎永久在线视频| 国产福利影院在线观看| 国内精品久久久久鸭| 极品国产一区二区三区| 国内精品久久久久鸭| 国产一区成人| 婷婷六月综合网| 最近最新中文字幕免费的一页| 亚洲第一精品福利| 波多野结衣无码视频在线观看| 女同国产精品一区二区| 亚洲成人免费在线| 玩两个丰满老熟女久久网| 国产爽妇精品| 在线中文字幕日韩| 91人人妻人人做人人爽男同 | 婷婷六月激情综合一区| 亚洲,国产,日韩,综合一区| a天堂视频在线| 亚洲无码91视频| 国产杨幂丝袜av在线播放| 理论片一区| 国产成人1024精品| 久久久久国产精品免费免费不卡| 国产网站免费观看| 欧美成人一区午夜福利在线| 精品视频一区在线观看| 色香蕉影院| 99精品高清在线播放| 国产人人干| 亚洲伦理一区二区| 天天综合网在线| 99久久精品免费观看国产| 国产一区成人| 91国内视频在线观看| 国产精品三级av及在线观看| 中文字幕亚洲第一| 日韩精品亚洲一区中文字幕| 国产sm重味一区二区三区| 超级碰免费视频91| 天堂网亚洲综合在线| 亚洲视频一区| 欧美黑人欧美精品刺激| 3344在线观看无码| 国产日韩精品欧美一区喷| 国产在线八区| 91精品最新国内在线播放| 午夜毛片免费观看视频 | 欧美日韩第三页| 精品人妻系列无码专区久久| 久久久受www免费人成| 22sihu国产精品视频影视资讯| 天堂亚洲网| 久久免费精品琪琪| 中文天堂在线视频| 黄色网页在线播放| 亚洲一道AV无码午夜福利| 一区二区三区在线不卡免费| 5388国产亚洲欧美在线观看| 成人噜噜噜视频在线观看| 国产精品视频第一专区| 亚洲av无码牛牛影视在线二区| 99精品一区二区免费视频| 国产色婷婷| 伊人无码视屏| 人妻无码一区二区视频| 婷婷色婷婷| 色吊丝av中文字幕| 欧美一级高清免费a| 日韩精品毛片| 国产资源免费观看| 亚洲精品欧美日韩在线| 欧美色99| 国产成人艳妇AA视频在线| 国产高清在线观看91精品| 久久夜色撩人精品国产|