999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LFKT:學習與遺忘融合的深度知識追蹤模型?

2021-05-23 13:17:18李曉光魏思齊杜岳峰
軟件學報 2021年3期
關鍵詞:模型學生

李曉光,魏思齊,張 昕,杜岳峰,于 戈

1(遼寧大學 信息學院,遼寧 沈陽 110036)

2(東北大學 計算機科學與工程學院,遼寧 沈陽 110163)

在線教育系統提倡因材施教,即根據學生的知識水平為其推薦合適的學習資源[1].學生的知識水平受其學習階段和認知能力的影響,在學習過程中不斷變化.實時追蹤學生知識水平,對于個性化在線教育至關重要[2,3].知識追蹤(knowledge tracing,簡稱KT)任務主要包括:(1)通過學生的學習歷史實時追蹤其知識水平變化;(2)根據學生的知識水平預測其在未來學習中的表現.

傳統的知識追蹤技術主要有基于隱馬爾可夫模型(HMM)[4]的貝葉斯知識追蹤(BKT)[5].近年來,深度學習在自然語言處理[6]及模式識別[7]等任務上的表現優于傳統模型.在知識追蹤研究領域,亦提出了大量基于深度學習的知識追蹤模型.基于循環神經網絡的深度知識追蹤(DKT)模型[8]采用循環神經網絡的隱藏向量表示學生的知識狀態,并且據此預測學生的表現.動態鍵-值對記憶網絡(DKVMN)[9]借鑒了記憶網絡(memory network)[10]的思想,用值矩陣表示學生對于各個知識點的掌握程度,并以此預測學生表現,提升預測準確度.但是以上知識追蹤方法都忽略了學生在學習過程中的遺忘行為對知識水平的影響.在教育心理學領域已經有很多學者認識到人類的遺忘行為,并且探索影響人類遺忘的因素.教育心理學理論艾賓浩斯遺忘曲線理論[11,12]提出:學生會遺忘所學知識,遺忘帶來的影響是知識掌握程度的下降.學生重復學習知識點的次數與距離上次學習知識點的時間間隔會影響學生的遺忘程度.教育心理學理論記憶痕跡衰退說[13]認為:遺忘是記憶痕跡的衰退引起的,消退隨時間的推移自動發生,原始的痕跡越深,則遺忘的程度越低.目前,在知識追蹤領域,只有少數的研究考慮了學生的遺忘行為.BKT 的擴展[14,15]考慮了艾賓浩斯遺忘曲線提到的影響遺忘程度的兩個因素:重復學習知識點的次數和間隔時間.DKT 的擴展[16]考慮了學生順序學習的間隔時間,該研究認為:學科中的各個知識點是相通的,持續的學習會降低學生對于知識點的遺忘程度.然而,以上的研究僅僅考慮了部分影響學生遺忘的信息,忽略了學生原本知識水平對于遺忘程度的影響,學生對于其掌握的知識點和沒有掌握的知識點的遺忘程度不同.與此同時,由于BKT 算法與DKT 算法的局限性,以往涉及遺忘的研究或者僅考慮了學生對于單個知識點的遺忘程度,或者僅考慮了學生對于整個知識空間的遺忘程度,沒有建模學生對知識空間中的各個知識點的遺忘情況.

針對于此,本文提出一種兼顧學習和遺忘的深度知識追蹤模型 LFKT(learning and forgetting behavior modeling for knowledge tracing).LFKT 擬合了學生的學習與遺忘行為,實時更新、輸出知識點掌握程度,并以此預測其未來表現.本文主要創新和貢獻有:

(1)結合教育心理學,知識追蹤模型LFKT 考慮了4 個影響知識遺忘的因素:學生重復學習知識點的間隔時間、重復學習知識點的次數、順序學習間隔時間以及學生對于知識點的掌握程度.LFKT 根據以上信息建模遺忘行為,擬合學生因遺忘行為導致的知識掌握程度變化;

(2)基于深度神經網絡技術,LFKT 設計了一個基于RNN 和記憶神經網絡的知識追蹤神經網絡.該網絡包括注意力層、遺忘層、學習層、預測層和知識水平輸出層.其中:遺忘層采用全連接網絡計算記憶擦除向量和記憶更新向量,用以擬合遺忘行為;學習層采用LSTM 網絡,并利用學生在學習結束時的答題結果作為知識掌握程度的間接反饋.根據記憶擦除向量和記憶更新向量,獲得經過遺忘后的知識掌握程度的中間嵌入,并以此作為學習層的輸入,進而獲得遺忘與學習相融合的知識掌握程度嵌入;

(3)通過在兩個真實在線教育數據集上的實驗驗證結果表明:LFKT 可以有效地建模學生的學習行為與遺忘行為,實時追蹤學生的知識水平,并且LFKT 模型的預測性能優于現有模型.

本文第1 節介紹知識追蹤相關工作.第2 節給出相關概念和符號定義,并提出問題.第3 節詳細介紹LFKT模型結構以及訓練方法.第4 節給出LFKT 對比實驗結果和分析.最后總結全文.

1 相關工作

知識追蹤大致可以分為基于隱馬爾可夫模型的知識追蹤與基于深度學習的知識追蹤.

貝葉斯知識追蹤是典型的基于隱馬爾可夫模型實現知識追蹤目標的模型之一.BKT 將學生對某個知識點的潛在知識狀態建模為一組二進制變量,每一個變量代表學生對于特定知識點“掌握”或“沒掌握”,根據隱馬爾可夫模型更新學生的知識狀態,進而更新其在未來學習中的表現.在BKT 的基礎上,通過考慮其他因素,提出了很多擴展方案,例如:Pardos 等人的研究[17]引入了習題難度對預測學生表現的影響;Baker 等人的研究[18]引入了學生猜測和失誤對預測學生表現的影響;Khajah 等人的研究[19]將人類的認知因素擴展到BKT 中,從而提高預測精度.基于隱馬爾可夫的知識追蹤模型將學生對各個知識點的掌握程度分別建模,忽略各個知識點之間的關系.BKT 模型簡單地將學生對于各個知識點的掌握程度分為“掌握”與“未掌握”,忽略了中間情況.

深度知識追蹤是深度學習模型循環神經網絡在知識追蹤任務的首次嘗試,將學生的學習歷史作為輸入,使用RNN 隱藏狀態向量來表示學生的知識水平,并且基于此預測學生未來學習表現.DKT 模型無法建模學生對于各個知識點的掌握程度,僅僅可以建模學生的整個知識水平.Chen 等人的研究[20]考慮了知識點之間的先驗關系,提升了DKT 的預測性能.Su 等人的研究[21]將習題文本信息和學生的學習歷史作為循環神經網絡的輸入,利用RNN 的隱向量建模學生的知識水平,取得了較好的預測效果,但是依舊無法建模學生對于各個知識點的掌握程度.DKVMN 模型借鑒了記憶網絡的思想,用值矩陣建模學生對于各個知識點的掌握程度,考察習題與各個知識點之間的關系,追蹤學生對于各個知識點的掌握程度.Abdelrahman 等人的研究[22]利用注意力機制,著重考察學生作答相似習題時的答題歷史,改進了 DKVMN.Sun 等人的研究[23]將學生答題時的行為特征擴展到DKVMN,從而取得更好的預測效果.Liu 等人的研究[24]利用習題的文本信息與學生的學習歷史進行知識追蹤.Nakagawa 等人的研究[25]用知識圖建模各個知識點之間的關系,取得了良好的預測效果.Minn 等人的研究[26]根據學生的知識水平對學生進行分類,再對每一類學生進行知識追蹤.Cheng 等人的研究[27]通過深度學習擴展了傳統方法項目反映理論.Shen 等人的研究[28]考慮了每個學生的個性化差異,取得了很好的效果.Ai 等人的研究[29]考慮了知識點之間的包含關系,重新設計了記憶矩陣,改進了DKVMN,取得了良好的效果.關于學生遺忘行為對知識掌握狀態的影響,Qiu 等人[15]考慮了學生距離上一次重復學習知識點的間隔時間,將新一天的標記加入到BKT 中,建模先前學習之后一天的遺忘行為,但是無法對較短時間的遺忘行為進行建模.Khajah 等人的研究[14]應用學生重復學習知識點的次數估計遺忘的概率,改進了BKT,提升了預測準度.Nagatani 等人的研究[16]考慮了重復學習知識點的次數、距離上一次學習知識點的間隔時間和距離上一次學習的間隔時間,改進了DKT模型,但忽略了學生原本對于知識點掌握程度對學生遺忘程度影響.

總的來說,當前的研究可以一定程度上追蹤學生對于各個知識點的掌握程度,但或者忽略了學生遺忘行為,默認學生在學習間隔前后知識水平一致;或者對于遺忘行為的建模不夠全面.本文所提出的LFKT 模型綜合考察了影響學生遺忘程度的因素,將學生的練習結果作為學生知識掌握程度的間接反饋,建模學生的學習與遺忘行為,實時追蹤學生對于各個知識點的掌握程度,預測學生未來學習表現.

2 問題定義

這里,我們定義S為學生集合,K為知識點集合,E為習題集合.每個學生單獨進行學習,互不影響.學生s的答題歷史Hs=[(e1,r1),(e2,r2),...,(et,rt)],其中:et為學生t時刻所做的習題;rt為答題結果,rt=1 表示答題正確,rt=0 表示答題錯誤.kt?K為習題et所涉及的知識點集合.矩陣MK(dk×|K|)為整個知識空間中|K|個知識點嵌入表示,其中,dk維列向量為一個知識點的嵌入表示.矩陣為學生在t?1 時刻的知識空間中知識點嵌入.用|K|維向量valuet?1表示t?1 時刻學習結束時學生對于各個知識點的掌握程度,其中,向量每一維的值介于(0,1)之間:值為0,表示學生對于該知識點沒有掌握;值為1,表示學生對于該知識點已經完全掌握.學生在學習過程中會遺忘未復習的知識點,同時,學生在兩次學習的間隔時間也會遺忘所學知識,因此,t?1 時刻學習結束時的知識水平與t時刻學習開始時的知識水平不盡相同.本文用矩陣建模學生在t時刻開始學習時的知識掌握狀態.矩陣與形狀相同,是由經過遺忘處理后得到.t時刻學習結束,系統獲得學生答題結果,LFKT 模型根據答題結果將開始學習時知識掌握嵌入矩陣更新為學習結束時知識掌握嵌入矩陣,以此建模學習行為.預測學生在下一個候選習題et+1上的表現時,由于t時刻學習結束到t+1 時刻開始答題之間存在時間間隔,學生在時間間隔內的遺忘行為會影響知識掌握狀態,因此需要根據影響知識遺忘的因素將更新為,從而預測學生答題表現.

基于以上描述,本文將問題定義為:給定每個學生的學習歷史記錄,實現以下兩個目標.

? 跟蹤學生的知識狀態變化;

? 預測學生在下一個候選習題et+1上的表現.

3 方法描述

3.1 影響知識遺忘的因素

學生如果沒有及時復習所學知識,就會產生遺忘,其對知識的掌握程度便會衰減.教育學理論艾賓浩斯曲線理論[11,12]表明,學生對于所學知識點的保留率受以下兩方面影響:學生重復學習次數與時間間隔.時間間隔可以分為重復學習知識點的時間間隔和順序學習的時間間隔.除此之外,教育心理學理論記憶痕跡衰退說[13]認為,學生對于知識點的掌握狀態也影響著學生的遺忘程度.因此,本文考慮了以下4 個影響知識遺忘的因素.

? RT(repeated time interval):距離上次學習相同知識點的時間間隔;

? ST(sequence time interval):距離上次學習的時間間隔;

? LT(repeated learn times):重復學習知識點的次數;

? KL(past knowledge level):學生原本對于該知識點的掌握程度.

RT,ST 和LT 這3 個標量組合在一起得到向量Ct(i)=[RTt(i),STt(i),LTt(i)],表示影響學生對于知識點i遺忘程度的前3 個因素.每個知識點所對應的向量Ct(i)組成矩陣Ct(dc×|K|).本文用向量度量學生原本對于知識點i的掌握程度,并且將其作為影響學生對于知識點遺忘程度的第4 個因素(KL).將矩陣Ct與組合在一起,得到矩陣,表示4 個影響知識遺忘的因素.

3.2 LFKT模型

本文提出了一種融合學習與遺忘的深度知識追蹤模型LFKT,如圖1 所示.

Fig.1 LFKT model圖1 LFKT 模型

LFKT 模型分為注意力層(attention layer)、遺忘層(forget layer)、預測層(prediction layer)、學習層(learn layer)以及知識水平輸出層(knowledge level output layer):注意力層以習題et以及習題所涵蓋的知識點集合kt作為輸入,計算習題與各個知識點的知識相關權重;遺忘層根據第3.1 節中提出的影響知識遺忘的4 個因素將學生上一時刻學習結束時知識掌握嵌入矩陣更新為當前時刻學習開始時知識掌握嵌入矩陣,有效地對學生遺忘行為進行建模;預測層根據t+1 時刻開始答題時的預測學生的答題表現;學習層通過LSTM 網絡將本次學習開始時的更新為本次學習結束時的,對學生學習行為進行建模;知識水平輸出層以學生本次學習結束時的作為輸入,輸出學生知識水平向量valuet,實時輸出學生對于各個知識點的掌握程度.

3.2.1 注意力層

注意力層的作用是計算習題與知識點之間的知識相關權重.注意力層的輸入是學生當前練習題目et以及題目所涉及的知識點集合kt.為了將et映射到連續的向量空間,用et乘以習題嵌入矩陣A(dk×|E|),生成一個dk維度的習題嵌入向量vt.其中,矩陣A中每一個dk維列向量為一道習題的嵌入表示.專家標注了每道習題所涵蓋的知識點,存放于集合kt中.本文通過知識點過濾器(K-Filter)濾掉不相關知識點,保留習題涵蓋知識點.矩陣Rt存儲習題涵蓋知識點的嵌入向量,其中,矩陣Rt中每一個dk維列向量為習題涵蓋的一個知識點的嵌入向量.計算習題嵌入向量vt與涵蓋知識點嵌入向量Rt(i)之間的內積,再計算內積的Softmax值并存入向量RSt中.向量RSt表示習題vt與習題涵蓋知識點之間的知識相關權重,如公式(1)所示:

|K|維向量wt為習題與全部知識點之間的知識相關權重向量.由于習題涵蓋知識點被知識點過濾器濾出,模型需要將習題涵蓋知識點的知識相關權重放入到wt對應的位置上.首先,初始化|K|維全零向量wt,即wt←[0,…,0];之后,將RSt每一維的權重放入到wt的相應位置上,即wt[kt[i]]←RSt[i],得到習題與各個知識點的知識相關權重.

3.2.2 遺忘層

遺忘層根據第3.1 節中介紹的影響知識遺忘的因素Ft對上一次學習結束時學生的知識掌握嵌入矩陣進行遺忘處理,得到學生本次學習開始時的知識掌握嵌入矩陣受LSTM中遺忘門與輸入門的啟發,根據影響知識遺忘的因素Ft更新時,首先要擦除中原有的信息,再寫入信息.對于遺忘行為建模來說,擦除過程控制學生知識點掌握程度的衰退,寫入過程控制學生知識點掌握程度的更新.遺忘層如圖2 所示.

Fig.2 Forget layer圖2 遺忘層

利用一個帶有Sigmoid激活函數的全連接層將影響學生對知識點i遺忘程度的因素Ft(i)轉換為知識點i對應的記憶擦除向量fet(i):

全連接層的權重矩陣FE的形狀是(dv+dc)×dv,全連接層的偏置向量bfe為dv維.記憶擦除向量fet(i)是一個維度為dv的列向量,向量中的所有值都是在(0,1)范圍之內.利用一個帶有Tanh 激活函數的全連接層將影響學生對知識點i遺忘程度的因素Ft(i)轉換為知識點i對應的記憶更新向量fat(i):

全連接層的權重矩陣FA的形狀是(dv+dc)×dv,全連接層的偏置向量bfa為dv維,記憶更新向量fat(i)是一個維度為dv的列向量.根據記憶擦除向量與記憶更新向量對更新得到

3.2.3 學習層學習層根據學生答題結果追蹤學習過程中的知識掌握變化,將學生開始學習時知識掌握嵌入矩陣更新為學生學習結束時知識掌握嵌入矩陣,建模學習行為.元組(et,rt)表示學生在時間t的答題結果,為了將元組(et,rt)映射到連續的向量空間,元組(et,rt)與大小為dv×2|E|的答題結果嵌入矩陣B相乘,得到dv維答題結果嵌入向量st.學習層將答題結果嵌入向量st和習題對應的知識相關權重向量wt作為輸入,利用學生在在線教育系統中的練習結果作為學生學習效果的間接反饋,通過LSTM 網絡更新學生學習過程中的知識掌握狀態,建模學習行為:

3.2.4 預測層

預測層的目的是預測學生在下一個候選習題et+1上的表現.由于學生在兩次答題間隔內的遺忘行為會影響其知識掌握狀態,預測層根據當前時刻開始答題時的知識掌握嵌入矩陣預測學生正確回答習題et+1的概率.將知識相關權重wt+1與當前時刻開始答題時學生知識掌握嵌入加權求和,得到的向量dt+1為學生對于習題涵蓋知識點的加權掌握程度嵌入向量:

學生成功解答習題,不僅與學生對于習題涵蓋知識點的綜合掌握程度有關,還與習題本身有關,所以將向量dt+1和vt+1連接得到的組合向量[dt+1,vt+1]輸入到帶有Tanh激活函數的全連接層,輸出向量ht+1包含了學生對習題涵蓋知識點的綜合掌握程度和習題本身的特點.其中,矩陣W1和向量b1分別表示全連接層的權重與偏置:

最后,將向量ht+1輸入到一個帶有Sigmoid激活函數的全連接層中,得到表示學生答對習題的概率pt+1.其中,矩陣W2和向量b2分別表示全連接層的權重與偏置:

3.2.5 知識水平輸出層

在預測層中,每一個時間節點t,公式(7)、公式(8)根據兩種輸入預測學生在特定習題et上的表現:學生對于該習題涵蓋知識點的綜合掌握嵌入向量dt和習題嵌入向量vt.因此,如果只是想估計在沒有任何習題輸入情況下學生對于第i個知識點的掌握情況,可以省略習題嵌入vt,同時,讓學生知識掌握嵌入矩陣的第i列作為等式的輸入.圖3 展示了知識水平輸出層的詳細過程.具體來說:學習層輸出矩陣后,為了估計對于第i個知識點的掌握程度,構造了權重向量βi=(0,…,1,…,0),其中,第i維的值等于1,并用公式(9)提取第i個知識點的知識掌握嵌入向量,之后,使用公式(10)、公式(11)估計知識掌握水平:

向量0=(0,0,…,0)與習題嵌入vt維度相同,用于補齊向量維度.參數W1,W2,b1,b2與公式(7)和公式(8)中的完全相同.依次計算知識空間中每一個知識的掌握程度,得到學生知識掌握程度向量valuet.

Fig.3 Knowledge level output layer圖3 知識水平輸出層

3.2.6 模型優化目標

模型需要訓練的參數主要是習題嵌入矩陣A、答題結果嵌入矩陣B、神經網絡權重與偏置以及知識點矩陣MK.本文通過最小化模型對于學生答題結果的預測值pt和學生答題的真實結果rt之間的交叉熵損失函數來優化各個參數.損失函數如公式(12)所示,本文使用Adam 方法優化參數:

4 實 驗

本文在兩個真實在線教育數據集上進行實驗,通過對比LFKT 模型與其他知識追蹤模型的預測性能以及知識追蹤表現,證明LFKT 模型的有效性.

4.1 數據集

首先介紹實驗所使用的兩個真實在線教育數據集.

? ASSISTments2012:該數據集來自于ASSISTments 在線教育平臺.本文刪除了學習記錄數過少(<3)的學生信息,經過預處理后,數據集包含45 675 個學生、266 個知識點以及總計5 818 868 條學習記錄.數據集中,user_id 字段表示學生編號,skill_id 字段表示知識點編號,problem_id 字段表示題目編號,correct字段表示學生真實答題結果,start_time 字段表示學生本次開始學習的時間,end_time 字段表示學生本次學習結束的時間;

? slepemapy.cz:該數據集來自于地理在線教育系統.本文同樣刪除學習記錄數過少(<3)的學生信息,經過預處理后,數據集包含87 952 個學生、1 458 個知識點以及總計10 087 305 條學習記錄.數據集中,user字段表示學生編號,place_answered 字段表示學生真實答題結果,response_time 字段表示學生學習時間,place_asked 字段表示問題編號.其中,由于該數據集中每個問題僅僅考察一個知識點,因此place_asked 也是知識點編號.

4.2 評測指標

本文使用平均AUC(area under the curve)、平均ACC(accurary)和平均RMSE(root mean squared error)作為評估預測性能的指標.AUC 被定義為ROC 曲線與下坐標軸圍成的面積,50%的AUC 值表示隨機猜測獲得的預測性能,高AUC 值說明模型具有較高的預測性能.ACC 為準確率,即正確預測結果占全部結果的百分比,高ACC值說明模型具有較高的預測性能.RMSE 被定義為預測值與真實值的均方根誤差,RMSE 的值越低,說明模型的預測性能越好.對于每一個模型,本文都進行30 次測試,取平均AUC 值、平均ACC 值和平均RMSE 值.

4.3 對比方法與參數設置

為了評估LFKT 模型的性能,本文選擇貝葉斯知識追蹤[5]、深度知識追蹤[8]和動態鍵-值對記憶網絡[9]這3個經典KT 模型作為對比方法.對比方法的參數設置如下.

? BKT[5]:實驗設置4 個主要參數:L0表示學生未開始作答時對題目考察知識點的掌握程度,T為學生作答后對知識點掌握程度從不會到會的概率,G為學生沒掌握該知識點但是答對題目的概率,S表示學生掌握知識點但是答錯題目的概率.BKT 利用以上參數構造一個隱馬爾可夫模型,并使用EM 算法求解參數;

? DKT[8]:實驗按照Piech 等人[8]的方法設置超參數.循環神經網絡GRU 隱藏層的大小為200,批處理大小設置為30,使用Adam 作為優化器,學習率為0.001;

? DKVMN[9]:本文使用Zhang 等人[9]的方法設置超參數.對于ASSISTments2012 數據集,記憶矩陣列數為20,隱藏向量的大小為30.對于slepemapy.cz 數據集,記憶矩陣列數為320,隱藏向量大小為128.批處理大小為30,使用Adam 作為優化器,學習率為0.001.

LFKT 模型:對于ASSISTments2012 數據集,知識嵌入矩陣的列數為266.對于slepemapy.cz 數據集,知識嵌入矩陣的列數為1 458.批處理大小為30,采用Adam 優化器,學習率為0.001.對于知識點嵌入向量的維度dk和學生知識掌握程度嵌入向量的維度dv的超參數設置,本文通過比較模型在測試數據集上的平均AUC值進行選取.為了減少參數數量,本文設d=dk=dv,測試結果見表1.ASSISTments2012 數據集中,當d=dk=dv=32 時,平均AUC 值為0.7513,高于其他超參數設置情況.在slepemapy.cz 數據集中,當d=dk=dv=128 時,平均AUC值為0.8032,高于其他超參數設置.通過對比可知:當d=dk=dv設置過低時,模型的學習能力較低;當d=dk=dv設置過高時候,模型參數過多,容易造成過擬合.因此,對于ASSISTments2012 數據集,設dk=dv=32;對于slepemapy.cz 數據集,設dk=dv=128.

Table 1 AUC results of different hyperparameters表1 不同超參數設置下AUC 值對比實驗結果

4.4 學生表現預測結果分析

知識追蹤的基本任務之一是,預測學生當前對于下一道候選習題的答題表現.通過對比模型的預測結果與學生的真實答題結果,比較模型的預測性能.本文隨機地將數據集中70%的數據作為訓練集,另外20%的數據作為測試集,10%的數據作為驗證集,用于超參數的調整與早期停止.

表2 給出了LFKT 與3 個對比方法在兩個數據集上的平均AUC 值、平均ACC 值和平均RMSE 值的對比結果.LFKT 在兩個數據集上的平均AUC 值、平均ACC 值和平均RMSE 值均優于其他3 種對比方法.這一結果表明,LFKT 模型在預測學生未來表現方面性能是優于現有模型的.從實驗對比結果可以看出,BKT 在兩個數據集上的預測性能最低.這說明BKT 將學生對于某一知識點的潛在知識水平建模為二進制變量是具有局限性的.DKT 利用循環神經網絡的潛在向量建模學生整體的知識水平,無法建模學生對于各個知識點的掌握程度,因此DKT 在兩個數據集上的預測性能低于DKVMN 和LFKT.DKVMN 與LFKT 都可以建模學生對于各個知識點的掌握程度,但是DKVMN 忽略了學生在學習期間的遺忘行為,默認學生對未復習知識點的掌握程度一直不變,這存在一定的局限性,因此LFKT 的預測性能強于DKVMN.

Table 2 Prediction results of models表2 模型預測性能對比實驗結果

除此之外,本文測試了去掉遺忘層后LFKT 模型的預測表現.LFKT 模型去掉遺忘層以后,忽略了學生的遺忘行為,默認學生在學習間隔內,知識水平不會發生任何變化,即.實驗結果顯示:去掉遺忘層后,LFKT模型的預測性能較沒去掉遺忘層時有所下降.這表明學生的遺忘行為對其知識水平有所影響,本文所提出的影響知識遺忘的因素是十分有效的.

4.5 知識追蹤結果分析

知識追蹤的另一個基本任務是實時輸出學生對于各個知識點的掌握程度.本文進行以下實驗驗證LFKT 模型在知識追蹤任務上的有效性.

本文截取了數據集ASSISTments2012 中一位學生在一段時間內的學習記錄,并分別使用LFKT 模型和DKVMN 模型追蹤學生對于5 個知識點掌握程度的變化,如圖4 和圖5 所示.圖中橫軸表示學生的學習歷史,元組(kt,rt)中kt表示學生學習的知識點,rt表示學生作答情況.縱軸表示模型追蹤的5 個知識點.

Fig.4 Knowledge level output result of LFKT in ASSISTments2012圖4 ASSISTments2012 數據集LFKT 知識水平輸出結果

Fig.5 Knowledge level output result of DKVMN in ASSISTments 2012圖5 ASSISTments 2012 數據集DKVMN 知識水平輸出結果

實驗結果顯示:在第2 時刻,學生對知識點0 答題正確后,DKVMN 和LFKT 模型對學生知識點0 掌握程度的追蹤結果都有所提高(輸出值增加);在第4 時刻,學生對知識點3 對應習題答題錯誤后,DKVMN 模型和LFKT模型對學生知識點3 的掌握程度的追蹤結果都有所下降.以上結果說明:DKVMN 模型和LFKT 模型在獲得學生作答結果以后,都會根據學生的作答結果更新對應知識點的掌握程度,以此建模學生的學習過程.圖4 和圖5中,學生第2 時刻學生學習知識點0 到第10 時刻第2 次學習知識點0 期間,DKVMN 模型并沒有更新學生對于知識點0 的掌握程度,而LFKT 模型顯示學生對于知識點0 的掌握程度一直在下降.由此可以看出:DKVMN 模型沒有考慮學習者在學習期間的遺忘行為,而LFKT 模型考慮了學習者在學習期間的遺忘行為.以上結果表明:LFKT 模型與DKVMN 模型都可以建模學生的學習行為,DKVMN 模型無法建模學生的遺忘行為,而LFKT 模型可以建模學生的遺忘行為,并實時追蹤學生對于各個知識點的掌握程度.

本文在slepemapy.cz 測試數據集中隨機抽取3 名學生在一段時間內的學習記錄,并分別使用LFKT 模型與DKVMN 模型輸出其對5 個知識點的掌握程度.3 名學生的部分答題序列如下.

?Ha=[(1,1),(2,1),(3,1),(4,0),(5,0),(6,0),(1,0),(2,1),(3,1),(4,0),(5,1),(6,1)];

?Hb=[(6,1),(5,1),(4,1),(3,1),(2,1),(1,1),(2,1),(3,1),(4,1),(5,1),(6,1),(1,1)];

?Hc=[(1,1),(2,1),(3,1),(4,0),(5,1),(6,1),(1,1),(2,1),(3,0),(4,1),(5,0),(6,0)].

序列中的每一項(kt,rt)表示學生作答的結果,其中,kt表示學生當前作答習題所涵蓋的知識點,rt表示學生的答題結果,結果為0 表示答錯,結果為1 表示答對.

Fig.6 Knowledge level output result in slepemapy.cz圖6 slepemapy.cz 數據集知識水平輸出結果

LFKT 模型與DKVMN 模型對學生各個知識點掌握程度的追蹤情況如圖6 所示,其中:實線表示LFKT 模型對于學生知識點掌握程度的追蹤情況,虛線表示DKVMN 模型對于學生知識點掌握程度的追蹤情況.以圖6(c)為例,學生a在第3 時刻正確回答涵蓋知識點3 的習題,LFKT 與DKVMN 輸出的知識點掌握程度值均在第3時刻后開始增加.該結果說明,LFKT 與DKVMN 均可以根據學生的答題結果建模學生學習行為.圖6(a)中,學生a在第8 時刻后一直沒有復習知識點1,在第8 時刻以后,DKVMN 輸出的對應知識點掌握程度值變化很小,但LFKT 輸出值變化較大,呈持續下降趨勢.該結果說明:LFKT 模型可以建模學生的遺忘行為,追蹤到學生由于遺忘而產生的知識掌握程度變化;但DKVMN 忽略了學生的遺忘行為,無法追蹤學生由遺忘產生的知識水平變化.本文匯總了ASSISTments2012 測試集中所有學生答對一道習題后的答題序列,記錄LFKT 輸出的知識點掌握程度,并記錄學生下一次作答涉及該知識點習題時LFKT 輸出的知識點掌握程度,求解下一次答題時LFKT輸出的知識點掌握程度距上一次答題結束時LFKT 輸出的知識點掌握程度的衰減比例,即valuet+1(i)/valuet(i).圖7 顯示了學生平均知識掌握程度衰減比例與重復學習知識點次數與時間間隔之間的關系.縱軸表示重復學習知識點次數,單位為“次”;橫軸表示距離上次學習知識點的間隔時間,單位為“分鐘”.數據集中的間隔時間從0分到幾天不等,因此本文通過log2(RT)的方法降低橫軸的長度.由結果可知,LFKT 模型再現了學生復雜的遺忘行為,即:在相同間隔時間的情況下,重復學習次數越多,由于遺忘引起的知識點掌握程度的衰減比例越低;在相同重復學習次數的情況下,間隔時間越長,由于遺忘引起的知識點掌握程度衰減比例越大.由此可以看出:LFKT可以根據影響知識遺忘的因素挖掘遺忘規律,建模遺忘行為,準確計算出由于遺忘引起的知識掌握程度變化.

Fig.7 Quantized distribution map of knowledge level decline ratio of LFKT against repeated time interval and repeated learn times圖7 LFKT 知識水平輸出衰減比例與間隔時間和重復次數的量化分布圖

5 總結與未來工作

本文重點考慮了學生遺忘行為對其知識掌握程度的影響,提出了融合學習與遺忘的深度知識追蹤模型LFKT.實驗表明,LFKT 在預測學生答題表現方面優于傳統知識追蹤模型BKT,DKT 和DKVMN.LFKT 在追蹤學生知識水平變化時,不但可以根據學生答題情況追蹤學生學習過程中的知識水平變化,還可以體現由復雜知識遺忘因素導致的學生遺忘行為,并實時追蹤由于學生遺忘造成的知識水平變化過程.

在未來的研究中,我們將針對以下方面進行探索.

(1)知識點之間的關系特征對知識追蹤的影響.知識點之間存在先驗、后驗、包含等關系,需要明確知識點之間的關系特征,進而準確推測學生對于各個知識點的掌握程度;

(2)本文所采用數據集中習題涉及的知識點相對較少,比較容易根據學生的答題結果追蹤學生對于習題考察知識點的掌握程度.對于覆蓋知識點數量較高的習題,如綜合性習題,會導致知識點掌握程度的不確定性.知識點高覆蓋率下的知識追蹤,也是我們下一步的研究工作.

猜你喜歡
模型學生
一半模型
快把我哥帶走
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
《李學生》定檔8月28日
電影(2018年9期)2018-11-14 06:57:21
趕不走的學生
學生寫話
3D打印中的模型分割與打包
學生寫的話
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲精品自产拍在线观看APP| 国产成人精品午夜视频'| 91亚洲视频下载| 成人第一页| 在线人成精品免费视频| 一级毛片中文字幕| 国产a v无码专区亚洲av| 色天天综合久久久久综合片| 欧美一级大片在线观看| 欧美精品啪啪一区二区三区| 中文字幕免费在线视频| 亚洲精品欧美重口| 亚洲精品在线观看91| 精品国产91爱| 伊在人亚洲香蕉精品播放 | 国产va免费精品观看| 欧美一区二区精品久久久| 五月天福利视频| 欧美中文字幕一区| 国产人人乐人人爱| 精品无码一区二区三区在线视频| 日本久久网站| 色婷婷综合激情视频免费看| 久久一本日韩精品中文字幕屁孩| 午夜限制老子影院888| 国产地址二永久伊甸园| 成人va亚洲va欧美天堂| 亚洲首页在线观看| 国产乱子伦无码精品小说| 久久永久精品免费视频| 亚洲精品视频免费| 特级aaaaaaaaa毛片免费视频| 毛片久久久| 欧美激情首页| 99在线视频免费| 欧美一区二区三区国产精品| 亚洲黄色视频在线观看一区| 四虎国产精品永久在线网址| 精品亚洲欧美中文字幕在线看| 久久一级电影| 国产欧美精品午夜在线播放| 国产一区二区三区免费| 人人爽人人爽人人片| 在线高清亚洲精品二区| 亚洲婷婷在线视频| 丁香六月综合网| 国产内射在线观看| 日本尹人综合香蕉在线观看| 国产精品男人的天堂| 色综合天天操| 国产噜噜在线视频观看| 亚洲人在线| 亚洲欧州色色免费AV| 国产日韩精品欧美一区喷| 大陆国产精品视频| 2020久久国产综合精品swag| 欧洲日本亚洲中文字幕| 亚洲视屏在线观看| 热re99久久精品国99热| 在线播放国产99re| 亚洲毛片网站| 婷婷久久综合九色综合88| 亚洲狼网站狼狼鲁亚洲下载| 中文字幕中文字字幕码一二区| 欧美国产日韩一区二区三区精品影视| 免费亚洲成人| 日韩欧美91| 国产欧美日韩在线一区| 国产亚洲精| 色综合综合网| 人妻免费无码不卡视频| 噜噜噜久久| 日韩小视频网站hq| 亚洲欧美日韩成人高清在线一区| 91精品人妻互换| 久操线在视频在线观看| 波多野结衣一区二区三区四区| 亚洲视频色图| 国产精品永久免费嫩草研究院| 欧美不卡视频一区发布| 亚洲黄色网站视频| AV在线天堂进入|