梁 琨,任依夢,尚余虎,張翼英,王 聰
天津科技大學 人工智能學院,天津300457
教育信息化的不斷推進和“互聯網+”課堂教學的迅猛發展產生了海量的教育數據,如何高效自動地提取教育數據的知識特征并建立關系,是當前教育大數據時代面臨的一項重要研究。在線教育平臺為學習者提供了開放的自主學習途徑[1]。作為一種新型在線教育模式,其應用過程中也存在一些局限性,包括無法挖掘學生隱性認知狀態、學習資源貼合度不夠、缺乏較強的針對性、無法保證多元化學習資源和學習路徑的有效性。研究人員試圖引入數據挖掘、學習分析、人工智能等先進技術破解在線教育發展難題。具體來說,學習平臺收集的學習數據反映了學生個體的真實學習軌跡,研究這些數據,可以更有效地分析學生的知識狀態,為學習者提供適應性智能導學服務。
如圖1所示,知識追蹤(Knowledge Tracing,KT)模型為教育研究者預測學習者知識狀態提供了一個便捷的途徑,一直是教育數據挖掘領域的研究熱點[2]。知識追蹤通常被描述為一個有監督的時間序列學習任務,給定學習者的歷史練習記錄Xt={(q1,a1),(q2,a2),…,(qt,at)},其中qt表示題目編號,at表示相應的分數,自動追蹤學生知識掌握狀態隨時間的變化[3],預測學習者下一次答對題目qt+1的概率。通過獲取學生作答習題的顯式學習表現,追蹤其隨時間變化的隱式知識狀態,從而預測學生在未來時間的作答表現。依此,推薦系統利用該概率動態調整返回給學習者的學習資源或反饋[4],并跳過或推遲預測不符合學生當前知識水平的內容,提供針對性的輔導服務。同時,通過對學生知識狀態的評估,教師能夠更好地了解每個學生的真實認知情況,進而優化教學模式與策略,其主要流程如圖2所示。

圖1 教育數據挖掘思維導圖Fig.1 Educational data mining mind map

圖2 評估學習者的知識狀態Fig.2 Assessing learners’knowledge status
按照建模方法的不同,現有知識追蹤模型可以分為兩類:傳統機器學習方法和深度學習方法。BKT[5]和AFM[6]是傳統機器學習方法中具有代表性的兩種模型,它們已被廣泛應用于智能教學系統中評估學習者的知識水平[7-8]。
Corbett等人于1994年提出貝葉斯知識追蹤[3](Bayesian Knowledge Tracing,BKT),將學習者對每個知識點的掌握情況建模為一組二元變量P(Kt)∈{0,1},每個變量代表學習者是否掌握某個知識點K,然后采用隱馬爾可夫模型(Hidden Markov Model,HMM)跟蹤學生知識狀態的變化,預測學生掌握知識點的概率。
BKT的建模過程基于三點假設:學生的答題序列僅涉及單一知識點,不支持包含多知識點的答題序列分析;學習者在知識學習過程中不存在遺忘現象;學生的表現和知識掌握狀態均為二元變量。
標準BKT方法的預測結果具有統計學意義,可解釋性較好。然而BKT對于學習的四點假設具有先天的局限性,使得BKT的實際應用范圍受限。隨后,諸多研究者從不同角度提出對模型本身的假設改進。文獻[9]基于BKT模型,結合習題與知識點中豐富的關聯關系提出了BKTC模型,通過實驗證明了所提出方法在數學、拼寫學習和物理等五個大規模數據集中的預測精度更高。Qiu等人[10]在模型中加入知識遺忘特性,模擬學生的知識熟練程度可能隨時間的推移而下降。Agarwal等人[11]為使學習水平估計的更新更平滑,用近因權重代替學習率,將二元知識狀態進一步細化為21個狀態。
研究人員在心理測量學理論發現了一類可以解決BKT相關問題的模型,即可加性因素模型(Additive Factor Model,AFM)[6]。AFM考慮了練習的嘗試次數和學習率兩個變量對學習者知識狀態的影響。與BKT不同,AFM假設學習是一個漸進的變化過程而不是離散的過渡,不是估計學習者潛在的知識狀態,而是直接預測學習者正確回答練習的概率。同時,諸多研究者從參數約束[12]、引入失誤因子[13]、情緒態度[14]等不同角度對標準AFM進行擴展。
學習者的學習行為數據量大且復雜,收集到的海量、連續的習題通常與多個知識點相關聯,傳統的KT模型依賴專家標注,也不能很好地捕捉多個知識點之間的關系。深度學習具有自動學習復雜知識概念內在關系的能力,并且不需要專家對知識點進行顯式標記[15]。因此,深度學習模型被引入KT領域。鑒于學習者練習數據的時序性,遞歸神經網絡(RNN)[16]常被用于建立基于深度學習的知識追蹤模型。作為RNN的流行變體,長短期記憶(LSTM)神經網絡[17]和GRU[18]也廣泛應用于KT任務中,取得了比傳統KT模型更好的預測性能。
在已有的相關綜述研究中,文獻[19]圍繞智能輔導系統的學生模型展開,概述了KT以及PFA模型在預測學生練習表現中的最新進展。文獻[2]重點從知識點、學習者和數據三個層面梳理了BKT模型在教育領域的應用現狀。文獻[20]詳細闡述了深度學習技術在知識追蹤中的應用,通過避免技術細節來定性地解釋模型工作原理。文獻[21]從原理、方法步驟、算法的效率和可擴展性等維度詳細介紹基于BKT、IBKT、DBN、DKT方法的知識追蹤模型,對研究者提出了未來的研究方向和面臨的挑戰。文獻[22]從理論技術角度梳理基于概率圖、矩陣分解以及深度學習的知識追蹤模型原理、方法步驟、模型擴展等。文獻[23]總結了知識追蹤的相關理論,全面對比DKT、DKVMN、SAKT、RKT模型在大規模數據集上的表現差異。文獻[24]從模型組成、建模技術、擴展模型、模型對比和評估五個方面對BKT、DKT、DKVMN進行了概述。文獻[25]對教育大數據中知識追蹤模型的回顧和分析更加系統和全面,梳理并比較了基于BKT和DKT方法的2類知識追蹤模型。總體來說,這些文獻涉及到深度學習技術的模型較少,側重于機器學習方法、經典模型梳理的分析較多。
通過檢索計算機領域、教育領域和認知科學領域的期刊和會議,查閱了發表時間限定于2015年1月1日至2021年6月20日深度知識追蹤的相關論文,共篩選出65篇文獻。本文重點對基于深度學習的知識追蹤及其擴展模型進行全面與最新的討論,按照建模方法的角度將其劃分為基于循環神經網絡、記憶增強神經網絡、圖神經網絡的知識追蹤模型。通過梳理和對比三類模型及其改進模型,幫助讀者快速了解知識追蹤領域的最新研究進展。
標準BKT方法只能對學生在單個知識點上的學習情況進行建模,它將學生在多知識點上的學習過程視為多個離散過程。RNN是深度學習領域中一類特殊的具有自循環反饋的全連接神經網絡,能夠學習復雜向量之間的映射關系。HMM和RNN都是通過隱狀態的演化來刻畫序列之間的依賴關系,但在面對高維、連續的數據時RNN的表達能力更強。受此啟發,Piech等人于2015年提出DKT(Deep Knowledge Tracing)模型[15],DKT是第一次嘗試利用遞歸神經網絡(如RNN、LSTM)對學生的練習過程進行建模以預測其表現,在不需要對訓練數據集進行人工標注的情況下得到了比BKT更好的效果。
標準DKT的結構如圖3所示。DKT模型輸入為學生答題記錄{x1,x2,…,xt},通過one-hot編碼或壓縮感知表示法xt被轉化為向量輸入模型。為了將輸入映射到輸出,輸入向量會通過隱藏層進行特征提取,隱藏層{h0,h1,…,ht}的狀態向量ht可理解為學生在第t時刻的知識狀態。將學生的知識狀態通過輸出層計算可得到輸出向量,{y1,y2,…,yt}表示在時間步1~t,學生正確回答每一道習題的概率。所涉及公式如下所示:


圖3 DKT模型結構圖Fig.3 DKT model structure diagram
模型的目標函數如式(3)所示,模型訓練選用隨機梯度下降算法作為優化器,即:

其中,δ(qt+1)表示在第t+1時間步作答習題qt+1的one-hot編碼,l表示二元交叉熵。
DKT模型將RNN應用到知識追蹤任務中,取得了比傳統BKT方法更好的預測性能(AUC(Area Under Curve)值提高20%[26]),且能夠更深層次地捕捉練習文本的時序特征和語義特征。
學生在線學習環境極為復雜,學習過程會受到多方面因素的影響。DKT輸入數據為學生練習記錄,而忽略了學習者的行為特征以及知識點之間的關聯關系,且輸入的學習特征太少也會影響模型的準確性。
傳統RNN、LSTM在處理超長序列時容易丟失信息而導致模型的性能下降;同時,模型缺乏對關鍵特征的提取和強化。
DKT的預測性能優于傳統機器學習方法,但其隱藏狀態ht本質上很難被解釋為知識狀態。因此,DKT模型的不可解釋性制約了其在實際教學的應用。
傳統機器學習方法結合人的先驗知識及直觀感受來構造特征。RNN、LSTM等深度學習方法依賴于大規模數據集的處理,當樣本數據量小時可能導致顯著特征提取效果差。
學習特征少、長距離依賴、可解釋性差、無法有效選取學生特征是DKT模型最顯著的4個問題。本文將DKT的擴展模型分為4類:(1)結合教育數據特征改進模型;(2)引入注意力機制改進模型;(3)可解釋性知識追蹤;(4)融合機器學習方法的模型改進研究。表1總結了各種模型所屬的改進方向類別和主要的改進方式。

表1 DKT改進模型對比Table 1 Comparison of improved DKT models
2.2.1 結合教育數據特征改進模型
(1)改進學習者建模的研究。諸多研究者考慮納入學習者的學習行為等內隱學習特征評估學習成效。Liang等人[27]在DKT輸入中添加額外的學生反應時間、練習嘗試次數、第一次響應結果等學生特征評估學習者的知識水平。針對這種高維輸入數據,結合自動編碼器降維并輸入模型,從而減少了訓練所需的資源和時間。該模型預測結果取得了一定的提升,但該方法依賴于繁瑣的人工特征提取及選擇過程,可能會受主觀影響產生誤差。Cheng等人[28]受BKT模型失誤和猜測參數的啟發,失誤和猜測概率應該隨做題的過程而不斷變化。在DKT中引入失誤和猜測因子以更好地模擬學生的真實做題情況。VDKT等人[29]在文獻[28]基礎上引入了部分理解因子建模學習過程中的隨機性行為。CKT[30]模型針對在線學習平臺中收集的學生互動點擊流數據,分析學生的學習狀態,預測未來學習趨勢和表現。
學習是一個循序漸進的過程,因此在追蹤學生的知識狀態時,需要進一步考慮時間特性對預測結果的影響。Nagatani等人[31]引入時間間隔來模擬學生的遺忘行為,將改進后的模型命名為Extended-DKT,通過比較Extended-DKT和DKT的差異,研究時間間隔對預測準確率的影響。Yang等人[32]借助決策樹融合多種異構特征如作答時間、作答次數等衡量學生的遺忘情況,在擬合數據集上表現更優。Pu等人[33]提出DKT+Transformer結構,引入答題時間信息調整模型的注意力權重計算中,以更好地考慮時間特性對預測結果的影響。
(2)融合知識結構信息的研究。標準DKT模型主要利用學習者的答題記錄預測其未來表現,而忽略了不同知識點之間的關聯關系,即“知識結構”對知識狀態的影響。Chen等人[34]考慮到課程概念之間存在先決關系,將知識點間前驅后繼關系建模為有序對,用作知識追蹤模型中的約束,有效緩解了知識追蹤中的數據稀疏性問題。DTKS[35]設計了圖嵌入算法將練習關系信息融入對學生知識狀態的建模,可以同時捕獲練習的順序依賴關系和內在關系。
最近的一些研究考慮了“知識結構”的影響,但忽略了知識點之間的傳播具有不同形式,如相似關系(無向,影響力可雙向傳播)和前驅后繼關系(有向,影響力只能單向傳播)。SKT[36]借助知識結構中的多重關系對概念之間的影響傳播進行建模,同時考慮了學習者練習序列的時間效應和知識結構的空間效應,能夠更準確地估計學習者的知識狀態。
本節詳細介紹了結合教育數據特征在深度知識追蹤領域的改進方法,主要分為改進學習者建模和融合知識結構信息。改進學習者建模的方法最為直觀,通過添加更多信息,借助深度學習的特征提取能力,提升預測的性能。融合知識結構信息的方法從練習文本組織特點出發,深入挖掘知識點之間豐富的結構和相關性。結合教育數據特征的改進方法通過添加更多信息提升模型性能,但也增加了模型訓練所需的資源和時間。同時,如何更有效地將教育數據特征納入知識追蹤任務中的研究還不夠深入。
2.2.2 引入注意力機制
注意力模型[37]是神經網絡中的重要概念,已在語音識別[38]和圖像注釋[39]等不同應用領域中進行了廣泛的研究。直觀地說,注意力機制是一個重要性權重向量,無需通過循環而直接建立輸入與輸出之間的相似性度量。學習是一個持續不斷的過程,KT模型引入注意力機制可以加強關鍵信息弱化無用信息,以增強歷史上重要狀態的影響來預測學生未來表現。
Su等人[40]提出在模型預測輸出時使用余弦相似度計算練習題目相似性,對所有隱藏狀態進行加權和聚合,有效捕獲了練習序列中的長期依賴關系。此外,文獻[41]也采用類似思路,使用Jaccard系數計算知識點之間的注意力權重,結合LSTM與注意力值預測學生表現。
針對學生交互序列的稀疏數據面臨難以泛化問題,Pandey等人[42]提出SAKT模型,使用基于自注意力機制的transformer模型為之前回答的練習分配權重,以提取關鍵信息。Choi等人[43]認為SAKT模型的注意力層太淺,為了更深入挖掘習題與學生回答之間的復雜關系,Choi等人設計了疊加3個注意力模塊的編碼器和解碼器組合,通過大量的實驗,證明多頭注意力的有效性。
受認知科學關于遺忘機制研究的啟發,Aritra等人[44]提出了單調注意力機制AKT,引入指數衰減項來計算注意力的權重,降低久遠練習對預測的重要性。
本節詳細介紹了注意力機制在深度知識追蹤領域的改進。引入注意力機制將較長的序列轉化為包含重要信息的短序列,但是并沒有從根本上解決問題。注意力權重大的特征周圍也有相關信息(距離越近相關性越強),也要考慮進模型,即注意力機制忽略了注意力所在位置周圍信息。未來研究可以引入“窗口”機制,把一定范圍內的信息都提取出來。
2.2.3 可解釋性知識追蹤
基于深度學習的知識追蹤模型已被證明在無需人工特征的情況下優于傳統的知識追蹤模型[45]。然而,深度學習模型的輸出和工作機制受到不透明的決策過程和復雜內部結構的影響,非計算機背景的人難以理解其內部工作機制,這極大程度地限制了深度知識追蹤模型在實際教學中的應用。
為了克服這一挑戰,已經開發了許多模型,如香港科技大學的Lee等人設計了KQN知識查詢網絡[46]模型,使用神經網絡將學生的學習活動編碼為知識狀態向量和知識技能向量。同時,KQN可以針對不同的技能查詢學生的知識狀態,然后通過可視化兩類向量之間的交互以增強模型的可解釋性。
事后解釋(post-hoc interpretable)方法,發生在模型訓練之后,利用解釋方法為預測結果提供決策依據[47]。這種方法的優點是,在不降低預測性能的情況下可以事后解釋不透明的模型。在知識追蹤領域,主要有分層關聯傳播(Layer-wise Relevance Propagation,LRP)和不確定性評估方法。Lu等人[48]提出采用后自組織可解釋方法來理解基于RNN的DLKT模型,利用分層關聯傳播方法將關聯從模型的輸出層反向傳播到輸入層來解釋基于RNN的DLKT模型。文獻[49]使用蒙特卡洛方法為模型的輸出預測值提供一個不確定性評分,以減輕預測過程中的不透明性。
此外,也有研究者嘗試使用顯性知識概念來解釋學生隱性知識狀態的變化,這對于許多實際應用都是有益的,比如可解釋性練習推薦。TC-MIRT[50]利用RNN建模復雜序列數據,結合心理測量學模型IRT參數的可解釋性,使模型能夠進行概念級的弱點診斷,幫助學生了解自身的薄弱知識概念。EKT[51]將每個學生的知識狀態向量擴展成一個隨時間更新的知識狀態矩陣,其中每個向量代表學生對某個概念的掌握程度,有效解決傳統DKT難以確定學生擅長或不熟悉哪些概念問題。
本節詳細介紹了深度知識追蹤領域對可解釋問題的改進方法,主要分為知識可視化、事后解釋方法和診斷薄弱知識概念。三類方法針對學生的認知狀態,給出了可能的解釋方法,在一定程度上提高了模型的可解釋性。同時也具有共性缺點:模型訓練參數較多;參數本身也不像BKT方法具有可解釋性。
2.2.4 融合機器學習方法的模型改進研究
機器學習相關算法分析和預測的總體誤差小,可以嘗試在某些模塊或功能上使用機器學習相關技術作為輔助工具,進一步提升知識追蹤模型的預測性能。
學生的能力是不斷發展的,標準DKT模型忽略了學習者學習能力和學習速度的差異。DKT-DSC[52]使用K-Means聚類動態地將學生分配到具有相似能力的不同組,并隨時間的推移定期重新評估。
由于學生數據的稀疏問題影響著知識追蹤模型的性能,文獻[53]結合支持向量機和矩陣分解模型提出基于因子分解機(FM)的知識追蹤模型,利用特征之間的組合特性,引入多種輔助信息如多種知識概念組成成分,題目嘗試次數,知識概念掌握水平建模,通過在多個數據集中驗證發現該模型能夠很好地處理稀疏數據。
大多數研究都假設練習的難度是恒定的,這不符合學習的規律。學生可能會多次嘗試同一練習,并逐漸掌握練習中包含的知識,因此應該根據學生目前的知識水平來調整練習的難度。Gan等人[54]設計了領域感知知識追蹤機(FA-KTM),結合學生的動態學習過程(學習和遺忘)和練習難度評估學習者的知識狀態水平,對DKT的性能具有促進作用。
Yang等人[55]考慮到學生知識狀態主要受近期練習的影響,提出了卷積知識追蹤(CKT)模型,使用3D卷積網絡強化學習者近期回答的練習對知識狀態的影響。大量的實驗證明,關注學生的短期特征可以更好地對學生的知識狀態進行建模,進而增強模型的預測能力。
愛學習教育集團AI Lab團隊提出一種練習分層特征增強知識追蹤模型[56],使用Bert挖掘練習文本生成嵌入向量,然后輸入到3個子系統提取練習的知識分布、語義特征和難度,最后將3個特征連接并輸入進LSTM作出預測。
Xu等人[57]提出DynEmb模型,使用矩陣分解將練習題目和學生嵌入到一個連續隱空間中,同時結合RNN建模學習者的學習過程。但矩陣分解無法捕獲學生和練習的交互信息,從而忽略了學生和練習交互的重要性。
本節詳細介紹傳統機器學習方法在知識追蹤任務中的應用。借助K-Means、支持向量機、矩陣分解等傳統機器學習方法的優勢,提升知識追蹤任務的預測性能。同時,傳統機器學習方法過于依賴訓練參數的設置,對于學生特征的選取和擴展不夠靈活;如何借助機器學習技術的優勢輔助知識追蹤任務評估學生認知狀態有待進一步深入研究。
模型的比較研究包括BKT與DKT[58-59]、DKVMN與DKT[60]、DKT與PLM-IRT[61]的比較。相關模型的示意圖分別如圖4(a)~(d)所示。如圖4(a),BKT使用隱馬爾可夫模型將學習者的潛在知識狀態建模為一組二元變量。如圖4(b),DKT使用高維的隱藏向量表示學生的知識狀態。如圖4(c),DKVMN同時跟蹤每個知識概念的掌握狀態,所有掌握狀態構成學生的知識狀態。如圖4(d),PLM-IRT利用概率表達式測量學習者知識掌握情況。

圖4 模型結構圖Fig.4 Model structure diagram
綜上,BKT表示過程中丟失了學生數據中的時序特征,但相較于深度模型,BKT的參數可解釋性較強。PLM-IRT也是傳統方法中的一種,通過考慮主客觀因素預測學生表現,但該方法適用于學習者能力不變的環境。DKT具有較強的特征提取能力,可以有效利用學生數據的特征和規律,然而DKT無法顯示獲取學生對單個知識點的掌握狀態,可解釋性較差。相較于BKT和DKT,DKVMN模型參數數量較少且能夠自動輸出學生對單個知識點的掌握程度。同時,Gervet等人[20]在多個規模不同的數據集上評估傳統模型和深度模型的性能。研究工作表明,基于Logistic回歸的改進算法在中小型數據集上表現得更好,而深度模型在較大的數據集或強調時序信息的數據集上表現得更好。
DKT在預測和評估學習成績方面非常有效。Su等人[40]結合學生個性化信息和題目語義信息,設計了基于馬爾可夫特性和注意力機制的兩種策略來預測學生成績。MFA-DKT[62]利用機器學習模型來自動捕獲學生的行為特征和練習特征,然后將基于遞歸神經網絡的架構結合attention機制,在ASSISTments數據集上進行學生成績預測,模型的準確性得到提高。Mongkhonvanit等人[63]使用DKT模型采集學習者的學習行為數據如點擊資源的時間點、停留時長等信息計算學生的課程參與度,進而改善MOOC中學生流失問題。
DKT也可以用于開放式的學習環境中,如編程練習[64-65]、發現知識點間拓撲順序[66]、生成試卷[67]、驗證認知理論[68]、學習路徑推薦[69、生成學習報告[70]等。文獻[71]基于學習者中學時期在ASSISTments智能導學系統記錄的學習軌跡,應用DKT模型預測大學畢業后的第一份工作是否屬于STEM(Science、Technology、Engineering、Mathematics)領域。
DKT改進模型的應用如表2所示。

表2 DKT改進模型的應用Table 2 Application of improved DKT model
循環神經網絡的變體LSTM可以通過輸入門獲取當前樣本的信息(短期記憶),也可以通過遺忘門有選擇地保留先前樣本的部分信息(長期記憶)。但是LSTM將所有記憶單元存儲在隱藏狀態向量中,該記憶方法會受可訓練參數數量的影響,在處理具有1 000量級的超長序列問題時存在一定的局限性。記憶增強神經網絡(Memory Augmented Neural Network,MANN)是針對上述問題提出的一種解決方案,創新性地在標準循環神經網絡基礎上增加了記憶矩陣,允許網絡保留多個隱藏狀態向量,分別對這些向量進行讀寫,從而提高了網絡的記憶能力,增加了讀寫過程來控制記憶狀態更新,具有比RNN和LSTM更強的記憶能力。
動態鍵值對記憶網絡(Dynamic Key-Value Memory Networks for Knowledge Tracing,DKVMN)[72],由香港中文大學的施行建于2017年提出,它借鑒了MANN使用記憶矩陣的思想,同時又結合了BKT和DKT的優點,實現了使用非線性變換學習表示和跟蹤每個概念狀態的能力。
在每個時間步,DKVMN輸入是習題編號qt,輸出是學習者正確回答下一道習題的概率p(rt|qt)。模型假設練習包含N個潛在概念{c1,c2,…,cN},這些知識概念存儲在一個稱為key的靜態矩陣Mk中。學生對每個概念的掌握程度,即概念狀態{s1,s2,…,sN}存儲在稱為value的動態矩陣Mv中,它通過刪除向量et和添加向量at來存儲和更新學生對于相應知識概念的掌握程度。
DKVMN模型的整體結構如圖5所示,模型整體由3部分組成。圖5藍色部分表示權重計算過程,即計算習題與各知識點間的相關權重。紫色部分表示讀過程,根據學生的知識掌握水平和當前練習的難度預測學生的表現。綠色部分表示寫過程,根據學生的練習記錄采用擦除加法機制更新他們的知識狀態,并將結果添加至矩陣Mv中。

圖5 DKVMN模型Fig.5 DKVMN model
標準DKVMN方法僅使用習題編號和做題結果作為模型的輸入,而忽略了學生在學習平臺中產生的碎片化數據,諸如學生的行為特征、練習后學生學習能力的變化和學生之間學習能力的差異等特征信息對學習結果的影響。因此,諸多研究者從輸入建模、使用不同方法等角度展開創新與改進。本文將DKVMN的擴展模型分為2類:(1)結合教育數據特征改進模型;(2)結合機器學習方法擴展模型。擴展模型的對比如表3所示。

表3 DKVMN改進模型對比Table 3 Comparison of improved DKVMN models
3.2.1 結合教育數據特征改進模型
文獻[73]提出DKVMN-LA模型,在DKVMN模型的基礎上引入學生練習的行為特征和練習后學生能力的變化建模學生的認知狀態。文獻[74]針對標準DKVMN模型無法建模學生掌握知識點的速度,引入分布式記憶矩陣,實現了知識增長速度的動態建模。DKVMN-CA[75]將練習題的難度、學生的練習時間等影響判斷學生知識水平的因素整合至傳統DKVMN模型中,提升了模型的預測性能。受DKT-DT的啟發,文獻[76]提出一種融合梯度提升回歸樹的深度知識追蹤優化模型,利用梯度提升回歸樹算法(GBRT)將學習者學習能力、學習行為和任務難度等特征信息融入知識追蹤模型,通過收集學習者更多的特征信息,提升模型的預測精度。根據德國著名心理學家艾賓豪斯對人類遺忘過程的研究,學習的遺忘過程會受到學生當前知識狀態和練習時長的影響[77]。按照這一思路,Zou等人[78]提出一種基于學習過程(LPKT)的知識追蹤模型,在讀過程中根據當前知識狀態計算知識遺忘量,計算下一個時刻的知識狀態時再參考LSTM的遺忘機制,這樣就比較符合學生的學習規律。
傳統DKVMN模型也存在難以捕捉長依賴關系和解釋性較差等問題。Abdelrahman等人[79]提出了序列鍵值記憶網絡知識追蹤模型(SKVMN)。SKVMN在其序列建模中使用一種改進的HOP-LSTM,HOP-LSTM使用三角隸屬度函數(triangular membership function)捕捉練習序列之間的順序依賴關系,增強了模型捕捉長期依賴關系的能力。
本節從學習特征、時間因素、捕捉長期依賴關系三個改進角度展開論述。引入學習特征信息、時間因素增加了建模的維度,但是在數據中嵌入這些異構特征存在一定的難度。HOP-LSTM方法控制信息在LSTM細胞間跳躍,加快了模型的推理速度,該方法跳躍決策的制定有待進一步研究。
3.2.2 混合模型
在復雜交互學習中,在線輔導系統有效的提示行為可以填補學生對空白概念的理解。針對這種情況,Dogga等人[80]提出了一種新的知識追蹤框架,設計多任務模型將請求提示預測與知識追蹤進行聯合訓練,通過實驗證明了框架的有效性。
文獻[81]發現學生學習數據自然地呈現出聚類特征,提出結合群體學習特征的LMKT模型,該模型可以準確預測學生對新知識的學習過程。DSCMN[82]通過捕獲學生長期學習過程中每個時間間隔的學習能力,實現動態學生分類,相當于在模型的輸入中隱式地嵌入了學生能力信息。
針對DKVMN模型沒有關注學習者在答題過程中的具體行為,僅僅關注學習者最終是否答對習題。DKVMN-DT[83]將用戶的答題時間,用戶是否請求提示,用戶嘗試作答題目的次數等影響用戶答題的因素輸入到一個決策樹模型,用來預測用戶的作答情況。
強化學習和深度神經網絡的有機結合取得了不錯的成就,研究者們提出將強化學習與知識追蹤任務相結合建模學生的認知情況。文獻[75]基于DKVMN-CA模型獲取學生的知識狀態,將系統對用戶推薦的習題作為當前的動作,學生下一時刻做k道題目的平均準確率作為當時的獎勵,提出了基于強化學習的習題推薦方法,實現學習資源的個性化推薦。AIDKVMN[84]設計了智能Agent挖掘學習者與學習資源間的隱性關聯,跟蹤學生的知識狀態,進而有針對性地向學習者提供個性化學習服務。
IRT方法能體現學生之間,問題之間的差異性,結合這一特性給DKVMN方法帶來了新的改進方向。Yeung等人[85]綜合了IRT模型和DKVMN模型,使用DKVMN模型處理學生的學習軌跡,并估算學生隨時間推移的能力水平和項目難度水平。然后使用IRT模型通過估算的學生能力和題目難度來預測學生正確回答某項練習的概率。
本節梳理了基于DKVMN的新型多混合知識追蹤方法。在此過程中,結合機器學習、強化學習等研究技術與方法提升模型精度的同時也存在一些問題:(1)文獻[80]依據學習者的知識掌握程度決定是否顯示提示,但沒有考慮提示問題的數量以及問題的順序。(2)在線教育數據的來源和類型極其豐富,單智能體強化學習算法已無法全面分析學習者的知識狀態,可以考慮將多智能體強化學習技術應用到復雜的教育場景中。(3)以上方法在訓練模型優化神經網絡參數時,都是不加區分地使用所有學生的學習數據,即訓練模型時假設所有學生的能力相同,顯然該假設不符合學生實際學習狀態。
現有的方法大多將練習記錄簡化為知識序列,不能充分挖掘練習文本中蘊含的豐富信息。根據教育領域中的知識轉移理論[86],當學習者學習一個概念時,不僅會改變現有知識概念的熟練程度,還會改變相關聯知識概念的掌握程度。受圖神經網絡(GNN)近期成功的啟發,Nakagawa等人提出一種基于GNN的知識追蹤方法,即基于圖的知識追蹤(Graph-based Knowledge Tracing,GKT)[87]。該方法將知識結構轉化為圖形,從而間接將知識追蹤任務重構成GNN模型中時間序列節點級分類問題。
文獻[87]首次將GNN應用于知識追蹤任務中,形成GKT模型,圖6介紹了GKT的模型結構。將一門課程知識建模為圖G=(V,E),掌握課程知識的要求被分解為N個子知識點,稱為節點V={v1,v2,…,vN},節點之間的關系定義為邊E,其中E?V×V,學生在時間步t對于知識點v的掌握程度建模,掌握程度會隨著時間而變化。

圖6 GKT的模型結構Fig.6 GKT model
當學生回答了包含知識點vi相關的練習時,GKT首先聚合與回答的概念相關的節點特征,然后更新學生對所回答概念本身及其相關概念的掌握狀態,Ni表示與vi相鄰的所有節點。最后預測學生在下一個時間步正確回答每個概念的概率。具體計算過程如下所示:
(1)聚合。將已經回答的概念i及其鄰近概念j∈Ni的隱藏狀態和嵌入使用一個向量表示。


(2)更新。基于聚合特征和知識圖結構更新隱藏狀態。其中,fself是多層的感知器,gea是Zhang等人提出的擦除-加法門,ggru表示門控遞歸單元,fneighbor是一個基于知識圖結構定義信息向相鄰節點傳播的函數。
(3)預測。輸出每個學生在下一個時間步正確回答每個知識點的預測概率。
基于圖神經網絡的知識追蹤(GKT)將圖神經網絡與知識追蹤任務相結合。它將學習者的隱藏知識狀態編碼為圖節點的嵌入,根據嵌入特征向量和知識圖結構更新隱藏狀態,最后,模型輸出下一時間步學生正確回答每個概念的預測概率。通過多個神經網絡對概念節點間的邊類型關系獨立建模,提高了知識追蹤的預測性能和可解釋性。
針對學生的練習記錄,題目中包含的知識點反映了學生在共性知識層面的掌握程度,而其文本描述則體現了學生對于該題目本身個性屬性(如難度等)的理解與學習。標準GKT模型沒有挖掘練習文本中蘊含的語義信息,因此面臨著練習表征丟失問題。Liu等人[51]首次提出融合題目語義的知識追蹤模型EKT,使用Bi-LSTM網絡挖掘練習文本層面的個性信息,并將其融入到學生的知識變化建模過程中。然而EKT直接將練習文本輸入至特征提取器中,沒有考慮習題潛在的層次圖性質,并且會因嵌入文本而帶來額外的噪聲。為了解決上述問題,Tong等人[88]采用層次圖神經網絡推斷和聚合練習文本,捕獲層級結構將能更加完整高效地表征習題,有效解決了習題表征丟失問題。同時結合基于attention機制的遞歸序列模型,在真實在線教育系統”愛學習”上進行實驗,證明模型的有效性。
受CNN的啟發,諸多研究者使用卷積方法處理圖形結構數據[89-90]。圖卷積神經網絡(Graph Convolutional Network,GCN)被提出用于半監督圖分類,基于自身及其鄰居的信息來更新自身節點表示。因此,如果使用多個圖卷積層,則更新的節點表示包含鄰居節點的屬性和高階鄰居的信息。Yang等人[91]按照這一思路提出了一種基于圖卷積神經網絡的知識追蹤(GIKT)模型。利用GCNS聚合練習和知識點嵌入,然后從高階信息中挖掘練習和知識點的特征,有效緩解了學生交互數據的稀疏性問題。
本章詳細介紹了基于圖神經網絡的知識追蹤,圖神經網絡的信息傳播機制相較傳統深度學習模型更具有可解釋性[92]。基于圖神經網絡的知識追蹤能夠有效學習到課程知識概念意義豐富的隱式表示,可以提高學生知識概念狀態的可解釋性。但在實際教學中,課程知識概念劃分粒度不一,這使得圖數據具有多樣的特性,會直接影響模型知識狀態評估的性能。
表4 總結了基于圖神經網絡的擴展模型主要的改進方式和局限性。

表4 圖神經網絡改進模型對比Table 4 Comparison of improved GKT models
本章將介紹知識追蹤任務中常用的10類大型公開數據集,其簡述、下載鏈接和分析如表5所示。研究者可以根據研究內容選擇不同的數據集。

表5 數據集Table 5 Data set
ASSISTments數據集是知識追蹤任務中的基準數據集,該數據集是由ASSISTments在線輔導系統獲得的小學數學課程的學生答題記錄。數據集包含4類數據。
(1)ASSISTment 2009。2009—2010學年收集的ASSISTment數據,去掉重復記錄之后,包含4 151個學生在110個問題上的325 673個交互。完整數據集分為兩個不同的文件,即技能構建數據集和非技能構建數據集。其中,技能構建數據集的含義為:若某學生作答數據滿足某個條件(如連續正確作答n次與該知識點相關的習題,其中n由老師設置,通常取值為3),則視為該學生已掌握該知識點;若學生使用輔導(“提示?+”或“將這個問題分解為步驟”),則視為該學生沒有掌握該知識點。此數據集在教育數據挖掘領域多被用于預測學生表現、訓練個性化學生模型、利用聚類方法改進學生模型等。數據集包含時間編號、問題編號、嘗試次數、序列號、老師ID等多個屬性,而應用到知識追蹤任務時一般只使用習題ID、學生ID、學生表現(對/錯)三個屬性。作為教育數據挖掘領域的經典數據集,常常被用于做知識追蹤模型的基準比較。
(2)ASSISTment 2012。ASSISTment 2012數據集是ASSISTments平臺收集的2012—2013學年的數據集,數據集中除了包含時間編號、問題編號、嘗試次數、序列號、老師ID等基礎屬性外,還包含學生心理因素特征屬性(沮喪、困惑、專注、無聊),通過不同學生心理因素表現程度(該值接近“0”表示不那么沮喪,接近“1”表示更加沮喪),對學生表現進行預測。
(3)ASSISTments2015。ASSISTments2015數據集不包含練習ID字段,在刪除學生表現不是1或0的練習記錄后,包含由19 840名學生、100個知識點組成的708 631條交互記錄。雖然此數據集中的記錄數量多于ASSISTment 2009,但每個學生的平均記錄數量較少。此數據集是ASSISTments數據集中繼ASSISTment 2009后使用最多,模型效果最好的數據集。
(4)ASSISTment Challenges。該數據集來自ASSISTment教育數據挖掘挑戰賽。就練習次數而言,ASSISTment Challenges數據集是所有可用數據集中密度最高的數據集,其密度為0.81。
(5)STATICS2011。該數據集來自卡內基梅隆大學工程靜力學課程。在力學系統中,每個練習都包含多個計算步驟。由于此數據集的練習題目較少,因此在知識追蹤任務中常將練習題的每個步驟作為模型的單獨輸入,即將練習ID和步驟ID一起充當輸入。
(6)Synthetic-5。Synthetic-5數據集是由Piech等人生成利用機器生成的模擬數據,它由訓練數據和測試數據組成,每個練習包含5個知識點,增加了知識點之間的結構屬性、難度屬性等,該數據集的結構良好,但由于數據集為模擬數據,每個練習都沒有真實的知識點標簽。
(7)EdNet。EdNet數據集來自多平臺AI輔導服務系統Santa,在韓國擁有超過78萬用戶。EdNet提供了4個不同級別的數據集,每個級別分別命名為KT1、KT2、KT3和KT4。隨著數據集級別的增加,與學習相關的行為集更加豐富,有助于研究人員分析學生的學習參與度。同時該數據集是教育領域迄今為止向公眾提供的最大的真實學生互動數據集,包含上億級學生交互記錄。
(8)Junyi Academy2015。Junyi Academy2015數據集來自在線教育網站Junyi Academy的交互日志,也是一個數據量極大的開源數據集,包含25萬名學生超過2 500萬的交互記錄,在使用數據集時,為了減少計算時間,一般會隨機挑選一部分學生,組成由若干練習和交互組成的子樣本。
(9)KDD Cup 2010。2010年KDD杯挑戰賽旨在根據學生與智能輔導系統的交互日志來預測學生在數學問題上的表現,共包含由6 043名學習者組成的20 012 498條交互,每條交互包含學習者ID、知識點所屬章節、回答正確或錯誤、知識點類型、練習開始與結束時間、正確與錯誤步驟的持續時間等屬性。在這個數據集中,學生需要解決的練習涉及多個步驟,每個步驟都與一個或多個知識點相關聯。此外,學習者在做題過程中可以請求系統提示,但只要請求提示后該題會被標記為錯誤回答。
(10)NeurIPS 2020 Education Challenge。數據來源于Eedi在NeurIPS會議上發起了一項預測建模挑戰賽,包含2018年9月至2020年5月期間學生對多項選擇題的回答記錄。比賽通過分析學生選擇的錯誤答案揭示了他們出錯的原因,找出隱藏在錯誤答案中的有價值信息,該模式為知識追蹤的建模提供了更廣闊的空間。
在KT任務中,一般從回歸和分類兩個角度評估模型的預測性能。從回歸的角度出發,包括平均絕對誤差(MAE)和均方根誤差(RMSE)兩個指標。此外,也可以從分類角度對模型進行評價,包括預測準確度(ACC)、ROC曲線下部分的面積(AUC)兩個評估指標。MAE、RMSE、ACC計算公式分別為:

其中,n表示學生作答的習題個數,h(x()i)表示第i個習題得分的預測值,y()i表示第i個習題得分的真實值,right表示模型預測正確的個數,N表示學生作答的習題個數。
AUC為二元預測評估提供了一個健壯的度量,表示模型預測的正例排在負例前面的概率。AUC得分為0.5表示模型性能與隨機分類效果相同,AUC越高表示模型性能越好。特別是在樣本極端不平衡的情況下,AUC指標在評價模型性能方面效果更佳,因此大多數研究以AUC作為模型的最終評價指標。
綜上,DKT、DKVMN、GKT三類深度知識追蹤模型都是基于學習者的歷史答題情況,跟蹤學習者的知識狀態變化,預測他在下一個練習的表現。如表6所示,這三類模型在知識狀態的定義和概念交互方面具有一定的差異。

表6 模型比較Table 6 Model comparison
(1)學生知識狀態ht的定義。DKT利用遞歸神經網絡(如RNN、LSTM)將學生的認知狀態概括在一個高維、連續的隱藏向量中,因此追蹤學生對某一知識概念的掌握水平比較困難。為解決上述問題,香港中文大學的施行建等人于2017年提出DKVMN模型,DKVMN可以自動學習輸入練習文本和潛在概念之間的關聯,引入外部記憶矩陣存儲學生的知識狀態,而且無需增加模型參數數量,提高了模型計算效率。受到GNN近期在其他領域成功的啟發,Nakagawa等人將圖神經網絡引入知識追蹤任務中,基于圖神經網絡的知識追蹤方法假設學生在每個時刻對每個知識點都有獨立的知識狀態,將知識結構圖形表示,為每個知識概念建立狀態模型,其圖形化描述如圖7所示。

圖7 DKT、DKVMN和GKT學生知識狀態Fig.7 Knowledge status of DKT,DKVMN and GKT students
(2)知識狀態更新過程中概念間的交互方式。在DKT中,概念之間無明顯交互。在DKVMN中,使用點積注意機制計算原始輸入概念和潛在概念之間的關系權重,但這不足以模擬知識概念之間復雜和多重的關系。繼而,GKT利用K個神經網絡對K個輸入概念之間的關系權值進行建模,實現了對知識概念之間多個復雜關系的建模。三種模型更新方式的圖形化描述如圖8、9所示。最后,利用AUC指標評估不同模型在3個公開數據集上的表現,如圖10所示(對比結果引自文獻[36]、[87])。

圖8 DKVMN和GKT知識狀態更新過程中概念間的相互作用Fig.8 Interaction between concepts in process of knowledge state updating of DKVMN and GKT

圖10 AUC比較Fig.10 AUC comparison
隨著知識追蹤的研究和應用的不斷深入,其發展方向主要包括優化學生知識結構、關注學生內隱學習特征、主觀題自動測評、驅動教學模式改革以及建模不同領域,具體內容為:

圖9 描述語言Fig.9 Description language
(1)融合教育知識圖譜。現有的研究大多數都是基于學習者與智能輔導系統采集的學習軌跡數據作為輸入,建模的維度比較單一。教育知識圖譜作為一個新興的研究方向,是一種建立知識與學習資源關聯關系的有效手段。一方面,可以利用教育知識圖譜來描述學習資源之間的關系,作為知識追蹤模型的輔助數據。另一方面,認知圖式深刻影響著學習者的學習活動,而知識追蹤可以獲取學習者的認知水平。如何將學習者自身的認知結構以知識圖譜的方式可視化展現出來,如何實現知識圖譜與學習者水平的同步更新等,都是未來的研究方向。
(2)內隱知識顯性化。學習者的認知加工過程是非常復雜的,存在諸多顯性與隱性的相關因素,已有的知識追蹤方法考慮學習過程中的顯性認知行為,即學習者的知識掌握狀態;而對于隱性的相關因素,如心理特征、學習態度、學習情緒等多模態數據,并未加以考慮。EEG-KT[93]模型使用腦電圖(electroencephalogram,EEG)設備監測學生的心理狀態,以改進對學生隱性知識狀態的評估,提高了BKT模型的預測性能。因此,未來研究可以考慮如何通過捕捉學生的腦電、眼動、肢體動作等分析學生的專注度情況;如何建立有考量學習者學習情緒的知識追蹤模型,融合人工智能、學習分析等新興技術,為更近一步的模擬學生的真實學習情境提供數據支持。
(3)主觀題自動測評。知識追蹤模型自提出以來,大部分研究工作都致力于用二元結果來模擬學生的表現。但是在實際學習中,練習的對象一般分為有客觀題和主觀題。主觀題由于是“發揮性題目”,往往帶有主觀性,多數沒有唯一標準答案。將學生的真實文本答案轉換為向量作為輸入極其困難,因此大部分KT模型無法針對主觀題建模。因此,未來的研究應該利用學生給出精確答案的詳細描述作為KT模型的輸入,結合深度學習技術實現主觀習題的自動批改,提高知識追蹤模型的適用范圍。
(4)驅動教學策略改革。知識追蹤模型比判斷學習者知識掌握的傳統方法提供了更豐富的動態信息。同時,結合其他學習分析技術,持續地采集更多微觀的過程性數據,比如學生的學習軌跡、在每道作業題上逗留的時間等,形成學生數據的測評報告,幫助教育者分析每位學生的興趣點、知識缺陷。因此,未來的研究可以關注如何使教學材料的呈現形式與學習者偏好的學習方式相匹配,如何根據學習者的認知水平匹配不同的教學材料,從而設計更加靈活多樣、更具有針對性的教學策略。
(5)針對不同領域建模。現有的KT模型大多針對單學科建模,并且特定學科(例如,數學)模型不能直接移植于其他學科(例如,物理)。因而為每個學科構建領域模型是復雜且耗時的。Cheng等人[28]首次提出了一種自適應知識追蹤(AKT)框架,實現了領域間良好的信息傳遞。Cheng等人的研究為解決領域適配問題奠定了初步的基礎,然而,AKT對超參數比較敏感,如何更合理地建模,使其不需要手動設置超參數是一個值得研究的問題。因此,未來的研究應該根據不同學科的特點,嘗試使用其他算法或引入其他模型解決教育數據挖掘中的其他預測問題,進一步提高知識追蹤跨領域建模的準確率。
知識追蹤模型根據學生動態的習題作答表現追蹤學習者的知識狀態、預測其掌握水平和未來表現,已被廣泛應用于智能教學系統中。隨著深度學習技術在知識追蹤領域中發揮愈加關鍵的作用,采用知識追蹤的個性化建模將會有更廣泛的需求與應用。本文從建模方法的角度對現有深度知識追蹤模型進行研究綜述,梳理和分析了三類最新的深度知識追蹤模型以及擴展模型,揭示了深度學習方法與學生交互序列建模任務之間的關系。
自2015年深度知識追蹤問世,知識追蹤模型的研究是計算機領域和教育領域的熱點問題,應依據建模任務和數據特點選擇模型。未來將持續探索深度知識追蹤與教育場景的深度融合。