999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于閱讀認知診斷的學生表現預測

2022-06-09 11:58:46江培超胡富珍王曉東
計算機工程與應用 2022年11期

江培超,王 川,胡富珍,李 奇,王曉東

1.河南師范大學 計算機與信息工程學院,河南 新鄉 453007

2.河南師范大學 教育學部,河南 新鄉 453007

近年來,在線教育平臺的發展為學生的自主學習與個性化導學提供了重要手段。例如,大規模在線開放課程(massive open online course)[1]、智能教輔系統(intelligent tutoring system)[2]以及移動自主學堂(mobile autonomous school)[3-4]。其中,這些平臺的關鍵任務之一是預測學生表現(predicting student performance,PSP)。

一般地,PSP任務旨在評估學生在一系列試題上的得分情況,即預測學生是否可以正確作答相應試題(答對為1,答錯為0)[5]。它可被進一步推廣到多種教育應用中,例如個性化試題推薦[6]、教學計劃提升等[7-8]。

教育心理學中的認知診斷方法(cognitive diagnosis)利用學生在某些試題上的作答記錄對其知識狀態(如知識點掌握程度)進行評估,通過結合評估結果與教育先驗知識(如試題-知識點矩陣Q)[9]預測學生的試題得分。顯然,認知診斷方法使得預測結果具備了良好的解釋性。然而,由于學生的知識狀態具有一定的隱蔽性[10],因此僅通過學生的作答記錄對其進行推斷可能存在誤差,從而難以保證預測結果的準確性。推薦系統中的協同過濾方法也可用于預測學生表現,例如k近鄰算法(knearest neighbor,kNN)[11]、矩陣分解(matrix factorization)[12]。其中,矩陣分解是一種典型的預測技術,它將學生的得分矩陣分解成學生與試題的潛在特征向量。但是,由于分解的潛在向量難以理解,導致預測結果的可解釋性較弱,即不能清晰地描述出潛在向量中的元素與特定知識點的對應關系。此外,無論是認知診斷方法還是協同過濾方法,它們在預測學生表現時僅考慮了學生的試題作答記錄,然而在實際場景中,某些試題作答記錄的獲取是不現實的。例如,在某些標準化測試中,諸如重要的托福(TOEFL)、雅思(IELTS)考試與一般的期中、期末考試,由于測試開始之前無法提供學生的試題作答記錄,使得上述方法難以預測學生的試題表現。總結起來,現有方法在預測學生表現時主要存在如下問題。首先,預測結果的準確性與可解釋性難以同時保證[6,13]。其次,受限于某些真實場景,導致無法預先獲取學生的試題作答結果。因此,在沒有學生作答記錄的情況下,現有方法難以預測學生表現。

實際上,學生在作答試題之前,通常會選擇性地閱讀一些具有輔助性質的文本類學習材料,來鞏固自身的知識狀態(彌補自身對某些知識點掌握的不足),從而提高其作答表現。由于不同學生自身固有的知識水平不同,使得其所閱讀學習材料的內容(閱讀內容)也不盡相同。因此,學生的閱讀內容往往表達了他們對不同知識點的掌握與需求程度,從而反映出自身的知識狀態,即所提閱讀認知診斷(reading cognitive diagnosis)。為了更好地說明,圖1展示了一個閱讀認知診斷的形象例子。學生在作答試題之前,閱讀了一些與試題所考察特定知識點相關的學習材料(學習材料L1、L2、L3),由于這些學習材料與試題之間具有較強的關聯性(兩者同時考察了知識點K1、K2、K3),那么學生在閱讀學習材料后可能會對特定知識點具備一定的熟練程度(對知識點K1、K2、K3的掌握程度),從而達到提升作答表現的目的(提高了試題E2、E3得分)。因此,閱讀認知診斷可以反映出學生的知識狀態,有助于預測學生表現。表1給出了一個學習材料示例。

圖1 閱讀認知診斷示例Fig.1 Example of reading cognitive diagnosis

表1 學習材料示例Table 1 Example of learning material

為了提高預測結果的準確性與可解釋性,本文以閱讀認知診斷的方式,建模學生知識狀態,預測學生表現,在此過程中面臨著如下問題。首先,準確建模學生的知識狀態是有效預測學生表現的前提。通常,學生閱讀學習材料后會對其產生一個潛在的認知程度[14-15],潛在認知程度的不同可能會導致他們具有不同的知識狀態。因此,如何量化學生對學習材料的潛在認知程度?其次,學習材料的難度可能會影響學生對特定知識點的掌握程度[16-17],從而影響其知識狀態。因此,如何對學習材料的難度進行量化?最后,如何基于閱讀認知診斷建模學生知識狀態,得到堪用的學生表現預測結果?

為了解決這些問題,本文提出一種基于閱讀認知診斷的知識狀態建模方法(reading cognitive diagnosis,記為ReadingCD),預測學生表現。首先,利用學生的閱讀內容,量化出學生對學習材料的潛在認知程度。其次,通過結合教育學假設,量化得到學習材料相對于每個學生的難度。然后,利用上述兩個量化結果,計算出學生對每個學習材料的實際掌握程度。在此基礎上,根據教育先驗知識(學習材料與知識點之間的關聯)評估學生對每個知識點的掌握程度,作為學生知識狀態的建模結果,據此預測學生表現。因此,本文的主要貢獻為:(1)提出了一種關于學習材料潛在認知程度的量化方法,該方法可以有效應用于學生的知識狀態建模;(2)提出了一種關于學習材料難度的量化方法,該方法結合合理的教育學假設,更為準確地刻畫了學生的知識狀態;(3)設計了一種知識狀態建模方法ReadingCD并用其預測學生表現。實驗證明,該方法提高了預測結果的準確性與可解釋性。同時,可以預測學生在無作答記錄情況下的試題得分,一定程度上緩解了目前方法在實際應用中的局限性。

1 相關研究

1.1 認知診斷

教育心理學中的認知診斷方法可以發現學生的知識狀態,進而預測學生表現[18]。通常,傳統的認知診斷模型可被分為兩類:連續型與離散型。其中,項目反應理論(item response theory,IRT)是一種典型的連續型模型,它通過邏輯函數將每個學生的知識狀態刻畫為一個連續的數值變量[16],用以描述學生的綜合知識能力。相較而言,DINA模型(deterministic inputs,noisyand gate)作為一種離散模型,將學生的知識狀態表示為一個二值向量[9],表示學生是否掌握了Q矩陣中的知識點(掌握為1,未掌握為0)。雖然認知診斷方法的可解釋性較強,但得到的預測結果通常不夠準確[6,13]。為了提高預測的有效性,相關學者對認知診斷模型進行了改進。例如,文獻[19]與文獻[20]在模型中融入了時間因素。文獻[13]提出了FuzzyCDF以預測學生在主觀試題與客觀試題上的表現。文獻[21]提出了結合神經網絡的NeuralCD,用以學習學生與試題之間的復雜關系。

1.2 協同過濾

近年來,研究者嘗試使用推薦系統中的協同過濾方法預測學生表現,它可以分為兩類:基于近鄰的協同過濾與基于模型的協同過濾。其中,基于近鄰的協同過濾[11]根據學生的試題作答記錄計算學生之間的相似度,據此找到目標學生的相似學生群組,通過利用相似群組中學生的試題得分,對目標學生進行得分預測。基于模型的協同過濾,如矩陣分解,已被廣泛應用于學生表現預測中。例如,文獻[22]改進奇異值分解方法(singular value decomposition),通過得分矩陣來獲得學生與試題的潛在特征向量。文獻[12]將矩陣分解與傳統回歸方法在學生表現預測中進行比較。隨后,文獻[23]提出一種用于智能教輔系統中學生建模的多維關系分解方法(multi-relational factorization)。此外,文獻[24]應用非負矩陣分解方法(nonnegative matrix factorization,NMF)[25]推斷Q矩陣。為了捕捉學生的答題過程,相關學者考慮了一些額外因素。例如,文獻[26]提出一種通過增加額外時間因素的張量分解方法。文獻[27]注意到學習曲線理論(learning curve theory)與遺忘曲線理論(forgetting curve theory)對學生表現的影響,將二者納入統一的概率框架。雖然矩陣分解技術一定程度上提高了預測結果的準確性,但是,由其推斷出潛在特征向量的每個維度不能與特定的知識點相關聯,導致學生表現預測結果的可解釋性較弱。

此外,認知診斷方法與協同過濾方法預測時大多利用了學生的試題作答記錄,因此難以預測無作答記錄的學生在試題上的得分,這使得目前方法在實際應用中具有一定的局限性。

2 問題定義

針對具體工作,給出知識狀態建模方法ReadingCD的問題定義。一方面,給定學生集合S={S1,S2,…,SU},試題集合E={E1,E2,…,EV},知識點集合K={K1,K2,…,K D},學習材料集合L={L1,L2,…,L N}。另一方面,給定學生的作答記錄R=[r uv]U×V,其中r uv=0表示學生S u答錯試題E v,r uv=1表示學生S u答對試題E v;試題-知識點矩陣Q=[q vd]V×D(由專家標記),其中q vd=0表示試題E v未關聯知識點K d,q vd=1表示試題E v關聯了知識點K d;學習材料-知識點矩陣M=[mnd]N×D(由專家標記),其中mnd=0表示學習材料L n未關聯知識點K d,mnd=1表示學習材料L n關聯了知識點Kd。此外,給定閱讀記錄C u={L ui|i∈1,2,…,N},其中L ui表示學生S u閱讀過的學習材料L i。值得注意地,矩陣M作為一種教育先驗知識,可以反映出學習材料與知識點之間的關聯。

定義1給定學生的閱讀記錄C、試題-知識點矩陣Q與學習材料-知識點矩陣M,本文目標為通過建模學生的知識狀態,預測其試題得分。

3 閱讀認知診斷模型構建

此部分將詳細介紹ReadingCD的構建方法。如圖2所示,ReadingCD由四個部分組成,自上而下分別是學生對學習材料的實際掌握程度、學生對知識點的掌握程度、學生的試題掌握程度以及預測得到的試題得分。其中,每一步的計算將在以下部分中分別闡述。為了更好地說明,表2列出了建模過程中的一些重要數學符號及對應描述。

表2 ReadingCD的相關符號及對應描述Table 2 Symbols and descriptions of ReadingCD

圖2 ReadingCD的結構Fig.2 Structure of ReadingCD

3.1 學習材料實際掌握程度計算

合理建模學生的知識狀態是有效預測學生表現的前提。一般來說,學生閱讀學習材料的目的是為了鞏固自身的知識狀態,即彌補其在某些知識點掌握上的不足。因此,學生對其閱讀學習材料的實際掌握程度,往往可以體現自身知識狀態的鞏固效果。例如,學生對其閱讀某一學習材料(如《牛頓第二定律》)的實際掌握程度較高,那么該生對此學習材料所關聯知識點(即加速度、作用力、質量)的掌握程度可能較高,因此可以達到鞏固知識狀態的目的。為此,計算學生對學習材料的實際掌握程度,以此作為知識狀態建模的基礎。

從心理學角度來說,每一個用戶都有一個高階的潛在特質(用戶對項目的潛在認知程度)[14-15],同時,每一個項目也具備了自然屬性(項目難度)[16-17],兩者共同影響著用戶對項目的理解程度。根據上述思想,將用戶類比為學生,項目類比為學習材料,認為學生對學習材料的實際掌握程度,一方面取決于學生對學習材料的潛在認知程度,另一方面也依賴于學習材料的難度。為此,依循文獻[15]在項目反應理論中采用的邏輯斯蒂模型,將學生S u對學習材料L n的實際掌握程度a un定義為:

根據經驗,將εun的歸一化范圍設置為[-3,3],如式(3)所示:

其中,εmax與εmin分別表示ε中的最大值與最小值。學生對學習材料的潛在認知程度θ與學習材料難度b的量化分別在3.1.1小節與3.1.2小節中詳細闡述。

3.1.1 學習材料潛在認知程度量化

通常,學生會選擇性地閱讀一些學習材料,在閱讀過程中,他們往往會花費一定的時間與精力對這些學習材料進行學習與研究,以鞏固自身的知識狀態。因此,學生閱讀學習材料的內容中,往往隱含著大量學生對學習材料的潛在認知信息。為此,考慮利用學生閱讀學習材料的內容,量化其對學習材料的潛在認知程度。

一般來說,可利用學生的閱讀內容構建關鍵詞向量模型對學生形式化表示。然后計算學生與學習材料之間的相似度,用其表示學生對學習材料的潛在認知程度。但是,僅通過構建關鍵詞向量模型不足以反映出學生對學習材料的潛在認知信息。例如,學生將對與其關鍵詞向量相似的學習材料具備較高的潛在認知程度,而對與其關鍵詞向量迥異的學習材料具備較低的潛在認知程度,甚至為0,這是不合理的。現實場景中,學生可能會對與其閱讀內容相關的學習材料具備較高的潛在認知程度,即對具有相似主題的學習材料具備較高的潛在認知程度。例如,學習材料(如《牛頓第二定律》)與學習材料(如《描述物體運動變化的快慢:加速度》)之間在內容上具有一定的相關性,但卻沒有較多相同的關鍵詞。為此,利用學生的閱讀內容,從關鍵詞、主題兩個維度形式化表示學生。然后計算學生與學習材料之間的相似度,表示學生對學習材料的潛在認知程度。具體地,學習材料潛在認知程度量化可分為學習材料形式化表示、學生形式化表示、相似度計算三個部分,以下將分別闡述。

(1)學習材料形式化表示

為了將學生與學習材料進行相似度比對,需要對每個學習材料形式化表示。對于學習材料L n,可將其表示為L n={K n;P n}。其中K n表示L n的關鍵詞向量,P n表示L n的主題分布向量。

為了獲取學習材料的關鍵詞向量K,首先通過jieba分詞工具對集合L中每個學習材料的文本內容進行分詞、去停用詞處理。之后通過TF-IDF算法(term frequency-inverse document frequency)[28]計算分詞結果中每個詞語的權重,進而構建學習材料的關鍵詞向量K n={K n1:ωn1,K n2:ωn2,…,K nT:ωnT}。其中K nj、ωnj分別表示學習材料L n的關鍵詞j及其對應權重。

為了獲取學習材料的主題分布向量P,使用LDA主題模型(latent Dirichlet allocation)[29]挖掘集合L中每個學習材料潛在的主題分布。該模型可以從學習材料的語料庫中提取代表性詞語列表作為某一主題,最終將集合L中每個學習材料的主題以概率分布的形式呈現。因此,學習材料主題分布的最終挖掘結果為P n={P n1:νn1,Pn2:νn2,…,P nK:νnK}。其中P nj、νnj分別表示學習材料L n的主題j及其對應權重。

(2)學生形式化表示

對于學生S u,從其閱讀學習材料的內容C u中提取相應的關鍵詞與主題,進而將其形式化表示為S u={F u;G u}。其中F u、G u分別表示學生S u的關鍵詞向量與主題分布向量。

已知學生S u的閱讀記錄C u={L ui|i∈1,2,…,N},則其閱讀的學習材料Lui可被形式化表示為L ui={K ui;P ui}。從其閱讀內容Cu中提取用于形式化表示學生的關鍵詞,構建學生的關鍵詞向量F u={Fu1:σu1,F u2:σu2,…,F uT:σuT}。其中Fuj、σuj分別表示學生S u的關鍵詞j及其對應權重,σuj的計算見式(4):

其中,ωuij表示關鍵詞j在學生S u所閱讀學習材料L ui的關鍵詞向量K ui中的對應權重。式(4)對應的分式中,分母部分表示在學生S u的閱讀內容C u中,包含學生關鍵詞F uj的學習材料的個數;分子部分表示提取閱讀內容C u中所有包含學生關鍵詞F uj的學習材料,計算這些學習材料的關鍵詞j在其各自的關鍵詞向量K中所對應的權重之和。因此,式(4)通過利用學生閱讀內容中,包含關鍵詞j的學習材料在其關鍵詞向量K中對應權重的平均值,來表示學生關鍵詞F uj的權重值。

從學生S u的閱讀內容C u中提取用于形式化表示學生的主題,構建學生的主題分布向量G u=(G u1:μu1,G u2:μu2,…,G uK:μuK)。其中G uj、μuj分別表示學生S u的主題j及其對應權重,μuj的計算見式(5):

其中,νuij表示主題j在學生S u所閱讀學習材料L ui的主題分布向量P ui中的對應權重。式(5)對應的分式中,分母部分表示閱讀內容C u中學習材料的總個數;分子部分表示提取閱讀內容C u中的所有學習材料,計算這些學習材料的主題j在其各自的主題分布向量P中所對應的權重之和。因此,式(5)通過利用學生閱讀內容中學習材料的主題j在其主題分布向量P中所對應權重的平均值,來表示學生主題G uj的權重值。值得注意的是,不同于學生關鍵詞權重σ的計算,由于LDA模型使得每個學習材料具備了相同的主題,因此學生S u的主題G uj包含于其所閱讀的每個學習材料的主題分布向量P中。

(3)相似度計算

使用余弦相似性公式計算形式化后學生與學習材料之間的相似度,則學生Su對學習材料L n的潛在認知程度θun:

其中,λ為權重參數且λ∈[0,1],用于控制學生關鍵詞向量F與主題分布向量G的比重;T表示所有學習材料去停用詞、分詞后總的關鍵詞個數(不重復詞語個數);H表示LDA模型中設置的主題個數。

3.1.2 學習材料難度量化

直觀來看,學習材料所關聯知識點的個數可能會影響學習材料的難度。例如,學習材料L i關聯的知識點個數較多(假設與K1、K2、K3關聯),若學生Su想要完全掌握L i,那么可能需要同時掌握L i關聯的所有知識點,即掌握K1、K2、K3。對于關聯知識點個數較少的L j(假設僅與K1關聯),學生S u或許只需掌握知識點K1,就能完全掌握L j。與L i相比,學生S u在L j上所需掌握的知識點個數較少,因此L j較為簡單,而Li相對較難。此外,閱讀某一學習材料的學生人數同樣可以反映出該學習材料的難度。例如,若Li較為簡單,那么學生可能在閱讀Li上花費更少的時間與精力,從而可以更加方便快捷地鞏固自身的知識狀態,這可能會吸引更多的學生對其進行閱讀,使得閱讀L i的人數提升。反之,若Li較難,可能會導致閱讀人數減少。根據上述分析,提出一種關于學習材料難度的教育學假設:

假設1學習材料的難度隨著它所關聯知識點的個數正比增加,隨著閱讀它的學生數量反比下降。

此外,學習材料的難度不是一成不變的,它具有相對性,即學習材料相對于不同學生的難度是不同的。為此,利用學生的閱讀記錄C,結合提出的假設1,設計出一種關于學習材料難度的量化方法。

為了保證學習材料難度量化的相對性,構建關聯矩陣CM(correlation matrix),用以反映學生閱讀的每個學習材料中所關聯的知識點個數。具體地,根據學生的閱讀記錄C,容易得到學生對每個學習材料的閱讀情況X=[x un]U×N。其中x un=1表示學生S u閱讀了學習材料L n,x un=0表示未閱讀。然后,利用學生對學習材料的閱讀情況X以及學習材料-知識點矩陣M構建關聯矩陣CM,如式(9)、(10)所示:

其中,cmun表示學生S u閱讀的學習材料L n中所關聯的知識點個數;mni表示學習材料L n對知識點k i的關聯情況,關聯為1,否則為0。為了更好地說明,表3中給出了一個CM矩陣的簡化例子。

表3 CM矩陣示例Table 3 Example of correlation matrix

由表3可知,cm11=3,表示學生S1閱讀了學習材料L1,且與L1相關聯知識點的個數為3。由于每個學習材料至少會與1個知識點相關聯,因此當CM矩陣中的元素值為0時,表示學生沒有閱讀該學習材料。例如,cm13=0,表示學生S1未閱讀學習材料L3。此外,從表中還可以清晰地了解到學生S2閱讀了L3、L4,而未閱讀L1、L2。顯然,CM矩陣反映了學生閱讀的每個學習材料中關聯的知識點個數。

根據構建的CM矩陣,可將學習材料L n相對于學生S u的難度b un定義為:

其中,δun表示學生S u閱讀的學習材料Ln中所關聯的知識點個數與其閱讀所有學習材料中關聯知識點個數的比值。I n表示學生總個數與閱讀過學習材料L n的學生個數的比值。xin表示學生Si對學習材料L n的閱讀情況,閱讀為1,否則為0。

式(11)中,學習材料難度b un的定義分為兩個方面。一方面,學生S u閱讀了學習材料L n,即xun=1。根據定義,若Ln中所包含知識點的個數較多時,則δun的值較高,使得L n的難度提升。同時,若L n被較多的學生閱讀,則φn的值較低,使得L n的難度下降。因此,此定義可以很好地擬合提出的假設1。式(14)中,考慮到可能會出現某一學習材料沒有被學生閱讀,即從而導致分母為0的情況。為此,在分母中增加了常數項c,令其為1。此外,由于量化過程中利用了關聯矩陣CM(式(12)中),因此可以得到學習材料相對于不同學生的難度,體現了難度的相對性,這更符合實際情況。另一方面,學生S u未閱讀學習材料L n,即x un=0。此時利用學生S u對其閱讀過所有學習材料難度的平均值,統一表示其未閱讀學習材料的難度。

3.2 知識點掌握程度評估

本節將具體闡述學生知識點掌握程度的評估方法,即學生知識狀態建模。學生對學習材料的實際掌握程度可以很好地體現出學生當前的知識水平,因此可用于建模學生的知識狀態。

從知識點的層面建模學生的知識狀態,可以較好地保證學生表現預測結果的可解釋性。例如,學生是否因為對某些知識點的掌握存在不足,導致其答錯相應試題。又或者說,由于學生對某些知識點的掌握較好,使得其作答正確相應試題的概率較高。

通過上述分析,利用3.1節計算得到的學生對學習材料的實際掌握程度,從知識點層面建模學生的知識狀態。由于學習材料中通常關聯了特定的知識點,因此根據學習材料-知識點矩陣M,學生S u對知識點k d的掌握程度βud可被定義為:

其中,a ui表示學生S u對學習材料L i的實際掌握程度,mid表示學習材料Li對知識點k d的關聯情況,關聯為1,否則為0。式(15)所對應的分式中,分母部分表示在學習材料集合L中,關聯知識點k d的學習材料的個數;分子部分表示提取學習材料集合L中所有關聯知識點k d的學習材料,計算學生對這些學習材料的實際掌握程度之和。因此,式(15)通過利用學生S u對所有關聯知識點k d的學習材料的實際掌握程度,來計算其對知識點k d的掌握程度,從而實現學生的學習材料實際掌握程度到知識點掌握程度的轉化。

3.3 試題掌握程度評估及得分預測

本節進一步評估學生對試題的掌握程度,據此預測其試題得分。由于試題中關聯了待考察的知識點,因此根據學生的知識點掌握程度β與試題-知識點矩陣Q,利用幾何平均法可計算出學生S u對試題E v的掌握程度ηuv:

其中,βui表示學生S u對知識點k i的掌握程度,q vi表示試題E v對知識點k i的關聯情況,關聯為1,否則為0。式(16)通過計算學生S u對試題所關聯知識點掌握程度的幾何平均值,作為學生對特定試題的掌握程度,從而實現學生知識點掌握程度到試題掌握程度的轉化。

使用公式η=(η-ηmin)/(ηmax-ηmin)將計算得到的試題掌握程度η進行歸一化處理,使其值處于[0,1]區間內。然后,可以根據評估得到的試題掌握程度,預測學生在每道試題上的對錯:

其中,Th R是提前設置的閾值,令其為0.5。

3.4 模型總結

相較于傳統的預測方法,ReadingCD能在兩個方面對學生表現預測任務進行改進。首先,ReadingCD將學生的知識狀態建模為學生對知識點的掌握程度,計算值為0到1之間的連續值。而傳統方法要么將其建模為離散值,如認知診斷中的DINA模型;要么建模為難以理解的潛在特征向量,如協同過濾中的矩陣分解。因此,ReadingCD能夠更為準確地刻畫學生的知識狀態,為學生表現預測結果的解釋提供有力依據。其次,由于ReadingCD建模知識狀態時利用了學生閱讀學習材料的內容,而未利用學生在試題上的作答記錄,因此它可以預測無作答記錄的學生在試題上的表現,而傳統方法無法做到這一點。接下來的實驗部分也證明了ReadingCD的改進是有效的。

4 實驗與分析

為了證明ReadingCD方法的效果,設計了實際數據集上的對比實驗。首先,將ReadingCD與基準方法在學生表現預測上進行對比。其次,探索了參數變化對ReadingCD實驗結果的影響。最后,通過一個學生閱讀認知診斷的案例分析,評估預測結果的可解釋性。

4.1 數據準備

實驗數據來自鄭州市第二中學的學生與移動自主學堂系統[3-4]交互過程中所產生的學習行為數據。其中包括了學生在兩次期中物理測試中的客觀題作答記錄R,以及在這兩次考試之前對相關學習材料的閱讀記錄C。此外,還包括了每個學習材料的文本內容以及由一線教師標注的Q矩陣與M矩陣,以下將數據集記為Physics。表4匯總了Physics的具體信息,圖3展示了Q矩陣與M矩陣。

表4 Physics信息匯總Table 4 Descriptions of Physics

圖3 Q矩陣與M矩陣Fig.3 Q matrix and M matrix

本文從學生的物理課程中搜集實驗數據,主要考慮了兩個方面的因素:(1)學生在物理課程上的學習行為數據較為完備。首先,學生在物理類型的試題、學習材料上具有相對完整、客觀的試題作答記錄與學習材料閱讀記錄。其次,物理類型的試題、知識點、學習材料之間的關聯關系清晰,便于提取用于實驗。(2)相較于數學等科目而言,物理類型學習材料的文本內容、語義信息更為豐富。由于ReadingCD涉及到文本信息(文本類學習材料)的處理,因此從物理課程中提取實驗數據更為合適。

4.2 學生表現預測實驗

使用基準方法與ReadingCD的學生表現預測效果進行對比。為了觀察各個方法在不同數據稀疏度情況下的實驗效果,構造了不同比例的數據集。具體地,隨機抽取試題總數的15/18、12/18、9/18、6/18作為訓練集,其余的作為測試集,預測所有學生在測試集試題上的表現。特別地,由于ReadingCD通過利用閱讀學習材料內容評估出學生的知識狀態,因此可以預測無作答記錄的學生在試題上的得分,即可以預測出學生在測試集試題比例為18/18情況下的試題表現。

在本實驗中,采用了廣泛被應用的根均方誤差(root mean squared error,RMSE)與平均絕對誤差(mean absolute error,MAE)作為評價指標,如下式所示:

其中,表示預測的學生S u對試題E v的得分;r uv表示學生S u在試題E v上的實際得分。RMSE與MAE的值越小說明學生表現預測的效果越好。

本次對比實驗中考慮如下基準方法,表5中展示了這些方法的詳細特征。

表5 所有方法的特征Table 5 Features of all the methods

(1)DINA[9]。經典的離散型認知診斷模型,在給定Q矩陣的情況下,通過建模學生的知識狀態,結合試題參數(粗心與猜測)預測學生表現。

(2)IRT[15]。經典的連續型認知診斷模型,通過評估學生的潛在特征(對知識的綜合掌握情況)與試題參數(難度與區分度)來實現學生表現預測。

(3)kNN[11]。最近鄰方法,利用學生的作答記錄,使用余弦公式計算學生之間的相似度,尋找與目標學生最相似的學生,利用其試題得分作為目標學生得分。

(4)NMF[25]。非負矩陣分解,一種非負的潛在因子模型,產生的分解矩陣滿足非負性質。

(5)Random。隨機預測學生的試題得分,1表示答對,0表示答錯。

(6)ReadingCD_F。式(6)中,令λ=1,即量化學生對學習材料的潛在認知程度θ時,僅考慮學生的關鍵詞向量F。

(7)ReadingCD_G。式(6)中,令λ=0,即量化學生對學習材料的潛在認知程度θ時,僅考慮學生的主題分布向量G。

(8)ReadingCD_θ。式(1)、(2)中,計算學生對學習材料的實際掌握程度α時,僅考慮學生對學習材料的潛在認知程度θ,忽略學習材料的難度b。

在ReadingCD中,設置參數λ=0.1(式(6)中),主題個數H=8(式(8)中),以保證實驗效果最好,其中各個參數的選擇將在4.3節詳細闡述。表6展示了不同方法在學生表現預測上的實驗結果。其中,實現了一種低維度設置下的矩陣分解方法,即NMF-5D與NMF-10D,分別表示5個和10個潛在因子的非負矩陣分解方法。

表6 學生表現預測結果Table 6 Results of student performance prediction

4.2.1 ReadingCD的實驗效果

由表6可知,在不同的測試集試題比例中,Reading-CD的表現優于所有基準方法。具體來看,該方法利用學生閱讀學習材料的內容來建模知識狀態,預測學生的試題得分,要優于協同過濾中的最近鄰kNN與非負矩陣分解NMF方法。此外,ReadingCD建模的知識狀態為連續變量(學生對知識點的掌握程度為0到1之間的連續值),而認知診斷中的DINA模型將其建模為離散值(掌握為1,未掌握為0);IRT模型未從知識點層面建模學生的知識狀態,僅使用一個潛在的連續型數值變量對其進行表示。因此,相較于傳統的認知診斷方法,ReadingCD更為準確地刻畫了學生的知識狀態,從而可以進一步提高預測結果的可解釋性,同時也保證了預測精度。

4.2.2 學習材料潛在認知程度量化的實驗效果

在不同的測試集試題比例中,ReadingCD的表現要優于其變種方法ReadingCD_F與ReadingCD_G。這說明在式(6)~(8)中,結合學生的關鍵詞向量F與主題分布向量G量化學生對學習材料的潛在認知程度θ,預測學生表現,比僅使用兩者之一的效果好。因此,所提出的關于學習材料潛在認知程度的量化方法是有效的,它可以應用于學生知識狀態建模中,有助于預測學生的試題表現。

4.2.3 學習材料難度的量化效果

在不同的測試集試題比例中,ReadingCD的表現要優于其變種方法ReadingCD_θ。這說明同時結合學生對學習材料的潛在認知程度θ以及學習材料的難度b,計算學生對學習材料的實際掌握程度α,可以得到更加精確的學生表現預測結果。因此,本文根據提出的教育學假設(假設1),量化學習材料相對于不同學生的難度是有效的,它可以更為準確地刻畫學生的知識狀態,使得預測結果的精確性進一步提升。

4.2.4 ReadingCD在實際場景中的應用分析

由于傳統的協同過濾與認知診斷利用了學生的試題作答記錄,因此不能預測無作答記錄的學生在試題上的表現,即在測試集試題比例為18/18的情況下,無法通過基準方法得到學生表現預測結果。相較而言,Reading-CD不需要試題的作答記錄,僅通過學生閱讀學習材料的內容,就可以建模出學生的知識狀態,進而預測出學生在無作答記錄情況下的試題得分,因而可以應用到一些無法預先獲取學生試題作答記錄來診斷學生知識狀態的場景中。例如,在測試開始之前,ReadingCD可以通過學生閱讀的某些輔助性學習材料的內容,診斷出學生的知識狀態。根據診斷結果,可以發現學生某些掌握較弱(掌握程度較低)的知識點,據此進行針對性的教學訓練,以提高學生在后續測試中試題的作答表現。此外,當測試集試題比例為18/18時,ReadingCD的實驗效果優于隨機預測方法Random及其他變種方法。因此,本文方法一定程度上緩解了目前方法在某些實際場景應用中的局限性。

4.3 ReadingCD的參數設置

式(6)中,參數λ用于調整學習材料潛在認知程度θ的權重,λ∈[0,1]。λ越大(越小)表示θ的取值越依賴于學生的關鍵詞向量F(主題分布向量G)。此外,式(8)中,LDA模型設置的主題個數K的不同,會導致學生的主題分布向量G發生變化,進而對潛在認知程度θ的量化有所影響。由于本文將θ作為學生知識狀態建模的一部分,因此參數λ與主題個數K的變化會影響建模結果,使得ReadingCD的學生表現預測結果發生變化。

以學生在所有試題上的表現預測為例,固定主題個數K,設置不同的參數λ,觀察ReadingCD在MAE指標下的變化情況,如圖4所示。

圖4 參數對MAE指標的影響Fig.4 Effects of parameters on MAE

由圖4可知,當參數λ取值在0.1附近,主題個數K取值在8附近時,ReadingCD的MAE值最低,此時實驗效果最好。因此,最終參數設置為λ=0.1,K=8。當λ=0.1時,意味著學生的關鍵詞向量F在學習材料潛在認知程度θ的量化中所占比重較低,而主題分布向量G占了較高的比重。這表明學生對學習材料的潛在認知程度更依賴于學生的主題分布,從而也驗證了量化時所提出的設想是合理的,即學生可能會對與其閱讀內容相關的學習材料具備較高的潛在認知水平。

4.4 閱讀認知診斷案例分析

為了驗證預測結果的可解釋性,對比展示了Reading-CD和DINA模型在數據集Physics中一個學生的知識狀態建模結果,如圖5所示。

圖5 學生在某些知識點上的診斷結果Fig.5 Diagnosis results of student in some knowledge points

由圖5可知,在給定試題-知識點矩陣Q與學習材料-知識點矩陣M的情況下,無論是DINA模型還是ReadingCD都可以得到可解釋且帶有具體含義的知識點診斷結果。然而,DINA模型只能指明學生是否掌握了相應知識點(掌握為1,未掌握為0),而ReadingCD可以具體診斷出學生在每一個知識點上的掌握程度(診斷結果為連續變量)。因此,通過ReadingCD的診斷結果,學生能夠更為清晰地看到自身在某些知識點掌握上的優勢與不足,使得在學生表現預測結果上具備更強的解釋性。此外,教育專家或在線教育系統可以進一步針對具體的診斷結果,改進并提升當前的教學計劃,或為學生提供個性化的試題推薦。相較而言,認知診斷中的項目反應理論以及協同過濾中的最近鄰、矩陣分解方法,由于使用了潛在變量來描述學生的知識狀態,因此難以給出可解釋的預測結果。

5 結束語

本文設計了一種基于閱讀認知診斷的知識狀態建模方法ReadingCD,預測學生的試題得分。具體地,首先利用學生的閱讀內容,量化出學生對學習材料的潛在認知程度。其次結合提出的教育學假設,量化出學習材料的難度。然后,利用兩個量化結果,計算出學生對學習材料的實際掌握程度,據此建模學生的知識狀態并預測學生的試題得分。最后,通過實驗證明了ReadingCD可以提高預測結果的準確性與可解釋性。同時,一定程度上緩解了學生表現預測在實際應用中的局限性。另一方面,該方法仍有改進的空間。首先,由于ReadingCD利用了學生的閱讀內容建模其知識狀態,因此,若學生閱讀的學習材料較少或沒有進行閱讀,將會影響建模效果。其次,本文只預測了學生在客觀試題上的表現,還有其他一些試題類型應考慮在內,例如主觀試題。以上存在問題是未來的研究方向。

主站蜘蛛池模板: 亚洲高清中文字幕| 色婷婷国产精品视频| 国产高清不卡| 亚洲人妖在线| 亚洲日产2021三区在线| 无码专区在线观看| 在线99视频| 国产91九色在线播放| 亚洲伦理一区二区| 欧美日韩中文字幕在线| 久久综合色天堂av| 无码国内精品人妻少妇蜜桃视频| 免费欧美一级| 久久精品午夜视频| 国产一级毛片网站| 国产精品免费露脸视频| 中文字幕在线免费看| 日韩av高清无码一区二区三区| 婷婷亚洲天堂| 久久天天躁狠狠躁夜夜2020一| 2021国产精品自拍| 国产成人精品免费av| 就去色综合| 精品国产香蕉伊思人在线| 国产屁屁影院| AV无码无在线观看免费| 国产SUV精品一区二区6| 国产中文一区二区苍井空| 欧美激情视频一区| 国产成人精品2021欧美日韩| 亚洲一区二区成人| 国产成人精品第一区二区| 五月婷婷精品| 成人午夜视频在线| 91视频精品| 日韩欧美网址| 婷婷午夜影院| 成人a免费α片在线视频网站| 日韩免费中文字幕| 久久国产热| 国产正在播放| 91精品视频在线播放| 成年女人18毛片毛片免费| 在线国产欧美| 国产在线一区二区视频| 天天综合网亚洲网站| 99人体免费视频| 国产jizz| 亚洲an第二区国产精品| a级毛片在线免费| 日韩人妻无码制服丝袜视频| 伊人久久大香线蕉成人综合网| 1769国产精品视频免费观看| 午夜久久影院| 99热这里只有精品免费| 亚洲AV一二三区无码AV蜜桃| 免费国产无遮挡又黄又爽| 日本一本在线视频| 尤物国产在线| 国产AV无码专区亚洲A∨毛片| 色天堂无毒不卡| 九九精品在线观看| 亚洲欧美色中文字幕| 女人18毛片一级毛片在线 | 亚洲人成网站18禁动漫无码| 午夜精品区| 另类专区亚洲| 国产成人综合久久| 波多野结衣久久高清免费| 欧美亚洲香蕉| 正在播放久久| 无码专区国产精品第一页| 日韩免费毛片| 亚洲系列无码专区偷窥无码| 日韩人妻无码制服丝袜视频| 免费人欧美成又黄又爽的视频| 亚洲精品亚洲人成在线| 97se亚洲| 久久天天躁狠狠躁夜夜2020一| 97国产精品视频自在拍| 亚洲日本中文字幕乱码中文| 国产成人一区在线播放|