郭 磊 秦海江
基于信號檢測論的認知診斷評估:構建與應用*
郭 磊1,2秦海江1,3
(1西南大學心理學部;2中國基礎教育質量監測協同創新中心西南大學分中心, 重慶 400715) (3貴陽市第三十七中學, 貴陽 550003)
作答選擇題可被看作從噪音中提取信號的過程, 研究提出了一種基于信號檢測論的認知診斷模型(SDT-CDM)。新模型的優勢在于:(1)無需對選項進行屬性層面的編碼。(2)能獲得傳統診斷模型無法提供的題目區分度和難度參數。(3)可以直接表達每個選項之間的合理性差異, 對題目性能刻畫更加細微全面。兩個模擬研究結果表明:(1)EM算法可以實現對新模型的參數估計過程, 便捷有效。(2) SDT-CDM具備良好性能, 分類準確性和參數估計精度較高以外, 還能提供選項層面的估計信息, 用于題目質量診斷與修訂。(3)屬性數量、題目質量與樣本量等因素會影響SDT-CDM的表現。(4)與稱名診斷模型NRDM相比, SDT-CDM在所有實驗條件下對被試的分類準確性更高。實證研究表明:SDT-CDM比NRDM具有更好的模型數據擬合結果, 其分類準確性和一致性更高, 尤其當屬性考察次數較少時具有很強的穩定性, 難度和區分度參數與IRT模型估計結果的相關性也更高, 值得推廣。
信號檢測論, 認知診斷, 選擇題, EM算法
自Kelly (1916)第一次提出選擇題(Multiple-Choice, MC)測驗形式, 因其客觀、有效、便捷等特點而廣受歡迎, 直至當下仍是測驗主流題型之一, 并廣泛應用在TIMSS、PISA、NAEP和TOEFL等標準化測驗。MC題型具有諸多優勢:不受主觀誤差影響、提高測驗信度、易于批閱且計分快速、滿足內容平衡需求等(郭磊, 周文杰, 2021)。通常, MC作答數據被當作0-1計分形式(即答對或答錯)處理, 但這樣會造成干擾項信息的損失。為了充分挖掘干擾項的診斷信息, 提高個體知識狀態的分類精度, 研究者提出了許多方法, 如MC-DINA模型(Multiple- Choice DINA; de la Torre, 2009)及其拓展的結構化MC-DINA模型(Ozaki, 2015), 包含干擾項信息的SICM模型(Scaling Individuals and Classifying Misconceptions Model; Bradshaw & Templin, 2014)和GDCM-MC模型(Generalized Diagnostic Classification Models for Multiple Choice Option-Based Scoring; DiBello et al., 2015), 以及基于選項層面的非參數認知診斷方法(郭磊, 周文杰, 2021; Wang et al., 2023)。這些方法的目標是在知識狀態空間中對被試進行分類, 從而知曉其學科知識或認知屬性的掌握情況, 這種評估方式也被稱作認知診斷評估。但上述MC處理方法有個前提條件, 即要求對干擾項進行編碼, 然后才能表征出區別于正確選項所表征的潛在類別。雖然前期的研究要求干擾項的編碼需要是正確選項編碼的子集、不同干擾項之間也要有包含關系(郭磊等, 2013), 但最近的研究已突破了該限制, 即干擾項的編碼無需嵌套于正確選項編碼中(Wang et al., 2023), 進一步推動了該領域研究。
實際上, MC測驗也可以被視作一種信號檢測任務, 被試需從一系列的噪音(所有選項)背景中選擇出信號, 即做出正確反應。被試作答過程中存在兩種可能性, 要么“會答/知道(Know)”, 要么“不會答/不知道(do not Know)”。從信號檢測論(signal detection theory, SDT)的視角出發, 被試作答行為可包含兩個階段:①感知階段:被試在理解題意后對每個選項產生不同程度的合理性1合理性可理解為基于個人知識、經驗等因素認為該選項是正確的/合理的傾向性。(plausibility)判斷, 可用合理性參數表達, 每個選項的合理性參數均服從一定分布。②決策階段:被試在權衡每個選項的合理性后, 會做出選擇最合理選項的決策?;谠摾砟? DeCarlo (2021)將SDT與項目反應理論(IRT)結合用于MC題目分析, 通過SDT模型可獲得被試在選擇各選項時的相對合理性參數、以及題目的區分度和難度參數信息。研究表明, SDT模型估計得到的難度參數與兩參數、三參數項目反應模型基本一致, 但區分度參數僅與兩參數模型相關較高, 與三參數模型相關低至0.04。此外, SDT還可以提供更豐富的信息, 如被試對每個選項尤其是干擾項的合理性傾向, 以及被試在每個選項上感知到的合理性差異(即選項差異)。因此, SDT對題目的解析更細微, 可以從選項層面知曉題目的整體情況, 其價值在于:①若某道題目偏簡單, 為了增大該題目難度, 可以通過估計得到的選項合理性參數進行選項層面的針對性調整, 起到修訂題目的作用。②診斷題目是否有問題。當被試“會答”該題目時, 選擇干擾項的傾向性仍比選擇正確選項的傾向性更大, 則預示著該題目的質量出現了問題。以上優勢是兩參數和三參數模型無法做到的。此外, SDT對MC題目的分析要比稱名反應模型(Nominal Response Model, NRM; Bock, 1972)更加簡潔易于解釋。盡管NRM也可分析基于選項的數據, 但它引入了多個區分度參數, 使得參數估計和結果解釋都變得復雜。若進一步想在NRM中表征猜測行為的話, 又需要引入更多的猜測參數, 這會導致模型參數增多并且難以估計(Thissen & Steinberg, 1997), 但SDT模型無需增加額外參數便可對猜測行為進行表征, 更加簡約。并且根據DeCarlo (2021)的實證研究2600名被試參與的32道題目的學術評估測試(Scholastic Assessment Test, SAT), 每道題目有5個選項。表明, SDT模型比NRM有更好的模型擬合結果。
盡管在認知診斷評估中, Templin等(2008)將NRM拓展為稱名反應診斷模型(Nominal Response Diagnostic Model, NRDM), 使之能夠分析認知診斷的數據。隨后, Ma和de la Torre (2016)提出了順序G-DINA (sequential G-DINA)的模型框架, 將NRDM包含在內, 可實現對順序(ordered)和稱名數據的處理。但這些模型均是基于最初NRM思想的拓展, 也保留了NRM存在的問題, 如題目參數過多等問題:每道題目的每個選項都要估計截距項、主效應項及其交互作用項。因此, 基于SDT視角分析選項層面的診斷數據, 并探討其適用價值具有重要意義。SDT用于認知診斷評估有以下優勢:①無需對MC題目的選項進行編碼, 節省大量人力物力。②在保證提供選項水平分析結果的前提下, 還可以使用更加精簡的模型表達方式來達到比NRDM模型更好的解釋意義, 參數更容易估計。③由于模型更加簡潔, 模型和數據的擬合可能會進一步提升。④能夠提供傳統診斷模型無法提供的難度和區分度3傳統診斷模型沒有難度參數的具體表達, 而區分度是通過估計得到參數后計算才能得到。參數。
綜上所述, 信號檢測論視角的MC題型認知診斷評估將具備諸多優勢, 因此本文擬探討基于信號檢測論的MC題型認知診斷評估方法與技術, 構建SDT-CDM模型并推導其參數估計方法, 并在模擬和實證測驗中檢驗新模型的性能和有效性。本文結構如下:首先介紹SDT模型的邏輯背景, 其次闡述SDT診斷模型(記作SDT-CDM)的構建過程和參數估計方法, 之后通過模擬和實證研究探討SDT- CDM的性能, 最后對結果進行討論與展望。
被試在作答MC題目時, 首先會對每個選項產生不同程度的感知, 進而將這種感知轉換成認為該選項是正確答案的合理性傾向。為了用模型表達出該加工過程, 可認為被試對每個選項的合理性傾向均服從一個概率分布, 如圖1所示。

圖1 SDT模型的反應示意圖
(取自DeCarlo, 2021; P3, Figure 1)



基于上述理論基礎, SDT模型本質上是一個混合模型, 如公式(1)所示(詳細推導請參見DeCarlo (2021)):






SDT-CDM的模型參數估計可用MMLE/EM算法實現, 算法推導過程及其標準誤計算請參見網絡版附錄。
采用蒙特卡洛模擬方式探討SDT-CDM在不同實驗條件下對被試的分類準確性和參數估計精度。

4.2.1 題目的模擬

4.2.2 被試的模擬
被試的知識狀態采取高階和多元正態分布生成。其中, 高階分布參考Ma和de la Torre (2016)的設置, 具體如下:


參數估計精度的評價指標主要采用平均偏差Bias、均方誤差根(root mean squared error, RMSE), 計算見公式(7)和公式(8)。


被試屬性掌握情況的估計精度評價指標采用平均屬性判準率(average attribute correct classificationrate, AACCR)和模式判準率(pattern correct classification rate, PCCR), 計算公式如下:



圖2和圖3呈現了不同自變量水平下SDT- CDM的參數估計Bias和RMSE的總體結果。由于每道題目的合理性參數、屬性主效應和屬性交互效應的參數不止一個, 考慮呈現的簡潔性和篇幅, 結果用均值表示。整體來看, 各參數的估計精度均較高, 如:合理性參數Bias范圍為?0.003至0.007, 均值為0.002; RMSE范圍為0.119至0.261, 均值為0.173。區分度參數Bias范圍為?0.054至?0.001, 均值為?0.022; RMSE范圍為0.145至0.385, 均值為0.253。易度參數eK的Bias范圍為?0.014至0.075, 均值為0.027; RMSE范圍為0.181至0.334, 均值為0.260。其余參數不再贅述。
不同自變量對參數估計精度的影響不同。首先, 屬性分布為高階分布的精度要稍優于多元正態分布的精度, 如高階分布下的b、d、eDK、eK、δ-M和δ-I參數的Bias(RMSE)均值分別為0.002(0.160)、?0.022(0.234)、0.046(0.245)、0.025(0.248)、0.001(0.078)和?0.001(0.154), 多元正態分布下的對應參數的Bias(RMSE)均值分別為0.002(0.187)、?0.022(0.271)、0.051(0.267)、0.029(0.271)、0.008(0.126)和?0.009(0.236)。其次, 屬性個數越多, 精度會略有下降, 如由= 3變為= 5時, 盡管所有參數的Bias均值由0.009變為0.010, 但RMSE的均值由0.189增大至0.224, 增幅為18.5%。然而, 題目數量對參數估計精度的影響較小。當= 20增加至40題時, 所有參數的Bias均值由0.008變為0.010, RMSE的均值由0.203變為0.210, 相差無幾。再次, 題目質量對精度的影響較大, 當題目質量由高變低時, 所有參數的Bias均值由0.000變為0.019, RMSE的均值由0.192變為0.221, 增幅為15.1%。最后, 樣本量的影響最大, 當人數由2000降低至1000時, 所有參數的Bias均值由0.007變為0.010, RMSE的均值由0.179變為0.234, 增幅高達30.7%。

圖2 SDT-CDM參數估計的Bias結果
注:為所有合理性參數的均值,為區分度參數, eDK為被試不會作答時的易度參數, ek為被試會作答時的易度參數, δ-M為屬性的主效應, δ-I為屬性的交互效應。橫坐標“3-20-H-1000表示”3屬性-20題-高題目質量-1000人的實驗條件。

圖3 SDT-CDM參數估計的RMSE結果
圖4呈現了SDT-CDM的AACCR和PCCR判準率結果。整體而言, 新模型能夠較為準確的對被試進行分類, 其分類精度同樣會受不同自變量的影響。在本文關注的5個因素中, 對分類精度影響最大的是題目質量。當題目質量較低時, AACCR的范圍為0.902至0.988, 均值為0.951, PCCR的范圍為0.609至0.964, 均值為0.816; 當題目質量提升后, AACCR的范圍為0.973至1.000, 均值為0.990, PCCR的范圍為0.876至0.999, 均值為0.957, 增幅為17.4%。其次是屬性個數對精度的影響, 當= 3時, AACCR的范圍為0.950至1.000, 均值為0.983, PCCR的范圍為0.858至0.999, 均值為0.951; 當= 5時, AACCR的下降幅度為2.5%, 而PCCR的下降幅度為15.7%。第三位的影響因素為題目數量, 題量越多, 對被試獲得的信息就越多, 因此對其分類精度也會提升。如= 20時, 平均的AACCR和PCCR分別為0.958和0.841, 當= 40時, 平均的AACCR和PCCR分別提升至0.984和0.932, 增幅分別為2.7%和10.8%。而其余兩個變量:屬性分布和樣本量對分類精度的影響不大。如高階分布時的平均AACCR和PCCR分別為0.969和0.882, 多元正態分布時的平均AACCR和PCCR分別為0.972和0.891; 人數為1000人時的平均AACCR和PCCR分別為0.970和0.883, 當人數增長至2000時, 平均AACCR和PCCR分別為0.972和0.890, 相差無幾。

圖4 SDT-CDM的PCCR和AACCR判準率結果
采用蒙特卡洛模擬方式主要比較SDT-CDM和NRDM在不同實驗條件下的被試分類準確性。NRDM模型如下所示:


網絡版附錄圖A1和網絡版附錄圖A2直觀地呈現了兩個模型分別為真模型時在不同自變量水平下的PCCR和AACCR結果。不論真模型是哪個, SDT-CDM的表現均要優于NRDM。當SDT-CDM為真模型時, 屬性分布對兩個模型的分類精度影響均較小, 樣本量僅對NRDM有中等程度影響(樣本量增大, N-PCCR的均值提高了7.6%)。屬性個數由3個增加至5個時, S-PCCR和N-PCCR的均值分別下降了12.9%和10.3%; 題目質量降低時, S-PCCR和N-PCCR的均值分別下降了14.3%和29.4%。值得注意的是, 題目數量對兩個模型的影響趨勢存在不同, 題目數量增大時, S-PCCR的均值提高了9.2%, 但N-PCCR的均值反而下降了18.2%。一個可能的原因是:題目數量越多, NRDM的題目參數數量將大幅度增長(由公式(12)可以看出), 因此需要更多的樣本量才能保證題目參數的估計精度, 而當樣本量不足時, 題目參數的估計精度會降低, 從而進一步降低了被試的分類精度。該影響也可以從最初提出NRDM的研究中得到佐證(Templin et al., 2008), 作者即使采用了縮減的補償NRDM模型而非飽和的NRDM模型也需要高達5000人才能得到理想的參數估計精度。相對而言, SDT-CDM就表現的和大部分研究結果相近, 即題目數量越多, 分類精度越高, 這點也可以說明新模型對于處理診斷測驗中的稱名數據更為理想。同時, 這5即使是縮減的補償NRDM模型也需要高達5000人才能得到理想的參數估計精度。也解釋了為何NRDM作為真模型的表現仍不如SDT-CDM。當NRDM為真模型時, 盡管自變量對分類精度的影響趨勢與真模型為SDT-CDM時類似, 但此時SDT-CDM與NRDM的表現差異要更小, 如題目質量降低時, S-PCCR和N-PCCR的均值分別下降了6.2%和14.8%, 這說明SDT-CDM比起NRDM具有更強的穩定性。
網絡版附錄表A1進一步呈現了不同自變量對兩個模型差異的影響。不論真模型是哪個, 題目數量對于兩者的影響均是最大的, 當= 20時, 兩者表現相差無幾; 但當= 40時, SDT-CDM比NRDM的PCCR均值在不同真模型條件下分別高出了42.29%和21.04%, 說明NRDM不太適合分析題目數量較多的測驗, 若要分析則需要增加較多樣本量, 而SDT-CDM在一定的樣本量基礎上就可以分析較多題量的測驗情景。影響其次的是題目質量, 尤其當題目質量較低時, SDT-CDM比NRDM的PCCR均值在不同真模型條件下分別高出了36.06%和16.52%, 說明SDT-CDM可以有效緩沖題目質量較低產生的負面影響。接下來是樣本量, 當樣本量較小時, SDT-CDM比NRDM的PCCR均值在不同真模型條件下分別高出了24.72%和14.93%, 說明SDT-CDM比起NRDM來說更適合處理小樣本。而其余變量均有不同程度的影響, 不再贅述。
通過上述結果綜合來看, SDT-CDM從各方面都要優于NRDM, 通過詳盡的模型比較研究, 進一步證明了新模型的優勢:當實驗條件變化時, SDT- CDM比NRDM更能維持住相對好的模型表現, 因此可以認為SDT-CDM比NRDM的適用場景更廣, 表現更穩定。
實證數據取自Ma和de la Torre (2020)使用過的TIMSS 2011數據, 該數據共包含23道數學測驗題目, 本研究選擇其中的14道選擇題進行分析。數據中包含748名來自美國被試的作答數據, 數據中的缺失值采用隨機的錯誤答案進行替換。Q矩陣屬性個數為6個, 分別為:A1)整數; A2)分數、小數和比例; A3)表達式、方程式和函數; A4)線條、角度和形狀; A5)位置和移動; A6)數據組織、表示和解釋識別明確信息, 如表1所示。診斷結果的信效度指標采用Wang等(2015)提出的屬性與模式分類一致性指標(Attribute-Level and Pattern-Level ClassificationConsistency), 以及屬性與模式分類準確性(Attribute- Level and Pattern-Level Classification Accuracy), 它們可以分別從屬性層面與模式層面綜合判斷診斷結果的信效度, 均是取值越高則表明信效度越好。為了展現SDT-CDM的實際表現, 在分析實證數據時加入了NRDM6使用R軟件中的GDINA程序包進行參數估計。進行對比。

表1 TIMSS 2011數學測驗(選擇題)的Q矩陣
表2呈現了SDT-CDM與NRDM的模型?數據的相對擬合指標:負2倍對數似然值(?2 Log likelihood)、AIC (Akaike information criterion)與BIC (Bayesian information criterion), 三者均是取值越小越好。結果表明, SDT-CDM在3個擬合指標上的結果都要優于NRDM, 如粗體結果所示, 并且模型自由估計的參數數量為71個, 而NRDM需要估計87個參數, 更加復雜。

表2 模型數據相對擬合指標
網絡版附錄表A2和表A3分別呈現了SDT- CDM和NRDM的模型參數估計結果。由網絡版附錄表A2可以看出, 14道題目的區分度均為正值, 這表明“會答”題目的被試和“不會答”題目的被試能夠被正常區分。理論上,越大則表明題目質量越好, 但根據DeCarlo (2021)實證數據參數估計結果的經驗, 當過大時可能導致標準誤的增大, 例如DeCarlo研究中在6以上的3道題, 其值的標準誤均在8以上, 表明參數估計不穩定。相比之下, 本研究僅有第7題的值大于6, 其標準誤為4.044遠小于8, 整體來說, 估計結果較為理想。


表3呈現了屬性與模式的分類準確性和分類一致性指標(Wang et al., 2015)結果。在分類準確性上, SDT-CDM除A1屬性低于NRDM之外, 其余屬性的分類準確性和模式分類準確性均要高于NRDM, 尤其是模式分類準確性提升了39.13%, A6的屬性分類準確性提升了23.77%; 在分類一致性上, SDT-CDM除A1屬性低于NRDM之外, 模式和其余屬性的分類一致性均要高于NRDM, 尤其是A6的屬性分類一致性提升了28.63%。由表2的Q矩陣可知, A6僅被考察了1次, 相對其他屬性被考察的次數偏少, 此時對NRDM的影響更大, 而SDT-CDM能夠在有限考察次數內保持較高的分類準確性和一致性, 更加穩健。以上結果表明新模型可以得到比舊模型更佳的信效度結果。

表3 屬性與模式水平的分類準確性和一致性
注:提升率 = (SDT-CDM ? NRDM)/ NRDM

SDT-CDM從可能的64種知識狀態中識別出748名被試各自所屬的知識狀態。圖5呈現了被試數量最多的前10類知識狀態, 總占比為79.3%。進一步計算SDT-CDM和NRDM估計得到的屬性掌握程度與總分間的相關(郭磊, 周文杰, 2021), 相關高表明總分越高的被試其掌握屬性的程度越好, 符合現實情況。其中, SDT-CDM為0.87 (< 0.001), NRDM為0.76 (< 0.001), 表明新模型的表現要優于NRDM。

圖5 各類知識狀態的被試占總體的比例(前十類)
MC作答過程可以看作是信號檢測的過程, 意味著被試對每個選項都有一個合理性感知, 并且總會選擇感知到合理性最強的選項。本研究將SDT模型整合進CDM中, 得到一些主要發現:首先, SDT-CDM無需對MC題目的選項進行編碼, 而是為每個選項賦予了一個合理性參數, 用來刻畫選項之間的差異, 并且通過這些合理性參數的組合可以計算得到傳統診斷模型無法提供的難度和區分度參數, 這些信息可用于題目質量診斷及修訂。通過研究表明, SDT-CDM的這些優勢都是存在的, 其模型構建是成功的。其次, 通過兩個模擬研究, 在5個因素上全面地檢驗了新模型的性能, 結果發現:(1)題目質量和樣本量對SDT-CDM的參數估計精度影響較大, 而屬性分布、屬性個數和題目數量的影響較小。(2)題目質量、屬性個數和題目數量對被試判準率的影響較大, 而屬性分布和樣本量對判準率的影響不大。(3)通過模型比較研究后發現, 不論真模型是哪個, SDT-CDM的被試判準率均要優于NRDM, 導致該現象的原因是由于NRDM需要很大樣本量才能估計準確導致, 這也恰恰證明了SDT-CDM的現實適用性和穩健性。最后, 通過TIMSS 2011的實證數據分析發現, 不論是模型數據擬合, 分類精確性和一致性, 還是與IRT的難度和區分度的相關, 均是SDT-CDM表現更優。此外, 由表4所得結果可用于判斷題目/選項的質量和合理性, 為完善和提升題目質量提供的針對性指標, 這也是NRDM所不能實現的功能。本研究值得探討的問題還有以下幾點。
6.1.1 干擾項信息的利用

6.1.2 EM算法的改進及標準誤的計算
本研究推導了SDT-CDM的EM算法, 但EM算法存在多樣的變式(Chalmers, 2012), 例如標準的EM算法(the standard EM algorithm with fixed quadrature)、蒙特卡洛EM估計(Monte Carlo EM estimation)、隨機EM算法(the stochastic EM)、MH-RM算法(Metropolis-Hastings Robbins-Monro algorithm)、最小化卡方的EM (朱瑋等, 2006)等, 這些算法大部分已應用于IRT研究領域, 且可以通過軟件包實現。然而, 目前在CDM中的EM算法比較單一, 從de la Torre (2009)提出DINA模型的邊際極大似然的EM算法(MMLE/EM)后, MMLE/EM便一直是主要的估計算法, 包括本文也是使用這一框架拓展。盡管MMLE/EM算法簡單高效, 但探索精度更高、收斂更快、或具有其他獨特優勢的新算法很有必要。未來可以考慮將IRT里較為成熟的算法引入新模型中。
此外, CDM中參數估計的標準誤采用信息矩陣的逆求解, 但目前已有多種信息矩陣(劉彥樓, 2022), 例如經驗交叉相乘信息矩陣法(Empirical Cross-product Information Matrix, XPD)、觀察信息矩陣法(Observed Information Matrix, Obs)和三明治信息矩陣法(Sandwich-type Information Matrix, Sw)等。本文使用的是XPD矩陣, 未來可探索使用不同信息矩陣對SDT-CDM參數標準誤估計的影響。
6.1.3 與過程性數據相結合
隨著計算機技術的發展, 記錄被試的作答過程性數據變得方便快捷, 許多研究者開始挖掘這些過程性數據所提供的信息是如何幫助提升被試知識狀態的診斷精度, 以及反映出不同的作答風格或策略。如, 和反應時數據結合的診斷(鄭天鵬等, 2023), 和眼動數據結合的診斷(詹沛達, 2022), 以及和動作序列結合的診斷(Zhan & Qiao, 2022)。這些研究均將過程性數據融入CDM中, 并證明了融入輔助信息的可行性和有效性, 為多模態數據分析提供了方法。盡管挖掘過程性數據中蘊含的信息已被研究者接受, 但尚未就如何能更好地分析它們達成共識(He et al., 2021), 同時, 用于分析過程性數據本身的模型或方法也具有多樣性, 如處理計數數據的模型包括泊松模型(poisson model)、負二項式模型(negative binomial model)、零膨脹模型(zero-inflated model)、跨欄模型(Hurdle model)等。再如, 動作序列的提取方法也有很多, 如潛在空間模型(latent space model, Chen et al., 2022), 基于遞歸神經網的序列到序列自動編碼器(recurrent neural network-based sequence-to-sequence autoencoders, Tang et al., 2021), 及多維尺度法(multidimensional scaling, Tang et al., 2020)等, 不同的特征提取方法也會影響診斷分類的效果。未來可以探討不同的過程性數據模型和不同的特征提取方法與SDT-CDM結合的實際效果。
6.1.4 與追蹤診斷相結合
縱向追蹤診斷研究也是CDA領域近年來的一個研究熱點, 通過對學習過程的追蹤, 不僅能進一步刻畫學生的學習軌跡, 更能有效發揮CDA的診斷功能, 幫助教師等實施針對性補救教學, 最終促進學生發展。目前縱向CDM包括基于潛在轉移分析的縱向CDM (Wang et al., 2018; Zhang & Chang, 2020)和基于高階潛在結構的縱向CDM兩大類(Lee, 2017; Zhan et al., 2019), 未來可以考慮將SDT模型融入縱向CDM中, 不僅實現對被試知識狀態的追蹤, 還能隨時間點觀察題目質量的改變。
本研究尚存一些不足之處, 例如本研究只將SDT-CDM與NRDM進行比較, 雖然這是由于能夠處理選項層面數據且不需要選項層面編碼的CDM較少導致, 但正是缺乏更多的對比目標導致難以對SDT-CDM模型進行更深一步的探索研究。本文使用的XPD信息矩陣屬于解析法信息矩陣, 而解析法信息矩陣在計算CDM模型參數的標準誤時可能會遇到矩陣非正定、以及方差協方差矩陣對角線元素可能小于0等問題, 導致無法求解出標準誤。因此計算標準誤更好的方法是采用劉彥樓(2022)提出的“并行自助法”, 以類似于蒙特卡洛模擬的方式進行計算, 可以不受解析法信息矩陣的限制, 但本研究并未探索該方法在SDT-CDM模型中的有效性。此外, 本文使用的MMLE/EM算法盡管高效, 但EM算法可能會陷入局部最優解, Zeng等(2023)提出了Tensor-EM算法, 較好地改善了局部最優解的困境, 對于復雜模型而言是很好的參數估計方法。
本研究提出了基于信號檢測論的認知診斷模型SDT-CDM, 基于模擬和實證研究結果, 得出如下結論:
(1) SDT-CDM可以通過EM算法實現其參數估計。除能提供傳統診斷模型不能提供的題目難度和區分度參數外, 還能估計得到每個選項的合理性參數, 通過這些題目參數信息可以對題目進行修訂以提高其質量。
(2)模擬研究結果表明, SDT-CDM參數估計精度較好, 不同自變量對題目參數和被試分類精度存在影響。其中, 對分類精度影響重要性排序為:題目質量、屬性個數和題目數量, 而屬性分布和樣本量對精度的影響較小。
(3)實證研究結果表明, SDT-CDM比NRDM有更好的模型數據擬合結果, 更高的模式/屬性分類準確性和一致性(尤其當某個屬性被考察次數較少時, SDT-CDM展現出了極高的穩定性), 被試屬性總體掌握程度與其總分的相關結果也更高, 且無需對干擾項進行編碼。此外, 可以根據兩個易度參數(eDK和eK)和區分度參數對題目質量進行診斷及針對性修訂。
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories.(1, Pt. 1), 29–51.
Bradshaw, L., & Templin, J. (2014). Combining item response theory and diagnostic classification models: A psychometric model for scaling ability and diagnosing misconceptions.(3), 403–425.
Chalmers, R, P. (2012). mirt: A multidimensional item response theory package for the R environment.(6), 1–29.
Chen, Y., Zhang, J., Yang, Y., & Lee, Y.-S. (2022). Latent space model for process data.(4), 517–535.
Chiu, C.-Y. (2013). Statistical refinement of the Q-matrix in cognitive diagnosis.(8), 598–618.
Cohen, J. (1988).(2nded.). New York, NY: Erlbaum.
DiBello, L. V., Henson, R. A., & Stout, W. F. (2015). A family of generalized diagnostic classification models for multiple choice option-based scoring.(1), 62–79.
DeCarlo, L, T. (2021). A signal detection model for multiple- choice exams.(6), 423–440.
de la Torre, J. (2009). DINA model and parameter estimation: A didactic.(1), 115–130.
de la Torre, J. (2011). The generalized DINA model framework.(2), 179–199.
Fang, G., Liu, J., & Ying, Z. (2019). On the identifiability of diagnostic classification models., 19–40.
Guo, L., Yuan, C. Y., & Bian, Y. F. (2013). Discussing the development tendency of cognitive diagnosis from the perspective of new models.(12), 2256–2264.
[郭磊, 苑春永, 邊玉芳. (2013). 從新模型視角探討認知診斷的發展趨勢.(12), 2256–2264.]
Guo, L., Zheng C., Bian Y., Song N., & Xia L. (2016). New item selection methods in cognitive diagnostic computerized adaptive testing: Combining item discrimination indices.(7), 903–914.
[郭磊, 鄭蟬金, 邊玉芳, 宋乃慶, 夏凌翔. (2016). 認知診斷計算機化自適應測驗中新的選題策略:結合項目區分度指標.(7), 903–914.]
Guo, L., & Zhou, W. J. (2021). Nonparametric methods for cognitive diagnosis to multiple-choice test items.(9), 1032–1043.
[郭磊, 周文杰. (2021). 基于選項層面的認知診斷非參數方法.(9), 1032–1043.]
He, Q., Borgonovi, F., & Paccagnella, M. (2021). Leveraging process data to assess adults’ problem-solving skills: Using sequence mining to identify behavioral patterns across digital tasks.: 104170.
Kelly, F. J. (1916). The kansas silent reading tests.(2), 63–80.
Lee, S. Y. (2017).(Unpublished doctorial dissertation). University of California, Berkeley.
Liu, Y. (2022). Standard errors and confidence intervals for cognitive diagnostic models: Parallel bootstrap methods.(6), 703–724.
[劉彥樓. (2022). 認知診斷模型的標準誤與置信區間估計:并行自助法.(6), 703–724.]
Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.(3), 253– 275.
Ma, W., & de la Torre, J. (2020). An empirical Q-matrix validation method for the sequential generalized DINA model.(1), 142–163.
Ozaki, K. (2015). DINA models for multiple-choice items with few parameters: Considering incorrect answers.(6), 431–447.
Tang, X., Wang, Z., He, Q., Liu, J., & Ying, Z. (2020). Latent feature extraction for process data via multidimensional scaling., 378–397.
Tang, X., Wang, Z., Liu, J., & Ying, Z. (2021). An exploratory analysis of the latent structure of process data via action sequence autoencoder.(1), 1–33.
Templin, J., Henson, R., Rupp, A., Jang, E., & Ahmed, M. (2008).. Annual Meeting of the National Council on Measurement in Education, New Brunswick, New Jersey.
Thissen, D., & Steinberg, L. (1997). A response model for multiple-choice items. In W. J. van der Linden & R. K. Hambleton (Eds.),(pp. 51–65). Springer.
Wang, S., Yang, Y., Culpepper, S. A., & Douglas, J. A. (2018). Tracking skill acquisition with cognitive diagnosis models: A higher-order, hidden markov model with covariates.(1), 57–87.
Wang, W., Song, L., Chen, P., Meng, Y., & Ding, S. (2015). Attribute-level and pattern-level classification consistency and accuracy indices for cognitive diagnostic assessment., 457–476.
Wang, Y., Chiu, C.-Y., & Kohn, H. F. (2023). Nonparametric classification method for multiple-choice items in cognitive diagnosis.(2), 189–219.
Xu, G. (2017). Identifiability of restricted latent class models with binary responses.(2), 675–707.
Xu, X., Chang, H., & Douglas, J. (2003).. Paper presented at the annual meeting of National Council on Measurement in Education, Montreal, Quebec, Canada.
Zeng, Z., Gu, Y., & Xu, G. (2023). A tensor-EM method for large-scale latent class analysis with binary responses., 580–612.
Zhan, P. D. (2022). Joint-cross-loading multimodal cognitive diagnostic modeling incorporating visual fixation counts.(11), 1416–1432.
[詹沛達. (2022). 引入眼動注視點的聯合-交叉負載多模態認知診斷建模.(11), 1416–1432.]
Zhan, P. D., Jiao, H., Liao D. D., & Li, F. M. (2019). A longitudinal higher-order diagnostic classification model.(3), 251–281.
Zhan, P. D., & Qiao, X. (2022). Diagnostic classification analysis of problem-solving competence using process data: An item expansion method.(4), 1529– 547.
Zhang, H. C., & Xu, J. P. (2015).(4thed.). Beijing Normal University Press.
[張厚粲, 徐建平. (2015).(第4版). 北京師范大學出版社.]
Zhang, S. S., & Chang, H. H. (2020). A multilevel logistic hidden markov model for learning under cognitive diagnosis., 408–421.
Zheng, T. P., Zhou, W. J., & Guo, L. (2023). Cognitive diagnosis modelling based on response times.(2), 478–490.
[鄭天鵬, 周文杰, 郭磊. (2023). 基于題目作答時間信息的認知診斷模型.(2), 478–490.]
Zhu W., Ding S., & Chen X. (2006). Minimum chi-square/EM estimation under IRT.(3), 453–460.
[朱瑋, 丁樹良, 陳小攀. (2006). IRT中最小化χ2/EM參數估計方法.(3), 453–460.]
Cognitive diagnostic assessment based on signal detection theory: Modeling and application
GUO Lei1,2, QIN Haijiang1,3
(1Faculty of Psychology, Southwest University;2Southwest University Branch, Collaborative Innovation Center of Assessment toward Basic Education Quality, Chongqing 400715, China) (3Guiyang No.37 Middle School, Guiyang 550003, China)
Cognitive diagnostic assessment (CDA) is aimed at diagnose which skills or attributes examinees have or do not have as the name expressed. This technique provides more useful feedback to examinees than a simple overall score got from classical test theory or item response theory. In CDA, multiple-choice (MC) is one of popular item types, which have the superiority on high test reliability, being easy to review, and scoring quickly and objectively. Traditionally, several cognitive diagnostic models (CDMs) have been developed to analyze the MC data by including the potential diagnostic information contained in the distractors.
However, the response to MC items can be viewed as the process of extracting signals (correct options) from noises (distractors). Examinees are supposed to have perceptions of the plausibility of each options, and they make the decision based on the most plausible option. Meanwhile, there are two different states when examinee response to items: knows or does not know each item. Thus, the signal detection theory can be integrated into CDM to deal with MC data in CDA. The cognitive diagnostic model based on signal detection theory (SDT-CDM) is proposed in this paper and has several advantages over traditional CDMs. Firstly, it does not require the coding of-vector for each option. Secondly, it provides discrimination and difficulty parameters that traditional CDMs cannot provide. Thirdly, it can directly express the relative differences between each options by plausibility parameters, providing a more comprehensive characterization of item quality.
The results of two simulation studies showed that (1) the marginal maximum likelihood estimation approach via Expectation Maximization (MMLE/EM) algorithm could effectively estimate the model parameters of the SDT-CDM. (2) the SDT-CDM had high classification accuracy and parameter estimation precision, and could provide option-level information for item quality diagnosis. (3) independent variables such as the number of attributes, item quality, and sample size affected the performance of the SDT-CDM, but the overall results were promising. (4) compared with the nominal response diagnostic model (NRDM), the SDT-CDM was more accurate in classifying examinees under all data conditions.
Further, an empirical study on the TIMSS 2011 mathematics assessment were conducted using both the SDT-CDM and the NRDM to inspect the ecological validity for the new model. The results showed that the SDT-CDM had better fitting and a smaller number of model parameters than the NRDM. The difficulty parameters of the SDT-CDM were significantly correlated with those of the two- (three-) parameter logical models. And the same was true of the discrimination parameters for the SDT-CDM. However, the correlation between the discrimination parameters of the NRDM and those of the two- (three-) parameter logical models was low and not significant. Besides, the classification accuracy and classification consistency of the SDT-CDM were higher than those of the NRDM. All the results indicated that the SDT-CDM was worth promoting.
signal detection theory, cognitive diagnostic assessment, multiple-choice items, expectation maximization algorithmtext
B841
2023-04-21
* 國家自然科學基金青年項目(31900793); 中央高校基本科研業務費專項資金(SWU2109222); 西南大學2035先導計劃項目(SWUPilotPlan006)。
郭磊, E-mail: happygl1229@swu.edu.cn