














摘" 要" G-DINA (the generalized deterministic input, noisy and gate)模型限制條件少, 應用范圍廣, 滿足大量心理與教育評估測驗數據的要求。研究提出一種適用于G-DINA等模型的同時標定新題Q矩陣與項目參數的認知診斷計算機化自適應測驗(CD-CAT)在線標定新方法SCADOCM, 以期促進CD-CAT在實踐中的推廣與應用。本研究分別基于模擬題庫以及真實題庫進行研究, 結果表明:相比傳統的SIE方法, SCADOCM在各實驗條件下均具有較為理想的標定精度與標定效率, 應用前景較好; SIE方法不適用于飽和的G-DINA等模型, 其各實驗條件下的Q矩陣標定精度均較低。
關鍵詞" 認知診斷計算機化自適應測驗, 在線標定, Q矩陣, G-DINA模型, SCAD懲罰
分類號" B841
1" 引言
如何高效、準確地為被試提供其在所測內容上詳細且有價值的診斷信息以滿足被試的測驗需求?這是近年來心理與教育測量學研究者和實踐者都極為關注的問題。在心理評估中, 如果測驗能快速、準確、高效地為臨床心理醫生尤其是新手醫生提供來訪者在某一心理問題上的具體癥狀表現, 幫助臨床醫生更好地理解心理問題及一些具體癥狀之間潛在的復雜關系, 心理醫生可及時地制定有效的預防和干預策略, 推進心理治療進程(如, de la Torre et al., 2018; Tan et al., 2023)。而在教育測評中, 如果測驗能快速、準確、高效地為教師提供學生掌握和欠缺的具體知識點, 教師在課堂上可以重點講授學生有待提高的知識點, 學生也可以針對自己的弱項進行有針對性的學習, 從而減輕學生負擔, 改進教學, 提高教學效果(如, Tang amp; Zhan, 2021)。
認知診斷計算機化自適應測驗(cognitive diagnostic computerized adaptive testing, CD-CAT)正是在這一背景下產生, 它包含了近來蓬勃發展的認知診斷(cognitive diagnosis, CD)和計算機化自適應測驗(computerized adaptive testing, CAT)兩種測量技術的優點, 是實現以上測量目標較為理想的選擇(Cheng, 2009; Lin amp; Chang, 2019; Xu et al., 2016)。認知診斷的迅速發展, 很大程度上取決于實踐中對于形成性評估(formative assessment)的需求。不同于僅提供測驗總分的總結性評估(summative assessment), 認知診斷為每個被試提供屬性掌握模式, 該模式詳細描述了被試在所測概念或內容上的掌握情況, 可為測驗后的進一步補救干預提供重要參考(de la Torre, 2011; Junker amp; Sijtsma, 2001)。CAT因其量身定制與高效的特點而備受研究者與實踐者的青睞。CAT根據每個被試的潛在特質水平為其定制一個測驗, 被試作答項目大多都與其潛在特質水平相匹配, 因此CAT可為被試提供更為有效且精確的潛在特質估計值。而CD-CAT同時具備CAT的特點以及認知診斷的功能, 它通過“量體裁衣”的個性化測驗快速準確地探查被試在所測內容上的優勢和不足, 可及時為被試提供精細的診斷反饋信息, 在提高測驗結果準確性的同時極大地減輕了測驗參與者的作答負擔(Chen et al., 2012; Chen et al., 2015; Lin amp; Chang, 2019; Liu et al., 2013)。這符合“雙減”等政策的精神和要求, 也較好地滿足了當前國家和社會發展的實際需要, 有利于促進精準、自適應和個性化的心理與教育測評, 以及考試的數字化革新。
CD-CAT的有效性依賴于高質量的題庫(item bank)。然而, 在CD-CAT持續使用一段時間后, 題庫中的部分題目會變得過時或者喪失功能, 這些題目需及時使用新題予以替換以保證測驗和題庫的質量, 也即項目增補(Chen et al., 2012; Chen et al., 2015; Kang et al., 2020)。具體而言, 需要邀請經驗豐富的領域專家和心理測量學家根據診斷目的編制新題(即待加入題庫但未標定參數的題目), 然后估計新題參數, 并將其與題庫中已有的題目置于同一量尺之上。在線標定(online calibration)技術是CAT中一種有效的項目增補方法, 它是指在測驗過程中, 讓被試同時作答新題與舊題(題庫中已有的已標定參數的題目), 并根據其作答來標定新題參數的過程(陳平, 辛濤, 2011a)。除可節約資源投入且相同測量模式使得被試作答新題和舊題的動機相同這些優勢外, 在線標定的另一重要優勢是無需復雜的等值技術以用于解決大型題庫構建時所面臨的測驗等值等具有挑戰性的難題(Chen et al., 2012; Chen amp; Wang, 2015)。至今為止, 在單維計算機化自適應測驗(unidimensional CAT, UCAT)以及多維計算機化自適應測驗(multidimensional CAT, MCAT)領域中, 研究者已提出了多種高效的在線標定方法。如, 方法A (Method A; Stocking, 1988)、一個EM循環的邊際極大似然估計方法(marginal maximum likelihood estimate with one EM cycle, OEM; Wainer amp; Mislevy, 1990)、多個EM循環的邊際極大似然估計方法(marginal maximum likelihood estimate with multiple EM cycles, MEM; Ban et al., 2001)、FFMLE-Method A方法(陳平, 2016)、M-Method A方法(Chen et al., 2017)、M-MEM-BME方法(Chen, 2017b)等。
CD-CAT中可使用在線標定技術標定新題的參數, 但有一個問題值得思考, 即認知診斷測驗中是否需要進行等值, 是否有必要使用在線標定技術對新題進行標定?de la Torre和Lee (2010)在研究中指出當模型與數據完全擬合時, 決定型輸入噪音與門(the deterministic input, noisy and gate, DINA; Junker amp; Sijtsma, 2001)模型的項目參數具有不變性; Bradshaw和Madison (2015), Madison和Bradshaw (2018)也在其研究中指出對數線性認知診斷模型(the log-linear cognitive diagnosis model, LCDM; Henson et al., 2009)和基于LCDM開發的TDCM (the Transition Diagnostic Classification Model)在模型與數據擬合的情況下參數具有不變性。在此條件下, 無需通過等值來保證被試參數估計值在同一量尺上。然而, 其研究也指出在模型與數據不完全擬合時, 難以觀察到參數不變性; 且即使模型與數據擬合的情況下, 參數不變性也會隨著標定樣本的減少而減弱(Bradshaw amp; Madison, 2015; de la Torre amp; Lee, 2010; Madison amp; Bradshaw, 2018)。這表明參數不變性成立需滿足一些必備的條件:如模型與數據完全擬合, 標定樣本量足夠大(如不少于1000), 在這些條件下可以不進行等值。但在實際測驗情境中, 模型與數據完全擬合的情況并不總能得到滿足, 且在同一次測驗中也較難獲得足夠大的標定樣本, 這都會導致項目參數估計出現偏差, 影響被試的分類準確性和Q矩陣的標定正確性。因此, 在CD-CAT題庫建設中有必要進行在線標定, 這有利于降低項目參數估計偏差等所帶來的影響, 提高CD-CAT題庫和測驗的質量。
目前, CD-CAT中有關在線標定方法的研究仍然較為薄弱, 而且不同于UCAT和MCAT, CD-CAT中標定新題時不僅需要考慮新題項目參數的標定, 還需考慮新題Q矩陣的標定。Q矩陣作為認知診斷的核心成分, 在大多數情況下是未知的。在實際測驗中, Q矩陣一般由領域專家和心理測量學專家共同界定, 需要耗費大量的人力和物力資源。另外, 由專家界定的Q矩陣容易受專家主觀因素的影響造成錯誤界定, 而Q矩陣的錯誤界定最終影響項目參數估計精度和被試分類準確性(de la Torre amp; Chiu, 2016; Rupp amp; Templin, 2008)。因此, 新題Q矩陣的標定是CD-CAT中標定新題時不容忽視的一個方面。
截至目前, 已有部分研究對CD-CAT中新題Q矩陣與項目參數的同時標定進行了探索。例如, 陳平和辛濤(2011b)提出的聯合估計算法(joint estimation algorithm, JEA), Chen等人(2015)提出的SIE (single-item estimation)方法, 譚青蓉等人(2021)提出的基于熵的信息增益在線標定方法(Information Gain of Entropy-based Online Calibration Method, IGEOCM), 以及Tan等人(2022)提出的基于基尼的方法(the Gini-based method)等均為同時標定新題Q矩陣與項目參數的在線標定方法。已有研究表明JEA、SIE、IGEOCM和基于基尼的方法等在DINA模型下具有較為理想的項目標定精度, 但在其它模型尤其是適用面更廣、限制條件非常少的飽和認知診斷模型(如拓廣的DINA模型, 即the generalized DINA, G-DINA; de la Torre, 2011)下的性能仍有待進一步考察。
相比于DINA模型, G-DINA等模型因限制條件少而有著更廣的適用范圍, 能滿足心理與教育評估中多數測驗數據的要求(de la Torre, 2011; de la Torre et al., 2018; Tu et al., 2017; Xi et al., 2020), 在實踐研究中的應用日益廣泛。如心理臨床診斷評估中, 只要被試符合心理障礙診斷標準中的部分癥狀便可實現對被試的臨床診斷。以網絡成癮為例, 《精神障礙診斷與統計手冊》第五版(the 5th edition of the diagnostic and statistical manual of mental disorders, DSM-V)中界定了網絡成癮的9條癥狀標準, 被試符合其中5條及5條以上癥狀可診斷為網絡成癮。此時, DINA模型顯然不適用于此類測驗, 它假定被試在項目上的作答只受到項目測量的所有屬性的交互作用影響, 而不受主效應及其它類型的交互作用的影響。如果強行使用該模型來分析整個測驗可能導致數據與所用模型的不適配, 繼而影響診斷結果的可信性和精確性(Hou, 2013)。而G-DINA模型則沒有這些嚴格的假設, 認為被試的作答可以是由項目測量的各屬性的主效應與各種類型的交互效應的共同影響, 如果主效應(或交互效應)的系數估計值為0或接近0, 則此時主效應(或交互效應)的作用不明顯, 即此時不存在主效應(或交互效應), 但若系數顯著不為0, 則說明存在主效應(或交互效應), 因此G-DINA模型更為靈活, 更適合該類測驗。
然而, 及至目前尚未有公開發表的期刊文章研究應用于限制條件少的G-DINA等模型的Q矩陣與項目參數同時性在線標定方法, 這在一定程度上限制了CD-CAT在實踐中的應用范圍, 阻礙了CD-CAT在實際測驗中的進一步推廣。鑒于此, 研究擬引入數據挖掘中SCAD (smoothly clipped absolute deviation penalty, SCAD; Fan amp; Li, 2001)方法選擇特征的思路提出一種適用于G-DINA等模型的Q矩陣與項目參數同時性在線標定方法, 旨在為
CD-CAT在實踐中的進一步推廣與應用提供高效準確的方法學支持。
2" G-DINA模型及SIE方法簡介
2.1" G-DINA模型
已有認知診斷模型中, 基于DINA模型拓展而來的G-DINA模型是一個限制條件少, 應用范圍更廣的模型, 符合大量心理與教育評估測驗數據的要求, 在實踐中所受到的重視日益增加, 越來越多的研究者基于G-DINA模型開發認知診斷測驗(如, de la Torre et al., 2018; Tu et al., 2017; Xi et al., 2020)。故研究在G-DINA模型框架下介紹新的在線標定方法并對其進行驗證, 該新方法同樣可以應用于其它認知診斷模型。
令測驗測量的屬性個數為K, qj = (qj1,…, qjK)為項目j的q向量, 是測驗Q矩陣的第j行, 若被試正確作答項目j需要掌握第k個屬性, qjk = 1, 否則qjk = 0; Xij表示被試i在項目j上的作答; αc = (αc1, αc2, …, αcK)表示第c類屬性掌握模式, 其中αck表示第c類屬性掌握模式下的被試是否掌握第k個屬性, 若掌握了第k個屬性, αck = 1, 否則αck = 0。G-DINA模型認為屬性掌握模式不同的被試在項目上的正確作答概率并不一致, 將被試分為 個類別, 其中 表示項目j測量的屬性個數。
根據所用鏈接函數的不同, G-DINA模型有不同的數學表達式, 其中最為常用的鏈接函數為對數鏈接函數(log link function)、logit鏈接函數(logit link function)和一致性鏈接函數(identity link function)。而一致性鏈接函數下的G-DINA模型, 是G-DINA模型更為一般化的形式(de la Torre, 2011), 其數學表達式可寫為:
上式中," 表示基于項目j所測量屬性的縮減屬性掌握模式, 其中 。例如, 測驗共測量3個屬性, 項目j測量了測驗的前兩個屬性qj = (1, 1, 0), 則 ," ; δj0表示項目j的截距參數, 也稱之為基線概率, 指被試未掌握項目j測量的所有屬性但在該項目上作答正確的概率, 其為非負值; δjk表示項目j上屬性k的主效
應, 指被試掌握屬性k對被試正確作答該項目概率的增加效應, 一般取非負值, 值越大說明掌握該屬性對于正確作答該項目的貢獻越大;" 表示項目j上屬性k和 的交互效應," 是所有屬性的交互效應。文中使用δj表示項目j的項目參數向量,
2.2" SIE方法
CD-CAT中已有的同時標定新題Q矩陣與項目參數的方法主要包含了JEA (陳平, 辛濤, 2011b)、SIE (Chen et al., 2015)、IGEOCM (譚青蓉 等, 2021)和基于基尼的方法(Tan et al., 2022)等。其中, JEA方法在項目質量高且樣本量大時具有較高的項目標定精度, 但其在項目質量較低時的項目標定精度仍有待于進一步提高。而實際測驗題庫中, 可能既包含了質量高的項目, 也包含了質量低的項目。如Liu等人(2013)開發的中國大型英語二級測驗題庫, 其項目失誤參數(被試掌握了項目測量的所有屬性但錯誤作答該項目的概率)的范圍在0.001到0.5之間。在新題的質量較低時, 若使用JEA方法來標定新題, 可能導致新題的標定精度較低, 從而影響整個題庫以及測驗的質量。另外, 理論上IGEOCM和基于基尼的方法可用于DINA模型外的其它認知診斷模型, 但該類方法受被試類別數量的影響, DINA模型在每個項目上均將被試區分為兩個類別, 而G-DINA模型在每個項目上將被試區分為 ( 表示項目j測量的屬性個數)個類別, 其在G-DINA等模型下的性能可能并不理想。如G-DINA等模型下, 被試類別隨項目測量屬性個數的增加而增加, 而熵的信息增益指標會隨著被試類別的增加而增加(李航, 2012)。因此, 在G-DINA等模型下使用IGEOCM方法標定新題q向量, 可能出現屬性指定過多的情況。基于以上分析, 文中僅詳細介紹SIE方法, 并將其與新方法進行比較。
SIE方法基于DINA模型提出, 其在標定新題時考慮了被試屬性掌握模式的估計誤差, 標定新題Q矩陣和項目參數時充分利用被試的屬性掌握模式后驗分布(Chen et al., 2015)。SIE方法標定新題時包含了Q矩陣標定和項目參數標定兩個部分。對于新題Q矩陣的標定, 首先基于被試在舊題上的作
答計算作答了新題j的被試的屬性掌握模式后驗分布。隨后, 根據被試屬性掌握模式后驗分布及每種屬性掌握模式在q向量為qj的新題j上的正確作答概率計算具有某一特定作答Rij的被試i的后驗預測分布:
需注意的是, DINA模型下使用SIE方法標定新題時對于任一的項目參數估計值, 需將新題的所有可能q向量代入似然函數以計算所有可能q向量所對應的似然值, 在此基礎上標定新題的q向量與項目參數。這在DINA模型下是可行的, 因為該模型下項目參數的個數不隨項目所測屬性個數的變化而發生變化, 不同q向量所對應的項目參數個數均為2, 也即失誤參數和猜測參數。但這在G-DINA模型下是難以實現的, 因為該模型下項目參數的個數隨項目所測屬性個數的變化而變化, 不同q向量所對應的項目參數個數可能不同。如項目測量2個屬性時, 項目參數的個數為4; 而項目測量3個屬性時, 項目參數的個數為8。因此, 將SIE方法從
DINA模型拓展到G-DINA模型時, 對于根據某一q向量估計的項目參數估計值, 僅結合該項目參數估
計值及其對應的q向量計算一個似然值。如, 基于qj = (1, 0, 0, 1, 0)估計的項目參數值, 僅將其與qj = (1, 0, 0, 1, 0)結合計算似然值, 而不與qj = (1, 0, 0, 1, 1)等可能的項目q向量結合來計算似然值。對于新題j的所有可能q向量及其各自對應的項目參數估計值, 均可以計算一個似然值。若新題的可能q向量個數為8, 則可以計算8個似然值, 選擇最大似然值對應的q向量與項目參數作為新題的q向量與項目參數估計值。除此之外, G-DINA模型下使用SIE方法標定新題時的步驟均與DINA模型一致。
3" 基于SCAD的在線標定方法(SCADOCM)開發
3.1" SCADOCM開發的基本思想
目前, 數據挖掘中多數方法都圍繞正則化方法進行, 正則化方法是系數收縮方法的一種, 通過壓縮特征系數來達到特征選擇的目的, 已成為一種主流的特征選擇方法。正則化方法基于懲罰的思想, 在目標函數上增加一個懲罰項, 使得新目標函數最小化以選擇重要特征。SCAD懲罰是一種正則化方法, 其在特征選擇上具有良好的性能(Fan amp; Li, 2001)。為簡化表達, 將SCAD懲罰稱為SCAD, 基于SCAD的對數似然函數可表示為:
Fan和Li (2001)建議 , 該值在各種特征選擇問題中都表現出較好的性能。λ是一個調整參數(tuning parameter), 極大程度地影響SCAD方法的性能(Fan amp; Li, 2001; Fan amp; Lv, 2010; Fan amp; Tang, 2013; Zhang et al., 2010)。Fan和Li (2001)建議λ = 0.7, 研究者也提出了不同的λ參數選擇方法, 如GCV準則、AIC準則和BIC準則等。BIC準則是較為常用的λ參數選擇方法(Wang et al., 2007; Zhang et al., 2010)。基于SCAD的對數似然函數第一項表示模型擬合, 值越小模型擬合越好; 第二項是對模型中所包含的自變量個數(模型復雜度)的懲罰, 較好地體現了模型擬合與復雜性的權衡。基于SCAD的似然函數可使用局部二次逼近算法(local quadratic approximations, LQA)來估計" (Fan amp; Li, 2001)。LQA算法的特征在于把收斂于0的回歸系數估計為0, 從而達到簡化模型, 提高運算效率的目的。
新題j的q向量估計可視為一個特征選擇問題, 將測驗測量的所有屬性作為待選擇的特征, 從所有測驗屬性中選擇重要屬性作為新題j的測驗屬性, 構建q向量(q向量中新題j的測驗屬性標記為1, 其它屬性標記為0)。若項目j測量了某幾個屬性, 則在這些屬性上掌握概率更高的被試正確作答項目j的可能性更大, 而在這些屬性上掌握概率更低的被試正確作答項目j的可能性更小。因此, 某一屬性的被試掌握概率對被試正確作答的影響越大, 說明該屬性對于項目來說越重要, 反之若某一屬性的被試掌握概率對被試正確作答的影響可忽略不計, 則說明項目可能未測量該屬性。將被試在新題j上的作答數據R視為因變量, 被試在每個測驗屬性上的掌握情況視為自變量(待選特征)構建基于SCAD的對數似然函數, 然后最小化該目標函數以選擇新題j的測驗屬性, 構建新題q向量。基于該思路, 本研究提出基于SCAD的在線標定方法(SCAD-based online calibration method, SCADOCM), 該方法使用SCAD方法標定新題的Q矩陣, 隨后使用EM算法標定新題的項目參數。SCADOCM標定新題Q矩陣與項目參數的計算公式及其過程詳細介紹如下。
3.2" SCADOCM中Q矩陣與項目參數標定的算法設計
本節將詳細說明如何使用 SCADOCM來估計新題的 q 向量與項目參數。對于新題q向量的估計, 首先將新題的q向量估計視為一個特征選擇問題, 然后通過SCAD構造一個有效可行的估計量。在認知診斷中, 被試對新題j的回答取決于他們對屬性的掌握程度。一般來說, 掌握新題j所測量屬性的被試, 正確作答新題j的概率更高。反之, 如果掌握了第k個屬性的被試在新題j上具有更高的正確作答概率, 那么新題j極有可能測量了屬性k。那么如何才能從測驗測量的所有屬性中選擇顯著影響被試正確作答該題的屬性呢?SCAD方法作為一種具有眾多優良特性的特征選擇方法, 是一種可行的解決方案。
基于測驗測量屬性以及被試在新題上的作答使用SCAD方法標定新題Q矩陣, 首先需構建屬性與被試作答間的回歸模型。這一步的關鍵是找到合適的指標來描述考生對屬性的掌握程度。被試在測驗所測屬性上的邊際掌握概率可基于CD-CAT過程中被試對舊題的作答估計獲得, 該指標較好地體現了被試對于屬性的掌握程度。被試在某個屬性上的邊際掌握概率越高, 則被試掌握該屬性的概率越大。此外, 被試在新題j上的作答服從伯努利分布。因此, 對于新題j, 基于被試在所測屬性上的邊際掌握概率及其在項目上的作答, 可構建如下logistic回歸模型:
若 , 則新題j測量了屬性k。例如, K = 5," 中的第一個元素和第四個元素為非0系數, 則新題j的q向量為qj = (1, 0, 0, 1, 0)。若對于BIC準則所選擇的λ參數出現 , 則選擇λ參數取最小值時所獲得的回歸系數估計值中最大回歸系數所對應的屬性作為新題j的測驗屬性以確保新題j至少測量一個屬性。λ參數的取值區間參考Breheny和Huang (2011)研究所提方法。
SCADOCM中, 在使用SCAD方法標定新題的q向量之后, 需要根據該q向量來估計其項目參數, 具體為采用EM算法來估計新題的項目參數(Chen et al., 2015)。在E步中, 首先基于被試i在新題j上的作答Rij計算每個被試的后驗分布, 其公式如下:
3.3" SCADOCM下Q矩陣與項目參數同時標定的基本步驟
SCADOCM同時標定新題Q矩陣和項目參數的具體步驟如下:
步驟1:新題q向量估計。對于新題j, 基于作答了新題j的被試在每個屬性上的邊際掌握概率及其在新題j上的作答數據, 構建基于SCAD的對數似然函數SCAD(β), 求解SCAD(β)以獲得新題j的估計q向量。
步驟2:新題項目參數估計。將步驟1中的估計q向量作為新題j的真實q向量, 基于作答了新題j的被試的屬性掌握模式后驗分布及其在新題j上的作答, 使用SCADOCM中項目參數估計方法估計新題的項目參數。新題j標定完成。
步驟3:對于所有待標定的其他新題, 重復步驟1和步驟2可獲得新題的Q矩陣估計值和項目參數估計值。直到所有新題標定完成則終止。
4" 研究1:模擬題庫下SCADOCM的性能驗證及與SIE方法的比較研究
研究1旨在考查模擬題庫下SCADOCM在不同標定樣本(50、100、500、1000、2000)、屬性掌握模式分布(均勻分布、高階分布、多元正態分布)和項目質量(高質量:Pj (0) (未掌握項目j所測量的任一屬性的被試在項目j上的答對概率)和1? Pj (1) (掌握項目j所測量的所有屬性的被試在項目j上的答對概率)從U (0.05, 0.15)中隨機抽取; 低質量:Pj (0)和1 ? Pj (1)從U (0.1, 0.3)中隨機抽取)下標定新題的效果, 并將其與SIE方法進行比較。標定樣本指作答了新題j的被試人數, 本文采用陳平和辛濤(2011b)及Chen等人(2015)的設定方式即nj = (N×Z)/m, 其中N為參與CD-CAT的被試總人數, Z為每個被試作答新題的個數, m為待標定的新題個數。本研究共包含5 (標定樣本) × 3 (屬性掌握模式分布) × 2 (項目質量) = 30種模擬實驗條件, 每種實驗條件重復實驗100次以減少隨機誤差。
4.1" 數據生成
4.1.1" 被試屬性掌握模式生成與題庫生成
標定樣本共5個水平, nj = 50, 100, 500, 1000和2000, 被試屬性掌握模式分別從均勻分布、高階分布和多元正態分布MVN (0, ∑)中產生。在均勻分布中, 被試的屬性掌握模式從所有可能的屬性掌握模式中以均勻的概率產生; 在高階分布中, 被試i是否掌握第k個屬性與被試i的一般潛在能力θi有關, 能力為θi的被試i掌握第k個屬性的概率為
題庫生成包含Q矩陣的生成和項目參數的生成。題庫中共包含300個題目, 每個題目最多測量3個屬性, 且題庫中測量1、2和3個屬性的項目均設置為100題。測驗測量屬性的總個數K = 5, 則共有31種可能的項目q向量, 其中測量1個屬性的項目q向量個數為5, 測量2個屬性的項目q向量個數為10, 測量3個屬性的項目q向量個數也為10。將測量1個屬性的5個項目q向量重復20次, 測量2個屬性的10個項目q向量重復10次, 測量3個屬性的10個項目q向量重復10次, 構成300×5的臨時測驗Q矩陣。
項目參數的生成如下所示:項目參數Pj(0)從U (0.05, 0.15)和U (0.1, 0.3)中隨機抽取, Pj(1)從U (0.85, 0.95)和U (0.7, 0.9)中隨機抽取。其他屬性掌握模式在新題j上的正確作答概率從U [Pj(0), Pj(1)]中隨機產生并滿足單調性條件, 掌握屬性個數多的被試在題目j上的答對概率大于掌握屬性個數少的被試(de la Torre amp; Chiu, 2016)。
4.1.2" 新題生成
新題生成包括Q矩陣以及項目參數的生成。設置待標定的新題個數m = 20, 新題Q矩陣是大小為20×5的矩陣。從上一步模擬的Q矩陣中隨機抽取20行以構建新題Q矩陣, 新題項目參數的生成與題庫項目參數的生成一致。在生成被試屬性掌握模式真值及項目參數真值后, 根據給定的認知診斷模型計算被試在每個新題上的正確作答概率, 將該正確作答概率與0~1之間的隨機數進行比較, 如果被試在題目上的正確作答概率大于隨機數, 則答對題目, 否則答錯題目。
4.2" CD-CAT過程及新題標定
研究使用定長終止規則, 每個參與測驗的被試均作答20個舊題和5個新題(Z = 5)。CD-CAT模擬過程具體如下:
測驗開始時對于被試的情況一無所知, 因此(1)從題庫中隨機挑選一個項目作為被試的初始作答題; (2)模擬被試在當前項目上的作答, 然后基于被試在已選項目上的作答使用香農熵(shannon entropy, SHE; Cheng, 2009)選題策略為被試從剩余題庫中挑
選最適合的項目作為其下一個作答項目, 重復該步驟直到測驗長度達到預先指定的標準。SHE選題策略理論基礎扎實, 具有較高的估計精度, 已有同時標定新題Q矩陣和項目參數的研究也表明SHE選題策略下各在線標定方法均具有較好的項目標定精度(譚青蓉 等, 2021; 張學工, 2010; Chen et al., 2015; Tan et al., 2022; Zheng amp; Chang, 2016)。因此, 研究選用SHE作為選題策略; (3)使用極大似然(maximum likelihood estimation, MLE)方法估計被試的屬性掌握模式。
在CD-CAT模擬過程中, 隨機從待標定的20個新題中抽取5個新題并將其置于被試測驗過程的隨機位置。CD-CAT測驗結束后, 基于被試屬性邊際掌握概率, 屬性掌握模式后驗分布及被試在新題上的作答, 分別使用SCADOCM和SIE方法標定新題的Q矩陣和項目參數。
4.3" 評價標準
標定效率:即平均運行時間(average running time, ART) ART用于評估各在線標定方法的標定效率, 其計算如下:
4.4" 研究1結果
圖1至圖3, 以及表1分別呈現了模擬題庫下SCADOCM和SIE方法的項目標定效率以及項目標定精度結果。各模擬條件下SCADOCM的平均運行時間(ART)、屬性向量估計正確率(AVCER)以及均方根誤差(RMSE)的均值分別為5.231 s、66.4%和0.101, SIE方法對應的值分別為99.893 s、0.0%和0.242。需注意的是, SIE方法的AVCER值均接近于0.0%, 其原因可能在于SIE方法中用于估計新題q向量的MLE方法在G-DINA模型下傾向于選擇測量所有屬性的q向量作為新題的估計q向量(汪大勛 等, 2020; Chen et al., 2013)。總之, SCADOCM具有較好的估計效率和項目標定精度, 其性能優于SIE方法。
圖1為使用SCADOCM和SIE方法估計20個新題的平均運行時間(單位:秒)。相比于SCADOCM, SIE方法的估計效率更低, 其所有條件下的平均ART值約為SCADOCM的19.095倍。SCADOCM和SIE的平均ART值分別為5.231 s和99.893 s。在標定樣本對各方法標定效率的影響上, SCADOCM和SIE方法的平均運行時間均隨標定樣本的增加而延長。當標定樣為50時, SCADOCM和SIE的平均ART值分別為1.216 s和25.554 s, 而當標定樣本為2000時, 2種方法的平均ART值延長至12.643 s和222.052 s。項目質量對SCADOCM和SIE的標定效率影響較小。當項目參數范圍為U (0.05, 0.15)和U (0.1, 0.3), SCADOCM的平均ART值為6.543 s和3.920 s, SIE方法的平均ART值為81.624 s和118.162 s。SCADOCM的標定效率受屬性掌握模式
分布的影響較小, SIE在屬性掌握模式為均勻分布和高階分布下的標定效率略優于正態分布。SCADOCM和SIE的平均ART值在屬性掌握模式分布為均勻分布時分別為4.304 s和58.204 s, 在屬性掌握模式分布為高階分布時分別為4.615 s和65.781 s, 而在屬性掌握模式分布為正態分布時分別為6.776 s和175.695 s。
圖2結果表明, SCADOCM的Q矩陣估計精度高于SIE方法, 標定樣本、項目質量和屬性掌握模式分布均影響SCADOCM的Q矩陣估計精度, 而對SIE方法的影響可忽略不計。SIE方法在各模擬條件下的AVCER值均接近于0。SCADOCM的Q矩陣估計精度隨標定樣本的增加而提高。各標定樣本(50、100、500、1000和2000)下, SCADOCM的AVCER均值分別為:38.3%、48.9%、74.5%、82.3%和88.3%。在標定樣本達到一定的數量后, 樣本量對SCADOCM的Q矩陣估計精度的影響逐漸減小。當標定樣本從50增加到100時, SCADOCM的AVCER指標差值為10.6%, 從100增加到500時, SCADOCM的AVCER差值為25.6%, 每增加50個被試所增加的AVCER值平均為3.2%, 而從1000增加到2000時, SCADOCM的AVCER差值僅為6.0%, 每增加50個被試所增加的AVCER值平均為0.3%。項目質量越高, SCADOCM的Q矩陣估計精度越高, 當項目參數范圍從U (0.05, 0.15)變化到U (0.1, 0.3)時, AVCER值在固定標定樣本和屬性掌握模式分布下單調遞減。在項目參數范圍為U (0.05, 0.15)時, SCADOCM的AVCER值在40.4%~96.0%之間, 項目參數范圍為U (0.1, 0.3)時, SCADOCM的AVCER值在30.2%~89.4%之間。在屬性掌握模式分布對Q矩陣標定精度的影響上, 多數實驗條件下, SCADOCM的Q矩陣估計精度在屬性掌握模式為均勻分布時最好, 高階分布時次之, 正態分布時最差。其可能的原因在于, 均勻分布下每種屬性掌握模式的被試人數都較為均勻, 而高階分布和正態分布下某些屬性掌握模式的被試人數非常少, 尤其是正態分布下某些屬性掌握模式的被試人數更少, 這不利于正確q向量的識別(Chiu, 2013; Wang et al., 2018), 從而導致高階分布和正態分布下的Q矩陣估計精度更低。SCADOCM在均勻、高階和正態分布下的Q矩陣估計精度范圍分別為35.2%~96.0%, 33.7%~93.4%和30.2%~86.0%。但在項目參數范圍為U (0.05, 0.15), 標定樣本為100時, SCADOCM的AVCER值在高階分布下更大。此條件下, SCADOCM在均勻和高階分布下的AVCER值分別為58.4%和59.9%。
兩方法均受標定樣本、項目質量和屬性掌握模式分布的影響。隨著標定樣本的增加, SCADOCM和SIE方法的項目參數標定精度提高。各標定樣本下, SCADOCM的平均RMSE值分別為0.188、0.145、0.076、0.057和0.042, SIE的平均RMSE值分別為0.400、0.337、0.200、0.156和0.120。SCADOCM和SIE在標定樣本為50和2000之間的平均RMSE指標差值分別為0.146和0.280。標定樣本對SIE方法的影響略大于SCADOCM。SCADOCM和SIE的項目參數標定精度在部分實驗條件下隨項目質量的提升而略有升高, 但在部分實驗條件下隨項目質量的提升而略有下降。總體上來說, SCADOCM在兩項目參數范圍下(U (0.05, 0.15)和U (0.1, 0.3))的平均RMSE值分別為0.101 (0.020~0.231)和0.102 (0.025~0.220), 平均RMSE值變大, SIE在兩項目參數下的平均RMSE值分別為0.235 (0.046~0.448)和0.250 (0.058~0.429), 平均RMSE值變大。在屬性掌握模式分布為正態分布時, SCADOCM在項目參數范圍為U (0.05, 0.15)時具有更大的RMSE值, 兩項目參數范圍間的RMSE最大差值為0.013; 在屬性掌握模式為正態分布且標定樣本為50和100時, SIE在項目參數范圍為U (0.05, 0.15)時具有更大的RMSE值, 兩項目參數范圍間的RMSE差值在標定樣本為50時為0.019。這可能是標定樣本和屬性掌握模式分布相互作用的結果。新題的項目參數標定精度在標定樣本量少的情況下較低, 而在標定樣本少且屬性掌握模式分布為正態分布時, 更有可能出現某些屬性掌握模式下的被試數量多而另一些屬性掌握模式下的被試缺失的情況, 兩者共同作用可能導致項目質量高時的RMSE值略大于項目質量低時, 但是這種差異是較小的, 且可以通過增大樣本量或改變屬性掌握模式分布扭轉這種趨勢。在屬性掌握模式分布對項目參數標定精度的影響上, SCADOCM和SIE方法的項目參數標定精度在屬性掌握模式為均勻分布時最好, 高階分布時次之, 正態分布時最差。均勻、高階和正態分布下, SCADOCM的RMSE范圍分別為0.020~0.154、0.028~0.185和0.070~0.231, SIE的RMSE范圍分別為0.046~0.378、0.079~0.403和0.221~0.448。
表1呈現了SIE和SCADOCM的P (0)和1 ? P (1)參數標定結果。結果表明SCADOCM在P (0)和1 ? P (1)參數上具有較好的標定精度, 優于SIE方法, 尤其在標定樣本量少的情況下。SIE和SCADOCM均受標定樣本、項目質量和屬性掌握模式分布的影響。SIE和SCADOCM的P (0)和1 ? P (1)參數標定精度隨著標定樣本的增加而提高。對于P (0)參數, SIE在各標定樣本下的平均RMSE值分別為0.223、0.155、0.066、0.046和0.032, SCADOCM"對應的平均RMSE值分別為0.155、0.120、0.048、0.032和0.022; 對于1 ? P (1)參數, SIE在各標定樣本下的平均RMSE值分別為0.235、0.163、0.067、0.046和0.033, SCADOCM對應的平均RMSE值分別為0.118、0.087、0.037、0.026和0.018。SIE和SCADOCM在P (0)和1 ? P (1)參數上的標定精度隨項目質量的提升而升高, 除標定樣本為50的情況。標定樣本為50時, SCADOCM在項目質量低時的標定精度高于項目質量高時, 但RMSE差值較小, 最大差值為0.022。在屬性掌握模式分布對P (0)和1 ? P (1)參數標定精度的影響上, SIE和SCADOCM在屬性掌握模式為高階分布時的P (0)和1 ? P (1)參數標定精度略優于均勻分布和正態分布。對于P (0)參數, 均勻、高階和正態分布下, SIE的RMSE范圍分別為0.038~0.362、0.019~0.180和0.023~0.229, SCADOCM的RMSE范圍分別為0.018~0.184、0.014~0.133和0.019~0.161; 對于1 ? P (1)參數, 均勻、高階和正態分布下, SIE的RMSE范圍分別為0.039~0.356、0.019~0.186和0.023~0.232, SCADOCM的RMSE范圍分別為0.015~0.122、0.013~0.107和0.017~0.134。
5" 研究2:真實題庫下SCADOCM的性能驗證
基于研究一的結果, 考慮到SIE方法在各實驗條件下的Q矩陣標定精度均較低, 不適用G-DINA等模型。因此, 研究2僅考查真實題庫下SCADOCM在不同標定樣本(50、100、500、1000、2000)和屬性掌握模式分布(均勻分布、高階分布、多元正態分布)下標定新題的效果。本研究共包含5 (標定樣本) × 3 (屬性掌握模式分布) = 15種模擬實驗條件, 每種實驗條件重復實驗100次以減少隨機誤差。
5.1" 真實題庫及新題指定
真實題庫:因可為患者提供全面且詳細的癥狀圖譜等獨有的優勢, 認知診斷在心理障礙評估與診斷中的應用日益增加。如研究者將認知診斷應用于病理性賭博、分裂型人格、邊緣型人格、焦慮、抑郁和網絡成癮等的評估與診斷(史雙雙, 2017; de la Torre et al., 2018; Peng et al., 2019; Templin amp; Henson, 2006; Tu et al., 2017; Xi et al., 2020)。史雙雙(2017)基于《精神障礙診斷與統計手冊》第五版(DSM-V)中定義的網絡成癮癥狀標準構建了網絡成癮題庫, 且在實踐中已驗證該網絡成癮題庫的信效度等均符合心理測量學要求。本實驗使用該網絡成癮題庫作為真實題庫, 題庫中包含263道二級計分項目, 每個項目最多測量3個屬性(癥狀標準), 共測量了9個屬性(如表2所示)。根據DSM-V的診斷標準, 被試滿足9個癥狀標準中的5個或5個以上便可診斷為網絡成癮。實驗使用史雙雙(2017)研究中的原始Q矩陣作為真實Q矩陣, 并基于該真實Q矩陣以及1558個真實被試的作答數據使用G-DINA模型估計題庫的項目參數, 項目參數描述性統計結果如表3所示。另外, 題庫中所有項目的參數結果如附表1所示。選用G-DINA模型進行分析, 主要考慮到G-DINA模型既允許屬性間存在補償關系, 也允許屬性間存在非補償關系, 適合于網絡成癮測驗的分析, 且模型?資料擬合檢驗(表4)結果發現G-DINA模型較DINA等其它約束的認知診斷模型更能擬合該網絡成癮數據。
新題指定:從網絡成癮題庫中隨機抽取20個項目作為待標定Q矩陣與項目參數的新題。
研究2中被試屬性掌握模式的生成, CD-CAT過程與新題標定以及評價標準均與研究1保持一致。需注意的是, 研究2中項目參數“真值”是基于已有研究中給定的由專家標定的Q矩陣和所有被試的真實作答數據使用G-DINA模型估計的結果, 基于該“真值”計算的RMSE指標反映的是項目參數估計結果之間的一致性。
5.2" 研究2結果
表3呈現了網絡成癮題庫項目參數的描述性統計, 相比研究1模擬題庫中項目的質量(P (0)/(1 ? P (1)) ~ U (0.05, 0.15)和U (0.1, 0.3)), 網絡成癮題庫中項目的質量更低。在該真實題庫下進一步驗證SCADOCM的性能, 可以進一步考察SCADOCM的適用范圍以及該方法在實踐中應用時的穩健性。
表5呈現了網絡成癮題庫下新方法SCADOCM的項目標定效率、Q矩陣估計精度和項目參數標定一致性結果。結果表明, 真實題庫下SCADOCM仍具有較好的估計效率、Q矩陣估計精度和項目參數標定一致性。具體而言, 各模擬條件下SCADOCM的ART、AVCER以及RMSE的均值分別為37.612 s、79.8%和0.101。
使用SCADOCM估計20個新題的平均運行時間(單位:秒)如表5所示。 SCADOCM的平均ART值為37.612 s。在標定樣本對SCADOCM標定效率的影響上, SCADOCM的平均運行時間均隨標定樣本的增加而延長。當標定樣本為50時, SCADOCM的平均ART值為4.507 s; 而當標定樣本為 2000時, 其平均ART值延長至101.849 s。SCADOCM的標定效率在各屬性掌握模式分布之間的差異不大。SCADOCM的平均ART值在屬性掌握模式分布為均勻分布、高階分布和正態分布時分別為37.567 s、38.060 s和37.209 s。
表5結果表明, 標定樣本和屬性掌握模式分布均影響SCADOCM的Q矩陣估計精度。SCADOCM的Q矩陣估計精度隨標定樣本的增加而提高。各標定樣本(50、100、500、1000和2000)下, SCADOCM的AVCER均值分別為:57.0%、69.8%、88.0%、91.2%和92.8%。與模擬題庫一致, 在標定樣本達到一定的數量后, 樣本量對SCADOCM的Q矩陣估計精度的影響逐漸減小。當標定樣本從50增加到100時, SCADOCM的AVCER指標差值為12.8%, 從100增加到500時, SCADOCM的AVCER差值為18.2%, 每增加50個被試所增加的AVCER值平均為2.3%, 而從1000增加到2000時, SCADOCM的AVCER差值僅為1.6%, 每增加50個被試所增加的AVCER值平均為0.1%。在屬性掌握模式分布對Q矩陣標定精度的影響上, SCADOCM的Q矩陣估計精度在屬性掌握模式為均勻分布時最好, 高階分布時次之, 正態分布時最差。SCADOCM在均勻、高階和正態分布下的Q矩陣估計精度范圍分別為69.7%~97.8%, 56.0%~94.5%和45.4%~86.3%。
與模擬題庫一致, SCADOCM的項目參數標定一致性受標定樣本和屬性掌握模式分布的影響。隨著標定樣本的增加, SCADOCM的項目參數標定一致性提高。各標定樣本下, SCADOCM的平均RMSE值分別為0.192、0.135、0.069、0.058和0.052。在屬性掌握模式分布對項目參數標定一致性的影響上, SCADOCM的項目參數標定一致性在屬性掌握模式為均勻分布時最好, 高階分布時次之, 正態分布時最差。均勻、高階和正態分布下, SCADOCM的RMSE范圍分別為0.019~0.142、0.032~0.189和0.105~0.244。
6" 討論與未來研究方向
如何才能使已構建好的CD-CAT在實際測驗中長久有效地發揮作用, 高效地為測驗使用者提供準確詳盡的診斷結果?行之有效的題庫維護或更新方法是必不可少的。項目增補對于題庫維護起著至關重要的作用, 而在線標定是一種有效的項目增補方法。然而, CD-CAT中有關Q矩陣與項目參數同時性在線標定方法的研究較少, 且基本是基于DINA模型提出。而G-DINA模型下有關Q矩陣與項目參數同時性在線標定方法的研究幾乎空白, 這一定程度上有礙于CD-CAT在實際測驗中的進一步推廣。
本研究基于正則化方法選擇特征的思路, 提出了適用于G-DINA等模型的在線標定新方法SCADOCM, 以期為CD-CAT題庫的項目增補提供新的方法支持。新方法SCADOCM使用正則化方法標定新題的Q矩陣, 相比已有在線標定方法中所使用的最優子集思路, 可有效節約新題標定的時間, 為CD-CAT中Q矩陣與項目參數同時性在線標定方法的研究提供了新的思路與視角。通過模擬與真實題庫下的Monte Carlo模擬研究檢驗SCADOCM的可行性與合理性, 考察標定樣本、項目質量以及屬性掌握模式分布等因素對其性能的影響, 并與傳統的SIE方法進行比較。研究結果表明, 新方法SCADOCM在各模擬條件下都具有較為理想的標定效率和標定精度, 且優于SIE方法。如, 模擬題庫下SIE的平均ART值是SCADOCM的19.096倍, 說明SCADOCM具有更高的標定效率。SCADOCM的平均AVCER值比SIE高66.4%, 且SCADOCM的平均RMSE值比SIE低0.141, 顯示SCADOCM在標定精度上表現出更好的性能。另外, 研究結果顯示, SIE的Q矩陣估計精度在各條件下幾乎都接近于0。其可能的原因在于:研究中所用評估Q矩陣估計精度的AVCER指標, 評估題目的整個估計q向量和真實q向量之間的一致性, 也即q向量模式的估計精度。SIE方法中使用MLE方法估計新題q向量, 而在G-DINA模型下, MLE方法傾向于選擇測量所有屬性的q向量(即全為1的q向量)作為新題的估計q向量(汪大勛 等, 2020; Chen et al., 2013)。例如, 測驗測量屬性個數K = 5時, SIE方法選擇q向量q = (1, 1, 1, 1, 1)作為題目的估計q向量, 實驗結果調查也證實了這一點。在模擬實驗中, 設置測驗共測量5個屬性, 每個題目(舊題和新題)最多測量3個屬性, 使用SIE標定新題Q矩陣偏向于指定每個題目都測量5個屬性, 此時新題Q矩陣的屬性向量估計精度低于隨機分配概率, 出現AVCER在0左右的結果。假設20個新題均測量3個屬性, 則20×5的新題Q矩陣中有60個元素為1, 40個元素為0, 此時SIE方法的屬性估計精度約為60%, 也即SIE方法的屬性估計精度最大值為60%; 研究中20個新題的q向量從300個舊題(測量1、2和3個屬性的項目均為100題)中隨機抽取, 20×5的新題Q矩陣中元素為1的個數大多數情況下小于50個, 該類情況下SIE方法的屬性估計精度低于50%。研究1中各模擬條件下SIE方法的平均屬性估計精度為39.8%, 大于0, 低于50%。研究1在SIE方法的AVCER極低的情況下仍保留了該方法作為比較基準, 主要考慮到該結果可以為其他研究者和實踐者提供參考與借鑒, 他們未來在G-DINA等飽和模型下進行在線標定方法研究時可以避免選擇該方法作為比較基準。此外, SIE方法標定新題Q矩陣時未考慮模型復雜性, 可能不適用于G-DINA等飽和模型, 可以從對模型復雜性進行懲罰這一思路入手改進該方法。具體來說, 使用SIE標定新題Q矩陣時, 基于模型復雜性的考慮, 對似然進行懲罰, 構建BIC指標, 選擇能使BIC值最小的q向量作為新題的估計q向量。初步的預實驗表明:改進的SIE方法的項目標定精度優于SIE方法。項目參數P (0)和1 ? P (1)的取值范圍為U (0.1, 0.3), 屬性掌握模式分布為正態分布, 標定樣本為500時, 改進SIE方法的平均運行時間(ART)、屬性向量正確估計率(AVCER)、項目參數均方根誤差(RMSE)、P (0)和1 ? P (1)參數的RMSE值分別為153.758 s、54.9%、0.104、0.058和0.048, Q矩陣標定精度遠優于SIE方法, 但仍不如新方法SCADOCM (此條件下SCADOCM的AVCER值為61.7%)。
盡管研究是針對CD-CAT題庫開發與維護過程中項目增補的技術難點, 開發高效可行的在線標定方法, 但其與心理學問題是緊密相關的。心理測量學是研究心理學的工具, 心理問題(如抑郁、焦慮)的評估與測量都離不開心理測量學。CD-CAT作為一種新的測驗形式, 可以更高效、精準地篩查存在心理問題的患者, 緩解患者(如抑郁癥、躁狂癥)做包含大量題目的問卷時的痛苦, 減輕其測試的負擔。更為重要的是, CD-CAT可以幫助測驗使用者了解患者在某種心理問題各個癥狀上的表現, 更快地獲得診斷結果, 且能依據該診斷結果制定針對性的治療方案。在心理測評中應用CD-CAT對患者和測驗使用者都具有重要的意義, 研究致力于解決CD-CAT在實際測驗中持續應用時所面臨的一大挑戰, 也即CD-CAT題庫構建與維護過程中進行項目增補所需應對的技術難題, 促進CD-CAT在心理測評實踐中的應用與推廣, 以期幫助測驗使用者獲得更為精細的診斷結果, 制定相應的治療計劃, 這與心理學問題息息相關。
雖然研究豐富了CD-CAT中有關在線標定方法的研究, 但仍有許多有待進一步完善及深入研究的地方。具體分述如下:
第一, 新方法SCADOCM中使用SCAD來標定新題的Q矩陣, 其性能受λ參數影響, 一個合適且優良的λ值可提高SCADOCM的Q矩陣標定精度, 進而提高該方法的項目標定精度(Fan amp; Li, 2001; Fan amp; Lv, 2010; Fan amp; Tang, 2013; Zhang et al., 2010)。研究使用數據挖掘領域中比較常用且效果較好的BIC準則來選擇λ值(Wang et al., 2007; Zhang et al., 2010), 盡管研究表明SCADOCM中使用該準則選擇λ值時可獲得令人滿意的項目標定精度, 但在Q矩陣與項目參數同時性在線標定方法研究中是否存在更好的λ參數選擇準則仍是一個值得探討的問題。未來研究中可對已有的λ參數選擇準則進行系統比較, 以為SCADOCM中λ參數的選擇提供建議與參考。
第二, 本研究僅考慮了定長的CD-CAT終止規則, 但變長終止規則更好地體現了CD-CAT的自適應特征。變長終止規則下如何實現新題的標定是未來研究中可以進一步討論和探索的。例如, 在變長終止規則下應如何為考生分配新題, 新題的分配方式是否會影響最終的項目標定精度等。此外, 本研究的研究設計圍繞在線標定方法的性能檢驗及相關因素對其的影響展開, 尚未探索測量不變性的問題。不同于以往研究中被試作答矩陣完整, 題目Q矩陣已知且正確的情況(Bradshaw amp; Madison, 2015; de la Torre amp; Lee, 2010; Madison amp; Bradshaw, 2018), CD-CAT中同時標定新題Q矩陣和項目參數時, 被試的作答矩陣是一個缺乏較多作答數據的稀疏矩陣, 每個題目都只有部分被試作答, 每個被試也只作答少數幾個題目(若被試需作答的待標定新題過多, CD-CAT的測驗長度可能大幅增加, 加重被試的作答負擔), 且題目Q矩陣未知。此時, 即使標定樣本大(如1000人), 項目參數的標定精度也較低。Bradshaw和Madison (2015)在其研究中指出, 在參數估計精度較低的情況下, 很難觀察到較強的測量不變性, 其在研究中也提到, 模型數據擬合假設以其它形式違背(如Q矩陣錯誤指定, Bradshaw amp; Madison, 2015)時, 可能也會影響被試的分類一致性。因此, 在被試作答矩陣為稀疏矩陣, Q矩陣未知或指定錯誤的情況下, 是否仍能觀察到測量不變性, 在何種條件下可以觀察到測量不變性是未來研究可以考慮的一個方向。
第三, CD-CAT中已有的Q矩陣與項目參數同時性在線標定方法重點關注被試的作答數據, 而忽視了在計算機化測驗中可以便捷獲取的過程性數據, 如作答反應時間(response times, RTs)數據。以往研究表明, 反應時間數據可以提供有關被試認知過程的極具價值的信息, 其能提高項目參數的估計精度(Kang et al., 2020; Klein Entink et al., 2009; van der Linden et al., 2010)。未來研究可考慮在作答數據與反應時間數據的聯合框架內標定新題, 以檢驗反應時間數據是否有助于提高在線標定方法的標定精度。
第四, 研究假設CD-CAT題庫測量的屬性個數是固定且已知的, 但在CD-CAT的持續使用過程中可能會不定時的往題庫中增加新的屬性。毫無疑問, 各在線標定方法的性能會隨新屬性的增加而有所波動, 在測驗測量屬性個數隨時間發生變化的情況下如何提高CD-CAT中已有Q矩陣與項目參數同時性在線標定方法的性能是研究者所面臨的一大挑戰。另外, 研究假設測驗屬性間相互獨立, 在屬性間存在層級關系(如, 線型、分支型、收斂型等)時, 各在線標定方法的性能如何仍有待于探索。
第五, 本文不僅在模擬題庫下檢驗了各在線標定方法的性能, 還進一步在真實題庫下驗證了SCADOCM方法的性能, 保證了研究的生態性。研究結果表明SCADOCM方法的標定性能在模擬題庫和真實題庫下均較為理想, SCADOCM方法的可推廣性較好, 可以為實踐應用提供一定的指導。但與以往國內外項目參數同時性在線標定方法的研究(陳平, 辛濤, 2011b; 譚青蓉 等, 2021; Chen et al., 2015; Tan et al., 2022)一致, 研究使用的始終是Monte Carlo模擬方法, 并未在實證研究情境中加以應用, 評估其性能。主要原因在于:在真實測驗情境中驗證在線標定方法的性能, 需要事先構建好一個可以用于實際測驗的真實CD-CAT測試平臺, 這需要耗費大量的時間和精力, 目前這種平臺較難獲取。這是本研究, 甚至于目前CD-CAT中在線標定研究的不足之處, 也是未來可進一步深入的研究方向。總之, CD-CAT中Q矩陣與項目參數同時性在線標定方法的研究仍有待進一步深化。
7" 結論
研究主要結論如下:
(1) SCADOCM具備較好的項目標定性能, 優于SIE方法。此外, SIE的Q矩陣估計精度在各條件下幾乎都接近于0, 該方法不適用于G-DINA等飽和模型。
(2) 整體而言, SCADOCM和SIE在標定樣本大、項目質量高、屬性掌握模式分布為均勻分布和高階分布時的項目標定精度比標定樣本小、項目質量低、屬性掌握模式分布為正態分布時更高。
(3) SCADOCM在標定樣本少時的項目標定效率更高, 項目質量和屬性掌握模式分布對其標定效率的影響較小。SIE方法在標定樣本少時的標定效率比標定樣本大時更高, 在屬性掌握模式分布為均勻分布和高階分布時的標定效率比屬性掌握模式分布為正態分布時更高, 其標定效率受項目質量的影響較小。
參" 考" 文" 獻
Ban, J. C., Hanson, B. A., Wang, T., Yi, Q., amp; Harris, D. J. (2001). A comparative study of on-line pretest item- calibration/scaling methods in computerized adaptive testing. Journal of Educational Measurement, 38(3), 191? 212.
Bradshaw, L. P., amp; Madison, M. J. (2015). Invariance properties for general diagnostic classification models. International Journal of Testing, 16(2), 99?118.
Breheny, P., amp; Huang, J. (2011). Coordinate descent algorithms for nonconvex penalized regression, with applications to biological feature selection. The Annals of Applied Statistics, 5(1), 232?253.
Chen, J. (2017a). A residual-based approach to validate Q-matrix specifications. Applied Psychological Measurement, 41(4), 277?293.
Chen, J., de la Torre, J., amp; Zhang, Z. (2013). Relative and absolute fit evaluation in cognitive diagnosis modeling. Journal of Educational Measurement, 50(2), 123?140.
Chen, P. (2016). Two new online calibration methods for computerized adaptive testing. Acta Psychologica Sinica, 48(9), 1184?1198.
[陳平. (2016). 兩種新的計算機化自適應測驗在線標定方法. 心理學報, 48(9), 1184?1198.]
Chen, P. (2017b). A comparative study of online item calibration methods in multidimensional computerized adaptive testing. Journal of Educational and Behavioral Statistics, 42(5), 559?590.
Chen, P., amp; Wang, C. (2015). A new online calibration method for multidimensional computerized adaptive testing. Psychometrika, 81(3), 674?701.
Chen, P., Wang, C., Xin, T., amp; Chang, H. H. (2017). Developing new online calibration methods for multidimensional computerized adaptive testing. British Journal of Mathematical amp; Statistical Psychology, 70(1), 81?117.
Chen, P., amp; Xin, T. (2011a). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(6), 710?724.
[陳平, 辛濤. (2011a). 認知診斷計算機化自適應測驗中在線標定方法的開發. 心理學報, 43(6), 710?724.]
Chen, P., amp; Xin, T. (2011b). Item replenishing in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(7), 836?850.
[陳平, 辛濤. (2011b). 認知診斷計算機化自適應測驗中的項目增補. 心理學報, 43(7), 836?850.]
Chen, P., Xin, T., Wang, C., amp; Chang, H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT. Psychometrika, 77(2), 201?222.
Chen, Y., Liu, J., amp; Ying, Z. (2015). Online item calibration for Q-matrix in CD-CAT. Applied Psychological Measurement, 39(1), 5?15.
Cheng, Y. (2009). When cognitive diagnosis meets computerized adaptive testing: CD-CAT. Psychometrika, 74(4), 619?632.
Chiu, C.-Y. (2013). Statistical refinement of the Q-matrix in cognitive diagnosis. Applied Psychological Measurement, 37(8), 598?618.
de la Torre, J. (2011). The generalized DINA model framework. Psychometrika, 76(2), 179?199.
de la Torre, J., amp; Chiu, C. Y. (2016). General method of empirical Q-matrix validation. Psychometrika, 81(2), 253? 273.
de la Torre, J., amp; Lee, Y. S. (2010). A note on the invariance of the DINA model parameters. Journal of Educational Measurement, 47(1), 115?127.
de la Torre, J., van der Ark, L. A., amp; Rossi, G. (2018). Analysis of clinical data from a cognitive diagnosis modeling framework. Measurement and Evaluation in Counseling and Development, 51(4), 281?296.
Fan, J., amp; Li, R. (2001). Variable selection via nonconcave penalized likelihood and its oracle properties. Journal of the American statistical Association, 96(456), 1348?1360.
Fan, J., amp; Lv, J. (2010). A selective overview of variable selection in high dimensional feature space. Statistica Sinica, 20(1), 101?148.
Fan, Y., amp; Tang, C. Y. (2013). Tuning parameter selection in high dimensional penalized likelihood. Journal of the Royal Statistical Society Series B: Statistical Methodology, 75(3), 531?552.
Henson, R., Templin, J., amp; Willse, J. (2009). Defining a family of cognitive diagnosis models using log-linear models with latent variables. Psychometrika, 74(2), 191?210.
Hou, L. (2013). Differential item functioning assessment in cognitive diagnostic modeling (Unpublished doctoral dissertation). University of Delaware.
Junker, B. W., amp; Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258?272.
Kang, H. A., Zheng, Y., amp; Chang, H. H. (2020). Online calibration of a joint model of item responses and response times in computerized adaptive testing. Journal of Educational and Behavioral Statistics, 45(2), 175?208.
Klein Entink, R. H., Kuhn, J.-T., Hornke, L. F., amp; Fox, J.-P. (2009). Evaluating cognitive theory: A joint modeling approach using responses and response times. Psychological Methods, 14(1), 54?75.
Li, H. (2012). Statistical learning method. Beijing: Tsinghua University Press.
[李航. (2012). 統計學習方法. 北京: 清華大學出版.]
Lin, C. J., amp; Chang, H. H. (2019). Item selection criteria with practical constraints in cognitive diagnostic computerized adaptive testing. Educational and Psychological Measurement, 79(2), 335?357.
Liu, H., You, X., Wang, W., Ding, S., amp; Chang, H. (2013). The development of computerized adaptive testing with cognitive diagnosis for an English achievement test in China. Journal of Classification, 30(2), 152?172.
Ma, W., amp; de la Torre, J. (2020). GDINA: An R package for cognitive diagnosis modeling. Journal of Statistical Software, 93(14), 1?26.
Madison, M. J., amp; Bradshaw, L. P. (2018). Assessing growth in a diagnostic classification model framework. Psychometrika, 83, 963?990.
Peng, S., Wang, D., Gao, X., Cai, Y., amp; Tu, D. (2019). The CDA-BPD: Retrofitting a traditional borderline personality questionnaire under the cognitive diagnosis model framework. Journal of Pacific Rim Psychology, 13, Article e22.
Rupp, A. A., amp; Templin, J. L. (2008). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model. Educational and Psychological Measurement, 68(1), 78?96.
Shi, S. S. (2017). Cognitive diagnosis of Internet addition and its CD-CAT study (Unpublished master’s thesis). Jiangxi Normal University, Nanchang, China
[史雙雙. (2017). 網絡成癮的認知診斷及其CD-CAT的研究(碩士學位論文). 江西師范大學, 南昌.]
Stocking, M. L. (1988). Scale drift in on-line calibration. ETS Research Report Series, 1988(1), 1?122.
Tan, Q., Cai, Y., Luo, F., amp; Tu, D. (2022). Development of a high-accuracy and effective online calibration method in CD-CAT based on gini index. Journal of Educational and Behavioral Statistics, 48(1), 103?141.
Tan, Q., Wang, D., Luo, F., Cai, Y., amp; Tu, D. (2021). A high-efficiency and new online calibration method in CD-CAT based on information gain of entropy and EM algorithm. Acta Psychologica Sinica, 53(11), 1286?1300.
[譚青蓉, 汪大勛, 羅芬, 蔡艷, 涂冬波. (2021). 一種高效的CD-CAT在線標定新方法:基于熵的信息增益與EM視角. 心理學報, 53(11), 1286?1300. ]
Tan, Z., de La Torre, J., Ma, W., Huh, D., Larimer, M. E., amp; Mun, E.-Y. (2023). A tutorial on cognitive diagnosis modeling for characterizing mental health symptom profiles using existing item responses. Prevention Science: The Official Journal of the Society for Prevention Research, 24(3), 480?492.
Tang, F., amp; Zhan, P. (2021). Does diagnostic feedback promote learning? Evidence from a longitudinal cognitive diagnostic assessment. AERA Open, 7(3), 296?307.
Templin, J. L., amp; Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models. Psychological Methods, 11(3), 287?305.
Tu, D., Gao, X., Wang, D., amp; Cai, Y. (2017). A new measurement of Internet addiction using diagnostic classification models. Frontiers in Psychology, 8, 1768.
van der Linden, W. J., Klein Entink, R. H., amp; Fox, J.-P. (2010). IRT parameter estimation with response times as collateral information. Applied Psychological Measurement, 34(5), 327?347.
Wainer, H., amp; Mislevy, R. J. (1990). Item response theory, item calibration, and proficiency estimation. In H. Wainer (Ed.), Computerized adaptive testing: A primer (Chap. 4, pp. 65?102). Hillsdale, NJ: Erlbaum.
Wang, D., Gao, X., Cai, Y., amp; Dongbo, T. U. (2020). A method of Q-matrix validation for polytomous response cognitive diagnosis model based on relative fit statistics. Acta Psychologica Sinica, 52(1), 93?106.
[汪大勛, 高旭亮, 蔡艷, 涂冬波. (2020). 基于類別水平的多級計分認知診斷Q矩陣修正:相對擬合統計量視角. 心理學報, 52(1), 93?106.]
Wang, H., Li, R., amp; Tsai, C. L. (2007). Tuning parameter selectors for the smoothly clipped absolute deviation method. Biometrika, 94(3), 553?568.
Wang, W., Song, L., Ding, S., Meng, Y., Cao, C., amp; Jie, Y. (2018). An EM-based method for Q-matrix validation. Applied Psychological Measurement, 42(6), 446?459.
Xi, C., Cai, Y., Peng, S., Lian, J., amp; Tu, D. (2020). A diagnostic classification version of Schizotypal Personality Questionnaire using diagnostic classification models. International Journal of Methods in Psychiatric Research, 29(1), e1807.
Xu, G., Wang, C., amp; Shang, Z. (2016). On initial item selection in cognitive diagnostic computerized adaptive testing. British Journal of Mathematical and Statistical Psychology, 69(3), 291?315.
Zhang, X. G. (2010). Pattern Recognitive (Third Edition). Tsinghua University Press, China.
[張學工. (2010). 模式識別 (第三版). 清華大學出版社.]
Zhang, Y., Li, R., amp; Tsai, C. L. (2010). Regularization parameter selections via generalized information criterion. Journal of the American Statistical Association, 105(489), 312?323.
Zheng, C., amp; Chang, H. H. (2016). High-efficiency response distribution-based item selection algorithms for short- length cognitive diagnostic computerized adaptive testing. Applied Psychological Measurement, 40(8), 608?624.
Development of Online Calibration Method based on SCAD penalty and
EM perspective in CD-CAT: G-DINA model
TAN Qingrong1,2, CAI Yan1, WANG Daxun1, LUO Fen3, TU Dongbo1
(1 School of Psychology, Jiangxi Normal University, Nanchang 330022, China)
(2 Department of Basic Psychology, College of Psychology, Army Medical University, Chongqing 400000, China)
(3 College of Computer Information Engineering, Jiangxi Normal University, Nanchang 330022, China)
Abstract
Cognitive diagnostic computerized adaptive testing (CD-CAT) provides a detailed diagnosis of an examinee’s strengths and weaknesses in the content measured in a timely and accurate manner, which can be used as a reference for further study or remediation planning, thus meeting the practical need for efficient and detailed test results. The successful implementation of CD-CAT is based on an item bank, but its maintenance is a very challenging task. A psychometrically popular choice for maintaining an item bank is online calibration. Currently, the research on online calibration methods in the CD-CAT that can calibrate Q-matrix and item parameters simultaneously is very weak. The existing methods are basically developed based on the deterministic input, noisy and gate (DINA) model. Compared with the DINA model, the generalized DINA (G-DINA) model has been more widely applied because it is less restrictive and can meet the requirements of a large number of test data in psychological and educational assessment. Therefore, if the online calibration method that jointly calibrates the Q-matrix and item parameters can be developed for models with few constraints such as G-DINA, its meaning is understood without explanation.
In current study, a new online calibration method, SCADOCM, was proposed, which was suitable for the G-DINA model. The construction of SCADOCM was based on the smoothly clipped absolute deviation penalty (SCAD) and marginalized maximum likelihood estimation (MMLE/EM) algorithm. For the new item j, the log-likelihood function with SCAD can be formulated based on the examinees’ responses in this item and the examinees’ attribute marginal mastery probability, and the q-vector of the new item can be estimated by the q-vector estimator based on SCAD. Then, the EM algorithm was used to estimate the item parameter of the new item j based on the posterior distributions of examinees’ attribute patterns, the examinees’ responses to new item j and the estimated q-vector.
To examine the performance of the proposed SCADOCM and compare it with the SIE method, two simulation studies (Study 1 and Study 2) are conducted. Study 1 is based on a simulated item bank while Study 2 is based on the real item bank (Internet addiction item bank; Shi, 2017). In these simulation studies, four factors were manipulated: the calibration sample size (nj = 50 vs. 100 vs. 500 vs. 1000 vs. 2000), the distribution of the attribute pattern (uniform distribution vs. high-order distribution vs. normal distribution), the item quality (U (0.05, 0.15) vs. U (0.1, 0.3)), and the online calibration methods (SCADOCM vs. SIE). The results showed that (1) SCADOCM has satisfactory calibration accuracy and calibration efficiency, and is superior to the SIE method. In addition, the traditional SIE method is not applicable for the G-DINA model, and its Q-matrix estimation accuracy rate is low under all experimental conditions. (2) The item calibration accuracy of SCADOCM and SIE increases with the increase of calibration sample and item quality under most conditions, and its item calibration accuracy in the uniform distribution/higher-order distribution is greater than that in the normal distribution. (3) The calibration efficiency of SCADOCM decreases with the increase of calibration samples, but it is less affected by the item quality and the attribute pattern distribution; the calibration efficiency of SIE decreases with the increase of calibration samples, but it is less affected by the item quality. Moreover, the calibration efficiency of the SIE method in the normal distribution is slightly slower than that of uniform distribution/high-order distribution.
To sum up the results, this study demonstrated that the SCADOCM has higher item calibration accuracy and calibration efficiency, and outperforms the SIE method; meanwhile, the traditional SIE method is not suitable for G-DINA model. All in all, this study provides an efficient and accurate method for item calibration in CD-CAT, and provides important support for further promoting the application of CD-CAT in practice.
Keywords" Cognitive Diagnostic Computerized Adaptive Testing, Online Calibration, Q-matrix, G-DINA model, SCAD Penalty
附錄:網絡成癮題庫項目參數值
網絡成癮題庫項目參數值如附表1所示, 其中P (0)、P (1)、P (00)、P (10)、P (01)、P (11)、P (000)、P (100)、P (010)、P (001)、P (110)、P (101) 、P (011)和P (111)表示縮減屬性掌握模式(若題目測量9個屬性中的前2個屬性qj = (1, 1, 0, 0, 0, 0, 0, 0, 0), 縮減屬性掌握模式為 )下被試的正確作答概率。如, P (0)和P (1)分別表示題目測量9個屬性中的某1個屬性時, 未掌握該屬性的被試的正確作答概率和掌握該屬性的被試的正確作答概率; P (10)表示題目測量9個屬性中的某2個屬性時, 掌握2個屬性中的第1個屬性但未掌握第2個屬性的被試的正確作答概率; P (011)表示題目測量9個屬性中的某3個屬性時, 掌握3個屬性中的第2個和第3個屬性但未掌握第1個屬性的被試的正確作答概率。
收稿日期: 2022-09-26
* 國家自然科學基金項目(62167004, 32160203, 32300942, 31960186和61967009)。
通信作者: 蔡艷, E-mail: cy1979123@aliyun.com; 汪大勛, E-mail: wangda.xun@163.com; 涂冬波, E-mail: tudongbo@aliyun.com