彭亞風 羅照盛 喻曉鋒 高椿雷 李喻駿
(1江西師范大學心理學院, 南昌 330022) (2華南師范大學心理應用研究中心/心理學院, 廣州 510631)
認知診斷評價(Cognitive Diagnose Assessment,CDA, Leighton & Gierl, 2007)是對個體知識結構、加工技能或認知過程的診斷評價。相對于為考生提供單一能力估計值的項目反應理論(Item Response Theory, IRT), CDA充分吸收認知心理學對人類認知加工過程內在機制的研究成果, 結合相應的心理計量學模型——認知診斷模型(Cognitive Diagnosis Models, CDMs), 實現了對考生細粒度認知技能或屬性(Attribute)掌握情況的診斷, 有助于教師開展補救教學, 學生進行自我學習。
CDA的一個核心要素和基礎是Q矩陣。Q矩陣表征了CDA中測驗(如無特別說明, 本文中的測驗均指認知診斷測驗)編制的屬性藍圖(Leighton,Gierl, & Hunka, 2004), 反映的是研究者對于測驗構想的一種設計, 是測驗構念和內容設計的直觀體現, 矩陣元素用0和1表示每一個項目是否測量了相應的屬性。它將不可觀察的知識狀態(Knowledge State, KS)或屬性掌握模式(Attribute Master Pattern,AMP)與觀察作答反應模式(Observed Response Pattern, ORP)聯系起來, 從而完成對被試是否掌握特定技能或屬性的診斷評估。因此, 作為中間媒介的Q矩陣對診斷效果有著直接的影響。
有效的Q矩陣是CDA中關注的焦點問題。Q矩陣的獲取方法主要有兩種:第一種是事后分析法,即:先編制測驗項目, 再由相關專家來確定測驗項目所考核的屬性, 進而得到Q矩陣; 第二種,Leighton等人(2004)建議在測驗之前就由專家給出欲測屬性及這些屬性間的層級關系(hierarchy relation), 并據此設計Q矩陣, 再依據Q矩陣編制測驗項目。Gierl等研究者認為事后分析法導出Q矩陣的方法邏輯性不強(Gierl, Leighton, & Hunka,2000)。因為對CDA來說, 診斷被試對特定屬性的掌握情況是其目的, 測驗項目是用來對事先確定的屬性進行精準診斷的“工具”。而事后分析法在診斷目標確定之前, 先編制診斷工具, 即測驗項目。因此, 第二種方法比事后分析法更符合CDA的邏輯。
根據第二種方法的邏輯, 在測驗編制時應預先確立屬性及其層級關系, 然后設計Q 矩陣, 命題專家依據所設計的Q矩陣編制測驗項目。假定屬性個數為5個, 使用的是Tatsuoka (1995)在其研究中使用的屬性間互不相關(unrelated)的一種屬性層級關系, 稱之為獨立型(Independent), 測驗長度為30。此時, 可以構造出31個可選Q矩陣。如此龐大的集合中, 究竟哪一個才是具有較高診斷效率的Q矩陣?問題的答案就在于Q矩陣的合理設計。Q矩陣設計涉及到的變量很多, 其中最基本的變量是測驗中的項目個數和屬性個數。其他變量如每個項目考察的屬性個數、每個屬性被考察的次數等。只有綜合考慮各種因素后得出的Q矩陣設計, 才能更好地實現高效診斷分類的目標。
圍繞Q矩陣設計, 研究者們進行了許多有益的嘗試。DeCarlo (2011)認為, 在DINA模型(Deterministic Input, Noisy “and” Gate model) (Junker & Sijtsma,2001)和高階DINA模型(High Order DINA model)(De la Torre & Douglas, 2004)下, 即使Q矩陣界定正確, Q矩陣設計也會影響分類準確性。McDonald(1999)將只測量了一個屬性的項目稱之為簡單結構項目(factorially simple items)。進一步地, Chiu,Douglas和Li (2009)的研究指出, 在DINA模型、DINO模型下, 為了能夠診斷出所有的潛在屬性掌握模式, 需要Q矩陣設計里每個屬性至少有1個簡單結構項目。丁樹良、楊淑群和汪文義(2010), 丁樹良、汪文義和楊淑群(2011)討論了可達矩陣(Reachable Matrix, 簡稱為R矩陣, 是反映屬性間直接關系、間接關系和自身關系的矩陣)在測驗編制中的重要作用及相應理論, 研究表明, 對于0-1計分的測驗, 5種屬性層級關系(直線型, 發散型,收斂型, 無結構型和獨立型)的測驗藍圖下, 測驗中包含R*(由于R矩陣是有特定指代的概念, 為不引起混淆, 本文將Q矩陣中包含與R矩陣元素結構相同的矩陣子集稱為類R陣, 記為R*), 才能使得被試的知識狀態與理想反應模式一一對應, 隨著R*的減少, 模式判準率 (Pattern Match Ration, PMR)和平均屬性判準率(Average Attribute Match Ratio,AAMR)均明顯下降。顏遠海、丁樹良和汪文義(2011)研究了屬性層級、測驗編制、測驗長度等因素對分類準確性的影響, 其研究表明含有R*的測驗編制比不含有R*的測驗編制的分類準確性要高。涂冬波、蔡艷和戴海琦(2013)把包含可達矩陣所考核的認知屬性矩陣稱為“T陣” (R陣為T陣的子矩陣),并把從“T陣”中選取初始題并保證“T陣”中含有R矩陣的方法稱為“T陣法”, 研究指出在CD-CAT初始階段使用“T陣法”可以保證在CAT的初始階段就盡可能實現對每個屬性的診斷, 此方法優于傳統的隨機法。他們的研究同時指出“T陣法”可以用于指導認知診斷測驗的編制。Madison和Bradshaw (2015)研究了LCDM (Log-linear Cognitive Diagnosis Model)在不同的Q矩陣設計下分類準確性的表現, 該研究表明:Q矩陣設計是CDA中的一個重要方面, 在不同的Q矩陣設計下, LCDM的分類準確性會有很大的差異, 每個屬性需要單獨被測量至少一次, 這會顯著增加分類準確性。Liu, Huggins-Manley和Bradshaw (2016)介紹了3種Q矩陣設計的方法——獨立方法(independent approach, 每個項目只測量1個屬性)、鄰接方法(adjacent approach, 每個項目只測量具有直接關系的2個屬性)、可達方法(reachable approach, 每個項目可以測量具有直接或間接關系的所有屬性), 并且研究了在4種屬性層級關系(直線型, 發散型, 收斂型和無結構型)下這3種方法對于分類結果的影響。研究結果表明鄰接方法在較短測驗長度下具有較高分類準確性。
上述研究均指出, 在Q矩陣里包含R*可以提高對被試的分類準確性。其中, Chiu等人(2009)和Madison和Bradshaw (2015)的研究是建立在屬性層級關系為獨立型的情境上, 丁樹良等人(2011)把這個結論推廣到了另外4種屬性層級關系。涂冬波等人(2013)的研究僅探討了“T陣法”在CD_CAT初始階段的項目選取方面的應用, 并未針對認知診斷測驗應如何設計展開研究和討論。Liu等人(2016)的研究在模擬Q矩陣時會出現不合理的考核模式, 例如直線型情況下使用獨立方法生成的測驗項目都是考察單個屬性而忽略其先決屬性, 這違背了直線型的關系假設。前人的研究成果為設計一個好的Q矩陣提供了理論基礎。但是包含R*只是保證測驗診斷效果的一個基礎, 完整的Q矩陣設計還需要考慮更多的變量對于診斷效果的影響。正如前文所說,Q矩陣設計的基本變量為項目個數和屬性個數。當測驗編制者確定了要考察的屬性個數及其層級關系時, 測驗長度為多少比較合適?確定了測驗長度后, Q矩陣是否僅由若干個R*構成即可?若不是,那應該包含多少個R*比較合適?除去R*以外的題目又該如何設計?這些都是Q矩陣設計過程中必須解決的重要問題。
本研究擬在前人研究的基礎上, 對認知診斷評價中測驗結構的優化設計問題進行探討, 以期為測驗編制者提供切實可行的建議, 幫助提高診斷效率的同時降低測驗編制的成本。
N
)以及除R*以外的項目所考察的屬性個數, 對于測驗診斷效果的影響。K
=5個、K
=6個, 屬性層級關系包括5種基本類型:直線型(Linear)、收斂型(Convergent)、發散型(Divergent)、無結構型(Unstructured)、獨立型(Independent)。考慮到實際測驗情境中可能存在較為復雜的屬性層級關系模式, 即由5種基本類型組合而成更為復雜的網絡層級關系, 因此本研究構造了一種多種屬性層級關系并存的關系類型與之對應, 簡稱為混合型(Mixture) (所有屬性層級關系示意圖見附錄1, 附錄2)。測驗長度為屬性個數的整數倍, 共有5種水平:2倍、3倍、4倍、5倍和6倍。
本研究采用的認知診斷模型為DINA模型。DINA模型在擁有簡潔項目參數的同時, 分類準確性較高(De la Torre & Douglas, 2004)。
DINA模型的公式如下:


s
和g
均定為0.15(丁樹良等, 2011)以規避DINA模型的項目參數對于分類準確性的干擾, 記為SG1; 本研究另外增加了兩個研究者常用的項目參數范圍(Chen, Xin, Wang,& Chang, 2012; Kaplan, de la Torre, & Barrada,2015):均勻分布U
(0.05, 0.15)、均分分布U
(0.05,0.25), 分別記為SG2和SG3。PMR用于考察被試AMP的仿真性, 它指被試AMP判對的人數占總人數的百分比, PMR越大, 表明分類準確性越高。計算公式如下:




rep
為每種實驗條件下重復實驗總次數,PMR為第r
次重復實驗的PMR。N
對測驗診斷效果的影響。用Monte Carlo方法進行模擬, 具體過程為:
(1)模擬Q矩陣
由于測驗長度為屬性個數的整數倍, 分別為:2倍、3倍、4倍、5倍和6倍。測驗長度不同, Q矩陣中包含的最大R*個數也會不同。則每種測驗長度之下, 可能的N
分別為:1-2個、1-3個、1-4個、1-5個、1-6個。Q矩陣中除去R*以外的項目均從典型項目考核模式(指根據屬性間的層級關系, 確定所有合乎邏輯的測驗項目考核模式種類)中隨機抽取。(2)模擬被試AMP真值
被試總人數為1000, 被試的AMP分布為均勻分布。計算出6種屬性層級關系對應的所有理想掌握模式(Ideal Master Pattern, IMP)種類數, 用總人數除以每種屬性層級關系下所有IMP的種類數, 得到每種IMP的人數, 若有余數再隨機分配給所有的IMP。
(3)模擬被試作答反應矩陣
對于每個實驗, 根據步驟(1)生成的Q矩陣、步驟(2)生成的被試AMP真值以及DINA模型的項目反應函數計算每個被試對單個項目的正確作答概率p
。然后生成一個隨機數r
, 若p
<r
, 則判被試在該項目上得0分, 否則為1分。

N
會影響測驗的分類準確性。具體表現為:測驗長度越長, 測驗的分類準確性越高;N
與分類準確性之間呈現出奇數規律:并不是N
越多分類準確性越高, 而是當N
為最大奇數時, 分類準確性最高。當天花板效應出現之后,N
的增加對于分類準確性的提高作用也被削弱。
N
, 縱坐標為SD
(K
=6時結果均呈現相同趨勢, 限于篇幅未在本文中列出, 感興趣的讀者, 可與作者聯系)。由圖2可知, 屬性層級關系越緊密, 測驗的分類穩定性越好。測驗的分類穩定性與項目質量成正比。此外,N
也會影響測驗的分類穩定性:隨著N
不斷增加, PMR的SD
越來越小, 這表明測驗的穩定性越來越好??赡艿脑蚴牵篞矩陣中除R*以外的項目是從典型項目考核模式中隨機抽取,N
越大, 隨機抽取的項目越少,Q矩陣的異質性越小, 測驗之間分類準確性的差異也就越小。反過來也說明測驗中除R*以外的項目同樣會影響測驗的診斷效果。因此, 這些項目該如何設計是編制測驗時必須考慮的問題。
圖1 所有實驗條件下測驗的(K=5)

表1 不同屬性個數、測驗長度下NR*不同時測驗的(6種屬性層級關系)

圖2 所有實驗條件下測驗PMR的SD (K=5)
考察在6種屬性層級關系下, Q矩陣中除去R*以外的項目所考察的屬性個數對診斷效果的影響。
用Monte Carlo方法進行模擬, 除Q矩陣外,屬性個數、被試人數、被試分布、項目參數的分布、被試AMP真值、被試作答反應矩陣的模擬過程、實驗重復次數均與實驗1一致。
本實驗旨在研究Q矩陣中除R*以外的項目考察的屬性個數對于診斷結果的影響, 故不考慮Q矩陣完全由R*構成的情況。
具體Q矩陣的設計過程如下(以K
=5為例):由于測驗長度為屬性個數的整數倍, 因此可將Q矩陣中除R*以外的項目每5個分為一個單元。則不同測驗長度下的Q矩陣由若干個R*和若干個單元組合而成。
在每種屬性層級關系下, 將典型項目考核模式依據其考察的屬性個數分為考察1、2、3、4、5個屬性的項目集合。為了避免在項目抽取過程中, 每個單元內的5個項目可能再構成一個R*, 抽取時將考察1個屬性的項目集合排除在外。因此, 每個單元內的5個項目是從余下的4個項目集合中抽取,不考慮單個項目中考察屬性的位置, 不考慮項目出現的先后順序。若兩個單元內考察相同屬性個數的項目個數均一致, 只是每個項目考察屬性的位置不同和/或考察屬性個數相同的項目出現順序不同,則視為重復單元并刪除。最后得到了56種單元的集合, 稱之為集合A。具體模擬步驟(以L
=10和L
=15為例)如下:(1) 從集合A中隨機抽取(不放回)1個單元;
(2) 將該單元與1個R*合并, 構成一個10個項目的Q矩陣設計;

N
的不同, 可將此時的Q矩陣設計分為N
=1和N
>1兩種。下面分情況論述,N
=1時具體步驟如下:
(5) 從集合B中隨機抽取(不放回)1種基礎項目組合;
(6) 重復步驟(1);


N
=2時具體步驟如下:(9) 重復步驟(1)至(2), 得到10個項目的一種Q矩陣設計, 再加上1個R*, 得到15個項目N
=2時的一種Q矩陣設計;
K
=6時同理。

圖3 六種屬性層級關系下Q矩陣中NR*不同時所有Q矩陣設計的和SD散點圖(L=30, K=5, s和g均固定為0.15)

(1)測驗長度和項目質量對診斷效果的影響
從實驗1的結果可以看出在6種屬性層級關系下, 測驗長度越長分類準確性越高。同一測驗長度下, 屬性層級關系越緊密PMR越高, 這與蔡艷, 涂冬波和丁樹良(2013)以及顏遠海等人(2011)的研究結果一致。但隨著測驗長度的增加, 分類準確性的提高幅度越來越小, 出現了天花板效應, 這與顏遠海等人(2011)的研究結果一致。

表2 六種屬性層級關系下前十的Q矩陣設計中除R*以外考察不同屬性個數的平均項目數量(L/K=6, NR*=1)
從實驗1的結果可以看出, 項目質量越好分類準確性越高, 這與前人的研究結果一致(Kunina-Habenicht, Rupp, & Wilhelm, 2012; Liu et al., 2016;Madison & Bradshaw, 2015; Rupp & Templin, 2007)。項目質量越好, 意味著項目對被試在相應屬性上掌握與未掌握情況的區分能力越好(Madison & Bradshaw,2015), 勢必會提高測驗的診斷分類效果。
(2) Q矩陣中所包含的R*個數(N
)對診斷效果的影響
(3)測驗中除R*以外的項目所考察的屬性個數對診斷效果的影響
由實驗2可知, 測驗的診斷效果會受到項目考察的屬性個數的影響, 且這種影響因屬性層級關系的不同而不同。在不同測驗長度下, 若要獲得最優的診斷效果, 除R*以外的項目應從其對應屬性層級關系下的典型項目考核模式中抽取, 且需針對不同的屬性層級關系做一些相應的設計。
結合實驗1和實驗2的結果, 考慮到實際測驗可能包含比模擬研究更多的誤差, 本文針對不同屬性層級關系下的測驗結構設計提出以下建議:
直線型的測驗長度至少要為屬性個數的4倍且Q矩陣至少包含1個R*, 除R*以外的所有項目中,每種典型項目考核模式出現的次數應盡量平均; 收斂型的測驗長度也至少要為屬性個數的4倍且Q矩陣至少包含1個R*, 除R*以外的項目應以考察處于每一個分支上的屬性為主, 其次是分別考察分支上屬性的先決屬性以及整個屬性關系結構; 發散型的測驗長度應至少為屬性個數的5倍且至少包含1個R*, 除R*以外的項目應以考察每一個分支上的屬性組合為主要考核模式; 無結構型的測驗長度需要至少為屬性個數的6倍且至少包含3個R*, 除R*以外的項目應主要考察每個屬性及其先決屬性為主; 獨立型則需要至少6倍于屬性個數的測驗長度且至少包含5個R*, 除R*以外的項目以考察任意兩個屬性為主?;旌闲蛣t至少需要6倍于屬性個數的測驗長度且至少包含2個R*, 除R*以外的項目考察的屬性組合按照屬性間的具體關系參照上述5種基本層級關系下的建議來設計。例如, 針對發散型關系的屬性(如附錄1中K
=5的混合型中A1、A2與A3), 考察這部分屬性的項目應以處于發散結構的每一個分支上的屬性為主, 即考察A1、A2和A1、A3; 但由于A1、A3和A4又構成了收斂關系結構, 故考察A1、A3的同時也必須考查A4,即收斂型下當分支上的屬性(A1和A4)無先決屬性時, 以考察完整的屬性關系結構為主(A1、A3和A4); 針對獨立型關系的屬性(A1、A4和A5), 以考察任意兩個屬性為主。此外, 在實際編制測驗過程中, 當要使設計包含較為理想的R*個數的Q矩陣存在困難時, 可以通過增加測驗長度來提高PMR, 這是較為穩妥的選擇。當項目質量不好時, 通過增加測驗長度或者R*個數能對維持較高PMR起到一定的補償作用。測驗編制者可以依據實際應用過程中測驗分類準確性的預設目標, 參考上述建議設計合適的測驗,實現對測驗編制成本的有效控制。
Cai, Y., Tu, D. B., & Ding, S. L. (2013). A simulation study to compare five cognitive diagnostic models.Acta Psychologica Sinica, 45
(11), 1295?1304.[蔡艷, 涂冬波, 丁樹良. (2013). 五大認知診斷模型的診斷正確率比較及其影響因素: 基于分布形態、屬性數及樣本容量的比較.心理學報, 45
(11), 1295?1304.]Chen, P., Xin, T., Wang, C., & Chang, H.-H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT.Psychometrika, 77
(2), 201?222.Chiu, C. Y., Douglas, J. A., & Li, X. D. (2009). Cluster analysis for cognitive diagnosis: Theory and applications.Psychometrika, 74
(4), 633?665.DeCarlo, L. T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes,and the Q-matrix.Applied Psy chological Measurement,35
(1), 8?26.De la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.Psychometrika, 69
(3),333?353.Ding, S. L., Wang, W. Y., & Yang, S. Q. (2011). The design of cognitive diagnostic test blueprints.Journal of Psychological Science, 34
(2), 258?265.[丁樹良, 汪文義, 楊淑群. (2011). 認知診斷測驗藍圖的設計.心理科學, 34
(2), 258?265.]Ding, S. L., Yang, S. Q., & Wang, W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing.Journal o f J iangxi Normal University(Natural Science), 34
(5), 490?494.[丁樹良, 楊淑群, 汪文義. (2010). 可達矩陣在認知診斷測驗編制中的重要作用.江西師范大學學報(自然科學版),34(
5), 490?494.]Gierl, M. J., Leighton, J. P., & Hunka, S. M. (2000). Exploring the logic of Tatsuoka's rule-space model for test development and analysis.Educational Measurement, 19
, 34?44.Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory.Applied Psychological Measurement, 25
(3), 258?272.Kaplan, M., de la Torre, J., & Barrada, J. R. (2015). New item selection methods for cognitive diagnosis computerized adaptive testing.Applied Psychological Measurement, 39
(3),167?188.Kunina-Habenicht, O., Rupp, A. A., & Wilhelm, O. (2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.Journal of Educational Measurement,49
(1), 59?81.Leighton, J. P., & Gierl, M. J. (2007).Cognitive di agnostic assessment for ed ucation: T heory a nd a pplications
.Cambridge UK: Cambridge University Press.Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's rule-space approach.Journal of Educational Measurement, 41
(3), 205?237.Liu, R., Huggins-Manley, A. C., & Bradshaw, L. (2016). The impact of Q-matrix designs on diagnostic classification accuracy in the presence of attribute hierarchies.Educational and Psychological Measurement
, doi: 10.1177/0013164416 645636Madison, M. J., & Bradshaw, L. P. (2015). The effects of Q-matrix design on classification accuracy in the log-linear cognitive diagnosis model.Educational and Psychological Measurement, 75
(3), 491?511.McDonald, R. P. (1999).Test th eory: A un ified tr eatment.
Mahwah, NJ: Lawrence Erlbaum Associates.Rupp, A. A., & Templin, J. (2007). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model.Educational and P sychological Measurement, 68
(1), 78?96.Tatsuoka, K. K. (1995). Architecture of knowledge structures and cognitive diagnosis: A statistical pattern classification approach. In P. D. Nichols, S. F. Chipman, & R. L. Brennan(Eds.),Cognitively di agnostic as sessment
(pp. 327?361).Hillsdale: Lawrence Erlbaum Associates.Tu, D. B., Cai, Y., & Dai, H. Q. (2013). Item selection strategies and initial items selection methods of CD_CAT.Journal of Psychological Science, 36
(2), 469?474.[涂冬波, 蔡艷, 戴海琦. (2013). 認知診斷CAT選題策略及初始題選取方法.心理科學, 36
(2), 469?474.]Yan, Y. H., Ding, S. L., & Wang, W. Y. (2011). The research on factors influencing diagnostic accuracy in AHM and DINA.Journal of Ji angxi No rmal University (Natural Science),35
(6), 640?645.[顏遠海, 丁樹良, 汪文義. (2011). 影響AHM與DINA診斷準確率的因素研究.江西師范大學學報(自然科學版),35
(6), 640?645.]附錄1 六種基本的屬性層級關系示意圖(=5)

附錄2 六種基本的屬性層級關系示意圖(=6)
