朱仕浩 康春花 洪清玉
認知診斷(Cognitive Diagnosis,CD)是指對個體認知過程、加工技能或知識結構的診斷評價[1]。它能夠探討個體內部的心理加工機制,實現對個體認知發展實況的診斷評估。在認知診斷評分方式上,現多以Q 矩陣為基礎,實現以題目對錯為判別的0-1 評分,以及多級評分。與0-1 評分相比,多級評分可以提供更多的被試診斷信息,因而被廣泛使用。
現有多級評分的認知診斷方法大多在Q 矩陣基礎上架構,根據是否需要參數估計可將認知診斷方法分為參數方法和非參數方法[2]。參數方法已有研究有祝玉芳、 丁樹良開發多級評分的AHM,Templin、Henson、Rupp、Jang 和Ahmed 提出的稱名反應診斷模型,涂冬波、蔡艷、戴海琦、丁樹良開發的多級評分PDINA 模型,Hansen 提出的等級反應LCDM 等[3-6]。在非參數方法上, 也有Sun、Xin、Zhang 和de la Torre的拓展多級的廣義距離判別法,康春花、任平、曾平飛開發的多級評分聚類分析,楊亞坤開發的曼哈頓距 離 判 別 法 (Manhattan distance discrimina tion,MDD)等[7-9]。在這兩類方法中,參數方法可以通過參數估計獲得項目參數,為進一步的測驗編制或等值提供有用信息,但需要較長時間和足夠大的樣本量,并且參數模型選擇困難[10,11]。而非參數方法作為參數方法的替代方案用于被試知識狀態的判別,擁有判準率較高、無需進行參數估計、條件假設少、受樣本量的影響較小等特點[12]。
這兩類多級評分認知診斷方法都基于Q 矩陣,并未考慮屬性與項目類別之間的關系,因而可能會丟失部分項目信息并影響診斷結果。對此,Ma 和de la Torre 在連續比鏈接函數基礎上對CDMs 進行拓廣,并將GDINA 模型作為加工函數(Processing Function),提出了序列加工的seq-GDINA 模型(Sequential GDINA model)。為充分挖掘項目信息,Ma 等同時定義了一種基于項目類別(item category)的屬性定義法,將傳統的Q 矩陣發展為基于項目類別的QC 矩陣(a category-level Q-matrix),并借以QC 矩陣提出一種基于項目類別的多級評分方法,為多級評分提供了新的視角[13,14]。其中的項目類別是指被試作答項目可能出現的情況,例如表1,該項目分兩個步驟,被試作答可能有3 種:全錯、答對第一步、答對兩步,所以該項目類別有3 類。與以往的Q 矩陣評分方式不同,QC 矩陣評分方式為按項目類別給分,項目過程具有有限多個步驟,每個步驟考察一些屬性,最后根據被試所處項目類別給予相對應的分數?,F有QC 矩陣評分方式嚴格按步驟順序評分,即前一步正確作答是后一步的前提,而在實際應用中,學生很可能并未掌握前一步的屬性,但后一步的屬性卻掌握了,對于這種情況該評分方式會出現誤判。以表1項目為例,假設某被試在作答該項目時,第一步運算結果為180÷9(正確作答應該是180÷10),即第一步計算錯誤,而第二步的運算結果為20(正確作答是18),雖然最終答案與標準答案不同,但第二步考查的屬性該被試已經掌握,故應當給分。 當使用順序評分方式時,該被試得0 分,而如果考慮這種情況,該被試應得1 分。綜上所述,現有的QC 矩陣評分方式未考慮按步驟的非順序評分情景,并且只被應用于參數方法中,在非參數方法中的有效性并未驗證。故本文欲將QC 矩陣評分方式與非參數方法相結合,并在此基礎上提出一種按步驟的非順序評分方式。

表1 例題對應的屬性
本文將在QC 矩陣框架下,開展以下兩個研究:(1)通過對參數seq-GDINA 模型與非參數MDD 在不同條件下的比較;以驗證QC 矩陣評分方式在非參數方法上的適用性。(2)利用MDD 比較順序評分與非順序評分在不同條件下的判準率情況,以驗證非順序評分方式的有效性。
QC 矩陣中順序評分的規則要求題目的前一步正確作答是后一步的基礎,如表2,以附錄1 第15題為例,該題QC 矩陣為分三個步驟,可將被試劃為4 個類別。在順序評分的模擬研究中,為符合順序評分規則,將QC 矩陣轉化為順序的QC 矩陣(見附錄2),并在此基礎上進行模擬研究。模擬研究首先確定QC 矩陣,然后利用QC 矩陣和所有被試可能的知識狀態 (Knowledge State,KS)矩陣相乘生成每個人在每一道題目的每個步驟上的作答情況,最后根據學生在每道題目上正確作答的步驟數給予其相應得分,得到基于QC 矩陣的順序評分IRP(Ideal Response Pattern,IRP)。
非順序評分是為了打破QC 矩陣順序評分的限制。同樣以附錄1 第15 題為例,QC 矩陣為因為非順序評分允許項目按步驟非順序評分,故無需對QC 矩陣進行轉化便可進行模擬研究,模擬過程與順序評分相同。

表2 第15 題對應的屬性
Ma 和de la Torre 在連續比鏈接函數基礎上對CDMs 進行拓廣,并將GDINA 模型作為加工函數,提出了序列加工的seq-GDINA 模型,該模型假設各步驟是獨立且繼時發生的事件,各事件概率相乘可得最終概率函數[15]。其表達式如下:

MDD 是楊亞坤基于曼哈頓距離建立起的一種簡單有效的認知診斷方法, 由于其不需要參數計算所以耗時極少,該方法計算公式簡單[16],其表達式如下:

其中Yi表示被試的觀察反應模式(Observed Response Pattern,ORP),ηt表示第t 種IRP,Yij為第i個被試在項目j 上的觀察反應,為第t 種IRP 在項目j 上的理想反應。MD(Yi,ηt)表示為第i 個被試的ORP 到第t 種IRP 的曼哈頓距離。楊亞坤從數理上證明這種方法在0-1 計分情況下與海明距離相同,也就是說海明距離是曼哈頓距離在0-1 計分情況下的特例。在對學生KS 進行判別時,MDD 通過計算學生的ORP 和IRP 之間的曼哈頓距離實現對學生的分類[17]。
(1)研究目的
本部分通過比較seq-GDINA 模型與MDD 在QC 矩陣中的判準率,探討QC 矩陣評分方式在非參數方法上的適用性,同時比較在QC 矩陣評分方式下,參數方法與非參數方法在不同條件下的判準率情況。
(2)實驗設計
實驗采用2×3×6 三因素混合實驗設計,自變量分別:判別方法、項目質量和被試人數。每個實驗條件重復進行30 次。 采用平均屬性判準率(Average Attribute Match Ratio,AAMR)和模式判準率(Pattern Match Ration,PMR) 作為診斷準確率的評價指標,AAMR 表示所有被試認知屬性被判別正確的概率,PMR 表示被判別歸類正確掌握模式的被試個體占總人數的比率,其表達式分別為:


其中,N 表示被試數目,K 表示屬性個數,Ni-correct表示第i 個被試的屬性掌握模式是否被判別準確,判別正確為1,否則為0。Nik-correct表示被試在認知屬性k 上判別正確與否,正確為1,否則為0。從公式中可以發現,PMR 相較于AAMR 能更敏感地反映歸類準確率。
(3)實驗流程
第一步:確定QC 矩陣,本研究借鑒Ma 等使用的QC 矩陣(詳見附錄1),并將其轉化為順序評分的QC 矩陣[18]。該矩陣包含5 個屬性,21 題,拆分為步驟后一共40 個步驟,其中滿分為2 分的項目有13 個,滿分為3 分的項目有3 個,滿分為1 分的項目有5個,所有題目均為按步驟計分。本研究采用seq-GDINA模型與MDD 兩種方法,模擬被試人數100、200、300、500、1000、2000 六個水平,用以比較不同樣本量情況下參數方法與非參數方法的判準率如何變化,并利用張淑梅、包鈺、郭文海提出的滑動模擬方法模擬高質量(滑動概率=0.1)、中質量(滑動概率=0.2)、低質量(滑動概率=0.3)三個水平[19]。屬性層級結構設置為獨立型,評分方式為QC 矩陣的順序評分方式。
第二步:根據屬性個數與屬性層級結構確定所有被試可能的KS,與QC 矩陣相乘,并按步驟累加得到IRP,再模擬作答反應數據,作答反應數據生成的具體步驟為:首先,產生一個服從均勻分布U(0,1)的隨機數矩陣,維度為N*J,其中N 代表被試數量,J代表題量。由于前文指出本研究中項目質量為高、中、低,即滑動概率為0.1、0.2、0.3,利用滑動矩陣內每個分數的概率與對應位置rij進行比較,根據滑動規則將不同的rij分別滑動到不同的得分,即得到模擬被試的ORP。
第三步:分別利用MDD 與seq-GDINA 模型對被試的ORP 進行判別,并與真值進行比較,得到兩個評價指標PMR 與AAMR。數據模擬程序和MDD判別通過自編R 語言程序實現,seq-GDINA 模型判別由自編R 語言程序調用G-DINA 包實現。
(4)實驗結果
表3 列出了不同條件下的PMR 與AAMR 統計結果??梢钥闯?,在不同實驗條件下,滑動概率越小,PMR 與AAMR 越好;非參數方法比參數方法更穩定。
具體各判準率之間的對比可查看圖1、圖2。圖1為各水平情況下的PMR,圖中可以清晰反映出在不同的滑動概率情況下,兩種方法受滑動概率影響均較大。在相同滑動概率情況下,人數對MDD 基本沒有影響,但對seq-GDINA 影響較大,人數越多seq-GDINA 模型的判準率越高。 本文設置人數最多為2000 人,但從圖中可以看出, 即使人數達到2000人,seq-GDINA 模式判準率也與MDD 判準率差異不大。且圖中還反映了,在低滑動概率情況下,seq-GDINA 模式判準率受人數的影響較小,高滑動概率情況下,seq-GDINA 模式判準率受人數的影響較大。 圖2 為各水平情況下的AAMR, 大致趨勢與PMR 一致,可以看到AAMR 指標沒有PMR 敏感,與之前判斷一致。

表3 PMR 與AAMR 指標

圖1 各水平下兩種方法判別結果PMR 值

圖2 各水平下兩種方法判別結果AAMR 值
(5)小結
實驗結果發現,QC 矩陣評分方式在非參數方法上適用。 在項目質量高時,MDD 判別結果與seq-GDINA 模型在200 人以上時判別結果相當。在項目質量中等時,MDD 判別結果與seq-GDINA 模型在500 人以上時判別結果相當。在項目質量低時,MDD判別結果與seq-GDINA 模型方法在2000 人以上時判別結果相當。以上結果說明,MDD 方法在QC 矩陣中完全適用,且在不同項目質量情況下均有較好的判準率。并且在方法選用上,建議在人數少于1000人時,使用非參數MDD 方法更為合適,人數超過1000 人時,可選用參數方法。
不同評分方式對被試的判別有著直接影響。本部分使用非參數方法MDD 比較順序評分與非順序評分在不同項目質量、被試人數下的判準率情況,以驗證非順序評分方法的有效性。
實驗采用2×3×6 四因素混合實驗設計,自變量分別為:評分方式、項目質量和被試人數。每個實驗條件重復進行30 次。采用PMR 和AAMR 作為評價指標。
第一步:確定QC 矩陣,本研究采用與研究一相同的QC 矩陣(詳見附錄1)。判別方法為MDD。項目質量為利用滑動模擬方法模擬高質量 (滑動概率=0.1)、中等質量(滑動概率=0.2)、低質量(滑動概率=0.3)三個水平。評分方式為順序評分與非順序評分。被 試 人 數 為100、200、300、500、1000、2000 六 個 水平。屬性層級結構為獨立型。
第二步:根據屬性個數與屬性層級結構確定所有被試可能的KS,再根據順序評分與非順序評分確定測驗QC 矩陣,兩者矩陣相乘并按步驟計分得到IRP,并在此基礎上模擬作答反應數據。作答反應數據生成的具體步驟與研究一相同。
第三步:分別使用順序評分與非順序評分方式,利用MDD 對模擬被試的ORP 進行判別,并與真值進行比較,得到兩個評價指標PMR 與AAMR。數據模擬程序和MDD 均使用自編R 語言程序實現。
表4 列出了不同條件下兩種評分方式在兩種判別方法下的PMR 與AAMR 統計結果??梢钥闯觯琼樞蛟u分方式判準率高于順序評分方式。
具體兩種評分方式判準率之間的對比可查看圖3、圖4。圖3 為兩種評分方式在各水平情況下的PMR,從圖中可以看出,在不同的項目質量情況下,兩種評分方式的PMR 均有一個轉折點, 但可以確定非順序評分判準率優于順序評分,且基本不受人數影響。圖4 為各水平情況下的AAMR,大致趨勢與PMR 一致。

表4 PMR、AAMR 指標

圖3 各水平下兩種評分方式判別結果PMR 值
上述實驗結果證明,在不同項目質量、不同人數情況下,非順序評分均優于順序評分;同時再次證明非參數方法基本不受人數影響,項目質量越好,判準率越高。
綜上所述,在實際運用QC 測驗時,非參數方法十分有效,并且無論被試數量與項目質量,非順序評分方式都可以優先被考慮。

圖4 各水平下兩種評分方式判別結果AAMR 值
本研究探究了非參數方法(MDD)在QC 矩陣中的適用性,并且在原有QC 矩陣評分方式之上提出了一種新的評分方式。實驗結果表明:第一,非參數方法在QC 矩陣中的判準率較高,且當樣本量較小時非參數方法判準率比參數方法高,證明QC 矩陣評分方式在非參數方法中完全適用, 且非參數方法比參數方法更適于小樣本; 第二, 在不同條件下, 非順序評分方式均比順序評分方式擁有更高的判準率。
研究對QC 矩陣的評分方式進行探討,給應用者提供理論支持,但依然存在一定不足。第一,對于QC 矩陣中可能存在的多策略問題的評分方式還未加以研究;第二,在實際應用中,非順序評分方式需要評分者在評分時進行分步給分,而不是只看最終答案評分,一定程度上會增加評分者工作量,但若是可以實現自動評分技術,該方法可以更準確地判斷學生的知識狀態。
附錄1:QC 矩陣

項目 類別 A1 A2 A3 A4 A5 項目 類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 0 1 0 0 0 11 2 0 0 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 0 1 0 12 2 0 0 0 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 0 13 2 0 0 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 0 14 2 0 0 0 1 0 5 1 0 0 1 0 0 14 3 0 0 0 0 1 5 2 0 1 0 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 0 6 2 0 1 1 0 0 15 3 0 1 0 0 0 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 0 1 1 16 2 0 1 0 0 0 8 1 0 0 0 0 1 16 3 0 0 1 1 0 8 2 1 1 0 0 0 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 0 0 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 0 0 0 0 21 1 0 0 0 0 1
附錄2:順序的QC 矩陣

項目 類別 A1 A2 A3 A4 A5 項目 類別 A1 A2 A3 A4 A5 1 1 1 0 0 0 0 11 1 1 1 0 0 0 1 2 1 1 0 0 0 11 2 1 1 0 0 1 2 1 0 0 1 0 0 12 1 1 1 1 0 0 2 2 0 0 1 1 0 12 2 1 1 1 1 1 3 1 0 0 0 0 1 13 1 1 1 0 0 0 3 2 1 0 0 0 1 13 2 1 1 1 1 1 4 1 0 0 0 0 1 14 1 1 0 1 0 0 4 2 0 0 0 1 1 14 2 1 0 1 1 0 5 1 0 0 1 0 0 14 3 1 0 1 1 1 5 2 0 1 1 0 0 15 1 0 0 0 0 1 6 1 1 0 0 0 0 15 2 0 0 1 1 1 6 2 1 1 1 0 0 15 3 0 1 1 1 1 7 1 0 0 1 0 0 16 1 1 0 0 0 0 7 2 0 0 1 1 1 16 2 1 1 0 0 0 8 1 0 0 0 0 1 16 3 1 1 1 1 0 8 2 1 1 0 0 1 17 1 1 0 0 0 0 9 1 0 0 0 1 1 18 1 0 1 0 0 0 9 2 0 0 1 1 1 19 1 0 0 1 0 0 10 1 0 1 0 1 0 20 1 0 0 0 1 0 10 2 1 1 0 1 0 21 1 0 0 0 0 1