999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多級評分聚類診斷法的影響因素*

2016-01-10 00:48:04康春花曾平飛
心理學報 2016年7期
關鍵詞:模型研究

康春花 任 平 曾平飛

(浙江師范大學教師教育學院,金華 321004)

1 引言

自認知診斷評估(Cognitive Diagnostic Assessment,CDA)問世以來,研究者進行了多方面多角度的探索,其中發展最迅猛的是診斷分類模型(Diagnostic Classification Model,DCM)。在DCM方面,研究者根據不同的實踐需求從不同的前提和假設提出了各類模型,如按測評的評分方式,有 0-1評分的模型(如 RSM、AHM、DINA、NIDA、FM、GDM等)、多級評分或連續評分的模型(Bolt &Fu,2004;祝玉芳,丁樹良,2009;涂冬波,蔡艷,戴海琦,丁樹良,2010;張淑梅,包鈺,郭文海,2013;李娟,丁樹良,羅芬,2012;田偉,辛濤,2012;Sun,Xin,Zhang,&de la Torre,2013;羅歡,丁樹良,汪文義,喻曉鋒,曹慧媛,2010)。然而,這些多為參數模型,參數模型除了參數估計過程比較復雜外,往往需要大樣本數據,且屬性個數又不能太多 (Chiu &Douglas,2013;涂冬波等,2010)。為此,研究者開始探索更為簡潔的非參數方法,如Vapnik (2000)依據風險最小化原則提出了基于統計學習理論的機器學習方法——支持向量機(Support Vector Machines,SVM),SVM不僅結構簡單,還可運用小樣本數據,既省時又高效(何學文,趙海鳴,2005;鄺錚,2010)。Chiu等人(Chiu,Douglas,&Li,2009)在屬性合分思路(Henson,Templin,&Douglas,2007)的基礎上提出0-1評分的聚類分析方法。為吻合測評實踐需要,研究者(康春花,任平,曾平飛,2015)將 0-1評分的聚類分析法拓展到多級評分(Grade Response Cluster Diagnostic Method,GRCDM),并探討了樣本容量、失誤率及屬性層級對其判準率的影響,所得結果表明:GRCDM在模擬和實踐情境中均有很高的判準率,且對樣本容量及屬性層級緊密度依賴較小,可適用于小型測評等特征,這在一定程度上體現出非參數方法的優勢。然而,目前關于非參數方法的研究還尚粗淺,能否借助參數方法的已有成果,探索GRCDM的影響因素,深入考察GRCDM的優勢和性能,豐富非參數方法研究,是值得進一步關注的問題。

縱觀參數方法的相關研究,可將影響模型判準率的因素概括為三個方面:一是與診斷測驗相關的因素,如屬性層級關系、Q矩陣、屬性個數、題目數量(測驗長度)等;二是與被試相關的因素,如被試能力分布、樣本容量、失誤率等;三是模型的選擇,如模型與數據是否擬合,或模型與題目特征是否吻合(問題解決時屬性之間的補償性)。 其中,已有研究在測驗因素方面關注較多。首先,在屬性層級方面,研究表明屬性層級結構的類型對判準率有一定的影響,屬性層級結構越緊密判準率越高(顏遠海,丁樹良,汪文義,2011;蔡艷,涂冬波,丁樹良,2013;田偉,辛濤,2012),而當層級關系誤設時,則剛好相反,屬性間關系越密切判準率則越低(涂冬波,蔡艷,戴海琦,2013a)。其次,Q矩陣在CDA中的作用至關重要,Q矩陣中包含的R矩陣個數越多,其判準率越高(丁樹良,楊淑群,汪文義,2010;丁樹良,汪文義,楊淑群,2011)。Q矩陣中的元素缺失或冗余會影響模型的判準率(Im &Corter,2011),屬性缺失將高估掌握者的作答概率或失誤參數,屬性冗余將高估未掌握者作答概率或猜測參數(Kunina-Habenicht,Rupp,&Wilhelm,2012;Rupp&Templin,2008)。再次,在屬性數目和測驗長度方面,屬性數目太多會造成判準率的急速下降,認知屬性的個數最好不要超過7個(涂冬波,蔡艷,戴海琦,2013b;涂冬波,蔡艷,戴海琦,丁樹良,2011),而在發散型、收斂型、無結構型中,測驗長度宜越長越好,但在線型結構中,測驗長度并非越長越好(顏遠海等,2011)。在被試因素方面,失誤率越大判準率越低已是不爭事實。參數模型要求的樣本容量一般在1000甚至2000以上(Chiu &Douglas,2013;涂冬波等,2010),可對于非參數方法,500人已是較佳樣本,200人也很適宜(康春花等,2015)。此外,當被試的知識狀態為負偏態時,判準率普遍高于其他分布形態(涂冬波等,2013a)。

研究者在參數模型的影響因素方面已做了較多的探索,并得到了較為一致的結論。參照參數方法的研究范式,本研究擬從測驗因素和被試因素兩方面分3個實驗較為完整地探索屬性數目、被試知識分布、屬性層級關系、屬性層級誤設和Q矩陣誤設對GRCDM的影響,以進一步考察非參數方法的特征與適用性,豐富非參數方法研究。

2 多級評分聚類診斷法的思路

多級評分聚類診斷法(GRCDM) (康春花等,2015)是在0-1計分聚類診斷法(Chiu et al.;Chiu &Douglas,2013)的基礎上拓展而成,其整體思想是基于屬性合分及其標準化的思路,計算出理想反應模式(Ideal Response Patterns,IRP)和觀察反應模式(Observed Response Patterns,ORP)所對應的屬性能力向量,通過ORP的屬性能力向量到IRP的屬性能力向量的距離,實現對被試知識狀態的歸類。

2.1 GRCDM的屬性總分及能力向量的計算

2.2 GRCDM的具體思路

GRCDM 是直接基于屬性得分的診斷分類法,無需任何參數估計,因而其具體算法和思路簡單明了(如圖1所示),圖1展示了對具有某個ORP的被試知識狀態的歸類過程。假如測驗有k個屬性,則其過程為:首先,需要基于Q矩陣或R矩陣,得到m 種理想掌握模式(Ideal Master Patterns,IMP)和IRP;其次,根據屬性合分及能力向量的計算方法(2.1所示)得到m種IRP在k個屬性上的能力向量,如“(B,……,B)…… (B,……,B)”;再次,計算某個ORP如ORP在k個屬性上的能力向量“(B,……,B)”;最后,以IRP所對應的m種屬性能力向量為初始聚類中心,計算 ORP所對應的屬性能力向量與m個IRP所對應的m種屬性能力向量的距離,把 ORP歸類到距離最近的 IRP,從而把具有這種ORP的被試歸類到其所屬IRP對應的IMP中。

圖1 GRCDM的具體思路

3 研究 1:屬性數目、被試分布、屬性層級關系對GRCDM的影響

3.1 研究目的

康春花等人(2015)研究表明GRCDM對樣本容量無依賴,本研究擬在樣本容量為 500的情況下,探討屬性數目、被試能力分布、屬性層級關系對GRCDM判準率的影響,以考察GRCDM的適宜性與穩健性。

3.2 研究方法

3.2.1 研究設計

在被試人數

n

=500和被試作答失誤 10%時,研究包含 3個因素:3種屬性個數(4個、7個、9個)、4種屬性層級結構(線型、收斂型、發散型、無結構型,3種屬性個數下的4種層級結構(見附錄圖1~圖3)、2種被試能力分布(均勻分布、正態分布),為3×4×2的交叉設計,共24個實驗,每個實驗均重復20次以減少誤差。

屬性個數為4個時,各層級結構下的簡化Q陣包含4、5、5、8題;屬性個數為7個時;各層級結構下的簡化Q陣包含7、8、25、64題,其中64題縮減為22題,只包含測量1至3個屬性的題目;屬性個數為9個時,各層級結構下的簡化Q陣包含9、26、27、256題,其中256題縮減為37題,只包含測量1至3個屬性的題目。

3.2.2 模擬觀察反應

在固定失誤率為10%和樣本容量為500的前提下,模擬不同屬性數目、層級結構和被試能力分布共24種條件下的ORP,其思路為:

首先,根據 3.2.1各屬性個數和層級結構下的Q矩陣,得到IMP及其對應的IRP;

其次,計算每種 IRP的總分,將其從小到大排序,使具有這些知識狀態的被試人數滿足標準正態分布(或平均分布),總分相同的IMP平均分配人數,產生500名被試進行分配;

最后,發生10%的失誤,先產生一個服從U (0,1)的隨機數r,ORP按如下規則獲得:如果r>0.95且IRP的項目得分不是滿分,則該項目得分增加1分;當IRP的項目得分是滿分時,則該項目得分減1分;如果r<0.05且IRP的項目得分不為0分,則該項目得分減1分;如果IRP的項目得分為0分時,該項目得分增加 1分;如果0.05≦ r≦0.95時,則IRP的項目得分不變。由此,通過改變IRP的原有分數,在隨機 10%的項目上發生失誤,從而得到具有隨機失誤的 ORP (田偉,辛濤,2012;羅歡等,2010)。

在獲得所有模擬數據后,采用2.1和2.2的思路對數據進行分析,數據模擬和分析過程均通過matlab 7.0編程實現。

3.2.3 評價指標

3.3 研究結果

3.3.1 GRCDM在各實驗條件下的PMR和MMR均值

表1為屬性數目、層級關系、被試分布各實驗條件下,GRCDM的分類準確率PMR和MMR均值。由表1可以看出,GRCDM具有較高的PMR和MMR,各實驗條件下的整體 PMR和MMR均值分別為96.26%和99.09%,且PMR和MMR最高可達99.88%和99.98% (9個屬性、發散型、正態分布時),最低也能達 90.11% (4個屬性、發散型、正態分布時)和96.81% (4個屬性、收斂型、均勻分布時),PMR和MMR均值隨屬性個數的增加呈遞增趨勢(其他因素對 PMR值的影響需進一步分析)。由于 PMR是掌握模式匹配率而MMR只需單個屬性的判準率,因此MMR>PMR,且MMR最低值和平均值都已經很高了,其變化規律又與 PMR一致,故接下來的所有分析中重點關注PMR的變化情況。

表1 三因素24種條件下的PMR和MMR均值(20次)

3.3.2 屬性數目、層級關系及其交互效應對 PMR的顯著影響

為進一步揭示屬性數目、被試能力分布和屬性層級關系對GRCDM的影響機制,對PMR進行三因素方差分析,發現:屬性數目和屬性層級關系均存在主效應(

F

(2,456)=2064.83,

p

<0.001,η=0.90;

F

(3,456)=180.55,

p

<0.001,η=0.54),且屬性數目與層級關系的交互效應顯著(

F

(6,456)

=

180.94,

p

<0.001,η=0.70);而被試分布的主效應(

F

(1,456)=44.21,

p

<0.001,η=0.08)、被試分布與層級關系的交互效應(

F

(3,456)

=

13.15,

p

<0.001,η=0.08)、屬性數目與被試分布的交互效應(

F

(2,456)=5.82,

p

<0.01,η=0.03)等盡管達到了顯著水平,但因效果量 η太小(在方差分析中,η>0.16是大效果量(舒華,張亞旭,2008)),認為它們實際效應并不存在;屬性數目、被試分布和屬性層級關系的三次交互效應不顯著,

F

(6,456)

=

2.09,

p

>0.05。由此,在3個影響因素中,屬性數目、層級結構及其交互關系對GRCDM的影響強烈,而被試分布及與其它因素的相互關系對 GRCDM 的影響甚微(如,均勻和正態分布時,各層級關系下的 PMR均值分別為:99.10、98.53、99.14、99.40;99.31、98.67、99.14、99.40)。屬性數目和層級關系的交互效應見圖2。經簡單效應分析發現,屬性數目在各層級關系上均存在簡單效應(線型:

F

(2,117)=143.7,

p

<0.001,η=0.711;收斂型:

F

(2,117)=612.05,

p

<0.001,η=0.91;發散型:

F

(2,117)=1037.27,

p

<0.001,η=0.95;無結構型:

F

(2,117)=234.19,

p

<0.001,η=0.80),并且在線型、收斂型和無結構型上均為9個>7個>4個屬性,而在發散型上,為9個和7個屬性均高于4個屬性,但9個和7個之間無差異。另一方面,層級關系在各屬性數目上也存在簡單效應(4 個:

F

(3,156)=153.60,

p

<0.001,η=0.75;7 個:

F

(3,156)=216.32,

p

<0.001,η=0.806;9 個:

F

(3,156)=54.63,

p

<0.001,η=0.51),并且在 4 個屬性時無結構型>線型>收斂型和發散型,在7個屬性時發散型>無結構型>線型>收斂型,而在 9個屬性時發散型>無結構型和收斂型>線型。

圖2 屬性數目與層級關系的交互效應

4 研究2:屬性層級關系誤設對GRCDM的影響

4.1 研究目的

在 CDA中,屬性層級關系的正確設定非常重要,然而在實踐研究中,并不能保證屬性層級關系是百分百正確的。那么,如果層級關系誤設了,哪種情況對GRCDM判準率的影響較大,哪種情況對GRCDM影響甚小呢?本研究將具體分析屬性層級關系誤設對GRCDM判準率的影響。

4.2 研究方法

4.2.1 研究設計

研究1表明GRCDM隨著屬性數目增多判準率反而增高,且對被試分布無依賴性,因而,為簡化問題,本研究在控制屬性個數為4個、被試能力正態分布、被試人數為100人及作答失誤率為10%的情況下,探討不同類型的層級關系誤設對 GRCDM判準率的影響。實驗包括 4種層級結構(線型、收斂型、發散型、無結構型)下的 6種正確層級關系和11種錯誤層級關系(概括為4種錯誤類型,見附錄圖4)。錯誤層級關系的模擬均不改變層級關系類型,即正確層級關系為線型的,錯誤層級關系還為線型(涂冬波等,2013a)。

附錄圖4中,錯誤1、錯誤2、錯誤3、錯誤7的類型為屬性層級關系顛倒(如:錯誤 1中將屬性A3為屬性A4的先決屬性,變為屬性A4為屬性A3的先決屬性);錯誤4、錯誤8的類型為有層級關系變為無層級關系(如:錯誤4中屬性A2是A3的先決屬性,變為兩屬性邏輯關系為獨立的);錯誤 6、錯誤10的類型為無層級關系變為有層級關系(如:錯誤6中,屬性A2和A3是無邏輯關系的,變為屬性 A2是 A3的先決屬性);錯誤 5、錯誤 9、錯誤11的類型為屬性層級關系錯亂(如:錯誤 5中,屬性A1和A2是無邏輯關系的,變為A1是A2的先決屬性,與此同時,A1和A2是A3的先決屬性變為A1和A2分別獨立于A3)。

本研究為單因素實驗設計,自變量為層級關系錯誤類型,有5個水平,共17個條件下的實驗:層級關系正確(6種情況)、層級關系顛倒(4種情況)、有層級關系變為無層級關系(2種情況)、無層級關系變為有層級關系(2種情況)、層級關系錯亂(3種情況)。為減少實驗誤差,每個條件均重復20次。因變量為MMR均值及降幅。

4.2.2 數據模擬及分析

首先,在正確層級關系的前提下,得到被試真實的IMP,在此基礎上模擬被試的ORP,方法同研究 1;其次,得到正確層級關系下的簡化 Q矩陣、屬性能力向量,以此能力向量為初始聚類中心,采用 GRCDM 得到每個被試在每個屬性上的 MMR(本實驗主要關注錯誤類型而非層級關系對GRCDM的影響,在同一種錯誤類型下會有不同的層級關系,從而無法比較PMR而只能比較MMR的變化),作為層級關系誤設時的對照值;再次,得到各種錯誤類型下的簡化Q陣、IMP及能力向量,以錯誤時的能力向量為初始聚類中心,對被試的 ORP進行GRCDM分析,得到被試此時的MMR;最后,對正確和錯誤時的MMR進行比較,得到層級關系誤設時的MMR降幅,并對其進行描述統計及方差分析,推導研究結論。

4.3 研究結果

4.3.1 不同錯誤類型下的MMR降幅

表2為不同類型的 11種層級關系誤設下的MMR均值和相較正確層級關系的MMR均值降幅。由表2可以看出層級關系顛倒(錯誤1、2、3、7)的MMR均值的平均降幅為0.117、有層級關系變為無層級關系(錯誤 4、8)的 MMR 均值的平均降幅為0.006(降幅最小)、無層級關系變為有層級關系(錯誤6、10)的MMR均值的平均降幅為0.105、層級關系錯亂(錯誤 5、9、11)的 MMR 均值的平均降幅為0.245。其中,無結構型時的層級關系錯亂(錯誤11)的 MMR均值降幅最大(40.40%),此外較大的還有錯誤9、6、7、2等:發散型時屬性層級錯亂(24.60%)>收斂型時無層級關系變為有層級關系(11.90%)>發散型時層級關系顛倒(11.70%)>線型時層級關系顛倒(11.30%),其它類型的降幅則相對較小。

表2 11種層級關系誤設下的MMR均值降幅

4.3.2 錯誤類型對MMR降幅的影響

對4種層級關系誤設類型的方差分析結果表明,錯誤類型對 MMR降幅存在顯著影響,

F

(3,216)=97.12,

p

<0.001,η=0.51,其降幅由大到小依次為:屬性層級關系錯亂>無層級關系變為有層級關系、屬性層級關系顛倒>有層級關系變為無層級關系(見表3)。

表3 Scheffe事后多重比較結果

5 研究3:Q矩陣誤設對GRCDM的影響

5.1 研究目的

屬性層級關系誤設,必然導致Q矩陣中存在屬性冗余或缺失,為進一步考察GRCDM的穩定性或敏感性,本研究在研究 2的同等控制條件下,探討不同屬性層級結構(線型、收斂型、發散型、無結構型)下的不同Q矩陣誤設(屬性多余、屬性缺失、屬性既冗余又缺失)對GRCDM判準率的影響。

5.2 研究設計

實驗為4×3 (4種層級關系、3種誤設類型)的交叉設計,共12個試驗,每個試驗均重復20次以減少誤差。各實驗條件下的題目為各層級結構(見附錄圖1)下的簡化Q陣。4種層級結構下的簡化Q陣都包含(1 1 0 0)考核模式,因此可通過對該題目的錯誤設置來考察不同 Q矩陣誤設類型對 GRCDM判準率的影響。實驗中包括3種Q矩陣誤設類型:屬性缺失是指將(1 1 0 0)誤設為(1 0 0 0);屬性冗余是指將(1 1 0 0)誤設為(1 1 1 0);屬性缺失&冗余是指將(1 1 0 0)誤設為諸如(1 0 1 0)等模式。

表4呈現了不同層級結構下的Q矩陣誤設的模擬。改變類型中“1→0”表示Q矩陣誤設類型為屬性缺失,“0→1”表示屬性冗余,括號中的數字指缺失或多余了哪個屬性(4個屬性分別為A1、A2、A3、A4),如“1→0(1)”表示屬性 A1 缺失、“0→1(3)”表示屬性A3多余。被試ORP的模擬方法、數據分析思路同研究2。評價指標為PMR和MMR。

表4 不同層級結構下Q矩陣誤設的模擬

5.3 研究結果

5.3.1 Q矩陣誤設對PMR和MMR的整體影響

表5為4種層級結構下的3種Q矩陣誤設對GRCDM判準率的影響,即相較正確Q矩陣的PMR和MMR降幅。從表5可以看出,MMR的降幅最高才0.06,最低為0,可見Q矩陣誤設對MMR的影響并不大。而PMR的降幅相對MMR稍高,平均降幅為4.3%,尤其在線型和無結構型時較大,其中線型屬性缺失&冗余時,PMR降幅達 23.7%,可見 Q矩陣在線型時的誤設對GRCDM影響較大。屬性層級結構、Q矩陣誤設類型對PMR和MMR影響的交互效應可見圖3。由圖3可知,PMR的降幅趨勢與MMR類似,因此只分析PMR降幅結果。

表5 屬性層級結構、Q矩陣誤設對判準率的影響

5.3.2 屬性層級結構和誤設類型對GRCDM判準率的影響

圖3 屬性層級結構、Q矩陣誤設對PMR和MMR影響的交互效應圖

對 PMR進行兩因素方差分析發現:屬性層級結構和Q矩陣誤設類型主效應均顯著(

F

(3,228)=91.57,

p

<0.001,η=0.55;

F

(2,228)=66.40,

p

<0.001,η=0.37);屬性層級結構與Q矩陣誤設類型的交互效應顯著,

F

(6,228)=49.83,

p

<0.001,η=0.57。進一步簡單效應分析表明:誤設類型在線型和無結構型時簡單效應顯著(

F

(2,57)=232.30,

p

<0.001,η=0.89;

F

(2,57)=8.15,

p

<0.001,η=0.22),且在線型時表現為屬性冗余、屬性缺失>屬性冗余&缺失,在無結構型時表現為屬性冗余>屬性缺失、屬性冗余&缺失;而在收斂型和發散型時簡單效應并不顯著(

F

(2,57)=2.39,

p

>0.05;

F

(2,57)=0.075,

p

>0.05)。結合表4、表5和圖3可得出,線型和無結構型在Q矩陣正確時的判準率相對較高,但也容易受Q矩陣誤設的影響而導致判準率下降,收斂性和發散型在 Q矩陣正確時的判準率相對上兩種稍低,卻不易受Q矩陣誤設影響,降幅在各種誤設條件下接近于0,且誤設類型之間無顯著差異。

6 討論

6.1 GRCDM 對屬性數目無依賴,隨屬性數目增加判準率反而升高

在參數模型中,模型判準率隨屬性數目增多會呈現下降的趨勢,一般而言不宜超過 7個,否則會造成判準率的急速下降(Chiu &Douglas,2013;涂冬波等,2010,2013b)。為比較不同模型在屬性數目變化時判準率的變化趨勢,搜索已有研究相似條件下的9種多級評分模型的模擬結果進行描述(見表6)。由表6可以看出,與參數方法不同的是,GRCDM不僅不受限于屬性數目,隨著屬性數目的增多其判準率反而呈遞增趨勢。并且,在屬性個數相當甚至較多的情況下,其判準率要高于P-DINA、GRM-GDD、GRM-AHM-A、GRM-AHM-B、GRM-RSM和多級Fusion等方法(涂冬波等,2010;李娟等,2013;祝玉芳,丁樹良,2009;Bolt &Fu,2004;田偉,辛濤,2012),但略微低于 GDD-P和GP-DINA兩種方法(張淑梅等,2013;Sun et al.,2013)??梢?在屬性數目較多樣本容量又較少的情況下,較適于選用GRCDM 作為分類方法,但如果樣本容量較大,則GDD-P和GP-DINA也是不錯的選擇。由此,可以認為GRCDM對屬性個數無依賴,在一定程度上彌補了參數模型受限于屬性個數不易過多的現狀,更能吻合實踐教學中屬性個數較多及更微觀細致的評估需求。

6.2 GRCDM 不受被試知識分布影響,較適合松散型結構

關于被試知識狀態分布與判準率之間的關系,參數模型由于所需樣本量較大,一般在模擬設計時都設定被試知識狀態是正態分布(少數設為均勻分布),但對分布狀態本身研究較少,僅有的研究為:當被試的知識狀態為負偏態時,參數模型的判準率普遍高于其他分布形態(涂冬波等,2013a)。本研究同時考察了被試分布形態、屬性層級關系和屬性數目對GRCDM的影響,結果表明被試分布形態的主效應及與其它兩變量之間的二次和三次交互效應均未達到明顯效果。這個結果說明GRCDM這種非參數方法對被試知識狀態分布無依賴,這不僅可以與其對樣本容量無依賴的結果相印證(康春花等,2015),也進一步體現了非參數方法的特征與優勢。究其原因,可能與非參數方法本身對總體分布形態無要求有關,所以改變被試知識狀態的分布就猶如改變加權平均數的權重一樣,對非參數方法的結果并無影響,這正是非參數方法的優勢所在。

以往研究表明層級關系對參數模型判準率影響較大,屬性間邏輯關系越緊密,判準率越高;屬性間邏輯關系越松散,判準率偏低(涂冬波等,2013a;蔡艷等,2013;顏遠海等,2011;田偉,辛濤,2012)。本研究顯示GRCDM在各屬性層級的PMR均值由小到大依次為:收斂型(94.86%)<線型(96.01%)<發散型(96.60)<無結構型(97.58),層級結構存在主效應,與屬性數目也存在交互效應,隨著屬性個數的增加,GRCDM 更適合發散型和無結構型(見3.3.2)。這為松散型知識結構下的分類診斷找到了一種簡單有效的替補方法。

6.3 GRCDM對層級關系誤設的反應因屬性層級而異

雖然DINA模型族可以不考慮屬性層級,然而屬性層級卻是認知模型的一種表達形式(毋庸置疑),它在認知診斷測驗編制中(如試題的開發與組卷)乃至對被試的分類診斷與補救中都起著至關重要的作用(丁樹良,羅芬,汪文義,2012;DiBello &Stout,2007;Leighton,Gierl,&Hunka,2004)。然而,已有多級評分模型對屬性層級誤設并未做相關研究。僅有的研究見于涂冬波等人(2013a)關于幾種非補償性參數模型(0-1評分模型)在屬性層級誤設時的比較,以反映各種模型在屬性誤設時的敏感性或穩定性。圖4(圖中縱坐標單位為%)列出了屬性層級誤設時,GRCDM 與涂冬波等人(2013a)結果的比較。從圖4可以看出,GRCDM無論在各種屬性層級誤時的降幅還是總體平均降幅都比 RSM、AHM-A、GDD要小很多,但比DINA-HC稍高。由此,我們可以認為GRCDM在層級誤設時的判準率還是比較穩定的,之所以比 DINA-HC模型要稍高點,是因為DINA模型族本身就是不考慮層級關系的模型。

表6 GRCDM與其它多級評分診斷模型在不同屬性個數的判準率(%)

圖4 屬性層級誤設時GRCDM與其它模型的判準率降幅比較

此外,涂冬波等人(2013a)的結果表明:屬性間邏輯關系越緊密,其層級關系誤設導致的降幅越大,然而具體哪一種層級誤設類型的影響最大,卻未提及。本研究實驗2結果表明,除了“有層次關系變為無層次關系”的MMR均值的平均降幅為0.006,其它條件下降幅均較大。說明GRCDM對層次關系誤設的反應比較敏感??v觀4種誤設類型,發現其降幅從大到小依次為:屬性層級關系錯亂(24.5%)>無層級關系變為有層級關系(10.4%)、屬性層級關系顛倒(8.8%)>有層級變為無層級(0.6%)。具體到各種層級關系類型時,其降幅較大的還有:無結構型時的層級關系錯亂(40.4%)>發散型時屬性層級錯亂(24.6%)>收斂型時無層級關系變為有層級關系(11.9%)>發散型時層級關系顛倒(11.7%)>線型時層級關系顛倒(11.3%)。由此,GRCDM對“有層級變為無層級”容忍度較高,而對“層級關系錯亂”容忍度較低,尤其是無結構型和發散型時的基礎屬性一定不能誤設,緊密型的屬性邏輯確定也需謹慎,在不能保證兩屬性間是否存在先決關系的前提下,盡量視其為獨立。

6.4 Q矩陣誤設對GRCDM的影響因層級關系而異

屬性層級誤設必然導致 Q矩陣中的元素缺失或冗余,而Q矩陣的界定是否正確直接關系到測驗項目的質量、測驗是否具有結構效度以及基于測驗結果的診斷信息是否準確。然而,無論是基于數學的方法、模型的方法還是專家多次討論的結果,Q矩陣都未必完美無缺,因而研究者陸續對Q矩陣誤設時診斷方法的判準率進行研究,以探討診斷模型或方法的敏感性或穩定性。那么Q矩陣誤設對項目質量及判準率有哪些具體影響呢?Rupp和Templin研究發現,當Q矩陣中的某個項目所測屬性缺失時,該題失誤參數將被高估,并且,由于Q矩陣中缺少了特定的屬性考核模式,將無法區別某些知識狀態的被試,進而導致被試分類的正確率降低(Rupp &Templin,2008;Kunina-Habenicht et al.,2012),而屬性冗余時,該題猜測參數將被高估(Rupp &Templin,2008)。本研究實驗 3表明,在線型和無結構型時,其判準率的高低依次為屬性冗余、屬性缺失、屬性冗余&缺失,而在收斂型和發散型時GRCDM對屬性誤設的容忍度較高,降幅基本在 1%以下。就GRCDM而言,Q矩陣誤設也會導致判準率的下降(與參數模型一樣),所不同的是,相比收斂型和發散型,無結構型和線型的判準率在屬性既冗余又缺失及屬性缺失時更易受影響,但對屬性冗余容忍度較高,而收斂性和發散型相對具有較大的穩定性,不易受Q矩陣誤設的影響。

7 結論

GRCDM 無需參數估計,是一種較為簡便且適宜小型評估的非參數方法(康春花等,2015),為進一步深入探討其特性,本研究通過3個模擬研究考察其影響因素,所得結果表明:(1) GRCDM不會受限于屬性數目和被試能力分布狀態,在各種條件下其判準率均較高,且隨屬性數目的增多判準率反而增高;(2) GRCDM的判準率依屬性層級誤設類型不同而不同,其中影響最小的是“有層級變為無層級”、最大的是“屬性層級關系錯亂”,尤其是針對無結構型和發散型時;(3) Q矩陣誤設對GRCDM的影響因屬性層級關系的不同而不同,其中收斂型和發散型受影響較小,結構型和線型的判準率在屬性既冗余又缺失時降幅較大。

然而,盡管本研究進一步探測了GRCDM的主要特性,為非參數認知診斷方法的研究提供了新信息,但有些方面還需繼續改進和完善:(1)豐富模擬研究中關于失誤分數的設計方式(加 1分減 1分的范式略顯單一),后續研究可以采用張淑梅等(2013)滑動矩陣這種與現實情境較吻合的多元化的失誤分數設計方式;(2)進一步完善Q矩陣誤設方式,未來研究可以考慮采用喻曉鋒,羅照盛等人(2015)關于 Q矩陣誤設和聯合估計的方法,進一步考察 GRCDM的穩定性與靈敏性;(3)關注GRCDM與其它參數或非參數方法(如SVM)的直接比較,進一步考證其在診斷分類中的優越性,以獲得更多直接信息。

Bolt,D.,&Fu,J.B.(2004).A polytomous extension of the fusion model and its Bayesian parameter estimation.Paper presented at NCM E,San Diego,USA.

Cai,Y.,Tu,D.B.,&Ding,S.L.(2013).A simulation study to compare five cognitive diagnostic models.

Acta Psychologica Sinica,45

(11),1295?1304.[蔡艷,涂冬波,丁樹良.(2013).五大認知診斷模型的診斷正確率比較及其影響因素:基于分布形態,屬性數及樣本容量的比較.

心理學報,45

(11),1295?1304.]Chiu,C.-Y.,&Douglas,J.(2013).A nonparametric approach to cognitive diagnosis by proximity to ideal response patterns.

Journal of Classification,30

(2),225?250.Chiu,C.-Y.,Douglas,J.A.,&Li,X.D.(2009).Cluster analysis for cognitive diagnosis:Theory and applications.

Psychometrika,74

(4),633?665.DiBello,L.V.,&Stout,W.(2007).Guest editors' introduction and overview:IRT-Based cognitive diagnostic models and related methods.

Journal of Educational Measurement,44

(4),285?291.Ding,S.L.,Luo,F.,&Wang,W.Y.(2012).Extension to Tatsuoka’s Q matrix theory.

Psychological Exploration,32

(5),417?422.[丁樹良,羅芬,汪文義.(2012).Q矩陣理論的擴展.

心理學探新,32

(5),417?422.]Ding,S.L.,Wang,W.Y.,&Yang,S.Q.(2011).The design of cognitive diagnostic test blueprints.

Journal of Psychological Science,34

(2),258?265.[丁樹良,汪文義,楊淑群.(2011).認知診斷測驗藍圖的設計.

心理科學,34

(2),258?265.]Ding,S.L.,Yang,S.Q.,&Wang,W.Y.(2010).The importance of reachability matrix in constructing cognitively diagnostic testing.

Journal of Jiangxi Normal University (Natural Science),34

(5),490?494.[丁樹良,楊淑群,汪文義.(2010).可達矩陣在認知診斷測驗編制中的重要作用.

江西師范大學學報(自然科學版),34

(5),490?494.]He,X.W.,&Zhao,H.M.(2005).Support vector machine and its application to machinery fault diagnosis.

Journal of Central South University (Science and Technology),36

(1),97?101.[何學文,趙海鳴.(2005).支持向量機及其在機械故障診斷中的應用.

中南大學學報(自然科學版),36

(1),97?101.]Henson,R.,Templin,J.,&Douglas,J.(2007).Using efficient model based sum-scores for conducting skills diagnoses.

Journal of Educational Measurement,44

(4),361?376.Im,S.,&Corter,J.E.(2011).Statistical consequences of attribute misspecification in the rule space method.

Educational and Psychological Measurement,71

(4),712?731.Kang,C.H.,Ren,P.,&Zeng,P.F.(2015).Nonparametric cognitive diagnosis:A cluster diagnostic method based on grade response items.

Acta Psychologica Sinica,47

(8),1077?1088.[康春花,任平,曾平飛.(2015).非參數認知診斷方法:多級評分的聚類分析.

心理學報,47

(8),1077?1088.]Kuang,Z.(2010).

Application of support vector machine to cognitive diagnosis

(Unpublished master thesis).Jiangxi Normal University.[鄺錚.(2010).

支持向量機在認知診斷中的應用研究

(碩士學位論文).江西師范大學.]Kunina-Habenicht,O.,Rupp,A.A.,&Wilhelm,O.(2012).The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models.

Journal of Educational Measurement,49

(1),59?81.Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka's rule-space approach.

Journal of Educational Measurement,41

(3),205?237.Li,J.,Ding,S.L.&Luo,F.(2013).The generalized distance discrimination based on graded response model.

Journal of Jiangxi Normal University (Natural Science),36

(6),636?639.[李娟,丁樹良,羅芬.(2013).基于等級反應模型的廣義距離判別法.

江西師范大學學報(自然科學版),36

(6),636?639.]Luo,H.,Ding,S.L.,Wang,W.Y.,Yu,X.F.,&Cao,H.Y.(2010).Attribute hierarchy method based on graded response model with different scoring-weight for attributes.

Acta Psychologica Sinica,42

(4),528?538.[羅歡,丁樹良,汪文義,喻曉鋒,曹慧媛.(2010).屬性不等權重的多級評分屬性層級方法.

心理學報,42

(4),528?538.]Rupp,A.A.,&Templin,J.(2008).The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model.

Educational and Psychological Measurement,68

(1),78?96.Shu,H.,&Zhang,Y.X.(2008).

Research methods in psychology:Experimental design and data analysis.

Beijing,China:People’s Education Press.[舒華,張亞旭.(2008).

心理學研究方法:實驗設計和數據分析

.北京:人民教育出版社.]Sun,J.,Xin,T.,Zhang,S.M.,&de la Torre,J.(2013).A polytomous extension of the generalized distance discriminating method.

Applied Psychological Measurement,37

(7),503?521.Tian,W.,&Xin,T.(2012).A polytomous extension of rule space method based on graded response model.

Acta Psychologica Sinica,44

(2),249?262.[田偉,辛濤.(2012).基于等級反應模型的規則空間方法.

心理學報,44

(2),249?262.]Tu,D.B.,Cai,Y.,Dai,H.Q.&Ding,S.L.(2010).A polytomous cognitive diagnosis model:P-DINA model.

Acta Psychologica Sinica,42

(10),1011?1020.[涂冬波,蔡艷,戴海琦,丁樹良.(2010).一種多級評分的認知診斷模型:P-DINA 模型的開發.

心理學報,42

(10),1011?1020.]Tu,D.B.,Cai,Y.,&Dai,H.Q.(2013a).Comparison and selection of five noncompensatory cognitive diagnosis models based on attribute hierarchy structure.

Acta Psychologica Sinica,45

(2),243?252.[涂冬波,蔡艷,戴海琦.(2013a).幾種常用非補償型認知診斷模型的比較與選用:基于屬性層級關系的考量.

心理學報,45

(2),243?252.]Tu,D.B.,Cai,Y.,&Dai,H.Q.(2013b).A polytomous extension of higher-order DINA model.

Journal of Psychological Science,36

(4),984?988.[涂冬波,蔡艷,戴海琦.(2013b).基于HO-DINA模型的多級評分認知診斷模型的開發.

心理科學,36

(4),984?988.]Tu,D.B.,Cai,Y.,Dai,H.Q.,&Ding,S.L.(2011).A research on MCMC parameter estimation and the properties of the high order DINA model.

Joumal of Psychological Science,34

(6),1476?1481.[涂冬波,蔡艷,戴海琦,丁樹良.(2011).HO-DINA模型的MCMC參數估計及模型性能研究.

心理科學,34

(6),1476?1481.]Vapnik,V.(2000).

The nature of statistical learning theory

.New York:Springer Science &Business Media.Yan,Y.H.,Ding,S.L.,&Wang,W.Y.(2011).The research on factors influencing diagnostic accuracy in AHM and DINA.

Journal of Jiangxi Normal University (Natural Science),35

(6),640?645.[顏遠海,丁樹良,汪文義.(2011).影響AHM與DINA診斷準確率的因素研究.

江西師范大學學報(自然科學版),35

(6),640?645.]Yu,X.F.,Luo,Z.S.,Qin,C.Y.,Gao,C.L.,&Li,Y.J.(2015).Joint estimation of model parameters and Q-matrix based on response data.

Psychologica Sinica,47

(2),273-282.[喻曉鋒,羅照盛,秦春影,高椿雷,李喻駿.(2015).基于作答數據的模型參數和Q 矩陣聯合估計.

心理學報,47

(2),273-282.]Zhang,S.M.,Bao,Y.,&Guo,W.H.(2013).A generalized cognitive diagnosis model under a particuliar polytomous situation.

Psychological Exploration,33

(5),444?450.[張淑梅,包鈺,郭文海.(2013).一種多級評分的廣義認知診斷模型.

心理學探新,33

(5),444?450.]Zhu,Y.F.,&Ding,S.L.(2009).A polytomous extension of attribute hierarchy method based on graded response model.

Acta Psychologica Sinica,41

(3),267–275.[祝玉芳,丁樹良.(2009).基于等級反應模型的屬性層級方法.

心理學報,41

(3),267?275.]

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人在线无码免费视频| 免费无遮挡AV| 国产毛片高清一级国语| 欧美日韩第二页| 日本不卡在线| 专干老肥熟女视频网站| 福利姬国产精品一区在线| 19国产精品麻豆免费观看| 亚洲中文字幕精品| 青青草原国产av福利网站| 极品私人尤物在线精品首页 | 自慰高潮喷白浆在线观看| 无码精品国产dvd在线观看9久 | 欧美啪啪一区| 亚洲最新在线| 午夜一级做a爰片久久毛片| 亚洲精品图区| 欧美日韩专区| 国产美女精品人人做人人爽| 久久99精品久久久大学生| 97国产精品视频人人做人人爱| 免费一级毛片不卡在线播放| 亚洲一区色| 一级毛片免费观看久| 暴力调教一区二区三区| 国产精品自在在线午夜| 91久久青青草原精品国产| 欧美人人干| 亚洲国产高清精品线久久| 久久福利网| 国产精品露脸视频| 22sihu国产精品视频影视资讯| 97视频在线精品国自产拍| 国产乱人免费视频| 高清久久精品亚洲日韩Av| 精品久久综合1区2区3区激情| 日本国产精品| 国产精品蜜芽在线观看| AV网站中文| 99尹人香蕉国产免费天天拍| 制服丝袜一区二区三区在线| 国产精品深爱在线| 国产成人精品亚洲日本对白优播| 一级爆乳无码av| 91精品国产情侣高潮露脸| 青青操国产| 国产免费a级片| 欧美啪啪一区| WWW丫丫国产成人精品| 日本欧美一二三区色视频| 国产精品三级av及在线观看| 天天色综合4| 国产欧美在线视频免费| 69视频国产| 国产成人免费高清AⅤ| 亚洲V日韩V无码一区二区| 午夜视频免费一区二区在线看| 免费在线视频a| 免费看a级毛片| 欧美成人h精品网站| 久久99精品国产麻豆宅宅| 欧美伊人色综合久久天天| 91免费片| 色婷婷狠狠干| 特黄日韩免费一区二区三区| 日本a级免费| 3344在线观看无码| 欧美日韩精品在线播放| 国产真实二区一区在线亚洲| 免费观看三级毛片| 国产欧美高清| 久久这里只有精品66| 五月婷婷亚洲综合| 国产日韩欧美在线视频免费观看| 国产地址二永久伊甸园| 国产中文一区二区苍井空| 黄色片中文字幕| 国产乱人伦偷精品视频AAA| 少妇精品久久久一区二区三区| 精品国产Av电影无码久久久| 全裸无码专区| av大片在线无码免费|