999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非參數認知診斷方法:多級評分的聚類分析*

2015-02-10 01:28:22康春花曾平飛
心理學報 2015年8期
關鍵詞:方法研究

康春花 任 平 曾平飛

(浙江師范大學教師教育學院, 金華 321004)

1 引言

認知診斷評估(Cognitive Diagnostic Assessment,CDA)以認知診斷測驗為載體, 采用合適的認知診斷模型對學生的知識結構進行診斷分析。在 CDA中, 被試知識狀態分類準確性的影響因素眾多, 其中最主要的是有效的認知診斷測驗和適宜的診斷模型(Borsboom, Mellenbergh, & van Heerden, 2004)。Fu和Li (2007)總結出60多種診斷模型, 典型的如規則空間模型(Rule Space Model, RSM) (Tatsuoka,1983)、屬性層級模型(Attribute Hierarchy Model,AHM) (Leighton, Gierl, & Hunka, 2004)、DINA 模型(deterministic inputs, noisy and gate model) (De La Torre & Douglas, 2004; Junker & Sijtsma, 2001)、融合模型(Fusion Model) (Hartz, 2002)等。這些認知診斷模型多為參數診斷模型。參數模型有其特有的優勢, 但同時也存在一些局限性, 如參數估計過程比較復雜, 需要借助特殊軟件運用EM算法或MCMC算法等通過編程來實現, 而MCMC算法耗時太長,EM 算法常在局部最優值處收斂等。此外, 參數模型往往需要大樣本數據, 且屬性個數又不能太多,否則就會出現參數估計不正確及模型不擬合等問題(Chiu & Douglas, 2013; 涂冬波, 蔡艷, 戴海琦,丁樹良, 2010)。由此, 研究者開始探索更為簡潔的非參數方法, 因為相比參數方法, 非參數方法具有受限較少、假設條件較弱、計算簡便、在專業的統計軟件包就能完成等優勢。

在非參數診斷方法的研究中, Henson等人提出了屬性合分的思想(Henson, Templin, & Douglas,2007), 該思想簡明易了, 然而其獲得決斷值的過程較為復雜, 需要借助其它參數模型先獲得項目參數和被試參數信息, 未能起到非參數方法易于操作的效果。2008年, Ayers等人對屬性合分進行標準化, 采用標準化的能力向量來描述被試對各屬性的掌握情況(Ayers, Nugent, & Dean, 2008; Nugent,Ayers, & Dean, 2009), 屬性合分標準化的思想消除了因各屬性考察次數不同而造成的屬性合分不可比問題。Chiu等人(Chiu, Douglas, & Li, 2009)也進一步借用屬性合分的思路, 提出屬性合分的聚類分析方法, 通過模擬研究比較了基于不同初始值選取方法的 K-means聚類法和基于不同距離度量方法的系統聚類法(Hierarchical Agglomerative Cluster)的表現。此外, 其近年研究表明懲罰性漢明距離(Penalized Hamming Distance)可依據項目類型的不同, 對猜測和失誤分別設置權重, 其判準率可與參數模型媲美(Chiu & Douglas, 2013)。然而, 該研究中, 由于數據模擬是通過 DINA模型產生, 其分類結果的好壞是以DINA模型的最大似然估計的結果為基準。

非參數診斷方法已有一些研究基礎, 然而這些方法都是基于0-1計分提出的, 不滿足結構化反應題采用多級計分的實踐應用情境。2001年教育部《基礎教育課程改革綱要(試行)》提出:為完善考試管理制度, 考試內容應加強與社會實際和學生生活經驗的聯系, 重視考察學生分析問題、解決問題的能力。為此, 在許多大型測評和考試項目中, 都出現了諸如作文、簡答、論述等“結構化反應”題, 因為這類題型更能反應學生對知識的分析、綜合、應用、評價等方面的能力。這種題型中, 不僅題目測量的屬性有多個, 而且評分者采用分步給分的方式來評價被試的作答(Kim, Walker, & McHale, 2010),因此被試在每個題目上的得分是連續取值的, 在這種情況下, 若仍然使用 0-1計分的診斷方法, 則會損失一部分數據信息, 從而影響診斷和分類的效果。

針對參數診斷模型的局限性, 而非參數研究僅停留在 0-1計分階段, 為滿足目前測評與考試的實踐需求, 本文擬將聚類診斷分析這種簡單易行的非參數診斷方法拓展至多級評分, 同時探討樣本容量、失誤率及屬性層次結構對該方法的診斷正確率的影響。研究包括4個部分:0-1計分聚類方法簡介;多級計分聚類方法的拓展; 模擬研究; 實證研究。

2 0-1計分聚類診斷方法簡介

2.1 被試屬性合分向量和能力向量的計算

假設3個屬性之間相互獨立, 測驗Q陣如表1所示。若被試i在測驗的7道題目的作答反應向量為(1,1,1,0,1,0,0), 則根據合分向量計算公式, 被試i的屬性合分W= (2,1,2)。各屬性考察的題目數量向量為(4,4,4), 因此被試i的能力向量W= (1/2, 1/4, 1/2)。

表1 含3個屬性的測驗Q陣

2.2 K-means算法

聚類分析就是將數據對象分成多個類, 使同類中的對象相似度最大, 不同類間的對象相異性最大。k-means算法是最常用和最典型的算法之一, 它采用距離作為相似性的評價指標, 認為兩個對象的距離越近, 其相似度越大。k-means的優點在于能快速的收斂及易于實現, 其核心思想是把N個數據對象劃分為 M 個聚類, 使每個類內的數據點到該類中心的平方和最小, 具體算法如下:

4)重復步驟2和3, 直至聚類中心不再變化。

2.3 K-means中心初始值的選取

K-means算法對中心初始值的依賴性較大, 因此初始值的選取非常重要。CDA的目的是根據被試的觀察反應模式(Observed Response Patterns, ORP),把其劃分到相應的理想掌握模式(Ideal Master Pattern,IMP)中。因此, 采用聚類分析對被試進行分類與診斷時, 可根據測驗所考察的屬性層級關系, 得到所有符合邏輯的IMP, 則可將IMP對應的能力向量作為聚類中心初始值(Ayers et al., 2008; Nugent et al.,2009)。

2.4 0-1計分聚類診斷方法的步驟

根據K-means算法的具體過程, 在CDA中, 其聚類分析思路如下:

1)根據屬性層次關系, 得到IMP, 計算IMP對應的能力向量, 作為K-means聚類初始中心;

2)根據被試 ORP計算出被試能力向量(如 2.1所示), 計算被試能力向量與各聚類中心的距離,把被試分配到最近的聚類中心;

3)所有被試分配完成后, 重新計算K-means聚類中心;

4)基于過程 3)得到的聚類中心, 重新分配被試到距離最近的中心, 重復該過程直到每個被試不再重新分配為止。

3 0-1計分方法的拓展:多級計分的聚類診斷分析

基于 0-1計分聚類診斷方法的思路, 研究者將其拓展為多級計分的聚類診斷方法(Grade Response Cluster Diagnostic Method, GRCDM)。假設測驗考察了4個屬性, 用A1、A2、A3、A4表示, 其屬性層次關系為圖1所示, 由圖1得到的項目屬性關聯矩陣Q如表2所示, 則GRCDM的核心概念及分析思路如下(步驟和初始值的選取與0-1計分相同, 不再贅述)。

表2 圖1屬性層次關系對應的Q矩陣

3.1 理想反應模式的計算

表3 圖1和表2對應的IMP與IRP

3.2 屬性合分和能力向量的計算方法

3.2.1 多級計分的屬性合分思路

表2陣中, 從第1題到第6題, 滿分分值為1、2、2、3、3、4。以第6題為例, 說明題目得分不同時, 在各屬性合分上所累加的分數, 即ρ值的計算。第6題滿分4分, 當被試i得1分時, 屬性A1掌握概率為100%, 屬性A1的合分加1分, 即ρ = 1。當被試得 2分時, 被試可能掌握的屬性組合是 A1A2或 A1A4, 掌握屬性A1的概率為 100%, 掌握屬性A2、A4的概率為50%, 屬性A1的合分加1分, 屬性A2、A4的合分各加0.5分。當被試得3分時, 被試可能掌握的屬性組合是A1A2A3或A1A2A4, 掌握屬性A1的概率是100%, 掌握屬性A2的概率是100%, 掌握屬性 A3和 A4的概率分別為 50%, 則屬性A1和A2合分分別加1分, 屬性A3和A4合分分別加0.5分。當被試得4分時, 掌握4個屬性的概率都為100%, 則 4個屬性合分分別加1分。如此, 被試在各題上的得分模式時, 各屬性的貢獻率ρ取見如表4所示。有了ρ值, 則根據被試的在所有題目上的反應模式, 就可以得到被試的屬性合分向量 W, 即被試的屬性合分向量中的各元素 W為被試在所有題目中所得到的第k個屬性的ρ值總和(每道題目得不同分數時, 第k個屬性的ρ值不同)。k上的合分,

表4 ρ值表

3.2.2 能力向量的計算

基于上述屬性合分向量和能力向量的計算方法, 當未發生失誤作答時, IRP所對應的各屬性合分W和能力值B見表5。

表5 表3所示IRP對應的Wik和Bik

4 模擬研究

4.1 研究目的

基于GRCDM, 采用K-means算法對被試進行診斷分類, 以考察其適用性。在固定屬性個數、被試知識狀態分布的情況下, 探討屬性層次結構, 樣本容量、失誤率對判準率的影響。

4.2 研究方法

4.2.1 研究設計

在知識狀態為均勻分布、屬性個數為7個的情況下, 研究包含4種屬性層次結構(線型、收斂型、發散型、無結構型, 見圖2)、3種樣本容量(100人、500人、2000人)、3種失誤率(5%、10%、20%)的4×3×3的交叉設計, 共36個試驗, 每個試驗重復30次以減少誤差。4種結構下的簡化Q陣分別包含7、8、25、64題。羅歡、丁樹良、汪文義、喻曉鋒和曹慧媛(2010)認為無結構型64題太多, 可剔除含屬性較多的題目, 本文無結構型選22題, 只包含測量1到3個屬性的題目。由此, 各層次結構下的Q矩陣如表6~表9所示。

4.2.2 被試觀察反應模式的模擬

4.2.3 被試分類與診斷

首先, 通過3.2介紹的方法得到各被試ORP所對應的能力向量, 然后計算出IMP對應的能力向量作為初始聚類中心, 接著按照 2.4的步驟對被試進行聚類分析, 得到被試的知識狀態。

圖2 含7個屬性的四種屬性層次結構

表6 Q矩陣(線型)

表7 Q矩陣(收斂型)

表8 Q矩陣(發散型)

以上模擬過程均通過matlab 7.0編程實現。

4.2.4 評價指標

表9 Q矩陣(無結構型)

4.3 研究結果

4.3.1 GRCDM具有很高的邊際判準率和模式判準率

表10為GRCDM在各實驗條件下的PMR和MMR均值(重復30次)。從表中可以看出, 該方法不僅具有很高的邊際判準率, MMR介于0.982到1之間, 而且還具有較高的模式判準率, 失誤率為5%時, 收斂型的PMR為1, 隨著失誤率的增高, 模式判準率雖有下降的趨勢, 但其值仍然較高, 即使在無結構型、樣本容量為100、失誤率為20%時, 模式判準率的最低值也能達到0.815。可見, GRCDM具有較強的穩定性與適用性。

表10 GRCDM在各實驗條件下的PMR和MMR均值

4.3.2 樣本容量、失誤率和層次結構對PMR影響的三次交互效應顯著

由于各條件下, MMR均值都很高, 因此, 本文更關心各條件下 PMR的變化。為探討失誤率、層次結構、樣本容量對 PMR的影響, 采用方差分析對實驗數據進行分析發現:樣本容量、失誤率和層級結構主效應均顯著(F(2,1044) = 53.647, p<0.001,η= 0.093; F(2,1044) = 3016, p<0.001, η= 0.852;F(3,1044) = 688.256, p<0.001,η= 0.664); 樣本容量與失誤率、樣本容量與層次結構、失誤率與層次結構的兩次交互效應均顯著(F(4,1044) = 32.883,p<0.001, η=0.112; F(6,1044)= 17.477, p<0.001, η=0.091; F(6,1044) = 216.599, p<0.001, η= 0.555); 三因素的三次交互效應也顯著(F(12,1044) = 11.38,p<0.001, η= 0.116)。可見, 三因素對PMR的影響不是獨立發生的, 而是相互關聯、交叉進行的, 應對三次交互效應進一步進行分析, 以揭示其對PMR影響的內部機制。

(1) 失誤率為5%和10%時, PMR不受樣本容量的影響

已有研究表明, 失誤率的增加必然導致診斷正確率在一定程度上的下降(田偉, 辛濤, 2012; 祝玉芳, 丁樹良, 2009), 因此, 本研究宜在失誤率的不同水平上, 分析樣本容量與層次結構的簡單交互效應, 以探測三因素對PMR的交叉影響。

結果表明:失誤率為 5%和 10%時, 樣本容量不存在主效應、樣本容量與層次結構之間不存在交互效應(F(2,348) = 2.48, p>0.05; F(6,348) = 0.30,p>0.05; F(2,348) = 1.292, p>0.05; F(6,348) = 1.747,p>0.05), 只有層次結構主效應顯著(F(3,348) =171.685, p<0.001, η= 0.579; F(3,348) = 281.192,p<0.001, η= 0.708)。對層次結構的事后比較發現:失誤率為5%時, 無結構型和發散型的PMR均值無顯著差異, 其它各結構均差異顯著(發散型、無結構型>線型>收斂型); 失誤率為 10%時, 各層次結構間的PMR均值均顯著, 且發散型>無結構型>線型>收斂型, 結果見表11、表12。

表11 層次結構事后多重比較 Scheffe (失誤率=5%)

表12 層次結構事后多重比較 Scheffe (失誤率=10%)

圖3 樣本容量與層次結構交互效應圖

表13 Scheffe (失誤率 = 20% & n = 100)

表14 Scheffe (失誤率 = 20% & n = 2000)

表15 Scheffe (失誤率 = 20% & n = 100)

(2) 失誤率為20%時, PMR受樣本容量與層次結構的交互影響

失誤率為20%時, 樣本容量和層次結構的主效應以及兩者之間的交互效應均顯著(F(2,348) =59.553, p<0.001, η= 0.254; F(3,348) = 440.536,p<0.001, η= 0.792; F(6,348) = 19.646, p<0.001, η=0.253, 見圖 3)。

固定樣本容量對層次結構進行簡單簡單效應發現:樣本容量為100人、500人和2000人時, 層次結構間PMR均值差異均顯著(F(3,116) = 95.320,p<0.001, η= 0.711; F(3,116) = 311.936, p<0.001, η=0.890; F(3,116) = 1177.518, p<0.001, η= 0.968),但差異方向和強度均不同(見表13~表15)。表13-15表明樣本容量為 100人時, 發散型>線型>收斂型>無結構型; 樣本容量為500人時, 發散型>線型>收斂型和無結構型; 樣本容量為2000人時, 發散型>線型>無結構型>收斂型。

固定層次結構對樣本容量進行簡單簡單效應發現:線型和收斂型時, 樣本容量的簡單簡單效應均不顯著(F(2,87) = 1.063, p>0.05; F(2,87) = 3.5,p>0.05), 而在發散型和無結構型時, 樣本容量的簡單簡單效應均顯著(F(2,87) = 13.176, p<0.001, η=0.232; F(2,87) = 68.103, p<0.001, η= 0.610), 且均為2000人、500人>100人, 但2000人和500人之間差異并不顯著, 見表16~表19。

表16 Scheffe (失誤率 = 20% & 層次結構=線型)

表17 Scheffe (失誤率 = 20% & 層次結構=發散型)

表18 Scheffe (失誤率 = 20% & 層次結構=收斂型)

表19 Scheffe (失誤率 = 20% & 層次結構=無結構型)

5 實證研究

5.1 研究目的

為驗證GRCDM在實踐中的效能, 采用GRCDM對小學行程問題解決的認知診斷數據進行分析(康春花, 2011), 考察其在實踐中的適用性。

5.2 數據來源

數據來源于康春花(2011)的小學應用題認知診斷評估數據, 為 1240名學生(好、中、差學校人數各為135、853 和252 人)在17道題上的原始得分。測驗考察了8個認知屬性:基本算術運算(A1)、基本圖式(A2)、多步運算和等級復雜性(A3)、復雜圖式(A4)、識別隱含條件(A5)、關系表征(A6)、圖式表征(A7)、項目代數性(A8)。8個屬性的層級關系及測驗Q矩陣見圖4和表20(康春花, 辛濤, 田偉, 2013)。

圖4 8屬性的層次關系

表20 Q矩陣

5.3 過程與方法

GRCDM在實證研究中的思路為:(1)根據圖4屬性層次結構, 可得到39種IMP; (2)依據3.1所示得到IMP對應的IRP; (3)根據3.2.1所示求得不同得分模式下各屬性對合分的貢獻值ρ, 從而得到IRP對應的能力向量; (4)依據1240名被試在17道題上的ORP, 按 3.2所示, 得到他們的能力向量; (6)以 39種 IMP所對應的能力向量為初始聚類中心, 對1240名被試的原始能力向量進行聚類, 把他們歸類到39種IMP中。

程序與軟件:matlab 7.0自編程序實現聚類分析與診斷; SPSS 19.0和EXCEL 2007實現效度驗證分析。

表21 歸類結果

5.4 結果

5.4.1 GRCDM的分類結果

GRCDM對1240名被試的分類結果見表21:該方法把1240名被試分到39種掌握模式中的37種,有兩個模式(3和8)為空, 相比多級規則空間的分類結果(該結果有8個模式為空) (康春花, 2011), 更加均勻。

5.4.2 屬性通過率與屬性性質相匹配

基于表7的結果, 可得到各屬性的掌握人數百分比(見表22)。在兩個先決條件屬性A1、A2上, 被試表現很好, 隨著復雜行程問題的出現, 在完成復雜任務的基本條件A1、A2、A3、A4中, 其錯誤主要出現在 A4上。此外, 被試的認知錯誤主要以認知過程屬性為主, 如 A5、A7和 A8出現的錯誤較多。各屬性的難度趨勢與各屬性的性質是相匹配的,從易到難依次為程序性知識屬性、陳述性知識屬性、認知技能或策略屬性。可見, 該方法在實證中也有較好的分類效果。

表22 各屬性掌握人數百分比(%)

5.4.3 屬性通過率的學校類型差異

按康春花等人(2013)的研究, 學校類型(好、中、差)可以作為一個外部客觀標準, 用來分析診斷評估的外部效度。由于被試在單個屬性上的通過百分比, 可看作是屬性通過率, 如果把這些比率看作是各屬性得分的均值, 則可利用方差分析對學校類型差異進行檢驗。本研究中, 各學校類型在各屬性上的屬性通過率及其差異見圖5。

圖5 好、中、差學校在各屬性上的掌握人數百分比

方差分析發現, A1-A8的屬性通過率均存在學校類型主效應(F(2,1237) = 26.554, p<0.001, η= 0.041;F(2,1237) = 28.268, p<0.001, η= 0.044; F(2,1237) =48.504, p<0.001, η= 0.073; F(2,1237) = 65.604,p<0.001, η= 0.096; F(2,1237) = 18.049, p<0.001, η=0.028; F(2,1237) = 30.227, p<0.001, η= 0.047;F(2,1237) = 52.772, p<0.001, η= 0.079; F(2,1237) =4.83, p<0.001, η= 0.008), 并且, 除了在 A8 上, 好、中>差外, 其余均為好>中>差, 但差異強度有所不同, 這可以從圖5很直觀的看出。在較易和較難的屬性上(A1、A2和A8), 差異程度較低, 而在其它5個屬性上, 差異程度有所增加, 并且表現在好學校與中等學校差異程度擴大, 而中等學校與差學校雖有差異, 其差異程度相對較小。

6 討論

在統計學中, 相比參數方法, 非參數方法具有假設條件少、不受限于樣本容量、計算簡便、更具穩健性且適用面廣等優勢(胡竹菁, 2010)。本研究所得結果可為CDA方法選擇和實踐應用提供參考和建議。

6.1 GRCDM具有很高的判準率

GRCDM 充分利用了連續得分的數據信息, 操作簡單, 便于理解、只需屬性層次關系和Q矩陣、無需估計參數、對樣本容量無依賴、耗時短、且具有較好的穩健性。模擬研究表明, 在每種試驗條件下(共36種), 重復30次試驗的平均PMR和MMR值均很高(PMR:95.35%; MMR:99%)。為進一步說明GRCDM的穩定性和適用性, 加入與前人研究相同條件下的比較(田偉和祝玉芳等人對等級反應模型的規則空間方法和AHM方法(包括A方法、B方法、LL方法)) (田偉, 辛濤, 2012; 祝玉芳, 丁樹良, 2009)。考慮到篇幅限制, 挑選線型條件來做比較(因在本研究中, 線型結構下的判準率較其他結構低, 而前人研究是線型條件下判準率更高)。與前人實驗條件相同:被試總分服從正態分布、人數為5000、屬性層次結構為線型(7題)、失誤率分別為2%、5%、10%、15%, 各實驗條件重復 30次, 結果見表23。

從表 23可以看出, 在與前人條件完全相同的情況下, 該方法的判準率表現出一定的優勢, 尤其是在失誤率增大的情況下, 該方法的模式判準率表現出了更好的穩定性, 然而其思路和方法卻比前人方法簡單, 因此該方法具有較強的適用性與穩定性,能夠滿足當前測驗改革的實踐情境, 實現對被試知識狀態的準確分類與診斷。

表23 GRCDM與前人方法的比較

6.2 GRCDM對樣本容量的依賴性較小

以往研究發現, 被試容量和題目容量對 PMR的影響較大, 研究者比較了這兩者對五大認知模型判準率的影響, 結果表明在100人/20題時, PMR值最高為 94.14%, 多數為73%左右, 最低才 34.75%,隨著被試容量或題目容量的增加, 如在 100人/100題時或5000人/60題時, PMR得到明顯改善(蔡艷,涂冬波, 丁樹良, 2013)。因此, 要提高判準率, 要么增大被試容量, 要么增大題目容量。然而, 本研究中的被試容量最大為2000、其次為500和100, 題目容量最多為25題, 模擬研究發現, 失誤率為5%和 10%時, 樣本容量不存在主效應, 且與其它因素也不存在交互效應, 這表明樣本容量的大小不會導致判準率的差異, 此時, 即使是100人, PMR和MMR在各層次結構中的最低值都達 94.9%。另外, 當失誤率為 20%時, 也僅發散型和無結構型下, 表現為2000人、500人的PMR值顯著高于100人, 其增幅最多也僅為7.82%, 500人與2000人差異并不顯著。可見, 該方法具有不依賴樣本容量的優勢, 100人與500人的樣本容量就能達到很高的判準率, 這為CDA走向小型測驗及課堂評估奠定了一定的基礎。

6.3 GRCDM對屬性層級的緊密性依賴較小

以往研究表明, 層次結構對判準率影響較大,屬性間邏輯關系越緊密, 判準率越高; 屬性間邏輯關系越松散, 判準率偏低(蔡艷等, 2013; 田偉, 辛濤, 2012)。本研究中, 屬性層次關系及其與樣本容量的交互作用對 PMR會產生影響, 但其影響的方向和強度不同。模擬研究發現, GRCDM在各層次關系下的MMR和PMR均很高(發散型、線型、無結構型、收斂型的 PMR依次為:99%、94.55%、94.54%、93.33%)。當考慮失誤率和樣本容量時, 在5%和 10%失誤率時, 發散型和無結構型(5%:99.98%、99.65%; 10%:99.76%、97.85%)下的PMR雖顯著高于線型和收斂型(5%:97.96%、97.4%;10%:95.76%、94.74%), 但差異量最多僅為5.02%,且與樣本容量無關; 當失誤率增加到 20%時, 各樣本容量下均為發散型表現最優(96.2%、97.35%、97.8%), 在小樣本容量(100人和500人)時, 無結構型稍差(81.47%、87.70%)。由此可見, GRCDM在各層次結構下具有較好的穩健性, 在失誤率不高的情況下, 尤其適用于發散型和無結構型, 且不受樣本容量影響; 隨著失誤率的增加, 若樣本容量能保持在500人以上, 該方法依然能保持較好的穩健性。

6.4 GRCDM在實踐中具有良好的內外部效度

為考察GRCDM在實踐中的適用性, 本研究對1240名學生在行程問題上的表現進行了評估。研究發現, 學生在 8個屬性上的掌握比例較高的是 A1和A2, 居中的是A3、A6, 相對較低的是A4、A5、A7、A8。在這些屬性中, A1、A2、A3測量的是基本計算、基本概念及多步運算, 作為高年級小學生理應較好的掌握; A5、A7和 A8為認知過程屬性,屬于認知技能, 本來難度就相對較大; A4雖為知識內容屬性, 但掌握 A4需以掌握較多屬性為前提,因此難度也較大。可見, GRCDM 所得各屬性的難度趨勢與屬性性質、屬性層次關系是相匹配的, 該方法具有較好的內部效度。利用學校類型作為外部校標, 對好中差學校學生的屬性通過率進行差異分析表明該方法具有較好的外部效度。當然, 后續研究還需通過多種方式收集外部效度證據。

6.5 研究展望

本研究雖然得到了一些有意義的結果, 但仍有地方需進一步完善。首先, 模擬研究中所得結果是在知識狀態為均勻分布時產生的, 盡管聚類分析法對原始數據的分布形態不作要求, 但被試知識狀態的分布會不會影響其判準率, 需進一步探討; 其次,在計算屬性合分時, 基于被試在每道題上的得分推測其各屬性的得分, 是采用屬性等權重的思想, 即有可能是A2或A4得分時, 各取0.50, 而實際上屬性難度會有不同, 如何基于屬性的先驗信息, 賦予不同屬性不同權重, 是后續關于屬性合分研究應考慮的問題; 最后, 后續還應關注GRCDM與其它參數或非參數方法的直接比較, 進一步考證其在診斷分類中的優越性, 以獲得更為直接可靠的結論。

7 結論

本文通過模擬和實證研究探討了 GRCDM 在CDA中的適用性, 得到以下結論:(1)該方法在 36種試驗條件下均表現出較高的PMR和MMR;(2)該方法對樣本容量依賴小, 可以適用于小型測評和課堂評估; (3)該方法在各屬性層次結構下, 其判準率均較高, 特別是在發散型和無結構型下, 也能達到很高水平, 這為解決判準率受層次結構緊密度影響的困境找到了一個突破口; (4)GRCDM在實踐情境中也同樣表現出較好的內外部效度。

Ayers, E., Nugent, R., & Dean, N. (2008, June). Skill set profile clustering based on student capability vectors computed from online tutoring data. In R. S. J. d. Baker, T.Barnes, & J. E. Beck (Eds.), Educational data mining 2008:Proceedings of the 1st International Conference on Educational Data Mining (pp. 210–217). Retrieved from http://www.educationaldatamining.org/EDM2008/.

Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061–1071.

Cai, Y., Tu, D. B., & Ding, S. L. (2013). A simulation study to compare five cognitive diagnostic models. Acta Psychologica Sinica, 45(11), 1295–1304.

[蔡艷, 涂冬波, 丁樹良. (2013). 五大認知診斷模型的診斷正確率比較及其影響因素: 基于分布形態, 屬性數及樣本容量的比較. 心理學報, 45(11), 1295–1304.]

Chiu, C.-Y., & Douglas, J. (2013). A nonparametric approach to cognitive diagnosis by proximity to ideal response patterns. Journal of Classification, 30(2), 225–250.

Chiu, C.-Y., Douglas, J. A., & Li, X. D. (2009). Cluster analysis for cognitive diagnosis: Theory and applications.Psychometrika, 74(4), 633–665.

De La Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis. Psychometrika, 69(3),333–353.

Fu, J., & Li, Y. (2007). Cognitively diagnostic psychometric models: An integrative review. Paper presented at the annual meeting of the National Council on Measurement in Education, Chicago, IL.

Hartz, S. M. (2002). A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality. 63, ProQuest Information & Learning, US.Retrieved from http://search.ebscohost.com/login.aspx?direct=true&db=ps yh&AN=2002-95016-234&lang=zh-cn&site=ehost-live Available from EBSCOhost psyh database.

Henson, R., Templin, J., & Douglas, J. (2007). Using efficient model based Sum-scores for conducting skills diagnoses.Journal of Educational Measurement, 44(4), 361–376.

Hu, Z. J. (Ed.). (2010). Psychological statistics. Beijing, China:Higher Education Press.

[胡竹菁. (2010). 心理統計學. 北京: 高等教育出版社.]

Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258–272.

Kang, C. H. (2011). Cognitive diagnostic assessment on primary school students' arithmetic word problem solving (Unpublished doctorial dissertation). Beijing Normal University.

[康春花. (2011). 小學數學應用題問題解決的認知診斷研究(博士學位論文). 北京師范大學.]

Kang, C. H., Xin, T., & Tian, W. (2013). Development and validation of diagnostic test for primary school arithmetic word problems. Examinations Research, (6), 24–43.

[康春花, 辛濤, 田偉. (2013). 小學數學應用題認知診斷測驗編制及效度驗證. 考試研究, (6), 24–43.]

Kim, S., Walker, M. E., & McHale, F. (2010). Investigating the effectiveness of equating designs for constructed-response tests in large-scale assessments. Journal of Educational Measurement, 47(2), 186–201.

Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's Rule-space approach. Journal of Educational Measurement, 41(3), 205–237.

Luo, H., Ding, S. L., Wang, W. Y., Yu, X. F., & Cao, H. Y.(2010). Attribute hierarchy method based on graded response model with different scoring-weight for attributes.Acta Psychologica Sinica, 42(4), 528–538.

[羅歡, 丁樹良, 汪文義, 喻曉鋒, 曹慧媛. (2010). 屬性不等權重的多級評分屬性層級方法. 心理學報, 42(4), 528–538.]

Nugent, R., Ayers, E., & Dean, N. (2009, July). Conditional subspace clustering of skill mastery: Identifying skills that separate students. In T. Barnes, M. Desmarais, C. Romero,& S. Ventura (Eds.), Educational Data Mining 2009:Proceedings of the 2nd International Conference on Educational Data Mining (pp. 101–110). Retrieved from http://www.educationaldatamining.org/EDM2009/.

Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement, 20(4), 345–354.

Tian, W., & Xin, T. (2012). A polytomous extension of rule space method based on graded response model. Acta Psychologica Sinica, 44(1), 249–262.[田偉, 辛濤. (2012). 基于等級反應模型的規則空間方法.心理學報, 44(1), 249–262.]

Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2010). A polytomous cognitive diagnosis model: P- DINA model.Acta Psychologica Sinica, 42(10), 1011–1020.

[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2010). 一種多級評分的認知診斷模型: P-DINA 模型的開發. 心理學報, 42(10),1011–1020.]

Zhu, Y. F., & Ding, S. L. (2009). A polytomous extension of attribute hierarchy method based on graded response model.Acta Psychologica Sinica, 41(3), 267–275.

[祝玉芳, 丁樹良. (2009). 基于等級反應模型的屬性層級方法. 心理學報, 41(3), 267–275.]

猜你喜歡
方法研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
學習方法
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 久久国产香蕉| 国产色图在线观看| 四虎永久在线| 九九九精品成人免费视频7| 真实国产乱子伦高清| 丁香婷婷综合激情| 国产麻豆另类AV| 亚洲区视频在线观看| 精品国产免费观看一区| 日韩无码真实干出血视频| 亚洲人成网站色7799在线播放| 亚洲天堂精品视频| 国产亚洲精品自在久久不卡| 99re经典视频在线| 97在线国产视频| 国产成人久视频免费| 日韩av无码DVD| 亚洲国产成人超福利久久精品| 亚洲第一中文字幕| 亚洲国产亚综合在线区| 第九色区aⅴ天堂久久香| 成人日韩精品| 亚洲精品桃花岛av在线| 国产特级毛片| 国产女人爽到高潮的免费视频| 国产精品区视频中文字幕| 亚洲精品午夜天堂网页| 日韩av手机在线| 欧美人与动牲交a欧美精品| 999福利激情视频| 女高中生自慰污污网站| AV在线天堂进入| Aⅴ无码专区在线观看| 囯产av无码片毛片一级| 人人爽人人爽人人片| 精品无码人妻一区二区| 国产精品冒白浆免费视频| 99久久成人国产精品免费| 综合色在线| 国产爽妇精品| 国产91在线|日本| 日韩精品专区免费无码aⅴ| 欧美日韩午夜视频在线观看| 2020国产免费久久精品99| 亚洲电影天堂在线国语对白| 国产第八页| 国产成人1024精品| 国产丝袜精品| 色国产视频| 香蕉综合在线视频91| 凹凸精品免费精品视频| 五月婷婷伊人网| 国产草草影院18成年视频| 98精品全国免费观看视频| 91原创视频在线| 久操中文在线| 国产日韩丝袜一二三区| 九九免费观看全部免费视频| 毛片免费观看视频| 亚洲AV成人一区国产精品| 丰满的少妇人妻无码区| 欧美区一区| 国产人人射| 国产乱子伦手机在线| 国产91无码福利在线| hezyo加勒比一区二区三区| 日韩欧美国产综合| 欧美性色综合网| 午夜激情婷婷| 国产精品无码AⅤ在线观看播放| 天堂在线亚洲| 一区二区三区四区精品视频| 国产a在视频线精品视频下载| 精品国产91爱| 波多野结衣国产精品| 国产亚洲精品在天天在线麻豆| 亚洲精品无码成人片在线观看 | 中文字幕一区二区人妻电影| 亚洲va精品中文字幕| 国内精品久久久久久久久久影视| 就去色综合| 国产麻豆va精品视频|