999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多維題組效應認知診斷模型

2015-02-06 02:28:20詹沛達李曉敏王文中邊玉芳王立君
心理學報 2015年5期
關鍵詞:效應模型研究

詹沛達 李曉敏 王文中 邊玉芳 王立君

(1浙江師范大學心理系,金華 321004) (2北京師范大學認知神經科學與學習國家重點實驗室,北京 100875)(3香港教育學院評估研究中心,香港)

1 引言

認知診斷評估(cognitive diagnostic assessment,CDA)不僅有助于人們更深入地了解隱藏在學生總分背后的認知結構、加工技能和認知過程之間的差異,還能提供該學生的認知診斷報告和補救性教學建議,對學生個體的發展起到了積極的促進作用。要對學生的內部心理加工過程進行測量、診斷和評估就需要認知診斷模型(cognitive diagnostic models,CDM)。常見的CDM有DINA模型(Haertel,1989;Junker &Sijtsma,2001)、DINO模型(Templin &Henson,2006)、LCDM (Henson,Templin,&Willse,2009)等。與此同時,在實際心理或教育測驗中也經常出現多個項目共用相同刺激(stimulus)的情況(如:篇章閱讀題型),這種受共同刺激影響和制約的項目集合通常被稱為題組(testlet) (Wainer &Kiely,1987)。使用題組可以節約考生閱讀材料的時間,提高測驗的效率,提供邏輯關系更強的材料(DeMars,

2006;Wainer,Bradlow,&Wang,2007;Huang &Wang,2013;詹沛達,王文中,王立君,李曉敏,2014)。目前,如 TOEFL、GRE、PISA、PIRLS等大型測驗均涉及了大量的題組,對題組進行研究的必要性日顯重要。當測驗存在題組時,由于嵌在題組內的項目共用相同的題組刺激,這時題組項目反應間就存在一定的相依性,即相依于題組效應。為了合理有效地處理題組效應,研究者們也開發出了一系列題組反應模型(testlet response models,TRM),如:Rasch題組模型(Wang &Wilson,2005)、廣義題組模型(Li,Bolt,&Fu,2006)、高階題組模型(Huang &Wang,2013)等。

Rupp和Templin (2007)曾指出當前認知診斷領域還缺少對包含題組的測驗進行診斷分析的研究。可以說,目前CDM和TRM仍處于相互獨立的開發階段,即已開發的 CDM 無法有效處理含有題組效應的測驗數據,且已開發的 TRM 不具有對被試知識結構或認知過程進行診斷的功能。因此,開發出一種既具有認知診斷功能的又能有效處理題組效應的項目反應模型仍是很有必要的且值得研究的。對此,本文把具有認知診斷功能的線性 Logistic模型(LLM) (Maris,1999)和多維題組效應Rasch模型(MTERM) (詹沛達等,2014)相結合,首先提出了一種假設認知屬性間具有補償作用的多維題組效應認知診斷模型(compensatory multidimensional testleteffect CDM,C-MTECDM),并在此基礎上,提出了另一種假設認知屬性間具有非補償作用多維題組效應認知診斷模型(noncompensatory multidimensional testleteffect CDM,N-MTECDM),之后根據C-MTECDM、N-MTECDM和已有TRM的共同點,提出了更一般的 Logistic題組框架(Logistic testlet framework,LTF),以期找到一種可以有效解決該問題的方法。

2 多維題組效應認知診斷模型的開發

2.1 題組效應及多維題組效應模型簡介

題組效應是指當被試對題組項目的反應依賴于被試對題組刺激的整體認知時,項目反應間存在的一種相依性。即題組效應是一種測驗目標潛在特質(潛質)以外的影響項目反應的潛質(詹沛達,王文中,王立君,2013)。那么將題組效應引入CDA后,就可將其理解為一種測驗目標屬性(即Q矩陣所包含的屬性)以外的影響項目反應的潛質。

詹沛達等(2014)將題組效應劃分為項目內單維題組效應和項目內多維題組效應,如圖1所示,進而提出了MTERM,其中二級評分的MTERM可描述為(log-odds,下同):

詹沛達等(2014)指出 MTERM 更具普適性,即便當作答數據不存在題組效應或只存在項目內單維題組效應,采用該模型簇進行測驗分析也能得到較好的參數估計結果。因此,使用多維題組效應向量參數而不是單維題組效應參數可以提高新模型的適用范圍。

圖1 項目內單維/多維題組效應示意圖。θ表示被試能力,γ表示題組效應,□表示項目

2.2 Q矩陣及LLM簡介

CDM與Q矩陣(Tatsuoka,1985)是CDA的兩個重要組成部分。首先,Q矩陣是連接項目與屬性的紐帶,通常Q矩陣(

I

×

K

,其中

I

表示項目數量,

K

表示屬性數量)是由數值 0與 1所組成的,它的元素

q

界定了項目

i

與第

k

個屬性間的關系,若

q

=1表示項目

i

考查了第

k

個屬性,反之為

q

=0。另外,對比式(4)與式(2)后可發現,U矩陣與Q矩陣的功能類似,差異僅在于Q矩陣用于界定項目與屬性之間的關系,而U矩陣用于界定項目與題組效應之間的關系。

式中,

P

1和

P

含義同上;

α

為被試

n

對第

k

個屬性的掌握情況,有

α

∈ {0,1};

q

為項目 i對第

k

個屬性的考查情況,有

q

∈ {0,1};

λ

為項目

i

的截距,exp (

λ

)/[1+exp (

λ

)]用于描述正確作答項目

i

的基線概率;

λ

為項目

i

中屬性

k

的權重(即

λ

≥0),用于描述掌握屬性

k

對正確作答項目

i

的概率的對數發生比的增量;

LLM是一種補償(compensatory)模型,其假設被試掌握任一項目所考查的屬性均會增加其正確作答的概率,且這種貢獻與掌握其他屬性所產生的貢獻相獨立。

2.3 多維題組效應認知診斷模型

2.3.1 補償型多維題組效應認知診斷模型

為解決在 CDA中實現對含有題組效應的數據的有效處理,本文首先將MTERM和LLM相結合,提出一種假設各認知屬性對正確作答概率(的對數發生比)有補償作用的 CDM,其項目反應函數可描述為:

2.3.2 非補償型多維題組效應認知診斷模型

在CDM中,除了補償模型外還有一類較為常見的非補償模型,如:DINA模型、NIDA模型等。通常在非補償模型中,當且僅當被試掌握項目所考查的全部目標屬性時才有較高的正確作答概率。此時,可將 C-MTECDM 中用于描述屬性的“連加模塊”改變為“連乘模塊”,則有:

進而有:

除對屬性掌握模式與項目反應關系間的描述存在差異外,N-MTECDM仍保持與C-MTECDM一致的特性:(1)采用logit聯接函數;(2)假設題組效應為連續潛質;(3)各題組效應間滿足正交結構。

2.4 Logistic題組框架

上文共提出了兩種具有認知診斷功能的題組模型,它們之間的差異在于對屬性掌握模式與項目反應關系間的描述不同。其實,在觀察 MTERM、Rasch題組模型、C-MTECDM、N-MTECDM以及雙參數題組模型(Bradlow,Wainer,&Wang,1999)和高階題組模型(Huang &Wang,2013)等后可發現,它們之間的主要差異也僅在于對潛變量的描述方式不同,如圖2。

圖2 logit聯接函數下各題組反應模型的聯系與區別

即它們均可被視為由3個模塊組成,則可將它們統一描述為:

式(12)可被稱為Logistic題組框架(LTF),其中,

模塊 2 “

testlet effects

”或

v

(·)是 LTF 中用于描述項目反應中的題組效應(非目標潛質),目前包括較常見的項目內單維題組效應參數和更具普適性項目內多維題組效應向量參數。研究者也可根據實際情況對題組效應添加區分度參數。通常假設題組效應與目標潛在特質之間不存在交互作用(DeMars,2006;Wang &Wilson,2005;Huang &Wang,2013;詹沛達,2014),因此在LTF中模塊1與模塊2是求和(補償)關系。模塊 3 “

intercept

”或

λ

的含義與潛變量的類型有關。通常,當潛變量為連續變量時,

λ

用于描述項目特征曲線拐點所對應的橫坐標,此時

λ

可被稱為項目定位參數或難度參數;而當潛變量為類別變量時,exp (

λ

)/[1+exp (

λ

)]可用于描述正確作答項目

i

的基線概率,此時

λ

可被稱為截距參數。

為探究 C-MTECDM和 N-MTECDM的性能,本文將包含2個研究,研究1的主要目的是對兩個模型進行參數返真性檢驗,以期檢驗參數估計方法是否能夠提供較好的參數估計結果;研究2中分別將C-MTECDM和N-MTECDM與忽略題組效應的CDM 進行了對比研究,以期向讀者展示忽略題組效應對測驗分析結果所帶來的危害。

3 參數估計

本研究使用基于 MCMC算法的 WinBUGS(version 1.4,Spiegelhalter,Thomas,&Best,2003)進行參數估計,設定每種實驗條件進行

R

=10次循環以期減小隨機誤差,這與其他一些使用 MCMC算法的研究類似(e.g.,Li et al.,2006;Huang &Wang,2013;詹沛達,2014),每次循環設定鏈數為 3,每條鏈中迭代5000次并預熱(burn-in)前2000次迭代結果,取后 3000次迭代結果的平均數為該鏈的參數估計結果,最后取3條鏈的估計結果的平均值作為該循環的估計結果(各參數估計均收斂)。設定待估計參數的先驗分布滿足:

λ

U

(–3,3)、

λ

U

(0,5)、

λ

U

(0,5)、

α

Bernoulli

(0.5)、γ~

MVN

(0,Σ)。根據條件獨立假設或廣義局部獨立假設(詹沛達等,2013)有聯合后驗分布為:

則各參數的滿條件分布為:

進而,MCMC算法的抽樣過程如下,

t

為迭代次數:(1) γ參數,γ從多元正態分布

MVN

(γ,Σ)中隨機抽取,轉移概率為:

(2) Σ,多維題組效應協方差矩陣(Σ)從

M

維逆Wishart分布

W

[R,

M

]中直接抽取,R為

M

階單位矩陣,(3) α 參數,

α

從建議分布

Bernoulli

(0.5)中隨機抽取,轉移概率為:

(4) λ參數,λ從建議分布

N

(λ,1),轉移概率為:

4 研究1

4.1 研究設計

4.1.1 Q矩陣與U矩陣的設定

本研究設定考查屬性個數為

K

=4,題目數

I

=30,則Q矩陣見表1。并設定該模擬測驗包含3個篇章閱讀:第1篇包含第1題~第10題、第2篇包含第11題~第20題、第3篇包含第21題~第30題,且存在交叉分類結構(crossed classification structure,即項目反應受到項目內多維題組效應影響),則 U矩陣的設定同見表1。

4.1.2 項目參數、題組效應與被試屬性掌握模式的設定

本研究采用R軟件(version 3.0.2,http://www.rproject.org)自編程序來實現數據模擬。

表1 Q矩陣與U矩陣

考慮到 MTECDM 的復雜性(同時包含潛在類別變量和潛在連續變量)和Q矩陣的設定(共包含8個維度潛變量),根據已有關于多維項目反應模型的研究(e.g.,Ackerman,1994;Yao &Boughton,2007)可推斷出欲對MTECDM實現較精準參數估計很可能需要較大的樣本量。因此設定 3個樣本容量(1600、3200和4800)以期探究MTECDM的參數估計返真性,具體設定方法為:目標屬性數

K

=4,即共有2=16種屬性模式,設定每種屬性模式人數分別為100、200和300人。4個題組效應滿足多元正態分布

MVN

(0,Σ),其中對角陣:

4.2 模擬作答

模擬作答時,首先根據參數“真值”和所選用的模型來計算被試

n

在項目

i

上的正確作答概率

P

。其次生成一個隨機數

r

(0≤

r

≤1),則得分被定義為:

4.3 評價指標

采用平均偏差

Bias

、均方根誤差

RMSE

和相對偏差的絕對值(the absolute value of relative bias,

ARB

)作為項目參數和題組效應參數返真性的評價指標:

采用屬性判準率(attribute correct classification rate,

ACCR

)和屬性屬性模式判準率(pattern correct classification rate,

PCCR

)作為屬性參數返真性的評價指標:

式中,

N

為樣本容量,

K

為屬性個數,

am

=1表示第

r

次循環中對被式

n

的第

k

個屬性判斷正確,

pm

=1表示第

r

次循環中被試

n

的掌握模式α判斷正確。被試反應模擬及參數估計共循環

R

次以減小實驗誤差。

4.4 研究1結果與結論

研究1的結果見表2~表3和圖3。其中,表2給出了研究1中

ACCR

PCCR

指標值,用于反映兩個模型對目標屬性的返真性。

表2 研究1中ACCRPCCR指標值

表3 研究1中對C-MTECDM的參數估計的返真性

注:為減少篇幅僅列出部分參數估計結果。

對于 C-MTECDM,當樣本量為 1600時,其 5個屬性的

ACCR

指標值分別為0.984、0.989、0.988和0.988,且

PCCR

指標值為0.958;當樣本量增加至 3200時,其 5個屬性的

ACCR

指標值分別為0.988、0.990、0.986、0.988和 0.988,且

PCCR

指標值為 0.960;當樣本量增加至 4800時,

ACCR

PCCR

增幅較小。這說明C-MTECDM具有認知診斷功能,且判準率較高。而對于N-MTECDM,當樣本量為1600時,其5個屬性的

ACCR

指標值分別為 0.992、0.993、0.989、0.989,且

PCCR

指標值為 0.970。同樣,

ACCR

PCCR

也會隨著樣本量的增加而增加,這同樣說明N-MTECDM具有認知診斷功能。表3給出了研究1中C-MTECDM的題組效應參數方差、截距參數和屬性權重參數的返真性。當樣本量為1600時,題組效應參數方差的

Bias

指標值介于[–0.03 0.05]之間,

RMSE

指標值介于[0.07,0.10]之間,

ARB

指標值介于[0.01,0.04]之間均小于0.05,

SD

介于[0.07,0.11]之間;30個項目的截距參數的

Bias

指標值的平均值為0.04,

RMSE

指標值平均值為0.15,

ARB

指標值平均值為0.04,

SD

的平均值為0.15;60個屬性權重參數的

Bias

指標值的平均值為0.04,

RMSE

指標值平均值為0.15,

ARB

指標值平均值為0.04,

SD

平均值為0.15。另外,表中已經將

ARB

指標值大于0.05的結果(表示該估計結果不可被接受)以粗體形式標記出,可以看出當樣本量為1600時,不可接受的參數估計結果數為21個且主要集中在后面考查3個屬性的題目的屬性權重參數上,表明每個題目所考查的屬性個數會影響C-MTECDM 的參數估計結果;隨著樣本量的增加,各個參數的估計精準度和穩定性均有所提升,當樣本量提升至 3200時,不可接受的參數估計結果數為3;當樣本量增加至4800時,參數估計的返真性表現更好,但增幅小于樣本量從 1600增加至 3200時的增幅。因此欲實現C-MTECDM較為精準的參數估計,在與本研究研究條件相似的情況下,建議樣本數量不低于3000。表4給出了研究1中N-MTECDM的題組效應參數方差、截距參數和屬性權重參數的參數估計返真性。與C-MTECDM類似,4個評價指標值均隨著樣本量的增加而減小,即返真性隨著樣本量的增加而提高。根據

ARB

指標值,當樣本量為1600時不可接受的參數估計值數量僅為3個,因此欲實現對N-MTECDM 較為精準和穩定的參數估計,在與本研究研究條件相似的情況下,建議樣本數量不低于1500。同樣可發現前 30個截距參數的估計返真性普遍高于后面的屬性權重參數的估計返真性。

根據上述結果可知,(1)當樣本量足夠大時,參數估計程序可為C-MTECDM和N-MTECDM提供較精準和穩定的參數估計;(2)C-MTECDM 與N-MTECDM 均具有認知診斷功能,且均可有效處理題組效應。此外,當樣本量為 4800時,C-MTECDM和N-MTECDM均有很好的參數估計結果,這為研究2進行模型對比提供了前提保障。

5 研究2

5.1 研究設計

研究2用于進行模型對比,即為讀者呈現當作答數據包含題組效應時,使用不包含題組效應參數的LLM和(logit)DINA模型去進行數據分析所帶來危害;以及當作答數據不包含題組效應時,使用MTECDM 去進行數據分析會得出什么結果。為簡化研究,研究2所用Q矩陣、U矩陣、項目參數、題組效應與被試屬性掌握模式等的設定均與研究1保持一致。

5.2 模擬作答以及評價指標

被試模擬作答以及評價指標與研究1大體一致,所不同的是:(1)在模擬作答時,當作答數據包含題組效應時,會使用MTECDM作為真實模型去生成作答數據;而當作答數據不包含題組效應時,會使用LLM或(logit)DINA模型作為真實模型去生成作答數據;(2)樣本容量均設定為4800;(3)在研究2中還 添 加 了 –2

log-likelihood

(–2

LL

)、

AIC (

Akaike,1974)、

BIC (

Schwarz,1978)這3個相對評價指標:

(27)式中,

L

為似然函數,

d

為所采用模型估計參數的個數,

N

為被試樣本量。這3個指標值越小表明模型-數據擬合越好。

表4 研究1中對N-MTECDM的題組效應參數方差與截距參數的返真性

5.3 研究2結果與結論

研究2結果見表5和表6。其中,表5給出了LLM和C-MTECDM之間的對比結果,當真實模型為LLM時(即作答數據不包含題組效應),兩個模型均有較好的參數返真性,且從各評價指標看,兩者分析的結果間幾乎無差異,至于為什么 C-MTECDM比LLM的

AIC

BIC

指標值還略小,這可能是由于模擬研究中的隨機誤差造成的(e.g.,4.2中模擬作答過程),而題組效應參數正是為了處理題組效應這一誤差項而添加的;而當真實模型為 C-MTECDM時(即作答數據包含題組效應),僅有 C-MTECDM具有較好的參數返真性,而 LLM 無論對項目參數還是目標屬性的返真性均較差。此時,C-MTECDM的-2

LL

、

AIC

BIC

指標值也顯著小于LLM的,說明LLM對該作答數據的擬合度較差。表6給出了(logit)DINA和N-MTECDM之間的對比。實驗結果和結論與上文類似,但與表4中結果不同的是,當使用(logit)DINA去分析含有題組效應的數據時,雖然參數估計偏差大、精確度低,但卻有較好的穩定性。這或許也是因為C-MTECDM中

h

(·)的復雜性高于N-MTECDM中的

h

(·),所以導致在提供同等信息量的情況下 CMTECDM的參數估計返真性會低于N-MTECDM的,而又因為這兩種模型對認知屬性對正確作答概率貢獻方式假設的不同,所以并不具有直接可比性,研究者需要根據不同的測驗情境去選用適合的模型。

綜上所述,(1)當作答數據含有題組效應時,采用忽略題組效應的LLM和(logit)DINA模型會導致項目參數的偏差估計并降低對目標屬性的判準率,且(logit)DINA模型的參數估計穩定性高于LLM;(2)相對于LLM和(logit)DINA而言MTECDM更具普適性,即便當作答數據不存在題組效應時,測驗分析采用MTECDM也能得到很好的參數估計結果。

表5 兩個補償模型(LLM與C-MTECDM)之間的對比

表6 兩個非補償模型((logit)DINA與N-MTECDM)之間的對比

max –0.30

主站蜘蛛池模板: 国产一区二区三区日韩精品 | 国产激爽爽爽大片在线观看| 99无码熟妇丰满人妻啪啪| 最新国产成人剧情在线播放| 国产日本视频91| 视频一本大道香蕉久在线播放| 国产精品免费福利久久播放| 欧美一级在线| 伊人成人在线| 亚洲日韩精品综合在线一区二区| 黄色一及毛片| 欧洲亚洲一区| 91丝袜在线观看| 欧美啪啪精品| 性视频一区| 中文字幕资源站| 国产丝袜精品| 香蕉久久国产精品免| 国产特级毛片| 全午夜免费一级毛片| 国产精品开放后亚洲| 亚洲91精品视频| 国产男女免费视频| 国产喷水视频| 热九九精品| 日本精品视频一区二区| 日本AⅤ精品一区二区三区日| 久久亚洲中文字幕精品一区| 色视频久久| 国产精品自在线拍国产电影| 国国产a国产片免费麻豆| 五月天天天色| 欧美精品v欧洲精品| 国内精品自在欧美一区| 久久亚洲国产视频| 亚洲男人的天堂久久精品| 欧美日本在线观看| 日韩视频福利| 亚洲熟女偷拍| 亚洲日韩久久综合中文字幕| 国产精品福利尤物youwu| 亚洲第一区在线| 456亚洲人成高清在线| 精品久久久无码专区中文字幕| 国产又粗又爽视频| 少妇人妻无码首页| 91在线精品麻豆欧美在线| a毛片免费观看| 精品视频在线一区| 国产成人亚洲精品无码电影| 毛片久久网站小视频| 漂亮人妻被中出中文字幕久久 | 在线观看亚洲成人| 国产日韩AV高潮在线| 狂欢视频在线观看不卡| 国产一级做美女做受视频| 中文一区二区视频| 小说 亚洲 无码 精品| 亚洲精品在线观看91| 91精品国产一区| 国产三级国产精品国产普男人 | 一级毛片免费观看久| 爽爽影院十八禁在线观看| 国产高颜值露脸在线观看| 毛片免费网址| 996免费视频国产在线播放| 少妇精品在线| 成人中文在线| 美女一级免费毛片| 亚洲色成人www在线观看| 日韩在线中文| vvvv98国产成人综合青青| 久久精品免费国产大片| 午夜视频在线观看区二区| 日韩精品久久无码中文字幕色欲| 精品无码一区二区三区电影| 在线精品视频成人网| 国产91小视频| 国产免费a级片| 真人免费一级毛片一区二区| 国产精品刺激对白在线| 五月天丁香婷婷综合久久|