999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多維計算機化自適應測驗:模型、技術和方法*

2015-02-01 03:47:54毛秀珍
心理科學進展 2015年5期
關鍵詞:測量方法能力

毛秀珍 辛 濤

(1四川師范大學教育科學學院, 成都 610066) (2北京師范大學發展心理研究所, 北京 100875)

1 引言

多維項目反應理論(multidimensional item response theory, MIRT)引入多維能力、多維項目區分度以及多個步驟難度參數模擬測驗項目和被試間的相互作用, 采用概率模型來表征具有特定多維能力水平的被試正確答對特定項目的概率(Reckase, 2009)。一方面, MIRT能同時估計被試在測驗每個維度上的能力水平, 實現測驗的認知診斷功能(Zhang & Stone, 2008)。于是, MIRT的應用順應了從 2001年美國法案“No Child Left Behind” (NCLB)到 2011“Race to the top”早期學習挑戰經費的設立, 再到我國《國家中長期教育改革和發展規劃綱要(2010?2020)年》對教育認知診斷功能的要求。另一方面, MIRT比項目反應理論(item response theory, IRT)更適用于分析許多新形式的測驗如認知診斷測驗、公務員考試、表現性評估以及寫作測驗的項目和被試特征(van der Linden & Hambleton, 1997)。例如, Yao和Schwarz(2006)運用 MIRT分析五年級學生寫作測驗的二維結構和項目特征; 涂冬波、蔡艷、戴海琦和丁樹良(2011)運用 MIRT獲得瑞文高級推理測驗的項目參數和被試的能力水平; 張軍(2011)運用MIRT分析漢語水平考試(HSK)閱讀部分的潛在多維度結構; 許志勇、丁樹良和鐘君(2013)應用MIRT分析2010年某省市高考數學理工試卷考查的五個能力維度, 并獲得各維度之間的相關系數和考生的多維能力水平。由此可見, MIRT具有廣闊的應用前景,是現代心理測量學的重點研究方向。

計算機化自適應測驗(computerized adaptive testing, CAT)的核心是基于被試在已作答項目上的反應估計其能力水平, 然后根據選題策略從剩余題庫中選擇最適合被試作答的項目施測被試,重復上述步驟直到測驗結束。它包括采用的項目反應模型、題庫、初始項目的選擇、選題策略、能力估計方法和測驗終止規則幾個部分。根據CAT采用的測量模型, 可將其劃分為基于IRT的單維CAT (unidimensional CAT, UCAT); 基于MIRT的多維 CAT (multidimensional CAT, MCAT)以及以認知診斷理論為基礎的認知診斷 CAT (cognitive diagnostic CAT, CD-CAT)。

MCAT與UCAT相比, 除了能同時分析被試在測驗每個維度上的表現獲得更多診斷信息外,它還具有如下優點。第一, Segall (1996)和Luecht(1996)研究表明, 在達到相同甚至更高測量精度時, MCAT需要的項目比UCAT少1/3左右。第二,Frey和Seitz (2011)指出只有MCAT可用于多維測驗, UCAT不能用于這類測驗。第三, MCAT不需要內容平衡策略就能自動滿足各個內容領域的測量要求(Wang, Chang, & Boughton, 2011)。另外,雖然 MCAT提供的診斷信息不及 CD-CAT豐富,但它與CD-CAT相比具有以下特點。第一, MCAT有成熟的、可適用于二級和多級評分項目的反應模型(Reckase, 2009), CD-CAT還將在一定時期內受到多級評分項目認知診斷模型研究的限制而局限于二級評分項目的研究。第二, MCAT根據數據與模型的擬合度分析測驗維度, 而不需要分析表征項目與屬性間關系的Q矩陣(這正是認知診斷評估的難點之一)。第三, MCAT中每個維度涵蓋的內容通常比CD-CAT中屬性包含的內容更多。一般地, 測驗考查的屬性越多, CD-CAT的測量準確性越低。因此, MCAT適用范圍比CD-CAT更廣。

MCAT兼具MIRT和CAT的優點, 其在實踐中突顯了測驗的高效、快捷和診斷功能, 必將成為研究者關注的重點內容之一。自Bloxom和Vale(1987)將UCAT推廣到多維以來, MCAT的相關研究在最近幾年才有了突破性進展。下面分別對MCAT的模型基礎、能力估計方法、選題策略和終止規則進行介紹和評價, 然后對今后的研究方向提出幾點思考和建議。

2 MCA T的模型基礎

測量模型貫穿CAT的始終, 決定分數報告的形式也是影響測評結果準確性和有效性的重要因素之一。根據項目記分方式可將多維項目反應模型(multidimensional item response model, MIRM)劃分為二級評分項目反應模型和多級評分項目反應模型; 按完成任務時某一能力維度上的不足是否可以被其它優勢能力所補償可將MIRM分為補償和非補償模型。Bolt和Lall (2003)指出(1)非補償模型產生的數據, 補償模型和非補償模型具有相似擬合度; (2)由補償模型產生的數據, 非補償模型的擬合度不高。于是, 本文僅討論補償MIRM。

2.1 二級評分項目的MIRM

針對二級評分項目, 下面主要介紹 logistic MIRM 和正態肩形 MIRM。另外, 全文中同一字母的含義相同, 且僅在首次出現時給予說明。

2.1.1 logi stic MIRM

假設測驗考查M個能力維度。向量標量和ci分別表示項目i的區分度、斜率(截距)參數以及猜測參數, 且T表示轉置。那么, 能力為的被試p正確作答項目i的概率用三參數 logistic MIRM(multidimensional extension of three-parameter logistic model, M3PL)表示如下(Reckase, 1985):

此外, MIRT還定義原點到項目反應曲面上點的連線中的最大斜率值為多維項目區分度(multidimensional discrimination, MDISC),用以評價項目的整體區分度; 原點到項目反應曲面上點的連線中具有最大斜率的點之間的距離Bi表示多維項目難度(multidimensional difficulty,MDIFF), 且

2.1.2 正態肩形MIRM

正態肩形 MIRM 的一般形式是(Samejima,1974):

2.2 多級評分項目的MIRM

2.2.1 Rasc h模型的多維推廣

將Rasch模型推廣到多維能力空間沒有logistic模型的推廣那么容易。因為, 如果 M2PL中的各個分量等于 1, 則于是,除能力參數等于各個維度能力值之和外, 它和Rasch模型沒有任何區別。Adams, Wilson和Wang(1997)推廣了Adams和Wilson (1996)提出的廣義Rasch模型, 得到適用于二分和多分項目的多維廣義Rasch模型, 又稱為多維隨機系數多項logit模型(multidimensional random coefficient multinomial logit model, MRCMLM) (Wang, 2014b)。Kelderman和 Rijkes (1994)還給出另一個非常相似的多分Rasch MIRM。假設項目i的個反應類別分別對應的得分為0,1,..,Ki, 被試p在項目i上得k(0,1,...,Ki)分的概率用MRCMLM表示為:

其中,M維列向量表示第i題第k+1個反應類別上的計分向量, 它反映影響項目i得k分的能力維度; 列向量稱為第i題在第k+1個反應類別的設計向量; 列向量表示試題參數向量。的行數與的行數相等, 等于所有項目的Ki之和。舉例來說, 若一份測驗包含2個項目考查2個維度。其中, 第一題是二級計分項目, 考查第一個能力維度。第二題有三種反應類別, 得1分受到第二個能力維度的影響, 于是得2分受到兩個能力維度的影響, 則因此,對第二個項目第2個反應類別而言, 有通過(4)式即可求被試p在第2題得1分的概率。更多參數設置的例子請參見許志勇等(2013)。特別地, 對二分項目中k=0時, (4)式分母對應的指數部分等于1。于是,對二級評分項目的多維Rasch模型表示如下:

2.2.2 多維分部評分模型(multidimensional partial credit model, MPCM)

如果項目各個維度的區分度不相等, 被試p在項目i上得k(k=0,1,...,Ki)分的概率可用多維兩參數分部評分模型(multidimensional two parameter partial credit model, M-2PPC)計算(Yao & Schwarz,2006)。M-2PPC的模型表達式為:

上式中δiu(u=0,1,...,Ki)表示得u分的閾值參數, 且。此外, 他們還推導了M-2PPC模型中項目難度、區分度以及信息量的計算方法, 為該模型的廣泛應用奠定了基礎。

2.2.3 多維等級反應模型(multidimensional grade d response model, MGRM)

當完成項目i需要多個步驟, 并且完成第k步需要完成前面k-1步時, 一般用MGRM模擬正確作答概率。令得分大于等于分的概率為于是且那么被試恰好得k分的概率表示為:

Muraki和 Carlson (1993)采用正態肩形模型得到其中標量被定義為被試達到第k個等級的類別參數, 它表示被試答對第k步的“難度參數”,等級越高, 其值越大, 且和只有從數據估計而得。為避免積分運算的復雜性, 杜文久和肖涵敏(2012)用logistic函數表示得到 logistic形式的MGRM。他們還以二維 MGRM 為例分析其數學函數圖象和性質并推導項目信息函數的計算。

2.3 MIRM簡評

大部分 MIRM 直接從對應項目反應模型(item response model, IRM)推廣而得, 具有類似于IRM的特點。例如(5)式所示的二分MRCMLM模型中能力的充分統計量是對被試在每個項目i(i=1,2,...,L,L表示被試作答的所有項目數)上的得分與向量之積求和, 即被試正確作答的項目i(i=1,2,...,L)的向量之和; 項目的參數的充分統計量是對所有被試在該項目上的得分與向量之積求和, 即正確作答該項目的被試人數乘以向量(Reckase, 2009)。又如 MGRM中步驟難度參數遞增, 而MPCM中步驟難度參數不一定遞增。再如, MGRM 中“難度參數”bi,k與GRM 中等級難度的意義一致。MIRM, 特別是多分MIRM描述實際數據潛在維度結構的程度如何,MIRM 的項目統計特征、測驗特征等都還有待深入研究。此外, 康春花和辛濤(2010)還強調今后需要開發更多程序估計高維多級評分項目MIRM的模型參數。

3 MCAT的能力估計方法

Bloxom和 Vale (1987)將 Owen (1975)的序列更新程序推廣到 MCAT, 通過一系列正態逼近獲得能力的點估計。Tam (1992)針對二維正態肩形模型推導了迭代極大似然能力估計方法, Segall(1996)推導了 M3PL中能力的極大似然估計和貝葉斯估計算法, Yao (2014a)還給出M-2PPC的相應算法。具體而言, 記包含已施測的k-1個項目, 項目反應記為

3.1 極大似然估計方法(maximum li kelihood estimation, MLE)

一般采用 Newton-Raphson迭代算法求其近似解。令的第h次和h+1次逼近分別記為和為保證算法收斂, 實際采用如下 Newton-Raphson程序:

3.2 貝葉斯估計方法

貝葉斯能力估計方法通常指最大后驗估計(maximum a posterior estimation, MAP)和期望后驗估計(expected a posterior estimation, EAP)。前者求后驗概率密度的最大值, 后者對其求期望。

3.2.1 MAP

基于貝葉斯定理, 令的先驗密度服從均值為0μ, 協方差矩陣為Σ0的多變量正態分布。基于的邊際概率可得的后驗密度為欲求等價于求下述非線性方程組的解。

類似于 MLE方法, 實際上 Newton-Raphson迭代程序用代替(9)式中W的r行s列元素等于

3.2.2 E AP

EAP方法通過高斯-埃爾米特求積公式或Monte Carlo積分求能力維度l(l=1,2,…,M)的后驗邊際期望估計值, 即進而獲得

3.3 能力估計方法簡評

上述方法具有以下特點。首先, MLE在測驗之初對全部正確(錯誤)回答項目的被試不能得到有限估計值, 但其估計偏差小于貝葉斯方法。其次, 貝葉斯方法中后驗分布的返真性極大地受到先驗分布的影響從而使其估計值往往趨于先驗分布的均值, 但它們的估計均方根誤差小于MLE方法。再次, 與MAP方法相比, EAP方法的估計方差更小更穩健, 但其計算量更大、計算時間更長。一般地, 隨著測驗項目的增多, MLE、EAP和MAP的估計值越來越接近(Reckase, 2009)。因此, 大部分研究都采用MLE或者MAP方法。另外, van der Linden (1999)還推導估計線性組合能力的MLE方法, Wang (2014b)介紹了基于單維加權似然估計方法(Warm, 1989)推廣而得的多變量加權MLE方法。

MCAT的測驗條件通常比較復雜。它不僅需要考慮各個維度之間的相關, 還需要考慮測驗是項目間多維還是項目內多維。所謂項目間多維是指測驗考查多種能力, 但是每個項目只考查一種能力; 項目內多維是指測驗至少包含一個同時考查多種能力的項目。除此之外, 測驗長度、每個量表的項目數、總體分布也都是影響估計準確性的重要因素。于是, 在不同測驗條件下探討各種能力估計方法的特點、比較它們的表現對 MCAT實踐具有重要意義。

4 MCA T的選題策略

選題策略決定被試作答的測驗項目, 關系到測驗結果的準確性、測驗安全和測驗信、效度, 是MCAT的重要環節之一。

4.1 提高測量精度的選題策略

MCAT與UCAT在選題方面存在兩點顯著差異。第一, UCAT要求在一個維度上達到最優估計,而MCAT要求同時在多個維度上達到最優估計。第二, UCAT中單一的測驗維度是測驗考查的目標, 而MCAT中項目敏感的維度不一定都是研究者關注的目標。換句話說, 研究者可能不同程度地關注MCAT考查的各個維度。以下用R表示題庫, 其中的項目記為表示作答k-1個項目后的能力估計值,ik表示將施測的第k個項目, 它選自剩余題庫

4.1.1 基于項目信息量的選題方法

研究者不僅將 Fisher信息、Kullback-Leibler(KL)信息、shannon熵和互信息推廣到多維能力空間, 而且深入探討了各種方法之間的關系。

4.1.1.1 基于Fisher信息矩陣的選題方法

MIRT中Fisher信息量不再是一個實數, 而是一個矩陣。例如, 以M3PL為例, 項目i的Fisher信息矩陣等于施測k-1個項目后, 能力區間估計構成一個橢圓(橢球體), 其面積(體積)的方差-協方差矩陣的行列式成正比, 且于是,為使施測第k個項目后Vk下降最快, Segall (1996,2010)提出選擇使測驗Fisher信息矩陣行列式值最大的方法, 又稱為D-優化方法(Mulder & van der Linden, 2009)。具體而言, 該方法依據下式

選擇項目ik。其中, det表示求行列式的值,和分別表示項目集Sk?1和項目j在處的信息矩陣。當考慮能力先驗分布時可得貝葉斯 D-優化方法的項目選擇標準劉發明和丁樹良(2006)還推導了與貝葉斯 D-優化規則等價的項目選擇方法。

另外, Mulder和van der Linden (2009)從能力估計橢圓(橢球體)的最大軸與能力估計誤差的關系出發提出最小化能力極大似然估計的漸近抽樣方差的和, 稱為A-優化方法。

該方法與Wang, Chang和Boughton (2013)采用的T-規則選題方法本質上是相同的。上述方法的表現均依賴中間能力估計與能力真值的接近程度, 而測驗初期二者往往相差很大。類似于UCAT, MCAT中一種弱化此條件的方法就是KL方法。

4.1.1.2 基于KL信息量的選題方法

KL與Fisher信息一樣具有可加性, 即測驗信息等于項目信息之和。項目i的KL信息表示為

由于真實能力未知, 通常計算全局 KL信息量指標(記為KI), 即

其中r通常取值3, 進而KI方法選擇使KI值最大的項目。van der Linden等人還基于KL信息提出以下三種項目選擇方法。

(1)后驗期望KL信息方法(B K)

Veldkamp和van der Linden (2002)提出以能力后驗分布為權重對項目 KL距離求期望的B K方法, 其項目選擇指標為:

研究證明, 該方法與貝葉斯 D-優化方法具有相似的測量精度, 但B K方法更適用于具有內容約束的測驗(Mulder & van der Linden, 2010)。

(2)能力后驗分布的KL距離方法(P K)

適應性測驗中, 每施測一個項目后都會更新能力的后驗分布。然而, 如果施測一個不恰當的項目將使的后驗密度變化不大。于是, Mulder和van der Linden (2010)建議選擇在兩個連續后驗分布之間具有最大 KL距離的項目, 記為KP方法。其項目選擇標準為:

(3)互信息(mutual information)方法(IM)

互信息表示隨機變量X,Y的聯合分布f(x,y)和邊際分布積的KL距離。若X和Y表示連續變量, 則特別地, 令則IM項目選擇指標表示為

Mulder和van der Linden (2010)證明互信息等價于與之間KL信息量的均值, 而P K等價于之間KL信息量的均值。由于KL具有非對稱性, 因此P K和IM本質上并不相同。

KB、均定義了兩個概率分布間的KL距離。對應反應分布間 KL距離以為權重的期望。KP和IM則從不同角度定義兩個連續后驗分布的 KL距離。另外, 根據 Mulder和 van der Linden (2010)及Wang (2014a), 可知Wang和Chang (2011)與Wang(2014a)中提到的基于貝葉斯更新的KL信息(KLB)方法實質上與IM方法等價。

4.1.1.3 連續熵方法(continuous entropy method, CEM)

香農熵(Shannon entropy)測量隨機變量分布內在不確定性程度。當隨機變量X服從連續分布時, 香農熵就是連續熵, 也稱為微分熵。Wang和Chang (2011)指出在作答k-1個項目之后后驗分布的連續熵為:若選擇第k個項目之前對項目j的反應求期望, 便得到如下期望后驗連續熵:

CEM 方法將選擇Rk中使期望后驗連續熵最小的項目。

4.1.1.4 基于項目信息量選題方法簡評

總結相關研究, 不難發現上述方法具有如下關系。第一, KI方法等價于最大化Fisher信息矩陣的跡(即其特征值之和), 盡管它更傾向于選擇所有維度具有高區分度的項目, 它也選擇各維度區分度參數差異較大的項目??傊? KI方法嚴重依賴MDISC值選擇項目。D-優化方法等價于最大化Fisher信息矩陣行列式的值, 傾向于選擇在某一維度具有高區分度的項目(Wang, Chang, & Boughton,2011)。第二, KL與Fisher信息都很容易從單維推廣到多維。無論能力維度多大,都是一個數量值, 而基于 Fisher信息矩陣選題需要將信息矩陣約減為一個單維指標值。第三, CEM試圖極大地降低的后驗熵, 間接使從下面項目中獲得關于能力的信息最大化, 而IM則直接使獲得的信息最大化, 二者的不同在于熵的基線不同。第三, 當題庫項目各維度的區分度參數分布一致時,IM和 D-優化方法所選項目的重疊率最大, 其次是KI方法和D-優化方法,IM與CEM或與KI方法所選項目的重疊率都更低。最后, 無論題庫項目各維度區分度參數分布是否一致,IM方法的測量精度最高, D-優化和CEM方法的測量精度次之, KI方法的測量精度最低(Wang & Chang,2011)。

4.1.2 基于項目參數選題

基于項目信息量選題方法的計算量通常很大,而項目選擇標準總離不開項目特征參數。于是,研究者還根據項目參數提出一些簡便的選題方法。例如, Bloxom和Vale (1987), Tam (1992)以難度和能力匹配來選擇項目; Wang等(2011)基于二維能力空間中 KI方法的選題特征提出兩種簡化的KL信息指標這兩種方法與 KI方法相比極大地降低了計算復雜度、縮短了計算時間的同時沒有明顯降低測量精度。對高維測驗,可由代替, 其中i,j=1,2,…,M,且i≠j。但是它們在三維及更高維能力空間的表現還有待進一步研究證實。

4.1.3 復合能力的項目選擇方法

當測驗考查的各個維度的重要程度不同時,MCAT通常要求在能力線性組合處達到最優。van der Linden (1999)以二維能力空間為例, 給出估計復合能力分數方差的計算方法后提出第k個項目應使復合分數具有最小誤差方差, 即

研究表明, 復合分數中權重λ的值對測量精度影響不大。復合能力值處于極端水平被試的估計誤差比中等水平被試的估計誤差更大, 但如果增加測驗長度可以提高測量精度。

另外, Mulder和van der Linden (2009, 2010)針對測驗考查無關能力維度和復合能力分數的情況, 分別給出給出D-優化和A-優化,和的相應變式。他們指出大部分條件下 D-優化和A-優化的表現類似, A-優化指標的表現有時候比 D-優化更好, 但其計算也更復雜;K P與IM比方法更適合這類測驗。

上述研究中復合分數的權重由研究者或考試機構決定。Yao (2012)通過數理論證得到使復合能力的測量標準誤最小時權重的計算方法。在此基礎上, 她提出在最優權重復合分數處具有最小誤差的選題方法(記為 V2), 即

然后, 比較了 V2與等權重復合分數處具有最小誤差方差的選題方法(記為 V1)、B K、D-優化方法以及使在已施測項目處具有最小信息量的方向上具有最大信息量的項目選擇方法(記為 Ag)(Reckase, 2009)的選題表現。結果表明 D-優化和Ag方法的表現類似, 均能平衡各個維度的測量精度; V1, V2和B K方法在復合能力和各個能力維度都達到了較高測量精度, 新方法 V2還提高了題庫利用率。Yao (2012)不僅關注復合能力, 而且關注各個能力維度的測量精度, 體現了MCAT不僅可用于預測將來表現, 還可用于提供診斷信息的雙重目的。

4.2 滿足內容約束的選題策略

CAT通常要求測驗所考查的各個內容域具有恰當比例, 項目呈現的順序合理, 正確答案選項的分布平衡、項目的長度適當, 等等。如果違反這些約束將影響被試作答, 從而降低測量準確性和有效性。因而, 滿足內容約束是MCAT實踐需要考慮的問題之一。

4.2.1 影子測驗方法

影子測驗方法的核心是選擇第k個項目之前組合一個在處具有最大測驗信息量、包括已施測項目且滿足內容約束的完整測驗, 然后將影子測驗中具有最大信息量的項目施測給被試。Veldkamp和van der Linden (2002)在五種測驗條件下運用線性規劃方法組合影子測驗, 證明影子測驗方法可滿足MCAT多種內容約束。

4.2.2 最大優先指標方法

Yao (2013)借鑒最大優先指標方法(Cheng &Chang, 2009)定義MCAT中項目i的優先指標為

UCAT中, Belov, Armstrong和Weissman (2008)指出影子測驗方法可以滿足多種內容約束, 但它降低了測量精度并導致項目曝光不均衡。最大優先指標方法則將約束條件轉化為目標值并結合已施測項目的信息構建選題指標, 避免了計算的復雜性和不可解問題。但是它采用序列選題的方式,不但不能保證滿足所有約束條件也不一定能選到最優項目, 因而可能會降低測量準確性(Cheng &Chang, 2009)。對于MCAT, 情況是否如此, 是否還有更好的選題方法都值得進一步研究。

4.3 平衡項目曝光率的選題策略

項目曝光率即項目的使用頻率。曝光率越大,項目使用的次數越多, 則考生之間越可能分享試題信息, 從而影響測驗安全和測量準確性。反之,當大部分項目都曝光過低甚至沒有使用時, 意味著項目沒有得到充分利用, 這將嚴重影響題庫建設。因而, 項目曝光均勻性是評價選題方法優劣的重要標準之一。

4.3.1 分層方法

Lee, Ip和Fuh (2008)借鑒UCAT中a-分層方法的思想, 基于 M2PL提出按區分度向量的函數的值從小到大的順序將題庫分為F層, 并將測驗分成F個階段, 然后第k個項目選擇對應題庫層中項目參數b與最接近的項目, 以達到控制項目曝光率的目的。結果表明, 該方法與 a-分層方法在控制項目曝光率方面具有相似特點。另外, 它與 D-優化方法相比, 能顯著提高項目曝光均勻性, 但也適當降低了測量精度。測驗越長,它們的測量精度相差越小。但該方法僅適用于二維測驗, 能否直接推廣到三維或更高維能力空間還有待研究證實。

4.3.2 曝光率參數控制方法

另外, Finkelman, Nering和Roussos (2009)首先將Sympson-Hetter方法(SH) (Sympson & Hetter,1985)應用到MCAT (記為GSH方法), 然后基于能力點控制項目曝光率的思想在 Stocking-Lewis方法(SL) (Stocking & Lewis, 1998)的基礎上簡化得到GSL方法, 最后比較了GSH、GSL和KB方法的表現。結果表明:GSL方法與KB的測量精度差不多, 且高于GSH方法; GSL的最大項目曝光率和項目曝光率的標準差都最小, 其項目曝光率比GSH和KB方法更均勻??傮w上, GSH和GSL方法能較好地控制最大項目曝光率, 但仍有大部分項目曝光過低, 而且它們都需要事先模擬決定曝光率控制參數。此外, GSL方法從基于能力分布網格中能力點的思想控制項目曝光率, 當測驗增加到三維及以上時, GSL方法也將變得非常復雜甚至不可用。

另外, Yao (2014b)在滿足各個內容域項目個數要求的條件下將 Yao (2012)的五種項目選擇方法分別與最大優先指標方法和S-H方法相結合選題以控制最大項目曝光率。結果表明, 結合 S-H方法選題比結合最大優先指標方法選題的測量精度更高, 但是題庫利用率更低, 運行時間更長。

4.4 對MCAT選題策略的綜合評價

針對二級評分項目, 以提高測量精度為主要目標的選題方法具有幾個顯著特點。第一, 研究將UCAT和CD-CAT中各類信息量指標推廣到多維能力空間, 并論證它們之間的關系。從中不難發現 D-優化和 A-優化方法需要將信息矩陣簡化為一個單一維度指標, 其它方法均包含積分運算。于是, 隨著能力維度的增加, 基于項目信息量選題的計算量將隨之增大。第二, 基于項目參數選題在不明顯降低測量精度的同時極大地降低了計算復雜度, 具有廣泛的應用前景。但它們僅適用于二維測驗, 因而有待將它們推廣到更高維能力空間。除此之外, 針對測驗考查無關維度和復合分數的情形, 研究者還全面探討了各種項目信息量方法在這些情況下的變式及表現。

另外, 參加CAT的考生一般在不同時間、地點作答不完全相同的項目。因此, 如何使不同被試作答的測驗具有相同結構以保證測驗的信、效度和測驗公平是CAT選題面臨的又一實際問題。而對具有內容約束的選題方法, MCAT相關研究還涉足不深。今后一方面可借鑒UCAT和CD-CAT的相關方法, 另一方面從MCAT自身特點出發探索滿足內容約束的選題方法。

最后, 針對MCAT中項目曝光控制的研究表明, 按區分度函數值分層的選題方法能提高曝光不足項目的使用率, 但不能明顯降低最大項目曝光率; GSH和GSL方法能有效控制最大項目曝光率, 但不能提高曝光不足項目的使用率; 最大優先指標方法能很好地控制最大項目曝光率, 并提高題庫利用率。值得注意的是, D-優化方法和IM方法傾向于選擇某一個維度具有高區分度的項目,而 KI 傾向于選擇所有維度具有高區分度的項目,于是, 為保證測量精度并提高題庫利用率, 不妨結合多種方法選題。一般地, 項目曝光控制不僅要降低過度曝光項目的使用率而且應提高曝光過低項目的使用率。因此, MCAT中如何進一步提高項目曝光均勻性仍有待深入研究。

5 MCA T的終止規則

同UCAT一樣, MCAT要么固定測驗長度, 要么固定測量精度作為測驗結束準則。目前, 幾乎所有定長MCAT的測驗長度都不小于25, 針對變長 MCAT, Yao (2013)、Wang 等(2013)和 Wang(2014a)從不同角度度量測量精度, 提出以下幾種終止規則。

5.1 基于能力估計誤差的終止規則

5.1.1 D-規則和E-規則

在α顯著性水平下能力估計置信橢圓(橢球體)S 的面積(體積)V 等于其中, Γ(?) 表 示Gamma函數。若限制V的最大值為c或S的最大軸長度為 2q以滿足某一測量精度, 便得到如下D-規則和 E-規則。具體而言, D-規則表示為即滿足j≥1和的最小整數j時停止測驗。E規則表示為表示廣義Fisher信息矩陣的最小特征值。

5.1.2 T-規則

T-規則規定當能力估計的總方差小于x時結束測驗, 即值得注意的是, 當題庫項目在各個維度的區分度參數分布不均衡時, 盡管總方差低于閾值x, 仍可能在某些維度具有較大方差。于是, 為保證每個維度的最大方差小于預設值e, T-規則通常修改為:T-規則涉及信息矩陣的逆矩陣, 因此無論實踐還是模擬研究都應考慮信息矩陣是否為奇異矩陣。

5.1.3 基于測量標準誤規則

Yao (2013)在滿足內容約束和控制最大項目曝光率的條件下比較了變長MCAT中基于測量標準誤(standard error, SE)方法和預測標準誤減少量(predicted standard error reduction, PSER)終止規則的表現。結果發現, PSER方法的測量精度略低于SE方法, 但它的測驗長度更短。Yao (2013)不僅考察了變長 MCAT的終止規則, 而且在變長MCAT中實現了內容約束, 這是研究的亮點, 也是今后深入研究的方向。

5.2 基于項目信息量的終止規則

和CEM-規則:

5.3 MCA T終止規則簡評

上述方法都能在達到預定測量精度時結束測驗, 它們還具有如下關系。第一, D、T和E規則從不同角度度量能力估計標準誤, 類似于 UCAT中 SE規則, 而 K-規則通過控制候選項目有用信息量的大小來結束測驗。第二, 對D, E和T規則,具有極端能力值被試的測驗長度近似是那些中等能力水平被試測驗長度的2倍以上, 而K規則中測驗長度的差異不明顯。但K規則受先驗密度的影響, 先驗密度的信息量越大, 測驗越短。于是,將來可考察不同先驗分布對K規則的影響模式。第三, 當能力后驗分布服從多變量正態分布時,CEM-規則與D-規則等價。第四, 終止規則往往包括統計表達式和臨界值。臨界值與測量精度息息相關, 其值需要根據期望測量精度、能力維度、題庫特征進行調整。因此, 今后不僅需要探討臨界值的設置方法, 而且有待在不同測驗條件(如各維度之間的相關、項目質量優劣等等)下深入比較終止規則的表現。

6 問題與展望

MIRT、認知診斷理論和 CAT是現代心理測量學發展的三大主要方向。MIRT是近期的研究熱點, CAT是一種新興的、有前途的測驗形式, 將兩者結合在一起的MCAT勢必成為CAT研究的一個新方向。本文對MCAT的相關研究做了比較系統的介紹和評價??v觀其發展趨勢, 我們認為還有待從以下幾個方面研究MCAT。

6.1 基于多種MIRM的MCAT

迄今為止, 大部分MCAT都以M2PL或M3PL為模型基礎, 也有極少研究基于其它 MIRM。例如, Wang和Chen (2004)以MRCMLM為基礎的研究表明MCAT在高維測驗、各個維度高相關、評分水平數較多的情況下同樣具有較高測驗效率。今后首先應更加深入探討各類MIRM的模型特點和數學函數圖象等各種統計特征, 然后以多維Rasch模型和多級評分項目 MIRM 為基礎開展MCAT研究。

6.2 MCA T選題策略的發展動態

6.2.1 MCA T中二級評分項目的選題策略

隨著能力維度的增加, 基于項目信息量選題的計算都愈加復雜。因此, 三維甚至更高維度的情況下, 如何在各種信息量指標基礎上簡化選題策略將是今后的重點研究內容。其次, MCAT中項目曝光控制方法要么能有效控制最大項目曝光率,要么能提高曝光不足項目的使用率。于是, 今后研究一方面可借鑒UCAT和CD-CAT中表現較好的隨機程序法及變式(Barrada Olea, Ponsoda, &Abad, 2008; Wang, Chang, & Huebner, 2011), 另一方面可結合運用多種項目曝光控制方法以進一步提高項目曝光均勻性。再次, 雖然MCAT可保證各個內容域的測量精度, 但如何選題以滿足多種約束條件也是今后的研究問題之一。例如, 考察UCAT和CD-CAT中表現較好的Monte Carlo方法(Belov et al., 2008; Mao & Xin, 2013)在MCAT中的表現,將測驗組卷中滿足約束的 0-1線性規劃(binary programming, BP)和遺傳算法(genetic algorithm,GA) (Finkelman, Kim, Roussos, & Verschoor, 2010)等用到具有多種約束的MCAT選題, 或者探索滿足約束的測驗組卷算法都是有價值的研究問題。最后, 盡管針對 MCAT提出了多種選題方法, 但沒有全面比較各種方法的表現。因此, 在不同測驗條件下比較它們的表現同樣具有重要實踐意義。

6.2.2 MCA T中多分項目的選題策略

隨著多級評分項目復雜評分算法的出現使得問答題、題組和結構反應項目逐漸出現在CAT中(Clauser, Margolis, Clyman, & Ross, 1997), 多級評分項目的應用將越來越受到重視。例如, 美國醫學院學會已設立專項經費用于研究醫大入學考試的語文推理部分采用題組評分項目的 CAT; 美國國立衛生研究院 2003年申請數百萬美元用于開發根據病人的臨床報告進行診斷的CAT系統。然而, 迄今為止未曾見到多級評分項目MCAT的相關研究。因此, 針對測量精度、項目曝光控制和內容約束問題探索多級評分項目MCAT的選題策略無疑是今后研究的趨勢與重點內容之一。

6.3 MCA T題庫的研究

MCAT要付諸實踐關鍵要有由大量質量合格、參數已標定的項目構成的題庫。隨著時間的推移, 題庫中的一些項目會因為存在缺陷、過時或過度曝光等原因需要用新題去替換或進行增補(陳平, 2011)。于是, 項目增補對MCAT題庫的維護和開發至關重要。UCAT和CD-CAT中在線校準技術常用于估計新題的項目參數。因此, 借鑒已有研究探索MCAT中基于被試在項目上的作答反應準確地、聯合地估計項目參數將具有不言而喻的意義。

6.4 MCA T的實證研究

MCAT理論研究不僅需要實踐來檢驗其實踐效能, 其理論研究成果反過來又推動實踐進步。因此, 如何在 MIRT理論指導下編寫測驗項目、分析項目特征完成題庫建構; 探索多級評分項目在線自動評分算法; 開發 MCAT考試系統都是MCAT實踐的必要前提。

陳平. (2011).認知診斷計算機化自適應測驗的項目增補——以DINA模型為例(博士學位論文), 北京師范大學.

杜文久, 肖涵敏. (2012). 多維項目反應理論等級反應模型.心理學報, 44, 1402–1407.

劉發明, 丁樹良. (2006). 多維自適應測驗初探.江西師范大學學報(自然科學版), 30, 428–430.

康春花, 辛濤. (2010). 測驗理論的新發展: 多維項目反應理論.心理科學進展, 18, 530–536.

涂冬波, 蔡艷, 戴海琦, 丁樹良. (2011). 多維項目反應理論: 參數估計及其在心理測驗中的應用.心理學報, 43,1329–1340.

許志勇, 丁樹良, 鐘君. (2013). 高考數學試卷多維項目反應理論的分析及應用.心理學探新, 33, 438–443.

張軍. (2011). HSK潛在維度的探索性分析——多維項目反應理論的應用.考試研究, 29, 47–58.

Adams, R. J., & Wilson, M. (1996). A random coefficients multinomial logit: A generalized approach to fitting Rasch models. In G. Engelhard & M. Wilson (Eds.),Objective measurement III: Theory into practice(pp. 142–166).Norwood, NJ: Ablex.

Adams, R. J., Wilson, M., & Wang, W. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21, 1–24.

Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2008).Incorporating randomness in the Fisher information for improving item-exposure control in CATs.British Journal of Mathematical and Statistical Psychology, 61, 493–513.

Belov, D. I., Armstrong, R. D., & Weissman, A. (2008). A Monte Carlo approach for adaptive testing with content constraints.Applied Psychological Measurement, 32, 431–446.

Bloxom, B. M., & Vale, C. D. (1987).Multididmensional adaptive testing: A procedure for sequential estimation of the posterior centriod and dispersion of theta. Paper presented at the meeting of the Psychometric society, Montreal, Canada.

Bolt, D. M., & Lall, V. F. (2003). Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.Applied Psychological Measurement, 27, 395–414.

Cheng, Y., & Chang, H. H. (2009). The maximum priority index method for severely constrained item selection in computerized adaptive testing.British Journal of Mathematical and Statistical Psychology, 62, 369–383.

Clauser, B. E., Margolis, M. J., Clyman, S. G., & Ross, L. P.(1997). Development of automated scoring algorithms for complex performance assessments: A comparison of two approaches.Journal of Educational Measurement, 34,141–161.

Finkelman, M. D., Kim, W., Roussos, L., & Verschoor, A.(2010). A binary programming approach to automated test assembly for cognitive diagnosis models.Applied Psychological Measurement, 34, 310–326.

Finkelman, M., Nering, M. L., & Roussos, L. A. (2009). A conditional exposure control method for multidimensional adaptive testing.Journal of Educational Measurement, 46,84–103.

Frey, A., & Seitz, N. N. (2011). Hypothetical use of multidimensional adaptive testing for the assessment of student achievement on the programme for international student assessment.Educational and Psychological Measurement, 71, 503–522.

Kelderman, H., & Rijkes, C. E. M. (1994). Loglinear multidimensional IRT models for polytomously scored items.Psychometrika, 59, 149–176.

Lee, Y. H., Ip, E. H., & Fuh, C. D. (2008). A strategy for controlling item exposure in multidimensional computerized adaptive testing.Educational and Psychological Measurement,68, 215–232.

Luecht, R. M. (1996). Multidimensional computerized adaptive testing in a certification or licensure context.Applied Psychological Measurement, 20, 389–404.

Mao, X. Z., & Xin, T. (2013). The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement, 37, 482–496.

McKinley, R. L., & Reckase, M. D. (1982).The use of the general Rasch model with multidimensional item response data(Research Report ONR 82–1). American College Testing, Iowa City, IA.

Mulder, J., & van der Linden, W. J. (2009). Multidimensional adaptive testing with optimal design criteria for item selection.Psychometrika, 74, 273–296.

Mulder, J., & van der Linden, W. J. (2010). Multidimensional adaptive testing with Kullback-Leibler information item selection. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behaviroal sciences.New-York: Springer Science+Business Media.

Muraki, E., & Carlson, J. E. (1993).Full-information factor analysis for polytomous item responses.Paper presented at the annual meeting of the American Educational Research Association, Atlanta.

Owen, R. J. (1975). A bayesian sequential procedure for quantal response in the context of adaptive mental testing.Journal of the American Statistical Association, 70, 351–356.

Reckase, M. D. (1985). The difficulty of test items that measure more than one ability.Applied Psychological Measurement,9, 401–412.

Reckase, M. D. (2009).Multidimensional item response theory. New York: Springer.

Samejima, F. (1974). Normal ogive model on the continuous response level in the multidimensional latent space.Psychometrika, 39, 111–121.

Segall, D. O. (1996). Multidimensional adaptive testing.Psychometrika, 61, 331–354.

Segall, D. O. (2010). Principles of multidimensional adaptive testing. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behavioral sciences.New York: Springer Science+Business Media.

Stocking, M. L., & Lewis, C. (1998). Controlling item exposure conditional on ability in computerized adaptive testing.Journalof Educational and Behavioral Statistics, 23, 57–75.

Sympson, J. B., & Hetter, R. D. (1985).Controlling item-exposure rates in computerized adaptive testing.In Proceedings of the 27th annual meeting of the Military Testing Association (pp. 973–977). San Diego, CA: Navy Personnel Research and Development Center.

Tam, S. S. (1992).A comparison of methods for adaptive estimation of a multidimensional trait(Unpublished doctoral dissertation). Columbia University, New York.

van der Linden, W. J. (1999). Multidimensional adaptive testing with a minimum error-variance criterion.Journal of Educational and Behavioral Statistics, 24, 398–412.

van der Linden, W. J., & Hambleton, R. K. (1997).Handbook of modern item response theory. New York: Springer-Verlag.

Veldkamp, B. P., & van der Linden, W. J. (2002).Multidimensional adaptive testing with constraints on test content.Psychometrika, 67, 575–588.

Wang, C. (2014a). Multidimensional computerized adaptive testing: Early development and recent advancements. In Y.Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC: Information Age.

Wang, C., & Chang, H. H. (2011). Item selection in multidimensional computerized adaptive testing-gaining information from different angles.Psychometrika, 76, 363–384.

Wang, C., Chang, H. H., & Boughton, K. A. (2011).Kullback-Leibler information and its applications in multidimensional adaptive testing.Psychometrika, 76, 13–39.

Wang, C., Chang, H. H., & Boughton, K. A. (2013). Deriving stopping rules for multidimensional computerized adaptive testing.Applied Psychological Measurement, 37, 99–122.

Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement, 48, 255–273.

Wang, W. C. (2014b). Multidimensional Rasch models:Theories and applications. In Y. Cheng & H.-H. Chang(Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC:Information Age.

Wang, W. C., & Chen, P. H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing.Applied Psychological Measurement, 28,295–316.

Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory.Psychometrika, 54, 427–450.

Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.Psychometrika, 77, 495–523.

Yao, L. H. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules.Applied Psychological Measurement, 37, 3–23.

Yao, L. H. (2014a). Multidimensional item response theory for score reporting. In Y. Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment.Charlotte, NC:Information Age.

Yao, L. H. (2014b). Multidimensional CAT item selection methods for domain scores and composite scores with item exposure control and content constrains.Journal of Educational Measurement, 51, 18–38.

Yao, L. H., & Schwarz, R. D. (2006). A multidimensional partial credit model with associated item and test statistics:An application to mixed-format tests.Applied Psychological Measurement, 30, 469–492.

Zhang, B., & Stone, C. A. (2008). Evaluating item fit for multidimensional item response models.Educational and Psychological Measurement, 68(2), 181–196.

猜你喜歡
測量方法能力
消防安全四個能力
把握四個“三” 測量變簡單
滑動摩擦力的測量和計算
大興學習之風 提升履職能力
人大建設(2018年6期)2018-08-16 07:23:10
滑動摩擦力的測量與計算
你的換位思考能力如何
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
測量
抄能力
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 丁香五月亚洲综合在线| 91小视频在线观看免费版高清| 精品视频一区在线观看| 欧美有码在线| 欧美精品另类| 婷婷色中文| 国产乱子伦精品视频| 日韩第九页| 国产精品自拍露脸视频| 欧美成人日韩| 91久久性奴调教国产免费| 欧美日韩高清| 熟女日韩精品2区| 欧美日韩专区| 国产传媒一区二区三区四区五区| 四虎影视国产精品| 美女裸体18禁网站| 99青青青精品视频在线| 国产精品美女免费视频大全| 毛片免费高清免费| 国产精品高清国产三级囯产AV| 亚洲人成网站在线播放2019| 欧美人人干| 日韩精品无码免费一区二区三区| 一本久道热中字伊人| 亚欧美国产综合| 香蕉伊思人视频| 中日无码在线观看| 国产91小视频在线观看| 亚洲三级色| 东京热av无码电影一区二区| 青青草国产一区二区三区| 亚洲中文无码h在线观看 | 久久公开视频| 91亚瑟视频| 波多野结衣无码AV在线| 亚洲精品第1页| 国产91透明丝袜美腿在线| a毛片免费观看| 波多野结衣视频网站| 欧美亚洲国产精品第一页| 亚洲Av激情网五月天| 2021精品国产自在现线看| 中文字幕色站| 无码在线激情片| 免费欧美一级| 国产日韩精品欧美一区喷| 久久99精品国产麻豆宅宅| 中文字幕1区2区| 国产精品自在在线午夜| 亚洲日本中文字幕天堂网| 国产在线八区| 亚洲国产精品VA在线看黑人| 女人av社区男人的天堂| 国产精品va| 日韩精品少妇无码受不了| 亚洲欧洲日韩综合色天使| 99精品伊人久久久大香线蕉 | 99尹人香蕉国产免费天天拍| 欧美色综合网站| av一区二区三区高清久久| 国产精品刺激对白在线| 亚洲中文无码av永久伊人| 99在线视频免费| 国产丝袜丝视频在线观看| 亚洲国产日韩视频观看| 亚洲色欲色欲www在线观看| 超清无码熟妇人妻AV在线绿巨人 | 亚洲欧美另类中文字幕| 美臀人妻中出中文字幕在线| 91在线激情在线观看| 丁香婷婷激情综合激情| 不卡的在线视频免费观看| 欧美成人精品在线| 国产精品无码AⅤ在线观看播放| 国产黄色片在线看| 亚洲欧美日韩成人在线| 71pao成人国产永久免费视频| 国产精品嫩草影院av| 精品综合久久久久久97| 亚洲色图欧美一区| 深爱婷婷激情网|