叢曉
摘 要:本文對多維自適應測驗在教育測量中的應用進行了研究。研究表明,它可以提高測量效率。在測量精度不變的情況下,相對于一維自適應測試,使用項目數目減少30%~50%,提高了測量效率。此外,又可以進行多種能力的測量,說明它是一個非常有效的方法。
關鍵詞:計算機自適應測試;項目反應理論;多維自適應測試;教育測量
一、前言
計算機自適應測試(Computerized Adaptive Testing,CAT)根據學生對先前項目(item)的反應,選擇項目并提供給學生進行測試。這種項目選擇程序的目標是為學生選擇適合其能力水平的測試項目,主要優點是從實質上提高了測量的效率。測量效率即為測量精度與測試長度的比率。[1]
實際中,大多數CAT都使用一維項目反應理論模型。然而,當前教育測量理論都涉及學生的多種能力結構,因此,學者們又提出了多維自適應測試(Multidimensional Adaptive Testing,MAT)的模型和理論。[2]MAT的優點包括:第一,與一維測量模型相比,MAT更緊密地契合概念化的多重結構理論模型與統計測量模型;第二, 與傳統測試或CAT相比,產生了減少項目數目和提高測量精度的效果。
二、多維自適應測試的實施
MAT包括四個基本要素:多維項目反應理論模型、項目選擇方法、測試終止準則、能力估計方法。下面對這四個部分進行詳細論述。
1.多維項目反應理論模型
多維項目反應理論模型指的是依賴于p個能力θ=(θ1,θ2,…, θp)對項目i(U1=1)的正確反應概率,項
目涵蓋一個或多個項目參數。通常,使
用多維三參數logistic模型:P(U1= 1∣θ)=ci+ — ①
其中,ai'為(1×p)向量的區分度參數,bi為難度參數,ci為偽猜測參數。1是(p×1)向量在多維空間上的難度參數。
2.項目選擇方法
項目選擇方法是多維自適應測試的核心,確定了如何從題庫中為學生選擇合適的項目。一般情況下,能力的極大似然估計在均值θ和方差(θ∣θ)=
I(θ,θ)-1上是漸進正態的,其中I(θ,θ)是Fisher信息矩陣。
I(θ,θ)=-E(—) ②
假設所有潛在能力變量線性合并,并保持能力的權重不變λ=(λ1,λ2,…,λp)'
根據最小方差準則,從題庫中選擇一個合適的項目,如下等式所示:
arg mini[Var(λ'θ∣θ)]=arg mini[λ'Var(θ∣θ)λ] ③
由于MAT選擇的項目僅考慮項目參數以及能力估計的標準,所以選擇并呈現給學生的項目內容可能不平衡。這可能會導致不同維度的精度不同,并可能會導致測量精度的整體損失。
3.測試終止準則
采用的終止標準包括展示項目的數目、測量精度等,或者是多種方法的結合。多維自適應測試常采用展示的項目數目作為終止標準,這樣做可以達到增強與常規測試可比性的目的。而使用測量精度則在很大程度上依賴于所使用的項目池的特性。因此,對于MAT的應用,應該合并測量精度與最大測試項目數目和最小測試項目數目作為測試終止標準。
4.能力估計方法
在項目反應理論中,本地獨立性假設意味著學生對于不同項目的反應預期是統計獨立的,并用極大似然方法進行能力估計。對于能力向量θ=(θ1,θ2,…,θp)估計,為了保證收斂,通常使用Newton-Raphson方法或者Fisher的方法,直到達到一個或更多的終止標準。
三、總結
與CAT傳統測試相比,MAT可以大幅提高測量效率,在不損失測量精度的條件下,為考生展示的項目數目約為CAT的30%~50%。重要的是,MAT對具有多重結構的高效率的能力測試是非常有效的方法。為把理論模型用于實際的測量開辟了新的階段,可以增強教育測量中測試得分解釋的有效性。
參考文獻:
[1]Segall,D.O..Multidimensional adaptive testing.Psychometrika[J]. 1996,61(02).
[2]Pommerich,M.,&Segall,D.O.Local Dependence in an Operational CAT:Diagnosis and Implications[J].Journal of Educational Measurement,2008,45(03).
(作者單位:東北電力大學理學院)