杜文久 周 娟 李洪波
(1西南大學數學與統計學院,重慶 400715)(2重慶市教育考試院,重慶 401147)
Computerized Adaptive Testing
,CAT)自20世紀70年代早期被引入測驗領域,而實施 CAT需要一個優質、大型的題庫,同時題庫還需要不斷更新(陳平,辛濤,2011),淘汰一些質量不夠好的試題,加入一些新的試題??梢?對項目參數進行準確估計就非常重要(Maij-de Meij,Kelderman,&van der Flier,2008)。目前,國內外對項目參數估計精度的研究,大部分是基于在已知項目參數真值的情況下,運用各種參數估計方法(常用的參數估計方法有極大似然法、貝葉斯方法、MCMC方法等)產生新的估計值,再和真值進行偏度(BIAS)和均方根差(RMSE)的比較,從而說明該種估計方法的有效性(Liang &Wells,2009;Finch,2010) 。均方根差RMSE、Bias的計算公式分別為:

x
表示第j
個項目參數(a或 b)的真值,x
表示第j
個項目參數的估計值,n
表示重復試驗的次數。通過公式可看出,均方根差反映的是n
次重復試驗中項目參數真值與項目參數估計值之間的平均偏差大小;偏差的值反映了項目參數真值與參數估計值之間偏差的平均。這種方法只能得出每個參數真值的估計誤差,無法反映不同的參數之間的估計誤差是如何隨著參數真值的變化而變化的。為了彌補這些缺陷,本文嘗試從項目參數信息函數的角度出發,研究二參數邏輯斯蒂模型項目參數的估計精度。目前,國內外主要研究能力參數的信息函數,而對于項目參數的信息函數還沒有人研究,本文嘗試填補這一空缺。同時還探索了影響估計精度的主要因素有哪些,以及這些因素是怎樣影響項目參數的估計精度的。希望通過本文的研究,能夠為題庫編制者和測驗編制者提供一些有價值的參考信息。
a
,b
)的極大似然估計,從而獲得項目參數估計值的置信區間。設X
,X
,… ,X
為N
個能力分別為θ
,θ
,… ,θ
的被試在某個二級評分項目上的得分,如果被試j
在項目上答對,則X
=1,否則X
=0。于是根據被試j
在項目上的反應可得似然函數:

a
,b
求導,除以N
后令其等于零,得:


a
,b
)表示向量(a
,b
)的轉置,I
(a
,b
)表示矩陣I
(a
,b
)的逆,
a
,b
用a
,b
代替。根據Lord(1980)的計算(漆書青,戴海崎,1992;Hambleton &Swaminathan,1985),I
、I
(I
=I
)、I
的表達式如表1。
表1 Iaa、Iab(Iba= Iab)、Ibb的表達式





I
(a
)、I
(b
)值越大,參數a
、b
估計值的方差越小,從而估計值也就越精確;反之,I
(a
)、I
(b
)值越小,估計值的方差就越大。因此,可用項目參數a
、b
的估計信息函數,描述參數a
、b
的估計精度。
μ
=1.96,于是在 95%的概率意義下,a
,b
的置信區間分別為:

a
,b
的信息函數和其估計值的置信區間,就能對項目參數的估計精度進行研究。為了探明被試的樣本容量和能力分布對項目參數的估計精度的影響,按以下方法和實驗設計進行模擬研究:
(1)假設被試能力參數已知,被試的能力分布取兩種情形:標準正態分布N
(0,1)和均勻分布U
[?3,+3];(2)被試樣本容量為3個水平:100人,500人,1000人;
(3)以區分度參數a
為橫坐標,難度參數b
為縱坐標,項目參數a
,b
的估計信息函數I
(a
),I
(b
)分別為垂直坐標繪制各種情形下I
(a
),I
(b
)的三維圖像。(4)所有隨機生成數據和作圖過程均由Matlab2009(王沫然,2009)程序實現。為制圖方便,區分度參數a
的取值范圍確定為[0,3],難度參數b的取值范圍確定為[?3,3]。根據上述設計,本實驗共有2× 3×2=12種不同的類別。
N
(0,1)和均勻分布U[?3 ,+3]的100個、500個、1000個被試的能力參數值,根據公式(2.3),畫出不同情形下(2×3)I
(a
)的三維圖形,如表2。
表2 不同情形下區分度參數a的估計信息函數I(a)的三維圖像
由表2可知:區分度參數a
的信息函數同時受到參數a
、參數b
和被試樣本容量的影響。首先討論樣本容量的影響:比如,當能力參數θ~N
(0,1)時,在a
=1,b
=0附近,被試樣本容量從100人、500人增加到1000人時,I
(a
)值從20、100增加到約200??梢?增加被試的樣本容量,能有效提高區分度參數a
的信息量,從而提高參數a
的估計精度。當固定參數b
和被試樣本容量時,區分度參數a
的信息量受a
參數真值本身的影響很大。如當能力參數θ~N
(0,1),樣本容量為1000,b
=0時,在區分度參數a
的真值a
=0.5附近,a
的信息量約為450,而隨著a
真值的增大,a
的信息量迅速減小。當b
=0,a
>3時,a
的信息量迅速減小到接近于零。上述結果表明,如果測試項目的區分度參數a
的真值過大,即使被試樣本容量很大,其區分度參數a
的估計精度也不高。參數a
的信息量不僅受到被試樣本和參數a
的真值的影響,同時還受到難度參數b
的真值的影響。圖1是被試樣本容量為 1000人,能力參數θ
~N
(0,1)時區分度參數a
的估計信息函數I
(a
)的三維圖像在b
軸和I
(a
)軸所在平面的正投影。
圖1 I(a)在b軸和I(a)軸平面的正投影圖
由圖1可知,對任意給定的a
值,I
(a
)的圖像都是一條鐘形曲線。例如,假設參數a
的真值為a
=0.5時,在b
=0處,I
(a
)取得最大值。隨著參數b
漸漸遠離零點,I
(a
)值也逐漸減小。這與表2中圖形所呈現的結論是一致的,即b
=0時,I
(a
)的三維圖像有一條明顯隆起的脊線,而脊線上的點就是I
(a
)在不同a
參數位置時的最大值點。另外,當a
=1時,盡管I
(a
)的圖像仍然是一條鐘形曲線,但該曲線整體上比a
=0.5時的I
(a
)圖像降低了很多。也就是說,當參數a
值增大時,測驗所提供的參數a
的信息量迅速減少,即對參數a
的估計精度迅速降低。這與前面提到的隨著a
真值的增大,a
的信息量減小的結論也是保持一致的。從表2中可看到,被試能力參數呈均勻分布與被試能力參數呈標準正態分布時的估計信息函數I
(a
)的圖像十分類似,只是在I
(a
)圖形的陡平程度上有差異。在樣本容量相同時,能力分布服從正態分布的的I
(a
)的曲線相對于能力分布服從均勻分布的I
(a
)的曲線要陡峭。由此可得,被試的能力分布對參數a
的估計精度有影響。I
(b
)的三維圖像,如表3。由表3可知,難度參數b
的估計信息函數I
(b
)的圖像與區分度參數的信息函數I
(a
)的圖像差別很大,而且信息函數I
(b
)明顯受到被試的能力分布的影響。比如,在樣本容量為1000時,若被試的能力分布服從標準正態分布,那么任意給定一個a
值,如a
=3,則I
(b
)的曲線與正態分布的密度函數曲線非常相似;同樣,若被試的能力分布服從均勻分布,則在a
=3處,I
(b
)的曲線也非常類似于均勻分布的曲線。I
(a
)、I
(b
)的圖像與能力分布之間的關系如表4所示。可知,難度參數b
的信息函數受能力分布的影響很大,相對來說,區分度參數a
的信息函數受能力分布的影響要小一些。另外從表3中還可得出結論,難度參數b
的信息函數也受到參數a
的真值、參數b
的真值和被試樣本容量的影響。(1)參數b
的信息函數值隨著樣本容量的增大而增大。(2)參數b
的真值對估計信息值的影響因能力參數分布的不同而不同。(3)當區分度參數a
的真值增大時,b
的信息函數也隨之增大。I
(b
)與區分度參數a
之間的關系如圖2所示。圖2是在樣本容量為1000,被試能力分布服從標準狀態分布時I
(b
)的三維圖形在a
軸和I
(b
)軸所在平面的正投影。從圖中可看到,在任意給定的b
值,I
(b
)的圖像是區分度參數a
的單調遞增曲線,在a
=0附近,I
(b
)取得最小值,I
(b
)值隨著a
值的增大而增大。當b
=1.5時,盡管這時I
(b
)的圖像仍然是一條單調遞增的曲線,但該曲線上的I
(b
)值比b
=0時的I
(b
)值小很多。也就是說,隨著b
逐漸的遠離零點,b
的信息量也漸漸減小,當|b
|>3時,b
的信息量減小到接近于零。上述結果表明,對于能力分布服從正態分布的情形,在b
=0附近,測驗才能提供最大的b
參數信息量。如果測試項目的難度參數的絕對值|b
|過大,即使被試樣本容量很大,其難度參數b
的估計精度也不高。因此,在測驗編制或者題庫建設中項目不應過于簡單或是難。a
、b
的信息函數方面的討論,根據公式(2.5)、公式(2.6),可畫出a
,b
的置信區間。圖3和圖4分別為區分度參數a
和難度參數b
的 95%的置信區間的三維圖像,其中,能力參數服從標準正態分布,被試樣本容量為1000。圖3的橫軸表示區分度參數,縱軸為難度參數,豎軸表示區分度參數a
的真值,下曲面表示置信區間的左端點曲面,上曲面表示置信區間的右端點曲面,任意作一條與a
、b
軸所在平面垂直的直線,直線與兩曲面相交部分的線段長度就是區分度參數a
的真值的置信區間長度,該直線與a
、b
坐標平面的交點的橫坐標就是a
的估計值。圖4的橫軸表示難度參數b
,縱軸表示區分度參數a
,其余與圖3有類似的解釋。1)區分度參數a
的估計誤差由圖3可知,在難度參數b
∈[?2,2]內,對于區分度參數值位于 0—2之間的試題,其對a
的估計誤差約為0.15個單位。例如,假設區分度參數a
的估計值為 1,那么在 95%的概率意義下,其真值位于區間(0.85,1.15)內。當難度參數b
∈[?2,2]外時,a
參數的估計誤差迅速增大,例如,當a
=2.7,b
=?2.2時,a
參數的估計誤差約為2.5個單位,這樣大的估計誤差實際上已經沒有什么價值。
表3 不同情形下難度參數b的估計信息函數I(b)的三維圖像

表4 被試能力分布對I(a)、I(b)的影響(被試樣本容量N=1000)

圖2 θ ~ N(0,1)時1000個被試下參數b的信息函數投影圖
2)難度參數b
的估計誤差由圖4可知,在固定參數a
時,對于難度參數位于?1—1之間的試題,其估計誤差約為 0.3個單位。例如,如果項目的難度參數估計值為0,那么在95%的概率意義下,其真值將位于區間(?0.3,0.3)內。當參數a
變化時,參數b的置信區間也受到參數a
的影響,在a
=0=0附近兩曲面間的距離相對較大,即a
值越大,對b
的估計精度越好。在b=0時對b
的估計精度最好,|b
|越大,I
(b
)的值逐漸變小,估計精度就越差。
圖3 區分度參數a的置信區間

圖4 難度參數b的置信區間
本研究定義了二參數 logistic模型項目參數的估計信息函數,并討論了項目參數的估計精度,給出了參數估計值的置信區間。從本文的討論可以得到:
在已知被試的能力參數估計項目參數時,對于不同的測驗項目,其項目參數的估計誤差也不相同;
與采用均方根差方法來估計項目誤差的方法相比,借助于項目參數的估計信息函數能夠更精確的描述項目參數的估計誤差;
(當能力參數已知時)項目參數的估計誤差僅與項目有關,而與能力參數無關;
(當能力參數已知時)項目區分度參數a
與難度參數b的估計精度相互影響,相互制約。項目難度參數b與能力分布的期望值越接近,對b的估計精度越高,同時項目區分度參數a
越大,b的估計精度越高;對a
參數而言,a
越小,對a
的估計精度越高,同時b的絕對值越小,a
的估計精度越高。項目參數a
、b的估計精度還受到被試樣本容量和能力分布的影響,樣本容量越大,對項目參數的估計越精確。如果被試的能力參數服從標準正態分布,只要樣本容量足夠大,對位于[?1.5,1.5]之間的項目難度參數 b,都能獲得較為滿意的估計精度。而對于難度參數b大于1.5的項目,則需要足夠多的高能力被試參與測驗,否則估計誤差會很大。同樣,對于低難度的測試項目,要獲得理想的估計精度,也需要有足夠多的低能力被試參與測驗,才能獲得滿意的估計精度;對于項目的區分度參數a
,一般情況下,a
應位于(0.5,2)之間才能獲得較好的估計精度,如果a
真值過大,即使樣本容量很大,其估計精度也不理想。不管是編制測試還是構建題庫,掌握每一道題目的性質和信息非常重要。本研究定義的項目參數的信息函數可研究在一次測驗中的每個試題在區分度和難度兩個指標上分別能給全體被試提供多大的信息(能力信息函數是指一次測驗中所有的測驗項目能為某特定能力的被試提供多大的信息量)。區分度參數的信息函數可考察一道試題在區分度方面給一組被試提供的信息量。難度參數的信息函數能考察具有特定難度的試題在難度方面能給一組被試提供多大的信息量。結合項目參數的信息函數和估計方差,可以對試題的參數估計精確問題進行更系統的研究,在編制試題時也可根據測試的性質(選拔性、資格性)控制項目參數的信息量。希望上述討論能夠為題庫編制者和測驗編制者提供一個有價值的參考信息。
Chen,P.,&Xin,T.(2011).Item replenishing in cognitive diagnostic computerized adaptive testing.Acta Psychologica Sinica,43
(7),836–850.[陳平,辛濤.(2011).認知診斷計算機化自適應測驗中的項目增補.心理學報,43
(7),836–850.]Finch,H.(2010).Item parameter estimation for the MIRT model:Bias and precision of confirmatory factor analysis--based models.Applied Psychological Measurement
,34
(1),10–26.Hambleton,R.K.,&Swaminathan,H.(1985).Item response theory:Principles and applications.
Boston:Kluwer-Nijhoff.Li,X.P.(1997).Foundation of probability theory.
Beijing,China:Higher Education Press.[李賢平.(1997).概率論基礎
.北京:高等教育出版社.]Liang,T.,&Wells,C.S.(2009).Amodel fit statistic for generalized partial credit model.Educational and Psychological Measurement,69
(6),913–928.Lord,F.M.(1980).Applications of item response theory to practical testing problems.
Hillsdale,NJ:Lawrence Erlbaum Associates.Maij-de Meij,A.M.,Kelderman,H.,&van der Flier,H.(2008).Fitting a mixture item response theory model to personality questionnaire data:Characterizing latent classes and investigating possibilities for improving prediction.Applied Psychological Measurement
,32
(8),611–631.Mao,S.S.,Cheng,Y.M.,&Pu,X.L.(2004).Probability theory and mathematical statistics.
Beijing,China:Higher Education Press.[茆詩松,程依明,濮曉龍.(2004).概率論與數理統計教程
.北京:高等教育出版社.]Qi,S.Q.,&Dai,H.Q.(1992).Item response theory and its application
.Nanchang,China:Jiangxi Universities and Colleges Press.[漆書青,戴海崎.(1992).項目反應理論及其應用研究
.南昌:江西高校出版社.]Tu,D.B.,Cai,Y.,Dai,H.Q.,&Ding,S.L.(2011).Parameters estimation of MIRT model and its application in psychological tests.Acta Psychologica Sinica,43
(11),1329–1340.[涂冬波,蔡艷,戴海琦,丁樹良.(2011).多維項目反應理論:參數估計及其在心理測驗中的應用.心理學報,43
(11),1329–1340.]Wang,M.R.(2009).MATLAB and science compute
(2nd ed).Beijing:Publishing House of Electronics Industry.[王沫然.(2009).MATLAB與科學計算
(第2版).北京:電子工業出版社.]