二參數邏輯斯蒂模型項目參數的估計精度*

2013-01-31 01:46:32杜文久李洪波

心理學報 2013年10期

關鍵詞：信息

杜文久周娟李洪波

(1西南大學數學與統計學院,重慶 400715)(2重慶市教育考試院,重慶 401147)

1 引言

教育和心理測驗都是由相應的測驗項目組成,測驗項目質量的好壞直接決定了測驗的質量。精確掌握每個測驗項目區分度參數和難度參數的相關信息,對于教育和心理測驗項目的篩選以及測驗的編制具有重要的參考價值(涂冬波,蔡艷,戴海琦,丁樹良,2011)。另外,計算機化自適應測驗(

Computerized Adaptive Testing

,CAT)自20世紀70年代早期被引入測驗領域,而實施 CAT需要一個優質、大型的題庫,同時題庫還需要不斷更新(陳平,辛濤,2011),淘汰一些質量不夠好的試題,加入一些新的試題?？梢?對項目參數進行準確估計就非常重要(Maij-de Meij,Kelderman,&van der Flier,2008)。

目前,國內外對項目參數估計精度的研究,大部分是基于在已知項目參數真值的情況下,運用各種參數估計方法(常用的參數估計方法有極大似然法、貝葉斯方法、MCMC方法等)產生新的估計值,再和真值進行偏度(BIAS)和均方根差(RMSE)的比較,從而說明該種估計方法的有效性(Liang &Wells,2009;Finch,2010) 。均方根差RMSE、Bias的計算公式分別為：

其中

表示第

個項目參數(a或 b)的真值,

表示第

個項目參數的估計值,

表示重復試驗的次數。通過公式可看出,均方根差反映的是

次重復試驗中項目參數真值與項目參數估計值之間的平均偏差大小;偏差的值反映了項目參數真值與參數估計值之間偏差的平均。這種方法只能得出每個參數真值的估計誤差,無法反映不同的參數之間的估計誤差是如何隨著參數真值的變化而變化的。

為了彌補這些缺陷,本文嘗試從項目參數信息函數的角度出發,研究二參數邏輯斯蒂模型項目參數的估計精度。目前,國內外主要研究能力參數的信息函數,而對于項目參數的信息函數還沒有人研究,本文嘗試填補這一空缺。同時還探索了影響估計精度的主要因素有哪些,以及這些因素是怎樣影響項目參數的估計精度的。希望通過本文的研究,能夠為題庫編制者和測驗編制者提供一些有價值的參考信息。

2 研究方法

2.1 項目參數的極大似然估計

首先,假設能力參數已知,通過討論二參數邏輯斯蒂模型項目參數(

)的極大似然估計,從而獲得項目參數估計值的置信區間。設

,… ,

為

個能力分別為

,… ,

的被試在某個二級評分項目上的得分,如果被試

在項目上答對,則

=1,否則

=0。于是根據被試

在項目上的反應可得似然函數：

由(2.1)式兩邊取對數,再分別對

求導,除以

后令其等于零,得：

其中,(

)表示向量(

)的轉置,

(

)表示矩陣

(

)的逆,

下標“0”表示將表達式中的

用

代替。根據Lord(1980)的計算(漆書青,戴海崎,1992;Hambleton &Swaminathan,1985),

、

(

)、

的表達式如表1。

表1 Iaa、Iab(Iba= Iab)、Ibb的表達式

由上式不難發現：

(

)、

(

)值越大,參數

、

估計值的方差越小,從而估計值也就越精確;反之,

(

)、

(

)值越小,估計值的方差就越大。因此,可用項目參數

、

的估計信息函數,描述參數

、

的估計精度。

2.2 參數估計值的置信區間

給定置信水平α=0.05,由正態分布表可查得雙側分位值

=1.96,于是在 95%的概率意義下,

的置信區間分別為：

結合參數

的信息函數和其估計值的置信區間,就能對項目參數的估計精度進行研究。

3 實證研究

為了探明被試的樣本容量和能力分布對項目參數的估計精度的影響,按以下方法和實驗設計進行模擬研究：

(1)假設被試能力參數已知,被試的能力分布取兩種情形：標準正態分布

(0,1)和均勻分布

[?3,+3];

(2)被試樣本容量為3個水平：100人,500人,1000人;

(3)以區分度參數

為橫坐標,難度參數

為縱坐標,項目參數

的估計信息函數

(

)分別為垂直坐標繪制各種情形下

(

)的三維圖像。(4)所有隨機生成數據和作圖過程均由Matlab2009(王沫然,2009)程序實現。為制圖方便,區分度參數

的取值范圍確定為[0,3],難度參數b的取值范圍確定為[?3,3]。

根據上述設計,本實驗共有2× 3×2=12種不同的類別。

3.1 區分度參數a的估計信息函數

分別隨機產生服從標準正態分布

(0,1)和均勻分布U[?3 ,+3]的100個、500個、1000個被試的能力參數值,根據公式(2.3),畫出不同情形下(2×3)

(

)的三維圖形,如表2。

表2 不同情形下區分度參數a的估計信息函數I(a)的三維圖像

由表2可知：區分度參數

的信息函數同時受到參數

、參數

和被試樣本容量的影響。首先討論樣本容量的影響：比如,當能力參數θ～

(0,1)時,在

=1,

=0附近,被試樣本容量從100人、500人增加到1000人時,

(

)值從20、100增加到約200?？梢?增加被試的樣本容量,能有效提高區分度參數

的信息量,從而提高參數

的估計精度。當固定參數

和被試樣本容量時,區分度參數

的信息量受

參數真值本身的影響很大。如當能力參數θ～

(0,1),樣本容量為1000,

=0時,在區分度參數

的真值

=0.5附近,

的信息量約為450,而隨著

真值的增大,

的信息量迅速減小。當

=0,

>3時,

的信息量迅速減小到接近于零。上述結果表明,如果測試項目的區分度參數

的真值過大,即使被試樣本容量很大,其區分度參數

的估計精度也不高。參數

的信息量不僅受到被試樣本和參數

的真值的影響,同時還受到難度參數

的真值的影響。圖1是被試樣本容量為 1000人,能力參數

～

(0,1)時區分度參數

的估計信息函數

(

)的三維圖像在

軸和

(

)軸所在平面的正投影。

圖1 I(a)在b軸和I(a)軸平面的正投影圖

由圖1可知,對任意給定的

值,

(

)的圖像都是一條鐘形曲線。例如,假設參數

的真值為

=0.5時,在

=0處,

(

)取得最大值。隨著參數

漸漸遠離零點,

(

)值也逐漸減小。這與表2中圖形所呈現的結論是一致的,即

=0時,

(

)的三維圖像有一條明顯隆起的脊線,而脊線上的點就是

(

)在不同

參數位置時的最大值點。另外,當

=1時,盡管

(

)的圖像仍然是一條鐘形曲線,但該曲線整體上比

=0.5時的

(

)圖像降低了很多。也就是說,當參數

值增大時,測驗所提供的參數

的信息量迅速減少,即對參數

的估計精度迅速降低。這與前面提到的隨著

真值的增大,

的信息量減小的結論也是保持一致的。從表2中可看到,被試能力參數呈均勻分布與被試能力參數呈標準正態分布時的估計信息函數

(

)的圖像十分類似,只是在

(

)圖形的陡平程度上有差異。在樣本容量相同時,能力分布服從正態分布的的

(

)的曲線相對于能力分布服從均勻分布的

(

)的曲線要陡峭。由此可得,被試的能力分布對參數

的估計精度有影響。

3.2 難度參數b的估計信息函數

根據公式(2.4),畫出不同情形下(2×3)難度參數

(

)的三維圖像,如表3。由表3可知,難度參數

的估計信息函數

(

)的圖像與區分度參數的信息函數

(

)的圖像差別很大,而且信息函數

(

)明顯受到被試的能力分布的影響。比如,在樣本容量為1000時,若被試的能力分布服從標準正態分布,那么任意給定一個

值,如

=3,則

(

)的曲線與正態分布的密度函數曲線非常相似;同樣,若被試的能力分布服從均勻分布,則在

=3處,

(

)的曲線也非常類似于均勻分布的曲線。

(

)、

(

)的圖像與能力分布之間的關系如表4所示。可知,難度參數

的信息函數受能力分布的影響很大,相對來說,區分度參數

的信息函數受能力分布的影響要小一些。另外從表3中還可得出結論,難度參數

的信息函數也受到參數

的真值、參數

的真值和被試樣本容量的影響。(1)參數

的信息函數值隨著樣本容量的增大而增大。(2)參數

的真值對估計信息值的影響因能力參數分布的不同而不同。(3)當區分度參數

的真值增大時,

的信息函數也隨之增大。

(

)與區分度參數

之間的關系如圖2所示。圖2是在樣本容量為1000,被試能力分布服從標準狀態分布時

(

)的三維圖形在

軸和

(

)軸所在平面的正投影。從圖中可看到,在任意給定的

值,

(

)的圖像是區分度參數

的單調遞增曲線,在

=0附近,

(

)取得最小值,

(

)值隨著

值的增大而增大。當

=1.5時,盡管這時

(

)的圖像仍然是一條單調遞增的曲線,但該曲線上的

(

)值比

=0時的

(

)值小很多。也就是說,隨著

逐漸的遠離零點,

的信息量也漸漸減小,當|

|>3時,

的信息量減小到接近于零。上述結果表明,對于能力分布服從正態分布的情形,在

=0附近,測驗才能提供最大的

參數信息量。如果測試項目的難度參數的絕對值|

|過大,即使被試樣本容量很大,其難度參數

的估計精度也不高。因此,在測驗編制或者題庫建設中項目不應過于簡單或是難。

3.3 a0,b0的置信區間

在題庫建設和測驗編制中,為了提高測驗的質量,人們總希望同時提高項目難度參數和區分度參數的估計精度。通過以上對參數

、

的信息函數方面的討論,根據公式(2.5)、公式(2.6),可畫出

的置信區間。圖3和圖4分別為區分度參數

和難度參數

的 95%的置信區間的三維圖像,其中,能力參數服從標準正態分布,被試樣本容量為1000。圖3的橫軸表示區分度參數,縱軸為難度參數,豎軸表示區分度參數

的真值,下曲面表示置信區間的左端點曲面,上曲面表示置信區間的右端點曲面,任意作一條與

、

軸所在平面垂直的直線,直線與兩曲面相交部分的線段長度就是區分度參數

的真值的置信區間長度,該直線與

、

坐標平面的交點的橫坐標就是

的估計值。圖4的橫軸表示難度參數

,縱軸表示區分度參數

,其余與圖3有類似的解釋。1)區分度參數

的估計誤差由圖3可知,在難度參數

∈[?2,2]內,對于區分度參數值位于 0—2之間的試題,其對

的估計誤差約為0.15個單位。例如,假設區分度參數

的估計值為 1,那么在 95%的概率意義下,其真值位于區間(0.85,1.15)內。當難度參數

∈[?2,2]外時,

參數的估計誤差迅速增大,例如,當

=2.7,

=?2.2時,

參數的估計誤差約為2.5個單位,這樣大的估計誤差實際上已經沒有什么價值。

表3 不同情形下難度參數b的估計信息函數I(b)的三維圖像

表4 被試能力分布對I(a)、I(b)的影響(被試樣本容量N=1000)

圖2 θ ～ N(0,1)時1000個被試下參數b的信息函數投影圖

2)難度參數

的估計誤差由圖4可知,在固定參數

時,對于難度參數位于?1—1之間的試題,其估計誤差約為 0.3個單位。例如,如果項目的難度參數估計值為0,那么在95%的概率意義下,其真值將位于區間(?0.3,0.3)內。當參數

變化時,參數b的置信區間也受到參數

的影響,在

=0=0附近兩曲面間的距離相對較大,即

值越大,對

的估計精度越好。在b=0時對

的估計精度最好,|

|越大,

(

)的值逐漸變小,估計精度就越差。

圖3 區分度參數a的置信區間

圖4 難度參數b的置信區間

4 討論與結論

本研究定義了二參數 logistic模型項目參數的估計信息函數,并討論了項目參數的估計精度,給出了參數估計值的置信區間。從本文的討論可以得到：

在已知被試的能力參數估計項目參數時,對于不同的測驗項目,其項目參數的估計誤差也不相同;

與采用均方根差方法來估計項目誤差的方法相比,借助于項目參數的估計信息函數能夠更精確的描述項目參數的估計誤差;

(當能力參數已知時)項目參數的估計誤差僅與項目有關,而與能力參數無關;

(當能力參數已知時)項目區分度參數

與難度參數b的估計精度相互影響,相互制約。項目難度參數b與能力分布的期望值越接近,對b的估計精度越高,同時項目區分度參數

越大,b的估計精度越高;對

參數而言,

越小,對

的估計精度越高,同時b的絕對值越小,

的估計精度越高。項目參數

、b的估計精度還受到被試樣本容量和能力分布的影響,樣本容量越大,對項目參數的估計越精確。如果被試的能力參數服從標準正態分布,只要樣本容量足夠大,對位于[?1.5,1.5]之間的項目難度參數 b,都能獲得較為滿意的估計精度。而對于難度參數b大于1.5的項目,則需要足夠多的高能力被試參與測驗,否則估計誤差會很大。同樣,對于低難度的測試項目,要獲得理想的估計精度,也需要有足夠多的低能力被試參與測驗,才能獲得滿意的估計精度;對于項目的區分度參數

,一般情況下,

應位于(0.5,2)之間才能獲得較好的估計精度,如果

真值過大,即使樣本容量很大,其估計精度也不理想。

不管是編制測試還是構建題庫,掌握每一道題目的性質和信息非常重要。本研究定義的項目參數的信息函數可研究在一次測驗中的每個試題在區分度和難度兩個指標上分別能給全體被試提供多大的信息(能力信息函數是指一次測驗中所有的測驗項目能為某特定能力的被試提供多大的信息量)。區分度參數的信息函數可考察一道試題在區分度方面給一組被試提供的信息量。難度參數的信息函數能考察具有特定難度的試題在難度方面能給一組被試提供多大的信息量。結合項目參數的信息函數和估計方差,可以對試題的參數估計精確問題進行更系統的研究,在編制試題時也可根據測試的性質(選拔性、資格性)控制項目參數的信息量。希望上述討論能夠為題庫編制者和測驗編制者提供一個有價值的參考信息。

Chen,P.,&Xin,T.(2011).Item replenishing in cognitive diagnostic computerized adaptive testing.

Acta Psychologica Sinica,43

(7),836–850.[陳平,辛濤.(2011).認知診斷計算機化自適應測驗中的項目增補.

心理學報,43

(7),836–850.]Finch,H.(2010).Item parameter estimation for the MIRT model:Bias and precision of confirmatory factor analysis--based models.

Applied Psychological Measurement

(1),10–26.Hambleton,R.K.,&Swaminathan,H.(1985).

Item response theory:Principles and applications.

Boston:Kluwer-Nijhoff.Li,X.P.(1997).

Foundation of probability theory.

Beijing,China:Higher Education Press.[李賢平.(1997).

概率論基礎

.北京:高等教育出版社.]Liang,T.,&Wells,C.S.(2009).Amodel fit statistic for generalized partial credit model.

Educational and Psychological Measurement,69

(6),913–928.Lord,F.M.(1980).

Applications of item response theory to practical testing problems.

Hillsdale,NJ:Lawrence Erlbaum Associates.Maij-de Meij,A.M.,Kelderman,H.,&van der Flier,H.(2008).Fitting a mixture item response theory model to personality questionnaire data:Characterizing latent classes and investigating possibilities for improving prediction.

Applied Psychological Measurement

(8),611–631.Mao,S.S.,Cheng,Y.M.,&Pu,X.L.(2004).

Probability theory and mathematical statistics.

Beijing,China:Higher Education Press.[茆詩松,程依明,濮曉龍.(2004).

概率論與數理統計教程

.北京:高等教育出版社.]Qi,S.Q.,&Dai,H.Q.(1992).

Item response theory and its application

.Nanchang,China:Jiangxi Universities and Colleges Press.[漆書青,戴海崎.(1992).

項目反應理論及其應用研究

.南昌:江西高校出版社.]Tu,D.B.,Cai,Y.,Dai,H.Q.,&Ding,S.L.(2011).Parameters estimation of MIRT model and its application in psychological tests.

Acta Psychologica Sinica,43

(11),1329–1340.[涂冬波,蔡艷,戴海琦,丁樹良.(2011).多維項目反應理論:參數估計及其在心理測驗中的應用.

心理學報,43

(11),1329–1340.]Wang,M.R.(2009).

MATLAB and science compute

(2nd ed).Beijing:Publishing House of Electronics Industry.[王沫然.(2009).

MATLAB與科學計算

(第2版).北京:電子工業出版社.]