大尺度教育測評中IRT等值方法的比較研究

2013-08-24 02:16:58楊濤，辛濤，高燕

中國軟科學 2013年12期

關(guān)鍵詞：方法研究

楊濤，辛濤，高燕

(1．北京師范大學教育統(tǒng)計與測量研究所，北京100875；2．北京師范大學發(fā)展心理研究所，北京100875；3．北京師范大學認知神經(jīng)科學與學習國家重點實驗室，北京100875)

一、引言

隨著世界向知識經(jīng)濟化發(fā)展，國家間的競爭歸根結(jié)底是人力資源的競爭。人力資源的競爭離不開教育，尤其是教育的核心問題——教育質(zhì)量。進入新世紀以來，教育質(zhì)量成為全球關(guān)注的重點，越來越多國家和國際組織都把大尺度教育測評作為關(guān)注教育質(zhì)量的有效方式。在我國，大尺度教育測評也已經(jīng)開始被采用，并引起了各級政府、教育管理部門的高度關(guān)注。有效發(fā)揮大尺度教育測評的作用離不開對其測評技術(shù)和方法的深入研究。

如何更好地保證測驗的公平性是大尺度教育測評中一直備受關(guān)注的重要問題之一。等值(equating)正是這樣一種統(tǒng)計調(diào)整方法，它可以將不同測驗版本的分數(shù)置于同一量尺上，以使參加同一測試完成不同題本的考生所得分數(shù)具有可比性，更好地保證測驗的公平性。等值也是目前正在廣泛興起的題庫建設(shè)、計算機自適應(yīng)測驗開發(fā)等必不可少的前提。迄今為止，國外有關(guān)等值研究已經(jīng)比較深入，我國關(guān)于等值的研究相對薄弱，關(guān)于IRT等值方法比較的研究更是有限。

等值研究主要涉及三個方面:等值設(shè)計、等值理論模型及其相應(yīng)等值估計方法、等值比較標準。其中，不同等值估計方法的比較一直是該領(lǐng)域研究的主要問題之一［1］。

等值理論模型分為經(jīng)典測量理論和項目反應(yīng)理論，分別對應(yīng)傳統(tǒng)等值估計方法和IRT等值估計方法。一些研究認為IRT方法優(yōu)于傳統(tǒng)方法，一些研究卻并不提供支持，還有一些研究發(fā)現(xiàn)，不同的測驗情境和不同的分數(shù)分布特點適用于不同的等值估計方法。隨著IRT理論的發(fā)展和越來越廣泛應(yīng)用，IRT等值估計方法也得到更多關(guān)注。

Han、Kolen 和 Pohlmann［2］研究了兩種 IRT 等值和傳統(tǒng)等百分位等值3種方法，結(jié)果顯示IRT真分數(shù)等值比其他兩種等值方法的等值結(jié)果更穩(wěn)定，IRT觀察分數(shù)等值比傳統(tǒng)等百分位等值的結(jié)果更穩(wěn)定。Baker、Al-Karni［3］和 Ogasawara［4］的研究均發(fā)現(xiàn)MM方法比MS方法更好，因為通常均值要比標準差更穩(wěn)定，而MM方法在估計的時候只使用了均值。Beguin和 Hanson［5］用模擬研究比較了SL方法和同時性校準方法，當被試組是非等組的并且考生能力高度相關(guān)時，SL等值方法產(chǎn)生了比同時性估計更高的估計精度。而Hanson和Beguin［6］同樣用模擬研究比較四種分別校準方法(MM、MS、SL、Haebara)和同時性估計方法，卻得出了不同的結(jié)論。謝小慶［7］通過測試數(shù)據(jù)對11種基于項目反應(yīng)理論的等值方法進行比較研究，結(jié)果表明在題庫建設(shè)中，某些IRT方法是可行的;至少對于HSK數(shù)據(jù)，不論是單、雙、三參數(shù)，不論是MM方法還是MS方法，參數(shù)轉(zhuǎn)換等值方法的誤差都較大，均不足取。焦麗亞［8］采用共同題非等組設(shè)計，對五種基于項目反應(yīng)理論的項目參數(shù)等值方法進行比較結(jié)果顯示，MS方法穩(wěn)健性最差，對于項目難度參數(shù)的等值，同時校準方法最好，其次是SL特征曲線法，對于項目區(qū)分度參數(shù)的等值，MM方法精確性最好。總之，關(guān)于IRT等值估計方法的比較，正如有研究者認為“并不存在普遍適用的等值模型。測試的特點不同，所適用的等值模型也將不同”［9］。

在大尺度教育測驗中，為了解決測驗內(nèi)容的豐富性和學生作答時間的有限性之間的矛盾，測驗項目多采用多題本共同題設(shè)計(又稱矩陣抽樣設(shè)計)。多題本等值過程中，除了考慮通常的等值估計方法外，還要面臨一個實際問題:不同題本之間按什么順序鏈接。典型的等值鏈接方案有集中式鏈接和鏈式鏈接。集中式鏈接是以一個題本為基準題本，其它題本分別通過共同題將量尺建立在基準題本的量尺上;鏈式鏈接是以一個題本為基準題本，各題本依次與前一個題本校準，后面題本通過不斷與前面題本鏈接，最后所有題本的參數(shù)都放在基準題本上［1］。根據(jù) Kolen 和 Brennan［1］提出的標準，這兩種方案各有優(yōu)劣。但是，相關(guān)的實證研究卻十分有限。

在多題本共同題測驗的情形下，我們不得不面臨這樣的問題:怎樣安排題本間的鏈接方案最好?不同鏈接方案下的分別校準方法會不會出現(xiàn)不同的表現(xiàn)?同時性校準與不同鏈接方案下的各種分別校準方法的等值精度孰優(yōu)孰劣?

為此，本研究擬使用我國某大尺度教育測評項目的實際數(shù)據(jù)，以RMSD為等值精度比較指標，對多題本共同題設(shè)計下不同等值方法以及不同題本鏈接方案進行對比研究，其中，不同等值方法雖然在不同研究中分別被采用過，但同時考慮不同題本鏈接方案在國內(nèi)外均沒有實證研究。這樣，研究既彌補了國內(nèi)外有關(guān)多題本共同題設(shè)計下不同等值方法以及不同題本鏈接方案的實證研究的不足，也為我國相關(guān)大尺度教育測評的等值設(shè)計提供參考和實證依據(jù)，進而更好地實現(xiàn)測驗的公平。

二、研究方法

(一)等值數(shù)據(jù)收集設(shè)計

本研究采用共同題非等組設(shè)計，共5個題本，各題本的測驗內(nèi)容相近、難度相仿，題本間有共同題。每個題本25道選擇題，其中6道共同題，共同題占題本總題量的24%。

(二)研究數(shù)據(jù)

數(shù)據(jù)來自國內(nèi)某大尺度教育測評項目(該項目的樣本采用PPS抽樣方法獲得，此方法為大尺度測評常用的抽樣方法，可確保樣本的代表性)中4年級數(shù)學測驗結(jié)果，隨機抽取其部分數(shù)據(jù)作為研究數(shù)據(jù)。5個題本的作答考生數(shù)分別為2553人、2516人、2517人、2489人和 2437人，總樣本量12512人。

(三)數(shù)據(jù)處理方法

1.數(shù)據(jù)模型

本研究中每個題目都是0、1計分的選擇題。根據(jù)選擇題可能存在被試隨機猜測的特點，本研究對于二值計分的選擇題采用三參數(shù)logistic模型估計題目參數(shù)。

2.鏈接方案

本研究比較集中式鏈接方案和鏈式鏈接方案兩種方案的等值效果。由于本研究中所有題本間有相同的共同題作為鉚題，所以可使用集中式鏈接方案和鏈式鏈接方案兩種鏈接方案。集中式鏈接方案中，隨機選擇一個試卷基本統(tǒng)計量適中的題本作為基準題本，其他題本的參數(shù)都鏈接到基準題本上。鏈式鏈接方案中，基準題本的選擇與集中式方案相同，其他題本隨機安排鏈接順序依次鏈接到基準題本上。

3.題目參數(shù)等值處理方法

本研究涉及3種等值方法:同時性校準、分別校準中的平均數(shù)與平均數(shù)方法(MM法)和SL特征曲線方法(SL法)。

同時性校準是在一次參數(shù)估計過程中同時估計所有題本的題目參數(shù)和能力參數(shù)。具體做法為:將兩個或更多個題本的數(shù)據(jù)合并，對其中由于題本設(shè)計造成的缺失在估計軟件中設(shè)置為未施測題目。經(jīng)過這樣的過程，所有的題目參數(shù)都在同一個尺度上。

分別校準時，首先按照一定的參數(shù)估計方法(如:1PLM、2PLM、3PLM)估計各個題本的參數(shù)，然后按照設(shè)定的不同分別校準方案(集中式鏈接方案、鏈式鏈接方案)和等值數(shù)據(jù)處理方法將各題本參數(shù)鏈接起來，最后使所有題本的題目參數(shù)都在同一個量尺上。

4.所用軟件

采用Zimowski等人開發(fā)的BILOG-MG程序進行題目參數(shù)估計，使用POLYST軟件進行分別校準的等值系數(shù)計算，使用SPSS 17.0軟件進行結(jié)果統(tǒng)計分析。

(四)等值精度比較

在本研究中，因為研究對象中有類似于循環(huán)等值的鏈式鏈接方案，若使用循環(huán)等值標準可能會使比較結(jié)果偏向鏈式鏈接方案，所以不適合采用循環(huán)等值方式作為等值標準。

根據(jù)研究的特點以及綜合分析各種等值標準的特點，本研究選擇大樣本標準作為等值比較標準，以每種等值方法本身的大樣本等值效果為標準，從大樣本中隨機抽取40%樣本量(小樣本每個題本大約1000名考生)作為小樣本，小樣本計算出來的題目參數(shù)和大樣本計算出來的題目參數(shù)相比較作為等值精度。誤差指標為RMSD，其表達式如下:

其中，m表示題目的數(shù)量，xi表示大樣本題本的題目參數(shù)，x'i表示小樣本題本的題目參數(shù)。RMSD指標值越小，表示該方法等值結(jié)果越精確。

三、研究結(jié)果

(一)題本基本統(tǒng)計結(jié)果描述

運用SPSS統(tǒng)計軟件對5個題本的題目進行統(tǒng)計分析，其基本信息統(tǒng)計見表1。

表1 5個題本數(shù)據(jù)的描述性統(tǒng)計

從表1中可以看到，5個題本共同題的平均分相近，初步說明做不同題本的考生能力相近。5個題本整卷的平均分也相近，初步說明大部分題本的難度相近。五個題本的科隆巴赫α系數(shù)較高，都達到了0.83以上，且信度值接近，滿足測驗等值等信度的要求。

分析每個題本的共同題得分與整個卷子得分的相關(guān)，共同題得分和整卷得分的相關(guān)都達到了0.8以上，共同題和非共同題的相關(guān)都在0.64以上，都達到0.05水平上的顯著，說明共同題和整卷的難度非常接近，與非共同題的難度也很相近。這說明共同題對整卷測驗特征具有較好的代表性，試卷題目適宜進行等值。

(二)分別校準的結(jié)果

分題本計算不同鏈接方案下每個分別校準方法得出的題目參數(shù)a、b的RMSD值，其結(jié)果匯總?cè)绫?所示。

表2 a、b參數(shù)等值精度RMSD

將不同鏈接方案下使用不同等值方法時各個題本的a、b參數(shù)等值精度值繪制成曲線圖(圖1、圖2)，顯示了等值精度在題本間的變化模式、不同等值方法的等值精度差異、兩種等值方案的精度差異。

圖1 兩種鏈接方案下兩種等值方法的各題本a參數(shù)等值精度

圖2 兩種鏈接方案下兩種等值方法的各題本b參數(shù)等值精度

從圖中可以看出，難度和區(qū)分度參數(shù)估計精度有相似的精度模式，無論是使用集中式鏈接方案或鏈式鏈接方案，SL法的等值精度高于MM法的等值精度。盡管個別題本上存在MM法精度高于SL法的情況，但優(yōu)勢并不明顯。鏈式鏈接方案下a參數(shù)、b參數(shù)的等值精度隨著鏈接題本數(shù)量的增加在不斷下降。而集中式鏈接方案下的等值精度趨勢則沒有鏈式方案的趨勢明顯。

在使用同一種等值方法的時候，不同鏈接方案的a、b參數(shù)等值精度基本一致。只有題本5上兩種鏈接方案的精度出現(xiàn)了明顯的差異。

綜合圖1、圖2的信息，可以看出等值方法對等值精度的影響高于鏈接方案對等值精度的影響，由于等值方法造成的精度差異要高于由于鏈接方案的不同造成的等值精度差異。匯總各個題本的等值精度可以看出，對于區(qū)分度和難度參數(shù)的估計，SL法精確性要高于MM法。在使用每一種分別校準等值方法時，集中式鏈接方案的等值精度要略好于鏈式鏈接方案。

(三)同時性校準的結(jié)果

為了將同時性校準和分別校準方法相比較，在大樣本下根據(jù)共同題的題目參數(shù)不變性，通過線性轉(zhuǎn)換將同時性校準量尺轉(zhuǎn)換到題本1分別校準量尺上。以大樣本下的同時性校準結(jié)果作為標準，比較小樣本下的同時性校準結(jié)果，計算參數(shù)精度指標RMSD。再將同時性校準和分別校準的精度結(jié)果進行比較，結(jié)果如表3所示。從中可以看出，不論是對區(qū)分度、還是對難度參數(shù)進行估計，同時性校準的估計精度都是最低的，其精度遠不如分別校準的SL法和MM法。

表3 同時性校準與各種分別校準方法的a、b參數(shù)精度排名

四、討論

(一)關(guān)于不同等值方法的比較

1.MM方法和SL方法的比較

關(guān)于MM方法和SL方法等值效果的比較，盡管已有研究結(jié)果不完全一致，但相對較多研究顯示 SL 等值方法的精度要高于 MM 方法［3-4］，［10-12］。

本研究也支持了以上結(jié)果，SL特征曲線方法的等值精度要好于MM方法。并且不論是估計題目難度參數(shù)，還是估計題目區(qū)分度參數(shù)，都有相同的表現(xiàn)。SL法是根據(jù)項目特征曲線的差異來推算等值系數(shù)，它能夠更全面地考慮到各個參數(shù)的特征，而不是僅僅考慮某一個題目參數(shù)，如難度或區(qū)分度，從而對測驗精度把握更好。當然，如果題目參數(shù)估計值誤差數(shù)量較大時，有可能會影響以上結(jié)果。

2.分別校準和同時性校準方法的比較

大多數(shù)研究已表明，同時性校準相對于分別校準而言結(jié)果更精確［6，11，13-14］。在實際應(yīng)用中，同時性校準的操作也相對方便，它可以通過一次軟件運行同時估計出整個測驗多個題本的所有題目參數(shù)，而分別校準則需要先估計出每個題本的題目參數(shù)值，然后計算等值轉(zhuǎn)換系數(shù)，再進行題目參數(shù)線性轉(zhuǎn)換，使不同題本的題目參數(shù)在同一個量尺上。所以，目前很多大型教育測評，如TIMSS，PISA等都是采用同時性校準方法估計參數(shù)。

但是，本研究大樣本比較的結(jié)果顯示，在由多題本共同題組成的測驗中，同時性校準在區(qū)分度和難度參數(shù)的估計中表現(xiàn)都不是最佳，其估計精度較其它方法低。MM等值方法和SL等值方法，無論在集中式鏈接方案還是鏈式鏈接方案中的估計精度都要比同時性校準的精度高。分析原因，可能正是由于本研究中多題本間共同題的比例偏少，使得同時性估計時大量缺失值存在，從而導致同時性估計的精度偏低。如在本研究估計題目參數(shù)的時候，對于做題本1的被試來說，題本2－題本5的非共同題都是缺失值，以此類推，在估計題目參數(shù)時對于每個考生的數(shù)據(jù)都存在大量的缺失值。這種情況，即共同題數(shù)量較少時同時性校準結(jié)果精度低于分別校準，在Kim和Cohen［11］的研究中也曾出現(xiàn)。另外，進一步仔細分析TIMSS，PISA等大型測試可以發(fā)現(xiàn)，這兩個項目并不是采用共同錨題的多題本設(shè)計，而是BIB多題本設(shè)計，即所有的題目都曾作為共同題分別出現(xiàn)在不同題本中，題目信息的利用率高，同時性校準時共同題比例較大，等值精度才比較有保證。

可見，雖然同時性校準在研究和實踐方面都明顯優(yōu)于分別校準，但是影響等值的因素較多，當面臨共同題量較少等具體因素時，本研究結(jié)果可以為選擇分別校準方法提供理論支持和參考依據(jù)。

(二)關(guān)于不同等值鏈接方案的比較

鏈式鏈接方案和集中式鏈接方案是兩種不同的分別校準鏈接方案，本研究結(jié)果表明，在鏈式鏈接方案中隨著題本數(shù)的增加，等值的精度在下降;但集中式鏈接方案下，這種題本間的精度變化模式則沒有那么明顯，題本間的精度是比較一致的。就其原因，鏈式鏈接方案累計了多次鏈接的誤差，會導致越是后鏈接的題本，其題目參數(shù)的估計誤差越大。而對于集中式鏈接方案，由于每個題本都是向同一個題本進行等值，所以每個題本的鏈接誤差是彼此獨立的，不存在題本間誤差的累積效應(yīng)，也就不會導致題本間的精度變化模式。

另外，從本研究的曲線圖結(jié)果和最后匯總的結(jié)果都可以看發(fā)現(xiàn)，集中式鏈接方案的等值精度要大于鏈式鏈接方案的精度。但是在使用某一種等值方法的時候，鏈式鏈接方案和集中式鏈接方案的等值精度差異較小，并不明顯。但是，當再增加題本數(shù)量時，這兩種鏈接方案的精度差異也許會更明顯。

總之，從本研究的結(jié)果中可以得出，在題本數(shù)量較少的多題本測驗中，這兩種測驗鏈接方案都可以作為一種選擇。但是，若一個測驗項目題本數(shù)量很多，可以預(yù)見隨著題本數(shù)的增加，鏈式鏈接方案的精度會不斷降低。這時可以考慮采用集中式鏈接方案，或者將這兩種方案進行綜合。

(三)關(guān)于等值方法和鏈接方案的比較

本研究結(jié)果還表明，盡管鏈接方案間在等值精度上存在一定差異，但是等值方法對等值精度的影響要高于鏈接方案的影響。也就是說，在使用分別校準方法的時候，等值鏈接方案并不是影響等值精度的最重要因素，分別校準方法的選擇要比等值鏈接方案的選擇更重要。在確定了一種分別校準方法之后，鏈接方案的選擇即可參考本研究所得出的結(jié)論，根據(jù)實際情況進行。

(四)有待進一步研究的問題

(1)在兩種鏈接方案中，基準題本的特征以及其他各個題本的試題、被試組能力特征都可能會對最后等值的精度造成影響。這些特征如何對等值精度造成影響、如何選擇合適的基準題本，還需進一步探討。

(2)如果測驗中的共同題數(shù)量增加，共同題占題本總題量比重加大，是否能得到與本研究相同的結(jié)論?這也是值得進一步探討的問題。

(3)本研究結(jié)果是基于某一樣本，雖然是通過PPS抽樣方法得到，但其結(jié)論任然值得更多的樣本數(shù)據(jù)加以驗證。

五、結(jié)論

(1)Stocking＆Lord方法的估計精度要高于Mean-Mean方法;Mean-Mean和Stocking＆Lord兩種分別校準等值方法在集中式鏈接方案和鏈式鏈接方案中的參數(shù)估計精度都比同時性校準的精度高。

(2)在鏈式鏈接方案中，隨著鏈接題本數(shù)量的增加，參數(shù)等值精度在下降，在集中式鏈接方案中等值精度則沒有這樣明顯的規(guī)律。

(3)等值方法對精度的影響要大于鏈接方案對等值精度的影響。

可見，在大尺度教育測評中對多題本進行等值時，需要綜合考慮多種因素，選擇適當?shù)牡戎捣椒ā㈡溄臃桨福绻嵌囝}本共同題設(shè)計，建議采用分別估計，SL法，集中式鏈接方法，這樣有助于提高精度，更好實現(xiàn)教育測驗的公平。

［1］Kolen M J，Brennan R L．Test Equating，Scaling，and Linking［M］．New York:Springer，2004．

［2］Han T，Kolen M J，Pohlmann J A Comparison among IRT True-and Observed-score Equatings and Traditional Equipercentile Equating［J］．Applied Measurement in Education，1997，10:105-121．

［3］Baker F B，Al-Karni．A Comparison of Two Procedures for Computing IRT Equating Coefficients［J］．Journal of Educational Measurement，1991，28:147-162．

［4］Ogasawara H．Asymptotic Standard Errors of IRT Equating Coefficients Using Moments［J］．Economic Review，2000，51(1):1-23．

［5］Beguin A A，Hanson B A．Effect of Noncompensatory Multidimensionality on Separate and Concurrent Estimation in IRT Equating Observed Score Equating［Z］．Paper Presented at the Annual Meeting of the National Council on Measurement in Education，Seattle，WA，2001．

［6］Hanson B A，Beguin A A．Obtaining a Common Scale for Item Response Theory Item Parameters Using Separate Versus Concurrent Estimation in the Common-item Equating Design［J］．Applied Psychological Measurement，2002，26(1):32-24．

［7］謝小慶．對15中測驗等值方法的比較研究［J］．心理學報，2000，32(2):217-223．

［8］焦麗亞．基于IRT的共同題非等組設(shè)計中五種項目參數(shù)等值方法的比較研究［J］．考試研究，2009，5(2):85-99．

［9］謝小慶．等值實驗研究與HSK鏈接方案［D］．北京:北京師范大學，1998．

［10］Hung，et al．IRT Item Parameter Linking:Relevant Issues for the Purpose of Item Banking［Z］．International Academic Symposium on Psychological Measurement，Tainan，Taiwan，1991．

［11］Kim S，Cohen A S．A Comparison of Linking and Concurrent Calibration under Item Response Theory［J］．Applied Psychological Measurement，1998，22:131-143．

［12］Ogasawara H．Stable Response Functions with Unstable Item Parameter Estimates［J］．Applied Psychological Measurement，2002，26(3):239-254．

［13］Petersen N S，Cook L L，Stocking M L．IRT Versus Conventional Equating Methods:A Comparative Study of Scale Stability［J］．Journal of Educational Statistics，1983，8(2):137-156．

［14］Wingersky M S，Cook L L，Eignor D R．Specifying the Characteristics of Linking Items Used for Item Response Theory Item Calibration［M］．Princeton NJ:Educational Testing Service，1987．