CAT中能力參數估計方法的改進：R-MLE估計法*

2016-04-07 05:28:02蔡艷

心理學探新 2016年1期

蔡　艷

(江西師范大學心理學院，江西省心理與認知科學重點實驗室，南昌 330022)

蔡艷

(江西師范大學心理學院，江西省心理與認知科學重點實驗室，南昌 330022)

摘要：本文對CAT中能力估計的常用方法——最大似然估計法(MLE)進行改進，研究中結合EAP方法提出了改進的MLE法(R-MLE)。Monte Carlo模擬研究發現：不論是在定長CAT還是非定長CAT中，不論是在1PL模型下還是在2PL或3PL模型中，不論是在何種CAT題庫結構下，R-MLE法較傳統的MLE法具有更佳的估計精度及更有效的測驗效率；R-MLE法不僅可以提高CAT的能力估計精度還可以進一步改善CAT測試的效率，具有一定的應用前景。

關鍵詞：計算機化自適應測驗；能力估計方法；EAP；MLE

1引言

計算機化自適應測驗(CAT)是項目反應理論最為成功的應用之一(Van der linden & Glas，2010)。CAT因“量體裁衣、因人施測”的現代測量思想而深受研究者和應用者的推崇，目前國際上大型CAT的具體實例包括美國研究入學測驗(GRE)、美國商學院研究生招生測驗(GMAT)等。

當前，對于CAT的研究已引起了國內外學者的廣泛關注(如陳平，丁樹良，2008；戴海琦，陳德枝，丁樹良，鄧太萍，2006；簡小珠，張敏強，2010；羅芬，丁樹良，王曉慶，2012；Barrada，Olea，Ponsoda，& Abad，2010；Chang & Ying，1999，2008；Doebler，2012；Kieftenbeld & Natesan，2012；等)。但從目前研究來看，國內外關于CAT的研究主要集中在CAT的選題策略研究，對這一領域的研究成果也最為豐富。但關于CAT中能力估計方法的研究國內外的文獻卻不多，尤其是關于CAT能力估計新方法的研究則更少。我們知道，CAT中能力估計的精度不足會導致CAT的優勢難于發揮，其自適應(adaptive)的選題策略宗旨也是建立在對被試能力準確估計的基礎之上，因此選擇合適的CAT能力估計方法或者開發估計精度更高的新方法值得進一步探討。

目前國際上，CAT中能力參數估計的方法主要有最大似然估計(MLE)、貝葉斯期望后驗估計(EAP)、貝葉斯眾數估計(MAP)和馬爾科夫鏈蒙特卡羅(MCMC)方法等，每種方法各有特點。Wang和Vispoel(1998)認為，CAT中MLE方法的主要缺點是參數估計中需要不斷迭代估計以及被試全對或全錯的情況下無法估計等，但優點是MLE估計是能力參數的充分估計量；EAP和MAP等貝葉斯法的主要缺點是先驗分布的選擇非常重要，但EAP法不需要迭代估計。當然，MCMC算法最大的缺點在于耗時很長，不利于CAT的即時估計及選題，但其估計的精度較高。因此，CAT中，各種能力參數估計方法各有千秋，研究者可以根據實際情況選擇恰當的估計方法。

查閱國內外相關文獻，我們發現傳統CAT能力估計方法中，研究者一般是自始至終采用某種估計方法(如MLE或EAP或其它)，對于同一個CAT中，在CAT不同階段采用不同估計方法對同一被試能力進行估計的研究未見相關文獻。我們認為，參數估計的不同算法各有優劣，在CAT中由于能力估計是一種動態即時估計(每做完一題都需重新估計被試能力)，因此在CAT不同階段/不同情況下可以采用不同的估計方法，以充分發揮各種估計方法的優勢，從而提高CAT能力估計的精度及提高CAT的測試效率，這種全新的思路將會在更多領域進行嘗試。

為此，本研究擬探討CAT中不同能力估計方法的結合，以充分發揮各種估計方法的優勢。本研究擬重點探討MLE法與EAP法的結合，過程分析如下：對于采用MLE法進行能力參數估計的CAT，其初始階段一般不是正式自適應選題階段，通常是先從題庫中隨機抽取幾題(如3~5題)供被試作答，然后根據被試在這幾題的做答情況初估被試能力，但只有當被試得分不全為0分也不全為滿分時，方能采用MLE法進行估計，否則仍需從題庫中繼續選題直至被試得分不全為0分也不全為滿分后進行能力初估；接著在能力初估的基礎上進入正式的CAT自適應選題策略。由于CAT的初始題較少且一般為難度中等試題，能力較高的被試或能力較低的被試在初始階段獲得滿分或0分的可能性較大，這勢必導致如下問題：在CAT初始階段得滿分或0分的被試進入正式的自適應選題策略階段較晚，對于定長CAT則會大大降低MLE法對被試能力估計的精度，而對于不定長CAT則會大大降低CAT自適應的測試效率(即需要更多試題方能結束測試)。那么在實踐中有沒有方法可以克服MLE法的以上不足呢？一方面對于所有被試，可以較快進入CAT自適應選題階段；另一方面，對于得分為滿分或0分時，仍可估計被試的能力。為了彌補MLE法的以上不足，本研究擬采用EAP法與MLE相結合，具體結合的思路為：一旦被試全得滿分或0分則采用EAP進行估計，否則采用MLE估計，這樣就可以從CAT的第2題始就實現對被試的自適應選題，大大提高了CAT自適應的宗旨及測試的效率。由于這種新方法更多的是彌補MLE法不能估計“全得滿分或0分的被試”不足的基礎上提出來的，因此本文稱此方法為改進的MLE法(簡記為R-MLE)。

為了進一步驗證本研究提出的R-MLE的效果，本文采用Monte Carlo實驗的方法進行，分別考察定長CAT和不定長CAT，不同IRT模型下(1PLM、2PLM和3PLM)及不同CAT題庫下R-MLE方法的可行性及合理性，并與傳統的MLE方法進行比較。

2研究一：CAT中改進的MLE法(R-MLE)與傳統MLE法的比較

2.1實驗1：定長CAT下R-MLE估計精度

采用3×3兩因素實驗設計，考察定長CAT中測驗長度和所采用的IRT模型兩種因素下，比較改進的MLE法(即R-MLE法)與傳統的MLE法的參數估計精度，其中測驗長度分別為10題、20題和30題，IRT模型分別為1PLM、2PLM和3PLM。

本實驗為定長CAT，當被試的測驗長度達到預先指定的要求(如10題、20題或30題)則結束CAT。

2.2實驗2：不定長CAT下R-MLE估計精度

采用2×3兩因素實驗設計，考察不定長CAT中測量信度和采用的IRT模型兩種因素下，比較改進的MLE法與傳統的MLE法的參數估計精度，其中測量信度分別為0.8和0.9，IRT模型分別為1PLM、2PLM和3PLM。

本實驗不定長CAT中，當被試的測量信度達到預先指定的要求(如r=0.8和r=0.9)則結束CAT。

根據Wang和Vispoel(1998)的研究，信度與信息量間存在如下轉換公式：

在能力θ的標準正態分布中，Sx=1。當信度為0.8時，則信息量為5；當信度為0.9時，則信息量為10。因此，在不定長CAT中，只有當被試的測量信度(或測驗信息量)達到預先設定的要求則終止CAT。

2.3模擬過程

(1)題庫項目參數：共模擬300道試題。對于3PLM，a的取值范圍限定在[0.25，2.5]，b限定在[-4，4]，c小于0.3。當令參數c=0時，則模型變為2PLM；令參數c=0和a=1時則模型變為1PLM。

(2)被試參數：θ~N(0，1)。每種實驗處理模擬被試1000人，并重復實驗30次，即每種實驗處理模擬30000被試。其中實驗1有3×3=9種實驗處理，模擬270000名被試；實驗2有2×3=6種實驗處理，模擬180000名被試，共計模擬被試450000名被試。

2.4評價指標

分別比較傳統MLE和改進后的MLE(即R-MLE)兩種參數估計方法對被試參數估計的精度即返真性(Recovery)以及測試的效率(即不定長CAT中被試平均使用的測驗項目數)。返真性采用平均絕對離差(ABS)指標，即能力參數估計值與真值的平均絕對離差。

2.5結果

表1和圖1為在二級評分CAT下，MLE與R-MLE兩種方法的參數估計精度。

表1　R-MLE法對能力參數估計精度的改善(ABS)

圖1　R-MLE與MLE平均ABS比較

表1和圖1表明：

在定長CAT的實驗1中，不論CAT測驗長度是10題、20題還是30題，R-MLE法的平均絕對離差(ABS)都小于MLE法；同樣，不論是在1PLM、2PLM還是3PLM，R-MLE法的平均絕對離差(ABS)也都小于MLE法。這表明改進的MLE法即R-MLE法的參數估計的精度優于傳統的MLE法，新方法具有更小的估計誤差。

在不定長CAT的實驗2中，實驗結果與實驗1基本相同，不論測量的信度是0.8還是0.9，R-MLE法的平均絕對離差(ABS)都小于MLE法；同樣，不論是在1PLM、2PLM還是3PLM，R-MLE法的平均絕對離差(ABS)也都小于MLE法。數據顯示改進的MLE法即R-MLE法的參數估計的精度優于傳統的MLE法，新方法具有更小的估計誤差。對于測驗效率指標(見表2)，除了在1PLM實驗情景下，R-MLE法的被試平均使用項目數少于MLE，說明R-MLE法較MLE法具有更高的測試效率。

表2　R-MLE與MLE的測驗效率比較

通過本研究中的實驗1和實驗2，我們可以看出，在二級評分的CAT中，本文提出的綜合法即R-MLE法較傳統的MLE法具有更高的估計精度和更高的測驗效率，新方法具有一定的應用前景。

3研究二：不同題庫結構下R-MLE法對能力參數估計精度的改善

為便于說明問題及簡化實驗，本研究采用的IRT模型均為2PLM。

3.1實驗3：定長CAT下R-MLE估計精度

本實驗CAT定長為20題，采用單因素實驗設計，考察不同題庫下R-MLE法與傳MLE法參數估計精度。

3.2實驗4：不定長CAT下R-MLE估計精度

本實驗CAT的信度固定為0.9，采用單因素實驗設計，考察不同題庫下R-MLE法與傳MLE法參數估計精度。

3.3模擬過程

本模擬與研究一基本一致，但題庫結構不同，具體模擬四種不同類型的題庫，分別為：

(1)題庫1：難度參數正態分布(b~∈N(0，1))，區分度對數正態分布(a~logN(0，1))

(2)題庫2：難度參數正態分布(b~N(0，1))，區分度均勻分布(a~U(0.25，2.5))

(3)題庫3：難度參數均勻分布(b~U(-4，4)，區分度對數正態分布(a~logN(0，1))

(4)題庫4：難度參數均勻分布(b~U(-4，4)，區分度均勻分布(a~U(0.25，2.5))

3.4評價指標

采用平均絕對離差(ABS)以及測試的效率(即不定長CAT中被試平均使用的測驗項目數)。

3.5結果

從實驗結果可以看出(見表3及表4)，不論是在何種題庫結構下，R-MLE法的估計精度優于MLE法，且測試的效率也優于MLE法。當然，表3與表4說明不同題庫結構下，兩種方法的估計精度不完全一致，這說明題庫的結構在一定程度上會影響CAT的能力估計精度，這也一點與以前研究基本一致。

表3　不同題庫結構下R-MLE法與MLE的比較(2PLM)

表4　不同題庫結構下R-MLE與MLE的

4研究結論及討論

本研究對傳統CAT能力估計方法進行改善，具體改善的方法是將不同方法進行結合，在CAT的不同階段采用合適的估計方法，本研究重點關注了采用EAP方法來彌補MLE方法的不足，由此提出了R-MLE估計法。Monte Carlo實驗表明：不論是在定長CAT還是非定長CAT中，不論是在1PL模型下還是在2PL或3PL中，不論是在何種CAT題庫結構下，R-MLE法較傳統的MLE法具有更佳的估計精度及更有效的測驗效率。R-MLE法不僅可以提高CAT的能力估計精度還可以進一步改善CAT測試的效率，因而具有較好的應用前景。

當然，本研究還有許多不足，如只考慮EAP和MLE兩種方法的結合，未來研究還可以進一步考察其它方法的結合；研究中只考察二級評分模型下R-MLE的效果，它在多級評分CAT的適用性還有待進一步探討。我們撰寫此文，希望能起著拋磚引玉的作用，讓更多研究者參與到CAT能力估計方法改進的研究中，以進一步推動我國在這領域的發展。

參考文獻

陳平，丁樹良.(2010).允許檢查并修改答案的計算機化自適應測驗.心理學報，40(6)，737-747.

戴海崎，陳德枝，丁樹良，鄧太萍.(2006).多級評分題計算機自適應測驗選題策略比較.心理學報，38(5)，778-783.

簡小珠，張敏強.(2010).CAT初始階段被試能力估計方法改進探究.心理科學，(6)，1470-1472.

羅芬，丁樹良，王曉慶.(2012).多級評分計算機化自適應測驗動態綜合選題策略.心理學報，44(3)，400-412.

Barrada，J.R.，Olea，J.，Ponsoda，V.，& Abad，F.J.(2010).A method for the comparison of item selection rules in computerized adaptive testing.AppliedPsychologicalMeasurement，34(6)，438-452.

Chang，H.H.，& Ying，Z.L.(2008).To weight or not to weight?Balancing influence of initial items in adaptive testing.Psychometrik，73(3)，441-450.

Chang，H.H.，& Ying，Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement，23，211-222.

Doebler，A.(2012).The Problem of Bias in Person Parameter Estimation in Adaptive Testing.AppliedPsychologicalMeasurement，36(54)，255-270.

Kieftenbeld，V.，& Natesan，P.(2012).Recovery of Graded Response Model Parameters A Comparison of Marginal Maximum Likelihood and Markov Chain Monte Carlo Estimation.AppliedPsychologicalMeasurement，36(5)，399-419.

Van der linden，W.J.，& Glas，C.A.(2010).ElementsofAdaptiveTesting.Springer，New York Dordrecht Heidelberg London.

Wang，T.，& Vispoel，W.P.(1998).Properties of ability estimation methods in computerized adaptive testing.JournalofEducationalMeasurement，35(2)，109-135.

The Revised MLE Algorithm of Ability Estimated Method in CAT：R-MLE Algorithm

Cai Yan

(School of Psychology，Jiangxi Key Laboratory of Psychology and Cognitive Science，Jiangxi Normal University，Nanchang 330022)

Abstract：In this paper，referring to the most popular ability estimation algorithm(maximum likelihood estimation method，MLE)，some modification were done integrated into expected a posterior method(EAP)，the new algorithm was called R-MLE method.The basic idea of this method was the following：once the score of the examinee was zero or full，his ability was estimated by EAP method；otherwise it was estimated by MLE method.Thus the adaptive choose of items was started from the second item in CAT，which was expected to be more effective and more adaptive than ever.The Monte Carlo simulation method was used here.The ABS index was used to test theprecision of ability parameter estimate and the average use ration index of items was used to test the efficiency of testing.Two studies were employed here.The first one was designed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under the fixed and unfixed test length rule of CAT and under 1PLM，2PLM and 3PLM.The second one was employed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under different structure of item bank，but only the 2PLM being considered.The findings suggested：Under any kind of CAT item bank，whether the fixed test length rule or unfixed test length rule was used，whether the one，two or three parameter logistic model were used，it was found that the estimation accuracy and efficiency of the R-MLE method was greater than that of the MLE method.It was also found that it would be more effective during CAT test when R-MLE method was used，which would be more applicable in practice.

Key words：computerized adaptive testing；ability estimation method；EAP；MLE

中圖分類號：B841.2

文獻標識碼：A

文章編號：1003-5184(2016)01-0092-05

通訊作者：蔡艷，E-mail：cy1979123@aliyun.com。

*基金項目：教育部人文社科基金(11YJC190002)，國家自然科學基金(31300876，31100756，31160203)，高等院校博士點基金項目(20103604120001，20123604120001)，江西省教育科學規劃項目(13YB029，12YB088)，江西師范大學青年英才培育資助計劃項目資助。

心理學探新2016年1期

心理學探新的其它文章: 認知診斷模型下整體和項目擬合指標*; 定量數據分析效應值：意義、計算與解釋*; 刻板印象信息溝通的默認策略*; 權力感對為自己和為他人消費行為的影響; 微笑影響面孔吸引力判斷的眼動研究*; 考生作答數據反饋對Angoff標準設定結果的影響