999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CAT中能力參數(shù)估計方法的改進(jìn):R-MLE估計法*

2016-04-07 05:28:02
心理學(xué)探新 2016年1期

蔡 艷

(江西師范大學(xué)心理學(xué)院,江西省心理與認(rèn)知科學(xué)重點實驗室,南昌 330022)

?

CAT中能力參數(shù)估計方法的改進(jìn):R-MLE估計法*

蔡艷

(江西師范大學(xué)心理學(xué)院,江西省心理與認(rèn)知科學(xué)重點實驗室,南昌 330022)

摘要:本文對CAT中能力估計的常用方法——最大似然估計法(MLE)進(jìn)行改進(jìn),研究中結(jié)合EAP方法提出了改進(jìn)的MLE法(R-MLE)。Monte Carlo模擬研究發(fā)現(xiàn):不論是在定長CAT還是非定長CAT中,不論是在1PL模型下還是在2PL或3PL模型中,不論是在何種CAT題庫結(jié)構(gòu)下,R-MLE法較傳統(tǒng)的MLE法具有更佳的估計精度及更有效的測驗效率;R-MLE法不僅可以提高CAT的能力估計精度還可以進(jìn)一步改善CAT測試的效率,具有一定的應(yīng)用前景。

關(guān)鍵詞:計算機(jī)化自適應(yīng)測驗;能力估計方法;EAP;MLE

1引言

計算機(jī)化自適應(yīng)測驗(CAT)是項目反應(yīng)理論最為成功的應(yīng)用之一(Van der linden & Glas,2010)。CAT因“量體裁衣、因人施測”的現(xiàn)代測量思想而深受研究者和應(yīng)用者的推崇,目前國際上大型CAT的具體實例包括美國研究入學(xué)測驗(GRE)、美國商學(xué)院研究生招生測驗(GMAT)等。

當(dāng)前,對于CAT的研究已引起了國內(nèi)外學(xué)者的廣泛關(guān)注(如陳平,丁樹良,2008;戴海琦,陳德枝,丁樹良,鄧太萍,2006;簡小珠,張敏強(qiáng),2010;羅芬,丁樹良,王曉慶,2012;Barrada,Olea,Ponsoda,& Abad,2010;Chang & Ying,1999,2008;Doebler,2012;Kieftenbeld & Natesan,2012;等)。但從目前研究來看,國內(nèi)外關(guān)于CAT的研究主要集中在CAT的選題策略研究,對這一領(lǐng)域的研究成果也最為豐富。但關(guān)于CAT中能力估計方法的研究國內(nèi)外的文獻(xiàn)卻不多,尤其是關(guān)于CAT能力估計新方法的研究則更少。我們知道,CAT中能力估計的精度不足會導(dǎo)致CAT的優(yōu)勢難于發(fā)揮,其自適應(yīng)(adaptive)的選題策略宗旨也是建立在對被試能力準(zhǔn)確估計的基礎(chǔ)之上,因此選擇合適的CAT能力估計方法或者開發(fā)估計精度更高的新方法值得進(jìn)一步探討。

目前國際上,CAT中能力參數(shù)估計的方法主要有最大似然估計(MLE)、貝葉斯期望后驗估計(EAP)、貝葉斯眾數(shù)估計(MAP)和馬爾科夫鏈蒙特卡羅(MCMC)方法等,每種方法各有特點。Wang和Vispoel(1998)認(rèn)為,CAT中MLE方法的主要缺點是參數(shù)估計中需要不斷迭代估計以及被試全對或全錯的情況下無法估計等,但優(yōu)點是MLE估計是能力參數(shù)的充分估計量;EAP和MAP等貝葉斯法的主要缺點是先驗分布的選擇非常重要,但EAP法不需要迭代估計。當(dāng)然,MCMC算法最大的缺點在于耗時很長,不利于CAT的即時估計及選題,但其估計的精度較高。因此,CAT中,各種能力參數(shù)估計方法各有千秋,研究者可以根據(jù)實際情況選擇恰當(dāng)?shù)墓烙嫹椒ā?/p>

查閱國內(nèi)外相關(guān)文獻(xiàn),我們發(fā)現(xiàn)傳統(tǒng)CAT能力估計方法中,研究者一般是自始至終采用某種估計方法(如MLE或EAP或其它),對于同一個CAT中,在CAT不同階段采用不同估計方法對同一被試能力進(jìn)行估計的研究未見相關(guān)文獻(xiàn)。我們認(rèn)為,參數(shù)估計的不同算法各有優(yōu)劣,在CAT中由于能力估計是一種動態(tài)即時估計(每做完一題都需重新估計被試能力),因此在CAT不同階段/不同情況下可以采用不同的估計方法,以充分發(fā)揮各種估計方法的優(yōu)勢,從而提高CAT能力估計的精度及提高CAT的測試效率,這種全新的思路將會在更多領(lǐng)域進(jìn)行嘗試。

為此,本研究擬探討CAT中不同能力估計方法的結(jié)合,以充分發(fā)揮各種估計方法的優(yōu)勢。本研究擬重點探討MLE法與EAP法的結(jié)合,過程分析如下:對于采用MLE法進(jìn)行能力參數(shù)估計的CAT,其初始階段一般不是正式自適應(yīng)選題階段,通常是先從題庫中隨機(jī)抽取幾題(如3~5題)供被試作答,然后根據(jù)被試在這幾題的做答情況初估被試能力,但只有當(dāng)被試得分不全為0分也不全為滿分時,方能采用MLE法進(jìn)行估計,否則仍需從題庫中繼續(xù)選題直至被試得分不全為0分也不全為滿分后進(jìn)行能力初估;接著在能力初估的基礎(chǔ)上進(jìn)入正式的CAT自適應(yīng)選題策略。由于CAT的初始題較少且一般為難度中等試題,能力較高的被試或能力較低的被試在初始階段獲得滿分或0分的可能性較大,這勢必導(dǎo)致如下問題:在CAT初始階段得滿分或0分的被試進(jìn)入正式的自適應(yīng)選題策略階段較晚,對于定長CAT則會大大降低MLE法對被試能力估計的精度,而對于不定長CAT則會大大降低CAT自適應(yīng)的測試效率(即需要更多試題方能結(jié)束測試)。那么在實踐中有沒有方法可以克服MLE法的以上不足呢?一方面對于所有被試,可以較快進(jìn)入CAT自適應(yīng)選題階段;另一方面,對于得分為滿分或0分時,仍可估計被試的能力。為了彌補(bǔ)MLE法的以上不足,本研究擬采用EAP法與MLE相結(jié)合,具體結(jié)合的思路為:一旦被試全得滿分或0分則采用EAP進(jìn)行估計,否則采用MLE估計,這樣就可以從CAT的第2題始就實現(xiàn)對被試的自適應(yīng)選題,大大提高了CAT自適應(yīng)的宗旨及測試的效率。由于這種新方法更多的是彌補(bǔ)MLE法不能估計“全得滿分或0分的被試”不足的基礎(chǔ)上提出來的,因此本文稱此方法為改進(jìn)的MLE法(簡記為R-MLE)。

為了進(jìn)一步驗證本研究提出的R-MLE的效果,本文采用Monte Carlo實驗的方法進(jìn)行,分別考察定長CAT和不定長CAT,不同IRT模型下(1PLM、2PLM和3PLM)及不同CAT題庫下R-MLE方法的可行性及合理性,并與傳統(tǒng)的MLE方法進(jìn)行比較。

2研究一:CAT中改進(jìn)的MLE法(R-MLE)與傳統(tǒng)MLE法的比較

2.1實驗1:定長CAT下R-MLE估計精度

采用3×3兩因素實驗設(shè)計,考察定長CAT中測驗長度和所采用的IRT模型兩種因素下,比較改進(jìn)的MLE法(即R-MLE法)與傳統(tǒng)的MLE法的參數(shù)估計精度,其中測驗長度分別為10題、20題和30題,IRT模型分別為1PLM、2PLM和3PLM。

本實驗為定長CAT,當(dāng)被試的測驗長度達(dá)到預(yù)先指定的要求(如10題、20題或30題)則結(jié)束CAT。

2.2實驗2:不定長CAT下R-MLE估計精度

采用2×3兩因素實驗設(shè)計,考察不定長CAT中測量信度和采用的IRT模型兩種因素下,比較改進(jìn)的MLE法與傳統(tǒng)的MLE法的參數(shù)估計精度,其中測量信度分別為0.8和0.9,IRT模型分別為1PLM、2PLM和3PLM。

本實驗不定長CAT中,當(dāng)被試的測量信度達(dá)到預(yù)先指定的要求(如r=0.8和r=0.9)則結(jié)束CAT。

根據(jù)Wang和Vispoel(1998)的研究,信度與信息量間存在如下轉(zhuǎn)換公式:

在能力θ的標(biāo)準(zhǔn)正態(tài)分布中,Sx=1。當(dāng)信度為0.8時,則信息量為5;當(dāng)信度為0.9時,則信息量為10。因此,在不定長CAT中,只有當(dāng)被試的測量信度(或測驗信息量)達(dá)到預(yù)先設(shè)定的要求則終止CAT。

2.3模擬過程

(1)題庫項目參數(shù):共模擬300道試題。對于3PLM,a的取值范圍限定在[0.25,2.5],b限定在[-4,4],c小于0.3。當(dāng)令參數(shù)c=0時,則模型變?yōu)?PLM;令參數(shù)c=0和a=1時則模型變?yōu)?PLM。

(2)被試參數(shù):θ~N(0,1)。每種實驗處理模擬被試1000人,并重復(fù)實驗30次,即每種實驗處理模擬30000被試。其中實驗1有3×3=9種實驗處理,模擬270000名被試;實驗2有2×3=6種實驗處理,模擬180000名被試,共計模擬被試450000名被試。

2.4評價指標(biāo)

分別比較傳統(tǒng)MLE和改進(jìn)后的MLE(即R-MLE)兩種參數(shù)估計方法對被試參數(shù)估計的精度即返真性(Recovery)以及測試的效率(即不定長CAT中被試平均使用的測驗項目數(shù))。返真性采用平均絕對離差(ABS)指標(biāo),即能力參數(shù)估計值與真值的平均絕對離差。

2.5結(jié)果

表1和圖1為在二級評分CAT下,MLE與R-MLE兩種方法的參數(shù)估計精度。

表1 R-MLE法對能力參數(shù)估計精度的改善(ABS)

圖1 R-MLE與MLE平均ABS比較

表1和圖1表明:

在定長CAT的實驗1中,不論CAT測驗長度是10題、20題還是30題,R-MLE法的平均絕對離差(ABS)都小于MLE法;同樣,不論是在1PLM、2PLM還是3PLM,R-MLE法的平均絕對離差(ABS)也都小于MLE法。這表明改進(jìn)的MLE法即R-MLE法的參數(shù)估計的精度優(yōu)于傳統(tǒng)的MLE法,新方法具有更小的估計誤差。

在不定長CAT的實驗2中,實驗結(jié)果與實驗1基本相同,不論測量的信度是0.8還是0.9,R-MLE法的平均絕對離差(ABS)都小于MLE法;同樣,不論是在1PLM、2PLM還是3PLM,R-MLE法的平均絕對離差(ABS)也都小于MLE法。數(shù)據(jù)顯示改進(jìn)的MLE法即R-MLE法的參數(shù)估計的精度優(yōu)于傳統(tǒng)的MLE法,新方法具有更小的估計誤差。對于測驗效率指標(biāo)(見表2),除了在1PLM實驗情景下,R-MLE法的被試平均使用項目數(shù)少于MLE,說明R-MLE法較MLE法具有更高的測試效率。

表2 R-MLE與MLE的測驗效率比較

通過本研究中的實驗1和實驗2,我們可以看出,在二級評分的CAT中,本文提出的綜合法即R-MLE法較傳統(tǒng)的MLE法具有更高的估計精度和更高的測驗效率,新方法具有一定的應(yīng)用前景。

3研究二:不同題庫結(jié)構(gòu)下R-MLE法對能力參數(shù)估計精度的改善

為便于說明問題及簡化實驗,本研究采用的IRT模型均為2PLM。

3.1實驗3:定長CAT下R-MLE估計精度

本實驗CAT定長為20題,采用單因素實驗設(shè)計,考察不同題庫下R-MLE法與傳MLE法參數(shù)估計精度。

3.2實驗4:不定長CAT下R-MLE估計精度

本實驗CAT的信度固定為0.9,采用單因素實驗設(shè)計,考察不同題庫下R-MLE法與傳MLE法參數(shù)估計精度。

3.3模擬過程

本模擬與研究一基本一致,但題庫結(jié)構(gòu)不同,具體模擬四種不同類型的題庫,分別為:

(1)題庫1:難度參數(shù)正態(tài)分布(b~∈N(0,1)),區(qū)分度對數(shù)正態(tài)分布(a~logN(0,1))

(2)題庫2:難度參數(shù)正態(tài)分布(b~N(0,1)),區(qū)分度均勻分布(a~U(0.25,2.5))

(3)題庫3:難度參數(shù)均勻分布(b~U(-4,4),區(qū)分度對數(shù)正態(tài)分布(a~logN(0,1))

(4)題庫4:難度參數(shù)均勻分布(b~U(-4,4),區(qū)分度均勻分布(a~U(0.25,2.5))

3.4評價指標(biāo)

采用平均絕對離差(ABS)以及測試的效率(即不定長CAT中被試平均使用的測驗項目數(shù))。

3.5結(jié)果

從實驗結(jié)果可以看出(見表3及表4),不論是在何種題庫結(jié)構(gòu)下,R-MLE法的估計精度優(yōu)于MLE法,且測試的效率也優(yōu)于MLE法。當(dāng)然,表3與表4說明不同題庫結(jié)構(gòu)下,兩種方法的估計精度不完全一致,這說明題庫的結(jié)構(gòu)在一定程度上會影響CAT的能力估計精度,這也一點與以前研究基本一致。

表3 不同題庫結(jié)構(gòu)下R-MLE法與MLE的比較(2PLM)

表4 不同題庫結(jié)構(gòu)下R-MLE與MLE的

4研究結(jié)論及討論

本研究對傳統(tǒng)CAT能力估計方法進(jìn)行改善,具體改善的方法是將不同方法進(jìn)行結(jié)合,在CAT的不同階段采用合適的估計方法,本研究重點關(guān)注了采用EAP方法來彌補(bǔ)MLE方法的不足,由此提出了R-MLE估計法。Monte Carlo實驗表明:不論是在定長CAT還是非定長CAT中,不論是在1PL模型下還是在2PL或3PL中,不論是在何種CAT題庫結(jié)構(gòu)下,R-MLE法較傳統(tǒng)的MLE法具有更佳的估計精度及更有效的測驗效率。R-MLE法不僅可以提高CAT的能力估計精度還可以進(jìn)一步改善CAT測試的效率,因而具有較好的應(yīng)用前景。

當(dāng)然,本研究還有許多不足,如只考慮EAP和MLE兩種方法的結(jié)合,未來研究還可以進(jìn)一步考察其它方法的結(jié)合;研究中只考察二級評分模型下R-MLE的效果,它在多級評分CAT的適用性還有待進(jìn)一步探討。我們撰寫此文,希望能起著拋磚引玉的作用,讓更多研究者參與到CAT能力估計方法改進(jìn)的研究中,以進(jìn)一步推動我國在這領(lǐng)域的發(fā)展。

參考文獻(xiàn)

陳平,丁樹良.(2010).允許檢查并修改答案的計算機(jī)化自適應(yīng)測驗.心理學(xué)報,40(6),737-747.

戴海崎,陳德枝,丁樹良,鄧太萍.(2006).多級評分題計算機(jī)自適應(yīng)測驗選題策略比較.心理學(xué)報,38(5),778-783.

簡小珠,張敏強(qiáng).(2010).CAT初始階段被試能力估計方法改進(jìn)探究.心理科學(xué),(6),1470-1472.

羅芬,丁樹良,王曉慶.(2012).多級評分計算機(jī)化自適應(yīng)測驗動態(tài)綜合選題策略.心理學(xué)報,44(3),400-412.

Barrada,J.R.,Olea,J.,Ponsoda,V.,& Abad,F(xiàn).J.(2010).A method for the comparison of item selection rules in computerized adaptive testing.AppliedPsychologicalMeasurement,34(6),438-452.

Chang,H.H.,& Ying,Z.L.(2008).To weight or not to weight?Balancing influence of initial items in adaptive testing.Psychometrik,73(3),441-450.

Chang,H.H.,& Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement,23,211-222.

Doebler,A.(2012).The Problem of Bias in Person Parameter Estimation in Adaptive Testing.AppliedPsychologicalMeasurement,36(54),255-270.

Kieftenbeld,V.,& Natesan,P.(2012).Recovery of Graded Response Model Parameters A Comparison of Marginal Maximum Likelihood and Markov Chain Monte Carlo Estimation.AppliedPsychologicalMeasurement,36(5),399-419.

Van der linden,W.J.,& Glas,C.A.(2010).ElementsofAdaptiveTesting.Springer,New York Dordrecht Heidelberg London.

Wang,T.,& Vispoel,W.P.(1998).Properties of ability estimation methods in computerized adaptive testing.JournalofEducationalMeasurement,35(2),109-135.

The Revised MLE Algorithm of Ability Estimated Method in CAT:R-MLE Algorithm

Cai Yan

(School of Psychology,Jiangxi Key Laboratory of Psychology and Cognitive Science,Jiangxi Normal University,Nanchang 330022)

Abstract:In this paper,referring to the most popular ability estimation algorithm(maximum likelihood estimation method,MLE),some modification were done integrated into expected a posterior method(EAP),the new algorithm was called R-MLE method.The basic idea of this method was the following:once the score of the examinee was zero or full,his ability was estimated by EAP method;otherwise it was estimated by MLE method.Thus the adaptive choose of items was started from the second item in CAT,which was expected to be more effective and more adaptive than ever.The Monte Carlo simulation method was used here.The ABS index was used to test theprecision of ability parameter estimate and the average use ration index of items was used to test the efficiency of testing.Two studies were employed here.The first one was designed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under the fixed and unfixed test length rule of CAT and under 1PLM,2PLM and 3PLM.The second one was employed to compare the precision of ability parameter estimation between R-MLE algorithm and MLE algorithm under different structure of item bank,but only the 2PLM being considered.The findings suggested:Under any kind of CAT item bank,whether the fixed test length rule or unfixed test length rule was used,whether the one,two or three parameter logistic model were used,it was found that the estimation accuracy and efficiency of the R-MLE method was greater than that of the MLE method.It was also found that it would be more effective during CAT test when R-MLE method was used,which would be more applicable in practice.

Key words:computerized adaptive testing;ability estimation method;EAP;MLE

中圖分類號:B841.2

文獻(xiàn)標(biāo)識碼:A

文章編號:1003-5184(2016)01-0092-05

通訊作者:蔡艷,E-mail:cy1979123@aliyun.com。

*基金項目:教育部人文社科基金(11YJC190002),國家自然科學(xué)基金(31300876,31100756,31160203),高等院校博士點基金項目(20103604120001,20123604120001),江西省教育科學(xué)規(guī)劃項目(13YB029,12YB088),江西師范大學(xué)青年英才培育資助計劃項目資助。

主站蜘蛛池模板: 日本手机在线视频| 日韩AV无码一区| 久久亚洲欧美综合| 国产黄网永久免费| 亚洲日本韩在线观看| 一本二本三本不卡无码| 在线观看视频一区二区| 色首页AV在线| 看你懂的巨臀中文字幕一区二区 | 国产va免费精品观看| 久久久久亚洲精品成人网| 日本一区二区不卡视频| 在线日韩一区二区| 亚洲第一福利视频导航| 高清无码手机在线观看| 天天干天天色综合网| 久久久精品国产SM调教网站| 91在线播放免费不卡无毒| 亚洲精品国产综合99久久夜夜嗨| 97在线视频免费观看| 国产剧情国内精品原创| 精品少妇人妻无码久久| 91色在线观看| 这里只有精品国产| 免费在线色| 久久精品国产一区二区小说| 亚洲天堂啪啪| 看国产毛片| 久久精品国产精品一区二区| 97人人做人人爽香蕉精品| 国产无码精品在线| 欧美区国产区| 精品国产www| 国产成人无码AV在线播放动漫| 伊人色天堂| 久久99这里精品8国产| 一级全免费视频播放| 日韩资源站| 国产午夜无码专区喷水| 国产拍在线| 97国产成人无码精品久久久| 在线观看网站国产| 精品国产欧美精品v| 精品一区二区三区视频免费观看| 亚洲成av人无码综合在线观看| 亚洲成a人片77777在线播放| 久久精品视频亚洲| 亚洲欧洲日韩综合色天使| 国产青青操| 大香网伊人久久综合网2020| 红杏AV在线无码| 国产乱肥老妇精品视频| 亚洲欧美日韩中文字幕一区二区三区| 国产成人精品男人的天堂| 成人免费一区二区三区| 久久99国产综合精品女同| 国产成人亚洲精品无码电影| 亚洲第一区欧美国产综合| 亚洲 日韩 激情 无码 中出| 欧美一级夜夜爽| 伊人久久精品无码麻豆精品| 高清国产va日韩亚洲免费午夜电影| 国产麻豆精品手机在线观看| 中文国产成人久久精品小说| 亚洲日韩国产精品综合在线观看| 国产精品手机在线观看你懂的| 欧美成人午夜在线全部免费| 青青草国产精品久久久久| 欧美在线国产| 一本大道无码高清| 精久久久久无码区中文字幕| 成人午夜免费观看| 人与鲁专区| 在线日韩一区二区| 欧美国产精品不卡在线观看 | 制服丝袜一区| 欧美精品高清| 青青久视频| 亚洲人成影院在线观看| 亚洲成AV人手机在线观看网站| 无码丝袜人妻| 亚洲欧美日韩另类在线一|