簡小珠,戴海琦
(1.上饒師范學院教育科學學院,上饒 334001;2.江西師范大學心理學院,江西省心理與認知科學重點實驗室,南昌 330022)
?
“CAT初始作答影響最終成績”的模擬分析與糾正*
簡小珠1,2,戴海琦2
(1.上饒師范學院教育科學學院,上饒 334001;2.江西師范大學心理學院,江西省心理與認知科學重點實驗室,南昌 330022)
摘要:在兩參數模型(2PM)下模擬計算機化自適應測驗(CAT)初始階段的三種作答情境,由模擬結果發現只有當被試作答情境為睡眠現象時會導致能力低估現象,猜測現象時會導致能力高估現象,并探討了“CAT初始階段作答影響最終成績”考試現象發生的具體情境范圍。由模擬結果分析可得,CAT考試現象是被試作答異常現象(猜測、睡眠現象)和CAT數學模型(2PM)共同影響的結果。在四參數模型(4PM)、2PM-Biweight下進行CAT模擬,被試能力高估現象和低估現象都得到了較好的糾正。
關鍵詞:CAT;CAT模擬;猜測現象;睡眠現象;能力高估;能力低估
1研究背景
1.1“CAT初始作答影響最終成績”考試現象及以往的研究
許多參加過CAT測試的被試有這樣的體驗:如果初始階段的幾道試題都答對了,即使測驗后期階段答錯了若干道難度較大的試題,仍可能得到較高的分數;如果在初始階段的幾道試題有些答錯了,即使后期階段被試做得很好,也難以得到高分。所以有這樣的說法,“千錯萬錯,頭五道試題不能錯”(張華華,程瑩,2005)。本文將這種現象命名為“CAT初始作答影響最終成績”考試現象,簡寫為CAT考試現象。在CAT實踐中也存在著被試能力低估事件,張華華(2002)論述到ETS曾經讓參加GRE-CAT測試大約0.5%的被試免費重考,許多研究者認為由于這些被試能力估計值過低;在商學院研究生入學考試中曾有將近一千人的被試的分數估計不準確(Merritt,2003)。
已有研究者從選題策略、數學模型的角度來糾正CAT考試現象。張華華(2002)認為是CAT的選題策略存在設計誤區所導致被試能力低估,并通過公式推導論述,強調a參數導致被試最終能力估計偏差過大。Chang和Ying(2008)在CAT模擬中使用a分層信息量方法,在測驗開始時選擇區分度較小的試題,可以在一定程度上避免被試能力被低估。Rulison 和Loken(2009)在三參數模型下進行CAT模擬,發現高能力被試(即得分前10%的被試)答錯前兩題會存在能力低估現象;在四參數模型下高能力被試不再出現能力低估現象。Yen,Ho,Laio,Chen和Kuo(2012)在CAT實例研究中使用四參數模型時,發現高能力被試答錯前兩題而沒有出現能力低估現象。但Rulison,Loken,Yen等以往研究中還有以下幾個方面沒有進行探討:(1)沒有對CAT中被試能力高估現象進行模擬分析,也沒有探討對CAT高估現象的糾正方法;(2)在數學模型上只有三、四參數模型的設計,沒有兩參數模型;本文認為,在實際使用中多數是兩參數模型,Rasch模型(也可以看作是兩參數模型的一個特例),而且在兩、三、四參數模型下進行比較,才能更為完整的分析被試能力低估與高估現象的發生情況以及對應的糾正情況;(3)沒有確切探討和回答CAT考試現象產生的具體發生情境范圍,即在什么樣的情境或在什么樣的情境下會發生被試能力高估現象或低估現象;也沒有探討糾正方法(4PM)對能力低估和高估現象糾正的發生范圍。本文將對以上幾個方面進行探討。
Mislevy和Bock(1982)在紙筆測驗時使用2PM-Biweight方法實現了對被試能力的穩健性估計。2PM-Biweight是在2PM下對極大似然估計方法的改進,本質上是2PM的改進形式,本文簡寫為2PM-BIW。BILOG軟件中有Biweight方法命令。簡小珠,戴海崎,彭春妹(2007)在固定紙筆測驗形式下使用四參數模型能糾正被試能力高估和低估現象。以上兩個研究都是紙筆測驗形式,而在CAT測驗時四參數模型、2PM-BIW是否能糾正被試能力高估和低估現象,這是本文將要探討的內容之一。
1.2本文的研究思路
本文將從猜測現象和睡眠現象的角度對CAT考試現象進行探討。Mislevy和Bock(1982)認為被試只有試題難度遠遠大于被試能力時(即期望概率P小于0.20)才會進行猜測,并將猜測作答的臨界期望概率分為0.15,0.10,0.05三種水平。期望概率計算是根據被試能力水平(需已知)和項目參數(需已知)而計算出來的概率。本文將在2PM下期望概率P小于0.05時被試在高難度試題上得分的現象命名為猜測現象。高能力被試由于焦慮、轉錄錯誤、動機過強等原因可能導致答錯相對容易的試題,Wright(1977)稱為睡眠現象。本文將在2PM下期望概率P大于0.95時被試在相對容易的試題失分的現象命名為睡眠現象。這里將能力區間為[-1.64,-3]的被試定義為低能力被試,約占正態分布群體的5%,區間為[1.64,3]的被試定義為高能力被試,約占5%。本文假設:(1)如果高能力被試在初始階段連續答錯多道中等難度試題,且期望概率P>0.95(睡眠現象)則可能會出現能力低估現象;(2)如果低能力被試在初始階段連續答對多道中等難度試題,且P<0.05(猜測現象)則可能會出現能力高估現象。本文將在兩、三、四參數模型下模擬CAT初始作答情境,分析被試能力高估和低估現象及其糾正。
2CAT模擬設計
CAT模擬測試使用兩、三、四參數模型,和兩參數模型的改進形式(2PM-BIW)。模擬題庫1500題,log(a)服從正態分布N(0,1),b參數服從U[-3,+3]。在三、四參數模型時,c參數固定為0,γ參數固定為1。
Bock & Mislevy(1982)從[-3,+3]選取31個能力水平的被試進行CAT模擬。Belov等(2008),Chang和Ying(2008)在CAT模擬時在能力區間內選取有限個數的代表性樣本點。同樣本文選取-2.7,-2.4…2.4,2.7共19個代表性點的被試,每個被試模擬次數為5000次。能力真值為-2.7的被試模擬5000次,可以等同代表[-2.85,2.65]區間的50名被試模擬100次;能力真值為-2.4的被試,則代表[-2.65,2.35],依此類推。
CAT初始階段設計三種情境:(1)前兩題正常作答;(2)答對前兩題(第1題a=1.2,b=0,第2題a=1.2,b=0.3);(3)答錯前兩題(第1題a=1.2,b=0,第2題a=1.2,b=-0.3)。從第3題開始從題庫中選題,被試都按正常水平作答。如果在3PM時前兩題c參數安排為0.20;在4PM時前兩題的c參數為0.20,γ參數為0.98。被試按正常水平作答,是指根據被試能力真值θα與選擇出來的試題計算概率P,再由隨機函數生成一個隨機數φ,比較P與φ來確定被試得分。

3結果與分析
(1)前兩題正常作答時由表1可知,在四種模型(方法)下,各個能力水平被試的Bias都很小,在0.01以內,說明對每個被試能力估計都十分準確。在IRT和CAT的一些研究中,試卷難度和題庫難度情況是處于難度量尺中間的題量多,處于難度量尺兩端的題量少,因而會導致中間水平的被試估計準確性要高于兩端的被試。而本文題庫試題難度服從均勻分布U[-3,+3],因此,在正常作答情況下所有被試能力被試的估計都具有同樣的準確性,或模擬返真性。
(2)答對前兩題時在2PM模型下,從1至19號被試的Bias逐漸增大,被試能力真值越小,Bias就越大。17號被試在前兩題的期望概率分別為0.014,0.007,小于0.05,為猜測現象。17號被試的Bias為0.298,出現了能力相對高估現象。18、19號被試存在同樣的能力高估現象。這種能力高估現象可以較好的解釋CAT考試現象的能力高估現象發生的具體情境。而在1至10號被試之間的Bias相對都很小,這說明不是所有被試答對前兩題都會形成能力高估現象。
而在BIW,3PM,4PM方法下,從1至14號被試與2PM模型下的情況相似,Bias逐漸增大。14號至19號被試的Bias逐漸減小。這也就是說,原來在2PM下的能力高現象,在3PM,4PM,BIW方法下得到有效糾正。而且,在3PM,4PM,BIW方法下的Bias值在13至15號被試之間發生了拐點,也就是說,當被試所答對前兩題的難度大于被試能力估計值約0.9至1.5之間,3PM,4PM,BIW方法對被試能力估計值逐漸產生了糾正作用。

表1 CAT模擬結果
注:表中的加粗部分數據,處于2PM-BIW、3PM-MLE、4PM-MLE方法對能力高估和低估現象糾正的拐點區域的被試群體;表中的斜體,且加粗部分數據,處于2PM-BIW、3PM-MLE、4PM-MLE方法對能力高估和低估現象進行有效糾正區域的被試群體。如果再重復測驗模擬5000次,表中的Bias值會在0.002左右幅度波動。
(3)答錯前兩題時在2PM,3PM模型下,從19至1號被試,隨著被試能力水平增大,Bias的絕對值逐漸增大。3號被試在前兩題的期望概率分別為0.973,0.983,期望概率大于0.95,而被試卻答錯了,屬于睡眠現象。3號被試的Bias在2PM,3PM模型下為-0.306,-0.316;出現了能力相對低估現象。1、2號被試存在同樣的能力低估現象。這種能力低估現象,這可以較好的解釋了“CAT初始作答影響最終成績”現象的能力低估現象。從19號至10號被試之間的Bias相對都很小,這說明不是所有被試答錯前兩題都會形成能力低估現象。
在4PM,BIW方法下,從19號至6號被試的Bias與2PM,3PM下的情況相似,Bias的絕對值逐漸增大。從6至1號被試的Bias的絕對值逐漸減小。這也就是說,原來在2PM,3PM模型下的能力低估現象,在4PM,BIW方法得到有效的糾正。而且,在4PM,BIW方法下的Bias值在5至7號被試之間發生了拐點,也就是說,當被試所錯前兩題的難度小于被試能力估計值約0.9至1.5之間,4PM,BIW方法對被試能力估計值逐漸產生了糾正作用。
總之,由表1中2PM的結果可知,CAT考試現象是被試作答異常現象(猜測、睡眠現象)、數學模型(2PM)兩方面因素共同影響的結果。以往CAT實踐中主要使用1PM、2PM,因而容易出現被試能力高估和低估現象。
4對四參數模型持不同觀點的討論
Green(2011)對CAT初始階段前兩題作答失誤現象進行模擬研究,得到與Rulison和 Loken(2009)類似的結果,即前兩題作答失誤會導致被試能力低估現象。Green(2011)采用忽略失誤作答,和將失誤作答為改正確作答兩種方式進行糾正,發現部分被試能力被高估了0.10左右。本文認為,這是由于Green的糾正方法過于簡單導致的。由本文結果可知,四參數模型和2PM-BIW不會導致糾正幅度過大的情況。
Green(2011)沒有對四參數模型進行模擬,但Green卻不贊成四參數模型的使用,認為(1)Rulison 和 Loken的研究是單純的選擇了高能力被試作為典型代表;(2)Bias相對較大是IRT在能力量尺兩端的拉伸造成的;(3)高能力被試很少答錯中等難度試題;(4)4PM在運用中可能存在參數較難估計,測驗信息量會相對減少從而誤差增大。本文認為,Green以上四個論據是片面的。本文提出以下探討:(1)本文從低能力到高能力被試都選擇了代表性的樣本,由模擬結果發現,被試答錯或答對前兩題所造成的能力高估現象或低估現象是一種趨勢,而不是典型的個案現象;也不是IRT能力量尺兩端造成的,而是一個規律性的變化。(2)以四參數模型為例,假設γ=0.95,c=0.20,某一高能力被試(以θ=2.1為例)同時答錯前兩道中等難度試題(b=0.0)的概率為0.44%,那么高能力被試就可能被低估,低估幅度為-0.306,如果換算為500+100*θ,將是30分的幅度。只要高能力被試群體中有存在著能力低估的一定程度概率,就說明2PM在CAT測試中存在缺陷,需要進行改進。(3)WINSTEPS軟件(Linacre,2012)包含了四參數模型參數估計。Loken & Rulison(2010)使用貝葉斯方法實現了對四參數模型的參數估計,即項目參數估計的難題已經解決了;(4)在實際測量中,假設一個測驗已經對被試進行了測試,那么測量誤差就是固定的。使用單參數模型,還是四參數模型來計算測量項目信息量和測量誤差,都不會改變這個測驗的實際測量誤差。Magis(2013)探討了在四參數模型下一道試題的最大項目信息量所對應的最佳能力估計值,并論述了4PM下最大項目信息量的應用。
也許有研究者疑慮,在測驗中被試作答的“猜測”和“睡眠”現象都是屬于少數情況,是否需要使用較復雜的四參數模型來估計不同類型的被試?本文對此的觀點是:(1)從數學公式可知,兩、三參數模型都是四參數模型的特例,兩、三參數模型可以適合的測驗,四參數模型也可以適合。(2)如果測驗中被試作答的“猜測”和“睡眠”現象都是屬于少數情況,那么使用四參數模型估計出的c,γ參數也將相對較小。根據論文簡小珠,張敏強和彭春妹(2010)中的圖1,圖2及其數據,如果某一試題的c,γ參數很小(例如c=0.001,或γ=0.999),那么該試題對被試能力估計影響接近于兩參數模型(c=0,γ=1)。如果該被試答對試題的難度在區間- 5結論 在2PM下CAT初始階段前兩題的作答時,只有被試作答情境為睡眠現象時會導致能力相對低估現象,猜測現象時會導致高估現象,這較好的說明了“CAT初始階段作答影響最終成績”考試現象發生的具體情境。CAT考試現象是被試作答異常現象(猜測、睡眠現象)、CAT數學模型(2PM)共同影響的結果。3PM、4PM、2PM-BIW可以有效糾正能力高估現象,糾正作用產生的拐點在當被試所答對試題的難度大于被試能力估計值時且區間大約為0.9 參考文獻 簡小珠,戴海崎,彭春妹.(2007).IRT中Logistic模型的c、γ參數對能力估計的改善.心理學報,39(4),737-746. 簡小珠,張敏強,彭春妹.(2010).四參數Logistic模型研究進展及其評析.心理學探新,30(3),69-73. 張華華.(2002).計算機自適應考試設計中的誤區.考試研究,第二輯,35-39. 張華華,程瑩.(2005).計算機化自適應測驗(CAT)的發展和前景展望(續).考試研究,1(2),22-41. Bock,R.J.,& Mislevy,R.D.(1982).Adaptive EAP estimation of ability in a microcomputer environment.AppliedPsychologicalMeasurement,6,431-444. Chang,H.H.,& Ying,Z.(2008).To weight or not to weight?Balancing influence of initial items in adaptive testing.Psychometrika,73(3),441-450. Green,B.F.(2011).A Comment on Early Student Blunders on Computer-Based Adaptive Tests.AppliedPsychologicalMeasurement,35(2),165-174. Linacre,J.M.(2012).Winsteps?Raschmeasurementcomputerprogram.Beaverton,Oregon:Winsteps.com. Loken,E.,& Rulison,K.L.(2010).Estimation of a four-parameter item response theory model.BritishJournalofMathematicalandStatisticalPsychology,63,509-525. Magis,D.(2013).A Note on the Item Information Function of the Four-Parameter Logistic Model.AppliedPsychologicalMeasurement,35(2),304-315. Merritt,J.(2003).WhythefolksatETSflunkedthecourse—atech-savvyservicewillsoonbegivingB-schoolapplicantstheirGMATs.Business Week. Mislevy,R.,& Bock,R.(1982).Biweight Estimates of Latent Ability.EducationalandPsychologicalMeasurement,42,725-737. Rulison,K.L.,& Loken,E.(2009).I’ve Fallen and I Can’t Get Up:Can High-Ability Students Recover From Early Mistakes in CAT?AppliedPsychologicalMeasurement,33(2),83-101. Wright,B.D.(1977).Solving measurement problems with the Rasch model.JournalofEducationalMeasurement,14,97-116. Yen,Y.,Ho,R.,Laio,W.,Chen,L.,& Kuo,C.(2012).An empirical evaluation of the slip correction in the four parameter logistic models with computerized adaptive testing.AppliedPsychologicalMeasurement,36(2),75-87. The First Several Responses in CAT Determine the Final Score? The Cause and Corresponding Countermeasure to the CAT Phenomenon Jian Xiaozhu1,2,Dai Haiqi2 (1.School of Educational Science,Shangrao Normal University,Shangrao 334001;2.School of Psychology,Jiangxi Key Laboratory of Psychology and Cognitive Science,Jiangxi Normal University,Nanchang 330022) Abstract:Some researchers had analyzed the CAT event and believed that:if the examinees make correct answers on the first several items,he may gain relatively high score even if he does not well in the next many items;if the examinees make wrong answers on the first several items,his ability may be underestimated even if he do well in the next many items.The author names these phenomena as the CAT phenomena,that is,the first several responses in cat determine the final score.Many researchers have proposed some methods to rectify overestimation and underestimation.To determine the extent of bias at various ability levels,a set of CAT simulations were carried out.According the results,low-ability examinees get the first two items and their Biases are become bigger significantly,which is named as ability overestimation phenomenon.High-ability examinees miss the first two items and their Biases are become smaller significantly,which is named as ability underestimation phenomenon.Under 3PM,4PM,BIW,the Biases of low-ability examinees become smaller than that of 2PM in second case when they get the first two items by chance,and the ability overestimation phenomenon is rectified well.Under 4PM,or BIW,the absolute of the Biases of high-ability examinees become smaller than that of 2PM in third case when they miss the first two items,and the ability underestimation phenomenon is rectified well also.Therefore,in the three simulated CAT cases,4PM,BIW rectify the underestimation phenomenon and overestimation phenomenon. Key words:CAT;CAT simulation;guessing phenomenon;sleeping phenomenon;overestimation;underestimation *基金項目:江西省高校人文社會科學項目(XL1515),江西省社會科學規劃青年項目(13JY47),廣州市基礎教育學業質量監測系統建設項目(GZIT2013-ZB0465),國家自然科學基金項目(31260238)。 通訊作者:戴海琦,E-mail:daihaiqi@aliyun.com。 中圖分類號:B841.2 文獻標識碼:A 文章編號:1003-5184(2016)03-0276-05