






[摘 要] 考生能力分布情況在測驗等值中極為關鍵。采用蒙特卡洛模擬,探討能力分布異常對測驗等值的影響。結果表明,各測驗等值準確性較為理想。在將能力范圍限定為[-1.1,1.1]中等異常能力情境下,等值系數與分數準確性不如其他情境。在低分段和高分段,等值分數誤差不存在明顯區別。對于等值公平性,分類一致性與準確性均達到較高水平。在中等異常能力分布情境下,等值結果的分類誤差估計與真值差異較大。需要重視并設法降低考生能力分布情況對準確性與公平性的影響。
[關鍵詞] 能力分布;測驗等值;準確性;公平性
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2025)01—055—010
不同測驗間的分數或題目參數由于測驗難度、考查內容及考生群體能力分布等存在差異,通常需要借助測驗等值方法進行比較。測驗等值(test equating,scaling,and linking)是指通過調整不同測驗的分數或題目參數,使其能夠相互替代的統計過程[1]。項目反應理論(item response theory,IRT)測驗等值方法以其優異的表現,在許多大規模測評的題庫建設、測驗開發與施測、數據分析、分數量尺化與解釋等環節發揮著關鍵作用,成為目前關注最多、應用最廣的測驗等值方法之一[2-5]。然而,在教育測評實踐中,許多選拔性或合格性考試的考生分數和能力并非總是呈現理想的正態分布[6-9]。在非正態(異常)能力分布情況下,測驗等值的準確性成為亟需探索和解決的重要問題。同時,相對于常模參照測驗(norm-referenced assessment)中的信度與效度概念,在標準參照測驗(criterion-referenced assessment)中,測驗對考生的分類一致性(classification consistency)與準確性(classification accuracy)極其重要[10-11],它們是衡量測驗公平性的關鍵工具。因此,除分數準確性外,在測驗等值實踐中,還需重點關注考生能力分布情況對其分類公平性(一致性與準確性)的影響。本研究基于測驗等值準確性與分類公平性的視角,探討能力分布異常對測驗等值的影響。
一、測驗等值與公平性
(一)IRT測驗等值方法
IRT測驗等值方法主要包括矩估計方法、特征曲線方法(以下簡稱“傳統方法”)[1]。本研究所指測驗等值方法準確稱謂應為量尺轉換(scale transformation)或參數鏈接(parameter linking)方法,但由于國內習慣將其與后續的測驗分數等值(test score equating)環節統稱為測驗等值方法,同時本研究也涉及測驗分數等值內容,因此延續此慣例。特征曲線方法同時考慮由IRT模型所有參數構成的特征曲線間的差異,表現最為優異,應用最為普遍,主要包含項目特征曲線方法(item characteristic curve method,ICC;又被稱為Haebara方法)、測驗特征曲線方法(test characteristic curve method,TCC;又被稱為Stocking-Lord方法)[12-13]。但傳統方法忽略了參數估計的不確定性,并未將估計誤差考慮在內,影響了測驗等值結果的解釋,甚至影響到相關教育考試決策,損害了考生能力評估與人才選拔的準確性、公平性[2,4]。為此,Wang等人采用信息量對特征曲線方法的損失函數進行自適應加權,提出項目信息量加權特征曲線方法(item information weighted characteristic curve method,IWCC)與測驗信息量加權特征曲線方法(test information weighted characteristic curve method,TWCC)(以下簡稱“信息量加權方法”)[14]。以三參數Logistic模型為例,兩種信息量加權方法的損失函數分別為:
[IWCCcrit=iwiVICC(θYi;aYj,bYj,cYj)-ICCθYi;aXjA,AbXj+B,cXj2×IIFθYi;aYj,bYj,cYj+IIFθYi;aXjA,AbXj+B,cXj]
與
[TWCCcrit=iwiTCC(θYi;aY,bY,cY)-TCCθYi;aXA,AbX+B,cX2×TIFθYi;aY,bY,cY+TIFθYi;aXA,AbX+B,cX],
其中,[IIFθi;aj,bj,cj]與[TIFθi;a,b,c]代表題目與測驗信息量,[IIFθi;aj,bj,cj=a2j(1-cj)cj+eaj(θi-bj)×1+e-aj(θi-bj)2],[TIFθi;a,b,c=jIIFθi;aj,bj,cj]。
aYj,bYj,cYj,θYi與aXj,bXj,cXj,分別為新測驗X與舊測驗Y量尺上的題目區分度、難度、猜測系數與考生能力參數;a,b,c,分別為相應題目參數向量,A與B分別為需要計算的測驗等值系數;wi為損失函數中考生i的權重,為方便計算,本研究在[-4,4]區間內每隔0.05選擇均勻分布的能力點,共161個,并且其權重wi=1[15]。
需要注意,將IWCC與TWCC方法損失函數信息量部分均賦予相同的非零值作為權重,可得到傳統方法的損失函數。換言之,傳統方法為信息量加權方法的特殊形式[14]。理論上,通過分別采用題目和測驗信息量對損失函數進行自適應加權處理,IWCC與TWCC方法可降低參數估計誤差對測驗等值的影響。同時,IRT中能力分布影響參數估計誤差[16-17],從而影響測驗等值。無論是學校范圍內的小規模學業考試,還是省市乃至國家間的大規模素質評價項目,常見教育測評中的考生成績(能力)并非總是理想的正態分布[7,8]。非正態的能力分布(能力分布異常)在教育考試實踐中也占據重要位置,但針對此方面的測驗等值研究相對匱乏。因此,本研究擬探討能力分布異常對兩類測驗等值方法的影響。
(二)分類公平性
分類公平性包括分類一致性與準確性(即分類誤差)。分類一致性指在采用相同測量程序(測驗內容、時間等)的重復(通常是兩次)測驗中,考生被劃分至相同類別的程度。分類準確性指使用觀察到的劃界分數(cut score)進行分類與根據真實劃界分數進行分類所得結果的一致程度[18-19]。但是,在實踐中,用于計算分類誤差的真實劃界分數往往并不可知。為此,學者們提出多種解決方法用于計算分類一致性和準確性,如基于經典測量理論(classical test theory,CTT)的方法與基于IRT的方法。因本研究探討IRT測驗等值,故采用后者,主要包含Lee方法[20]與Rudner方法[21]。這兩種方法的主要區別在于分類的量尺。Lee方法在總分量尺上分類,根據考生的潛在能力和項目參數計算其對應概率;而Rudner方法在潛在特質量尺上分類。因后者聚焦于IRT能力參數(潛在特質)量尺,更符合本研究設定,故采用該方法開展后續計算。Rudner方法假設考生能力θ真分數服從正態分布,而其相應估計值[θ]服從均值為[θ]、標準差為SE([θ])的正態分布。這樣,給定一個θ值,就能求出其觀察分數落在某個分數區間內的概率,以及兩次測量分數落入同一個或不同區間內的聯合分布概率[22-23]。基于上述思路,分類準確性指標可定義為,[ν=-∞θC?(θC-θσθ)f(θ)dθ+θC+∞?(θ-θCσθ)f(θ)dθ];分類一致性指標可定義為,[γ=-∞θC[?(θC-θσθ)]2f(θ)dθ+θC+∞[?(θ-θCσθ)]2f(θ)dθ],其中,θC為劃界能力值,[σθ=1I(θ)],I(θ)為IRT測驗信息量函數TIF(θi;a,b,c),[?](·)與f(·)分別為標準正態分布的分布函數和密度函數。
測驗等值準確性主要涉及等值系數和分數層面的系統誤差、隨機誤差與總誤差。因其較為通用且廣為熟知,在此不再展開。
二、研究方案
(一)研究目的
在非等組錨測驗設計(non-equivalent groups with anchor test design,NEAT)下,采用蒙特卡洛模擬,操縱考生能力分布情況,探討IRT測驗等值方法的準確性與公平性,為該領域的理論與實踐提供建議。
(二)變量設計
1. 自變量
自變量包括考生能力分布情況和測驗等值方法。其中,考生能力分布情況可分為無異常、中等異常、極端異常三種情況。無論是何種能力分布情況,參與新測驗X與舊測驗Y的考生初始能力均在N(0,1)中隨機抽取并限定其范圍為[-3,3]。在中等異常情況下,將能力范圍限定為[-1.1,1.1],代表此時測驗等值主要基于中等能力考生群體完成;在極端異常情況下,將能力范圍限定為[-3,-1.1]和[1.1,3],代表此時測驗等值主要基于極端(高與低)能力考生群體完成[24];相比之下,無異常情況則對能力范圍不做額外限定。依據統計原理,在標準正態分布下,[-1.1,1.1]包含72.87%的考生,為中等水平考生群體,將其命名為“中等異常”。相較之下,[-3,-1.1]和[1.1,3]共包含26.86%的考生,為能力較高和較低的考生群體,將其命名為“極端異常”。通過此操作,可模擬三種常見的現實考試測評情境,將無異常考生能力分布情境作為參照,從而探討能力分布異常對測驗等值準確性與公平性的影響。測驗等值方法包括兩種傳統方法(ICC與TCC方法)以及兩種與其相對應的信息量加權方法(IWCC與TWCC方法)。
2. 固定條件
在IRT測驗等值條件下,重點關注能力分布異常對測驗等值的影響,故對其余相關條件做出限定。具體而言,在NEAT下,兩組考生能力θ~N(0,1),且均為2000人[14]。兩測驗X與Y的題目采用三參數Logistic模型,區分度參數a~U(0.4,1.4),難度參數b~N(0,1),猜測系數c~Beta(8,24),且題目總數均為100,其中包括20道錨題(內錨)[25-28]。因此,測驗等值系數真值為A=1與B=0;同時,在測驗分數層面,兩測驗對應相同分數即為等值分數的真值。
(三)評價指標與模擬流程
1. 測驗等值系數準確性
測驗等值系數A與B的準確性主要由Bias、SE和RMSE衡量,分別代表隨機誤差、系統誤差與總誤差。[Bias(λ)=1Rr=1Rλr-λ],[SE(λ)=1Rr=1Rλr-1Rr=1Rλr2],
[RMSE(λ)=Bias2(λ)+SE2(λ)]。其中,[λ]代表等值系數A與B,R為模擬重復次數,按照教育測評模擬設定習慣,本研究為500。三種誤差指標的絕對值越小,說明對應測驗等值方法表現越優。進一步,為方便比較信息量加權方法與傳統方法的測驗等值表現差異,計算相對改善指標(relative improvement,RI),[RI(λ)=Crtraditional(λ)-Crnew(λ)Crtraditional(λ)],其中[Crtraditional(λ)]與[Crnew(λ)]分別為基于傳統方法與信息量加權方法計算得到的誤差指標;具體而言,即IWCC較ICC方法的改善程度以及TWCC較TCC方法的改善程度。RI指標越接近1,代表信息量加權方法較傳統方法提升的比例越高,表現越為優異;RI指標為負值,代表信息量加權方法的表現不如傳統方法。
2.測驗等值分數準確性
為評估測驗等值方法在分數層面的表現,計算分數xi處IRT真分數等值估計值與相應真值間的絕對偏差(absolute bias,AB),以此作為其總誤差度量指標,[AB(xi)=1Rr=1Rxir,e-xi,t]。其中,[xir,e]為第r次重復時[xi]的等值分數估計值,[xi,t]為其真值。同時,將模擬中各分數對應的頻率作為權重[wi,e],可計算出代表整個分數區間的加權絕對誤差(weighted absolute bias,WAB)指標,[WAB(x)=wi,e×AB(xi)]。上述兩種等值分數誤差的值越小,代表相應測驗等值表現越優秀。
3.分類一致性與準確性
基于IRT的Rudner方法計算測驗等值結果的分類一致性與準確性,設定劃界能力值為1.1[24]。基于等值后參數估計值與模擬真值分別計算的分類誤差指標越接近(差值的絕對值越小),代表相應等值結果分類一致性與準確性的返真性越好,測驗等值方法對考生的公平性越高。
4.模擬流程
除參數估計(采用mirt包[29])與分類誤差計算(采用cacIRT包[30])外,其余模擬與分析均采用R軟件自編程序完成[31]。模擬流程包括:(1)隨機抽取參加測驗X與Y的考生能力θ;(2)隨機抽取測驗X與Y的題目參數值a,b,c;(3)構建考生作答反應矩陣;(4)采用傳統方法與信息量加權方法,計算測驗等值系數;(5)采用Rudner方法,計算測驗等值的分類一致性與準確性;(6)采用IRT觀察分數等值方法,計算等值分數;(7)重復上述過程500次,計算相應評價指標。
三、研究結果
(一)測驗等值的準確性
1. 測驗等值系數的準確性
表1為測驗等值系數估計誤差及其RI。總體而言,各測驗等值方法的表現均較為優異。SE指標絕對值略高于Bias指標絕對值,表明在IRT測驗等值誤差中,相較于系統誤差,隨機誤差占比更高。同時,當能力分布為中等異常時,等值系數的Bias指標略高于其余兩種能力分布情況,尤其以Bias變化最為明顯。除中等異常能力分布的測驗等值情境外,IWCC方法的表現略優于對應ICC方法。除極端異常能力分布的測驗等值情境外,TWCC方法的表現略優于對應TCC方法。
2.測驗等值分數的準確性
圖1-圖3為三種考生能力分布情況下測驗等值分數層面的總誤差。與測驗等值系數結果類似,在三種能力分布情境中,中等異常能力分布情境下的測驗等值分數誤差最大,這在ICC與IWCC兩種方法的誤差最大值處(40-50分與80-90分)尤為明顯。同時,在0-30分與95-100分兩個分數段,四種測驗等值方法的分數誤差相差不大。然而,在其余中間分數段,四種方法的等值分數誤差存在區別,IWCC與TWCC方法的表現分別優于相應傳統方法(中等異常能力分布情況下IWCC方法等值分數誤差大于對應傳統方法)。而在兩種加權方法間,TWCC方法的表現更優。
同時,為評估測驗等值方法在0-100分數區間的整體表現,表2呈現其加權誤差結果。與圖1-圖3的結果相似,中等異常能力分布情境下的測驗等值分數加權誤差最大,無異常情境次之,而極端異常情境最小。除中等異常能力分布情境外,IWCC方法的等值分數加權誤差低于ICC方法;而在所有條件下,TWCC方法的表現均優于TCC方法。
(二)測驗等值的公平性
表3與表4分別為測驗等值結果的分類一致性和準確性與其真值間的絕對差異。首先,在三種能力分布情境下,測驗等值結果分類一致性與準確性的真值分別達到0.93與0.95,為較高水平,體現出基于IRT開展測評的優勢之處。分類誤差真值的計算不受能力分布情況影響(詳見“1.2分類公平性”),這也在一定程度上驗證了本研究模擬流程的準確性。同時,基于各測驗等值結果計算出的分類一致性和準確性均較為理想,其與真值的差異不超過0.06。與測驗等值準確性分析結果類似,中等異常能力分布測驗等值情境下的分類誤差結果與真值的差異最大,并且與其他情境下的結果存在較大區別。相較于傳統方法,基于兩種信息量加權方法的分類誤差計算結果并未表現出明顯優勢。
四、結論與討論
采用蒙特卡洛模擬方法,基于等值準確性與公平性等指標,探討能力分布異常對測驗等值的影響。
在測驗等值準確性角度,中等異常能力情境下,測驗等值系數與分數的準確性表現均不如另外兩種情境;且在中間分數段,各測驗等值結果存在較為明顯差異。相較于傳統特征曲線方法,信息量加權特征曲線方法表現優異。
在分類一致性與準確性角度,各測驗等值結果均較為理想。然而,在中等異常能力分布情境下,測驗等值結果的分類誤差估計存在較大差異。
研究發現,對于準確性與公平性指標,中等異常能力分布情境下測驗等值表現均不如其他情境。同時,在測驗分數角度,中間分數段的測驗等值結果間也存在較大差異。根據概率分布,在標準正態分布條件下,[-1.1,1.1]區間(模擬研究的中等異常能力情境)大概包括72.87%的考生,而[-3,-1.1]和[1.1,3]區間(模擬研究的極端異常能力情境)大約共包括26.84%的考生。這也就意味著,考生代表性不佳(極端異常)情境下測驗等值表現,反而優于代表性適中(中等異常)情境下測驗等值表現。推測這主要是因為,相較于中等異常能力情境,在極端異常能力情境中,考生能力分布范圍更寬(中等異常為2.2,極端異常為3.6)。無論是傳統方法還是信息量加權方法,其測驗等值系數的計算均需要求解損失函數[12-14]。而在損失函數中,各能力點的權重一般取相同值(詳見“1.1 IRT測驗等值方法”相應公式),這也是目前一些主流測驗等值軟件(包)采用的設定,如equateIRT[32]、plink[33]等。同時,比較了基于均勻分布與正態分布的損失函數所得測驗等值系數,結果并未發現明顯差異(該結果未在論文中呈現)。因此,測驗等值有利于分數區間更廣的極端異常條件。而對于能力分布無異常與極端異常兩種情境下的結果,無論是在等值系數、測驗分數,還是分類一致性與準確性角度,雖然其存在差異,但相較之下并不明顯(詳見表1-表4、圖1與圖3)。可見,在測驗等值的理論與實踐中,當中等能力水平考生群體占比較大時,需注意結果的解讀,從多角度確保準確性與公平性。
在本研究中,分類一致性與準確性的真值均達到0.9以上,可間接體現出模擬研究的可靠性。需要說明,對于分類誤差指標,本研究采用基于等值估計值與真值的差異絕對值衡量測驗等值分類誤差。該數值越小,代表分類效果越好,測驗的公平性得以保障。但在常見的分類誤差研究中,一致性與準確性指標數值越大,代表分類誤差越小[18,19]。本研究未采用此種思路,主要是因為基于測驗等值結果的分類一致性與準確性并非越高越好,而是要與其真值一致。設想這樣一種情況,測驗等值后,所有考生均為0或100分。那么,不管如何設定劃界分數,分類一致性和準確性均會非常理想(考生被完美分類)。但此種情況與測驗等值實際明顯不符。故而,本研究計算分類一致性與準確性估計值與真值的相對差異,而非絕對表現,用以衡量各測驗等值結果的公平性。
未來可關注多級或混合評分題型測驗等值情境下的準確性與公平性。同時,除考生能力分布異常外,在多次測試結果的等值中,題目亦有可能出現漂移、增刪等異常情況。后續研究可深入探討測驗等值在題目異常,甚至是考生與題目均存在異常的復雜情境中的準確性與公平性。
參考文獻:
[1] Kolen M J,Brennan R L. Test Equating,Scaling,and Linking:Methods and Practices [M]. Springer Science amp; Business Media,2014.
[2] Barrett M D,van der Linden W J. Estimating Linking Functions for Response Model Parameters [J]. Journal of Educational and Behavioral Statistics,2019,44(2):180-209.
[3] He Y,Cui Z. Evaluating Robust Scale Transformation Methods with Multiple Outlying Common Items under IRT True Score Equating [J]. Applied Psychological Measurement,2020,44(4):296-310.
[4] Manna V F,Gu L. Different Methods of Adjusting for Form Difficulty under the Rasch Model:Impact on Consistency of Assessment Results [J]. ETS Research Report Series,2019,(1):1-18.
[5] von Davier M,Yamamoto K,Shin H J,et al.Evaluating Item Response Theory Linking and Model Fit for Data From PISA 2000–2012 [J]. Assessment in Education:Principles,Policy amp; Practice,2019,26(4):466-488.
[6] Andersson B,Wiberg M. Item Response Theory Observed-Score Kernel Equating [J]. Psychometrika,2017,82:48-66.
[7] Depaoli S,Winter S D,Lai K,et al. Implementing Continuous Non-Normal Skewed Distributions in Latent Growth Mixture Modeling:An Assessment of Specification Errors and Class Enumeration [J]. Multivariate Behavioral Research,2019,54(6):795-821.
[8] Ho A D,Yu C C. Descriptive Statistics for Modern Test Score Distributions:Skewness,Kurtosis,Discreteness,and Ceiling Effects [J]. Educational and Psychological Measurement,2015,75(3):365-388.
[9] Zu J,Yuan K H. Standard Error of Linear Observed‐Score Equating for the NEAT Design with Nonnormally Distributed Data [J]. Journal of Educational Measurement,2012,49(2):190-213.
[10] Lai M H,Zhang Y. Classification Accuracy of Multidimensional Tests:Quantifying the Impact of Noninvariance [J]. Structural Equation Modeling:A Multidisciplinary Journal,2022,29(4):620-629.
[11] Setzer J C,Cheng Y,Liu C. Classification Accuracy and Consistency of Compensatory Composite Test Scores [J]. Journal of Educational Measurement,2023,60(3):501-519.
[12] Haebara T. Equating Logistic Ability Scales by a Weighted Least Squares Method [J]. Japanese Psychological Research,1980,22(3):144-149.
[13] Stocking M L. Lord F M. Developing a Common Metric in Item Response Theory [J]. Applied Psychological Measurement,1983,7(2):201-210.
[14] Wang S,Zhang M,Lee W,et al. Two IRT Characteristic Curve Linking Methods Weighted by Information [J]. Journal of Educational Measurement,2022,59(4):423-441.
[15] Lee P,Joo S H,Stark S. Linking Methods for the Zinnes-Griggs Pairwise Preference IRT Model [J]. Applied Psychological Measurement,2017,41(2):130-144.
[16] K?se A,Dogan C D. Parameter Estimation Bias of Dichotomous Logistic Item Response Theory Models Using Different Variables [J]. International Journal of Evaluation and Research in Education,2019,8(3):425-433.
[17] Sen S. Spurious Latent Class Problem in the Mixed Rasch Model:A Comparison of Three Maximum Likelihood Estimation Methods under Different Ability Distributions [J]. International Journal of Testing,2018,18(1):71-100.
[18] Kim S Y,Lee W C. Classification Consistency and Accuracy with Atypical Score Distributions [J]. Journal of Educational Measurement,2020,57(2):286-310.
[19] Park S,Kim K Y,Lee W C. Estimating Classification Accuracy and Consistency Indices for Multiple Measures with the Simple Structure MIRT Model [J]. Journal of Educational Measurement,2023,60(1):106-125.
[20] Lee W. C. Classification Consistency and Accuracy for Complex Assessments Using Item Response Theory [J]. Journal of Educational Measurement,2010,47(1):1-17.
[21] Rudner L M. Expected Classification Accuracy [J]. Practical Assessment Research amp; Evaluation,2005,10(13):1-4.
[22] 陳平,李珍,辛濤,等.標準參照測驗決策一致性指標研究的總結與展望[J].心理發展與教育,2011,27(2):210-215.
[23] 宋吉祥,李付鵬,杜海燕,等.試題信息函數對分數等級分類一致性和準確性的影響分析[J].中國考試,2021,(3):22-27.
[24] Furter R T,Dwyer A C. Investigating the Classification Accuracy of Rasch and Nominal Weights Mean Equating with very Small Samples [J]. Applied Measurement in Education,2020,33(1):44-53.
[25] De Ayala R J,Smith B,Norman Dvorak R. A Comparative Evaluation of Kernel Equating and Test Characteristic Curve Equating [J]. Applied Psychological Measurement,2018,42(2):155-168.
[26] Diao H,Keller L. Investigating Repeater Effects on Small Sample Equating:Include or Exclude? [J]. Applied Measurement in Education,2020,33(1):54-66.
[27] Goodman J T,Dallas A D,Fan F. Equating with Small and Unbalanced Samples [J]. Applied Measurement in Education,2020,33(1):34-43.
[28] Kolen M J. Equating with Small Samples(Commentary)[J]. Applied Measurement in Education,2020,33(1):77-82.
[29] Chalmers R P. Mirt:A Multidimensional Item Response Theory Package for the R Environment [J]. Journal of Statistical Software,2012,48(6):1-29.
[30] Lathrop Q N. R Package cacIRT:Estimation of Classification Accuracy and Consistency under Item Response Theory [J]. Applied Psychological Measurement,2014,38(7):581-582.
[31] R Core Team. R:A Language and Environment for Statistical Computing [M]. R Foundation for Statistical Computing,Vienna,Austria,2023.
[32] Battauz M. equateIRT:An R Package for IRT Test Equating [J]. Journal of Statistical Software,2015,68(1):1-22.
[33] Weeks J P. plink:An R Package for Linking Mixed-Format Tests Using IRT-Based Methods [J]. Journal of Statistical Software,2010,35(12):1-33.
The Effect of Ability Distribution Anomalies on Test Linking and Equating from the Perspective of Accuracy and Fairness
Wang Shaojie1" Zhang Minqiang2" Huang Feifei3
1 School of Education,Guangdong University of Education,Guangzhou,Guangdong,510303
2 School of Psychology,South China Normal University,Guangzhou,Guangdong,510631
3 School of Educational Science,Guangdong Polytechnic Normal University,Guangzhou,Guangdong,510665
Abstract:The distribution of examinee abilities is crucial in test linking and equating. This study employs Monte Carlo simulations to investigate the impact of abnormal ability distributions on test linking and equating. The results indicated that the accuracy of test equating was generally satisfactory. Under the condition of moderate abnormal ability distribution,the equating coefficients and score accuracy were inferior to those in other conditions. There were no significant differences in equating score errors at the low and high score ranges. Regarding equating fairness,both classification consistency and accuracy were high. However,in the moderate abnormal ability distribution scenario,the estimated classification errors significantly deviated from the true values. It is essential to address and mitigate the influence of examinee ability distributions on the accuracy and fairness of test linking and equating.
Key words:Ability Distribution,Test Linking and Equating,Accuracy,Fairness
(責任編輯:吳茳)