王風
Rasch 模型是丹麥數學家George Rasch 在1960年提出的單參數IRT 模型。 根據Rasch 模型原理,特定個體對特定題目作出特定反應的概率可以用個體能力與題目難度的簡單函數來表示, 即考生能否答對某題取決于題目難度及考生能力[1]:

其中,βn表示考生n 的能力參數,δi表示題目i的難度參數。
當題目難度比考生能力高時, 考生傾向于采取猜答策略,尤其是水平較低的考生遇到較難題目時,往往會猜答[2]??忌芰εc題目難度的差異大于2 logits時,考生會采取猜答策略,此時正確回答的概率僅為12%[3-4]。 考生猜測作答不是題目參數而是有必要消除的干擾, 作答反應中存在猜測作答會影響參數估計的準確性[5]。 因此,消除Rasch 模型中因考生猜測作答導致的統計偏差,能夠提高參數估計的準確性,從而對考生能力做出更有效的推斷。
根據Rasch 模型,在0-1 計分的題目中,若考生能力和題目難度相等,考生答對題目的概率等于0.5[6]。在4 選1 的題目中,若考生答對某題的概率小于隨機猜測率(0.25),則有理由懷疑考生采取了猜答策略。
為降低Rasch 模型在估計題目難度時受考生猜測作答影響而產生的誤差,Waller 提出了ARRG 法(Estimates of Ability Removing Random Guessing),經過Andrich 等人不斷深入的研究,形成了相對完善的研究步驟[7-11]。
首先,ARRG 法采用Rasch 模型根據收集到的所有作答進行參數估計,稱為原始分析(Original Analysis)。 其次,基于考生答對題目的概率與設定的概率閾限間的比較,當答對概率低于設定的概率閾限時,無論考生是否答對該題,均將此作答標記為缺失值,重新進行參數估計, 此過程稱為裁剪分析(Tailored Analysis)。 為了使兩次分析的題目難度分布有相同的原點, 要設置參數估計的約束條件, 即錨分析(Anchored Analysis)。
考生猜測作答影響題目難度和考生能力估計的準確性。題目難度估計方面,大多數題目的參數估計均受考生猜測作答的影響,尤其是較難的題目。因為題目的平均難度為0, 較難題目的難度被低估使簡單題目的難度被高估[12,13]。 考生能力估計方面,較難題目的難度被低估使水平較高的考生能力被低估。Andrich 等人研究發現,考生猜測作答的存在低估了學生在學校教育中的進步, 用ARRG 法消除考生猜測作答的影響后,各個年級的成長率都有所增加,這具有重要的教育意義[14]。
Glenn 模擬了考生猜測作答在不同概率閾限(0、0.15、0.20、0.25、0.30、0.35)、 不同樣本量(250、500、1000、2000)、不同猜測度(0、0.1、0.2、0.3)和不同難度條件下對難度估計的影響。 結果發現:(1)樣本量比其他因素更能解釋參數估計標準誤的變化,當樣本量較大時,所有條件下的標準誤都要小得多;(2)較大的概率閾值通常與偏差減少和標準誤增加有關[15]。Glenn 研究的樣本量最大為2000, 隨著概率閾限的增大,被標記為缺失值的作答也增加,用來估計參數的作答減少。 因此,假設當樣本量較大時,標準誤較??;當樣本量較小時,標準誤會變大。在這種思路下,嘗試更大的樣本量在不同概率閾限下對參數變化的影響是有意義的。
本文在Glenn 研究的基礎上進一步拓寬思路,研究大樣本情況下概率閾限的改變對參數估計的影響。 研究目的是通過觀察不同條件下題目難度估計的變化及其標準誤(SE)和數據-模型的擬合優度,探索不同樣本量在不同概率閾限條件下對難度估計的影響。
ARRG 法是Rasch 模型框架下提高參數估計準確性的有效手段, 對其結果的解釋又是其中重要的一環。 在小樣本(250、500、1000、2000)情況下,樣本量比其他因素更能解釋參數估計標準誤的變化,即參數估計標準誤的變化可能是由樣本量引起的。 若換做大樣本, 參數估計標準誤的變化程度如何? 同樣,在大樣本情況下,較大的概率閾限是否也伴隨著參數變化程度的減小和標準誤的增加? 本文試圖回答以上問題, 以便為使用ARRG 法時根據樣本量合理解釋參數變化的意義提供參考。
數據來源為某考試的作答數據, 共120 道選擇題,每題4 個選項,僅有1 個正確答案,均為0-1 計分題目。 選擇Winsteps 軟件作為分析工具。
從總體中有放回地抽取6 個樣本, 樣本量分別為2000、5000、7000、10000、20000、30000。 表1 給出了6 個樣本的均值、標準差、偏度和峰度,每個樣本與總體的四項指標非常接近, 說明樣本對總體具有一定的代表性。

表1 總體和樣本的統計指標
設置5 個概率閾限,分別為:0.10、0.15、0.20、0.25、0.30, 答對概率低于概率閾限的作答會被標記為缺失值。 裁剪分析中使用的答對概率來源于原始分析。 原始分析中,原始作答包含考生猜測作答,答對概率的估計受考生猜測作答的影響,使答對概率偏高。 因此,裁剪分析中,設置概率閾限高于隨機猜測率(0.25),可以更好地消除因考生猜測作答對參數估計的影響。
為使原始分析和裁剪分析的題目難度分布具有相同的原點, 將錨分析中參數估計的約束條件設置為難度接近0 的5 道題目的難度為0。
結果的檢驗標準有兩個。 一是數據-模型的擬合:根據Rasch 模型原理,考生答對題目的概率僅由題目難度和考生能力決定。 原始作答因包含考生猜測作答導致數據-模型擬合性差。 因此假設,消除考生猜測作答對參數估計的影響后,數據-模型的擬合優度將提高。 從三個方面檢驗數據-模型擬合優度:個人擬合、題目擬合和χ2統計量。 二是題目難度估計的變化及其標準誤(SE)。
從三個方面檢驗數據-模型擬合優度:個人擬合、題目擬合和χ2統計量。個人擬合是指考生作答與模型預期的擬合程度;題目擬合是指題目與模型預期的擬合程度;χ2統計量則是檢驗Rasch 模型擬合優度的傳統方法。 通過分析結果發現,在樣本量相同的條件下,隨著概率閾限的增大,個人擬合的程度增加,不擬合(Misfit)的考生數目下降,同時各個樣本均在概率閾限為0.25 時, 不擬合的考生數目最小。 不同條件下,Winsteps 結果中均未發現不擬合的題目。 同時,題目的未加權均方擬合統計量(Outfit MNSQ)和加權均方擬合統計量(Infit MNSQ)值均在0.87~1.11 范圍內,擬合程度比較好。 當樣本量增加時, 標準化殘差均方(Standardized as a Z-Score,ZSTD) 值隨之變大,但ZSTD 統計量受樣本容量影響較大,故不作為參考。
χ2和自由度有關,因此隨著樣本量的增加,χ2增大。但在樣本量相同的條件下,χ2隨著概率閾限的增大而減小。不同條件下χ2對應的P 值均為0.0000。χ2統計量的變化和個人擬合指標證明, 經過ARRG 法處理的考生作答確實提高了數據-模型擬合優度,消除了考生猜測作答對題目參數估計的影響。

圖1 不同條件下χ2 的變化
比較不同樣本量、 不同概率閾限對難度估計的影響可以發現, 難度的變化主要受概率閾限的影響,受樣本量的影響較小,下面以兩個樣本為例說明。 圖2、圖3 分別是樣本1、6 的題目難度估計偏差。 觀察圖2、圖3 可以看到,難度較低的題目經過調整后難度更低,但變化程度較小,概率閾限較小條件下幾乎不發生變化;隨著難度的增加,較難題目調整后難度更大,且變化程度較大,概率閾限越大,變化越劇烈。

圖2 樣本1 的題目難度估計偏差

圖3 樣本6 的題目難度估計偏差
標準誤代表了參數估計的精度如何, 以下分別計算了不同條件下難度估計的標準誤的均值及難度不同題目在不同條件下標準誤的變化。
觀察圖4 可知,無論概率閾限如何變化,隨著樣本量的增大,難度估計的標準誤逐漸減小,且標準誤變化的全距逐漸縮小。 當樣本量為30000(S6)時,標準誤變化的全距僅為0.009。 在不同的樣本中,隨著概率閾限的增加,標準誤的變化趨勢有相似之處。概率閾限為0 時的標準誤最小,概率閾限越大,標準誤越大,概率閾限為0.3 時,標準誤最大。 值得注意的是,樣本量為2000(S1)時的標準誤整體比較大,在概率閾限為0.3 時,參數估計的標準誤最大,而當樣本量增加到5000(S2)時,標準誤整體下降比較明顯。因此, 使用ARRG 法時, 若對參數估計的精度有要求,需要盡量提供較大的樣本量。
均值代表了標準誤變化的整體趨勢。 難度不同的題目受考生猜測作答的影響不同, 經過ARRG 法處理的結果也有所不同。 為了觀察不同難度題目標準誤的變化,以下抽取3 道題目分別說明。
圖5 為3 道難度不同題目的標準誤變化, 代表了難度變化的2 種類型。 32、39、110 題的難度依次增大, 分別是-2.36、0.09 和1.94。 觀察圖5 可以看到,32 題和39 題的標準誤變化全距不大;110 題的標準誤隨著樣本量的增大而減小, 隨著概率閾限的增加而增加,與標準誤的均值變化趨勢相似,變化比較劇烈。在32 題和39 題標準誤的變化中,概率閾限為0.3 時,標準誤的變化出現了小的波動,說明概率閾限較大時被標記為缺失值的作答增加, 用于估計參數的信息減少。因此,對高風險測驗進行處理時要盡量采用大樣本及合適的概率閾限, 以獲得較高的參數估計精度。 難度較小的題目受考試猜測作答的影響較小,被標記為缺失值的作答較少,因此標準誤的變化不明顯;同時隨著樣本量的增加,標準誤也隨之降低。難度較大的題目更容易引入猜測作答,概率閾限設置的越高,被標記為缺失值的作答越多,標準誤越大,小樣本的變化尤為明顯。

圖4 不同樣本量及概率閾限條件下難度估計標準誤均值的變化

圖5 不同難度題目標準誤的變化
考生猜測作答是一種偏離測驗構念的行為,可以通過Rasch 模型參數變化來檢驗,并將與其相關的問題最小化。ARRG 法是Rasch 模型框架下消除考生猜測作答對參數估計的影響、提高參數估計準確性的有效手段。本文的研究目的是觀察大樣本情況下概率閾限的改變對參數估計的影響。 從兩個角度驗證ARRG 法的有效性:不同樣本量、不同概率閾限下數據-模型的擬合優度、難度估計的變化及其標準誤。
個人擬合優度主要受樣本量的影響, 樣本量的增加伴隨著異常作答的增多, 不擬合的考生數目增加; 但在樣本量相同的條件下, 隨著概率閾限的增大,個人擬合優度增加,不擬合的考生數目下降,在概率閾限為0.25 時降到最小值。 χ2和個人擬合的變化趨勢相似,隨概率閾限的增加而降低。個人擬合優度的提高和χ2的降低說明消除考生猜測作答能明顯提高數據-模型的擬合優度。
難度估計的變化主要受題目自身難度的影響,根據題目難度的不同, 難度估計的變化趨勢分為兩類:簡單題目的難度變小,但整體變化不大;較難題目的難度變大,且隨著概率閾限的增加,難度變化程度增加。 難度估計的變化受樣本量的影響較小,不同樣本量的題目難度變化趨勢相似。 標準誤的變化主要受樣本量的影響,樣本量較小時(2000),標準誤隨概率閾限的變化有較大波動;樣本量逐漸增加時,即使設置較大的概率閾限(0.3),標準誤的變化也很小。
大樣本條件下, 概率閾限的改變主要引起題目難度估計的變化。概率閾限越大,題目難度估計的變化程度越大,但不會引起標準誤的劇烈波動,相反,標準誤處于比較平穩的水平。因此,在高風險測試中,若要消除考生猜測作答對參數估計的影響,應該盡量使用大樣本,以保證調整過程中參數估計的精度。同時,在使用ARRG 法時,概率閾限的設置不是越大越好,個人擬合指標顯示,不擬合的考生數目在概率閾限為0.25 時最低,但χ2統計量保持下降趨勢,這就需要根據實際情況選擇合適的概率閾限。通常會選擇略高于0-1 計分題目隨機猜測率的值作為概率閾限。