韓曉杰 任 杰
等值是將不同測驗版本的分數統一到一個量表上的過程[1]。 等值不僅有利于保證測驗的公平,為分數使用者提供來自不同測驗版本上具有同等意義的分數,讓不同版本的測驗分數具有可比性;同時,等值也是題庫建設中的重要一環, 通過等值可以將不同測驗版本的題目參數統一到一個量尺上, 讓題目參數具有可比性,等值誤差越小,越有利于科學化題庫的建設。
為保證測驗的安全性, 某些全國性大型測驗經常以平行試卷的形式對全國考生進行施測。 在題庫建設時,需對所有平行試卷進行等值處理。不同地區的考生在平行試卷上得分不同,究其原因,一方面是試卷難度不同, 另一方面是不同地區考生能力存在差異。涂冬波(2004)指出,我國教育存在地區間發展不平衡的問題, 且該問題直接造成了地區間人才培養上的差距[2],即地區教育水平差異很大程度上會影響考生能力。那么,不同地區考生能力分布不同是否會影響不同平行試卷等值到基準卷上的結果? 這一問題直接關系到題庫建設的科學化程度。
一般認為, 基于項目反應理論 (item response theory,IRT)的等值的一大優點在于不依賴被試。 但是,Holland & Rubin(1982)提出,等值或多或少存在樣本依賴性[3]。 羅照盛等(2007)指出,當前關于等值誤差問題的研究, 基本上都是在固定被試參數總體的情況下,并未系統研究錨題設計情形下,使用不同分布形態的被試組估計項目特征曲線等值系數時可能帶來的等值誤差;其研究結果表明,在實際等值估計過程中,不應只考慮樣本量的大小,必須重視被試樣本的分布形態[4]。 吳佳儒、陳柏熹(2008)針對等值過程中不同受試者人數與能力分布形態對試題參數與能力估計精準度的影響進行了研究, 研究結果表明: 能力以均等分布時, 等值的均方根誤差(Root Mean Square Error,RMSE)值最高[5]。 Sevilay&Nukhet(2012)基于IRT 理論,根據樣本量與被試分布形態對分別估計下的四種等值方法進行了比較研究;研究結果表明,Stocking-Lord 法的等值誤差最小,且被試樣組分布形態越接近,等值誤差越小[6]。 以往研究中,試卷題目參數與考生能力參數均采用模擬數據。本研究將采用實際題目參數, 考生能力參數將根據實際考生能力參數進行模擬。 本文意在探討與基準卷能力分布一致的被試以及與基準卷能力分布差異較大的被試對等值誤差的影響, 并研究這種誤差是否可以通過增大被試量來解決。
本研究基于IRT 理論中的LOGISTIC 雙參數模型,采用共同題非等組設計。共同題非等組設計是等值設計中最為靈活有效的設計[7]。其具體方案是將同一測驗的不同版本對兩組考生進行施測, 兩個測驗版本之間存在約20%的共同題目。 兩組考生的得分受到考生能力與題目難度兩方面的影響, 通過考生在共同題上的作答表現可以分離出考生能力的差別,從而得到試卷難度差異。
在進行兩份試卷等值時, 本研究采用項目特征曲線法。 該方法的優點在于充分利用了題目參數與考生能力參數的信息, 增加了等值結果的可靠性。1980 年,Haebara 率先提出基于項目特征曲線法來完成量表的轉換。 Raju & Arenson(2002)認為,對于具有一定能力水平的參與者, 項目特征曲線的差值為每個項目的項目特征曲線平方和[8]。 Haebara 提出了使這一差值最小的方程常數和方程曲線。 1983年,Stocking 和Lord 提出與之類似的方法[9]。 兩種方法均基于以下公式:

其中,θ 為考生的能力參數,a 為題目的區分度參數,b 為題目的難度參數,α為標桿卷,β 為待等值試卷,Pij為被試j 正確作答題目i 的概率。 A 為等值方程中的斜率,B 為截距。 將測驗樣本的項目參數估計值帶入,會存在誤差ε,誤差最小時的A、B 值即為理想的等值系數值。 下面將分別介紹Haebara 法與Stocking-Lord 法對A、B 值的估計原理。
Haebara 法首先對誤差求平方,可得:

若存在n 個被試,m 個題目, 則將上式對i 與j進行求和,得到:


Stocking & Lord 法與Haeraba 的方法稍有差別。由于同一被試在同一批項目上的正確作答概率是相等的,Stocking-Lord 法首先將被試j 固定, 對題目i的正確作答概率進行累加,可得:

此時,再帶入參數估計值,計算誤差方差,可得:

若存在m 個題目, 則需要對上式中的j 進行求和,并記為F2,可得:

當誤差方差最小時,即令F1與F2最小,求出A、B 值即為理想的等值系數。 一般方法為求導并采用牛頓迭代法迭代求出最佳A、B 值。
等值方法不同會帶來不同的等值誤差。 誤差分為隨機誤差和系統誤差。 隨機誤差是由抽樣造成的,增大樣本量,隨機誤差會隨之降低。 因此,本研究旨在通過對考生能力分布與被試量以及等值方法的研究,為降低等值誤差提供參考。 同時,采用等值分數標準誤、等值系數標準誤、共同題參數穩定性三種方法對等值結果進行評價。
本研究涉及某漢語考試某兩個年份的試卷X 和Y。 這兩份試卷為平行試卷,其中X 試卷為基準卷,Y試卷為待等值試卷。X 與Y 包含20%的共同題。作答X 試卷的考生組記為P, 作答Y 試卷的考生組記為Q。 模擬不同被試量下P 考生分布以及Q 考生分布去作答Y 試卷,再將Y 試卷與X 試卷等值,以此研究不同等值方法下考生分布及被試量對等值結果的影響。
本研究采用WINGEN3 對考生作答數據進行模擬,采用R 語言自編程序進行參數估計和試卷等值。
首先利用R 語言自編程序根據Q 組考生在Y試卷上的作答反應估計出Q 組考生的能力值, 并計算Q 組考生能力值的平均值與標準差。 經計算,平均值θQ為-0.064,標準差θQ為0.85。再根據P 與Q 兩組考生在共同題上的作答反應估計出兩組考生的能力差異,記為θε。 由此可得與Q 組考生在同一能力量尺上的P 組考生的能力為θP=θQ+θε。 經計算θP為-2.7。
利用WINGEN3 對考生作答進行模擬, 試卷參數使用Y 試卷的真實參數, 考生能力參數為正態分布,平均值分別采用θP和θQ,標準差采用原始能力值的標準差, 被試量分別為500、1000、5000 三個批次, 每個批次分別模擬15 次, 共90 批考生作答數據。 將90 批考生數據分別與基準卷X 進行等值,采用等值分數標準誤、等值系數標準誤、共同題穩定性三種方法對等值結果進行評價。
因此, 根據考生能力分布與被試量共模擬了以下6 種情況:
①被試量為500,考生能力分布服從[N(-2.7,1)]
②被試量為1000,考生能力分布服從[N(-2.7,1)]
③被試量為5000,考生能力分布服從[N(-2.7,1)]
④被試量為500,考生能力分布服從[N(-0.064,0.85)]
⑤被試量為1000,考生能力分布服從[N(-0.064,0.85)]
⑥被試量為5000,考生能力分布服從[N(-0.064,0.85)]
以下簡稱N(-2.7,1)為P 分布,N(-0.064,0.85)為Q 分布。
學界對于等值結果的評價標準不一。張建、任杰(2018)提出,可以根據評價的對象不同,將等值結果評價標準劃分為評價等值分數的標準和評價等值參數的標準[10]。 本研究擬采用以上兩類評價標準中的等值分數標準誤、等值系數標準誤、共同題參數穩定性三種評價方法對等值結果進行評價。
等值分數標準誤是在評價等值分數時采取的主要評價標準, 其實質是考察樣本量對等值分數的影響。一般而言,樣本量越大,等值誤差越小,等值結果越穩定。 Bootstrap 法和Delta 法均可計算等值誤差。戴海崎(1999)認為,Bootstrap 法對等值誤差的估計更接近于等值標準誤差的定義[11]。 Bootstrap 法的計算步驟如下:
(1)分別在參加X 測驗與Y 測驗的考生中抽取樣本量為nX、ny的樣本;
(2)采用適當的等值方法將兩個樣本進行等值,可得:

由于抽樣的復雜性, 一般采用特定的程序進行抽樣和等值。等值后不僅會產生等值分數,也會產生等值分數標準誤。等值分數標準誤越小,等值結果越穩定。

表1 等值分數標準誤平均值
綜合表1、圖1 及圖2 可知,Stocking-Lord 法與Haebara 法下等值分數標準誤的趨勢基本一致,Stocking-Lord 法等值結果更穩定。 當考生能力服從P 分布時,等值分數標準誤較Q 分布低。 即考生能力分布越接近,等值分數的標準誤越低。 兩種分布下,等值分數標準誤均隨樣本量的增加呈現出降低趨勢。 P 分布中的等值分數標準誤在不同批次及不同樣本量中的變化均較為平穩;Q 分布中的等值分數標準誤則波動較大,當樣本量增至5000 時,變化趨于穩定, 但是其值仍高于P 分布中樣本量為500 時的等值分數標準誤。 本研究結果與羅照盛(2007)的研究結果不謀而合。在實際等值中,不能僅依靠增加樣本量來降低等值誤差, 還需關注兩組考生的能力分布。當兩組被試分布差異較大時,僅靠增加樣本量并不能有效降低等值誤差。

圖1 Stocking-Lord 法下等值分數標準誤

圖2 Haebara 法下等值分數標準誤

表2 等值系數標準誤平均值
等值系數是兩份試卷之間分數轉換與參數轉換的關鍵所在,也是等值的核心環節。等值系數一般用A、B 表示。 兩份試卷以及考生能力之間存在以下轉換關系[12]:

采用不同的等值方法會得到不同的等值系數,同時也會產生不同的等值系數標準誤。 等值系數標準誤是衡量等值系數穩定性的標準,一般而言,等值系數標準誤越小,等值系數越穩定,等值結果越好。
從表2 及圖3-6 可知, 兩種等值方法下等值系數A、B 的標準誤變化趨勢一致,均隨樣本量的增加而降低。 不同分布下標準誤變化幅度不同,P 分布下的等值系數標準誤較為穩定,Q 分布下的等值系數標準誤隨樣本量變化波動較大。Stocking-Lord 法下,Q 分布中樣本量為5000 時等值系數A 的標準誤與P 分布中樣本量為500 時的等值系數A 的標準誤較為接近。 此外,Q 分布下的等值系數標準誤均高于P分布下的等值系數標準誤。樣本量一定時,無論采用何種等值方法, 兩種分布下B 值的等值系數標準誤均高于A 值的等值系數標準誤。

圖3 Stocking-Lord 法下等值系數A 的標準誤

圖4 Stocking-Lord 法下等值系數B 的標準誤

圖5 Haebara 法下等值系數A 的標準誤

圖6 Haebara 法下等值系數B 的標準誤

圖7 Stocking-Lord 法與Haebara 法的等值系數標準誤差異
圖7 為Stocking-Lord 法下的等值系數標準誤與Haebara 法下的等值系數標準誤之間的差異。圖7 及表2 表明,Stocking-Lord 法下A 系數的標準誤明顯低于Haebara 法,但P 分布下B 系數的標準誤略高于Haebara 方法; 在Q 分布下,Haebara 法中A 值與B值的標準誤分別約為Stocking-Lord 法中A 值與B值標準誤的1.5-2 倍。
共同題參數穩定性是項目反應理論(IRT)分別估計方法下獨有的等值結果判斷標準。 不同組考生均作答共同題,會產生不同的作答反應,但是經過分別估計等值后, 理論上等值后的題目參數應該與基準卷上的題目參數是一致的。 但是受到等值誤差的影響, 等值后的題目參數與基準卷上的題目參數往往不一致,題目參數之間會存在一定的差異。題目參數之間的差異用均方根偏差(Root Mean Square Deviation,RMSD)來計算,計算公式如下:

其中m 為共同題題目數量,xi為基準卷的共同題題目參數,xi' 為等值后的題目參數。 Sevilay Kilmen & Nukhet Demirtasli (2012) 研 究 中 采 用RMSD 值評價等值結果[13],RMSD 值越小,等值結果越好。
表3 為共同題參數穩定性的RMSD 值。 由表3可知,當分布一定、被試量確定時,Stocking-Lord 法下的共同題難度參數的RMSD 值小于Haebara 法;區分度參數的RMSD 值則稍有不同:P 分布下區分度的RMSD 值波動較小,難度的RMSD 值變化稍大;Q 分布下難度的RMSD 值變化較大, 不同樣本量間RMSD 變 化 幅 度 在0.078 (1.598-1.520=0.078)到0.562(4.340-3.778=0.562)之間。當分布一定、等值方法確定時, 共同題參數的RMSD 值均隨被試量的增加而降低。P 分布中的RMSD 值較Q 分布更為平穩;Q 分布中的RMSD 值變化較大,Haebara 難度平均值最大降低了2.742(4.340-1.598=2.742)。 當被試量一定、 等值方法確定時,P 分布中共同題難度參數的RMSD 值遠低于Q 分布, 區分度參數的RMSD 值稍低于Q 分布。

表3 共同題參數的RMSD 值
首先,考生能力分布差異較大將顯著影響等值的準確性。 待等值試卷上的考生能力分布與基準卷上的考生能力分布越接近,等值分數的標準誤越小,等值系數的標準誤越小,共同題參數越穩定。如果兩組考生能力差別過大,會嚴重影響等值結果的精度。
另外,增加被試量可以降低等值誤差,但是如果兩組考生能力分布差異過大,此時,即使大量增加被試量也不能有效降低等值誤差。 如果兩組考生能力分布非常接近, 則只需較少的被試就可以得到較為準確的等值結果。
此外,不同的等值方法帶來不同的等值誤差。當兩組考生能力分布一致時, 在等值系數B 的標準誤以及區分度參數的穩定性方面,Haebara 方法表現略好。 但是,整體來看,Stocking-Lord 法較Haebara 方法更為穩定,誤差更小。
因此,在實際等值操作中,不能僅關注采用增加被試量來降低等值誤差的方法, 考生能力分布同樣值得重視。在題庫建設的等值過程中,如果發現兩組考生能力差異過大, 為獲得更加準確的入庫題目參數, 建議在待等值試卷中抽取一個與基準卷被試分布相似的被試樣本,再與基準卷進行等值,以有效降低等值誤差。
本研究僅基于正態能力分布下的兩種考生能力分布情況,針對考生能力分布對等值精度的影響進行探討,其他情況未加以討論。 此外,在Q 分布下,Haebara 法中A 值與B 值的標準誤分別約為Stocking-Lord 法中A 值與B 值標準誤的近1.5-2倍, 這一結果在本研究的不同被試量下均適用,但是在其他情況下是否適用這一結論仍需要進一步討論研究。