宋吉祥 李付鵬 杜海燕
偵測試題在不同群體中的DIF(Differential Item Functioning,項目功能差異)現象是研究試題公平性的重要議題。 DIF 可描述為:控制了參加同一測驗的不同群體的能力之后, 試題在不同群體中顯示的統計特性[1];也可描述為:兩組或多組能力或表現相匹配的群體,在答題表現上的顯著差異。檢索國內近年來的相關研究文獻發現, 多數是分別基于0-1 計分試題(選擇題、填空題、判斷題等)或基于多級計分試題(解答題、論述題、分析題等)的DIF 研究,將0-1計分試題和多級計分試題統一起來進行DIF 研究的較少。一般情況下,一份完整的試題包含0-1 計分試題和多級計分試題,如果分開進行DIF 研究,破壞了試卷的整體結構,分析的結果具有一定局限性。
本文利用基于Rasch 測量理論的RCMLM(Random Coefficient Multinomial Logit Model,隨機系數多項式Logit 模型)通用拓展模型,對一份包含0-1 計分和多級計分試題的普通高中數學試卷進行DIF 研究。 為與其他文獻的表述保持一致,文中試題有時用項目描述,試題和項目是統一概念。
RCMLM 模型是通用的Rasch 單維模型,包含基本Rasch 模型、PCM 模型(Partial Credit Model,分部評分模型)和RSM 模型(Rating Scale Model,等級量表模型)。分析0-1 計分試題時,RCMLM 模型被調整為Rasch 模型; 分析多級計分試題時,RCMLM 模型被調整為PCM 模型或RSM 模型。
假定參加測驗的被試n 的潛在能力為θn,n=1,2,3, ……,N, 每道試題i 有Ki+1 個試題反應類別,i=1,2,3,……,I,k=0,1,2,3,……,K。 隨機變量向量Xni=(Xni1,Xni2,Xni3,……,XniKi)T表示被試n 對試題i 的個Ki+1 反應,其中被試n 對試題i 在類別j 的反應正確時Xnij=1,反應錯誤時Xnij=0。 試題由參數向量ξi=(ξi1,ξi2……,ξip) 表示, 設計矩陣A 用于表示ξ的線性組合,全部試題的設計向量aij(i=1,……,I;j=0,1,……,Ki)形成設計矩陣A=(a11,…,a1k1,a21,…,a2k1,…,aI1,…,aIKi)。RCMLM 引入向量bi=(bi0,bi1,……,bik) 來表示每道試題上每個反應類別的分數,b 向量形成所有測驗試題的分數矩陣B=(b1,b2,……,bi)。
按照上述定義,基于RCMLM 模型[2,3]的被試n在試題i 第j 個類別的正確反應概率可表示為

分數矩陣和設計矩陣為RCMLM 帶來了很大的靈活性, 模型可以方便地轉化為簡單Rasch 模型、PCM 模型或RSM 模型。
在項目反應理論框架下,控制群體能力后,若群體間在一道試題上正確反應的差異在概率上表現出統計學意義,則表明試題呈現出DIF。 DIF 公式可以定義為:

其中: 對于所有的θ 和g 而言,x 是觀測變量,θ是潛在特質,g 是群體指示值。通常,沒有DIF 表明某種反應的概率不依賴于群體成員。 對于性別差異,公式(2)可以表述為:

因此,在RCMLM 框架下,被試n 在一個0-1 計分試題i 的DIF 偵測模型[4]可以表示為

其中:Xni表示被試n 對于試題i 的反應,ξi表示試題i 的難度參數,γi是試題DIF 參數,g 表示參照組時G=0,g 表示焦點組時G=1。 當G 這樣編碼時,γi可以解釋為焦點組和參照組之間的試題難度之差,是群體和試題之間的交互效應。 G=0 時,上述模型變為簡單Rasch 模型。
這個模型可以拓展到多級計分試題。 本研究即以PCM 為例,介紹該模型在多級計分試題DIF 中的應用。 對于每個具有K 個類別的試題,PCM 包括K-1 個ξ 參數。這些參數被描述為步驟參數ξij,j 是試題i 的步驟, 被試n 在一道試題的得分表示完成試題i步驟j 的數量。 在RCMLM 框架下,被試n 在一個多級計分試題i 步驟j 的DIF 偵測模型[5]可以表示為:

被試n 在試題i 類別j 正確反應時Xnij=1, 錯誤反應時Xnij=0。 對于參照組,G=0 時, 上述模型變為PCM 模型,γi與0-1 計分試題中的含義相同。
ConQuest 軟件可以同時完成在上述RCMLM 模型下0-1 計分試題(公式4)和多級計分試題(公式5)的性別DIF 偵測工作。 對于每一道試題,ConQuest提供γ 參數來估計性別和試題的交互效應,γ 代表男生和女生在試題難度上的差異, 具體在ConQuest軟件中的實現形式如下:

其中:γ 參數的估計由上述公式中的“item*gender”項實現。
上述DIF 差異可等效到常見的基于Mantel-Haensze 方法的DIF 效應量分類標準。ETS 也采取了這樣的DIF 效應量作為分類準則。 如果利用上述公式估計的DIF 差異滿足|2γi|<0.426,試題被認為表現出輕微的DIF(A 類DIF);0.426≤|2γi|<0.638,試題表現出中等程度的DIF(B 類DIF);|2γi|≥0.638,試題表現出較大的DIF(C 類DIF)。如果試題出現輕微的DIF 可以忽略不計, 表現出較大的DIF 就需要對試題進行調整,出現中等程度的DIF 則要視情況而定。
利用RCMLM 模型對一份普通高中數學試卷進行不同性別的DIF 分析, 一方面偵測該試卷在不同性別之間的難度差異; 另一方面檢測模型對0-1 計分和多級計分試題同時進行DIF 分析的效果。
由于Rasch 模型僅適用于處理具有0,1,2,……這樣連續分數的試題,因此,需要對試卷中解答題的原始分數重新編碼。 編碼參照考生在解答題的分數分布和評分細則,并約請數學學科專家進行了評估。選擇題和填空題正確反應記為1, 錯誤反應記為0。編碼結果如表1 所示。

表1 數學學科試題編碼
在基于模型的測量統計中, 數據是否擬合模型是分析問題的前提。 表2 給出了樣本的試題擬合統計信息。 從表2 可知, 試題加權擬合MNSQ(Mean Square,殘差均方)指標基本在參照值1.00 左右,部分試題未加權擬合MNSQ 指標偏離參照值1.00 略多。 試題名稱為LKSX01、LKSX012 、LKSX013 的試題,其未加權的MNSQ 值偏離1.00 較多。 為盡量減少非擬合對后續DIF 的影響, 本研究刪除這3 道試題,對剩余的18 道試題進行DIF 分析。

表2 試題擬合統計
試卷總體的性別差異可視為單道試題差異在整張試卷上的累積。 如果試卷整體呈現出較大的不同性別的群體差異,則部分試題可能存在DIF 現象。 因此,先從總體上進行兩方面的差異分析:(1)試卷總體的不同性別難度差異;(2)試卷總體的不同性別試題分布。
表3 給出了測驗總體男生、 女生的能力參數和測量標準誤。 男生和女生的能力差異為0.032。 未加權和加權的擬合指數MNSQ 接近1.000,說明模型與數據擬合很好,結果可靠。 男生、女生兩個群體的總體略有差異,但并不明顯,男生群體的能力參數略低于女生群體的能力參數。

表3 總體性別差異
將懷特圖應用到不同群體的DIF 分析, 可以顯示不同群體對應的試題難度分布。 圖1 最左列給出從-3 到+5 的量表范圍,該量表以logit 為單位,根據該范圍,不僅可以分析“+item”列下的試題難易度分布,也可以分析“-gender”列下不同性別的總體難度差異和“+item*gender”列下性別與可能存在DIF 的試題的交互效應。從圖1 可知,試題難度和考生能力分布都較為寬泛,這是測驗所期望的,但較容易的試題略多,較難的試題略少。與本研究直接關聯的分析是“-gender”列下不同群體的總體能力分布:圖1 顯示,總體上男生(圖中用1 表示)和女生(圖中用2 表示)處于非常接近的能力水平,這表明在男生和女生總體上沒有明顯差異, 這與表3 男生的-0.016 和女生0.016 的總體平均能力水平基本相當的結論是一致的。 圖1 最后一列性別與試題的交互圖給出可能具有DIF 的試題,包括題號為3、4 和13(圓點前面的數字為題號,后面的數字為性別,如13.1 表示題號為13 的試題與男生的交互效應)的試題等。

圖1 懷特圖
多級計分的解答題DIF 分析。 解答題一般包含多個步驟,每道試題在不同步驟上的性別DIF,是值得關注的問題。 表4 給出了5 道解答題中每個試題步驟的難度和不同性別之間的DIF 效應量。 依據上述給定的DIF 效應量分類標準,5 道解答題每個步驟的效應量均小于0.426,均屬于可以忽略不計的A類DIF 試題。 圖1 也沒有顯示解答題存在較為明顯的DIF 現象,二者的分析結果是一致的。
總體分析和解答題分析均沒有顯示較大的性別DIF 現象,這里忽略解答題的試題步驟難度,將每道解答題作為一個整體,以每道試題為單位,對試卷全部試題進行DIF 分析。 表5 給出了數學18 道題(不含刪除的3 道試題)不同性別DIF 的效應量,也給出了每道試題的標準誤。 DIF 效應量列中數值為正表示對女生有利,數值為負表示對男生有利。

表4 解答題的步驟難度和不同性別之間的DIF效應量

表5 試題的DIF 效應量
依據上述分類標準和DIF 差異, 表6 分別給出了有利于男生和有利于女生的試題編號及各道試題所屬的DIF 分類。 試卷大多數試題顯示較為輕微的A 類DIF,2 道試題(題號為3 和4)顯示有利于女生的B 類DIF,1 道試題(題號為13)顯示有利于男生的B 類DIF,沒有表現出較為嚴重DIF 的C 類試題。顯示B 類DIF 的3 道試題均為客觀題。

表6 試題的DIF 效應量
為進一步觀察顯示出DIF 的試題對不同性別在不同能力水平上的差異, 圖2 和圖3 分別給出了1道有利于女生 (題號為3, 對應的題目名稱為LKSX04)的試題和1 道有利于男生(題號為13,對應的題目名稱為LKSX16)的試題的特征曲線。圖2 中,女生的項目反應曲線靠近圖形的上方;圖3 中,男生的項目反應曲線靠近圖形的上方。 隨著考生能力的增加,圖2 顯示男女生差異具有越來越小的趨勢,圖3顯示男女生差異具有越來越大的趨勢。 這表明有利于女生的試題在較低能力的考生群體中表現出較大的性別差異, 有利于男生的試題在較高能力的考生群體中表現出較大的性別差異。

圖2 試題名稱LKSX04 的項目特征曲線

圖3 試題名稱LKSX16 的項目特征曲線
本文利用基于Rasch 測量理論的RCMLM 通用拓展模型, 對包含0-1 計分試題和多級計分試題的試卷同時進行DIF 分析。分析結果顯示,大部分試題僅具有輕微的DIF 現象, 部分試題具有一定程度的DIF 現象;分析也表明RCMLM 通用拓展模型可以對0-1 計分試題和多級計分試題同時進行DIF 分析,保持了試卷的完整性,DIF 分析結果更加有效。
相比于目前普遍使用的基于CTT (classical test theory,經典測量理論)的Mantel-Haenszel 方法,基于Rasch 測量理論的RCMLM 模型的DIF 偵測敏感度更高[6];同時,RCMLM 模型也可以進一步拓展為多維模型,具有更好的適應性,是一種具有發展前景的DIF 偵測方法。