李付鵬 宋吉祥 杜海燕
在教育測驗中,一般認為測驗結構是單維的,目前大多數的教育考試也以單一的測驗分數報告成績。但在實踐中測驗往往是多維度的,多維測驗一般包括兩種基本類型[1,2],試題間(between-item)多維度和試題內(within-item)多維度。試題間多維度的特征是在一個具有多個維度的測驗中,每個試題僅僅隸屬于某一個維度;試題內多維度則是在一個測驗中存在一個或多個試題隸屬于不同的維度。
測驗維度分析的方法較多,包括傳統的主成分分析、探索性因素分析[3,4]和驗證性因素分析[5]等。在單維Rasch 模型基礎上發展起來的多維隨機系數多項式Logit 模型 (Multidimensional Random Coefficients Multinomial Logit Model,MRCMLM)可進行驗證性因素分析。本研究運用MRCMLM 分析某高考數學試卷的能力維度,對三種可能存在的維度模型進行實驗研究,最終確定一種最佳的維度模型,并在該模型框架下進行多維試題分析。
MRCMLM 模 型[6,7]是 在 單 維Rasch 模 型 基 礎 上發展起來的一個通用的項目反應模型。該模型可自適應Rasch 類型的多個試題反應類型,包括常見的等級量表模型 (RSM)、 分部評分模型 (PCM)和FACET 模型等。MRCMLM 模型既可以進行單維分析,也可以進行多維可補償分析;既可以進行二分計分分析,也可以進行多分計分分析。MRCMLM 的數學表達式如下:

其中概率P 是能力為θ 的被試在試題i(i=1,2,…,I)類別j(=1,2,…,Ki)的反應概率,其中I 表示試題的數量,Ki表示試題i 上作答反應的類別數量。被試在試題i 的類別j 正確反應時Xij=1,否則為零,A和B 分別為設計矩陣和分數矩陣,bij是試題i 上作答反應為j 類別時對應的分數向量,aij是在試題i 上作答反應為j 類別時對應的設計向量,描述了其與試題參數向量ξ 之間的線性關系。

圖1 模型A

圖2 模型B
本研究對某省某年度普通高考數學試卷進行能力維度分析。試卷共有21 個試題,樣本數量1250。從命題藍圖可知,這套試卷考查了多方面的數學能力,由于涉及抽象概括能力、數據處理能力、創新能力、應用能力、空間想象能力的試題較少,故刪除了這部分試題(共7 個),保留了考查運算求解能力和推理論證能力的共14 個試題,即試卷被確定為兩個主要能力維度,運算求解能力建模在第一個維度上,推理論證能力建模在第二個維度上,所有試題均按二分計分。根據專家建議,主要進行了三個模型的擬合,分別命名為模型A、模型B 和模型C,具體模型如圖1、圖2、圖3 所示。模型A 假定所有的試題均測量一種能力,即數學方面的能力;模型B 假定第12題主要考查運算求解能力;模型C 假定第12 題考查運算求解能力和推理論證能力,其他試題的模型結構與模型B 相同。按照上述的模型分類,模型B 屬于項目間的多維模型,模型C 屬于既有項目間又有項目內的多維模型。

圖3 模型C

圖4 模型B 多維懷特圖
對于同一套試卷中的試題而言,試題與不同潛在維度之間的隸屬劃分,可構成不同的試卷維度模型。本研究以不同試卷維度模型與實測數據的擬合偏差大小為主要依據,同時結合方差和相關性,并以此為標準來篩選出最佳試卷維度模型[8,9]。上述兩個多維模型與單維模型是層次化的關系,即模型是嵌套的,模型的擬合偏差越小,擬合度越大,就越接近真實模型。
維度擬合偏差分析。表1 給出了三個模型擬合偏差的變化,三個模型的偏差基本相當,模型A 的擬合偏差略大于模型C,模型C 的擬合偏差略大于模型B,從擬合偏差最小的角度來看,模型B 是最佳模型。Akaike 信息準則(AIC)和貝葉斯信息準則(BIC)表明,模型B 具有最小的AIC,模型A 具有最小的BIC,但從數值上來看,三個模型擬合情況基本相當。

表1 模型的全局擬合度統計和信息標準

表2 模型的維度方差、協方差和相關性
維度方差和相關性分析。表2 給出了模型B 和模型C 的方差、協方差和相關性數據,其中對角元素是兩個維度的方差,非對角下三角元素是兩個維度的協方差,非對角線上三角表示維度之間的相關性。從兩個模型維度間的相關性來看,由于MRCMLM 模型是一種補償多維模型,它利用子測驗之間的相關性來提高測量精度和可靠性,因此,應盡可能選擇維度相關性較高的測量模型,由表2 可知,模型B 和模型C 各自兩個維度間的相關性都比較高,模型B 維度間的相關性略大于模型C。維度間的協方差可以看作是維度間相關系數和維度方差共同作用的結果,因為對于兩個給定變量X,Y,在數學上其相關性ρXY與協方差Cov(X,Y)具有如下的關系:ρXY=CovVar(X)與Var(X)表示兩個變量的方差,也就是說,對于一個給定的模型,協方差和相關性的變化方向是一致的。因此,對兩個模型維度間的相關性分析與協方差分析具有類似的解釋。
結合上述兩個方面的分析,同時考慮到模型簡單化的原則,最終確定模型B 為符合試卷實際結構的最佳模型。
基于以上的分析結果,在模型B 框架下進行多維試題分析。
試題難度分布。試題難度是測驗的一個重要參數,本研究通過懷特圖來展示試題的難度分布.懷特圖不僅給出了試題難度的分布情況,而且在同一個量尺下,也同時給出了被試反應的分布情況。B 模型下的多維懷特圖如圖4 所示,兩個維度下的試題都具有較大的分布范圍,維度一試題難度在總體上略大于維度二,但對于考生來說,兩個維度的試題都略微簡單。維度一第17 題和維度二第21 題分別屬于兩個維度中的最難試題,維度一第3 題和維度二的第8 題分別屬于兩個維度中的最簡單試題,被試在兩個維度上的分布也分別呈現對稱分布。
試題特征曲面。由于模型B 和模型C 的差異主要與試卷中第12 題的維度劃分有關。下面主要以第12 題的試題反應為例進行分析。在單維情況下,一般分析試題的特征曲線;在多維情況下,一般分析試題的特征曲面。圖5 給出了第12 題在模型B 下考生作答概率如何隨第一特質維度θ1和第二特質維度θ2變化的情況。對于僅僅具有一個維度的試題而言,學生對試題反應的概率僅僅在相關的一個潛在特質維度方向上變化,而與另一個潛在特質維度無關。圖5左側部分顯示無論θ2是高還是低,都無法觀測到該潛在特質對θ1的補償情況,該試題正確回答的概率僅僅取決于θ1,相同的θ1具有相同的反應概率值。圖5 右側部分的試題等高線同樣可以反映試題的差異,等高線同樣清晰地表明試題僅僅與θ1有關,與θ2無關。由于模型B 中沒有項目內的多維性試題存在,圖5 所示的試題特征曲面和試題等高線沒有體現出MRCMLM 模型的補償性。圖6 給出模型C 下第12題的試題特征反應曲面和等高線,目的是觀察MRCMLM 模型的補償性特性。圖6 左側部分顯示了一種潛在特質維度可以通過其他潛在特質維度的強度來補償,由圖可知,相同的θ1由于受到θ2的補償作用,可能具有不同的反應概率值。圖6 右側部分的等高線也顯示出受到兩個維度的作用。
試題信息曲面。下面仍以第12 題的試題反應為例進行試題信息曲面分析。圖7 給出了兩個模型下第12 題的試題信息曲面。試題信息是關于潛在特質的函數,它為深入了解試題的測量精度提供了途徑。試題信息在測驗構建中發揮著特別的作用。從項目反映理論的角度來看,試題提供的信息非常重要,這是試題有效性和可靠性的重要指示。圖7 左側部分顯示當維度一潛在特質θ1在零附近時,第12 題提供了最大的試題信息,當維度一潛在特質θ1非常低或非常高時,試題提供的信息最低。圖7 右側部分顯示當兩個潛在特質θ1和θ2都在零附近時,項目信息水平最高,而當潛在特質變得非常低或非常高時,項目信息最低。

圖5 模型B 試題特征曲面(左)和試題等高線(右)

圖6 模型C 試題特征曲面(左)和試題等高線(右)

圖7 模型B(左)和模型C(右)試題信息曲面
測驗層面分析。測試的精度可以通過對每個試題可用的信息求和來確定,測驗信息是試卷所有試題信息總的反映。通過信息函數,測驗人員可以精確評估每個試題對總測驗精度的貢獻,從而選擇與測驗構建其它方面不沖突的試題。從項目反應理論的角度來看,對于一份試卷,要尋求最大的測驗信息,同時獲得最小的測驗標準誤。圖8 給出了測驗試題的總信息(左圖)和 測驗標準誤的圖形分布(右圖)。在試題信息曲面圖中,最陡坡的方向具有信息函數的最高脊。圖8(左圖)給出了脊線的大致位置,同時可以看出在兩個維度不同坐標點的測驗信息量分布,盡管兩個維度上的試題數量相同,但對測驗信息的總貢獻不一樣;圖8(右圖)可以看出在兩個維度的不同坐標點測驗標準誤的分布情況,兩個維度的不同特質分布坐標上的標準誤在大部分區域是一致的。

圖8 測驗試題信息曲面(左)和測驗標準誤曲面(右)
本文基于MRCMLM 模型,從擬合偏差、維度方差和相關性等幾個方面,確定了試卷結構的多維模型,并對試卷試題進行了多維度的分析。結果表明,MRCMLM 模型是一種有效的分析試卷多維結構的工具,多維分析能夠提供比單維分析更加豐富的測試信息,多維分析結果更加符合真實的試卷結構,分析也驗證了MRCMLM 模型具有補償性質。
本次研究一個主要的局限性是所使用的考試數據沒有呈現出較為明顯的多維度特征,單維模型和兩個多維模型的擬合偏差差異較小。在擬合偏差差異較小的情況下,以單維模型A 進行分析更加簡單,但考慮到單維分析所提供的試題和試卷的信息較少,本文以模型B 為基礎進行了多維度的分析。另一個局限性在于目前能夠進行多維分析的三維或多維的圖形化工具較少,本文利用近年來發展迅速的R語言的圖形化工具實現數據的多維分析,但還不能完全滿足數據分析的需要。
與傳統因素分析方法類似,可以通過探索性因素分析或驗證性因素分析的方法確定多維模型。本文采取的是驗證性因素分析方法,基于近年來新發展的MRCMLM 模型,對某普通高考數學試卷可能存在的維度模型,從測驗的擬合偏差、相關性角度確定最佳的維度模型,并對確定的維度模型從試題信息層面和測驗信息層面作進一步分析,得到了一些有意義的結論,將該分析方法與傳統的多種因素分析進行比較是本研究下一步的工作。