張 軍
(北京語言大學漢語進修學院,北京100083)
單維項目反應理論模型分參數型(Parametric Item Response Theory,PIRT)與非參數型(Nonparametric Item Response Theory,NIRT)兩種。PIRT 模型適合于等距量表或比率量表水平的測量;而NIRT的測量限于順序量表水平。(Meijer,Sijtsma,&Smid,1990;Sijtsma & Verweij,1992)前者使用難度、區分度、猜測度等若干項目參數刻畫項目特征曲線,描寫項目的測量特性;而后者不要求反應數據符合某種特定函數形態,比前者限制要少,只使用量表適宜性系數H(scalability coefficients)衡量項目測量被試的適宜性。
關于PIRT 與NIRT 兩種模型下項目參數之間的關系,有的研究者做了有益的分析。Roskam 等(1986)、Jansen(1982)和Mokken 等(1986)認為H 系數是一個能反映項目綜合性能的統計量,它與潛在能力的方差、難度的全距(the spread of item difficulties)和區分度三個因素有關,當其中兩個因素保持不變,H系數就是另一個因素的遞增函數,但是一個特定的H值并不能提供有關三個因素的具體信息。
Sijtsma,Emons,Bouwmeester 和Ivan(2008)認為Hi 系數的取值取決于項目區分度、難度與潛在變量分布的交互作用。他們模擬了分布情況分別為(均值= -2,標準差=1)和(均值=1,標準差=1)兩種能力群體對5 個多級項目的反應數據,樣本容量都是5000 人,這5 個項目的三個等級的難度各不相同,區分度都是1.4。經計算,雖然項目的區分度相同,但Hi 系數卻因為能力分布與難度的不同而大小不同。張軍(2010)使用自動選題策略分析試卷維度時,發現項目的區分度對通過H 系數進行的量表構建過程有較大影響。除以上三個因素以外,是否還存在其他因素與H 系數有關,如潛在能力分布的均值、難度分布的均值等,以及潛在能力、難度、區分度三個因素如何綜合影響H 系數,這些問題尚未有研究涉及。
單維性和局部獨立性是單維參數型項目反應理論兩大基本假設,除此以外,PIRT 還要求潛在能力與被試項目反應之間的關系符合某種特定的函數形態。根據函數的不同,主要有兩種單維PIRT 模型:正態拱形模型(Lord,1952)和邏輯斯蒂克模型(Birnbaum,1957)。這兩種模型的項目特征曲線的形態都呈S 型,根據所含項目參數的多寡又分為單參數模型(難度)、雙單數模型(難度、區分度)和三參數模型(難度、區分度、猜測度)。
若給邏輯斯蒂克模型添加個調節系數1.7,那么兩種模型差別極小,但邏輯斯蒂克模型計算起來相對方便,遂使用更為廣泛。難度參數與潛在能力參數在同一量綱中(Hambleton & Swaminathan,1984),一般處于-3 到3 之間,取值越大,說明項目越不容易答對;區分度處于0 到2 之間,取值越大,項目特征曲線越陡峭,項目對被試的區分能力越強;猜測度愈高,被試愈容易通過猜測回答正確。
單參數模型不含區分度,相當于區分度等于1的雙參數模型,是雙參數模型的特殊形態,其對數據的要求更嚴格,所以雙參數或三參數模型在擬合數據上更加靈活。在大樣本數據情況下,難度和區分度兩參數都能得到良好的估計,猜測度卻相對不太穩定,因此在實踐中,雙參數模型優勢最明顯。雙參數邏輯斯蒂克模型的形式如下:

注:ai為項目i 區分度;bi為項目i 區分度
D 為調節系數,取值1.7;θ 為被試潛在能力參數
Mokken(1971)提出了NIRT 中的單調勻質模型(The Monotone Homogeneity Model,MHM)和雙單調模型(The Double Monotonicity Model,DMM)。MHM 模型有三個基本假設:單維性、局部獨立性、單調性。前兩個假設與PIRT 相同,但是NIRT 不要求被試潛在能力與項目反應之間的關系符合某種特定函數形態,只要求項目反應曲線非單調遞減,即若存在兩個潛在能力值θa和θb,且θa≤θb,那么P(xj= 1| θ = θa〉)≤P(xj= 1| θ = θb〉。DMM 除以上三個假設外,另要求所有項目特征曲線不交叉,即非交叉性,類似于PIRT 中的單參數模型。從假設要求來看,NIRT 模型比PIRT 模型更自由,其對被試潛在能力與項目反應之間關系的理解更寬泛,所以若某數據擬合PIRT 模型,那它必然亦擬合NIRT 模型。
為衡量數據是否擬合NIRT 模型,Mokken 采用了Loveinger(1947)提出的量表適宜性系數(scalability coefficients)。系數分為:項目i 與項目j 間的量表適宜系數Hij;項目i 與剩余項目全體的量表適宜系數Hi;全體項目的量表適宜系數H。計算公式如下:

注:R(i)指除i 以外其他題的總分。
若數據擬合NIRT 模型,那么三種量表適宜性系數就都處于0 和1 之間。Mokken(1971)認為僅當H >c 時,那個量表才有用。c 是低限,可根據需要設定,至少為0.3。當0.3 ≤H <0.4 時,被認為是較弱程度的量表;當0.4 ≤H <0.5 時,程度中等;當0.5≤H 時,程度強。換言之,如果H 處于0 到0.3 之間,我們就不能相信項目組有足夠共同的東西能將被試在一有意義的潛在特質上排序(張軍,2010)。
為研究被試能力、項目難度和區分度三個因素與量表適宜性系數的關系,設計本實驗。
實驗希望解決四個問題:(1)區分度分布不同,難度分布相同的項目測量能力高低不同的群體時,項目的Hi 系數是否不同,即區分度分布與Hi 系數的關系。(2)難度分布不同,區分度分布相同的項目測量能力高低不同的群體時,項目的Hi 系數是否不同,即難度分布與Hi 系數的關系。(3)項目區分度分布、難度分布、被試群體潛在能力分布三個因素對試卷H 系數的綜合影響。
由于真實的測驗數據難以嚴格滿足實驗控制要求,實驗使用軟件WinGen3(Han & Hambleton,2007),采用蒙特卡羅方法模擬若干套擬合雙參數邏輯斯蒂克模型的數據,然后再計算這些項目的Hi與H 系數,進而比較分析NIRT 與PIRT 兩種模型項目參數的異同。為保證被試與項目樣本的充分性,模擬的數據為10000 個被試對100 個項目的反應。
潛在能力一般服從正態分布,實驗模擬了三個能力高低不同的被試群體:低能力分布Θ1(均值= -2,標準差= 1)、中等能力分布Θ2(均值= 0,標準差= 1)與高能力分布Θ3(均值= 2,標準差=1)。在項目反應理論中,難度參數與能力參數處于同一量綱中,所以實驗模擬了三個與不同能力分布相對應的難度參數分布,分別為:Β1(- 2,1)、Β2(0,1)、Β3(2,1)。區分度處于0 到2 之間,服從均勻分布。按取值大小,分四種類型:低區分度分布A1(0.1,0.5)、較低區分度分布A2(0.6,1.0)、較高區分度分布A3(1.1,1.5)和高區分度分布A4(1.6,2.0)。
被試能力分布、項目難度分布、項目區分度分布為三個自變量,量表適宜性系數為因變量。被試能力與項目難度分布分別有3 個水平,區分度分布有4個水平,實驗為3 ×3 ×4 交叉設計,共36 套模擬數據,具體見表1。

表1 實驗設計表
實驗使用統計軟件R 中2.7.5 版本的mokken軟件包(Van der Ark,2010)計算36 套模擬數據中100 個項目的Hi 系數與每套試卷的H 系數,使用SPSS13.0 計算每套試卷中所有項目區分度與Hi 系數、難度與Hi 系數之間的皮爾遜相關系數。
4.3.1 區分度分布與項目Hi 系數的關系
相關系數的高低代表了兩列變量的共變性,正相關表示其存在一致性變化,反之,負相關表示其存在相反的變化趨勢。表2a、b、c 列出當難度分別固定為B1(- 2,1)、B2(0,1)、B3(2,1),不同區分度分布的項目測量不同能力分布的被試群體時,項目區分度與Hi 系數之間的皮爾遜相關系數。如表2a 中第一行的0.971、0.965 和0.944 分別表示當難度分布為B1(-2,1),區分度分布為A1(0.1,0.5)的100 個項目在用于測量三個不同能力分布時,項目區分度與Hi 系數的相關系數。同樣,表中每列表示不同區分度分布的項目用于測量同一能力分布被試時,項目區分度與Hi 系數之間的相關系數。**表示在0.01 水平上顯著,*表示在0.05 水平上顯著。

表2a 難度固定為B1(-2,1)

表2b 難度固定為B2(0,1)

表2c 難度固定為B3(2,1)
表2 里36 個相關系數中有29 個在0.01 或0.05水平上顯著,這說明無論被試能力是什么分布,當難度固定時,區分度與Hi 系數存在正相關,但區分度越大,它與Hi 系數相關的程度愈趨于弱化。如表2a第一列,從上到下,隨著項目區分度的增加,相關系數從0.971 降到0.307。只有當B2(0,1)和Θ1(-2,1)時,A3(1.1,1.5)與A4(1.6,2.0)兩個分布的區分度與Hi 系數呈相反情況。當B1(-2,1)和Θ3(2,1)時,A3(1.1,1.5)和A3(1.1,1.5)兩個分布的區分度與Hi 系數也呈相反情況,但由于在統計上都不顯著,所以不予考慮。因此,換言之,Hi 系數與項目區分度有一定相關性,但項目Hi 系數的計算能防止區分度大的項目對其取值造成過度影響。
另外,測驗用于測量與難度分布相匹配的能力分布群體時,其區分度與Hi 系數的相關總是高于難度分布于能力分布不匹配時的相關。如表2a 的每行中,總是第一列的相關最高;表2b 的每行中,總是第二列的相關最高;表2c 的每行中,第三列的相關最高。所以,當難度分布于被試群體能力分布匹配時,項目區分度與Hi 系數一致性會得到加強。
4.3.2 難度分布對項目Hi 系數的關系
表3a、b、c、d 列出當區分度分別固定為A1(0.1,0.5)、A2(0.6,1.0)、A3(1.1,1.5)和A4(1.6,2.0),不同難度分布的項目測量不同能力分布的被試群體時,項目難度與Hi 系數之間的皮爾遜相關系數。表3a 表明,當固定為低區分度分布A1(0.1,0.5)時,不同難度分布的項目區分度與Hi 系數均無相關。側,即于被試而言,項目較容易時,難度與Hi 系數呈正相關。換言之,項目越難,其Hi 系數越大。如表3b中,當難度為B1(-2,1),能力分布分別為Θ2(0,1)和Θ3(2,1)時,相關系數為0.586 和0.786。

表3a 區分度固定為A1(0.1,0.5)

表3b 區分度固定為A2(0.6,1.0)

表3c 區分度固定為A3(1.1,1.5)

表3d 區分度固定為A4(1.6,2.0)
(2)當項目難度分布處于被試能力分布的右側,即于被試而言,項目較難時,難度與Hi 系數呈負相關,即項目越容易,其Hi 系數越大。如表3c 中,當難度為B3(2,1),能力分布分別為Θ1(- 2,1)和Θ2(0,1)時,相關系數為-0.821 和-0.779。
(3)當項目難度分布和被試能力分布匹配,即于被試而言,項目難度適當時,難度與Hi 系數無相關或呈非常弱的相關性。如表3c 中,當B1(- 2,1)和Θ1(-2,1)時,相關僅為0.009,且不顯著。只有表3d 中,當B1(- 2,1)和Θ1(- 2,1)、B3(2,1)和Θ3(2,1)兩種情況時,情況特殊,系數分別為0.417和0.656,且均在0.01 水平上顯著,這可能與高區分度這一因素有關。
4.3.3 三個因素對試卷H 系數的綜合影響
H 系數的大小反映了整個試卷測量某被試群體的綜合性能。36 套試卷代表了36 種情境,實驗計算了這不同情境下H 系數的取值,取值大小的變化揭示三個因素對試卷H 系數的綜合影響,具體見表4。

表4 不同情境下H 系數的取值
經分析,表4 中H 系數的變化表現出三種規律:
(1)當能力與難度分布不變時,區分度越大,H值越大。如當B1(-2,1)和Θ1(-2,1)時,隨著區分度分布從A1到A4,H 系數從0.025 增加到0.474。
(2)當區分度分布不變時,測驗難度分布與被試能力分布匹配時,H 值最大。如第一、二、三、四列中,B1(-2,1)與Θ1(-2,1)分布匹配,所以這四列中第一行的H 系數在每列中都是最大的。同理,第五、六、七、八列中,第二行的H 系數在每列中最大;第九、十、十一、十二列中,第三行的H 系數在每列中最大。
(3)當能力與難度分布匹配時,區分度達到1.1以上時,測驗才能達到0.3 的低限,如B1(-2,1)與Θ1(-2,1)分布匹配,當區分度分布為A3(1.1,1.5)和A4(1.6,2.0)時,H 系數取值為0.327 和0.474;當能力分布與難度分布接近匹配時,區分度達到1.6 以上時,測驗才能達到0.3 的低限,如B1(-2,1)與Θ2(0,1)分布臨近,當區分度分布為A4(1.6,2.0)時,H 系數為0.366;當能力分布與難度分布差異較大時,無論區分度多大,測驗都達不到0.3 的低限,如B1(- 2,1)與Θ3(2,1)分布差異較大,在何種區分度分布下,H 系數均小于0.3。
NIRT 模型比PIRT 的基本假設更寬松、自由,它為理解潛在能力與項目反應之間的關系提供了一個更寬闊的視角。項目反應數據若擬合PIRT 模型,那必然擬合NIRT 模型,某種程度上,PIRT 模型是NIRT 模型的特例。
兩者使用不同的項目參數描寫項目的測量特性,研究的實驗結果表明項目難度分布、區分度分布和被試群體的能力分布這三個因素交互影響著Hi系數和H 系數,兩種模型的項目參數間有著復雜的關聯性。
張軍.(2010).非參數項目反應理論在維度分析中的運用與評價.心理學探新,30(3),80 -83.
Birnbaum,A.(1957).Efficient design and use of tests of a mental ability for various decision - making problems. USAF School of Aviation Medicine,Randolph Air Force Base,Texas.
Hambleton,R.,& Swaminathan,H.(1984).Item response theory:Principles and applications.Hingham:Kluwer.
Han,K. T.,& Hambleton,R. K. (2007).“Windows Software that Generates IRT Model Parameters and Item Responses”WinGen3.Retrieved from http://www.umass.edu/remp/software/wingen/
Jansen,P. W. G. (1982). Measuring homogeneity by means of Loevinger’s coefficient H:A critical discussion. Psychologische Beitrage,24,96 -105.
Lord,F. (1952). A theory of test scores. Psychometric Society,New York.
Loevinger,J.(1947).A systematic approach to the construction and evaluation of tests of ability. Psychological Monographs,61,4.
Meijer,R.R.,Sijtsma,K.,& Smid,N. G. (1990). Theoretical and empirical comparison of the Mokken and the Rasch approach to IRT.Applied Psychological Measurement,14,283 -298.
Mokken,R.J.(1971).A theory and procedure of scale analysis.The Hague:Mouton/Berlin:De Gruyter.
Mokken,R. J.,Lewis,C.,& Sijtsma,K. (1986). Rejoinder to“The Mokken Scale:A critical discussion”. Applied Psychological Measurement,10,279 -285.
Roskam,E.E.,Van den Wollenberg,A.L.,& Jansen,P.G.W.(1986). The Mokken Scale:A critical discussion. Applied Psychological Measurement,10,265 -277.
Sijtsma,K.,Emons,W.H.M.,Bouwmeester,S.,& Nyklicek,I.(2008). Nonparametric IRT analysis of quality - of - life scales and its application to the world health organization quality-of-life scale(WHOOL -Bref).Quality of Life Research,17,275 -290.
Sijtsma,K.,& Verweij,A. C. (1992). Mokken scale analysis:Theoretical considerations and an application to transitivity tasks.Applied Measurement in Education,5,355 -373.
Van der Ark,L.A.(2010).“Getting Started with Mokken Scale Analysis in R.”Retrieved from http://CRAN. R - project.org/package=mokken.