教育測驗中學生能力水平與測驗項目難度的Rasch模型分析*
——個體能力與題目難度之間的對應關系

2012-11-27 08:50:44張金勇何妃霞

當代教育科學 2012年12期

● 張金勇何妃霞

● 張金勇何妃霞

本文以2011年貴陽市第八中學第一次高三英語高考模擬考試為例，使用Rasch分析軟件WINSTEPS對其進行分析，可以得出學生與學生、測驗項目與項目以及學生與測驗項目之間的關系。研究結果表明，該試題的內容覆蓋了所有能力水平的學生，且能夠較好地區分學生的能力水平。研究結果得出學生的能力水平略高于項目的難度水平，對樣本群體的測驗目標較明確；測驗中間的項目難度水平接近；測驗項目涵蓋的內容不夠；缺乏難度較大的項目。

Rasch模型；WINSTEPS；教育測驗；難度；能力水平

科學測評學生學業成就對于改進學校教學質量、公平評價學生、促進學生發展和教師專業發展具有重要意義。而科學測評學生學業成績，測驗項目與測評目標、學生能力相吻合非常關鍵。測驗項目的難度是測驗項目質量的重要指標，不僅直接關系到測驗的可靠性與準確度，而且還直接或間接地影響到學生的學習態度和學習行為。盡管考生的得分受到評分者的標準把握程度、項目特定等級的難度等因素的影響，但主要決定于考生的能力和測驗項目的難度。因此，如何使測驗項目與被測對象的能力水平一致，是教育測量與考試研究的重要課題。這里我們借助Rasch模型，運用實例在一個連續尺度上呈現教育測驗的結果，分析教育測驗質量，研究學生的能力水平和測驗項目難度、學生與學生、測驗項目與項目等之間的關系。本研究對試卷質量及考生能力分析具有一定的啟示和借鑒。

一、研究的理論基礎：Rasch模型

Rasch模型是丹麥數學家Georg Rasch（1960）提出的一種潛在特質模型，通過個體在題目上的表現來測量不可直接觀察的、潛在的變量，分析測試分數之間的差異。它可以同時估計項目難度和個體能力，是包含考生能力和項目難度層面的雙面模型。

近年來，國內外學者對Rasch模型的原理進行了較為深入的研究。這一模型以自然科學領域內的客觀測量為標桿，為社會科學領域內的測量建立起一套客觀標準，在教育和心理測量領域得到廣泛的應用，多集中于在CET、教師評分等級、學生學業成就估計、學生學業成績的分析等。如田清源（2006）認為Rasch模型對測驗中主觀評分的分析有重要影響，可以降低對學生成績估計的測量誤差[1]；何蓮珍、張潔（2008）的研究結果顯示Rasch模型在CET口語考試、分數等值等研究中有重要作用[2]；Michela Battauz，Ruggero Bellio，Enrico Gori（2008）認為通過結合 Rasch 模型和教師評分可以減少學生學業成就估計的誤差[3]。但大多數的研究不夠深入，在基礎教育中的應用研究也比較缺乏，尤其是在項目難度與考生能力水平分析方面不足。

Rasch模型有四個最基本的假設：一是每個個體有其特定的能力；二是每個項目有一個難度；三是每個項目的難度可以呈現在同一標度上；四是可以計算任何特定觀察分數反應概率數目之間的差異[4]。對于客觀測量，Rasch模型有兩個要求：一是對任何題目，能力高的個體應該比能力低的個體有更大可能作出正確回答；二是任何個體在容易題目上的表現應該始終好過在困難題目上的表現。[5]Rasch模型是一個理想化的數學模型，要求所收集的數據必須符合模型的先驗要求，才能實現客觀測量。如果數據與模型不擬合，就必須拒絕數據，而不是模型[6]。

依據上述觀點，運用Rasch模型，可以估計測驗項目之間、學生之間以及測驗項目與學生之間的關系，可以在同一個圖形中使用等距的單位來描述個體和項目的潛在特質[7]。Rasch模型通過原始分數來計算學生的能力和項目的難度，把學生能力和項目難度的測量單位轉換為等距的logit。該模型中的能力參數與難度參數可以真正相互獨立地估計出來，且學生總分和項目總分是能力參數與難度參數的充分估計值。因此，Rasch模型可以為學生和項目建立一個等距分數。另外，Rasch模型對分布在中間的項目和學生的估計要比分布在邊緣的項目和學生更精確。Rasch模型通過學生對測驗項目的反應來測量個體的能力水平和測驗的難度水平。根據Rasch模型原理，學生答對特定項目的反應概率可以用個體能力與該題目難度的一個簡單函數來表示，即其中，Pni是考生正確作答項目i的概率，（1-Pni）是考生答錯項目i的概率，Bn是考生n的能力值，Di是項目i的難度。因此，個體能力和項目難度共同決定了個體對特定項目正確反應的概率。學生能力越高，對項目正確回答的概率越大。如果個體的能力等于項目的難度，那么正確回答的概率為0.5；如果個體的能力顯著大于項目難度，那么正確回答的概率接近1；相反，如果個體的能力小于項目難度，那么正確回答的概率接近0[8]。

二、研究數據的選取與處理

本研究的樣本學校學生是貴州省貴陽市第八中學高三學生。研究數據來源于貴州省貴陽市第八中學高三學生第一次英語高考模擬考試。數據總數為643個，剔除無效數據12個，有效數據個數為631，數據有效率高達98%。用社會科學統計軟件包SPSS15.0對數據進行預處理，并用WINSTEPS3.38作Rasch分析。

三、研究結果與分析

（一）樣本學校學生測驗的經典理論分析

圖1呈現了樣本學校學生的分數分布情況。其中橫坐標表示學生的得分率。圖1表明，大部分學生處在高分端，對知識的掌握較好，學生成績呈負偏態分布。

（二）樣本學校學生測驗的Rasch模型分析

1．測驗項目的難度與學生能力水平整體近似正態分布，學生能力水平相對高于測驗項目的難度水平。

圖2中，橫軸右邊是模擬測驗項目難度的分布，左邊是學生能力水平的分布。圖2清晰地呈現了測驗項目難度和學生能力的分布形態，都近似于正態分布。同時，還可知，學生能力與測驗項目之間的關系——橫軸原點處表示個體正確回答題目的概率為50%，能力在原點以上的學生對原點以下的項目正確回答的概率大于50%。從圖中可以看出學生的能力分布寬度大約為6.4個logit，項目難度的分布寬度約為5個logit，由此可以看出學生的能力水平相對高于測驗項目的難度水平。也就是說，作為高考的模擬測驗，其項目難度設計與學生的實際水平之間不太吻合，難度偏低，這樣就會使測驗的區分度降低。

2．測驗項目難度分布不均勻，試題便易，區分度較低

橫軸上部分清晰地呈現了65個項目之間的關系，項目間的距離代表項目之間的難易程度差異，越靠近頂端的項目難度越大，越靠近下端難度越小。同時項目之間的距離越近，說明項目的難度水平越接近，對學生的能力水平進行估計時誤差也較大。圖的左邊呈現學生能力的分布情況，越靠近圖的頂端，學生能力越強，對項目的答對率越高。頂端的項目適合那些能力水平較高的學生，下端的項目適合能力水平較低的學生。從圖2可以看出，模擬測驗中較難的題目偏少，容易的試題偏多，試題之間的難度水平差距不大，難度相近的試題分布較為集中，這樣就不能對高低不同能力水平的學生做出很好的區分，高考模擬測驗的有效性就不太高。

3．學生能力水平差別較大，能力水平與部分測驗項目呈負相關，測驗項目與測驗目標基本一致

表1 樣本學校高三學生RASCH模型項目信息表

表1中難度項目和學生能力測量的Rasch標準誤（第三列Rasch S．E）代表估計的不確定性。表中第二列代表學生在65道題目上答對的學生人數。Outfit MNSQ表示標準殘差的均方。一個項目的Outfit MNSQ值越大，表明個體能力水平和項目難度水平差異顯著時，能力水平高的學生答錯了簡單項目，能力水平低的學生正確回答了較難的項目，學生能力水平差別也較大，能力水平與回答題目呈現負相關。例如項目23是較容易的項目，但Outfit MNSQ值為1.21，表明一些高能力水平的學生未能對該項目作出正確回答；項目8是較難的項目，Outfit MNSQ值為1.33，說明一些低能力水平的學生正確回答了該項目。這兩種情況的試題都是測驗設計時不想出現的結果，教師需要對這樣的試題進行修改。Infit MNSQ表示加權后的殘差均方。對于一個特定項目，如果Infit MNSQ值較大，說明與項目難度水平接近的學生作答的方式與模型不一致，如項目7和項目35，但總體基本符合樣本學校學生的能力水平。從表1第六列可以看出，所有測驗項目的相關系數都是正向的，表明測驗項目與測驗目標基本一致，測量相同的潛在結構。

根據 Rasch模型原理，Infit MNSQ和 Outfit MNSQ的理想值為1，但在實際項目分析中，Infit MNSQ和Outfit MNSQ值在0.5-1.5之間即可認為與模型擬合。此外，Rasch標準誤不超過±0.75也在可接受的范圍。從表1中的結果可以看出，測驗分數的Rasch分析表明，Rasch標準誤、Infit MNSQ以及Outfit MNSQ值均在可接受的范圍內，即可以對測驗項目和學生能力做出較全面、客觀的評價。

4．測驗項目難度接近，順序不清晰，對學生能力的估計不夠精確

圖3中用氣泡代表每個項目，氣泡的大小代表Rasch標準誤的比例。氣泡的比例越小，說明該測驗對學生能力水平的估計越精確；比例越大，對學生能力水平估計的誤差就越大。理想狀態下，測驗項目應靠近氣泡圖的中軸線。從圖中可以看出，許多氣泡重合了，表明項目的難度非常接近，從而導致項目順序不清晰。項目越簡單，學生的通過率越高，對學生能力的估計就不精確，代表項目的氣泡就越大，就不能對學生能力做出很好的估計和區分，如項目36、26、49等。位于氣泡圖左邊的項目，如25和51，兩個項目的Infit MNSQ和Outfit MNSQ值都小于1，說明與模型擬合比預期好，學生在測驗項目上的答對率高。位于氣泡圖右邊的項目，如 7、15、19、40 和 47，表明除了受到項目難度和學生能力水平的影響外，還受到較多外在因素的影響。圖中8、18、34和35都是很難的項目，它們的Outfit小于1.3，這可能是由于低能力的學生猜測正確造成的。

四、研究結論與討論

理想的測驗應該是測驗項目集中在學生能力分布周圍。通過Rasch模型分析，本測驗的項目難度水平與學生能力水平基本相當，但個體的能力水平略高于項目的難度水平。從表1中可以看出大多數測驗項目與測驗的目標接近，這說明大多數項目是有效的，該測驗能夠較好的測出預測的知識和技能。同分布在兩端的項目和學生相比，該測驗對分布在測驗中部項目難度和中等能力水平的學生做出的估計更精確。例如項目26，根據表1中的數據，它的Rasch分析誤差最大，項目26的參數結果不如其他項目的估計結果精確，對學生的測驗目標也不夠明確。因此，根據分析結果，在設計測驗或建立題庫時，像26這樣的項目需要進一步的修改和探討，以便使其更具有針對性和有效性。

Maja Planinic,Lana Lvanjek,Ana Susac（2010）在一項研究中發現，針對測驗的寬度不足以覆蓋樣本學生的能力范圍，測驗中部有許多項目的距離接近，測驗兩端沒有充足的項目，這時需要在測驗的兩端增加項目來提高測驗的效度。[9]依據這一研究結果，該測驗對于該樣本學生來說較簡單，需要在測驗的兩端增加一些項目，比如像8、18、35這樣的項目，刪除一些中間的項目，以便能夠更加精確的估計學生的能力。同時，也需要增加測驗的總體難度來提高測驗的上限。另外，該測驗中有些項目是重疊的，測量的內容是相同的，這就需要對試卷結構進行調整。調整時要根據學生能力分布的大致情況和測驗項目難度的分布情況，以及測驗目標，刪減或合并相同內容的題目，增加新內容，使測驗充分體現測驗目標，提高的內容效度。另外，可以針對學生實際掌握和運用知識的情況，進行教育教學調整，使教學更能適應學生的實際水平。因此，運用Rasch模型對測驗進行分析，不僅能夠對測驗分數做出比較全面的解釋，同時對測驗項目內容和學生的能力水平都提供了一個合理的評價依據。

客觀準確地估計出考生的能力水平是測評活動追求的最終目標，而測驗要達到理想的信度和效度，測驗項目的難度必須與被試的能力水平相匹配。總的來看，該測驗項目基本符合樣本學生的能力水平，但也存在幾個顯著的問題，如測驗中間的項目區分度不明顯、學生能力水平高于項目的難度水平、項目涵蓋的內容不夠、缺乏難度較大的項目等。這就要求高中教師在模擬考試中，要進行考試研究，側重于分析測驗項目的問題以及考試的實際能力，而不是側重于多次測量；進一步研究如何使試題既反映考生的真實水平，又反映測量目標，保證測驗的科學性和有效性。同時，Rasch分析的結果，可以使教師對學生的知識掌握水平有一個清晰的了解，為老師的教學和學生的學習提供一個導向，使得學習、教學和測驗的編制更有針對性，促進基礎教育改革的深入發展。

[1]田清源．主觀評分中多面Rasch模型的應用[J]．心理學探新，2006,26(1)：70-73．

[2]何蓮珍，張潔．多層面Rasch模型下大學英語四、六級口語考試(CET-SET)信度研究[J]．現代外語，2008：31(4)：388-437．

[3]Michela Battauz,Reggero Bellio,Enrico Gori.Reducing Measurement Error in Student Achievement Estimation[J].PSYCHOMETRIKA,2008，(2):289-234.

[4]Trevor G.Bond,ChristineM.Fox.Applying the Rasch Model:Fundamental Measurement in the Human Sciences[M].Lawrence Erlbaum Associates,2007.26.

[5]Wright,B.D.,&Stone,M.H.（1979）.Best test design Chicago:MESA Press.

[6]晏子.心理科學領域內的客觀測量——Rasch模型之特點及發展趨勢[J]．心理科學進展，2010，(18)：1298-1305.

[7JDouglas H.Clements,Julie H.Sarama,Xiufeng H.Liu.Development of a measure of early mathematics achievement using the Rasch model:the Research-Based Early Maths Assessment[J].Educational Psychology,2008，(28):457-482.

[8][9]Maja Planinic,Lana Ivanjek,Ana Susac.Rasch modelbased analysis of the Force Concept Inventory[J].Phisics Education Research.2010，(6).

張金勇/貴州師范學院教育科學學院講師何妃霞/貴州師范大學教育科學學院碩士研究生

*本研究為貴州省高等學校教學質量與教學改革工程重點項目“基于PBL理論改進心理教育測量教學改革研究”（項目批準號：黔高教發[2011]28-1）、貴州師范大學精品課程“心理測量”建設項目階段性成果。

（責任編輯：曾慶偉）

教育測驗中學生能力水平與測驗項目難度的Rasch模型分析*——個體能力與題目難度之間的對應關系

一、研究的理論基礎：Rasch模型

二、研究數據的選取與處理

三、研究結果與分析

（一）樣本學校學生測驗的經典理論分析

（二）樣本學校學生測驗的Rasch模型分析

四、研究結論與討論

教育測驗中學生能力水平與測驗項目難度的Rasch模型分析*
——個體能力與題目難度之間的對應關系