多層面Rasch模型分析寫作測試中評卷者的偏差性＊

2011-10-29 02:23:44賀滿足

外語與翻譯 2011年1期

關鍵詞：一致性差異培訓

賀滿足

(湖南第一師范學院外語系，湖南長沙 410205)

多層面Rasch模型分析寫作測試中評卷者的偏差性＊

賀滿足

(湖南第一師范學院外語系，湖南長沙 410205)

運用多層面Rasch模型探討寫作測試中評卷者的評分一致性、嚴厲程度及與考生的交互作用。發現評卷者在評分過程中嚴厲程度一致，但評卷者之間有顯著差別;評卷者與某些考生之間存在顯著的交互作用，但偏差情況各不相同，且交互作用模型也不明確。由此可以看出，評分者是寫作測試中的一個重要變量，在高風險的考試中，評分者必須接受嚴格的培訓并且認真參與試評，以便最大程度地保證考試的公平性。

多層面Rasch模型;寫作測試;評分者;偏差性

現在的英語寫作考試主要采用主觀題型，要求考生根據要求完成一定的綜合性任務以顯示其所學的知識或技能，因而一些專家將其稱之為做事測試。Brown＆Hudson認為，基于做事的測試可以采取多種方法，如寫作、訪談等。做事測試對心理測量學家、試卷設計者、研究者提出了挑戰，要求他們設計出一些情景，從中得到一些證據，以此推斷學生的語言能力。做事測試為產出型能力測試，涉及試題(任務)，考生的表現、考生的能力和個人特點，評分量表、測試的能力、評卷者等。這些層面的關系可以用圖1所示的模型來表示。

圖1 做事測試模型

Rasch模型是一種單參數項目反應理論模型，用來分析多項選擇題中試題的難度和考生的能力。多層面Rasch模型則是一種延伸，用來分析主觀試題。它可以實現在同一個羅基量表上分析主觀測試中考生能力、任務難度、評卷者的嚴厲度(以logit為單位顯示)及評分量表的準確度等層面的表現以及相互間的交互作用，同時還可判斷各層面的成員之間是否有顯著差異，如評卷人嚴厲程度的差別等。此外，也可以對每個層面進行Rasch模型擬和分析。很多研究利用這個模型來分析諸如寫作和口語等做事測試，如王躍武等研究了網上作文評卷的信度;李清華、孔文利用多層面Rasch模型分析了TEM－4寫作新分項式評分標準的評分質量。

本文探討英語作文測試中評卷者的評分情況。具體而言，回答兩個問題:

(1)評分中，評卷者的總體嚴厲程度如何?

(2)評卷者是否對某些考生過于嚴厲或寬松?如果是，評卷者/考生是如何交互作用的?

一、研究設計

37個英語專業二年級學生參加試驗，從7個班級隨機挑選。研究要求學生就要求的題目寫一篇200字左右的議論文。為避免因書寫問題影響評分，所有的手寫稿都一字不改地打印出來，且不含任何個人信息。閱卷者使用的評分量表為Jacobs等人于1981年制定的分析法評分量表，包括內容、詞匯、語法、語言組織和技巧(如大小寫，標點等)5個層面，每個層面具有相同權重，分1到5五個級別。前測結果表明，該評分標準能夠確保評分者評分時前后一致。評卷前4位評卷老師參加了培訓以熟悉評分標準和評卷的注意事項，并進行試評;待評卷者充分掌握評分標準后，開始正式評分。

二、結果和討論

可靠性分析顯示，整個評分的Cronbach系數為 .913，表明評卷者之間的評分具有較好的一致性。FACETS分析顯示考生的寫作能力相差很大:水平最高的考生能力測量值為3.6 logits作用，而水平較低的考生的測量值為－2.1logits。下面主要分析評卷者的嚴厲程度與及考生之間的交互作用。

(一)評卷者

評卷者的表現可以從嚴厲程度和評分的內部一致性來分析。FACETS分析顯示:四個評卷者的嚴厲程度相差1.72 logits(－0.64－1.08)，2號評卷者最為嚴格(1.08 logits)。分隔指數信度(reliability of separation index)為.98，表明評卷者的嚴厲程度有很大的差異，這種差異是否有顯著意義的區別可以通過卡方檢驗來驗證。卡方檢驗結果顯示卡方值為140.9，顯著性p=.00，表明評卷者評分的嚴厲程度有顯著意義的差別。這與大多數的研究結果相似。盡管評卷時對評卷者進行了較為系統、全面的培訓，但嚴厲度差異仍然存在。這意味著對評卷人的培訓對提高評卷的內部一致性很有幫助，但不一定能很好地縮小評卷者之間的差異。

評卷者之間的差異有多方面的原因。例如，長時間的評卷，評卷者會感到疲倦，注意力不集中;評卷者有自己的偏好，對考生的期望度也不盡相同;對評分標準的理解有時會受自己個人信仰的影響;在分數的把握上會有所不同。因此評卷者之間存在主觀上的差異，相同評卷者在不同的時間內也具有不穩定性，在評分的準確性、嚴厲度等方面，同一評卷者難以在多次評分中保持一致，不同評卷者對于相同被試的評分也難以相同。

評卷者評分的相對一致性可以通過評卷者的擬和統計分析來檢驗。Infit MnSq為加權的均方擬和統計量，可接受的取值范圍介于平均值+2個標準差之間。如果評卷人評卷的一致性很差(表現為很高的擬和值，通常是高于平均值+2個標準差)，那么評卷者就需要重新培訓或者予以更換。如果觀察值和預測值的差異比模型預測的更小(表現為較低的擬和值)，則表明此評卷者較為寬容，評分中可能沒有使用全部的分數段，評分也沒能區分出考生之間的差異。那么評卷者要重新參加培訓。FACETS分析結果顯示，四個評卷者的評分都在可以接受的范圍之內(0.71－1.27)，說明評卷者的嚴厲程度雖然不同，但具有內部一致性，因而評分是可靠的。

同時，此次測量的誤差平均值為.11，進一步說明該評分比較準確。

(二)偏差分析:評卷者與考生的交互作用

偏差分析可以找出各個層面之間交互作用的模型。當Z值大于2.0或小于－2.0時(低于－2.0表示評卷者對此考生更寬容;高于2.0表示評卷者對此考生生更嚴厲)，說明該偏差有顯著意義。分析結果顯示，140個交互作用組合中，15個有顯著偏差，且呈不均勻分布(1號評卷者與1個考生，2號評卷者與7個考生，3號評卷者與5個考生，4號評卷者與2個考生)。同時，評卷者之間的偏差情況不相同(表現為3號評卷者與寫作能力最差的4號考生有顯著的交互作用，其他3個評卷者與寫作能力為中等或以上的考生發生交互作用)，且與考生的交互作用模型不很明確(即這些考生的寫作能力差異較大)。這表明，應加強對評卷者評判極端水平作文的培訓。同時也說明，由于這類水平的作文數量有限，多層面Rasch模型不能進行多次標定，因而無法準確地測量這類考生的寫作能力。

對于顯著偏差的原因，需要進一步的定性研究來了解那些作文的深層次特點以及評卷者評分時的思維過程(thinkaloud protocol)。此外，對評卷者更深入的培訓以及更詳盡的評分說明也能減少這種差異。但Bonk和Ockey指出，不管怎么培訓，評分說明如何詳盡，只能降低其程度，不能完全消除其差異。

四位評卷者的均方擬和統計值(.1和1.3之間)都在可以接受的范圍內(0.6+2×0.5)，且每份試卷由四位評卷者進行評判，因而評卷者嚴厲度的差異以及對少數考生評分的偏差并不會對整個評分的可信度產生較大的負面影響。

已有的一些研究通過計算α值估計評卷者的內部一致性，沒能進一步討論評卷者的嚴厲度以及評卷者與考生等層面的交互影響。雖然通過t檢驗和方差分析也能了解評分者嚴厲度的差異，但不能顯示層面間的交互作用。多層面Rasch模型卻能提供這些信息，且能找到一些具體問題。通過多層面分析得知，本次評分中評卷者有較好的前后一致性。然而，評卷者的嚴厲度還存在顯著差異。這一發現和Weigle(1998)的研究結果類似，即培訓能夠幫助評卷者給出可以預測到的分數(評卷者內在效度)，但不一定能夠很好地使不同評卷者給出相同的分數(評卷者間的信度)。因此，在寫作測試中，可以采取增加題目數量的辦法來提高考試分數的可信度。

三、結語

以上分析表明評卷者的嚴厲程度有顯著差別，且評卷者與某些考生之間存在顯著的交互作用，但每個評卷者與考生的交互作用模型不相同且不明確。這說明不同評卷者的嚴厲程度不相同，同一評卷者的嚴厲程度也不是一成不變的。這對外語教學和測試有一定的啟示作用，即評分者是影響寫作測試效度的一個重要變量。在高風險的考試中，如高考和大學英語等級考試，測試的目的是對每一篇文章進行準確評分，那么評分者之間的一致性顯得至關重要，因而評分者必須接受嚴格的培訓并且認真參與試評，以便最大程度地保證考試的公平性。

此外，多層面Rasch模型在做事測試非常有用。通過分析評卷者、考生等層面的表現以及兩者之間的交互作用，可以幫助了解評卷者的態度以及對評分標準的掌握情況，并及時把這些信息反饋給他們，以保證評分的一致性;對學生層面的分析可以幫助老師了解學生的表現，從而采取相應的措施幫助提高他們的寫作能力?？傊?，多層面Rasch模型能夠為外語教學和測試提供許多非常有用的信息，在以后的研究中可以廣泛應用。

［1］Bonk W J，Ockey G L.A many－facet Rasch analysis of the second language group oral discussion task［J］.Language Testing，2003，20(1):89－110.

［2］Eckes T.Rater types in writing performance assessments:A classification approach to rater variability［J］.Language Testing.2008，(25):155－185.

［3］McNamara T F.Measuring second language performance［M］.New York:Longman，1996.

［4］劉建達.話語填充測試方法的多層面Rasch模型分析［J］.現代外語，2005，(28):157 －168.

［5］劉建達.做事測試的信度和效度的Rasch模型分析［J］.外語藝術教學研究，2007，(4):3－10.

［6］劉建達，楊滿珍.做事測試評卷中的質量控制［J］.外語電化教學，2010，(1):26 －32.

［7］李清華，孔文.TEM－4寫作新分項式評分標準的多層面Rasch模型分析［J］.外語電化教學，2010，(1):19－25.

2011－01－14

賀滿足(1980－)，女，湖南衡陽人，講師，碩士。

多層面Rasch模型分析寫作測試中評卷者的偏差性＊

一、研究設計

二、結果和討論

三、結語

一、研究設計

二、結果和討論