摘要: 信度是衡量考試質量的重要指標之一,由于主觀考試受評分員因素的影響很大,因此其信度研究備受測量界的關注。本文主要介紹了幾種主觀考試信度的計算方法及其適用范圍,以幫助測量使用者根據需要更好地選擇使用。
關鍵詞: 主觀考試信度 評分員信度 計算方法
考試從其本質來說是一種測量工具,用來考查被試的某種知識和能力。按照評分方法,考試可分為主觀考試和客觀考試。主觀考試是指在評分過程中需要評分員根據評分標準作出判斷的考試,作文、口語、聽寫等開放式反應項目都是典型的主觀考試。主觀試題由于能提供更多有關被試的信息,因此應用范圍越來越廣,但由于評分員的評分存在差異,有關主觀考試信度的研究一直倍受測量界廣泛的關注。不論采用哪種形式,不論使用什么樣的操作程序,對主觀考試信度作出最終評價的依據總是某種形式的數字,因此,本文主要探討幾種主觀考試信度的計算方法。
1.主觀考試信度
由于主觀考試無固定答案,評分時,評分員需根據評分標準作出自己的判斷,因而評分受評分員主觀因素的影響很大,評分員給出的分數并不總是穩定的。因此,主觀考試的信度主要指評分員信度或評分員一致性。評分員信度又可分為評分員間信度和評分員內信度。評分員間信度指兩名或兩名以上評分員對相同試卷評分取得的一致性;評分員內信度指同一評分員在不同的時間對相同試卷評分所取得的一致性。
2.經典測量理論(CTT)計算評分員信度的方法
經典測量理論有以下幾種方法計算主觀考試信度。
2.1斯皮爾曼-布朗估計法(Spearman-Brown Prophecy Formula)
主觀考試一般由兩名或兩名以上的評分員進行獨立評分,其評分信度可用計算這幾名評分員評分的相關來表示。其公式如下:
2.2積差相關估計法
如果兩名評分員都以原始分數評分,其評分信度可用積差相關系數表示。其計算公式(張凱,2002)為:
2.3等級相關估計法
如果兩名評分員以等級分數評分,其評分信度可用等級相關系數表示。其計算公式為:
2.4肯德爾(Kandall)和諧系數估計法
當兩名以上(K名)評分員以等級分數評分,其評分信度可用肯德爾等級相關系數表示。其計算公式(張厚粲,徐建平,2003)為:
評分之和的平方和。
2.5 α系數估計法
當兩名以上(K名)評分員采用連續評分時,其評分信度還可用α系數表示。其計算公式(王孝玲,2004)為:
3.概化理論計算主觀考試信度的方法
由于經典測量理論不能從多方面考查影響被試語言表現的誤差來源,當測量涉及較多側面時,其測量誤差的估計方法有重大缺陷。如評分者信度、測量結果跨時間的穩定性系數、跨不同測驗版本的等值復本信度等都需要分開逐個處理(楊志明、張雷,2003)。從上文我們也可以看出,考查評分員信度的方法只是求兩個或多個評分員獨立評分的相關。但相關法并不一定能提供證據證實變量之間的概念關系,完全不相同、不相關的概念也可能具有很高的正相關(Jackson Maraun,1996)。因此,用相關法考查評分員信度,無法估計評分員的系統誤差。但在CTT基礎上發展起來的概化理論(generalizability theory,GT)則不存在類似的問題,它通過引進方差分析技術可以將測驗總誤差分解,因而可以詳細地探討分數總誤差的來源,分析不同來源的誤差在總誤差中的大小(楊志明、張雷,2003),從而估計不同的誤差對測驗分數的影響(Brennan,2001),比如估計評分員評分變異對被試分數變異的影響,這些都是對分數作出正確解釋的基礎。
這里我們主要介紹基于概化理論的Longford(1995)評分員信度估計方法。
部分實現。評分時,不同評分員的個體特征如年齡、性別、經驗、個人喜好等會導致他們對同一篇作文的評分有所不同,評分員的一些臨時狀態,如情緒波動、外界環境影響、疲勞程度等也會影響評分的準確性。考慮到這些因素,Longford提出了一個基本的加法模型來表示被試的觀測分數:
也叫殘項(residual terms)。它指除了評分員嚴厲度以外的任何影響評分差異的因素。
將影響被試能力的誤差總來源分解后,評分員間信度可以用不同評分員給同一篇作文所評分數的方差來表示,其公式為:
如果同一名評分員對同一篇作文進行兩次獨立的評分,那么,其評分員內信度也可用他兩次評分的方差來表示:
另一種估計評分員信度的方法是計算評分員評分的均方誤差MSE。MSE越小,評分信度越高。如果對同一篇作文評4.結語
在計算評分員信度時,對于相同的材料,我們可以采用不同的算法。本文介紹了經典測量理論中幾種有關評分員信度的估計方法,以及一種新的Longford計算評分員信度的方法。Longford方法能分解評分總誤差,探討不同的誤差來源,但由于沒有現成的計算軟件,運用該方法需要評分員自己編制運行程序,因而對評分員提出了更高的技術要求。雖然經典測量理論越來越受到測量界的批評,人們也在不斷地研發和嘗試新的方法以代替經典測量理論中估計評分員信度的方法,但其計算方法相對而言還是要簡單得多。在新的測量技術和方法得到推廣之前,經典測量理論仍將被繼續使用。我們也期待既有理論上的突破,計算的誤差更小,評分員信度更高,又運行簡便的方法早日問世。
參考文獻:
[1]Brennan,R.L.Generalizability theory[M].New York:Springer-Verlag Inc,2001.
[2]Henning,G.語言測試指南:發展、評估與研究[M].北京:外語教學與研究出版社,2001.
[3]Jackson Maraun.The conceptual validity of empirical scale construction:the case of sensation seeking scale[J]. Personality and Individual Differences,1996,(21),1.
[4]Longford,T.Models for Uncertainty in Educational Testing[M].New York:Springer-Verlag New York,Inc.,1995.
[5]王孝玲.教育測量[M].上海:華東師范大學出版社,2004.
[6]楊志明,張雷.測評的概化理論及其應用[M].北京:教育科學出版社,2003.
[7]張厚粲,徐建平.現代心理與教育統計學[M].北京:北京師范大學出版社,2003.
[8]張凱.語言測試理論與實踐[M].北京:北京語言大學出版社,2002.
校級科研課題:項目編號SK0746