999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主觀考試信度的計算方法

2009-04-29 00:00:00李傳益
考試周刊 2009年24期

摘要: 信度是衡量考試質量的重要指標之一,由于主觀考試受評分員因素的影響很大,因此其信度研究備受測量界的關注。本文主要介紹了幾種主觀考試信度的計算方法及其適用范圍,以幫助測量使用者根據需要更好地選擇使用。

關鍵詞: 主觀考試信度 評分員信度 計算方法

考試從其本質來說是一種測量工具,用來考查被試的某種知識和能力。按照評分方法,考試可分為主觀考試和客觀考試。主觀考試是指在評分過程中需要評分員根據評分標準作出判斷的考試,作文、口語、聽寫等開放式反應項目都是典型的主觀考試。主觀試題由于能提供更多有關被試的信息,因此應用范圍越來越廣,但由于評分員的評分存在差異,有關主觀考試信度的研究一直倍受測量界廣泛的關注。不論采用哪種形式,不論使用什么樣的操作程序,對主觀考試信度作出最終評價的依據總是某種形式的數字,因此,本文主要探討幾種主觀考試信度的計算方法。

1.主觀考試信度

由于主觀考試無固定答案,評分時,評分員需根據評分標準作出自己的判斷,因而評分受評分員主觀因素的影響很大,評分員給出的分數并不總是穩定的。因此,主觀考試的信度主要指評分員信度或評分員一致性。評分員信度又可分為評分員間信度和評分員內信度。評分員間信度指兩名或兩名以上評分員對相同試卷評分取得的一致性;評分員內信度指同一評分員在不同的時間對相同試卷評分所取得的一致性。

2.經典測量理論(CTT)計算評分員信度的方法

經典測量理論有以下幾種方法計算主觀考試信度。

2.1斯皮爾曼-布朗估計法(Spearman-Brown Prophecy Formula)

主觀考試一般由兩名或兩名以上的評分員進行獨立評分,其評分信度可用計算這幾名評分員評分的相關來表示。其公式如下:

2.2積差相關估計法

如果兩名評分員都以原始分數評分,其評分信度可用積差相關系數表示。其計算公式(張凱,2002)為:

2.3等級相關估計法

如果兩名評分員以等級分數評分,其評分信度可用等級相關系數表示。其計算公式為:

2.4肯德爾(Kandall)和諧系數估計法

當兩名以上(K名)評分員以等級分數評分,其評分信度可用肯德爾等級相關系數表示。其計算公式(張厚粲,徐建平,2003)為:

評分之和的平方和。

2.5 α系數估計法

當兩名以上(K名)評分員采用連續評分時,其評分信度還可用α系數表示。其計算公式(王孝玲,2004)為:

3.概化理論計算主觀考試信度的方法

由于經典測量理論不能從多方面考查影響被試語言表現的誤差來源,當測量涉及較多側面時,其測量誤差的估計方法有重大缺陷。如評分者信度、測量結果跨時間的穩定性系數、跨不同測驗版本的等值復本信度等都需要分開逐個處理(楊志明、張雷,2003)。從上文我們也可以看出,考查評分員信度的方法只是求兩個或多個評分員獨立評分的相關。但相關法并不一定能提供證據證實變量之間的概念關系,完全不相同、不相關的概念也可能具有很高的正相關(Jackson Maraun,1996)。因此,用相關法考查評分員信度,無法估計評分員的系統誤差。但在CTT基礎上發展起來的概化理論(generalizability theory,GT)則不存在類似的問題,它通過引進方差分析技術可以將測驗總誤差分解,因而可以詳細地探討分數總誤差的來源,分析不同來源的誤差在總誤差中的大小(楊志明、張雷,2003),從而估計不同的誤差對測驗分數的影響(Brennan,2001),比如估計評分員評分變異對被試分數變異的影響,這些都是對分數作出正確解釋的基礎。

這里我們主要介紹基于概化理論的Longford(1995)評分員信度估計方法。

部分實現。評分時,不同評分員的個體特征如年齡、性別、經驗、個人喜好等會導致他們對同一篇作文的評分有所不同,評分員的一些臨時狀態,如情緒波動、外界環境影響、疲勞程度等也會影響評分的準確性。考慮到這些因素,Longford提出了一個基本的加法模型來表示被試的觀測分數:

也叫殘項(residual terms)。它指除了評分員嚴厲度以外的任何影響評分差異的因素。

將影響被試能力的誤差總來源分解后,評分員間信度可以用不同評分員給同一篇作文所評分數的方差來表示,其公式為:

如果同一名評分員對同一篇作文進行兩次獨立的評分,那么,其評分員內信度也可用他兩次評分的方差來表示:

另一種估計評分員信度的方法是計算評分員評分的均方誤差MSE。MSE越小,評分信度越高。如果對同一篇作文評4.結語

在計算評分員信度時,對于相同的材料,我們可以采用不同的算法。本文介紹了經典測量理論中幾種有關評分員信度的估計方法,以及一種新的Longford計算評分員信度的方法。Longford方法能分解評分總誤差,探討不同的誤差來源,但由于沒有現成的計算軟件,運用該方法需要評分員自己編制運行程序,因而對評分員提出了更高的技術要求。雖然經典測量理論越來越受到測量界的批評,人們也在不斷地研發和嘗試新的方法以代替經典測量理論中估計評分員信度的方法,但其計算方法相對而言還是要簡單得多。在新的測量技術和方法得到推廣之前,經典測量理論仍將被繼續使用。我們也期待既有理論上的突破,計算的誤差更小,評分員信度更高,又運行簡便的方法早日問世。

參考文獻:

[1]Brennan,R.L.Generalizability theory[M].New York:Springer-Verlag Inc,2001.

[2]Henning,G.語言測試指南:發展、評估與研究[M].北京:外語教學與研究出版社,2001.

[3]Jackson Maraun.The conceptual validity of empirical scale construction:the case of sensation seeking scale[J]. Personality and Individual Differences,1996,(21),1.

[4]Longford,T.Models for Uncertainty in Educational Testing[M].New York:Springer-Verlag New York,Inc.,1995.

[5]王孝玲.教育測量[M].上海:華東師范大學出版社,2004.

[6]楊志明,張雷.測評的概化理論及其應用[M].北京:教育科學出版社,2003.

[7]張厚粲,徐建平.現代心理與教育統計學[M].北京:北京師范大學出版社,2003.

[8]張凱.語言測試理論與實踐[M].北京:北京語言大學出版社,2002.

校級科研課題:項目編號SK0746

主站蜘蛛池模板: 婷婷色中文| 国产男人的天堂| 伊人AV天堂| 热思思久久免费视频| 亚洲va欧美va国产综合下载| 99激情网| 国产成年女人特黄特色毛片免| 欧美一区二区自偷自拍视频| 谁有在线观看日韩亚洲最新视频 | 久久精品91麻豆| 国产亚洲欧美在线中文bt天堂 | 777午夜精品电影免费看| 午夜在线不卡| 免费无码AV片在线观看中文| 三上悠亚精品二区在线观看| 天堂岛国av无码免费无禁网站| 自偷自拍三级全三级视频| 亚洲大尺度在线| 精品视频91| 天天色天天操综合网| 91精品专区| 色亚洲激情综合精品无码视频 | 色窝窝免费一区二区三区| 国产小视频在线高清播放| 波多野结衣视频一区二区| 曰AV在线无码| 欧美、日韩、国产综合一区| 国产精品3p视频| 久热中文字幕在线| 天天综合网在线| 在线视频97| 2020国产在线视精品在| 亚洲无码视频一区二区三区| 69视频国产| 欧美日韩精品综合在线一区| 青青青亚洲精品国产| 国产成人免费高清AⅤ| 亚洲婷婷在线视频| 亚洲天堂区| 亚洲国产精品成人久久综合影院| 亚洲AV无码乱码在线观看代蜜桃| 91成人在线观看视频| 久久精品丝袜| 99久久无色码中文字幕| 成人综合久久综合| 亚洲第一视频网站| 九九热视频精品在线| 国产超碰一区二区三区| 精品在线免费播放| 在线不卡免费视频| 欧美国产日韩在线播放| 野花国产精品入口| av一区二区无码在线| 国产精品亚洲一区二区三区在线观看| 欧美国产在线精品17p| 老司机久久精品视频| 亚洲午夜综合网| 1024国产在线| av天堂最新版在线| 色综合天天视频在线观看| 亚洲男人的天堂网| 四虎永久在线精品国产免费| 毛片久久网站小视频| 日韩毛片基地| 亚洲精品黄| 国产传媒一区二区三区四区五区| 国产福利一区在线| 成人免费午夜视频| 欧美午夜视频| 午夜精品一区二区蜜桃| 九九九九热精品视频| 国产精品视频系列专区| 欧美国产日产一区二区| 毛片大全免费观看| 成年人免费国产视频| 亚洲一级毛片免费观看| 久久久黄色片| 丝袜久久剧情精品国产| …亚洲 欧洲 另类 春色| 国产乱人伦AV在线A| 国产v精品成人免费视频71pao| 亚洲欧美自拍中文|