摘 要:考試試題質量評價是教育測量學的一項重要內容,是改革教學和考試制度的重要工具。經典教育測量理論的試題質量評價指標主要包括信度、效度、區分度和難度等。研究表明,這些評價指標雖是試題質量評價的基礎,但卻難以較為準確地評判試題的質量。科學的評價試題質量的方法離不開專家的邏輯判斷,應當是主、客觀評價方法的有機結合,即不僅要知其數量多少,更要了解其發展變化過程。
關鍵詞:試題質量;信度;效度;難度;區分度
中圖分類號:G40-058.1 文獻標識碼:A 文章編號:1009-010X(2008)09-0007-03
一、引言
考試試題質量綜合評估是教育測量學的一項重要內容,它是改革教學、實行科學化教育管理的重要工具,教育過程中的各項教育問題,離開對考試試題質量的評價都無從談起。經典教育測量理論有一整套評價試題質量的方法,常用的數量化指標就有信度、效度、區分度和難度等,然而,從這些評價方法或評價指標本身來看,它至少存在兩個方面的缺陷:其一是現行的試題質量評價方法重在數量的測定,即著重以數量化的標準客觀地表示考試的特質,評價結果過分依賴考試的質量以及學生的考試成績。只有考試成績真實,考試組織得當,對幾個數量化指標的測算才是可靠的,否則是不可信的。毋庸諱言,因考試組織及評分標準不一致等方面的原因,考試成績不可避免的會存在誤差,有時這些誤差會超出可容許的范圍。如著名教育家斯太奇就曾做過這樣一個實驗,他把同一份試卷復印142份,請142位教師評分,結果評分為35種,從50分到98分,因此,在這種情況下,僅僅依據學生考分來評估試題質量,難免會有失偏頗。其二是現行評價方法所依賴的幾個數量化指標的測算方法,還可以做進一步改進,如試題內容效度評價指標作為一個數量化指標目前尚無一種科學的測算方法。因此,無論是教育管理者還是教師都有必要重新認識和評價經典教育測量理論中的試題質量評價指標。這些評價指標包括:測驗的信度、效度、難度以及區分度。
二、對測驗信度的評價
教育測驗雖有不同類型,但無論哪一種教育測驗,首先要求測驗的結果可靠,在教育測量學中稱為測驗的信度。信度是指測驗結果的準確程度或可信程度。信度是反映測驗穩定性和可靠性的指標,表明信度大小的統計量叫做信度系數,其最大值是1。一般是以兩次測驗結果間的相關程度作為信度指標,它表明一個測驗在反映受試者實際水平時的可靠程度。
估計信度的傳統方法很多,這些方法的共同特點是信度系數的測定完全依據于考試所取得的分數信息,考試的實施順利,評分標準客觀,所計算出的信度系數才有一定的參考價值。常見的方法主要有:
1.再測信度:即用同一個測驗,對同一組被試前后兩次施測,兩次測驗分數之間的相關程度就是再測信度。再測信度的計算所要求的條件比較苛刻,其一要求所測量的特性必須是穩定的且遺忘與練習的效果相同,其二是要求施測期間被試的學習效果沒有差別。然而,實際上,由于在兩次測驗之間要相隔一段時間,因此很難保證上述條件得到滿足,這種方法所產生的測量誤差也就不可避免。
2.復本信度:根據一組被試在兩個等值測驗上的得分計算的相關系數即為復本信度系數。復本信度的估計方法雖然可在一定程度上避免再測法的缺點,但由于它需要編制等值的兩份試卷,其可操作性不強。
3.分半信度:分半信度是按正常的程序實施測驗,然后將全部試題分成相等的兩半,被試在這兩半測驗上的分數之間的相關系數即為信度系數。要計算分半信度,首先遇到的問題是如何將測驗分成兩半。因此,分半的合理性決定于信度系數的計算結果,而且,由于分半信度系數只能表示兩半試題的等值程度,所以它不能提供時間穩定性的信息。
4.內部一致性信度:內部一致性也稱同質性,指的是測驗內部所有題目間的一致性。其常用的估計方法有庫德-理查遜法和克倫巴赫系數法等,具體計算公式從略。內在一致性信度的突出優點是對同一組被試只要施測一次就可以求出信度系數,但其缺點也非常明顯。實測中,將一個測驗分成內容、形式、題數、平均數、標準差、測驗間相關、分布形態都相等的兩部分實際上是很困難的。
5.評分者信度:考察評分者信度的方法是隨機抽取部分試卷,由兩個或多個評分者獨立按評分標準打分,然后求其間相關。評分者信度的高低在一定程度上是評分質量的反映。當通過統計方法確信評估者之間評分有較大差異時,需要分析原因,及時加以彌補。顯然,評分者信度與其它幾種信度系數概念不同,其它幾種信度皆為測驗的信度,而評分信度反映的是評分者之間對于同一組測驗結果評定的一致性程度。
顯然,不論哪一種信度系數,其估測結果的高低直接受測量誤差的影響,被試、主試、測驗內容和施測環境等均能引起測量的隨機誤差,導致分數不一致,從而降低測驗的信度。另外,評分是否客觀,對測驗的信度是有影響的。因為信度系數是根據實得分數的方差計算得到的,若考試題目都屬于客觀性類型,評分的標準明確,要求嚴格,評分不易受評分者主觀判斷的影響,有助于測驗信度的提高。但對于論文式測驗或主觀性試題,各個評分者的度量標準不統一,易受其他心理因素的影響,致使評分不易客觀,信度沒有保障。影響信度的其它因素很多,如測驗的長度、難度及測驗的同質性等,在此不再做一一闡述。
三、對測驗效度的評價
任何一種考試,要求考試的結果必須是可靠的,這無疑是考試必備的質量要求。但是考試應具有信度并不是唯一的要求,若一次考試結果雖然信度很高,可測到所要測量的特征很少,那么,這一考試是不成功的。教育測量學中,把測驗結果能否準確地表明所要測量的特征或功能的程度,稱為測驗的效度。效度是衡量測驗質量最重要的指標,它比信度有更重要的意義,可信的測驗未必有效,而有效的測驗未必可信,因此,在教育測量之前,首先應考慮到究竟在多大程度上測量到了所要測量的特性或功能的問題。
由于測驗效度的計算同樣依賴于學生的得分等信息,因此測驗本身、測驗的實施和被試心理狀態、評分標準等對測驗信度有影響的因素對效度也有影響,此外,如測驗試題的難度,試題的編排,測驗的長度等,都是影響效度的重要因素。可以說,測驗的效度,不僅受到隨機誤差的影響,而且還受到系統誤差的影響。
考察一個測驗有效程度的途徑主要有三個,相應地也就把測驗的效度分為三個類型,這就是內容效度、構想效度和效標關聯效度。鑒于構想效度及效標關聯效度已有成熟的估測方法,而且內容效度又是考察一個測驗效度最廣泛的應用途徑,因此,以下只對內容效度的估測方法進行述評。
內容效度是指對欲測的內容或行為范圍取樣的適當程度。通俗地說,它就是一個測驗的覆蓋問題,即用于測量某一范圍知識和能力的一個測驗,它所采用的那些題目是否充分代表了該范圍內的基本知識與基本能力。一般來說,一個測驗要具備較好的內容效度應該滿足兩個條件:一是要有確定好的內容范圍,并使測驗的全部題目均落在此范圍內;二是測驗題目應是以界定的內容范圍的代表性樣本,且各部分題目所占比例適當。因此,從較好的內容效度所滿足的條件來看,這些條件均是內涵明確、外延不明確的概括性問題,具有明顯的灰色性特點,其實測也就困難很多。實踐中,常用的估測內容效度的方法有三種,一是用邏輯推理的方法估計效度,這種方法是專家在對測驗題目與所涉及的內容范圍進行充分的符合性判斷的基礎上,確定內容效度。基本上采用的是定性分析法,這種方法有一定的合理性,但存在的問題也較多,其一是如何將各位專家的定性評估結論加以綜合,以轉化為數量化的評價結果。其二是內容效度是來自專家的描述性判斷,缺乏數量化的依據,因而,難以做到完全客觀、準確,而且,由于專家們對內容范圍與教學目標要求理解上的不同,也會造成他們對內容效度的判斷產生不一致的情況。二是克倫巴赫內容效度估計法。由于這種方法需編制反映同一內容范圍的兩個不同測驗,而且還需要對同一組被試施測兩次,因此,這種方法的可操作性存在問題。三是用比較兩次測驗結果估計效度的方法。這種方法所采用的兩次測驗間隔時間較長,其可行性同樣不強,實際應用時采用的不多。
總之,實踐中,常用的估測內容效度的好方法不多,理論上的幾種方法有的可行性不強,有的存在這樣或那樣的問題。理想的估測方法應當是,在定量分析的基礎上,依靠專家的邏輯判斷來評估試題的內容效度。因此,目前存在三個問題,一是對內容效度的評判尚缺乏合適的數量分析方法。二是為避免專家在理解試題內容范圍與教學目標上的不一致,有必要構建評估內容效度的指標體系(含概括性問題設計)。三是如何將專家的定性評估結果加以綜合分析。
四、對測驗題目難度指標的評價
衡量測驗質量的重要指標是測驗試卷的信度和效度,欲提高測驗的信度和效度,還必須采用合適的方法來分析試題的品質,試題的品質主要是指試題的難度和區分度。以下首先對試題難度的估計方法加以述評。
傳統的教育測量學理論有一整套測算客觀性與非客觀性試題難度的方法(略)。但這些公式均有其缺陷。我們知道,在經典測驗理論中,試題難度P是以考生得分率來評定試題難易程度的指標。如那些性質上屬于標準參考性考試的測驗,其特點是根據各科教學(考試)目標要求,制定考試標準,通過測驗衡量考生是否達到標準,這類考試試題難易程度的概念應當主要體現教學目標的要求,要求高的是難題,要求低的是易題。而得分率反映的都是考生掌握知識的實際情況,多數考生會答的是易題,不會答的是難題,教學目標要求與得分率意義不盡吻合,此外P還依賴于樣本,同一試題在不同樣本中的P值通常是不同的,因此,至少是對于標準參考性試題的難度測定方法來說,有必要加以重新研究。
五、對測驗題目區分度指標的評價
題目的區分度是評價試題質量的又一個數量化指標。它是指題目對不同水平的被試的心理特質的區分能力。若在某道試題上得高分的被試實際能力水平也高,得低分的被試實際能力水平也低,那么,該題就具有較高的區分度。區分度與難度、信度、效度等有密切的關系,如試題難度太大或太小,其區分度都很低。試題區分度的提高,對于提高測驗的信度與效度,保證測驗質量也有著重要的意義。
計算區分度的方法有多種,客觀性試題與論文式試題計算區分度方法也各異,這些方法均有較強的合理性。實踐中,改進算法也較多(限于篇幅,本文不再一一介紹)。應當指明的是,同其他幾個指標的測算方法一樣,經典教育測量理論中,關于區分度的這幾種算法也是完全依賴于學生的得分信息。學生的得分可靠,評分客觀,區分度的計算結果才有參考價值,否則是不可信的。可見,區分度計算結果同樣存在隨機誤差與系統誤差。
綜上所述,試題的難度、區分度等因素的交互作用,構成了整個測驗的信度和效度,其間關系復雜,取值多少為合適,我們也不能只孤立地根據個別指標來分析判斷,而應根據考試的目的,在選用估計方法上也應與試卷的信度、效度及試題的難度的估計方法統一考慮。因此,本文認為,評估一份考試試卷的質量,對經典教育測量理論所提出的幾個數量化指標進行分析測算只是問題的一個方面,或說是一個基礎,況且,由于這幾個指標的交互作用,我們也難以僅就實測出的幾個數量化指標值來準確評判試卷的質量。因此,科學的估測試卷質量的方法還離不開專家的邏輯推理判斷,還應當是主、客觀評價方法的有機結合,即不僅要知其數量多少,更要了解其發展變化過程,這是我們在對經典教育測量理論所提出的幾個評價試卷質量的數量化指標進行分析后所得出的結論。
參考文獻:
[1]宋嶺梅.教育測量學[M].武漢:華中師范大學出版社,1990.
[2]薛理銀.教育信息處理原理[M].北京:北京師范大學出版社,1996.
[3]王漢瀾.教育測量學[M].鄭州:河南大學出版社,1987.
[4]Michell,J.,An Introduction to the Educational Measurement[M].Lawrence Erlbaum Associates,Inc.,1990.
【責任編輯 韓四清】