教育評價是評價者根據一定社會確定的教育目標和價值標準,對教育活動滿足社會與受教育者需要的程度作出判斷。教育評價是教育管理的重要手段,評價結果對作出科學決策,改進和提高工作、學習質量有著十分重要的意義。可靠性(信度),是指測量和評價結果的準確性、精確性。影響教育評價客觀、公正的因素較多,因此,在教育評價活動中,應盡可能排除各種干擾因素,并對教育評價的可靠度進行檢驗,這樣才能正確解釋和應用評價結果。
一、 教育評價可靠性下降因素
(一) 受測方面
受測對象的身體、心理健康狀況會影響測量的可靠性。一般情況下,當受測對象身心處于良好狀態時,測量信度就會高一些,否則信度就會下降。另外受測對象對教育評價的重視程度、作答態度等都會影響測量信度。受測集體內部水平的離散程度以及平均水平也會影響測量信度。
(二) 主測方面
評價者的身心健康、職業道德水準,評價者受外界干擾的程度,評價者對評價標準掌握的一致性程度會影響測量的可靠性。
(三) 施測條件方面
施測條件的標準化,有利于減小隨機誤差的影響。在實施測驗時,考場是否安靜,光照和通風情況是否良好,設備是否安全可靠,桌凳是否合乎要求,設備、桌凳的擺放是否合理等等都可能影響到測量的信度。
(四) 測試題方面
1. 測驗長度在其他條件相等的情況下,測驗長度(題目的多少)越長,信度值越高。因為測驗越長,題目取樣或內容取樣就越充分,可能改進項目取樣的代表性,從而能更好地反映受測者的真實水平,同時也避免猜測題目的影響;另外測驗的項目越多,在每個項目上的隨機誤差就可以互相抵消。
2. 測驗難度測驗難度對信度也會產生影響。如果一個測驗的難度太低或太高,測驗分數會集中并聚在高分端或低分端。這樣都會使測量到的分數分布太窄,導致信度降低。
3. 施測時間間隔方面在計算重測信度和復本信度時,兩次測驗相隔時間長了,被試的心理特征受影響的機會增多,使信度值降低;時間間隔短了,由于受第一次測評的影響,將造成信度值假性增大。
二、 教育評價的可靠性檢驗方法
(一) 重復檢驗
利用相同的評價指標體系,間隔一定的時間,對同一組被評對象進行兩次評價,然后計算兩次評價結果之間的相關系數,求得的相關系數稱為重測信度。該法很有適用性,但要根據測驗的性質和目的來控制合理的時間間隔,這樣才有可能獲得較好的穩定系數。一般情況下,重測相關系數達0.9以上時,才可認為一致性較好、可靠。
(二) 復本檢驗(交錯檢驗法)
復本信度又稱為等值性系數,它是代表測評跨形式的一致性,即在對被試進行測評以后間隔一定的時間,運用復本再測評一次所獲得的復本相關系數。復本是指在內容、數量、格式、難度、平均數、標準差等各方面與原測評一樣的測評,即功能等值但題目內容不同。復本信度的優點在于適用于在長期追蹤研究或調查某些干涉變量對測驗成績影響,同時減少了輔導或作弊的可能性。但在現實中,編制功能等值但題目內容不同的復本比較困難,有些測評則無法編制復本。另外,復本檢驗也會受練習的影響。
(三) 內部一致性檢驗
重復檢驗和復本檢驗都需測評兩次,費時費力,且第二次測評容易失真。內部一致性系數是通過分析同一測評內部各測評項目之間的相關系數的方法來估計信度系數,它只需要測評一次。內部一致性系數反映的是跨測題的一致性,即測評內部各部分之間是否具有同質性。主要方法有:
1. 分半法分半法是將評價指標按照序號奇數和偶數分為兩半,評價后,分別計算每位被試對象在兩半測驗上的得分,再求出這兩個分數的相關系數,從而來估計整個測評的信度。因為分半系數只是根據原測題的一半題目而來,所以分半系數常常要比原測驗的信度低,常運用斯皮爾曼—布朗公式來校正這個差異。該公式可以估計增長或縮短一個測驗對其信度系數的影響,用此公式的前提條件是:兩半測驗的方差相等。斯皮爾曼—布朗修正公式為:
其中,rhh:兩半測驗的相關系數;rxx:估計或修正后的信度。
當兩半測驗的方差不同時,可選用下面的方差法。
2. 方差法方差法是通過分別求出兩半指標評價分數的方差或者分別求兩半指標評價分數之差、之和的方差來求信度系數的方法。可選擇下面公式:
其中, Sa2, Sb2分別為奇、偶兩半指標評價分數的方差;St2為評價總分的方差;Sd2 為兩半指標成對(對偶)分數之差的方差。
3. 庫德—理查遜估計法同質性信度不需要把測評分為兩半,它是指測驗內部的各題目在多大程度上考察了同一內容。所謂的同質性是指所有的測驗題目測量的只是單一的特質或內容,表現為所有測驗題目得分的一致性。常用的計算方法是庫德—理查遜估計方法 。計算公式有庫德—理查遜公式:
n為測驗題目數,pi為通過i題的人數比例;qi為未通過該題的人數比例;pi+qi=1;∑piqi為所有題目答對與答錯人數百分比乘積的總和。
庫德—理查遜信度系數的運用需要滿足幾個條件:所有測題都采用二分法記分,即都采用0,1記分,答對記1分,答錯記0分;測驗的項目難度比較接近;項目間的組間相關相等。
4. α系數法 當測驗項目采用多重記分(如人格測驗、態度量表),庫德—理查遜信度就無法運用。克倫巴赫提出了適用于各種記分情況的α系數來估計信度。具體公式如下:
其中,Si2為每一項目的方差;SX2為測驗總分方差。
(四) W系數檢驗
W系數法是肯德爾提出的檢驗評價意見一致性的方法,又稱為肯德爾和諧系數法。如果多個評者同時評價多個對象(或指標),評價結果是以等級記錄(也可以以分數記錄,再轉換為等級),那么衡量多個評價者掌握評價校準的一致性程度,要用肯德爾和諧系數。W系數的公式為
式中,R為某個被評對象被評價者評定的等級之和;N為被評對象的個數;K為評價者個數。
如果評價時,專家個人對評價對象的判斷結果出現相同等級較多,在求W系數時應該使用校正公式,即
W系數越大,說明教育評價者評價意見的一致性越高,評價結果越可靠;W系數越小,則說明評價者的意見分歧越大,或把握評價指標不一致,評價結果的可靠性、客觀性就差。
(東臺市技工學校)