◆許小紅
(陸軍步兵學(xué)院教學(xué)考評中心)
隨著在線考試、網(wǎng)上閱卷等考試軟件的應(yīng)用,對于成績的統(tǒng)計分析也不在局限于總分,平均分,各分數(shù)段人數(shù)及比率的統(tǒng)計,人們提到越來越多的是難度、區(qū)分度、信度、效度等。通過考試軟件,我們得到這些參數(shù)指標的一個個具體數(shù)據(jù),但這些數(shù)據(jù)到底怎樣來的,文中通過一個具體實例來講述各指標參數(shù)在試卷質(zhì)量分析中的具體應(yīng)用。
1.難度
難度P:指試題或試卷的難易程度,它是衡量試卷質(zhì)量的一個重要指標參數(shù)。它和區(qū)分度共同影響并決定試卷的鑒別性。
難度值在0至1之間,一般情況下,難度適中的試題更能客觀地反映出學(xué)生的學(xué)習(xí)效果。大部分試題平均難度控制在0.3~0.8之間較為合適,選拔性的考試P值為0.5左右為宜,通常以期末考試為目的的參照性的考試,P值可適當偏高,全卷的平均難度以0.7左右宜,0.6~0.8為正常。
2.區(qū)分度
區(qū)分度D:區(qū)分度是區(qū)分應(yīng)試者能力水平高低的重要指標,區(qū)分度高低可以反映出應(yīng)試者的水平差異。
區(qū)分度計算公式采用鑒別指數(shù)法:D=PH-PL。
PH:高分數(shù)組(以總分高分段27%考生為代表)在該題上的得分率。
PL:低分數(shù)組(以總分低分段27%考生為代表)在該題上的得分率。
區(qū)分度D在-1至+1之間,一般要求試題的區(qū)分度在0.3以上,當D>=0.4時,說明該題目能起到很好的區(qū)分作用;D<=0.2時,說明該題目的區(qū)分性很差。D值為負數(shù)時,說明試題或答案有問題。
試題的區(qū)分度也與應(yīng)試者的水平密切相關(guān),試題難度只有等于或略低與應(yīng)試者的實際能力,其區(qū)分性才能充分顯現(xiàn)處理。
3.信度
信度是指測得結(jié)果的一致性或穩(wěn)定性,穩(wěn)定性越大,意味著測評結(jié)果越可靠。Cronbacha信度系數(shù)是一套常用的教育測驗可靠性的方法,依一定公式估量測驗的內(nèi)部一致性。

K:試題數(shù)
Si2:第i題得分的方差
Sx2:全部題項總得分的方差。
文中以200名考生《高等數(shù)學(xué)》的期末考試成績?yōu)槔攸c講述了如何通過Excel公式函數(shù)來計算試卷難度、區(qū)分度、信度等評價參數(shù)。200份試卷分兩組,一組100份,分別計算其難度、區(qū)分度、信度。用到函數(shù)公式有計算平均分函數(shù)AVERAGE(B:B),計算高分組前27%平均用到的數(shù)組公式:
{=AVERAGE(LARGE(B:B,ROW(INDIRECT(“1:”&ROUND(COUNT(B:B)*0.27,0)))))},低分組27%平均與上相同只需更改LARGE為SMALL,計算標準差函數(shù)STDEVP(B:B),計算方差函數(shù)SUMSQ(),具體數(shù)據(jù)見圖表1。

從圖表1中可以看出,抽樣樣本中計算出該套試卷每題難度控制在0.3~0.8之間,每題區(qū)分度都大于0.3,尤其應(yīng)用題和證明題區(qū)分度都高于0.4,說明這兩題有很好的區(qū)分性,能很好地反映不同學(xué)生的水平差異。從圖表中還可以看出,難度、區(qū)分度之間不存在線性相關(guān)性。