賴翔暉 張華


摘 要: 考試是評(píng)價(jià)教育效果的重要手段,而命制試題則是考試中的重要一環(huán)。過去,對(duì)試卷命題的質(zhì)量評(píng)價(jià)常以主觀定性的方式為主。現(xiàn)在可以依靠SPSS(統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案)軟件,實(shí)現(xiàn)對(duì)命題質(zhì)量的定量分析。
關(guān)鍵詞: 命題質(zhì)量 定量分析 質(zhì)量評(píng)價(jià)
一、命題定量分析的準(zhǔn)備工作
啟動(dòng)SPSS19.0中文版,選擇“變量視圖”中,在名稱下輸入學(xué)號(hào)、題目1—12、總分等命題基本情況項(xiàng)目。在類型標(biāo)記中,將學(xué)號(hào)定義為名義,將題目1—12定義為度量,小數(shù)根據(jù)實(shí)際情況設(shè)定,其他項(xiàng)保留默認(rèn)設(shè)置。選擇“數(shù)據(jù)視圖”標(biāo)簽,在各行內(nèi)輸入學(xué)生的各題得分和總分?jǐn)?shù)據(jù)(圖2)。
圖1 定義變量設(shè)定圖
圖2 數(shù)據(jù)輸入圖
二、命題的定量分析
(一)描述性統(tǒng)計(jì)量分析
用以描述考試總體情況的各分?jǐn)?shù)統(tǒng)稱為描述性統(tǒng)計(jì)量。在SPSS中,點(diǎn)擊“分析—描述分析—頻率”。將“總分”等變量名稱選入待計(jì)算變量框中,在“統(tǒng)計(jì)”中選擇要計(jì)算的統(tǒng)計(jì)量,選中均值、極值、標(biāo)準(zhǔn)差、中位數(shù)等項(xiàng),最后輸出結(jié)果(表3)。
表3 有效數(shù)據(jù)的得分描述性統(tǒng)計(jì)
(二)試題的正態(tài)分布預(yù)期
在學(xué)生群體足夠大時(shí),學(xué)生的能力呈正態(tài)分布。處于能力尖端和尾端的學(xué)生數(shù)量少,處于能力中端的學(xué)生數(shù)量多。在考試命題適宜,教學(xué)狀況正常,學(xué)生水平相當(dāng),試卷評(píng)閱嚴(yán)謹(jǐn)?shù)那疤嵯?,一份合格的試題,所反映出的學(xué)生成績(jī)應(yīng)呈現(xiàn)正態(tài)分布的特點(diǎn)。為研究試題能否體現(xiàn)學(xué)生能力的正態(tài)分布,可在SPSS軟件中點(diǎn)擊“分析—描述分析—頻率”,在“頻率”對(duì)話框中選擇“圖表”,點(diǎn)選繪制“總分”的直方圖并標(biāo)變化曲線(圖4)。
圖4 學(xué)生總分的直方—變化曲線圖
若學(xué)生總分的直方—變化曲線圖能呈現(xiàn)正態(tài)分布,那么,可進(jìn)一步探究命制試題的正態(tài)分布預(yù)期。可利用單個(gè)樣本K-S校驗(yàn)測(cè)查給定數(shù)據(jù)與正態(tài)分布間的顯著差異。在SPSS中,點(diǎn)擊“分析—非參數(shù)檢驗(yàn)”,對(duì)“總分”進(jìn)行單個(gè)樣本K-S檢驗(yàn)(表5)。
表5 試題總分的單樣本Kolmogorov-Smirnov檢驗(yàn)
(三)難度
試題的難度(P)是測(cè)驗(yàn)題目難易程度的統(tǒng)計(jì)量。試卷難度等于試卷內(nèi)各題的平均難度。要觀測(cè)命題試卷難度,應(yīng)先測(cè)量命題試卷內(nèi)各題難度。試題計(jì)分方法不同,難度計(jì)算方法不同。
二分法計(jì)分(選擇題、判斷題)題目的難度統(tǒng)計(jì)。對(duì)于二分法計(jì)分的題目,答案只有對(duì)與錯(cuò)兩種可能的結(jié)果(即答對(duì)得分,答錯(cuò)不得分)。此類題目難度通常用通過率(P)表示。其中,P=1—R/N(其中R為答對(duì)該題的人數(shù),N為答題總?cè)藬?shù))。由此,可在SPSS中,運(yùn)用“轉(zhuǎn)換—計(jì)算變量”方法,在“計(jì)算變量”對(duì)話框中輸入公式,直接算出二分法題目難度(表6)。
表6 二分法計(jì)分題目難度值
非二分法計(jì)分(主觀題、論述題)題目的難度統(tǒng)計(jì)。對(duì)于非二分法計(jì)分的題目,難度(P)可以通過公式P=1—X/W(X為該題目均分值,W為該題滿分值)計(jì)算。可采用“計(jì)算變量”方法直接輸入公式,算出非二分法題目難度(表7)。
表7 非二分法題目難度值
全卷難度值(P)等于卷內(nèi)各題難度平均值,采用SPSS“計(jì)算變量”可得p=0.4。
(四)區(qū)分度
區(qū)分度是反映試題區(qū)別學(xué)生水平和能力的統(tǒng)計(jì)量。在實(shí)際統(tǒng)計(jì)時(shí),常以考試總分作為考生的實(shí)際水平,而把某題的得分與學(xué)生總分之間的相關(guān)系數(shù)作為該題的區(qū)分度。
客觀題的區(qū)分度統(tǒng)計(jì),可把客觀題得分視為等間距測(cè)度的連續(xù)變量,采用Spearman等級(jí)相關(guān)分析統(tǒng)計(jì)區(qū)分度。主觀題的區(qū)分度統(tǒng)計(jì),可把主觀題成績(jī)視為非等間距測(cè)度的連續(xù)變量,采用Pearson相關(guān)分析。在SPSS中,點(diǎn)擊“分析—相關(guān)—雙相關(guān)”。先選擇客觀題各題分?jǐn)?shù)和總分采用Pearson相關(guān)分析(1-6),再選擇主觀題(7-12(2))各題分?jǐn)?shù)和總分采用Spearman相關(guān)系數(shù)分析,得到結(jié)果合成(表8)。
表8 各題區(qū)分度匯總表
(五)信度
信度是衡量一次考試可靠性、穩(wěn)定性的統(tǒng)計(jì)量。信度代表著試題的可靠性,其取值在0至1之間。信度越高,可靠性越好,但容易造成成績(jī)標(biāo)準(zhǔn)差過大。一般采用SPSS中克倫巴赫系數(shù)(Alpha模型)計(jì)算命題試卷一致性信度系數(shù)。在SPSS中,點(diǎn)擊“分析—度量—可靠性分析”。在可靠性分析對(duì)話框中,選擇試卷各題得分?jǐn)?shù)據(jù)。點(diǎn)擊“統(tǒng)計(jì)量”,選擇“如果項(xiàng)已刪除則進(jìn)行度量”,結(jié)果如下(表9-10):
表9 信度統(tǒng)計(jì)值表
表10 刪除變量后項(xiàng)目統(tǒng)計(jì)值表
(六)效度
效度是指測(cè)試結(jié)果的準(zhǔn)確性與有效性程度的統(tǒng)計(jì)量,即一個(gè)測(cè)驗(yàn)?zāi)軌驕y(cè)量學(xué)生水平的程度[2]??刹捎眯?biāo)效度法測(cè)量試題的效度。將學(xué)生的平時(shí)成績(jī)作為效度分析的校標(biāo),利用皮爾森相關(guān)系數(shù)法計(jì)算命題測(cè)試分?jǐn)?shù)與校標(biāo)之間的相關(guān)系數(shù),結(jié)果即為試題效度(表11)。
圖表11 命制試題得分與平時(shí)成績(jī)間皮爾遜相關(guān)系數(shù)分析
三、命題質(zhì)量評(píng)價(jià)
第一,描述性統(tǒng)計(jì)量分析。由表3可知,命題平均成績(jī)?yōu)?2.54分(滿分49分),最高分45分,最低分12分,標(biāo)準(zhǔn)差為6.94。平均分、標(biāo)準(zhǔn)差數(shù)值適當(dāng),極值差距較大,體現(xiàn)了學(xué)生個(gè)體之間對(duì)題目的理解差異大。由此可見,試卷命題中,部分題目可能表意不清,引發(fā)部分學(xué)生無從下手作答的情況。此卷應(yīng)注意題干的表達(dá),使學(xué)生清晰了解題目意圖。
第二,正態(tài)分布預(yù)期分析。由圖4可知,學(xué)生總分變化曲線呈正態(tài)分布曲線樣式,因而命制試題具有正態(tài)分布預(yù)期。由表5進(jìn)一步分析K-S檢驗(yàn)中的各數(shù)值可知,Z值為0.493,sig(雙側(cè)P值)=0.851>0.05,由sig(漸進(jìn)顯著性)>0.05,可得給定數(shù)據(jù)與正態(tài)分布沒有顯著性差異,即總分?jǐn)?shù)據(jù)符合正態(tài)分布要求。
第二,試題難度分析。一般認(rèn)為,命題難度在0.4至0.7之間為宜,難度值小于0.4的題目難度較小,難度值大于0.7的題目較大。一般認(rèn)為,最好的試題難度應(yīng)接近于中等難度(即p=0.5)。因此,本命制試題全試卷具有中等偏下的難度(p=0.4)。這份命制試題如果運(yùn)用在終結(jié)性考核中,用以檢測(cè)學(xué)生在群體中知識(shí)掌握水平,作為合格水平測(cè)驗(yàn),則效果較好。但作為過程性考核,則其難度水平較低,需適當(dāng)加大難度。由表6、7可知,T9、T1難度過小,建議予以刪改。T6、T3難度過大,應(yīng)進(jìn)一步結(jié)合課程評(píng)價(jià)標(biāo)準(zhǔn)加以研究,檢驗(yàn)是否超綱。
第三,區(qū)分度分析。一般認(rèn)為區(qū)分度在0.4以上的題目,鑒別能力優(yōu)秀;區(qū)分度在0.3至0.39間的題目,鑒別能力良好;區(qū)分度在0.39以下的題目,應(yīng)進(jìn)行刪改。由表8可知,全卷區(qū)分度總體水平適宜,能夠區(qū)分學(xué)生掌握知識(shí)程度的優(yōu)劣。但T1、T3、T4、T6四題區(qū)分度較低(<0.39),說明學(xué)生在作答這些題目時(shí),掌握的知識(shí)和對(duì)知識(shí)理解、運(yùn)用的能力不能充分體現(xiàn)在試卷答題分?jǐn)?shù)上,因此,應(yīng)作刪改。
第四,信度分析。從表9可知,本次考試的信度為0.455。普遍而言,學(xué)校測(cè)驗(yàn)采用試卷信度應(yīng)達(dá)到0.5以上。本命題試卷達(dá)不到可信要求,為提高本卷信度,本卷應(yīng)進(jìn)行修改。從表10可知,刪除T1后全卷信度提升至5.0,故可考慮對(duì)T1進(jìn)行替換。同時(shí),目前本卷題量共12題,題目數(shù)量較少,可考慮通過適當(dāng)增加題量的方法,提高全卷信度。
第五,效度分析。從表11可知,全卷效度值為0.837,在0.01的顯著性水平下,sig.值(顯著性)為0.000,表明學(xué)生完成命制試題的得分與學(xué)生平時(shí)的成績(jī)兩者間呈顯著的相關(guān)關(guān)系。命制試題具有較高的效度。
參考文獻(xiàn):
[1]張雪冰.試卷分析中的正態(tài)分布和非正態(tài)分布[J].安徽建筑工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2009.8(17-4).
[2]陳伙平.教育科學(xué)研究方法與原理[M].福建科學(xué)技術(shù)出版社,2005.7,124.