
摘 要 考試肩負(fù)著檢驗教學(xué)效果的重任,理應(yīng)對其進行科學(xué)化測度。文章以SPSS17.0為統(tǒng)計分析工具,通過成績分布直方圖、題目難度、題目區(qū)分度、題目信度和題目效度等指標(biāo)來測度試卷質(zhì)量,不僅可以直觀、便捷分析考試結(jié)果,發(fā)現(xiàn)考試中的重要信息和規(guī)律,還可為教學(xué)效果評估提供重要的考核指標(biāo)和模式。輸出模塊顯示了藉以測度的試卷的質(zhì)量,并為提高試卷科學(xué)性指明了路徑,以使試卷測度系統(tǒng)形成良性循環(huán)。
關(guān)鍵詞 SPSS 17.0 試卷 質(zhì)量 測度
中圖分類號:G424 文獻標(biāo)識碼:A
0 引言
考試,作為教學(xué)過程的重要環(huán)節(jié),不僅承擔(dān)了檢驗學(xué)生知識掌握能力的重任,而且彰顯著教師的教學(xué)效果和教學(xué)能力。以往,對于考試功效的認(rèn)知呈現(xiàn)著重“考試成績”輕“試卷質(zhì)量”的偏誤,成績被統(tǒng)計完畢,試卷即壽終正寢,鮮有對試卷本身進行量化分析的教學(xué)實驗,這不利于教學(xué)質(zhì)量的提高和教學(xué)評估的科學(xué)化。隨著社會科學(xué)研究方法的日益科學(xué)化和規(guī)范化,考試作為教育學(xué)研究的重要內(nèi)容,理應(yīng)對其進行科學(xué)化測度,這不僅能提高試卷的出題質(zhì)量,檢驗學(xué)生掌握所學(xué)知識的真實水平,還能為考核教師教學(xué)能力提供重要的指標(biāo)。教育評價技術(shù)方法中教育測量理論就是應(yīng)用教育統(tǒng)計學(xué)方法來實現(xiàn)的,為測評學(xué)生能力、分析試卷質(zhì)量、考核教育效果提供了可資借鑒的分析方法。
試卷本身的科學(xué)性體現(xiàn)在諸多方面,如試卷總體成績分布、試卷難度、區(qū)分度、信度和效度等,以上因素影響著一份試卷的質(zhì)量。本文以泉州市新村小學(xué)某年級學(xué)生的89份小學(xué)語文考試樣卷為樣本,借助統(tǒng)計學(xué)軟件SPSS 17.0來施以量化分析,旨在探尋試卷質(zhì)量的需改進之處,促進教學(xué)能力的不斷提高。同時希冀教師在學(xué)術(shù)科研和教學(xué)實踐過程中更加注重科學(xué)統(tǒng)計方法的應(yīng)用,挖掘有關(guān)考試的有價信息,提高自身的綜合素質(zhì)。
1 研究框架及數(shù)據(jù)處理
一個完整的試卷科學(xué)性測度系統(tǒng)包括試卷、成績、測度和輸出四個模塊。其中試卷模塊、成績模塊和輸出模塊的建構(gòu)基于主觀判斷,難以量化分析,而測度模塊須以計量統(tǒng)計分析為支撐。本研究以SPSS 17.0統(tǒng)計分析軟件為工具來測度試卷質(zhì)量,主要圍繞測度系統(tǒng)展開,并輔之以試卷題型及分值構(gòu)建、考試成績錄入和分析結(jié)果輸出模塊,旨在便于統(tǒng)計分析并為提高試卷科學(xué)性指出路徑。
考生人數(shù)應(yīng)為90,其中1人因故缺考,有效樣本數(shù)為89。經(jīng)過客觀公正批改,形成實得成績。教師在對成績進行匯總時,應(yīng)該考量成績匯總用途,如果僅用于考生學(xué)習(xí)能力測評之目的,則只需統(tǒng)計各被試學(xué)生的卷面總成績;若有意向借助成績進行試卷質(zhì)量測度,則須統(tǒng)計各被試考生各小題的實得分,形成數(shù)據(jù)表。統(tǒng)計成績一般采用Excel文件,若借助SPSS 17.0軟件進行試卷科學(xué)性測度,則可以直接將數(shù)據(jù)輸入數(shù)據(jù)錄入分析系統(tǒng)。亦可首先在Excel文件中將數(shù)據(jù)錄入完畢,然后將其導(dǎo)入SPSS 17.0分析軟件。
2 試卷科學(xué)性測度
試題科學(xué)性的客觀標(biāo)準(zhǔn)體現(xiàn)在符合教學(xué)大綱要求,難度適當(dāng),區(qū)分優(yōu)劣能力較強,覆蓋面較大,學(xué)生考試成績呈正態(tài)分布等諸方面。縱觀已有研究成果,鑒別試卷質(zhì)量優(yōu)劣的數(shù)字指標(biāo)有“五度”:信度、難度、區(qū)分度、效度、覆蓋度,但在實際適用中,經(jīng)常被采用的是“四度一分布”,即信度、難度、區(qū)分度、效度及成績分布。
2.1 建立成績分布直方圖
在教育測量方法中,正態(tài)分布是最常見、應(yīng)用最廣的一種重要分布。根據(jù)教育統(tǒng)計學(xué)的理論,經(jīng)統(tǒng)計分析(樣本數(shù)≥30)93%的考試成績分布狀況在直觀上呈現(xiàn)為“中間多,兩邊少,左右基本對稱”的特點。判斷成績是否接近正態(tài)分布,最直觀、最有效的方法是將成績分布曲線與均值和方差相同的正態(tài)分布曲線加以比較。所以一次難度適中信度可靠的考試,客觀有效的學(xué)生成績應(yīng)接近正態(tài)分布,且平均分在75分左右,標(biāo)準(zhǔn)差在5~9之間。
利用SPSS得到分?jǐn)?shù)段分布直方圖,如圖1所示,這89名學(xué)生的成績分布形態(tài)基本對稱,較接近正態(tài)分布。平均分為69.66分,標(biāo)準(zhǔn)差為8.755分,分析結(jié)果基本符合數(shù)理統(tǒng)計學(xué)原理。
2.2 題目難易度分析
難度(Difficulty)是反映試題難易程度的一個指標(biāo),它對考試結(jié)果有很大的影響,題目的難度值越大,說明該題越容易,反之該題越難。
一般的試卷主要選擇難度在0.5左右的試題,如果是選拔性質(zhì)的考試,應(yīng)該主要選擇難度較高的試題,如果是達標(biāo)性質(zhì)的考試,應(yīng)該選擇難度較低的試題,同時為了測試考生的能力差異,試卷中應(yīng)該加入少量難度較高的題目。總體上說,試卷的難度應(yīng)該控制在0.3~0.8之間。但是題目的難度系數(shù)不能太接近,這樣的題目太同質(zhì),會降低總分?jǐn)?shù)的區(qū)別力。所以一張試卷的平均難度除控制在0.3~0.8之間外,還應(yīng)使試題的難度適當(dāng)分散。
根據(jù)本次考試的難度統(tǒng)計結(jié)果,Q5、Q7、Q17、Q18、Q27題題目較難,Q20題題目偏難,Q11、Q21、Q25、Q30、Q31、Q32、Q33、Q34、Q35、Q36題題目偏易。由于得分便易的題目集中在主觀題上,從某種程度上可以反映學(xué)生對主觀題的把握能力較強。
2.3 題目區(qū)分度分析
區(qū)分度(Discrimination)是指測驗題目對學(xué)業(yè)水平不同的學(xué)生的區(qū)分程度或鑒別能力。具有良好區(qū)分度的測驗,區(qū)分度越高,說明試卷區(qū)分考生水平差異的能力越強,反之,區(qū)分能力就越差。它是測驗是否有效的“指示器”,被作為評價試題質(zhì)量,篩選試題的主要指標(biāo)與依據(jù)。
本文采用一種比較便捷的測度方法,區(qū)分客觀題與主觀題。對于客觀題,采用斯皮爾曼(Spearman)等級相關(guān)分析法,即求總分與每個試題得分間的相關(guān)系數(shù);對于主觀題來說,看成是非等間距測度的連續(xù)變量,并且樣本數(shù)大于30,采用皮爾遜(Pearson)相關(guān)分析法,即求總分與每個試題得分間的積差相關(guān)系數(shù)作為試題的區(qū)分度。
根據(jù)試卷各題的區(qū)分度,第4、7、11、12、14、15、18、20、23、25、26、33小題的區(qū)分度不夠,應(yīng)被淘汰或作進一步的修改。
2.4 信度分析
信度(Reliability)是指測量方法的質(zhì)量,即對同一現(xiàn)象進行重復(fù)觀察是否可以得到相同的資料。具體到試卷信度,是指同一個測驗對同一組被試對象,施測兩次或兩次以上得分的一致程度。信度的高低反映了考試中隨機因素影響的大小,一次測試中隨機因素影響小,則信度大,隨機因素影響大,則信度小。信度也可以用來指示實測值和真值相差的程度,如果實測值與真值相差較小,說明結(jié)果的信度較高,反之信度較低,信度值的合理范圍為0.5~0.9。在SPSS17.0軟件中一般采用科隆巴赫(Cronbach)€%Z系數(shù)計算測驗的內(nèi)部一致性系數(shù)。
本次考試的信度系數(shù)為:Alpha=0.576,本次測試的信度較低。
2.5 效度分析
效度(Validity)是指測量準(zhǔn)確地反映所需測量概念的程度。表現(xiàn)在考試試卷測度上,是指試卷準(zhǔn)確地測量了考試目的欲測內(nèi)容的多少。具體而言就是覆蓋面和權(quán)重在多大程度上體現(xiàn)了教學(xué)大綱的要求,能否有效檢驗考試能力水平。效度與信度的區(qū)別是:信度反映了考試中隨機誤差的大小,而效度反映了考試中系統(tǒng)誤差的大小。缺乏信度和效度的測量都是不科學(xué)的。
效度只有高低之分,沒有全部有效和全部無效之分。效度的取值范圍在0至1之間。對于一次考試來說,其效度系數(shù)一般應(yīng)在0.4~0.7之間,值越大效度越高。本文采用標(biāo)準(zhǔn)關(guān)聯(lián)效度法(predictive validity),把學(xué)生的平時成績作為效度分析的標(biāo)準(zhǔn),利用積差相關(guān)法求效度。根據(jù)計算結(jié)果,本次考試的試卷效度為0.593。
3 測度結(jié)果及調(diào)試路徑
3.1 測度結(jié)果
根據(jù)教育測量理論,本次小學(xué)語文考試成績的分布直方圖并未凸顯出畸形特征,基本上呈正態(tài)分布,單峰且大體對稱。通過對題目難易度的計量分析可以看出,只有1題偏難,卻有10題偏易,這不利于區(qū)分被試者的知識掌握能力的高低。從本次考試成績的區(qū)分度可以看出,共有12道題目的區(qū)分度低于0.2,這不利于檢驗學(xué)生真實水平的差異性,需要改進出題質(zhì)量,提高區(qū)分度。本次考試成績的信度雖然在合理值范圍內(nèi),但是值接近合理區(qū)間的底限,說明試卷測試的題目的一致性程度較低,需要進一步調(diào)適試題,提高信度。本次考試的效度居中,考試測量目的預(yù)測內(nèi)容的程度一般。
3.2 調(diào)適路徑
根據(jù)測度結(jié)果進行試卷調(diào)適,是試卷科學(xué)性測度的重要目的之一,是提高教學(xué)質(zhì)量的重要環(huán)節(jié),應(yīng)引起廣大教育工作者的充分重視。考試成績是考生水平的反映,同時考試成績分布是否呈正態(tài)反映了命題質(zhì)量。此考試成績呈正態(tài)分布曲線,此次說明考試基本上符合教學(xué)要求。在考試題目設(shè)計上要求對試題的難度組合進行合理的搭配,這樣有利于考試成績的正態(tài)分布。本次試卷的偏易題過多,偏難題過少,在調(diào)適試卷的時候應(yīng)注意適當(dāng)增加偏難題的數(shù)量并減少偏易題的數(shù)量,這也有利于提高試卷的區(qū)分度。本次考試的信度系數(shù)較低,提高測量信度一個常用的方法是在提高試題區(qū)分度的前提下,適當(dāng)增加試題數(shù)量。另外從信度系數(shù)的計算公式上看,增加考試總分的方差,減少各小題的方差,可以增加信度。從操作的角度看,擴大樣本容量,題目難度值的差距不懸殊且在0.4~0.7之間,提高試題區(qū)分度,以及制定盡可能客觀的評分標(biāo)準(zhǔn)和方法等均有利于提高考試信度。就效度而言,因作為效度測量標(biāo)準(zhǔn)的的變量有很多,而一個測驗又可能會有不同的標(biāo)準(zhǔn),因此必須注意標(biāo)準(zhǔn)的選擇,它是獲得測驗的標(biāo)準(zhǔn)關(guān)聯(lián)效度的核心。
4 結(jié)語
考試,是衡量教學(xué)效果的必要手段。隨著統(tǒng)計學(xué)及經(jīng)濟計量學(xué)邊緣的不斷擴張,對于教學(xué)結(jié)果的評價越來越依賴于科學(xué)的理論和方法。教育評價技術(shù)方法中教育測量理論就是應(yīng)用教育統(tǒng)計學(xué)方法來實現(xiàn)的,成為測評學(xué)生能力、考核教育效果的重要措施。利用SPSS測度考試的難易度、區(qū)分度、信度、效度等指標(biāo),不僅可以直觀、便捷分析考試結(jié)果,發(fā)現(xiàn)考試中的重要信息和規(guī)律,還可為教學(xué)效果評估提供重要的考核指標(biāo)和模式。通過構(gòu)建合理的測度系統(tǒng),量化、高效地測評考試,另外根據(jù)輸出系統(tǒng)的信息反饋,還可為提高試卷科學(xué)性指明路徑,以使測度系統(tǒng)形成良性循環(huán),一改以往對考試評價的定性角度慣性。但目前在教育教學(xué)及科研領(lǐng)域,人們采用科學(xué)的測評方法測度試卷科學(xué)性的嘗試并不多,尤其是一些規(guī)模較小的考試,這不利于教學(xué)質(zhì)量和教師素質(zhì)的提高,亦不利于考試學(xué)研究者開啟新的研究視域。應(yīng)該加強對試卷科學(xué)化測度的研究及實踐,使考試這一重要的教學(xué)環(huán)節(jié)日益走上科學(xué)化和規(guī)范化的軌道。