基于SPSS 17.0的試卷科學(xué)性測度

2013-12-31 00:00:00戴惠蓉

科教導(dǎo)刊 2013年26期

摘要考試肩負(fù)著檢驗教學(xué)效果的重任，理應(yīng)對其進行科學(xué)化測度。文章以SPSS17.0為統(tǒng)計分析工具，通過成績分布直方圖、題目難度、題目區(qū)分度、題目信度和題目效度等指標(biāo)來測度試卷質(zhì)量，不僅可以直觀、便捷分析考試結(jié)果，發(fā)現(xiàn)考試中的重要信息和規(guī)律，還可為教學(xué)效果評估提供重要的考核指標(biāo)和模式。輸出模塊顯示了藉以測度的試卷的質(zhì)量，并為提高試卷科學(xué)性指明了路徑，以使試卷測度系統(tǒng)形成良性循環(huán)。

關(guān)鍵詞 SPSS 17.0 試卷質(zhì)量測度

中圖分類號：G424 文獻標(biāo)識碼：A

0 引言

考試，作為教學(xué)過程的重要環(huán)節(jié)，不僅承擔(dān)了檢驗學(xué)生知識掌握能力的重任，而且彰顯著教師的教學(xué)效果和教學(xué)能力。以往，對于考試功效的認(rèn)知呈現(xiàn)著重“考試成績”輕“試卷質(zhì)量”的偏誤，成績被統(tǒng)計完畢，試卷即壽終正寢，鮮有對試卷本身進行量化分析的教學(xué)實驗，這不利于教學(xué)質(zhì)量的提高和教學(xué)評估的科學(xué)化。隨著社會科學(xué)研究方法的日益科學(xué)化和規(guī)范化，考試作為教育學(xué)研究的重要內(nèi)容，理應(yīng)對其進行科學(xué)化測度，這不僅能提高試卷的出題質(zhì)量，檢驗學(xué)生掌握所學(xué)知識的真實水平，還能為考核教師教學(xué)能力提供重要的指標(biāo)。教育評價技術(shù)方法中教育測量理論就是應(yīng)用教育統(tǒng)計學(xué)方法來實現(xiàn)的，為測評學(xué)生能力、分析試卷質(zhì)量、考核教育效果提供了可資借鑒的分析方法。

試卷本身的科學(xué)性體現(xiàn)在諸多方面，如試卷總體成績分布、試卷難度、區(qū)分度、信度和效度等，以上因素影響著一份試卷的質(zhì)量。本文以泉州市新村小學(xué)某年級學(xué)生的89份小學(xué)語文考試樣卷為樣本，借助統(tǒng)計學(xué)軟件SPSS 17.0來施以量化分析，旨在探尋試卷質(zhì)量的需改進之處，促進教學(xué)能力的不斷提高。同時希冀教師在學(xué)術(shù)科研和教學(xué)實踐過程中更加注重科學(xué)統(tǒng)計方法的應(yīng)用，挖掘有關(guān)考試的有價信息，提高自身的綜合素質(zhì)。

1 研究框架及數(shù)據(jù)處理

一個完整的試卷科學(xué)性測度系統(tǒng)包括試卷、成績、測度和輸出四個模塊。其中試卷模塊、成績模塊和輸出模塊的建構(gòu)基于主觀判斷，難以量化分析，而測度模塊須以計量統(tǒng)計分析為支撐。本研究以SPSS 17.0統(tǒng)計分析軟件為工具來測度試卷質(zhì)量，主要圍繞測度系統(tǒng)展開，并輔之以試卷題型及分值構(gòu)建、考試成績錄入和分析結(jié)果輸出模塊，旨在便于統(tǒng)計分析并為提高試卷科學(xué)性指出路徑。

考生人數(shù)應(yīng)為90，其中1人因故缺考，有效樣本數(shù)為89。經(jīng)過客觀公正批改，形成實得成績。教師在對成績進行匯總時，應(yīng)該考量成績匯總用途，如果僅用于考生學(xué)習(xí)能力測評之目的，則只需統(tǒng)計各被試學(xué)生的卷面總成績；若有意向借助成績進行試卷質(zhì)量測度，則須統(tǒng)計各被試考生各小題的實得分，形成數(shù)據(jù)表。統(tǒng)計成績一般采用Excel文件，若借助SPSS 17.0軟件進行試卷科學(xué)性測度，則可以直接將數(shù)據(jù)輸入數(shù)據(jù)錄入分析系統(tǒng)。亦可首先在Excel文件中將數(shù)據(jù)錄入完畢，然后將其導(dǎo)入SPSS 17.0分析軟件。

2 試卷科學(xué)性測度

試題科學(xué)性的客觀標(biāo)準(zhǔn)體現(xiàn)在符合教學(xué)大綱要求，難度適當(dāng)，區(qū)分優(yōu)劣能力較強，覆蓋面較大，學(xué)生考試成績呈正態(tài)分布等諸方面。縱觀已有研究成果，鑒別試卷質(zhì)量優(yōu)劣的數(shù)字指標(biāo)有“五度”：信度、難度、區(qū)分度、效度、覆蓋度，但在實際適用中，經(jīng)常被采用的是“四度一分布”，即信度、難度、區(qū)分度、效度及成績分布。

2.1 建立成績分布直方圖

在教育測量方法中，正態(tài)分布是最常見、應(yīng)用最廣的一種重要分布。根據(jù)教育統(tǒng)計學(xué)的理論，經(jīng)統(tǒng)計分析（樣本數(shù)≥30）93%的考試成績分布狀況在直觀上呈現(xiàn)為“中間多，兩邊少，左右基本對稱”的特點。判斷成績是否接近正態(tài)分布，最直觀、最有效的方法是將成績分布曲線與均值和方差相同的正態(tài)分布曲線加以比較。所以一次難度適中信度可靠的考試，客觀有效的學(xué)生成績應(yīng)接近正態(tài)分布，且平均分在75分左右，標(biāo)準(zhǔn)差在5～9之間。

利用SPSS得到分?jǐn)?shù)段分布直方圖，如圖1所示，這89名學(xué)生的成績分布形態(tài)基本對稱，較接近正態(tài)分布。平均分為69.66分，標(biāo)準(zhǔn)差為8.755分，分析結(jié)果基本符合數(shù)理統(tǒng)計學(xué)原理。

2.2 題目難易度分析

難度（Difficulty）是反映試題難易程度的一個指標(biāo)，它對考試結(jié)果有很大的影響，題目的難度值越大，說明該題越容易，反之該題越難。

一般的試卷主要選擇難度在0.5左右的試題，如果是選拔性質(zhì)的考試，應(yīng)該主要選擇難度較高的試題，如果是達標(biāo)性質(zhì)的考試，應(yīng)該選擇難度較低的試題，同時為了測試考生的能力差異，試卷中應(yīng)該加入少量難度較高的題目。總體上說，試卷的難度應(yīng)該控制在0.3～0.8之間。但是題目的難度系數(shù)不能太接近，這樣的題目太同質(zhì)，會降低總分?jǐn)?shù)的區(qū)別力。所以一張試卷的平均難度除控制在0.3～0.8之間外，還應(yīng)使試題的難度適當(dāng)分散。

根據(jù)本次考試的難度統(tǒng)計結(jié)果，Q5、Q7、Q17、Q18、Q27題題目較難，Q20題題目偏難，Q11、Q21、Q25、Q30、Q31、Q32、Q33、Q34、Q35、Q36題題目偏易。由于得分便易的題目集中在主觀題上，從某種程度上可以反映學(xué)生對主觀題的把握能力較強。

2.3 題目區(qū)分度分析

區(qū)分度（Discrimination）是指測驗題目對學(xué)業(yè)水平不同的學(xué)生的區(qū)分程度或鑒別能力。具有良好區(qū)分度的測驗，區(qū)分度越高，說明試卷區(qū)分考生水平差異的能力越強，反之，區(qū)分能力就越差。它是測驗是否有效的“指示器”，被作為評價試題質(zhì)量，篩選試題的主要指標(biāo)與依據(jù)。

本文采用一種比較便捷的測度方法，區(qū)分客觀題與主觀題。對于客觀題，采用斯皮爾曼（Spearman）等級相關(guān)分析法，即求總分與每個試題得分間的相關(guān)系數(shù)；對于主觀題來說，看成是非等間距測度的連續(xù)變量，并且樣本數(shù)大于30，采用皮爾遜（Pearson）相關(guān)分析法，即求總分與每個試題得分間的積差相關(guān)系數(shù)作為試題的區(qū)分度。

根據(jù)試卷各題的區(qū)分度，第4、7、11、12、14、15、18、20、23、25、26、33小題的區(qū)分度不夠，應(yīng)被淘汰或作進一步的修改。

2.4 信度分析

信度（Reliability）是指測量方法的質(zhì)量，即對同一現(xiàn)象進行重復(fù)觀察是否可以得到相同的資料。具體到試卷信度，是指同一個測驗對同一組被試對象，施測兩次或兩次以上得分的一致程度。信度的高低反映了考試中隨機因素影響的大小，一次測試中隨機因素影響小，則信度大，隨機因素影響大，則信度小。信度也可以用來指示實測值和真值相差的程度，如果實測值與真值相差較小，說明結(jié)果的信度較高，反之信度較低，信度值的合理范圍為0.5～0.9。在SPSS17.0軟件中一般采用科隆巴赫（Cronbach）€%Z系數(shù)計算測驗的內(nèi)部一致性系數(shù)。

本次考試的信度系數(shù)為：Alpha=0.576，本次測試的信度較低。

2.5 效度分析

效度（Validity）是指測量準(zhǔn)確地反映所需測量概念的程度。表現(xiàn)在考試試卷測度上，是指試卷準(zhǔn)確地測量了考試目的欲測內(nèi)容的多少。具體而言就是覆蓋面和權(quán)重在多大程度上體現(xiàn)了教學(xué)大綱的要求，能否有效檢驗考試能力水平。效度與信度的區(qū)別是：信度反映了考試中隨機誤差的大小，而效度反映了考試中系統(tǒng)誤差的大小。缺乏信度和效度的測量都是不科學(xué)的。

效度只有高低之分，沒有全部有效和全部無效之分。效度的取值范圍在0至1之間。對于一次考試來說，其效度系數(shù)一般應(yīng)在0.4～0.7之間，值越大效度越高。本文采用標(biāo)準(zhǔn)關(guān)聯(lián)效度法（predictive validity），把學(xué)生的平時成績作為效度分析的標(biāo)準(zhǔn)，利用積差相關(guān)法求效度。根據(jù)計算結(jié)果，本次考試的試卷效度為0.593。

3 測度結(jié)果及調(diào)試路徑

3.1 測度結(jié)果

根據(jù)教育測量理論，本次小學(xué)語文考試成績的分布直方圖并未凸顯出畸形特征，基本上呈正態(tài)分布，單峰且大體對稱。通過對題目難易度的計量分析可以看出，只有1題偏難，卻有10題偏易，這不利于區(qū)分被試者的知識掌握能力的高低。從本次考試成績的區(qū)分度可以看出，共有12道題目的區(qū)分度低于0.2，這不利于檢驗學(xué)生真實水平的差異性，需要改進出題質(zhì)量，提高區(qū)分度。本次考試成績的信度雖然在合理值范圍內(nèi)，但是值接近合理區(qū)間的底限，說明試卷測試的題目的一致性程度較低，需要進一步調(diào)適試題，提高信度。本次考試的效度居中，考試測量目的預(yù)測內(nèi)容的程度一般。

3.2 調(diào)適路徑

根據(jù)測度結(jié)果進行試卷調(diào)適，是試卷科學(xué)性測度的重要目的之一，是提高教學(xué)質(zhì)量的重要環(huán)節(jié)，應(yīng)引起廣大教育工作者的充分重視。考試成績是考生水平的反映，同時考試成績分布是否呈正態(tài)反映了命題質(zhì)量。此考試成績呈正態(tài)分布曲線，此次說明考試基本上符合教學(xué)要求。在考試題目設(shè)計上要求對試題的難度組合進行合理的搭配，這樣有利于考試成績的正態(tài)分布。本次試卷的偏易題過多，偏難題過少，在調(diào)適試卷的時候應(yīng)注意適當(dāng)增加偏難題的數(shù)量并減少偏易題的數(shù)量，這也有利于提高試卷的區(qū)分度。本次考試的信度系數(shù)較低，提高測量信度一個常用的方法是在提高試題區(qū)分度的前提下，適當(dāng)增加試題數(shù)量。另外從信度系數(shù)的計算公式上看，增加考試總分的方差，減少各小題的方差，可以增加信度。從操作的角度看，擴大樣本容量，題目難度值的差距不懸殊且在0.4～0.7之間，提高試題區(qū)分度，以及制定盡可能客觀的評分標(biāo)準(zhǔn)和方法等均有利于提高考試信度。就效度而言，因作為效度測量標(biāo)準(zhǔn)的的變量有很多，而一個測驗又可能會有不同的標(biāo)準(zhǔn)，因此必須注意標(biāo)準(zhǔn)的選擇，它是獲得測驗的標(biāo)準(zhǔn)關(guān)聯(lián)效度的核心。

4 結(jié)語

考試，是衡量教學(xué)效果的必要手段。隨著統(tǒng)計學(xué)及經(jīng)濟計量學(xué)邊緣的不斷擴張，對于教學(xué)結(jié)果的評價越來越依賴于科學(xué)的理論和方法。教育評價技術(shù)方法中教育測量理論就是應(yīng)用教育統(tǒng)計學(xué)方法來實現(xiàn)的，成為測評學(xué)生能力、考核教育效果的重要措施。利用SPSS測度考試的難易度、區(qū)分度、信度、效度等指標(biāo)，不僅可以直觀、便捷分析考試結(jié)果，發(fā)現(xiàn)考試中的重要信息和規(guī)律，還可為教學(xué)效果評估提供重要的考核指標(biāo)和模式。通過構(gòu)建合理的測度系統(tǒng)，量化、高效地測評考試，另外根據(jù)輸出系統(tǒng)的信息反饋，還可為提高試卷科學(xué)性指明路徑，以使測度系統(tǒng)形成良性循環(huán)，一改以往對考試評價的定性角度慣性。但目前在教育教學(xué)及科研領(lǐng)域，人們采用科學(xué)的測評方法測度試卷科學(xué)性的嘗試并不多，尤其是一些規(guī)模較小的考試，這不利于教學(xué)質(zhì)量和教師素質(zhì)的提高，亦不利于考試學(xué)研究者開啟新的研究視域。應(yīng)該加強對試卷科學(xué)化測度的研究及實踐，使考試這一重要的教學(xué)環(huán)節(jié)日益走上科學(xué)化和規(guī)范化的軌道。

科教導(dǎo)刊2013年26期

科教導(dǎo)刊的其它文章: 經(jīng)管類專業(yè)大學(xué)生統(tǒng)計學(xué)學(xué)習(xí)焦慮狀況調(diào)查分析; 就業(yè)指導(dǎo)方式方法與醫(yī)學(xué)生就業(yè)心理狀態(tài)的相關(guān)性調(diào)查研究; 高校圖書館營銷管理模式研究; 高校實驗室管理模式的改革與應(yīng)用; 淺析地方高校圖書館數(shù)字化建設(shè); 大學(xué)生獨立自理能力的強弱對其日后發(fā)展的影響研究