


摘要:對試卷質量綜合評分,即實現試卷質量的定量分析?;凇案叩葦祵W”課程期末考試成績,首先,利用χ2擬合優度檢驗法判斷考試成績是否達到服從正態分布的基本要求;其次,分析計算試卷的難度、區分度、效度和信度;最后,將這四個指標作為影響試卷質量的關鍵因素,利用模糊數學綜合評價方法構建試卷質量綜合評分函數。
關鍵詞:試卷質量;難度;區分度;效度;信度;模糊綜合評價
1概述
當前,學校普遍以教學為中心和重心,隨著教學改革的深入發展,對教學評價的要求越來越客觀,對教學效果的分析越來越重視,顯然,考試是教育教學評價的最有效手段之一。而考試成績能否有效地體現教育教學質量的關鍵在于試題的命制,即試卷的質量。綜合評價試卷質量,對提高教育教學質量、分析教學效果、分析學生學習效果、提升教學測評工作都具有重要意義。[1]
本文基于2022—2023學年第一學期“高等數學”課程120名學生的期末考試成績,綜合評判分析高等數學試卷質量得分。首先,利用χ2擬合優度檢驗法判斷考試成績是否服從正態分布;其次,對試卷的難度、區分度、效度和信度進行計算分析;最后,將這四個指標作為影響試卷質量的關鍵因素,利用模糊數學綜合評價方法構建試卷質量綜合評分函數。
2試卷質量分析
2.1考試成績正態性檢驗
根據統計資料及統計理論可知,符合教學規律的任意考試或測驗,其成績都應呈現或接近正態分布,否則就認為試卷的試題命制不合理。
檢驗考試成績呈正態性分布的方法眾多,本文運用χ2擬合優度檢驗法利用SPSS軟件判別考試成績是否服從正態分布。
具體方法:在SPSS中單擊Analyze→NonparametricTests→LegacyDialogs→Chisquare,彈出對話框選擇Total字段進入Listoftestvariables,在ChisquareTest中利用自定義比例操作進行檢驗,得到χ2=60.7,p值=0.011,故這120名學生考試成績服從正態分布。
2.2試卷的評價指標及其量化
考試試卷由判斷、單選、填空、計算、解答等五種題型共29題構成,其中,判斷、單選為客觀題,填空、計算、解答為主觀題。試卷題型分值分布見表1。
2.2.1難度P
難度主要反映試卷中考試試題的難易程度[2]。它是考試試題對學生知識技能適配程度高低的指標。顯然,試題成績越高則該試題難度越小,成績越低則該試題難度越大。
客觀性試題難度為:
Pi=1-NiN
其中,Ni為第i題答對人數,N為考生總數,Pi為第i題的難度系數。
主觀性試題難度為:
Pi=1-XiXi
其中,Xi為第i題的平均分,Xi為第i題的滿分,Pi為第i題的難度系數。
試卷平均難度為:
P=1X∑Ti=1XiPi
其中,Xi為第i題的滿分,X為試卷滿分,Pi為第i題的難度系數,T為試卷總題數。
計算得“高等數學”課程考試試卷平均難度P=0.5726。
2.2.2區分度D
區分度主要反映試卷中試題對不同水平考生的區分力,區分度應該使得水平高的學生得高分、水平低的考生得低分,區分度又稱為鑒別力。
試題區分度求解方法眾多[3],在此介紹操作簡便易求解的相關分析方法。對客觀性試題,采用斯皮爾曼(Spearman)等級相關分析,將總分與各試題間的相關系數作為試題區分度;對主觀性試題,將其看作非等間距測度的連續變量,在樣本數大于30基礎上,采用皮爾遜(Pearson)相關分析,將總分與各試題間的積差相關系數作為試題區分度。
具體的方法:對客觀題,在SPSS中單擊Analyze→Correlate,在BivariateCorrelations對話框中選擇各客觀題和總分等字段進入Variables,選擇Spearman,即可得客觀題的區分度。主觀題的區分度求解同上,在BivariateCorrelations對話框中選擇各主觀題和總分等字段進入Variables,選擇Pearson,即可得主觀題的區分度。
試卷平均區分度為:
D=1X∑Ti=1XiDi
其中,Xi為第i題的滿分,X為試卷滿分,Di為第i題區分度,T為試卷試題總數。
計算得“高等數學”課程考試試卷平均區分度D=0.3164。
2.2.3效度V
效度主要反映試卷測驗結果的有效性,即測量學生實際學習水平的有效程度,效度一定程度上反映了考試中系統誤差的大小。經典且被公認的效度主要有內容效度、結構效度和效標關聯效度,具體使用的效度類型依據測驗目的決定。效標關聯效度(criterionrelatedvalidity)[4]是以考試成績與效標的相關系數作為考試成績的效度。在此采用效標關聯效度,將期中成績作為校標,利用積差相關法(Pearson法)求得試卷效度。
具體方法:在SPSS中單擊Analyze→Correlate→Bivariate,選擇總分和期中成績進入Items,在CorrelationCoefficients中選擇Pearson,得試卷效度V=0.206。
2.2.4信度R
信度主要反映試卷的穩定性和可靠性,也是衡量隨機誤差的大小,即評判測試結果是否真實、客觀反映了學生的實際學習水平。信度越高測試結果越可信,信度太低則無法對學生學習水平做出公平合理的評價。信度求解方法眾多,試卷信度求解一般采用同質性信度,在此采用克朗巴赫(Cronbach)方法[5]。
試卷信度為:
R=TT-11-∑S2iS2
其中,S為試卷標準差,Si為第i題得分的標準差,T為試卷的試題總數,R代表試卷的信度。
具體方法:在SPSS中單擊Analyze→Scale→ReliabilityAnalysis,選擇全體題號進入Items,在Model選擇Alpha(Cronbachα系數),得試卷信度R=0.541。
3試卷質量模糊綜合評價[68]
模糊綜合評價法基于模糊數學,對受到多種因素制約的事物做出總體評價。該評價法利用模糊數學的隸屬度理論把定性評價轉化為定量評價,具有結果清晰、系統性強的特點,能較好解決模糊的、難以量化的問題,適合各種非確定性問題的解決。
模糊綜合評價首先確定被評價對象的因素(指標)集和評價(等級)集;再分別確定各因素的權重及它們的隸屬度向量,獲得模糊評判矩陣;接著把模糊評判矩陣與因素的權向量進行模糊運算并作歸一化處理,得到模糊綜合評價結果。
3.1確定評價指標
本文選取試卷難度、區分度、效度、信度等4個評價指標作為評價試卷綜合質量的因素集。
3.2確定指標權重
各指標的權重體現FJQv+JzEGfAm1hoXxOXyflcOR1bddOKHU/KgLDASrT8=了這些指標相對于上一級指標的重要程度,對于“成績—水平”考試,難度指標比較重要,對權重的具體確定采用專家征詢的方法。
3.2.1構造評判矩陣
本文用專家征詢法完成評判矩陣的構造,記第k位專家的aij值為a(k)ij,求n位專家對指標i、j的標度a(1)ij,a(2)ij,…,a(n)ij的幾何平均值作為評判矩陣的標度,即aij=n∏nk=1a(k)ij,得到評判矩陣R=a11…a1n
an1…ann。
本文經專家征詢各指標重要性后經幾何平均得到評判矩陣為:
R=PDVR
11.192.711.41
0.8412.711.19
0.370.3710.45
0.710.842.211
3.2.2求權向量
計算評判矩陣R中每行元素的幾何平均作為該行指標對應的權重W′i,再對W′i作歸一化處理,則Wi=W′i∑W′i,所求各指標的權重為W=(W1,W2,…,Wn)。
評判矩陣R中各行元素的幾何平均W′i=(1.46,1.28,0.50,1.07),對其歸一化處理得各指標的權重為W=(0.34,0.30,0.12,0.25)。
3.2.3一致性檢驗
對求得的權重向量使用公式:CR=CIRI進行一致性檢驗,RI為R的平均一致性指標,CI為R的一般一致性指標,CI=1n-1(λmax-n),λmax為R的最大特征值,λmax=∑ni=1(RW)inWi,n為R的階數[9]。
當CR<0.1時,就認為評判矩陣R具有滿意的一致性,即各指標的權重分配合理。
對權重向量為W進行一致性檢驗,計算得λmax=4.0032,CI=0.0010,n=4時RI=0.9,一致性比率CR=0.0012<0.1,據此知評判矩陣R具體滿意的一致性,即得難度P、區分度D、效度V和信度R的權系數。
3.3確定隸屬函數
本文對評判試卷質量的4個指標根據表2所示的量級[1011]規定給出如下隸屬函數[12]。
3.4試卷質量綜合評價
對試卷質量進行綜合評價時,利用綜合評分公式:
S(X)=0.34μP+0.3μD+0.12μV+0.25μR
把S(X)命名為試卷質量綜合評分函數,基于“高等數學”課程考試試卷四度代入對應隸屬函數計算得:μP=00441,μD=0.3938,μV=0.2082,μR=0.6899,代入綜合評分函數得S(X)=0.63。
顯然,根據試卷綜合評分可知:該試卷質量較低,其中試卷難度P=0.5726、區分度D=0.3164、效度V=0.206、信度R=0.541,對照表2,此套試卷從難度、區分度、效度和信度分別應劃入差、尚可、差、良好檔次,故該試卷綜合評分尚合理。
為驗證試卷質量綜合評分函數,現進行試驗,結果見表3。
根據表3可知,當試卷難度、區分度、效度、信度都好,試卷質量綜合評分就高;當4個指標都不好,則試卷質量綜合評分就低;當難度、區分度優秀,而效度、信度為差,則試卷質量綜合評分還行,這與“成績—水平”考試難度指標比較重要相吻合。
結語
根據影響試卷質量的難度、區分度、效度和信度,利用模糊數學綜合評價方法構建了試卷質量綜合評分函數,由此將試卷質量得分通過0~1之間的分值進行量化,得分越高即試卷越好。由此,考試成績作為評判教學效果的客觀性越強、可信度越高。試卷質量綜合評分的高低,為今后編制試題和檢驗教師教學、學生學習效果都提供了依據和方向。
參考文獻:
[1]任艷玲,朱明放.基于統計軟件SPSS的學生試卷分析方法[J].重慶工學院學報(自然科學版),2007(04):9598.
[2]吳承禎,何麗華,林立群,等.試卷質量分析方法及其應用[J].中國林業教育,2008(03):2630.
[3]董喆.利用統計軟件SPSS進行試卷質量分析[J].中國科技信息,2009(15):100102.
[4]楊代慶,李晟,梁典.幾種利用SPSS對試卷進行分析的方法[J].貴州教育學院學報(自然科學),2005(04):7578.
[5]趙珂.試卷質量指標分析[J].新疆教育學院學報,2001(04):134136.
[6]李敬明,阮素梅,劉奎戶.基于改進模糊綜合評價法的小微企業金融風險分析模型研究[J].運籌與管理,2015,24(06):217224.
[7]王靜.基于模糊評價模型的教學評價系統的設計與實現[J].計算機與數字工程,2016,44(09):17371742+1751.
[8]黃正陽,陳鑫.數學模型之試卷綜合評價模型[J].數學學習與研究,2018(03):142.
[9]呂洪芹.基于模糊綜合評判方法的交通運輸部救助飛行隊安全運行評估研究[J].中國水運,2018(02):3436.
[10]張雅波,李媛媛.試卷質量的分析評價模型[J].職業教育研究,2008(05):5152.
[11]萬玉成,嚴斌輝,王金德.基于屬性數學模型的試卷質量綜合評價方法[J].大學數學,2009,25(03):150156.
[12]陳修素.多指標分析在綜合評價試卷質量中的應用[J].工科數學,2000(02):1923.
項目基金:2021年滇西應用技術大學校級教學質量工程項目“基于試卷質量‘四度’分析的綜合評價模型構建與機制研究”(編號:21JG06)
作者簡介:寸宇瀟(1992—),女,漢族,云南保山人,碩士,講師,研究方向:教育評價。