數學模型之試卷質量綜合評價研究

2024-09-11 00:00:00寸宇瀟

科技風 2024年25期

摘要：對試卷質量綜合評分，即實現試卷質量的定量分析?；凇案叩葦祵W”課程期末考試成績，首先，利用χ2擬合優度檢驗法判斷考試成績是否達到服從正態分布的基本要求；其次，分析計算試卷的難度、區分度、效度和信度；最后，將這四個指標作為影響試卷質量的關鍵因素，利用模糊數學綜合評價方法構建試卷質量綜合評分函數。

關鍵詞：試卷質量；難度；區分度；效度；信度；模糊綜合評價

1概述

當前，學校普遍以教學為中心和重心，隨著教學改革的深入發展，對教學評價的要求越來越客觀，對教學效果的分析越來越重視，顯然，考試是教育教學評價的最有效手段之一。而考試成績能否有效地體現教育教學質量的關鍵在于試題的命制，即試卷的質量。綜合評價試卷質量，對提高教育教學質量、分析教學效果、分析學生學習效果、提升教學測評工作都具有重要意義。［1］

本文基于2022—2023學年第一學期“高等數學”課程120名學生的期末考試成績，綜合評判分析高等數學試卷質量得分。首先，利用χ2擬合優度檢驗法判斷考試成績是否服從正態分布；其次，對試卷的難度、區分度、效度和信度進行計算分析；最后，將這四個指標作為影響試卷質量的關鍵因素，利用模糊數學綜合評價方法構建試卷質量綜合評分函數。

2試卷質量分析

2.1考試成績正態性檢驗

根據統計資料及統計理論可知，符合教學規律的任意考試或測驗，其成績都應呈現或接近正態分布，否則就認為試卷的試題命制不合理。

檢驗考試成績呈正態性分布的方法眾多，本文運用χ2擬合優度檢驗法利用SPSS軟件判別考試成績是否服從正態分布。

具體方法：在SPSS中單擊Analyze→NonparametricTests→LegacyDialogs→Chisquare，彈出對話框選擇Total字段進入Listoftestvariables，在ChisquareTest中利用自定義比例操作進行檢驗，得到χ2=60.7，p值=0.011，故這120名學生考試成績服從正態分布。

2.2試卷的評價指標及其量化

考試試卷由判斷、單選、填空、計算、解答等五種題型共29題構成，其中，判斷、單選為客觀題，填空、計算、解答為主觀題。試卷題型分值分布見表1。

2.2.1難度P

難度主要反映試卷中考試試題的難易程度［2］。它是考試試題對學生知識技能適配程度高低的指標。顯然，試題成績越高則該試題難度越小，成績越低則該試題難度越大。

客觀性試題難度為：

Pi=1－NiN

其中，Ni為第i題答對人數，N為考生總數，Pi為第i題的難度系數。

主觀性試題難度為：

Pi=1－XiXi

其中，Xi為第i題的平均分，Xi為第i題的滿分，Pi為第i題的難度系數。

試卷平均難度為：

P=1X∑Ti=1XiPi

其中，Xi為第i題的滿分，X為試卷滿分，Pi為第i題的難度系數，T為試卷總題數。

計算得“高等數學”課程考試試卷平均難度P=0.5726。

2.2.2區分度D

區分度主要反映試卷中試題對不同水平考生的區分力，區分度應該使得水平高的學生得高分、水平低的考生得低分，區分度又稱為鑒別力。

試題區分度求解方法眾多［3］，在此介紹操作簡便易求解的相關分析方法。對客觀性試題，采用斯皮爾曼（Spearman）等級相關分析，將總分與各試題間的相關系數作為試題區分度；對主觀性試題，將其看作非等間距測度的連續變量，在樣本數大于30基礎上，采用皮爾遜（Pearson）相關分析，將總分與各試題間的積差相關系數作為試題區分度。

具體的方法：對客觀題，在SPSS中單擊Analyze→Correlate，在BivariateCorrelations對話框中選擇各客觀題和總分等字段進入Variables，選擇Spearman，即可得客觀題的區分度。主觀題的區分度求解同上，在BivariateCorrelations對話框中選擇各主觀題和總分等字段進入Variables，選擇Pearson，即可得主觀題的區分度。

試卷平均區分度為：

D=1X∑Ti=1XiDi

其中，Xi為第i題的滿分，X為試卷滿分，Di為第i題區分度，T為試卷試題總數。

計算得“高等數學”課程考試試卷平均區分度D=0.3164。

2.2.3效度V

效度主要反映試卷測驗結果的有效性，即測量學生實際學習水平的有效程度，效度一定程度上反映了考試中系統誤差的大小。經典且被公認的效度主要有內容效度、結構效度和效標關聯效度，具體使用的效度類型依據測驗目的決定。效標關聯效度（criterionrelatedvalidity）［4］是以考試成績與效標的相關系數作為考試成績的效度。在此采用效標關聯效度，將期中成績作為校標，利用積差相關法（Pearson法）求得試卷效度。

具體方法：在SPSS中單擊Analyze→Correlate→Bivariate，選擇總分和期中成績進入Items，在CorrelationCoefficients中選擇Pearson，得試卷效度V=0.206。

2.2.4信度R

信度主要反映試卷的穩定性和可靠性，也是衡量隨機誤差的大小，即評判測試結果是否真實、客觀反映了學生的實際學習水平。信度越高測試結果越可信，信度太低則無法對學生學習水平做出公平合理的評價。信度求解方法眾多，試卷信度求解一般采用同質性信度，在此采用克朗巴赫（Cronbach）方法［5］。

試卷信度為：

R=TT－11－∑S2iS2

其中，S為試卷標準差，Si為第i題得分的標準差，T為試卷的試題總數，R代表試卷的信度。

具體方法：在SPSS中單擊Analyze→Scale→ReliabilityAnalysis，選擇全體題號進入Items，在Model選擇Alpha（Cronbachα系數），得試卷信度R=0.541。

3試卷質量模糊綜合評價［68］

模糊綜合評價法基于模糊數學，對受到多種因素制約的事物做出總體評價。該評價法利用模糊數學的隸屬度理論把定性評價轉化為定量評價，具有結果清晰、系統性強的特點，能較好解決模糊的、難以量化的問題，適合各種非確定性問題的解決。

模糊綜合評價首先確定被評價對象的因素（指標）集和評價（等級）集；再分別確定各因素的權重及它們的隸屬度向量，獲得模糊評判矩陣；接著把模糊評判矩陣與因素的權向量進行模糊運算并作歸一化處理，得到模糊綜合評價結果。

3.1確定評價指標

本文選取試卷難度、區分度、效度、信度等4個評價指標作為評價試卷綜合質量的因素集。

3.2確定指標權重

各指標的權重體現了這些指標相對于上一級指標的重要程度，對于“成績—水平”考試，難度指標比較重要，對權重的具體確定采用專家征詢的方法。

3.2.1構造評判矩陣

本文用專家征詢法完成評判矩陣的構造，記第k位專家的aij值為a（k）ij，求n位專家對指標i、j的標度a（1）ij，a（2）ij，…，a（n）ij的幾何平均值作為評判矩陣的標度，即aij=n∏nk=1a（k）ij，得到評判矩陣R=a11…a1n

an1…ann。

本文經專家征詢各指標重要性后經幾何平均得到評判矩陣為：

R=PDVR

11.192.711.41

0.8412.711.19

0.370.3710.45

0.710.842.211

3.2.2求權向量

計算評判矩陣R中每行元素的幾何平均作為該行指標對應的權重W′i，再對W′i作歸一化處理，則Wi=W′i∑W′i，所求各指標的權重為W=（W1，W2，…，Wn）。

評判矩陣R中各行元素的幾何平均W′i=（1.46，1.28，0.50，1.07），對其歸一化處理得各指標的權重為W=（0.34，0.30，0.12，0.25）。

3.2.3一致性檢驗

對求得的權重向量使用公式：CR=CIRI進行一致性檢驗，RI為R的平均一致性指標，CI為R的一般一致性指標，CI=1n－1（λmax－n），λmax為R的最大特征值，λmax=∑ni=1（RW）inWi，n為R的階數［9］。

當CR<0.1時，就認為評判矩陣R具有滿意的一致性，即各指標的權重分配合理。

對權重向量為W進行一致性檢驗，計算得λmax=4.0032，CI=0.0010，n=4時RI=0.9，一致性比率CR=0.0012<0.1，據此知評判矩陣R具體滿意的一致性，即得難度P、區分度D、效度V和信度R的權系數。

3.3確定隸屬函數

本文對評判試卷質量的4個指標根據表2所示的量級［1011］規定給出如下隸屬函數［12］。

3.4試卷質量綜合評價

對試卷質量進行綜合評價時，利用綜合評分公式：

S（X）=0.34μP+0.3μD+0.12μV+0.25μR

把S（X）命名為試卷質量綜合評分函數，基于“高等數學”課程考試試卷四度代入對應隸屬函數計算得：μP=00441，μD=0.3938，μV=0.2082，μR=0.6899，代入綜合評分函數得S（X）=0.63。

顯然，根據試卷綜合評分可知：該試卷質量較低，其中試卷難度P=0.5726、區分度D=0.3164、效度V=0.206、信度R=0.541，對照表2，此套試卷從難度、區分度、效度和信度分別應劃入差、尚可、差、良好檔次，故該試卷綜合評分尚合理。

為驗證試卷質量綜合評分函數，現進行試驗，結果見表3。

根據表3可知，當試卷難度、區分度、效度、信度都好，試卷質量綜合評分就高；當4個指標都不好，則試卷質量綜合評分就低；當難度、區分度優秀，而效度、信度為差，則試卷質量綜合評分還行，這與“成績—水平”考試難度指標比較重要相吻合。

結語

根據影響試卷質量的難度、區分度、效度和信度，利用模糊數學綜合評價方法構建了試卷質量綜合評分函數，由此將試卷質量得分通過0～1之間的分值進行量化，得分越高即試卷越好。由此，考試成績作為評判教學效果的客觀性越強、可信度越高。試卷質量綜合評分的高低，為今后編制試題和檢驗教師教學、學生學習效果都提供了依據和方向。

參考文獻：

［1］任艷玲，朱明放.基于統計軟件SPSS的學生試卷分析方法［J］.重慶工學院學報（自然科學版），2007（04）：9598.

［2］吳承禎，何麗華，林立群，等.試卷質量分析方法及其應用［J］.中國林業教育，2008（03）：2630.

［3］董喆.利用統計軟件SPSS進行試卷質量分析［J］.中國科技信息，2009（15）：100102.

［4］楊代慶，李晟，梁典.幾種利用SPSS對試卷進行分析的方法［J］.貴州教育學院學報（自然科學），2005（04）：7578.

［5］趙珂.試卷質量指標分析［J］.新疆教育學院學報，2001（04）：134136.

［6］李敬明，阮素梅，劉奎戶.基于改進模糊綜合評價法的小微企業金融風險分析模型研究［J］.運籌與管理，2015，24（06）：217224.

［7］王靜.基于模糊評價模型的教學評價系統的設計與實現［J］.計算機與數字工程，2016，44（09）：17371742+1751.

［8］黃正陽，陳鑫.數學模型之試卷綜合評價模型［J］.數學學習與研究，2018（03）：142.

［9］呂洪芹.基于模糊綜合評判方法的交通運輸部救助飛行隊安全運行評估研究［J］.中國水運，2018（02）：3436.

［10］張雅波，李媛媛.試卷質量的分析評價模型［J］.職業教育研究，2008（05）：5152.

［11］萬玉成，嚴斌輝，王金德.基于屬性數學模型的試卷質量綜合評價方法［J］.大學數學，2009，25（03）：150156.

［12］陳修素.多指標分析在綜合評價試卷質量中的應用［J］.工科數學，2000（02）：1923.

項目基金：2021年滇西應用技術大學校級教學質量工程項目“基于試卷質量‘四度’分析的綜合評價模型構建與機制研究”（編號：21JG06）

作者簡介：寸宇瀟（1992—），女，漢族，云南保山人，碩士，講師，研究方向：教育評價。

科技風2024年25期

科技風的其它文章: 跨世代嬰幼兒照護協同機制構建研究; 大學生學習投入影響因素及其提升策略; 高職護理專業學生人文素養、職業精神與職業技能融合培養路徑研究; 基于OBE教育理念的地方本科院校應用型人才培養體系構建的研究與實踐; 地方高校學生信息素養教育的現狀及提升對策探究; 翻轉課堂聯合案例學習在感染性疾病科住院醫師規范化培訓中的價值