產(chǎn)出導(dǎo)向視角下課程答卷分析與試卷質(zhì)量評(píng)價(jià)

2023-04-05 06:22:12胡立坤李修華潘瑩耿葵花

高教學(xué)刊 2023年10期

胡立坤，李修華，潘瑩，耿葵花

(1.廣西大學(xué) 電氣工程學(xué)院，南寧 530004；2.廣西大學(xué) 經(jīng)濟(jì)學(xué)院，南寧 530004；3.廣西大學(xué) 教務(wù)處，南寧 530004)

基于OBE 理念開展工程專業(yè)教學(xué)逐漸深入人心，評(píng)價(jià)教育教學(xué)產(chǎn)出由形成性評(píng)價(jià)和終結(jié)性評(píng)價(jià)兩大部分組成[1]。對(duì)于理論課程，終結(jié)性評(píng)價(jià)采用試卷仍然是一種較公平、公正的方式，但要注意，考試目的是為了檢驗(yàn)學(xué)生的學(xué)習(xí)產(chǎn)出，衡量課程目標(biāo)的達(dá)成情況，顯然試卷的質(zhì)量對(duì)判斷課程目標(biāo)的達(dá)成起著重要的作用。

對(duì)答卷開展有效分析有利于通過學(xué)生學(xué)習(xí)結(jié)果促進(jìn)教師對(duì)之前教育教學(xué)活動(dòng)及其評(píng)價(jià)效度的反思[2]，也是評(píng)價(jià)試卷質(zhì)量的有效途徑。而原來基于題型和內(nèi)容的試卷評(píng)價(jià)辦法實(shí)際上流于形式、深度不夠[3]，同時(shí)由于教師理解教育測(cè)量和評(píng)價(jià)方法及相關(guān)數(shù)據(jù)的含義不夠準(zhǔn)確，使得試卷評(píng)價(jià)有隨意性傾向[4]，導(dǎo)致分析結(jié)果并不能有效地反映學(xué)生掌握知識(shí)和能力培養(yǎng)的程度，這對(duì)提高面向產(chǎn)出試題編制水平的作用尚欠。教育測(cè)量領(lǐng)域的3種理論——經(jīng)典測(cè)驗(yàn)理論(CTT，Classical Test Theory)、概化理論(GT，Generalizability Theory)、項(xiàng)目反應(yīng)理論(IRT，ItemResponseTheory)，各有優(yōu)點(diǎn)[5]。這些測(cè)量理論在對(duì)試題、試卷分析時(shí)通常要用到基于統(tǒng)計(jì)的分析方法[6-10]和層次分析[11-12]。

對(duì)于高校的一線教師來說，CTT 更容易被接受。隨著OBE 理念在工程類專業(yè)的全面落實(shí)，按課程目標(biāo)命題可以有效地考查學(xué)生的能力，同時(shí)也推進(jìn)課程有效增加“兩性一度”[13]，所以針對(duì)試卷和答卷情況開展課程目標(biāo)達(dá)成評(píng)價(jià)才是發(fā)揮試卷分析作用的應(yīng)然選擇。基于課程目標(biāo)實(shí)際上是以能力為導(dǎo)向的命題形式，將課程目標(biāo)當(dāng)成項(xiàng)目，由此考察學(xué)生在各課程目標(biāo)上的反應(yīng)，具有多維項(xiàng)目特點(diǎn)。為此，本文在規(guī)范考試成績描述基礎(chǔ)上，對(duì)課程目標(biāo)的考試結(jié)果進(jìn)行目標(biāo)達(dá)成情況評(píng)價(jià)，并考慮注意系數(shù)模型[6]和加權(quán)模型[14]，提出結(jié)合課程目標(biāo)視在達(dá)成情況和考試成績正態(tài)性評(píng)估的“四度”加權(quán)的試卷質(zhì)量綜合指標(biāo)模型。

一基于課程目標(biāo)的考試成績統(tǒng)計(jì)性描述與分布性描述

為方便表述，假設(shè)考試樣本數(shù)為N，考試支撐的目標(biāo)數(shù)為n，各目標(biāo)的應(yīng)得分分別為gi(i=1，2，…，n)且，各目標(biāo)期望得分均設(shè)置為應(yīng)得分的60%。卷面實(shí)得分采用常規(guī)分段方式。另設(shè)目標(biāo)實(shí)際得分高于期望得分人數(shù)為di(i=1，2，…，n)，卷面實(shí)際得分高于期望得分人數(shù)d。課程各目標(biāo)得分或?qū)φ麄€(gè)試卷成績的描述有統(tǒng)計(jì)性與分布性之分。

對(duì)課程各目標(biāo)得分或?qū)φ麄€(gè)試卷成績通過統(tǒng)計(jì)性描述宏觀上掌握課程目標(biāo)得分和卷面總得分的統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)性描述包括樣本均數(shù)M、樣本標(biāo)準(zhǔn)差S、均值估計(jì)標(biāo)準(zhǔn)誤、樣本眾數(shù)Z 及人數(shù)R 等。對(duì)于課程各目標(biāo)得分還有各目標(biāo)視在達(dá)成度(Ai=di/N×100%)；對(duì)整個(gè)試卷成績有時(shí)還需要統(tǒng)計(jì)各分?jǐn)?shù)段的比例及試卷視在達(dá)成度(A=d/N×100%)等。對(duì)于一般的考試，平均值應(yīng)在75 分左右[6]。標(biāo)準(zhǔn)差可以看出考試的差異性，此值越大，表明課程各目標(biāo)得分或整個(gè)試卷成績差異性越大，一般標(biāo)準(zhǔn)差在10 分左右可接受[6]。均值估計(jì)標(biāo)準(zhǔn)誤Se是多個(gè)樣本平均數(shù)的標(biāo)準(zhǔn)差，描述均數(shù)抽樣分布的離散程度及衡量均數(shù)抽樣誤差大小的尺度，反映了樣本均數(shù)之間的差異，實(shí)際上是均值估計(jì)區(qū)間M±Setα/2(n-1)的重要參數(shù)，該值越小，表明樣本均數(shù)與總體均值越接近。各目標(biāo)視在達(dá)成度和試卷視在達(dá)成度可以用雷達(dá)圖形象地展示出來，直觀地比較各目標(biāo)達(dá)成情況。

對(duì)課程各目標(biāo)得分或?qū)φ麄€(gè)試卷成績通過分布性描述掌握各課程目標(biāo)得分和卷面總得分的分布性，分布性描述包括絕對(duì)差異量數(shù)(包括最低分、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)、最高分、極差)、相對(duì)差異量數(shù)(采用差異系數(shù)CV=S/M 表征)。對(duì)每個(gè)目標(biāo)及總成績可以用S線[6]對(duì)學(xué)生的成績進(jìn)行定性分析，S 線靠右表明分?jǐn)?shù)偏高；S 線中間近似水平部分較長表明兩極分化嚴(yán)重；S 線基本垂直表明全班水平不相上下。可以將絕對(duì)差異量數(shù)統(tǒng)一表示在箱線圖中，比較各課程目標(biāo)和整個(gè)試卷成績的宏觀分散性，由此看出由分位數(shù)界定的集中情況。極差衡量了樣本均數(shù)的代表性情況，極差越大，樣本均數(shù)的代表性越小，反之越大。不同班級(jí)或不同目標(biāo)成績的樣本均數(shù)與樣本標(biāo)準(zhǔn)差一般均不同，樣本均數(shù)大或小，標(biāo)準(zhǔn)差樣本可能大、可能小，所以采用標(biāo)準(zhǔn)差不能比較不同班級(jí)的分布性。這時(shí)可以采用差異系數(shù)，這種相對(duì)差異量數(shù)越大，表明分散性越大，反之越小。依據(jù)卷面總得分的常規(guī)分段統(tǒng)計(jì)各分?jǐn)?shù)值的頻數(shù)與頻率，采用直方圖顯示分?jǐn)?shù)的波動(dòng)狀態(tài)，直觀地傳遞考試質(zhì)量狀態(tài)信息。由大數(shù)定律可知，當(dāng)樣本數(shù)大到一定程度后，直方圖趨近于一個(gè)正態(tài)分布，由此評(píng)估規(guī)模化統(tǒng)考成績分布的合理性。

二卷面考試成績的分布檢驗(yàn)

通識(shí)類課程成績可能大面積處于高分，呈現(xiàn)嚴(yán)重的負(fù)偏態(tài)[2]，但是工程類專業(yè)課程要求具有高階性、創(chuàng)新性和挑戰(zhàn)度，不可能每位學(xué)生都具有大致相當(dāng)?shù)乃剑髽颖鞠拢荚嚦煽兊姆植继幱谡龖B(tài)分布才合理[6]。因此有必要對(duì)考試成績的正態(tài)分布性進(jìn)行檢驗(yàn)。令試卷成績總體X 符合下面假設(shè)

（一）χ2 正態(tài)性擬合檢驗(yàn)

按卷面實(shí)得分采用常規(guī)分段方式將其分成k 個(gè)區(qū)間，計(jì)算樣本試卷分?jǐn)?shù)在各個(gè)區(qū)間內(nèi)的實(shí)際頻次fi和頻率fi/N，按(Xi-M)/S 標(biāo)準(zhǔn)化后查標(biāo)準(zhǔn)正態(tài)分布表得到各區(qū)間取值的理論概率pi，按Pearson 定理[15]，定義統(tǒng)計(jì)量

當(dāng)N＞50時(shí)，假設(shè)H0為真時(shí)，在未知總體均值與方差情況，該統(tǒng)計(jì)量近似有

這里分了8 個(gè)分?jǐn)?shù)段，k=8，總體均值與方差2 個(gè)參數(shù)均未知，m=2。

一般取顯著水平α=0.05，查χ2分布表，得到(5)=11.07。若由式(2)計(jì)算的χ2值小于(5)，就接受假設(shè)H0，否則不接受H0。

χ2擬合檢驗(yàn)法檢驗(yàn)正態(tài)性時(shí)，犯第二類錯(cuò)誤“H0不真而接收”的概率往往較大，可以進(jìn)一步進(jìn)行偏度與峰度檢驗(yàn)法檢驗(yàn)。

（二）偏度、峰度檢驗(yàn)

基于試卷分?jǐn)?shù)樣本，定義樣本的2、3、4 階中心距分別為B2、B3、B4，進(jìn)一步依隨機(jī)變量的偏度與峰度的矩估計(jì)統(tǒng)計(jì)量，得到樣體偏度與樣本峰度分別為

G1統(tǒng)計(jì)量值為0 表示正態(tài)分布，Q2=Z=M；為負(fù)表示負(fù)偏態(tài)，一般M＜Q2＜Z；為正表示正偏態(tài)，一般Z＜Q2＜M。由于專業(yè)基礎(chǔ)課程和專業(yè)核心課理論抽象性較強(qiáng)，一般應(yīng)是弱正偏態(tài)或弱負(fù)偏態(tài)，若是較嚴(yán)重的負(fù)偏態(tài)，則可能會(huì)有掩蓋學(xué)生客觀存在差異的傾向；而由于專業(yè)選修課往往是延伸課程，所以專業(yè)選修課表現(xiàn)出負(fù)偏態(tài)，也算是正常。

G2統(tǒng)計(jì)量值為0 表示正態(tài)分布；為負(fù)表示分布呈低峰態(tài)或平頂峰，大部分分值在均數(shù)左，尾部薄一些；為正表示分布為尖峰態(tài)，尾部更厚，均數(shù)附近的分?jǐn)?shù)比例大，低分與高分段的數(shù)量也不少，鄰近極端值較多。對(duì)于專業(yè)基礎(chǔ)課程和專業(yè)核心課，一般是弱低峰或平頂峰，而對(duì)于專業(yè)選修課往往是尖峰態(tài)。

當(dāng)N＞100時(shí)，在假設(shè)H0為真時(shí)，這2個(gè)統(tǒng)計(jì)量近似有

進(jìn)一步標(biāo)準(zhǔn)化，有

一般取顯著水平α=0.1，查正態(tài)分布表，得到zα/4=1.96，若由式(8)和式(9)計(jì)算的|U1|和|U2|有一個(gè)大于zα/4，則拒絕假設(shè)H0，否則接受假設(shè)H0。這樣當(dāng)H0為真時(shí)，拒絕的概率是小于顯著水平α的[15]。

三課程目標(biāo)試題分項(xiàng)指標(biāo)與試卷質(zhì)量指標(biāo)

（一）課程目標(biāo)的試題分項(xiàng)指標(biāo)及計(jì)算

為衡量課程目標(biāo)對(duì)應(yīng)試題的指標(biāo)，定義目標(biāo)對(duì)應(yīng)試題整體難度系數(shù)與區(qū)分度。

考慮到針對(duì)某一課程目標(biāo)一般會(huì)出現(xiàn)多個(gè)試題，假設(shè)第i 個(gè)目標(biāo)有l(wèi)i個(gè)試題，平均得分為Mi，則每個(gè)課程目標(biāo)的試題整體難度系數(shù)定義為

式中：(li)/(li-1)是難度校正系數(shù)，采用這樣的校正是基于“題目量多，難度下降”的假設(shè)。當(dāng)然，當(dāng)有多個(gè)試題時(shí)，根據(jù)實(shí)際情況也可以選擇不加難度校正系數(shù)。Pi值越大表示難度越大。對(duì)于工程類專業(yè)課程考試，評(píng)估該指標(biāo)是為了反映學(xué)生在該課程目標(biāo)上的整體水平，所以難度應(yīng)適中，以便測(cè)試真實(shí)水平。綜合各類文獻(xiàn)，針對(duì)一般性考試，難度系數(shù)在(0.2，0.8]區(qū)間比較合適，在(0.4，0.5]區(qū)間上最好。

課程目標(biāo)對(duì)應(yīng)試題整體區(qū)分度指某課程目標(biāo)應(yīng)試題能多大程度上區(qū)分被測(cè)試對(duì)象在該課程目標(biāo)上達(dá)成水平的能力。在進(jìn)行區(qū)分度分析時(shí)，將期評(píng)總分作為學(xué)生的實(shí)際水平。假設(shè)第i 個(gè)課程目標(biāo)分與期評(píng)總分的點(diǎn)對(duì)為(，Y)j，j=1，2，…，N，于是第i 個(gè)課程目標(biāo)對(duì)應(yīng)試題的整體區(qū)分度可以采用Pearson 相關(guān)系數(shù)進(jìn)行計(jì)算，即

該數(shù)越大，說明區(qū)分度越高。綜合各類文獻(xiàn)，區(qū)分度一般要在(0.4，1]區(qū)間。

難度與區(qū)分度之間是有相關(guān)性的[6]。若難度提高了，區(qū)分度往往更好，這表明，難度對(duì)區(qū)分度影響很大，難度的地位要高于區(qū)分度。針對(duì)具體的學(xué)生群體，應(yīng)使難度適中。在設(shè)置針對(duì)某一課程目標(biāo)試題時(shí)應(yīng)采用多題多樣化題型，并對(duì)各個(gè)試題作不同的難度分配，避免使區(qū)分度過低。

對(duì)第i 個(gè)課程目標(biāo)的試題定義質(zhì)量指標(biāo)，實(shí)際上是注意系數(shù)[6]的補(bǔ)數(shù)，即

式中：sgn(·)是符號(hào)函數(shù)，取Di和Pi的極端值，便得知PDi≤1。當(dāng)Pi在(0.2，0.8]之間且Di在(0.4，1]之間時(shí)，表明試題的質(zhì)量是完全可以接受的，PDi值為1；只要Pi或Di沒在上述允許區(qū)間，PDi＜1，越小，表明越需要改善。

（二）試卷質(zhì)量指標(biāo)及計(jì)算

試卷綜合質(zhì)量指標(biāo)含試卷整體難度、試卷整體區(qū)分度、試卷信度、試卷效度。

試卷整體難度與區(qū)分度分別采用各課程目標(biāo)試題整體難度系數(shù)和區(qū)分度依課程目標(biāo)滿分加權(quán)表示，即

試卷信度反映考試的可靠性、一致性，信度高意味著等價(jià)試卷對(duì)任何一個(gè)學(xué)生的多次測(cè)試，得到的結(jié)果均比較穩(wěn)定。對(duì)于依目標(biāo)命題的試卷，各試題實(shí)際上是測(cè)試學(xué)生對(duì)同一知識(shí)或能力達(dá)成情況，各題目之間得分具有較高的正相關(guān)性，所以一般采用內(nèi)部一致性信度。1951 年Cronbach 提出的Cronbach α 系數(shù)[16]就是一種計(jì)算內(nèi)部一致性信度的方法。令樣本中各目標(biāo)得分的方差為，則試卷信度計(jì)算方法為

顯然R 越大，試卷的一致性越高。

試卷的效度是衡量考試有效性或準(zhǔn)確性的指標(biāo)，表明測(cè)試結(jié)果與學(xué)生的實(shí)際能力水平是否一致，是否達(dá)到了測(cè)試目的。其包含了內(nèi)容效度、結(jié)構(gòu)效度和效標(biāo)效度[17]。前兩者在據(jù)OBE 教學(xué)大綱要求按課程目標(biāo)命題情況下對(duì)標(biāo)對(duì)表，是可以得到保證的。而效標(biāo)效度是測(cè)試之后進(jìn)行檢驗(yàn)，為計(jì)算該指標(biāo)，取可靠的效標(biāo)是必要條件。由于OBE 教學(xué)大綱要求的形成性評(píng)價(jià)是有多個(gè)不同的環(huán)節(jié)構(gòu)成，若利用合理手段和工具完全可以保證平時(shí)形成性評(píng)價(jià)能夠客觀地反映學(xué)生的實(shí)際能力水平，所以這里采用平時(shí)成績作為效標(biāo)。故，可利用Pearson 相關(guān)系數(shù)評(píng)價(jià)試卷效度。

假設(shè)樣本卷面總分與對(duì)應(yīng)的平時(shí)成績的點(diǎn)對(duì)為(Yj，Zj)，j=1，2，…，N，再令平時(shí)成績的樣本均數(shù)為L，則試卷效度為

顯然V 越大，試卷的有效性越高。

根據(jù)已有文獻(xiàn)[3-4，6-10，14，18]中關(guān)于試卷綜合質(zhì)量指標(biāo)評(píng)判規(guī)則的一些討論，考慮特定的學(xué)生群體，構(gòu)造一個(gè)評(píng)判量表，見表1。

表1 難度、區(qū)分度、信度、效度4 個(gè)指標(biāo)評(píng)判表

對(duì)表1 解釋說明幾點(diǎn)。

1)由于難度與試卷的質(zhì)量非單調(diào)關(guān)系，所以難度P適應(yīng)值列按已有研究給出了映射；區(qū)分度D、信度R 與效度V 的大小與試卷的質(zhì)量是單調(diào)的關(guān)系，所以適應(yīng)值與量化標(biāo)準(zhǔn)同是增加的規(guī)律。

2)由于難度的地位要高于區(qū)分度[10]，有一定難度才會(huì)有一定區(qū)分度，所以試卷整體難度不宜偏低，一般難度系數(shù)應(yīng)在(0.2，0.8]之間，(0.4，0.5]之間難度系數(shù)含義解釋為適中，認(rèn)為是最好的難度。當(dāng)然若是選拔性考試，試卷整體難度還應(yīng)高一些。

3)試卷整體區(qū)分度大于0.4 是比較好的，當(dāng)然越高越好。

4)由于信度的地位要高于效度[6]，估計(jì)效度只有在信度高的情況下才有意義，所以試卷整體信度大于0.6可完全接受的。不過，信度高，效度也不一定高[10]。

5)由于考慮到試卷的效度根本上還要看內(nèi)容與結(jié)構(gòu)效度，所以試卷整體效度大于0.4 一般可以接受。效度高的考試，其信度一定高[10]。另外，只有保證了一定的區(qū)分度，效度指標(biāo)才可能較好。

6)難度、區(qū)分度、信度、效度4 個(gè)指標(biāo)評(píng)判標(biāo)準(zhǔn)并不是絕對(duì)的，應(yīng)根據(jù)不同專業(yè)定位、課程所針對(duì)學(xué)生群體對(duì)指標(biāo)評(píng)判標(biāo)準(zhǔn)進(jìn)行微調(diào)，以使評(píng)判結(jié)果更加有效。

四考慮課程目標(biāo)達(dá)成情況的試卷綜合質(zhì)量指標(biāo)模型

試卷綜合質(zhì)量與試卷質(zhì)量指標(biāo)、卷面考試成績的分布性及課程目標(biāo)達(dá)成情況均密切相關(guān)。

從試卷質(zhì)量指標(biāo)分析，可知“四度”指標(biāo)的重要程度按“難度—區(qū)分度—信度—效度”遞減，經(jīng)調(diào)研并采用古林法得到“四度”權(quán)重分別為0.447、0.249、0.166、0.138，得到試卷綜合質(zhì)量指標(biāo)初步模型[14]

式中：Pf、Df、Rf、Vf是表1 中的適應(yīng)值。

但這個(gè)模型沒有考慮“四度”推薦范圍，綜合考慮“四度”的注意系數(shù)[6]，為使未達(dá)到推薦范圍的“四度”指標(biāo)按比例下調(diào)，將該模型修改成式(18)。

進(jìn)而，將考試結(jié)果的正態(tài)性也融入到模型中，根據(jù)實(shí)際情況，較好的偏度范圍設(shè)置在[-0.1，0.1]之間[2]，較好的峰度設(shè)置在[-0.6，0.6]之間，若在此區(qū)間，對(duì)式(17)不作修正，修正規(guī)律采用指數(shù)規(guī)律衰減。若偏度和峰度分別為G1、G2，則修正系數(shù)分別為

按式(16)和式(17)兩者的平均修正，得正態(tài)性綜合修正系數(shù)

將該修正系數(shù)與式(18)相乘便得到試卷綜合質(zhì)量指標(biāo)的修正模型IS2。

上述純粹從統(tǒng)計(jì)學(xué)的角度建立了試卷綜合質(zhì)量指標(biāo)模型，但是存在通過考試并未沒有達(dá)成課程目標(biāo)的情況，即使此時(shí)計(jì)算的質(zhì)量指標(biāo)接近1，也不能說明試卷質(zhì)量就非常好。對(duì)課程的每個(gè)目標(biāo)均設(shè)置了期望達(dá)成度，表征了學(xué)生中占多少比例的學(xué)生能夠達(dá)到目標(biāo)的期望比率值。除去教學(xué)水平的主觀因素，達(dá)成度過低或遠(yuǎn)超過期望值，也反映試題質(zhì)量不高。因此，將課程目標(biāo)的達(dá)成度融入到試卷綜合質(zhì)量指標(biāo)模型是合理的。為此，假設(shè)各目標(biāo)期望達(dá)成度為Ei(i=1，2，…，n)，試卷期望達(dá)成度為E，各目標(biāo)和試卷視在達(dá)成度允許誤差分別為±15%、±20%，考慮離期望達(dá)成度越遠(yuǎn)，試卷質(zhì)量越差，所以在超出誤差范圍時(shí)仍按指數(shù)規(guī)律衰減修正，于是各目標(biāo)與試卷視在達(dá)成度修正系數(shù)fi、fg分別為

目標(biāo)視在達(dá)成度修正系數(shù)按下式求取

于是將該達(dá)成度修正系數(shù)與式(18)、式(21)相乘得到試卷綜合質(zhì)量指標(biāo)的再修模型IS3。依IS3值判定試卷質(zhì)量：[0.8，1]為好；[0.6，0.8)為合格；[0.45，0.6)欠佳；[0，0.45)為不合格。

五一次實(shí)際考試的算例

以基礎(chǔ)導(dǎo)學(xué)與初步實(shí)踐課程為例展示分析結(jié)果。考試支撐課程目標(biāo)6個(gè)，用Oi(i=1，2，…6)表示，得分分別為8、23、35、28、4、2。從462 人中抽取98 人進(jìn)行分析。

（一）答卷分析

表2 給出課程各目標(biāo)得分和整個(gè)試卷成績的樣本統(tǒng)計(jì)數(shù)據(jù)。圖1 為各目標(biāo)視在達(dá)成度和試卷視在達(dá)成度雷達(dá)圖。圖2 為分?jǐn)?shù)分段的頻數(shù)與頻率及積累值直方圖。圖3 為課程成績的S線，豎直虛線是期望分?jǐn)?shù)，這里只給出異常的目標(biāo)2 與總成績S 曲線。圖4 為各目標(biāo)分?jǐn)?shù)和卷面總分?jǐn)?shù)的箱線圖。

圖2 卷面總分的直方圖

圖3 異常的目標(biāo)2 與卷面總分S 曲線

圖4 各目標(biāo)與卷面總分箱線圖

表2 課程各目標(biāo)得分和整個(gè)試卷成績樣本統(tǒng)計(jì)數(shù)據(jù)

圖1 各目標(biāo)和試卷視在達(dá)成度雷達(dá)圖

由此，可得：

1)卷面總成績均值估計(jì)標(biāo)準(zhǔn)誤為1.39，說明樣本平均分73.20 已比較接近總體均值，并且也接近一般的總體均值75，但樣本標(biāo)準(zhǔn)差相較一般的總體標(biāo)準(zhǔn)差10 略顯大了，說明整個(gè)試卷成績差異性稍大；

2)從各目標(biāo)成績差異系數(shù)可以看出，目標(biāo)2 和目標(biāo)4 的差異系數(shù)最大，表明成績的分散性較大，這一點(diǎn)從箱線圖也可以看出來；

3)從S 曲線圖可以看出，目標(biāo)2 中間有較長的水平段，所以存在兩極分化，但卷面成績分布并未呈現(xiàn)這種現(xiàn)象；

4)從箱線圖中可以看出，目標(biāo)5、目標(biāo)6 的極差雖大，但這2 個(gè)目標(biāo)的滿分分值很小，并不能給出有用的信息；但目標(biāo)2、3、4 的極差比較大，說明這些目標(biāo)的平均成績不具有很好的代表性，這一點(diǎn)從眾數(shù)的人數(shù)也可以大致說明這一點(diǎn)；

5)從課程考試得到各目標(biāo)和試卷視在達(dá)成情況，只有目標(biāo)1、5 超預(yù)期，目標(biāo)2 最差，試卷視在達(dá)成情況也低于預(yù)期；

6)由直方圖可以看出，以70～89 之間為最多，成績分布也算基本合理。

假設(shè)試卷成績的總體X 符合假設(shè)H0：X～N(M，S2)，M 與S 見表2。經(jīng)χ2檢驗(yàn)應(yīng)接受假設(shè)H0，但此檢驗(yàn)可能存在“H0為真被接受”的概率較大，故再次對(duì)偏度與峰度進(jìn)行檢驗(yàn)。經(jīng)偏度與峰度檢驗(yàn)應(yīng)接受假設(shè)H0。

（二）目標(biāo)試題質(zhì)量與試卷質(zhì)量分析

各目標(biāo)試題與試卷的質(zhì)量指標(biāo)值見表3、表4。從中可以看出：

表3 各目標(biāo)試題的質(zhì)量指標(biāo)值

表4 各目標(biāo)試卷的質(zhì)量指標(biāo)值

1)6 個(gè)目標(biāo)的難度均不高，按表1 判斷，均沒達(dá)到最佳狀態(tài)，目標(biāo)5 和目標(biāo)6 的分值占比較小，難度很低；

2)6 個(gè)目標(biāo)的區(qū)分度中，目標(biāo)1、5、6 區(qū)分度均小于0.2，區(qū)分度差；而目標(biāo)2、3、4 區(qū)分度好，這也基本符合考試重點(diǎn)支撐的課程目標(biāo)要求；

3)6 個(gè)目標(biāo)中目標(biāo)1、5、6 試題質(zhì)量需要改進(jìn)；

4)本次考試的信度偏低，未達(dá)到0.6，而效度也未達(dá)到0.4，考試反映出來的結(jié)果與平時(shí)表現(xiàn)相關(guān)性較低。所以有必要依教學(xué)大綱要求提高命題質(zhì)量；

5)隨著評(píng)價(jià)試卷綜合質(zhì)量指標(biāo)考慮的因素增多，該指標(biāo)是下降的，符合基本認(rèn)知。在全面考慮“四度”適應(yīng)值、推薦范圍、正態(tài)分布性和達(dá)成度后與只考慮“四度”適應(yīng)值，試卷質(zhì)量下降了一個(gè)檔次。結(jié)合本次考試中出現(xiàn)的提前交卷、卷面成績與平時(shí)表現(xiàn)成績差別達(dá)到“異常”等現(xiàn)象，也反映出試卷確實(shí)欠佳，需要改進(jìn)。

六結(jié)束語

終結(jié)性評(píng)價(jià)對(duì)學(xué)生意味著公平、公正，對(duì)教師體現(xiàn)在對(duì)課程教學(xué)的持續(xù)改進(jìn)和命題質(zhì)量的提升，所以要重視終結(jié)性考試評(píng)價(jià)。按OBE 教學(xué)大綱中課程目標(biāo)所命試題是否能夠有效地起到檢驗(yàn)總結(jié)性考試支撐的課程目標(biāo)達(dá)成，需要從學(xué)生考試的數(shù)據(jù)中挖掘出對(duì)改進(jìn)有用的信息。本文詳細(xì)闡述從學(xué)生考試的數(shù)據(jù)中挖掘信息的方法，并通過算例表明，基于課程目標(biāo)的答卷質(zhì)量評(píng)價(jià)方法對(duì)答卷質(zhì)量能夠進(jìn)行全面地評(píng)價(jià)，而試卷綜合質(zhì)量的評(píng)價(jià)方法使得到的試卷綜合質(zhì)量評(píng)價(jià)與實(shí)際更接近，能夠達(dá)到正確反映試卷質(zhì)量的目的。將基于課程目標(biāo)的答卷質(zhì)量和試卷綜合質(zhì)量的評(píng)價(jià)方法進(jìn)一步程序化便可以實(shí)現(xiàn)評(píng)價(jià)數(shù)據(jù)計(jì)算自動(dòng)化，可以減輕教師計(jì)算負(fù)擔(dān)而專注于教學(xué)效果分析本身，從而給出較全面的教學(xué)建議與持續(xù)改進(jìn)措施。

高教學(xué)刊2023年10期

高教學(xué)刊的其它文章: 司法行政警察類專業(yè)思政課教學(xué)改革調(diào)研
——以湖南司法警官職業(yè)學(xué)院為例; 關(guān)于增強(qiáng)通識(shí)課程思政教學(xué)針對(duì)性與實(shí)效性的研究
——以政治法律與公民意識(shí)課為例; 面向新文科的漢語國際教育專業(yè)本科人才培養(yǎng)模式研究; 基礎(chǔ)研究助力工科創(chuàng)新型人才培養(yǎng)研究; 多主體協(xié)同發(fā)展的新工科創(chuàng)新型人才培養(yǎng)相關(guān)問題思考; 課程思政背景下電力系統(tǒng)分析課程協(xié)作式教學(xué)改革研究

產(chǎn)出導(dǎo)向視角下課程答卷分析與試卷質(zhì)量評(píng)價(jià)

一 基于課程目標(biāo)的考試成績統(tǒng)計(jì)性描述與分布性描述

二 卷面考試成績的分布檢驗(yàn)