999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

產(chǎn)出導(dǎo)向視角下課程答卷分析與試卷質(zhì)量評(píng)價(jià)

2023-04-05 06:22:12胡立坤李修華潘瑩耿葵花
高教學(xué)刊 2023年10期

胡立坤,李修華,潘瑩,耿葵花

(1.廣西大學(xué) 電氣工程學(xué)院,南寧 530004;2.廣西大學(xué) 經(jīng)濟(jì)學(xué)院,南寧 530004;3.廣西大學(xué) 教務(wù)處,南寧 530004)

基于OBE 理念開展工程專業(yè)教學(xué)逐漸深入人心,評(píng)價(jià)教育教學(xué)產(chǎn)出由形成性評(píng)價(jià)和終結(jié)性評(píng)價(jià)兩大部分組成[1]。對(duì)于理論課程,終結(jié)性評(píng)價(jià)采用試卷仍然是一種較公平、公正的方式,但要注意,考試目的是為了檢驗(yàn)學(xué)生的學(xué)習(xí)產(chǎn)出,衡量課程目標(biāo)的達(dá)成情況,顯然試卷的質(zhì)量對(duì)判斷課程目標(biāo)的達(dá)成起著重要的作用。

對(duì)答卷開展有效分析有利于通過學(xué)生學(xué)習(xí)結(jié)果促進(jìn)教師對(duì)之前教育教學(xué)活動(dòng)及其評(píng)價(jià)效度的反思[2],也是評(píng)價(jià)試卷質(zhì)量的有效途徑。而原來基于題型和內(nèi)容的試卷評(píng)價(jià)辦法實(shí)際上流于形式、深度不夠[3],同時(shí)由于教師理解教育測(cè)量和評(píng)價(jià)方法及相關(guān)數(shù)據(jù)的含義不夠準(zhǔn)確,使得試卷評(píng)價(jià)有隨意性傾向[4],導(dǎo)致分析結(jié)果并不能有效地反映學(xué)生掌握知識(shí)和能力培養(yǎng)的程度,這對(duì)提高面向產(chǎn)出試題編制水平的作用尚欠。教育測(cè)量領(lǐng)域的3種理論——經(jīng)典測(cè)驗(yàn)理論(CTT,Classical Test Theory)、概化理論(GT,Generalizability Theory)、項(xiàng)目反應(yīng)理論(IRT,ItemResponseTheory),各有優(yōu)點(diǎn)[5]。這些測(cè)量理論在對(duì)試題、試卷分析時(shí)通常要用到基于統(tǒng)計(jì)的分析方法[6-10]和層次分析[11-12]。

對(duì)于高校的一線教師來說,CTT 更容易被接受。隨著OBE 理念在工程類專業(yè)的全面落實(shí),按課程目標(biāo)命題可以有效地考查學(xué)生的能力,同時(shí)也推進(jìn)課程有效增加“兩性一度”[13],所以針對(duì)試卷和答卷情況開展課程目標(biāo)達(dá)成評(píng)價(jià)才是發(fā)揮試卷分析作用的應(yīng)然選擇。基于課程目標(biāo)實(shí)際上是以能力為導(dǎo)向的命題形式,將課程目標(biāo)當(dāng)成項(xiàng)目,由此考察學(xué)生在各課程目標(biāo)上的反應(yīng),具有多維項(xiàng)目特點(diǎn)。為此,本文在規(guī)范考試成績描述基礎(chǔ)上,對(duì)課程目標(biāo)的考試結(jié)果進(jìn)行目標(biāo)達(dá)成情況評(píng)價(jià),并考慮注意系數(shù)模型[6]和加權(quán)模型[14],提出結(jié)合課程目標(biāo)視在達(dá)成情況和考試成績正態(tài)性評(píng)估的“四度”加權(quán)的試卷質(zhì)量綜合指標(biāo)模型。

一 基于課程目標(biāo)的考試成績統(tǒng)計(jì)性描述與分布性描述

為方便表述,假設(shè)考試樣本數(shù)為N,考試支撐的目標(biāo)數(shù)為n,各目標(biāo)的應(yīng)得分分別為gi(i=1,2,…,n)且,各目標(biāo)期望得分均設(shè)置為應(yīng)得分的60%。卷面實(shí)得分采用常規(guī)分段方式。另設(shè)目標(biāo)實(shí)際得分高于期望得分人數(shù)為di(i=1,2,…,n),卷面實(shí)際得分高于期望得分人數(shù)d。課程各目標(biāo)得分或?qū)φ麄€(gè)試卷成績的描述有統(tǒng)計(jì)性與分布性之分。

對(duì)課程各目標(biāo)得分或?qū)φ麄€(gè)試卷成績通過統(tǒng)計(jì)性描述宏觀上掌握課程目標(biāo)得分和卷面總得分的統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)性描述包括樣本均數(shù)M、樣本標(biāo)準(zhǔn)差S、均值估計(jì)標(biāo)準(zhǔn)誤、樣本眾數(shù)Z 及人數(shù)R 等。對(duì)于課程各目標(biāo)得分還有各目標(biāo)視在達(dá)成度(Ai=di/N×100%);對(duì)整個(gè)試卷成績有時(shí)還需要統(tǒng)計(jì)各分?jǐn)?shù)段的比例及試卷視在達(dá)成度(A=d/N×100%)等。對(duì)于一般的考試,平均值應(yīng)在75 分左右[6]。標(biāo)準(zhǔn)差可以看出考試的差異性,此值越大,表明課程各目標(biāo)得分或整個(gè)試卷成績差異性越大,一般標(biāo)準(zhǔn)差在10 分左右可接受[6]。均值估計(jì)標(biāo)準(zhǔn)誤Se是多個(gè)樣本平均數(shù)的標(biāo)準(zhǔn)差,描述均數(shù)抽樣分布的離散程度及衡量均數(shù)抽樣誤差大小的尺度,反映了樣本均數(shù)之間的差異,實(shí)際上是均值估計(jì)區(qū)間M±Setα/2(n-1)的重要參數(shù),該值越小,表明樣本均數(shù)與總體均值越接近。各目標(biāo)視在達(dá)成度和試卷視在達(dá)成度可以用雷達(dá)圖形象地展示出來,直觀地比較各目標(biāo)達(dá)成情況。

對(duì)課程各目標(biāo)得分或?qū)φ麄€(gè)試卷成績通過分布性描述掌握各課程目標(biāo)得分和卷面總得分的分布性,分布性描述包括絕對(duì)差異量數(shù)(包括最低分、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)、最高分、極差)、相對(duì)差異量數(shù)(采用差異系數(shù)CV=S/M 表征)。對(duì)每個(gè)目標(biāo)及總成績可以用S線[6]對(duì)學(xué)生的成績進(jìn)行定性分析,S 線靠右表明分?jǐn)?shù)偏高;S 線中間近似水平部分較長表明兩極分化嚴(yán)重;S 線基本垂直表明全班水平不相上下。可以將絕對(duì)差異量數(shù)統(tǒng)一表示在箱線圖中,比較各課程目標(biāo)和整個(gè)試卷成績的宏觀分散性,由此看出由分位數(shù)界定的集中情況。極差衡量了樣本均數(shù)的代表性情況,極差越大,樣本均數(shù)的代表性越小,反之越大。不同班級(jí)或不同目標(biāo)成績的樣本均數(shù)與樣本標(biāo)準(zhǔn)差一般均不同,樣本均數(shù)大或小,標(biāo)準(zhǔn)差樣本可能大、可能小,所以采用標(biāo)準(zhǔn)差不能比較不同班級(jí)的分布性。這時(shí)可以采用差異系數(shù),這種相對(duì)差異量數(shù)越大,表明分散性越大,反之越小。依據(jù)卷面總得分的常規(guī)分段統(tǒng)計(jì)各分?jǐn)?shù)值的頻數(shù)與頻率,采用直方圖顯示分?jǐn)?shù)的波動(dòng)狀態(tài),直觀地傳遞考試質(zhì)量狀態(tài)信息。由大數(shù)定律可知,當(dāng)樣本數(shù)大到一定程度后,直方圖趨近于一個(gè)正態(tài)分布,由此評(píng)估規(guī)模化統(tǒng)考成績分布的合理性。

二 卷面考試成績的分布檢驗(yàn)

通識(shí)類課程成績可能大面積處于高分,呈現(xiàn)嚴(yán)重的負(fù)偏態(tài)[2],但是工程類專業(yè)課程要求具有高階性、創(chuàng)新性和挑戰(zhàn)度,不可能每位學(xué)生都具有大致相當(dāng)?shù)乃剑髽颖鞠拢荚嚦煽兊姆植继幱谡龖B(tài)分布才合理[6]。因此有必要對(duì)考試成績的正態(tài)分布性進(jìn)行檢驗(yàn)。令試卷成績總體X 符合下面假設(shè)

(一)χ2 正態(tài)性擬合檢驗(yàn)

按卷面實(shí)得分采用常規(guī)分段方式將其分成k 個(gè)區(qū)間,計(jì)算樣本試卷分?jǐn)?shù)在各個(gè)區(qū)間內(nèi)的實(shí)際頻次fi和頻率fi/N,按(Xi-M)/S 標(biāo)準(zhǔn)化后查標(biāo)準(zhǔn)正態(tài)分布表得到各區(qū)間取值的理論概率pi,按Pearson 定理[15],定義統(tǒng)計(jì)量

當(dāng)N>50時(shí),假設(shè)H0為真時(shí),在未知總體均值與方差情況,該統(tǒng)計(jì)量近似有

這里分了8 個(gè)分?jǐn)?shù)段,k=8,總體均值與方差2 個(gè)參數(shù)均未知,m=2。

一般取顯著水平α=0.05,查χ2分布表,得到(5)=11.07。若由式(2)計(jì)算的χ2值小于(5),就接受假設(shè)H0,否則不接受H0。

χ2擬合檢驗(yàn)法檢驗(yàn)正態(tài)性時(shí),犯第二類錯(cuò)誤“H0不真而接收”的概率往往較大,可以進(jìn)一步進(jìn)行偏度與峰度檢驗(yàn)法檢驗(yàn)。

(二)偏度、峰度檢驗(yàn)

基于試卷分?jǐn)?shù)樣本,定義樣本的2、3、4 階中心距分別為B2、B3、B4,進(jìn)一步依隨機(jī)變量的偏度與峰度的矩估計(jì)統(tǒng)計(jì)量,得到樣體偏度與樣本峰度分別為

G1統(tǒng)計(jì)量值為0 表示正態(tài)分布,Q2=Z=M;為負(fù)表示負(fù)偏態(tài),一般M<Q2<Z;為正表示正偏態(tài),一般Z<Q2<M。由于專業(yè)基礎(chǔ)課程和專業(yè)核心課理論抽象性較強(qiáng),一般應(yīng)是弱正偏態(tài)或弱負(fù)偏態(tài),若是較嚴(yán)重的負(fù)偏態(tài),則可能會(huì)有掩蓋學(xué)生客觀存在差異的傾向;而由于專業(yè)選修課往往是延伸課程,所以專業(yè)選修課表現(xiàn)出負(fù)偏態(tài),也算是正常。

G2統(tǒng)計(jì)量值為0 表示正態(tài)分布;為負(fù)表示分布呈低峰態(tài)或平頂峰,大部分分值在均數(shù)左,尾部薄一些;為正表示分布為尖峰態(tài),尾部更厚,均數(shù)附近的分?jǐn)?shù)比例大,低分與高分段的數(shù)量也不少,鄰近極端值較多。對(duì)于專業(yè)基礎(chǔ)課程和專業(yè)核心課,一般是弱低峰或平頂峰,而對(duì)于專業(yè)選修課往往是尖峰態(tài)。

當(dāng)N>100時(shí),在假設(shè)H0為真時(shí),這2個(gè)統(tǒng)計(jì)量近似有

進(jìn)一步標(biāo)準(zhǔn)化,有

一般取顯著水平α=0.1,查正態(tài)分布表,得到zα/4=1.96,若由式(8)和式(9)計(jì)算的|U1|和|U2|有一個(gè)大于zα/4,則拒絕假設(shè)H0,否則接受假設(shè)H0。這樣當(dāng)H0為真時(shí),拒絕的概率是小于顯著水平α的[15]。

三 課程目標(biāo)試題分項(xiàng)指標(biāo)與試卷質(zhì)量指標(biāo)

(一)課程目標(biāo)的試題分項(xiàng)指標(biāo)及計(jì)算

為衡量課程目標(biāo)對(duì)應(yīng)試題的指標(biāo),定義目標(biāo)對(duì)應(yīng)試題整體難度系數(shù)與區(qū)分度。

考慮到針對(duì)某一課程目標(biāo)一般會(huì)出現(xiàn)多個(gè)試題,假設(shè)第i 個(gè)目標(biāo)有l(wèi)i個(gè)試題,平均得分為Mi,則每個(gè)課程目標(biāo)的試題整體難度系數(shù)定義為

式中:(li)/(li-1)是難度校正系數(shù),采用這樣的校正是基于“題目量多,難度下降”的假設(shè)。當(dāng)然,當(dāng)有多個(gè)試題時(shí),根據(jù)實(shí)際情況也可以選擇不加難度校正系數(shù)。Pi值越大表示難度越大。對(duì)于工程類專業(yè)課程考試,評(píng)估該指標(biāo)是為了反映學(xué)生在該課程目標(biāo)上的整體水平,所以難度應(yīng)適中,以便測(cè)試真實(shí)水平。綜合各類文獻(xiàn),針對(duì)一般性考試,難度系數(shù)在(0.2,0.8]區(qū)間比較合適,在(0.4,0.5]區(qū)間上最好。

課程目標(biāo)對(duì)應(yīng)試題整體區(qū)分度指某課程目標(biāo)應(yīng)試題能多大程度上區(qū)分被測(cè)試對(duì)象在該課程目標(biāo)上達(dá)成水平的能力。在進(jìn)行區(qū)分度分析時(shí),將期評(píng)總分作為學(xué)生的實(shí)際水平。假設(shè)第i 個(gè)課程目標(biāo)分與期評(píng)總分的點(diǎn)對(duì)為(,Y)j,j=1,2,…,N,于是第i 個(gè)課程目標(biāo)對(duì)應(yīng)試題的整體區(qū)分度可以采用Pearson 相關(guān)系數(shù)進(jìn)行計(jì)算,即

該數(shù)越大,說明區(qū)分度越高。綜合各類文獻(xiàn),區(qū)分度一般要在(0.4,1]區(qū)間。

難度與區(qū)分度之間是有相關(guān)性的[6]。若難度提高了,區(qū)分度往往更好,這表明,難度對(duì)區(qū)分度影響很大,難度的地位要高于區(qū)分度。針對(duì)具體的學(xué)生群體,應(yīng)使難度適中。在設(shè)置針對(duì)某一課程目標(biāo)試題時(shí)應(yīng)采用多題多樣化題型,并對(duì)各個(gè)試題作不同的難度分配,避免使區(qū)分度過低。

對(duì)第i 個(gè)課程目標(biāo)的試題定義質(zhì)量指標(biāo),實(shí)際上是注意系數(shù)[6]的補(bǔ)數(shù),即

式中:sgn(·)是符號(hào)函數(shù),取Di和Pi的極端值,便得知PDi≤1。當(dāng)Pi在(0.2,0.8]之間且Di在(0.4,1]之間時(shí),表明試題的質(zhì)量是完全可以接受的,PDi值為1;只要Pi或Di沒在上述允許區(qū)間,PDi<1,越小,表明越需要改善。

(二)試卷質(zhì)量指標(biāo)及計(jì)算

試卷綜合質(zhì)量指標(biāo)含試卷整體難度、試卷整體區(qū)分度、試卷信度、試卷效度。

試卷整體難度與區(qū)分度分別采用各課程目標(biāo)試題整體難度系數(shù)和區(qū)分度依課程目標(biāo)滿分加權(quán)表示,即

試卷信度反映考試的可靠性、一致性,信度高意味著等價(jià)試卷對(duì)任何一個(gè)學(xué)生的多次測(cè)試,得到的結(jié)果均比較穩(wěn)定。對(duì)于依目標(biāo)命題的試卷,各試題實(shí)際上是測(cè)試學(xué)生對(duì)同一知識(shí)或能力達(dá)成情況,各題目之間得分具有較高的正相關(guān)性,所以一般采用內(nèi)部一致性信度。1951 年Cronbach 提出的Cronbach α 系數(shù)[16]就是一種計(jì)算內(nèi)部一致性信度的方法。令樣本中各目標(biāo)得分的方差為,則試卷信度計(jì)算方法為

顯然R 越大,試卷的一致性越高。

試卷的效度是衡量考試有效性或準(zhǔn)確性的指標(biāo),表明測(cè)試結(jié)果與學(xué)生的實(shí)際能力水平是否一致,是否達(dá)到了測(cè)試目的。其包含了內(nèi)容效度、結(jié)構(gòu)效度和效標(biāo)效度[17]。前兩者在據(jù)OBE 教學(xué)大綱要求按課程目標(biāo)命題情況下對(duì)標(biāo)對(duì)表,是可以得到保證的。而效標(biāo)效度是測(cè)試之后進(jìn)行檢驗(yàn),為計(jì)算該指標(biāo),取可靠的效標(biāo)是必要條件。由于OBE 教學(xué)大綱要求的形成性評(píng)價(jià)是有多個(gè)不同的環(huán)節(jié)構(gòu)成,若利用合理手段和工具完全可以保證平時(shí)形成性評(píng)價(jià)能夠客觀地反映學(xué)生的實(shí)際能力水平,所以這里采用平時(shí)成績作為效標(biāo)。故,可利用Pearson 相關(guān)系數(shù)評(píng)價(jià)試卷效度。

假設(shè)樣本卷面總分與對(duì)應(yīng)的平時(shí)成績的點(diǎn)對(duì)為(Yj,Zj),j=1,2,…,N,再令平時(shí)成績的樣本均數(shù)為L,則試卷效度為

顯然V 越大,試卷的有效性越高。

根據(jù)已有文獻(xiàn)[3-4,6-10,14,18]中關(guān)于試卷綜合質(zhì)量指標(biāo)評(píng)判規(guī)則的一些討論,考慮特定的學(xué)生群體,構(gòu)造一個(gè)評(píng)判量表,見表1。

表1 難度、區(qū)分度、信度、效度4 個(gè)指標(biāo)評(píng)判表

對(duì)表1 解釋說明幾點(diǎn)。

1)由于難度與試卷的質(zhì)量非單調(diào)關(guān)系,所以難度P適應(yīng)值列按已有研究給出了映射;區(qū)分度D、信度R 與效度V 的大小與試卷的質(zhì)量是單調(diào)的關(guān)系,所以適應(yīng)值與量化標(biāo)準(zhǔn)同是增加的規(guī)律。

2)由于難度的地位要高于區(qū)分度[10],有一定難度才會(huì)有一定區(qū)分度,所以試卷整體難度不宜偏低,一般難度系數(shù)應(yīng)在(0.2,0.8]之間,(0.4,0.5]之間難度系數(shù)含義解釋為適中,認(rèn)為是最好的難度。當(dāng)然若是選拔性考試,試卷整體難度還應(yīng)高一些。

3)試卷整體區(qū)分度大于0.4 是比較好的,當(dāng)然越高越好。

4)由于信度的地位要高于效度[6],估計(jì)效度只有在信度高的情況下才有意義,所以試卷整體信度大于0.6可完全接受的。不過,信度高,效度也不一定高[10]。

5)由于考慮到試卷的效度根本上還要看內(nèi)容與結(jié)構(gòu)效度,所以試卷整體效度大于0.4 一般可以接受。效度高的考試,其信度一定高[10]。另外,只有保證了一定的區(qū)分度,效度指標(biāo)才可能較好。

6)難度、區(qū)分度、信度、效度4 個(gè)指標(biāo)評(píng)判標(biāo)準(zhǔn)并不是絕對(duì)的,應(yīng)根據(jù)不同專業(yè)定位、課程所針對(duì)學(xué)生群體對(duì)指標(biāo)評(píng)判標(biāo)準(zhǔn)進(jìn)行微調(diào),以使評(píng)判結(jié)果更加有效。

四 考慮課程目標(biāo)達(dá)成情況的試卷綜合質(zhì)量指標(biāo)模型

試卷綜合質(zhì)量與試卷質(zhì)量指標(biāo)、卷面考試成績的分布性及課程目標(biāo)達(dá)成情況均密切相關(guān)。

從試卷質(zhì)量指標(biāo)分析,可知“四度”指標(biāo)的重要程度按“難度—區(qū)分度—信度—效度”遞減,經(jīng)調(diào)研并采用古林法得到“四度”權(quán)重分別為0.447、0.249、0.166、0.138,得到試卷綜合質(zhì)量指標(biāo)初步模型[14]

式中:Pf、Df、Rf、Vf是表1 中的適應(yīng)值。

但這個(gè)模型沒有考慮“四度”推薦范圍,綜合考慮“四度”的注意系數(shù)[6],為使未達(dá)到推薦范圍的“四度”指標(biāo)按比例下調(diào),將該模型修改成式(18)。

進(jìn)而,將考試結(jié)果的正態(tài)性也融入到模型中,根據(jù)實(shí)際情況,較好的偏度范圍設(shè)置在[-0.1,0.1]之間[2],較好的峰度設(shè)置在[-0.6,0.6]之間,若在此區(qū)間,對(duì)式(17)不作修正,修正規(guī)律采用指數(shù)規(guī)律衰減。若偏度和峰度分別為G1、G2,則修正系數(shù)分別為

按式(16)和式(17)兩者的平均修正,得正態(tài)性綜合修正系數(shù)

將該修正系數(shù)與式(18)相乘便得到試卷綜合質(zhì)量指標(biāo)的修正模型IS2。

上述純粹從統(tǒng)計(jì)學(xué)的角度建立了試卷綜合質(zhì)量指標(biāo)模型,但是存在通過考試并未沒有達(dá)成課程目標(biāo)的情況,即使此時(shí)計(jì)算的質(zhì)量指標(biāo)接近1,也不能說明試卷質(zhì)量就非常好。對(duì)課程的每個(gè)目標(biāo)均設(shè)置了期望達(dá)成度,表征了學(xué)生中占多少比例的學(xué)生能夠達(dá)到目標(biāo)的期望比率值。除去教學(xué)水平的主觀因素,達(dá)成度過低或遠(yuǎn)超過期望值,也反映試題質(zhì)量不高。因此,將課程目標(biāo)的達(dá)成度融入到試卷綜合質(zhì)量指標(biāo)模型是合理的。為此,假設(shè)各目標(biāo)期望達(dá)成度為Ei(i=1,2,…,n),試卷期望達(dá)成度為E,各目標(biāo)和試卷視在達(dá)成度允許誤差分別為±15%、±20%,考慮離期望達(dá)成度越遠(yuǎn),試卷質(zhì)量越差,所以在超出誤差范圍時(shí)仍按指數(shù)規(guī)律衰減修正,于是各目標(biāo)與試卷視在達(dá)成度修正系數(shù)fi、fg分別為

目標(biāo)視在達(dá)成度修正系數(shù)按下式求取

于是將該達(dá)成度修正系數(shù)與式(18)、式(21)相乘得到試卷綜合質(zhì)量指標(biāo)的再修模型IS3。依IS3值判定試卷質(zhì)量:[0.8,1]為好;[0.6,0.8)為合格;[0.45,0.6)欠佳;[0,0.45)為不合格。

五 一次實(shí)際考試的算例

以基礎(chǔ)導(dǎo)學(xué)與初步實(shí)踐課程為例展示分析結(jié)果。考試支撐課程目標(biāo)6個(gè),用Oi(i=1,2,…6)表示,得分分別為8、23、35、28、4、2。從462 人中抽取98 人進(jìn)行分析。

(一)答卷分析

表2 給出課程各目標(biāo)得分和整個(gè)試卷成績的樣本統(tǒng)計(jì)數(shù)據(jù)。圖1 為各目標(biāo)視在達(dá)成度和試卷視在達(dá)成度雷達(dá)圖。圖2 為分?jǐn)?shù)分段的頻數(shù)與頻率及積累值直方圖。圖3 為課程成績的S線,豎直虛線是期望分?jǐn)?shù),這里只給出異常的目標(biāo)2 與總成績S 曲線。圖4 為各目標(biāo)分?jǐn)?shù)和卷面總分?jǐn)?shù)的箱線圖。

圖2 卷面總分的直方圖

圖3 異常的目標(biāo)2 與卷面總分S 曲線

圖4 各目標(biāo)與卷面總分箱線圖

表2 課程各目標(biāo)得分和整個(gè)試卷成績樣本統(tǒng)計(jì)數(shù)據(jù)

圖1 各目標(biāo)和試卷視在達(dá)成度雷達(dá)圖

由此,可得:

1)卷面總成績均值估計(jì)標(biāo)準(zhǔn)誤為1.39,說明樣本平均分73.20 已比較接近總體均值,并且也接近一般的總體均值75,但樣本標(biāo)準(zhǔn)差相較一般的總體標(biāo)準(zhǔn)差10 略顯大了,說明整個(gè)試卷成績差異性稍大;

2)從各目標(biāo)成績差異系數(shù)可以看出,目標(biāo)2 和目標(biāo)4 的差異系數(shù)最大,表明成績的分散性較大,這一點(diǎn)從箱線圖也可以看出來;

3)從S 曲線圖可以看出,目標(biāo)2 中間有較長的水平段,所以存在兩極分化,但卷面成績分布并未呈現(xiàn)這種現(xiàn)象;

4)從箱線圖中可以看出,目標(biāo)5、目標(biāo)6 的極差雖大,但這2 個(gè)目標(biāo)的滿分分值很小,并不能給出有用的信息;但目標(biāo)2、3、4 的極差比較大,說明這些目標(biāo)的平均成績不具有很好的代表性,這一點(diǎn)從眾數(shù)的人數(shù)也可以大致說明這一點(diǎn);

5)從課程考試得到各目標(biāo)和試卷視在達(dá)成情況,只有目標(biāo)1、5 超預(yù)期,目標(biāo)2 最差,試卷視在達(dá)成情況也低于預(yù)期;

6)由直方圖可以看出,以70~89 之間為最多,成績分布也算基本合理。

假設(shè)試卷成績的總體X 符合假設(shè)H0:X~N(M,S2),M 與S 見表2。經(jīng)χ2檢驗(yàn)應(yīng)接受假設(shè)H0,但此檢驗(yàn)可能存在“H0為真被接受”的概率較大,故再次對(duì)偏度與峰度進(jìn)行檢驗(yàn)。經(jīng)偏度與峰度檢驗(yàn)應(yīng)接受假設(shè)H0。

(二)目標(biāo)試題質(zhì)量與試卷質(zhì)量分析

各目標(biāo)試題與試卷的質(zhì)量指標(biāo)值見表3、表4。從中可以看出:

表3 各目標(biāo)試題的質(zhì)量指標(biāo)值

表4 各目標(biāo)試卷的質(zhì)量指標(biāo)值

1)6 個(gè)目標(biāo)的難度均不高,按表1 判斷,均沒達(dá)到最佳狀態(tài),目標(biāo)5 和目標(biāo)6 的分值占比較小,難度很低;

2)6 個(gè)目標(biāo)的區(qū)分度中,目標(biāo)1、5、6 區(qū)分度均小于0.2,區(qū)分度差;而目標(biāo)2、3、4 區(qū)分度好,這也基本符合考試重點(diǎn)支撐的課程目標(biāo)要求;

3)6 個(gè)目標(biāo)中目標(biāo)1、5、6 試題質(zhì)量需要改進(jìn);

4)本次考試的信度偏低,未達(dá)到0.6,而效度也未達(dá)到0.4,考試反映出來的結(jié)果與平時(shí)表現(xiàn)相關(guān)性較低。所以有必要依教學(xué)大綱要求提高命題質(zhì)量;

5)隨著評(píng)價(jià)試卷綜合質(zhì)量指標(biāo)考慮的因素增多,該指標(biāo)是下降的,符合基本認(rèn)知。在全面考慮“四度”適應(yīng)值、推薦范圍、正態(tài)分布性和達(dá)成度后與只考慮“四度”適應(yīng)值,試卷質(zhì)量下降了一個(gè)檔次。結(jié)合本次考試中出現(xiàn)的提前交卷、卷面成績與平時(shí)表現(xiàn)成績差別達(dá)到“異 常”等現(xiàn)象,也反映出試卷確實(shí)欠佳,需要改進(jìn)。

六 結(jié)束語

終結(jié)性評(píng)價(jià)對(duì)學(xué)生意味著公平、公正,對(duì)教師體現(xiàn)在對(duì)課程教學(xué)的持續(xù)改進(jìn)和命題質(zhì)量的提升,所以要重視終結(jié)性考試評(píng)價(jià)。按OBE 教學(xué)大綱中課程目標(biāo)所命試題是否能夠有效地起到檢驗(yàn)總結(jié)性考試支撐的課程目標(biāo)達(dá)成,需要從學(xué)生考試的數(shù)據(jù)中挖掘出對(duì)改進(jìn)有用的信息。本文詳細(xì)闡述從學(xué)生考試的數(shù)據(jù)中挖掘信息的方法,并通過算例表明,基于課程目標(biāo)的答卷質(zhì)量評(píng)價(jià)方法對(duì)答卷質(zhì)量能夠進(jìn)行全面地評(píng)價(jià),而試卷綜合質(zhì)量的評(píng)價(jià)方法使得到的試卷綜合質(zhì)量評(píng)價(jià)與實(shí)際更接近,能夠達(dá)到正確反映試卷質(zhì)量的目的。將基于課程目標(biāo)的答卷質(zhì)量和試卷綜合質(zhì)量的評(píng)價(jià)方法進(jìn)一步程序化便可以實(shí)現(xiàn)評(píng)價(jià)數(shù)據(jù)計(jì)算自動(dòng)化,可以減輕教師計(jì)算負(fù)擔(dān)而專注于教學(xué)效果分析本身,從而給出較全面的教學(xué)建議與持續(xù)改進(jìn)措施。

主站蜘蛛池模板: 国产又黄又硬又粗| 人妻无码中文字幕第一区| 一区二区三区毛片无码| yjizz国产在线视频网| 国产极品嫩模在线观看91| 国产精品久久久久无码网站| 日韩大乳视频中文字幕| 亚洲色大成网站www国产| 又大又硬又爽免费视频| 5555国产在线观看| 国产a在视频线精品视频下载| 国产在线观看成人91| 丁香婷婷综合激情| 国产肉感大码AV无码| 亚洲成av人无码综合在线观看| 午夜久久影院| 亚洲乱码视频| 国产黄色爱视频| 无码又爽又刺激的高潮视频| 国产新AV天堂| 国产欧美中文字幕| 欧美另类一区| 广东一级毛片| 亚洲成年人网| 精品国产自在在线在线观看| 99久久国产综合精品2023| 亚洲国产亚综合在线区| 国产婬乱a一级毛片多女| 伊人91在线| 免费一极毛片| 五月天久久综合| 亚洲乱码在线视频| 在线观看网站国产| 91欧美在线| 国产va在线| 亚洲中文字幕在线精品一区| 日本一本正道综合久久dvd| 看国产一级毛片| 亚洲A∨无码精品午夜在线观看| 激情亚洲天堂| 午夜日b视频| 亚洲区视频在线观看| 大乳丰满人妻中文字幕日本| 久久九九热视频| 美女高潮全身流白浆福利区| 亚洲第一区在线| 91在线无码精品秘九色APP| 国产福利影院在线观看| 欧美国产菊爆免费观看| 亚洲一区免费看| 国产精品亚洲精品爽爽| 色噜噜狠狠狠综合曰曰曰| AV熟女乱| 自拍偷拍欧美日韩| 蝌蚪国产精品视频第一页| 国产区人妖精品人妖精品视频| 欧美成人综合在线| 日韩免费无码人妻系列| 欧美三级自拍| 精品一区国产精品| 欧美性爱精品一区二区三区 | 亚洲午夜久久久精品电影院| 综合网久久| 亚洲AV无码乱码在线观看代蜜桃| 特级毛片8级毛片免费观看| 五月天在线网站| 精品午夜国产福利观看| 欧美在线一二区| 精品無碼一區在線觀看 | 色悠久久综合| 日韩人妻无码制服丝袜视频| 国产视频入口| 久视频免费精品6| 国产亚洲男人的天堂在线观看| 永久毛片在线播| 91久久夜色精品| 亚洲成人高清无码| 青青国产成人免费精品视频| 欧美在线观看不卡| 啪啪国产视频| 亚洲欧美一区二区三区图片| 国产福利影院在线观看|