999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Rasch模型的高中生物測(cè)驗(yàn)命題特點(diǎn)分析

2025-10-06 00:00:00王茜
高考·上 2025年9期

命題特點(diǎn)和品質(zhì)是科學(xué)評(píng)價(jià)教學(xué)效果、學(xué)生能力的首要前提。隨著教育測(cè)量與評(píng)價(jià)領(lǐng)域最新技術(shù)和理念的不斷普及,命題特點(diǎn)和品質(zhì)分析逐漸成為教育考試數(shù)據(jù)分析中的重要內(nèi)容。當(dāng)前,在命題特點(diǎn)和品質(zhì)分析領(lǐng)域主流的理論基礎(chǔ)有經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論,兩種理論互為補(bǔ)充,各有優(yōu)勢(shì)。經(jīng)典測(cè)量理論發(fā)展較早,在教育評(píng)價(jià)領(lǐng)域發(fā)揮了重要作用。以Rasch模型為代表的項(xiàng)目反應(yīng)理論以其樣本獨(dú)立性、難度客觀性、等距性等特點(diǎn)彌補(bǔ)了經(jīng)典測(cè)量理論的不足[1]。本研究以高中生物測(cè)驗(yàn)為例,使用Rasch模型對(duì)命題的特點(diǎn)和品質(zhì)做詳細(xì)分析,探討從不同視角評(píng)價(jià)命題的技術(shù)及結(jié)論應(yīng)用。

一、研究方法

(一)高中生物試卷

本研究使用的高中生物試卷共計(jì)32題,其中客觀題(選擇題、填空題)16題,主觀題16題。客觀題以 001~012 、 M13~M16 表示,主觀題以S1701~ΩS2103 表示,其中,S1701表示第17題第1問(wèn),以此類推。

(二)樣本選擇

以某高中三年級(jí)全體學(xué)生為樣本,本次考試,共獲得有效數(shù)據(jù)393人。

(三)數(shù)據(jù)分析方法

數(shù)據(jù)管理使用Excel,數(shù)據(jù)分析軟件為Winsteps5.4.3。該軟件為Rasch模型專用的數(shù)據(jù)分析軟件,本次數(shù)據(jù)分析選擇了分部計(jì)分模型(PartialCreditModel,PCM),主要數(shù)據(jù)分析內(nèi)容包括:?jiǎn)尉S性、試卷擬合、題目擬合、懷特圖、氣泡圖等內(nèi)容。

二、數(shù)據(jù)分析結(jié)果

(一)單維性檢驗(yàn)

單維性檢驗(yàn)分析針對(duì)命題的總體品質(zhì),主要用于評(píng)價(jià)命題是否緊扣學(xué)科主題,單維性特征較好,說(shuō)明學(xué)生在考試過(guò)程中有且僅有計(jì)算能力這一種潛在特質(zhì)影響作答表現(xiàn)。

圖1單維性檢驗(yàn)

本次測(cè)試的單維性檢驗(yàn)結(jié)果如圖1所示。圖中橫軸表示題目的難度級(jí)別,縱軸展示的是題目得分與潛在影響因素(潛在特質(zhì))之間的相關(guān)關(guān)系值。字母A、B、C、D和 a、b、c、d等分別代表不同的題目。通過(guò)分析,可以看出大部分題目的相關(guān)性值集中在 [-0.4,+0.4] 范圍內(nèi),這符合Rasch模型中對(duì)單維性的理論要求。然而,A、B、C、D所代表的4個(gè)題目,其相關(guān)關(guān)系值超出了推薦范圍 [-0.4,+0.4] ,因此未能滿足單維性檢驗(yàn)的標(biāo)準(zhǔn)。這表明,S2002、S2001、S2003和M14這四個(gè)題目受到的不僅僅是單一因素的影響,可能還存在其他潛在特質(zhì)對(duì)學(xué)生作答的干擾。

圖2主成分分析

Rasch模型中還有一種基于方差的單維性檢驗(yàn)方法。結(jié)果如圖2所示。I為由題目解釋的方差,1為未解釋方差主成分分析中第1主成分,如果 Igt; 1,則說(shuō)明題目解釋的方差高于殘差中第一主成分解釋的方差,也就是說(shuō)數(shù)據(jù)中即使存在第二個(gè)能力維度對(duì)測(cè)量產(chǎn)生影響,也不影響測(cè)量結(jié)果。圖2數(shù)據(jù)表明,I為 19.5% ,1為 4.1% ,I遠(yuǎn)高于1,說(shuō)明A、a雖然受到多個(gè)潛在特質(zhì)的影響,但并未影響整體測(cè)試結(jié)果。簡(jiǎn)而言之,試題符合Rasch模型的單維性要求,能夠進(jìn)行后續(xù)分析。

(二)試卷擬合

對(duì)393名學(xué)生的數(shù)據(jù)進(jìn)行整體擬合檢驗(yàn),結(jié)果如表1所示。

表1整體質(zhì)量檢測(cè)

Rasch模型還提供了區(qū)分度指標(biāo),其含義與經(jīng)典測(cè)量理論的區(qū)分度相似。區(qū)分度是指測(cè)驗(yàn)題目能夠在多大程度上區(qū)分所要測(cè)量的心理品質(zhì),區(qū)分度值越高,表明測(cè)驗(yàn)題目能夠越好地將不同能力水平的被試區(qū)分開來(lái)。Rasch模型中反應(yīng)區(qū)分度的指標(biāo)稱為Speration,相關(guān)理論建議該值應(yīng)至少大于 2[2] 。本評(píng)測(cè)試卷項(xiàng)目區(qū)分度為14.31,取值較高。與之對(duì)應(yīng),學(xué)生區(qū)分度為2.43,取值也達(dá)到了相關(guān)理論建議的水平。從試卷和學(xué)生的兩個(gè)角度,數(shù)據(jù)均表明試卷能夠區(qū)分不同能力水平的學(xué)生。

與Speration相配套的是Rasch信度,用于評(píng)估測(cè)驗(yàn)結(jié)果的內(nèi)部一致性。信度系數(shù)越高,表示測(cè)驗(yàn)結(jié)果的穩(wěn)定性和可靠性越強(qiáng)。理論上,理想信度值為1,而大于0.7則表示信度較高[3]。在本次評(píng)測(cè)中,試卷的整體信度為1.0,說(shuō)明題目的信度很高;學(xué)生的整體信度為0.85,屬于較高水平。試題和學(xué)生這兩個(gè)角度的統(tǒng)計(jì)結(jié)果均表明,試題的整體信度較好。

OutfitMNSQ是未加權(quán)的均方擬合統(tǒng)計(jì)量,而InfitMNSQ是加權(quán)的均方擬合統(tǒng)計(jì)量,ZSTD則是MNSQ的標(biāo)準(zhǔn)化結(jié)果。OutfitMNSQ對(duì)異常值較為敏感,InfitMNSQ則更關(guān)注題目難度與學(xué)生能力之間的數(shù)據(jù)關(guān)系。Rasch分析結(jié)果顯示,InfitMNSQ的均值為1.02,OutfitMNSQ的均值為1.07,這兩個(gè)擬合指數(shù)接近理想值1,表明數(shù)據(jù)與模型擬合良好,且測(cè)量過(guò)程未受到非目標(biāo)特質(zhì)因素的干擾。ZSTD的值越接近0越為理想[4],本次分析結(jié)果顯示,受試者與題目的ZSTD均值在[-0.1,0.1] 區(qū)間內(nèi),接近理想值。由此可見,整體來(lái)看,本次試題的擬合度較好,符合Rasch模型的理論要求。

(三)題目擬合

有研究指出,InfitMNSQ和OutfitMNSQ的取值應(yīng)位于[0.8,1.2]區(qū)間,而寬松的標(biāo)準(zhǔn)則認(rèn)為取值可在[0.5,1.5]之間[5]。作為高風(fēng)險(xiǎn)考試,應(yīng)該采用更為嚴(yán)格的擬合標(biāo)準(zhǔn)[6]。統(tǒng)計(jì)數(shù)據(jù)顯示,各個(gè)題目的InfitMNSQ取值范圍為[0.87,1.33],大部分題目均處于合理范圍,表明數(shù)據(jù)與模型擬合較好。然而,M15的參數(shù)值為 ,這意味著在回答此題時(shí),部分能力低的學(xué)生正確作答,而一些能力高的學(xué)生則錯(cuò)誤作答。0utfitMNSQ的取值范圍為[0.00,1.91],其中003、007、009、M14、M15、M16和S1703的參數(shù)值分別為0.07、0.07、0.00、0.05、1.91、1.53、1.39和1.27,均有不同程度地偏離正常區(qū)間。除了M15題外,其他六個(gè)題目的InfitMNSQ值都處于[0.80,1.20]的合理范圍內(nèi),綜合兩個(gè)擬合參數(shù)來(lái)看,可以認(rèn)為003、007、009、M14、M16和S1703六道題目是符合要求的,而M15題則受到其他因素的干擾。此外,M13題存在天花板效應(yīng),無(wú)法進(jìn)行有效的參數(shù)估計(jì)。

相關(guān)系數(shù)(CORR.)衡量了試題與測(cè)量目標(biāo)之間的擬合程度。有研究者認(rèn)為,相關(guān)系數(shù)的最低可接受值應(yīng)為0.03,且相關(guān)系數(shù)越高,表明試題與測(cè)量目標(biāo)的匹配度越好。分析結(jié)果顯示,所有試題的相關(guān)系數(shù)均為正值,說(shuō)明試題與測(cè)驗(yàn)?zāi)繕?biāo)一致,測(cè)量的是相同的潛在特質(zhì)。由于主觀題的內(nèi)容更為豐富,其相關(guān)系數(shù)普遍較高,而客觀題中的第14題,其相關(guān)系數(shù)為整套試卷中最低,僅為0.01。

(四)懷特圖

懷特圖(WrightMap)也稱為學(xué)生—題目圖,能夠利用Rasch量尺的特性,直觀地展現(xiàn)項(xiàng)目難度與被試能力、被試與被試、項(xiàng)目與項(xiàng)目之間的關(guān)系。本次測(cè)驗(yàn)的懷特圖如圖3所示

圖3懷特圖

圖3中的中線表示Rasch量尺,量尺上的單位是Logit,它在試卷難度與學(xué)生能力水平的對(duì)比中起著重要作用。中線左側(cè)反映了學(xué)生能力分布的情況,而右側(cè)則顯示了試題難度的分布情況。M代表Mean,即學(xué)生能力和題目難度的平均值;S代表OneStandardError,表示離均值一個(gè)標(biāo)準(zhǔn)差的距離;T代表TwoStandard Error,指離均值兩個(gè)標(biāo)準(zhǔn)差的距離。刻度從上到下,學(xué)生能力水平逐漸降低,同時(shí)試題難度也相應(yīng)減小;被試之間的間隔表示他們能力的差異,項(xiàng)目之間的間隔則顯示了它們難度的差異,間距越小,表示差異越小。

圖3左側(cè)每一個(gè)“#”代表13個(gè)被試,每一個(gè)“·”代表1至12個(gè)被試。學(xué)生的能力水平處于[-0.6,1.8]之間,能力分布范圍為2.4Logit,平均值為0.772Logit。與之相對(duì)應(yīng),題目難度平均值被設(shè)定為0,二者之差為0.772Logit,說(shuō)明該評(píng)測(cè)試卷對(duì)于被試來(lái)說(shuō)整體難度偏低。

圖3右側(cè)為題目,從分布位置上看,題目016難度最大,為3.016Logit,012難度最小,為-3.396Logit,題目難度的分布范圍為6.3Logit。

學(xué)生能力均值較試題難度均值高0.772Logit,由此可以看出學(xué)生的能力水平相對(duì)高于測(cè)驗(yàn)項(xiàng)目的難度水平。也就是說(shuō),其項(xiàng)目難度設(shè)計(jì)與學(xué)生的實(shí)際水平之間不太吻合,難度偏低。尤其是第1、2、3、4、5、6、12、13題,均處在較為簡(jiǎn)單的區(qū)域,且這一區(qū)域并沒有學(xué)生分布。這表明本次考試,存在一定數(shù)量的簡(jiǎn)單題。與之相對(duì)應(yīng)的,測(cè)驗(yàn)中較難的題目也偏少,對(duì)于能力大于1的學(xué)生,僅有第21題第2問(wèn)和第22題第2問(wèn)兩個(gè)題目難度相對(duì)應(yīng)。

總體來(lái)看容易的試題偏多,試題之間的難度水平差距較大,難度中等的試題分布較為集中,不利于對(duì)不同能力水平的學(xué)生做出很好的區(qū)分。

(五)氣泡圖

氣泡圖是用來(lái)綜合評(píng)價(jià)擬合、測(cè)量誤差的圖形,繪圖簡(jiǎn)單且結(jié)果直觀,因此受到相關(guān)研究者的青睞。本次測(cè)驗(yàn)各題目的氣泡圖如圖5所示。

圖4氣泡圖

在圖4中,氣泡代表了每道題目,氣泡的大小反映了Rasch標(biāo)準(zhǔn)誤的大小。氣泡越小,意味著該測(cè)驗(yàn)對(duì)學(xué)生能力水平的估算越準(zhǔn)確。縱軸標(biāo)示為Measure,氣泡在縱軸上的位置代表了試題的難度參數(shù),試題越接近頂部,表示其難度越高。理想情況下,項(xiàng)目應(yīng)接近氣泡圖的中心線。從圖中可觀察到,大多數(shù)氣泡集中在[0,1]區(qū)間,這意味著這些試題的難度差異較小。縱軸的OutfitMNSQZSTD指標(biāo)表示題目的擬合程度,數(shù)值越接近0,擬合越好,左側(cè)偏離表示過(guò)擬合,右側(cè)則代表不擬合。結(jié)合氣泡圖分析,試卷中大多數(shù)題目都落在了可接受范圍[-2,2」內(nèi),但002和S1903顯示過(guò)擬合,意味著這些題目與模型的擬合過(guò)于緊密;M16和M15顯示不擬合,表明存在“高能力學(xué)生答錯(cuò)低難度題”和“低能力學(xué)生答對(duì)高難度題”的現(xiàn)象;M14、008和006的氣泡較大,表明它們的難度估計(jì)存在較大的誤差,對(duì)應(yīng)的測(cè)量精度較低。

三、數(shù)據(jù)分析結(jié)論

(一)試卷命題特點(diǎn)

整套試卷的難度相對(duì)學(xué)生群體偏低,有9個(gè)客觀題累計(jì)45分的題目對(duì)于參加本次考試的學(xué)生群體來(lái)說(shuō)難度較低。同時(shí),在高水平學(xué)生對(duì)應(yīng)的難度區(qū)間上,僅有2個(gè)主觀題累計(jì)11分的題目與學(xué)生能力相匹配。整套試卷的命題特點(diǎn)以簡(jiǎn)單題目為主,高難度題目極少。

(二)試卷整體命題質(zhì)量

受難度分步的影響,因低難度題目較多,在評(píng)價(jià)中發(fā)揮的作用較小,同時(shí),高難度題目較少,對(duì)高水平學(xué)生的區(qū)分度不高。因此,整套試卷的區(qū)分度不高,雖然達(dá)到了相關(guān)理論建議的水平,但若作為選拔性測(cè)試(常模參照測(cè)驗(yàn)),其區(qū)分度較難達(dá)到評(píng)價(jià)目的的要求。若作為標(biāo)準(zhǔn)參照測(cè)驗(yàn),題目的難度以課程標(biāo)準(zhǔn)要求為依據(jù),測(cè)驗(yàn)結(jié)果則起到了評(píng)價(jià)教學(xué)效果的作用,題目難度和區(qū)分度可不做要求。

(三)試題命題質(zhì)量

單維性檢驗(yàn)結(jié)果表明,部分題目單維性檢驗(yàn)結(jié)果較差,說(shuō)明該題目的作答過(guò)程中,受到了除計(jì)算能力之外的潛在特質(zhì)的影響,如猜測(cè)、閱讀理解等。涉及的題目包括了主觀題和客觀題各1個(gè),累計(jì)11分。另有兩個(gè)主觀題目的擬合指數(shù)較差,累計(jì)12分,1個(gè)客觀題的相關(guān)系數(shù)較低,累計(jì)5分。這些題目存在較大的測(cè)量誤差,或其測(cè)量?jī)?nèi)容與測(cè)量的主要目標(biāo)一計(jì)算能力存在較大的差異,需要根據(jù)題目?jī)?nèi)容和學(xué)生作答表現(xiàn)做進(jìn)一步分析。

結(jié)束語(yǔ)

Rasch模型的分析僅針對(duì)數(shù)據(jù)特點(diǎn),參數(shù)的優(yōu)劣并不代表命題質(zhì)量的絕對(duì)好壞。對(duì)命題特點(diǎn)的分析還應(yīng)該結(jié)合題目?jī)?nèi)容、測(cè)驗(yàn)?zāi)康牡茸鼍C合判斷。如標(biāo)準(zhǔn)參照測(cè)驗(yàn)以考查學(xué)生知識(shí)掌握情況為目的,以課程標(biāo)準(zhǔn)的難度要求為依據(jù),對(duì)測(cè)驗(yàn)和題目的難度及其分布并無(wú)固定要求,僅需要關(guān)注單維性、擬合等指標(biāo)。但對(duì)于常模參照測(cè)驗(yàn),其主要目的是區(qū)分不同能力水平學(xué)生,因此還應(yīng)當(dāng)特別關(guān)注難度和能力的分布關(guān)系、區(qū)分度等指標(biāo)。試卷和題目評(píng)價(jià)的結(jié)果不是獨(dú)立于應(yīng)用存在的,任何結(jié)論都應(yīng)當(dāng)結(jié)合評(píng)價(jià)的目的、命題設(shè)計(jì)等要素,在實(shí)際的應(yīng)用工作中,需要提防只關(guān)注擬合指標(biāo)的唯參數(shù)論。Rasch模型分析為命題特點(diǎn)和質(zhì)量分析提供了新的視角,在實(shí)際教學(xué)工作中需要和經(jīng)典測(cè)量理論協(xié)同使用,才有可能產(chǎn)生更高的價(jià)值。

參考文獻(xiàn)

[1]李靜璇,王秋紅,何壯,等.Rasch模型在初等教育階段試卷質(zhì)量分析領(lǐng)域的應(yīng)用[].貴陽(yáng)學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2022,17(3):87-92.

[2]柏毅,朱文琴,陳慧珍Rasch模型在試卷質(zhì)量分析中的應(yīng)用:以小學(xué)科學(xué)六年級(jí)技術(shù)與工程素養(yǎng)評(píng)測(cè)試卷為例[].教育測(cè)量與評(píng)價(jià),2019(1):25-31.

[3]肖月,桑芝芳.Rasch模型在物理學(xué)業(yè)質(zhì)量評(píng)價(jià)中的應(yīng)用研究[].物理通報(bào),2021(6):119-123.

[4]何壯,趙守盈.技能評(píng)分項(xiàng)目裁判員評(píng)分結(jié)果的多面Rasch模型分析:項(xiàng)目反應(yīng)理論在體育運(yùn)動(dòng)領(lǐng)域的應(yīng)用[].成都體育學(xué)院學(xué)報(bào),2014,40(3):43-48.

[5]何壯,袁淑莉,趙守盈.教育考試中短測(cè)驗(yàn)的分析方法:基于兩種項(xiàng)目反應(yīng)理論方法的比較研究[J].中國(guó)考試,2012(10):18-24.

[6]何壯,袁淑莉,余水,等.心理測(cè)量在高風(fēng)險(xiǎn)考試分析中的應(yīng)用[.貴陽(yáng)學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2020,15(2):114-118.

主站蜘蛛池模板: 亚洲AV无码精品无码久久蜜桃| 美女免费黄网站| 久久黄色一级片| 国产香蕉97碰碰视频VA碰碰看| 精品国产香蕉伊思人在线| 爆乳熟妇一区二区三区| 毛片网站在线播放| 中美日韩在线网免费毛片视频| 99ri精品视频在线观看播放| 亚洲欧美一区二区三区图片| www成人国产在线观看网站| 日本黄色a视频| 国产毛片高清一级国语 | 欧美日韩动态图| 欧美区一区| 欧美翘臀一区二区三区| 一级毛片a女人刺激视频免费| 啪啪永久免费av| 久久中文字幕av不卡一区二区| 国产人前露出系列视频| 少妇露出福利视频| 国产第四页| 欧美日韩第三页| 88国产经典欧美一区二区三区| 国产视频一区二区在线观看| 欧美亚洲日韩中文| 婷婷久久综合九色综合88| 国产欧美日韩18| 欧美日韩精品在线播放| 五月天综合网亚洲综合天堂网| 亚洲人成在线精品| 国产99热| 91色在线视频| 九九热视频在线免费观看| 国产剧情无码视频在线观看| 久久免费视频6| 欧美色伊人| 亚洲欧美日韩动漫| 国产精品视频导航| 久久一色本道亚洲| 亚洲无码视频一区二区三区| 欧美日韩久久综合| 精品国产成人三级在线观看| 国产欧美视频在线观看| 国产精品久久久久久久久| 亚洲免费福利视频| 精品国产三级在线观看| 美女无遮挡被啪啪到高潮免费| 黄网站欧美内射| 一级全黄毛片| 在线综合亚洲欧美网站| 欧美不卡视频在线观看| 日韩成人免费网站| 久久熟女AV| 黄色不卡视频| 9啪在线视频| 91成人免费观看| 制服无码网站| 国产欧美日韩va另类在线播放| 亚洲欧美成人在线视频| 欧美色丁香| 久久婷婷五月综合97色| 国产精品福利一区二区久久| 国产成人精品日本亚洲77美色| 亚洲欧洲日韩久久狠狠爱| 男人天堂伊人网| 国产精品成人免费视频99| 国产亚洲一区二区三区在线| 欧美激情综合一区二区| 97国产精品视频人人做人人爱| 国产成人超碰无码| 国产永久在线视频| 黄色污网站在线观看| 国内精品一区二区在线观看| 欧美中文字幕一区| 手机在线免费不卡一区二| 五月天婷婷网亚洲综合在线| 国产主播喷水| 免费观看国产小粉嫩喷水| 亚洲国产精品人久久电影| 国产亚洲精品自在线| 亚洲精品桃花岛av在线|