基于Rasch模型的高中生物測(cè)驗(yàn)命題特點(diǎn)分析

2025-10-06 00:00:00王茜

高考·上 2025年9期

命題特點(diǎn)和品質(zhì)是科學(xué)評(píng)價(jià)教學(xué)效果、學(xué)生能力的首要前提。隨著教育測(cè)量與評(píng)價(jià)領(lǐng)域最新技術(shù)和理念的不斷普及，命題特點(diǎn)和品質(zhì)分析逐漸成為教育考試數(shù)據(jù)分析中的重要內(nèi)容。當(dāng)前，在命題特點(diǎn)和品質(zhì)分析領(lǐng)域主流的理論基礎(chǔ)有經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論，兩種理論互為補(bǔ)充，各有優(yōu)勢(shì)。經(jīng)典測(cè)量理論發(fā)展較早，在教育評(píng)價(jià)領(lǐng)域發(fā)揮了重要作用。以Rasch模型為代表的項(xiàng)目反應(yīng)理論以其樣本獨(dú)立性、難度客觀性、等距性等特點(diǎn)彌補(bǔ)了經(jīng)典測(cè)量理論的不足[1]。本研究以高中生物測(cè)驗(yàn)為例，使用Rasch模型對(duì)命題的特點(diǎn)和品質(zhì)做詳細(xì)分析，探討從不同視角評(píng)價(jià)命題的技術(shù)及結(jié)論應(yīng)用。

一、研究方法

（一）高中生物試卷

本研究使用的高中生物試卷共計(jì)32題，其中客觀題（選擇題、填空題）16題，主觀題16題。客觀題以 001～012 、 M13～M16 表示，主觀題以S1701～ΩS2103 表示，其中，S1701表示第17題第1問(wèn)，以此類推。

（二）樣本選擇

以某高中三年級(jí)全體學(xué)生為樣本，本次考試，共獲得有效數(shù)據(jù)393人。

（三）數(shù)據(jù)分析方法

數(shù)據(jù)管理使用Excel，數(shù)據(jù)分析軟件為Winsteps5.4.3。該軟件為Rasch模型專用的數(shù)據(jù)分析軟件，本次數(shù)據(jù)分析選擇了分部計(jì)分模型（PartialCreditModel，PCM），主要數(shù)據(jù)分析內(nèi)容包括：?jiǎn)尉S性、試卷擬合、題目擬合、懷特圖、氣泡圖等內(nèi)容。

二、數(shù)據(jù)分析結(jié)果

（一）單維性檢驗(yàn)

單維性檢驗(yàn)分析針對(duì)命題的總體品質(zhì)，主要用于評(píng)價(jià)命題是否緊扣學(xué)科主題，單維性特征較好，說(shuō)明學(xué)生在考試過(guò)程中有且僅有計(jì)算能力這一種潛在特質(zhì)影響作答表現(xiàn)。

圖1單維性檢驗(yàn)

本次測(cè)試的單維性檢驗(yàn)結(jié)果如圖1所示。圖中橫軸表示題目的難度級(jí)別，縱軸展示的是題目得分與潛在影響因素（潛在特質(zhì)）之間的相關(guān)關(guān)系值。字母A、B、C、D和 a、b、c、d等分別代表不同的題目。通過(guò)分析，可以看出大部分題目的相關(guān)性值集中在 [-0.4，+0.4] 范圍內(nèi)，這符合Rasch模型中對(duì)單維性的理論要求。然而，A、B、C、D所代表的4個(gè)題目，其相關(guān)關(guān)系值超出了推薦范圍 [-0.4，+0.4] ，因此未能滿足單維性檢驗(yàn)的標(biāo)準(zhǔn)。這表明，S2002、S2001、S2003和M14這四個(gè)題目受到的不僅僅是單一因素的影響，可能還存在其他潛在特質(zhì)對(duì)學(xué)生作答的干擾。

圖2主成分分析

Rasch模型中還有一種基于方差的單維性檢驗(yàn)方法。結(jié)果如圖2所示。I為由題目解釋的方差，1為未解釋方差主成分分析中第1主成分，如果 Igt; 1，則說(shuō)明題目解釋的方差高于殘差中第一主成分解釋的方差，也就是說(shuō)數(shù)據(jù)中即使存在第二個(gè)能力維度對(duì)測(cè)量產(chǎn)生影響，也不影響測(cè)量結(jié)果。圖2數(shù)據(jù)表明，I為 19.5% ，1為 4.1% ，I遠(yuǎn)高于1，說(shuō)明A、a雖然受到多個(gè)潛在特質(zhì)的影響，但并未影響整體測(cè)試結(jié)果。簡(jiǎn)而言之，試題符合Rasch模型的單維性要求，能夠進(jìn)行后續(xù)分析。

（二）試卷擬合

對(duì)393名學(xué)生的數(shù)據(jù)進(jìn)行整體擬合檢驗(yàn)，結(jié)果如表1所示。

表1整體質(zhì)量檢測(cè)

Rasch模型還提供了區(qū)分度指標(biāo)，其含義與經(jīng)典測(cè)量理論的區(qū)分度相似。區(qū)分度是指測(cè)驗(yàn)題目能夠在多大程度上區(qū)分所要測(cè)量的心理品質(zhì)，區(qū)分度值越高，表明測(cè)驗(yàn)題目能夠越好地將不同能力水平的被試區(qū)分開來(lái)。Rasch模型中反應(yīng)區(qū)分度的指標(biāo)稱為Speration，相關(guān)理論建議該值應(yīng)至少大于 2^[2] 。本評(píng)測(cè)試卷項(xiàng)目區(qū)分度為14.31，取值較高。與之對(duì)應(yīng)，學(xué)生區(qū)分度為2.43，取值也達(dá)到了相關(guān)理論建議的水平。從試卷和學(xué)生的兩個(gè)角度，數(shù)據(jù)均表明試卷能夠區(qū)分不同能力水平的學(xué)生。

與Speration相配套的是Rasch信度，用于評(píng)估測(cè)驗(yàn)結(jié)果的內(nèi)部一致性。信度系數(shù)越高，表示測(cè)驗(yàn)結(jié)果的穩(wěn)定性和可靠性越強(qiáng)。理論上，理想信度值為1，而大于0.7則表示信度較高[3]。在本次評(píng)測(cè)中，試卷的整體信度為1.0，說(shuō)明題目的信度很高；學(xué)生的整體信度為0.85，屬于較高水平。試題和學(xué)生這兩個(gè)角度的統(tǒng)計(jì)結(jié)果均表明，試題的整體信度較好。

OutfitMNSQ是未加權(quán)的均方擬合統(tǒng)計(jì)量，而InfitMNSQ是加權(quán)的均方擬合統(tǒng)計(jì)量，ZSTD則是MNSQ的標(biāo)準(zhǔn)化結(jié)果。OutfitMNSQ對(duì)異常值較為敏感，InfitMNSQ則更關(guān)注題目難度與學(xué)生能力之間的數(shù)據(jù)關(guān)系。Rasch分析結(jié)果顯示，InfitMNSQ的均值為1.02，OutfitMNSQ的均值為1.07，這兩個(gè)擬合指數(shù)接近理想值1，表明數(shù)據(jù)與模型擬合良好，且測(cè)量過(guò)程未受到非目標(biāo)特質(zhì)因素的干擾。ZSTD的值越接近0越為理想[4]，本次分析結(jié)果顯示，受試者與題目的ZSTD均值在[-0.1，0.1] 區(qū)間內(nèi)，接近理想值。由此可見，整體來(lái)看，本次試題的擬合度較好，符合Rasch模型的理論要求。

（三）題目擬合

有研究指出，InfitMNSQ和OutfitMNSQ的取值應(yīng)位于[0.8，1.2]區(qū)間，而寬松的標(biāo)準(zhǔn)則認(rèn)為取值可在[0.5，1.5]之間[5]。作為高風(fēng)險(xiǎn)考試，應(yīng)該采用更為嚴(yán)格的擬合標(biāo)準(zhǔn)[6]。統(tǒng)計(jì)數(shù)據(jù)顯示，各個(gè)題目的InfitMNSQ取值范圍為[0.87，1.33]，大部分題目均處于合理范圍，表明數(shù)據(jù)與模型擬合較好。然而，M15的參數(shù)值為，這意味著在回答此題時(shí)，部分能力低的學(xué)生正確作答，而一些能力高的學(xué)生則錯(cuò)誤作答。0utfitMNSQ的取值范圍為[0.00，1.91]，其中003、007、009、M14、M15、M16和S1703的參數(shù)值分別為0.07、0.07、0.00、0.05、1.91、1.53、1.39和1.27，均有不同程度地偏離正常區(qū)間。除了M15題外，其他六個(gè)題目的InfitMNSQ值都處于[0.80，1.20]的合理范圍內(nèi)，綜合兩個(gè)擬合參數(shù)來(lái)看，可以認(rèn)為003、007、009、M14、M16和S1703六道題目是符合要求的，而M15題則受到其他因素的干擾。此外，M13題存在天花板效應(yīng)，無(wú)法進(jìn)行有效的參數(shù)估計(jì)。

相關(guān)系數(shù)（CORR.）衡量了試題與測(cè)量目標(biāo)之間的擬合程度。有研究者認(rèn)為，相關(guān)系數(shù)的最低可接受值應(yīng)為0.03，且相關(guān)系數(shù)越高，表明試題與測(cè)量目標(biāo)的匹配度越好。分析結(jié)果顯示，所有試題的相關(guān)系數(shù)均為正值，說(shuō)明試題與測(cè)驗(yàn)?zāi)繕?biāo)一致，測(cè)量的是相同的潛在特質(zhì)。由于主觀題的內(nèi)容更為豐富，其相關(guān)系數(shù)普遍較高，而客觀題中的第14題，其相關(guān)系數(shù)為整套試卷中最低，僅為0.01。

（四）懷特圖

懷特圖（WrightMap）也稱為學(xué)生—題目圖，能夠利用Rasch量尺的特性，直觀地展現(xiàn)項(xiàng)目難度與被試能力、被試與被試、項(xiàng)目與項(xiàng)目之間的關(guān)系。本次測(cè)驗(yàn)的懷特圖如圖3所示

圖3懷特圖

圖3中的中線表示Rasch量尺，量尺上的單位是Logit，它在試卷難度與學(xué)生能力水平的對(duì)比中起著重要作用。中線左側(cè)反映了學(xué)生能力分布的情況，而右側(cè)則顯示了試題難度的分布情況。M代表Mean，即學(xué)生能力和題目難度的平均值；S代表OneStandardError，表示離均值一個(gè)標(biāo)準(zhǔn)差的距離；T代表TwoStandard Error，指離均值兩個(gè)標(biāo)準(zhǔn)差的距離。刻度從上到下，學(xué)生能力水平逐漸降低，同時(shí)試題難度也相應(yīng)減小；被試之間的間隔表示他們能力的差異，項(xiàng)目之間的間隔則顯示了它們難度的差異，間距越小，表示差異越小。

圖3左側(cè)每一個(gè)“#”代表13個(gè)被試，每一個(gè)“·”代表1至12個(gè)被試。學(xué)生的能力水平處于［-0.6，1.8]之間，能力分布范圍為2.4Logit，平均值為0.772Logit。與之相對(duì)應(yīng)，題目難度平均值被設(shè)定為0，二者之差為0.772Logit，說(shuō)明該評(píng)測(cè)試卷對(duì)于被試來(lái)說(shuō)整體難度偏低。

圖3右側(cè)為題目，從分布位置上看，題目016難度最大，為3.016Logit，012難度最小，為-3.396Logit，題目難度的分布范圍為6.3Logit。

學(xué)生能力均值較試題難度均值高0.772Logit，由此可以看出學(xué)生的能力水平相對(duì)高于測(cè)驗(yàn)項(xiàng)目的難度水平。也就是說(shuō)，其項(xiàng)目難度設(shè)計(jì)與學(xué)生的實(shí)際水平之間不太吻合，難度偏低。尤其是第1、2、3、4、5、6、12、13題，均處在較為簡(jiǎn)單的區(qū)域，且這一區(qū)域并沒有學(xué)生分布。這表明本次考試，存在一定數(shù)量的簡(jiǎn)單題。與之相對(duì)應(yīng)的，測(cè)驗(yàn)中較難的題目也偏少，對(duì)于能力大于1的學(xué)生，僅有第21題第2問(wèn)和第22題第2問(wèn)兩個(gè)題目難度相對(duì)應(yīng)。

總體來(lái)看容易的試題偏多，試題之間的難度水平差距較大，難度中等的試題分布較為集中，不利于對(duì)不同能力水平的學(xué)生做出很好的區(qū)分。

（五）氣泡圖

氣泡圖是用來(lái)綜合評(píng)價(jià)擬合、測(cè)量誤差的圖形，繪圖簡(jiǎn)單且結(jié)果直觀，因此受到相關(guān)研究者的青睞。本次測(cè)驗(yàn)各題目的氣泡圖如圖5所示。

圖4氣泡圖

在圖4中，氣泡代表了每道題目，氣泡的大小反映了Rasch標(biāo)準(zhǔn)誤的大小。氣泡越小，意味著該測(cè)驗(yàn)對(duì)學(xué)生能力水平的估算越準(zhǔn)確。縱軸標(biāo)示為Measure，氣泡在縱軸上的位置代表了試題的難度參數(shù)，試題越接近頂部，表示其難度越高。理想情況下，項(xiàng)目應(yīng)接近氣泡圖的中心線。從圖中可觀察到，大多數(shù)氣泡集中在[0，1]區(qū)間，這意味著這些試題的難度差異較小。縱軸的OutfitMNSQZSTD指標(biāo)表示題目的擬合程度，數(shù)值越接近0，擬合越好，左側(cè)偏離表示過(guò)擬合，右側(cè)則代表不擬合。結(jié)合氣泡圖分析，試卷中大多數(shù)題目都落在了可接受范圍[-2，2」內(nèi)，但002和S1903顯示過(guò)擬合，意味著這些題目與模型的擬合過(guò)于緊密；M16和M15顯示不擬合，表明存在“高能力學(xué)生答錯(cuò)低難度題”和“低能力學(xué)生答對(duì)高難度題”的現(xiàn)象；M14、008和006的氣泡較大，表明它們的難度估計(jì)存在較大的誤差，對(duì)應(yīng)的測(cè)量精度較低。

三、數(shù)據(jù)分析結(jié)論

（一）試卷命題特點(diǎn)

整套試卷的難度相對(duì)學(xué)生群體偏低，有9個(gè)客觀題累計(jì)45分的題目對(duì)于參加本次考試的學(xué)生群體來(lái)說(shuō)難度較低。同時(shí)，在高水平學(xué)生對(duì)應(yīng)的難度區(qū)間上，僅有2個(gè)主觀題累計(jì)11分的題目與學(xué)生能力相匹配。整套試卷的命題特點(diǎn)以簡(jiǎn)單題目為主，高難度題目極少。

（二）試卷整體命題質(zhì)量

受難度分步的影響，因低難度題目較多，在評(píng)價(jià)中發(fā)揮的作用較小，同時(shí)，高難度題目較少，對(duì)高水平學(xué)生的區(qū)分度不高。因此，整套試卷的區(qū)分度不高，雖然達(dá)到了相關(guān)理論建議的水平，但若作為選拔性測(cè)試（常模參照測(cè)驗(yàn)），其區(qū)分度較難達(dá)到評(píng)價(jià)目的的要求。若作為標(biāo)準(zhǔn)參照測(cè)驗(yàn)，題目的難度以課程標(biāo)準(zhǔn)要求為依據(jù)，測(cè)驗(yàn)結(jié)果則起到了評(píng)價(jià)教學(xué)效果的作用，題目難度和區(qū)分度可不做要求。

（三）試題命題質(zhì)量

單維性檢驗(yàn)結(jié)果表明，部分題目單維性檢驗(yàn)結(jié)果較差，說(shuō)明該題目的作答過(guò)程中，受到了除計(jì)算能力之外的潛在特質(zhì)的影響，如猜測(cè)、閱讀理解等。涉及的題目包括了主觀題和客觀題各1個(gè)，累計(jì)11分。另有兩個(gè)主觀題目的擬合指數(shù)較差，累計(jì)12分，1個(gè)客觀題的相關(guān)系數(shù)較低，累計(jì)5分。這些題目存在較大的測(cè)量誤差，或其測(cè)量?jī)?nèi)容與測(cè)量的主要目標(biāo)一計(jì)算能力存在較大的差異，需要根據(jù)題目?jī)?nèi)容和學(xué)生作答表現(xiàn)做進(jìn)一步分析。

結(jié)束語(yǔ)

Rasch模型的分析僅針對(duì)數(shù)據(jù)特點(diǎn)，參數(shù)的優(yōu)劣并不代表命題質(zhì)量的絕對(duì)好壞。對(duì)命題特點(diǎn)的分析還應(yīng)該結(jié)合題目?jī)?nèi)容、測(cè)驗(yàn)?zāi)康牡茸鼍C合判斷。如標(biāo)準(zhǔn)參照測(cè)驗(yàn)以考查學(xué)生知識(shí)掌握情況為目的，以課程標(biāo)準(zhǔn)的難度要求為依據(jù)，對(duì)測(cè)驗(yàn)和題目的難度及其分布并無(wú)固定要求，僅需要關(guān)注單維性、擬合等指標(biāo)。但對(duì)于常模參照測(cè)驗(yàn)，其主要目的是區(qū)分不同能力水平學(xué)生，因此還應(yīng)當(dāng)特別關(guān)注難度和能力的分布關(guān)系、區(qū)分度等指標(biāo)。試卷和題目評(píng)價(jià)的結(jié)果不是獨(dú)立于應(yīng)用存在的，任何結(jié)論都應(yīng)當(dāng)結(jié)合評(píng)價(jià)的目的、命題設(shè)計(jì)等要素，在實(shí)際的應(yīng)用工作中，需要提防只關(guān)注擬合指標(biāo)的唯參數(shù)論。Rasch模型分析為命題特點(diǎn)和質(zhì)量分析提供了新的視角，在實(shí)際教學(xué)工作中需要和經(jīng)典測(cè)量理論協(xié)同使用，才有可能產(chǎn)生更高的價(jià)值。

參考文獻(xiàn)

[1]李靜璇，王秋紅，何壯，等.Rasch模型在初等教育階段試卷質(zhì)量分析領(lǐng)域的應(yīng)用[].貴陽(yáng)學(xué)院學(xué)報(bào)（社會(huì)科學(xué)版），2022，17（3）：87-92.

[2]柏毅，朱文琴，陳慧珍Rasch模型在試卷質(zhì)量分析中的應(yīng)用：以小學(xué)科學(xué)六年級(jí)技術(shù)與工程素養(yǎng)評(píng)測(cè)試卷為例[].教育測(cè)量與評(píng)價(jià)，2019（1）：25-31.

[3]肖月，桑芝芳.Rasch模型在物理學(xué)業(yè)質(zhì)量評(píng)價(jià)中的應(yīng)用研究[].物理通報(bào)，2021（6）：119-123.

[4]何壯，趙守盈.技能評(píng)分項(xiàng)目裁判員評(píng)分結(jié)果的多面Rasch模型分析：項(xiàng)目反應(yīng)理論在體育運(yùn)動(dòng)領(lǐng)域的應(yīng)用[].成都體育學(xué)院學(xué)報(bào)，2014，40（3）：43-48.

[5]何壯，袁淑莉，趙守盈.教育考試中短測(cè)驗(yàn)的分析方法：基于兩種項(xiàng)目反應(yīng)理論方法的比較研究[J].中國(guó)考試，2012（10）：18-24.

[6]何壯，袁淑莉，余水，等.心理測(cè)量在高風(fēng)險(xiǎn)考試分析中的應(yīng)用[.貴陽(yáng)學(xué)院學(xué)報(bào)（社會(huì)科學(xué)版），2020，15（2）：114-118.

高考·上2025年9期

高考·上的其它文章: 智慧課堂下高中數(shù)學(xué)單元教學(xué)的實(shí)踐思考; 新高考背景下高中智慧教育平臺(tái)個(gè)性化強(qiáng)化作業(yè)設(shè)計(jì); 高中物理力學(xué)實(shí)驗(yàn)改進(jìn)與數(shù)字化實(shí)驗(yàn)工具的應(yīng)用效果分析; 人工智能賦能高中生物學(xué)科實(shí)驗(yàn)教學(xué)策略的創(chuàng)新與實(shí)踐; 新高考視域下高中英語(yǔ)閱讀教學(xué)深度整合策略探析; 新課程背景下的跨學(xué)科教學(xué)實(shí)踐