兩種混合模型對教師資格考試中學(xué)數(shù)學(xué)試題的性別DIF研究

2024-01-04 07:56:54羅成禹楊宏博劉惠玲

考試研究 2023年5期

羅成禹楊宏博劉惠玲

[摘要]教師資格考試在性別方面進行項目功能差異（DIF）研究十分重要。當(dāng)前教師資格考試女生考生人數(shù)遠遠高于男生，即使是報考中學(xué)數(shù)學(xué)教師，女生人數(shù)仍約為男生的2倍。采用基于非參數(shù)模型的SIBTEST-觀測分繪圖法和基于參數(shù)模型的3PLM-GRM-特征曲線面積法，逐一分析2019年上半年中學(xué)數(shù)學(xué)初、高中2套試卷試題在男女性別上是否存在DIF。結(jié)果表明，2套試卷均未發(fā)現(xiàn)存在顯著的DIF，可以判定教師資格考試中學(xué)數(shù)學(xué)試題對男女生是公平的。相較而言，SIBTEST-觀測分繪圖法操作簡單，易于理解，是更可取的方法。

[關(guān)鍵詞]教師資格考試；項目功能差異；性別；SIBTEST；3PLM；GRM

[中圖分類號]G424.74[文獻標識碼]A

[文章編號]1673—1654（2023）05—021—010

項目基金教育部教育考試院“十四五”規(guī)劃支撐專項課題“基于‘四有好老師職業(yè)內(nèi)涵下的中小學(xué)教師資格考試大綱修訂研究”（NEEA2021082）。

教育公平是社會公平的基礎(chǔ)，是人生公平的起點，事關(guān)人民幸福、社會安定，對實現(xiàn)中國夢具有重要意義。作為教育“指揮棒”的考試，試題的公平性是大規(guī)模教育考試需要關(guān)注的重要問題。如果一項考試存在公平性問題，那么它的分數(shù)解釋、做出的決定和結(jié)論都將是無效的、不合理的，甚至是有害的[1]。試題的有效性、穩(wěn)定性和公平性是試題質(zhì)量的重要方面，項目功能差異（differential item functioning）是衡量試題是否對某個群體有偏差現(xiàn)象的重要指標。若具有相同能力水平或熟練水平的不同群體考生對某個題目正確作答的概率不同，則這個題目就可能存在項目功能差異[2]。

堅守“促進公平，科學(xué)選材”的初心，維護國家教育考試公平，對教師資格考試進行項目功能差異分析十分重要。當(dāng)下由于一些客觀因素，我國中小學(xué)教師、師范院校學(xué)生存在著較為嚴重的男女比例失衡問題。單從教師資格考試男女生報考人數(shù)的比例來看，考生男女比例約為1∶5。女生的總體成績和筆試通過率均高于男生，除男女考生群體本身在知識、能力等方面的差異外，是否有的試題是有利于女生而不利于男生？因此，研究教師資格考試筆試成績的性別差異就具有非常重要的意義。

目前國內(nèi)外關(guān)于項目功能差異的研究，絕大多數(shù)集中在0/1計分的題型上。對于多級計分題型的DIF檢驗方法多停留在理論研究上，要么方法過于復(fù)雜，要么存在一類錯誤較高、統(tǒng)計檢驗力較低的問題，缺乏樣本量選取的依據(jù)，應(yīng)用研究很少。實際工作中，尤其是對教育考試的研究中，試題既有0/1二級計分的客觀題型，也有多級計分的題型，而且多級計分題型賦分占全卷總分比重較大是我國教育考試的一大特色。本研究針對中小學(xué)教師資格考試《數(shù)學(xué)學(xué)科知識與教學(xué)能力》進行項目功能差異的相關(guān)研究，并試圖探討一種“混合模型”，即0/1計分試題采用0/1評分模型，多級計分試題采用多級評分模型，以期獲得一種高效、便利、直觀的DIF檢驗?zāi)Ｐ停瑸榻逃荚嘍IF檢驗研究提供實際應(yīng)用方面的參考。

一、研究對象與方法

（一）研究數(shù)據(jù)

選取2019年上半年中小學(xué)教師資格考試《數(shù)學(xué)學(xué)科知識與教學(xué)能力》（初級中學(xué)304、高級中學(xué)404）考生作答數(shù)據(jù)進行研究（見表1），初、高中數(shù)學(xué)實考人數(shù)男女生比例約為1∶2。

初、高中數(shù)學(xué)試卷均由17道題目組成，其中單項選擇題8道，每題5分，共40分，可以統(tǒng)一按照二級計分的客觀題來處理；其余試題均為多級計分試題，共110分，具體詳見表2。

（二）研究方法

第一步，對男女考生的數(shù)學(xué)成績進行描述性統(tǒng)計分析，對總成績是否存在性別差異進行t檢驗。第二步，對考試分數(shù)的內(nèi)部一致性信度和局部獨立性進行檢驗。第三步，對所有試題是否存在DIF進行分析，并具體分析造成DIF的原因，以期進一步提升命題質(zhì)量。在對試題DIF進行分析時，嘗試采用兩種混合模型，探索更適用于實際的DIF檢驗?zāi)Ｐ汀?/p>

1.非參數(shù)混合模型：SIBTEST-觀測分繪圖法

教育考試主觀題型常有10分（11評級）以上的大分值題型出現(xiàn)，不少模型常會出現(xiàn)數(shù)據(jù)溢出、擬合差、收斂慢的問題，使得很多測量軟件有評分級數(shù)的限制，而等級反應(yīng)模型沒有評分級數(shù)的限制，是分析主觀題的首選模型。根據(jù)題型的不同選擇不同的模型對數(shù)據(jù)進行分析，并且模型中的參數(shù)標刻在同一量尺上。其基本思想是：對0/1二級評分題型用3PLM，對多級評分題型用GRM，依據(jù)局部獨立性假設(shè)，2個模型計算的似然函數(shù)相乘得到一個總似然函數(shù)，從而保證3PLM與GRM的參數(shù)在同一量尺上[7]。

二、結(jié)果分析

（一）男女考生考試成績差異分析

對參加2019年上半年中學(xué)數(shù)學(xué)考試的全體考生成績進行統(tǒng)計分析，剔除零分試卷后，利用SPSS 25.0軟件分析得到男女考生數(shù)學(xué)考試的平均分、標準差、2群體差異、t-檢驗效果量見表3。

縱觀全卷，無論是卷面平均得分還是各題型分項平均得分，男女考生群體相差都很小。除高中數(shù)學(xué)案例分析題效果量絕對值大于0.2外，其余初高中數(shù)學(xué)各題型均小于0.2，說明男女考生群體差異不顯著。但僅憑這些數(shù)據(jù)并不能說明試題對于男女考生群體不存在項目反應(yīng)差異，因為有可能在相同水平下，一部分試題對男生有利，另一部分試題對女生有利，相互抵消后表現(xiàn)出無DIF情況；也有可能男女考生群體整體水平存在差異，但因題目存在DIF而弱化了這種差異。因此，需要對試題是否存在性別DIF進行檢驗。

（二）內(nèi)部一致性與局部獨立性分析

分析結(jié)果表明，試卷內(nèi)部一致性較高，從因子分析的結(jié)果看，第一特征值為第二特征值的3倍以上，基本可以判定中學(xué)數(shù)學(xué)試題是滿足單維性的；同時，KMO檢驗值均大于0.7，說明因子分析的結(jié)果是具有統(tǒng)計學(xué)意義的。

（三）SIBTEST-觀測分繪圖法DIF檢驗結(jié)果

由于面積指標作為DIF度量指標最大的困難在于缺乏面積測度抽樣標準誤，這給評價任何所發(fā)現(xiàn)差異的顯著性帶來了困難。為了更直觀地考察多級計分試題的DIF程度，本研究繪制了面積差法所檢測出的3道試題按式（1）得到的IEC曲線見圖2。3道試題確實存在一定程度的DIF，但差異并不顯著。對照表5與表6的數(shù)據(jù)，無論是正負號還是數(shù)值的相對大小以及DIF檢出率都高度一致，從不同角度不同方法驗證了結(jié)果的一致性，再次證明2019年上半年中學(xué)數(shù)學(xué)試題在性別上均不存在顯著的DIF。

三、結(jié)論與展望

以2019年上半年教師資格考試初、高中數(shù)學(xué)試卷為對象，分析在男女性別上的項目功能差異。結(jié)果表明，初、高中試卷中無論是客觀題，還是主觀題均未出現(xiàn)顯著的項目功能差異，試題質(zhì)量較高，較好地保證了考試在男女性別上的公平公正。

具體到試題方面，初中11題考查方程根的問題，屬于學(xué)科知識代數(shù)內(nèi)容，區(qū)分度達0.41，需要考生具有較好的轉(zhuǎn)化能力和靈活應(yīng)用能力；高中11題考查方程組解的問題，屬于學(xué)科知識代數(shù)內(nèi)容，區(qū)分度達0.43，需要考生具有較好的轉(zhuǎn)化能力和推理論證能力；高中16題考查以教學(xué)提問為案例的分析題，屬于教學(xué)能力教學(xué)評價內(nèi)容，區(qū)分度達0.52，需要考生具有較好的分析能力、閱讀能力、表達能力。有研究表明，男生在邏輯思維能力、空間想象能力、創(chuàng)新能力、推理和解決問題的能力方面以及需要多種解決策略的任務(wù)時具有優(yōu)勢；女生在運算求解能力方面具有優(yōu)勢，在完成計算技巧、記憶以及闡述性的任務(wù)上更好[12]。初高中11題由于數(shù)字設(shè)計較為巧妙，計算簡單，難點在于轉(zhuǎn)化和推理論證，可能對更擅長計算的女生較為不利；高中16題，表格式長篇幅的案例文字閱讀可能對男生較為不利，存在輕度DIF主要是題型結(jié)構(gòu)和考查內(nèi)容的不同所致，并非試題命制的公平性造成差異。簡答題語言規(guī)范簡潔，表述清晰明確，案例題緊扣課堂教學(xué)，貼近教學(xué)實踐，這3道試題難度適中，區(qū)分度高，仍是不折不扣的好題。

與西方國家以選擇題等客觀題為主的考試形式不同，我國的教育考試以大量大分值主觀題為主，但當(dāng)前國內(nèi)外對于多級評分試題DIF的研究很少。本研究側(cè)重應(yīng)用給出了同時檢驗多個大分值試題DIF的新思路，未來在方法的合理性、理論依據(jù)推導(dǎo)上需要進一步討論、研究、完善。在教師資格考試試題公平性問題的研究方面，除了性別外，城鄉(xiāng)差異、地區(qū)差異、師范生非師范生差異等也值得進一步研究，不斷提升命題質(zhì)量，維護教育公平，為國家科學(xué)選才。

參考文獻：

[1]關(guān)丹丹，喬輝，陳康，等.全國高考英語試題的城鄉(xiāng)項目功能差異分析[J].心理學(xué)探新，2019，39（1）：64-69.

[2] KIM M.Detecting DIF across the Different Language Groups in a Speaking Test [J].Language Testing，2001，18（1）：88-114.

[3]董圣鴻，等.三種常用DIF檢測方法的比較研究[J].心理學(xué)探新，2001，（1）：43-48.

[4] FRENCH B F，F(xiàn)INCH W H，et al. Differential Item Functioning on Mathematics Items Using Multilevel SIBTEST [J]. Psychological Test and Assessment Modeling，2016，58（3）：471-483.

[5]張龍，涂冬波.多級計分題項目功能差異常用檢測方法及比較[J].江西師范大學(xué)學(xué)報（自然科學(xué)版），2015，39（5）：441-448.

[6]杜文久.高等項目反應(yīng)理論[M].北京：科學(xué)出版社，2014：61-68.

[7]涂冬波，蔡艷，戴海琦，等.項目反應(yīng)理論新進展：基于3PLM和GRM的混合模型[J].心理科學(xué)，2011，34（05）：1189-1194.

[8]楊志明.考試公平性之題目及試卷功能差異探析[J].教育測量與評價，2017，（9）：5-12.

[9]朱乙藝，韋小滿.DIF值和樣本量對SIBTEST檢測方法的影響研究[J].中國考試，2012，（9）：9-14.

[10]黃曉婷，韓雨婷，吳方文.高考語文作文試題的城鄉(xiāng)公平分析[J].中國考試，2018，（2）：1-5.

[11]朱乙藝，韋小滿.我國成就測驗的項目功能差異研究述評[J].教育與考試，2012，（1）：78-81.

[12]李付鵬，宋吉祥，杜海燕，等.基于Rasch模型的高考數(shù)學(xué)性別DIF檢驗[J].中國考試，2019，（3）：43-47.

[13] LI H H，STOUT W. A New Procedure for Detection of Crossing DIF [J]. Psychometrika，1996，61（4）：647-677.

[14] Chalmers R Philip.Improving the Crossing-SIBTEST Statistic for Detecting Non-uniform DIF [J].Psychometrika，2018，83（2）：376-386.

Gender DIF Research on Math Subject of the NTCE Based on Two Mixed Model

Luo Chengyu Yang Hongbo Liu Huiling

National Educational Examinations Authority，Beijing，100084

Abstract：It is very important to conduct research on the Differential Item Functioning（DIF）of the NTCE in terms of gender.At present，the number of female test-takers in the National Teacher Certification Examination（NTCE）is much higher than that of male test-takers.Even if they are applying for mathematics teachers in middle schools，the number of female test-takers is still twice that of male test-takers.This study analyzes test gender fairness of the mathematics teaching abilities test in the first test of NTCE 2019 through conducting DIF analyses，which based on the SIBTEST-score drawing method and 3PLM-GRM-item characteristic curve area difference method.The result shows that no significant DIF values were found in the two NTCE papers between male and female test-takers. This paper considers that the SIBTEST-score drawing method is simple and easy to understand，and is a preferred method.

Key words：NTCE，DIF，Gender，SIBTEST，3PLM，GRM

（責(zé)任編輯：吳茳）