



摘" 要" "基于項目反應(yīng)理論的學(xué)業(yè)質(zhì)量監(jiān)測已成為當(dāng)今教育評價改革的有效手段和重要實施項目,為推動區(qū)域監(jiān)測的有效實施,從大型學(xué)業(yè)質(zhì)量監(jiān)測的抽樣設(shè)計與等值數(shù)據(jù)分析入手,深入淺出地闡釋學(xué)業(yè)質(zhì)量監(jiān)測項目的完整技術(shù)框架,對學(xué)業(yè)質(zhì)量監(jiān)測的水平等級劃分及多維項目等值技術(shù)提出優(yōu)化建議,基于PISA測試定制軟件ConQuest的技術(shù)參數(shù)設(shè)置原理進(jìn)行數(shù)學(xué)闡釋。
關(guān)鍵詞" 義務(wù)教育;學(xué)業(yè)質(zhì)量監(jiān)測;項目反應(yīng)理論;教育評價;ConQuest量尺分?jǐn)?shù);等值技術(shù);等級劃分;PISA
中圖分類號:G40-05" " 文獻(xiàn)標(biāo)識碼:B
文章編號:1671-489X(2024)15-0-05
DOI:10.3969/j.issn.1671-489X.2024.15.127
0" 引言
對比分析歷年的國家和省級義務(wù)教育質(zhì)量監(jiān)測樣本縣結(jié)果報告發(fā)現(xiàn),大型學(xué)業(yè)質(zhì)量監(jiān)測基本采用相對一致的項目反應(yīng)理論(IRT)模型及技術(shù)參數(shù),呈現(xiàn)了當(dāng)前義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測的主流測試技術(shù)。區(qū)域監(jiān)測作為義務(wù)教育質(zhì)量監(jiān)測體系的組成之一,已納入?yún)^(qū)域教育評價改革工作規(guī)劃。為推動當(dāng)前區(qū)域?qū)W業(yè)質(zhì)量監(jiān)測科學(xué)發(fā)展工作,做好國家和省級義務(wù)教育質(zhì)量監(jiān)測結(jié)果運用工作,本文對大型學(xué)業(yè)質(zhì)量監(jiān)測的抽樣設(shè)計和項目反應(yīng)理論應(yīng)用技術(shù)進(jìn)行分析闡釋,以期幫助一線中小學(xué)教育測量人員對學(xué)業(yè)質(zhì)量監(jiān)測技術(shù)有系統(tǒng)的了解和掌握。
1" 抽樣設(shè)計
鑒于義務(wù)教育階段學(xué)校和學(xué)生量大、面廣的特點,以外顯分層變量進(jìn)行分層,采用分層不等概率抽樣的方式,按照抽樣設(shè)計效率概念公式將分階段抽樣樣本量折合為簡單隨機(jī)抽樣樣本量,以此抽樣思想確定樣本縣抽樣學(xué)校數(shù)以及每個學(xué)校計劃抽樣學(xué)生數(shù)。通常分階段整群抽樣的設(shè)計效率依賴于群的規(guī)模大小和組內(nèi)相關(guān)系數(shù)的大小。
1.1" 抽樣原理
按照統(tǒng)計學(xué)定義,以抽樣的平均值方差作為抽樣方差,樣本均值對總體均值估計的精度可以通過均方誤差描述。根據(jù)樣本估計量事先給定的抽樣絕對誤差(一般設(shè)定在95%置信區(qū)間內(nèi),即對應(yīng)約2倍的樣本均值標(biāo)準(zhǔn)誤,抽樣誤差近似視為樣本均值誤差)計算有效樣本量,即簡單隨機(jī)抽樣的樣本量。簡單隨機(jī)抽樣的抽樣誤差(成數(shù)的抽樣平均誤差)公式為:
其中n*為有效樣本量,p為總體參數(shù)(如學(xué)業(yè)質(zhì)量監(jiān)測抽樣可理解為男女性別比率)。一般國測報告中省抽樣誤差控制在4%,可計算有效樣本不低于156人。
兩階段整群抽樣的有效樣本量是指從抽樣精度的角度,樣本均值的方差與簡單隨機(jī)抽樣樣本均值方差相同時,簡單隨機(jī)樣本對應(yīng)的樣本量。按照設(shè)計效率的概念及定義公式,分階段整群抽樣的設(shè)計效率可采用如下公式計算:
deff=1+(n-1)p
根據(jù)deff的公式,實際樣本與有效樣本的關(guān)系可用下式表示:
nc=n*×[1+(n-1)p]
其中nc為兩階段整群抽樣的實際樣本量,n*為有效樣本量,n為每群中抽取的樣本數(shù)(通常n至少大于20),p為組內(nèi)相關(guān)系數(shù)。如總體參數(shù)p在樣本統(tǒng)計量95%的置信區(qū)間內(nèi),樣本估計量的絕對誤差不超過5%,樣本統(tǒng)計量近似服從標(biāo)準(zhǔn)正態(tài)分布,對應(yīng)的標(biāo)準(zhǔn)誤的2倍為5%,p取0.1,n=20,要滿足上述抽樣精度,第一階段需抽取58所學(xué)校,第二階段在抽到的學(xué)校中抽取20名學(xué)生。
1.2" 抽樣步驟
1.2.1" 分層
根據(jù)分層變量將樣本抽樣總體學(xué)校分層。
1.2.2" 分階段抽樣
第一階段,在每層內(nèi)采用PPS(概率與元素的規(guī)模大小成比例)的方法抽取學(xué)校(采用等距抽樣確定);第二階段,在抽取到的每個學(xué)校采用簡單隨機(jī)抽樣的方法抽取學(xué)生(采用隨機(jī)數(shù)表)。
1.2.3" 設(shè)計權(quán)重
在抽樣調(diào)查中每個樣本單元(被試)不僅代表自己,而且代表研究總體中那些沒有被選入的樣本單元。進(jìn)行目標(biāo)變量的有效估計和推斷時,需要把調(diào)查到的原始結(jié)果擴(kuò)大到能代表研究總體的情況,進(jìn)而得到總體參數(shù)的無偏估計。在多階段抽樣條件下,設(shè)計權(quán)重是每個單元在不同階段入樣概率倒數(shù)的乘積。
1)學(xué)校的設(shè)計權(quán)重(w11):
其中,Si為i層的所有學(xué)生數(shù),Sij為i層第j個樣本學(xué)校學(xué)生人數(shù),mi為i層抽到的學(xué)校個數(shù)。
2)學(xué)生的設(shè)計權(quán)重(w22):
其中,Sij為i層第j個樣本學(xué)校學(xué)生人數(shù),Sijk為i層第j個樣本學(xué)校計劃參加測試的學(xué)生人數(shù)。
每個樣本學(xué)生的設(shè)計權(quán)重是兩階段權(quán)重的乘積,即:
在計算樣本縣學(xué)業(yè)成績平均分時將樣本縣所屬的樣本學(xué)生成績?nèi)〖訖?quán)平均值可以得到樣本縣平均分,采用Fay平衡半樣本方法可計算樣本縣平均分的抽樣方差的估計值,即得到抽樣標(biāo)準(zhǔn)誤,以此評估樣本縣平均分的偏離程度。R語言軟件包survey的svrepdesign命令可以進(jìn)行平衡半樣本方法的方差估計。國際學(xué)生測評項目(PISA)采用KeyQuest軟件進(jìn)行抽樣設(shè)計,被試權(quán)重由抽樣軟件生成。
2" 學(xué)業(yè)描述
國測和省測監(jiān)測學(xué)科結(jié)果報告一般采用兩種指標(biāo)描述學(xué)生學(xué)業(yè)成績:一是量尺分?jǐn)?shù),通常采取常模參照,如國家義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測以每學(xué)科首次監(jiān)測平均分為常模;二是水平等級,通常采取標(biāo)準(zhǔn)參照,如國家義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測依據(jù)監(jiān)測學(xué)科的國家課程標(biāo)準(zhǔn),借助項目反應(yīng)理論劃分確定水平等級。
2.1" 量尺分?jǐn)?shù)
從2022年山東省首次義務(wù)教育學(xué)業(yè)質(zhì)量監(jiān)測樣本縣監(jiān)測結(jié)果報告分析可以看出,山東省監(jiān)測采用PISA和國家義務(wù)教育質(zhì)量監(jiān)測一致的測量技術(shù)模型程序進(jìn)行。山東省首次監(jiān)測的文化課學(xué)科有數(shù)學(xué)和科學(xué)(初中物理、生物、地理)兩門課程,量尺分?jǐn)?shù)分別呈現(xiàn)學(xué)生學(xué)科總成績及內(nèi)容維度、認(rèn)知維度、核心素養(yǎng)表現(xiàn)的各子維度成績。通過閱讀PISA的有關(guān)監(jiān)測結(jié)果數(shù)據(jù)發(fā)現(xiàn),PISA監(jiān)測同一年度的三門學(xué)科領(lǐng)域(閱讀、數(shù)學(xué)、科學(xué))采用IRT模型進(jìn)行學(xué)生能力成績的估計,又由于同年度某學(xué)科測試并不是由一個題本完成,而是由多個題本完成,每個題本由不同的試題題塊構(gòu)成,即平衡不完全題塊設(shè)計(BIB),可采用同時估計或分別估計等化測量能力和試題參數(shù)。
2022年山東省義務(wù)教育質(zhì)量監(jiān)測在模型估計方程中設(shè)置全省參測樣本學(xué)生學(xué)科能力參數(shù)的平均值為0,同時采用補償性多維IRT模型,將同一學(xué)科按不同角度劃分的不同維度的各子維度能力值進(jìn)行估計(同樣設(shè)置各子維度的樣本均值為0),其中初中科學(xué)可劃分為物理、生物、地理三個不同的內(nèi)容子維度,采用項間多維形式將三科能力參數(shù)分三個子維度估計標(biāo)定,認(rèn)知維度和學(xué)科素養(yǎng)表現(xiàn)維度采用項內(nèi)多維形式估計標(biāo)定。將估計的服從標(biāo)準(zhǔn)正態(tài)分布的學(xué)科整體和子維度能力值統(tǒng)一轉(zhuǎn)換為平均分為500、標(biāo)準(zhǔn)差為100的量尺分?jǐn)?shù),國測初中科學(xué)內(nèi)容維度采取平均分為200、標(biāo)準(zhǔn)差為50的轉(zhuǎn)換參數(shù),其用意之一主要是體現(xiàn)初中科學(xué)為合考
科目。
2.2" 等值技術(shù)
大型學(xué)業(yè)質(zhì)量監(jiān)測項目在系統(tǒng)整體設(shè)計時均考慮了不同年度相同科目的等值,基于項目反應(yīng)理論的等值技術(shù)在學(xué)業(yè)質(zhì)量監(jiān)測中被廣泛采用。利用項目反應(yīng)理論,理論上對任意兩個不同的測驗都可以進(jìn)行等值,但在實踐中,只有兩個測驗檢測的是相同的潛在特質(zhì),潛在特質(zhì)的維度相同,并且有共同題或有些被試同時接受兩份測驗即存在重疊測驗資料,才能進(jìn)行有意義的等值分析。對兩個測驗進(jìn)行等值的關(guān)鍵步驟是確定等值常數(shù)。確定等值常數(shù)的方法有很多,但是在實踐中用得最多的方法是特征線法(“HB”算法)。假設(shè)X測驗和Y測驗,含有N個相同試題,這部分相同試題被稱為錨題。在等值過程中,需制定一個測驗為基測驗,然后將另一個測量值標(biāo)定在基測驗上,計算兩位具有相同能力值的被試在N個共同題的兩份測驗的真分?jǐn)?shù)(真分?jǐn)?shù)為具備能力θ的被試在整個試卷各試題的特征曲線之和,即各題答對概率之和)。由于是共同題,將所有被試的真分?jǐn)?shù)差的平方和求極小值,得到兩個等值常數(shù)。將不同測驗的項目參數(shù)和被試能力值標(biāo)定在同一能力量尺上,以便進(jìn)行有關(guān)等值比較[1]。
基于等值常數(shù)的確定,不同項目反應(yīng)理論測量
軟件對被試潛質(zhì)和項目參數(shù)的等值實現(xiàn)有著不同的
側(cè)重,如MULTILOG、R語言plink包等軟件采用項
目特征線原理的“HB”算法,能夠?qū)煞轀y驗資料
合并估計為同一量尺的能力值和項目參數(shù),而
PISA測試定制軟件ConQuest不含等值軟件模塊,跨年度的等值通常采用“鏈接”等值方法實現(xiàn)。2015年之前,PISA的等值方法采用均值/方差法(MV),采取線性轉(zhuǎn)換的方式分別標(biāo)定以實現(xiàn)跨年度等值。因2015年之前PISA測試用的都是單參數(shù)模型(單參數(shù)模型區(qū)分度為1),經(jīng)典的等值轉(zhuǎn)換公式中的斜率等值常數(shù)為1,故等值常數(shù)只有一個截距值,也被稱為均值/均值(MM)法。PISA2015進(jìn)行跨年度等值時,因換用兩參數(shù)模型,采用的是同時標(biāo)定法。
在大型學(xué)業(yè)質(zhì)量監(jiān)測中,對參測學(xué)生學(xué)科子維度的能力測試是非常必要和重要的數(shù)據(jù)處理環(huán)節(jié),通常采用多維IRT模型。多維IRT模型定義坐標(biāo)原點到項目正確反應(yīng)概率為0.5的等概率線的距離為項目難度的絕對值。多維項目難度參數(shù)定義為:bj=-dj/MDISCj
,其中,ajk為子維度區(qū)分度,dj為截距參數(shù),為試題難度[2]。
多維IRT模型在做等值分析時相對復(fù)雜些,需要將ConQuest估計的試題整體難度參數(shù)還原為多維項目截距參數(shù),根據(jù)多維項目難度參數(shù)定義公式得知試題難度參數(shù)只是將截距參數(shù)根據(jù)試題自身區(qū)分度向量的模進(jìn)行了縮放??梢越梃b單維IRT模型等值原理,多維IRT模型通過合適的轉(zhuǎn)換矩陣A和B,將不同測驗的能力和試題參數(shù)等值到同一量尺上,從而實現(xiàn)多維結(jié)構(gòu)的等值。通常用于多維等值轉(zhuǎn)換的公式為:
其中、、表示新測驗的能力參數(shù)向量、區(qū)分度參數(shù)向量和截距參數(shù),、、表示新測驗等值到基測驗上的能力參數(shù)向量、區(qū)分度參數(shù)向量和截距參數(shù)。
對于項目間多維可采用均值/均值法和均值/標(biāo)準(zhǔn)差(MS)法進(jìn)行等值,類似單維模型的等值算法,由兩個不同測驗錨題參數(shù)的均值和方差計算等值常數(shù)矩陣(其中等值斜率矩陣A為對角矩陣),新測驗各子維度的能力值根據(jù)等值常數(shù)矩陣標(biāo)定到基測驗上,此等值方式簡單。也可采用同時標(biāo)定法,將不同年度的樣本(含有足夠錨題)合并到一份測驗中進(jìn)行同時標(biāo)定,采用類似單維標(biāo)定的方式,根據(jù)基測驗的能力值與已有的量尺分?jǐn)?shù)估算轉(zhuǎn)換常數(shù),得到轉(zhuǎn)換線性方程,將新測驗的能力值轉(zhuǎn)換到量尺分?jǐn)?shù)上,從而實現(xiàn)等值。此方法理論上誤差小。
對于國家義務(wù)教育質(zhì)量監(jiān)測的初中科學(xué)(測驗題本含物理、生物、地理三個內(nèi)容維度試題)科目,可采用項目間三維模型實現(xiàn)與起始年度(2017年)的等值,采取MM或MS法進(jìn)行等值標(biāo)定。從2020年的樣本縣監(jiān)測報告推斷出目前國家義務(wù)教育質(zhì)量監(jiān)測的初中科學(xué)沒有考慮物理、生物、地理三科的跨年度等值。
2.3" 等級劃分
國家義務(wù)教育課程標(biāo)準(zhǔn)將學(xué)生學(xué)業(yè)水平劃分為I(不合格)、II(合格)、III(良好)、IV(優(yōu)秀)四個水平等級,國家義務(wù)教育質(zhì)量監(jiān)測的學(xué)生學(xué)業(yè)等級描述內(nèi)容總體上由專家組初步制定和根據(jù)測試結(jié)果修改完善兩個階段組成,并和試題的設(shè)計與復(fù)查融合在一起,通常采用修正的安格夫法進(jìn)行等級臨界點的劃分。而PISA測試采用類似標(biāo)簽法進(jìn)行等級臨界點的劃分,基于精熟度劃分試題所屬的等級水平組,利用項目反應(yīng)理論將試題難度和學(xué)生的能力分布特征統(tǒng)一到同一個量尺上,從而實現(xiàn)學(xué)生的精熟度水平和試題難度在一個量尺上表征。參照試題難度參數(shù)與學(xué)生能力值的匹配性檢驗——懷特圖,在此量尺上將測評題目從易到難排列、學(xué)生的能力從低到高分布;經(jīng)專家評議后在題冊中選擇某一個題目作為劃分等級的標(biāo)志參考。如PISA等級劃分以項目反應(yīng)理論為基礎(chǔ),借助預(yù)期成功率、水平寬度、反應(yīng)概率等關(guān)鍵變量的定義規(guī)則劃定等級臨界點。預(yù)期成功率、水平寬度、反應(yīng)概率的定義描述如下。
1)預(yù)期成功率指在均衡分布于同一等級水平組的試題組成的測試中,處于該水平的學(xué)生回答試題時被期望的正確率。PISA認(rèn)為預(yù)期成功率為至少正確完成該等級水平組50%的試題,在中間及偏上水平的學(xué)生可以達(dá)到更高的正確率。取預(yù)期成功率為50%的最低被試能力值為該水平層級的下限等級分界點。
2)水平寬度指各水平上下界之間的距離。不同水平應(yīng)該有大約基本相等的寬度,有時也不做此方面的硬性要求,如PISA科學(xué)素養(yǎng)測試中的水平寬度設(shè)置為0.8logits。最低水平下限的確定服從“最低水平的寬度與其他水平的寬度基本相同”的假定。
3)反應(yīng)概率指當(dāng)某試題難度值與學(xué)生能力值匹配時,學(xué)生正確回答該試題的概率,即確定該層次水平中中等能力水平的學(xué)生正確解決該層次中平均難度試題的概率值。
在滿足預(yù)期成功率的基礎(chǔ)條件下,水平寬度(a)與該層級的學(xué)生反應(yīng)概率值(b)之間存在一定約束條件公式,基于此公式可計算水平寬度,劃分出上限等級分界點。水平寬度與該層級的學(xué)生反應(yīng)概率值的關(guān)系公式為:
在實際的等級劃分中為避免層級的區(qū)間重疊,可以根據(jù)預(yù)期成功率結(jié)合約束條件公式從優(yōu)先劃分最高等級的下限分界點開始,再以此劃分低等級的下限分界點。在應(yīng)用單維項目反應(yīng)理論對被試的整體學(xué)業(yè)水平等級劃分后,依據(jù)子維度能力向量合成疊加構(gòu)成整體能力值及個體從屬整體的基本思想,若整體能力為某一水平等級,則各子維度也處于同一水平等級??紤]到多維項目反應(yīng)理論(包括題間多維和題內(nèi)多維)一般多采用補償模型,應(yīng)用多維模型進(jìn)行不同維度的子能力值和項目參數(shù)估計后,在整體能力層級上下限分界點劃定的區(qū)間內(nèi),對應(yīng)將各子能力值排序后確定各子能力的等級區(qū)間分
界點。
3" 軟件應(yīng)用
3.1" 參數(shù)估計
項目反應(yīng)理論的核心為試題參數(shù)和能力值的估計,ConQuest軟件是PISA測試的定制分析軟件,前期版本以拉希創(chuàng)制的單參數(shù)邏輯斯蒂模型為基礎(chǔ)[3],采取聯(lián)合極大似然估計(JMLE)和邊際最大似然估計(MMLE)構(gòu)建模型方程進(jìn)行能力和試題參數(shù)估計。其中,聯(lián)合極大似然估計在參數(shù)估計Estimate語句中采用的方法為(method=jml);邊際最大似然估計在參數(shù)估計Estimate語句中采用的算法可分為邊界積分方法(method=quadrature)、蒙特卡羅方法(method=montecarlo)和高斯-厄米特積分(method=gauss)法,默認(rèn)的是高斯-厄米特積分法。聯(lián)合極大似然估計是對能力參數(shù)與試題參數(shù)同時估計,邊際最大似然估計是通過作答向量的邊際似然函數(shù)估計試題參數(shù),在具體參數(shù)估計計算積分時可采用邊界積分、高斯積分和蒙特卡羅采樣積分法。
ConQuest軟件既可以估計試題參數(shù),也可以估計被試能力值,分別通過show parameters和show
cases語句實現(xiàn)。估計被試時由Estimates設(shè)定似
然方程估計能力參數(shù)格式類型,即由Estimates=
type語句設(shè)定,type可以是eap(貝葉斯法的期望估計值)、latent(似真值估計)、mle(邊際似然估計)、wle(加權(quán)似然估計)和none,也可由plausible給出似真值文件,如plausible=mdim.pls,通常PISA采用5個不同的似真值描述被試能力值,同時PISA給出似真值的平均估計值。當(dāng)對試題參數(shù)進(jìn)行估計時,默認(rèn)是使用似然值估計,即latent。在PISA類測試中通常設(shè)置被試能力分布均值為0,以便于跨年度的比較,通過如下語句
完成:
Set constraints=cases;
通常在估計學(xué)科整體學(xué)業(yè)表現(xiàn)時采用單維模型,在估計各子維度能力時采用補償性多維項目模型。以某學(xué)校初中七年級科學(xué)年度學(xué)業(yè)考試為例(188名考生,地理、生物合考。其中地理29題,生物38題;地理為維度1,生物為維度2),采用單參數(shù)多維多級評分模型,ConQuest軟件代碼如下:
datafile msd.dat;
format id 1-8 response 10-76;
labels lt;lt;msd.txt;
codes 0,1,2;
key 1111111111111111111111111111111111111111111111111111111111111111111! “1”;
key xxxxxxxxxxxxxxxxxxxxxxxxx2222xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx222222" ! “2”;
score(0,1)(0,1) () !item(1,2,3,4,5,6,7);
score (0,1) (0,1) () !item(8,9,10,11,12,13,14,15,16,
17,18,19,20,21,22,23,24,25);
score (0,1,2)(0,1,2)() !item(26,27,
28,29);
score (0,1) () (0,1) !item(30,31,32,33,
34,35,36,37,38,39,40,41,42,43,44,45,46,
47,48);
score (0,1) () (0,1) !item(49,50,51,52,53,54,55,56,
57,58,59,60,61);
score(0,1,2)()(0,1,2) !item(62,63,64,
65,66,67);
model item + item* step;
Set constraint=cases, update=yes;
Estimate ! method=gauss;
itanal ! estimates=latent gt;gt;MSD.itn;
show cases!estimates=eap gt;gt;MSD.eap;
show cases ! estimate=mle gt;gt;MSD.mle;
show cases!estimates=latent gt;gt;MSD.pls;
show cases!estimates=wle gt;gt;MSD.wle;
show ! estimates=eapgt;gt;MSD.shw;
3.2" 適配度及項目差異檢驗
3.2.1" 適配度檢驗
ConQuest的模型適配度通常為試題適配度檢驗,即比較考生在試題上的實際表現(xiàn)與應(yīng)用IRT模型所估計出的預(yù)期表現(xiàn),通常習(xí)慣上把能力量尺分割成等距的10~15個區(qū)間,某個能力組別考生在某個試題作答正確的比例為實得百分比,即某個能力組內(nèi)的考生答對某試題的總數(shù)與該能力組的考生總?cè)藬?shù)之比。該能力組的期望百分比為以每一能力組別的組中點代表該組的能力值,以該值按照IRT模型計算在該題的正確反應(yīng)概率,將實得百分比與期望百分比之差作為原始?xì)埐睿瑢⒃細(xì)埐顦?biāo)準(zhǔn)化后轉(zhuǎn)換為標(biāo)準(zhǔn)化殘差,可構(gòu)建卡方檢驗,通常采用Q1指標(biāo)檢驗?zāi)P瓦m配度。ConQuest軟件有兩種形式的卡方擬合指標(biāo):Outfit MNSQ(未加權(quán))和Infit MNSQ(加權(quán)后),兩項指標(biāo)均由殘差計算而來,一般取Outfit MNSQ指標(biāo),建議取0.5~1.5的范圍,表示該題對測量具有生產(chǎn)性。
3.2.2" 項目差異功能
不同測量都是由具體的項目試題構(gòu)成,具有不同文化背景和生活環(huán)境的被試由于對試題的熟悉程度、理解能力等方面不同,可能造成結(jié)果的不同,從而導(dǎo)致測量結(jié)果對一些群體的個體有利,對其他群體個體不利,即導(dǎo)致項目功能差異(DIF)現(xiàn)象。利用基于拉希模型的隨機(jī)系數(shù)多項式Logit模型可以獲取不同組別的DIF估計值,設(shè)用γ表示項目與有關(guān)因素變量的交互效應(yīng),即表示不同組別群體在試題難度上的差異。美國教育考試服務(wù)中心對DIF進(jìn)行了分類,把ConQuest軟件估計的DIF效應(yīng)量范圍劃定為:2γ<0.426為輕微DIF;0.426≤
2γ<0.638為中度DIF;2γ≥0.638為嚴(yán)重DIF。
ConQuest軟件的DIF檢定采用多面模型進(jìn)行DIF分析,此DIF分析原理為采取項目反應(yīng)理論取向的DIF鑒定法,通過計算兩個群體得到的兩條試題特性曲線之間的面積實現(xiàn)比較DIF。即不存在DIF時,一道試題在兩個群體的試題特性曲線是重合的,所夾面積為0。根據(jù)任兩條試題特性曲線(ICC)之間所夾面積的通用計算公式,對于單參數(shù)模型在一定能力區(qū)間內(nèi)兩條曲線所夾面積為等量尺后目標(biāo)群體與參照群體的試題難度值差的絕對值。
現(xiàn)以八年級地理區(qū)域?qū)W業(yè)考試為例分析,ConQuest代碼為:
datafile dldif.dat;
format id 1-9 xb 10 response 11-39;
labels lt;lt;dldif.txt;
codes 0,1,2;
key 11111111111111111111111111111 ! “1”;
key xxxxxxxxxxxxxxxxxxxxxxxxx2222 ! “2”;
model item + item * step - xb + item * xb;
Set constraint=cases, update=yes;
Estimate ! stderr=full, method=gauss;
show !table=2gt;gt; dldif.shw;
其中,“model item + item* step - xb + item*
xb”語句中涉及項目和性別兩個方面,當(dāng)ConQuest傳遞數(shù)據(jù)時,它將識別項目和性別變量的所有可能組合,并構(gòu)建58個通用項目(兩個個性別的29個試題)。模型聲明要求使用項目、性別主效應(yīng)以及項目和性別之間的交互效應(yīng)來描述對這些通用項目進(jìn)行正確響應(yīng)的概率,同時項目評估模型使用分部模型。
4" 結(jié)束語
總之,以PISA測試技術(shù)為代表的大型學(xué)業(yè)質(zhì)量
監(jiān)測項目,技術(shù)細(xì)節(jié)內(nèi)涵豐富,需要探索學(xué)習(xí)的內(nèi)容尚有許多。鑒于PISA監(jiān)測項目的不同目標(biāo)要求只測評學(xué)生的宏觀學(xué)科能力素養(yǎng),而綜合考量基于區(qū)域監(jiān)測的診斷功能考慮,在進(jìn)行學(xué)生學(xué)科能力素養(yǎng)水平測量的同時還要兼顧微觀認(rèn)知診斷?;诖?,在應(yīng)用項目反應(yīng)理論測試學(xué)生核心素養(yǎng)能力的同時融合認(rèn)知診斷理論模型,能夠更好地發(fā)揮區(qū)域監(jiān)測宏觀測量和微觀診斷的雙重功能,從而提高區(qū)域監(jiān)測效能。
5" 參考文獻(xiàn)
[1] 穆明.基于IRT的測驗等值應(yīng)用研究[J].教育與裝備研究,2023,39(2):64-70.
[2] 杜文久.高等項目反應(yīng)理論[M].北京:科學(xué)出版社,2014:
61-62.
[3] 希爾倫斯,格拉斯.教育評價與監(jiān)測:一種系統(tǒng)的方
法[M].邊玉芳,譯.北京:教育科學(xué)出版社,2017:190-191.
作者簡介:邢建,淄博市教育招生考試院副院長;穆明,高級教師。