王曉慶 羅 芬 丁樹良 熊建華
(江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,南昌 330022)
?
多級(jí)評(píng)分計(jì)算機(jī)化自適應(yīng)測驗(yàn)動(dòng)態(tài)調(diào)和平均選題策略*
王曉慶羅芬丁樹良熊建華
(江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院,南昌 330022)
摘要:對(duì)于等級(jí)反應(yīng)模型下計(jì)算機(jī)化自適應(yīng)測驗(yàn)構(gòu)建一個(gè)新選題策略,利用調(diào)和平均數(shù)以更好地度量難度參數(shù)向量與能力估計(jì)值之間的距離;調(diào)節(jié)區(qū)分度參數(shù)的冪指數(shù)以控制其在測驗(yàn)各階段對(duì)項(xiàng)目選擇的不同影響;利用項(xiàng)目信息函數(shù)提高測驗(yàn)的精度,并綜合權(quán)衡能力估計(jì)精度和項(xiàng)目曝光率。模擬實(shí)驗(yàn)表明在同等實(shí)驗(yàn)條件下該策略與著名的最大Fisher 信息量選題策略(MFI)相比,僅僅測驗(yàn)長度多用兩個(gè)項(xiàng)目,能力估計(jì)精度基本相當(dāng),而曝光率有很明顯優(yōu)勢,只為MFI的十分之一,這大大提高了測驗(yàn)安全性。
關(guān)鍵詞:等級(jí)反應(yīng)模型;計(jì)算機(jī)化自適應(yīng)測驗(yàn);動(dòng)態(tài)綜合選題策略;調(diào)和平均
1引言
計(jì)算機(jī)化自適應(yīng)測驗(yàn)(computerized adaptive testing,CAT)依靠大型題庫,采用現(xiàn)代測量理論,自行適應(yīng)被試水平,靈活施測難度最恰當(dāng)且性能優(yōu)良的項(xiàng)目,從而實(shí)現(xiàn)對(duì)被試的高效測量(漆書青,戴海琦,丁樹良,2002)。許多大型的測驗(yàn)都采用了CAT形式,例如美國的研究生入學(xué)考試(GRE)、美國商學(xué)院研究生入學(xué)考試(GMAT)和美國的醫(yī)生護(hù)士資格考試(NCLEX)等。CAT包括六個(gè)基本組成部分:所采用的項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)模型、題庫、初始項(xiàng)目的選擇、選題策略、特質(zhì)估計(jì)方法和測驗(yàn)終止規(guī)則(Weiss & Kingsbury,1984)。其中選題策略是CAT的重要環(huán)節(jié)之一,關(guān)系到測量準(zhǔn)確性,測驗(yàn)安全和測驗(yàn)信度及效度(毛秀珍,辛濤,2011)。
0~1評(píng)分CAT通常采用最大Fisher信息量(MFI)(Lord,1977)(以下將Fisher信息量簡稱為信息量)選題策略,該策略只需施測較少項(xiàng)目就能準(zhǔn)確估計(jì)被試能力。IRT指出能力的測量方差為測驗(yàn)信息量的倒數(shù)(漆書青等,2002),即測驗(yàn)信息量越大,對(duì)潛在特質(zhì)的估計(jì)標(biāo)準(zhǔn)誤差就越小,CAT測量的精度越高。因此,CAT的選題策略往往是MFI或其變式(李銘勇,張敏強(qiáng),簡小珠,2010)。由于MFI使高區(qū)分度項(xiàng)目過早使用或使用頻繁,而低區(qū)分度項(xiàng)目很少使用甚至不使用,導(dǎo)致題庫中的項(xiàng)目使用率不均勻,從而危害了考試的安全(Chang & Ying,1996,1999)。針對(duì)這種測驗(yàn)安全問題,國內(nèi)外研究者從用條件概率方法(簡稱SH法)(Sympon & Herrer,1985;Stocking & Lewis,1998)和改進(jìn)選題策略這兩方面入手以控制項(xiàng)目的最大曝光率。由于SH方法不能提高低曝光率項(xiàng)目的使用率且當(dāng)題庫更新時(shí),必須重新模擬計(jì)算曝光參數(shù)(程小揚(yáng),丁樹良,嚴(yán)深海,朱隆尹,2011)。因此更多的學(xué)者尋求基于MFI的改進(jìn)策略。
Chang和Ying(1996,1999)針對(duì)MFI安全問題,提出了a-分層和按b分塊按a分層選題,這兩種方法提高了低區(qū)分度項(xiàng)目的使用率,卻不能明顯降低高曝光率項(xiàng)目的使用率。程小揚(yáng)等人(2011)認(rèn)為a-分層選題策略中分層的數(shù)目是預(yù)先確定的,在同一層中對(duì)備選項(xiàng)目的要求是其難度與能力估計(jì)值相匹配;但是在執(zhí)行a-分層,區(qū)分度不能按照指定的規(guī)則跟隨能力估計(jì)精度的變化而做比較細(xì)微的變化(Cheng,Chang,Douglas,& Gao,2009)。他們將信息量與層間可變冪指數(shù)的區(qū)分度相結(jié)合改進(jìn)MFI,同時(shí)從控制項(xiàng)目的最大曝光率的角度出發(fā),加入曝光因子,該策略在保證測驗(yàn)精度的基礎(chǔ)上,極大地提高題庫的利用率。
使用多級(jí)評(píng)分項(xiàng)目,而不僅僅使用0~1評(píng)分項(xiàng)目是當(dāng)前測驗(yàn)發(fā)展的新方向之一(Meijer & Nering,1999)。由于0-1評(píng)分模型中盡量選取難度與能力估計(jì)值相近為基本原則制定選題策略,多級(jí)評(píng)分模式的特點(diǎn)是每個(gè)項(xiàng)目有多個(gè)等級(jí)難度(步驟參數(shù))(Dodd,De Ayala,& Koch,1995),因此0-1評(píng)分模型的選題策略難以移植到多級(jí)評(píng)分模型。然而和0-1評(píng)分CAT一樣,多級(jí)評(píng)分模式下CAT的研究重點(diǎn)仍然是在給定要求下,尋找合適的選題策略。
Choi和Swartz(2009)、Penfield(2006)均在多級(jí)評(píng)分模式中不考慮項(xiàng)目曝光率的前提下,討論基于貝葉斯方法選題策略的優(yōu)劣,他們發(fā)現(xiàn)貝葉斯方法在多級(jí)評(píng)分模式下沒有0-1評(píng)分中表現(xiàn)得那么好,而且發(fā)現(xiàn)對(duì)于多級(jí)評(píng)分項(xiàng)目的選題策略而言,項(xiàng)目區(qū)分度的影響比項(xiàng)目難度的影響大。程小揚(yáng)和丁樹良(2011)基于拓廣分部評(píng)分模型提出了變加權(quán)選題策略,在CAT的逐步求精的過程中,依據(jù)能力估計(jì)精度的提高改變區(qū)分度的冪指數(shù)從而達(dá)到調(diào)整區(qū)分度對(duì)初始選題的影響。如果不僅考慮在層與層之間調(diào)整區(qū)分度的影響,還能夠像b-分層那樣結(jié)合項(xiàng)目難度參數(shù)的分層,應(yīng)該可以對(duì)這種選題策略進(jìn)行改進(jìn)。對(duì)于多級(jí)評(píng)分模型的選題策略,羅照盛、歐陽雪蓮、漆書青、戴海琦和丁樹良(2008)提出能力估計(jì)值應(yīng)該與項(xiàng)目的多個(gè)等級(jí)難度/步驟參數(shù)相匹配的想法。羅芬、丁樹良和王曉慶(2012)利用能力估計(jì)值和項(xiàng)目所有難度/步驟參數(shù)差的絕對(duì)值的幾何平均(geometric mean,GM)值實(shí)現(xiàn)羅照盛等(2008)的這個(gè)想法,提出了多級(jí)評(píng)分下基于幾何平均的動(dòng)態(tài)綜合選題策略(Dynamic and Comprehensive Item Selection Strategy,簡稱為DC,本文中稱之為GMDC)。他們的研究表明該策略對(duì)題庫結(jié)構(gòu)(即項(xiàng)目參數(shù)的分布)不敏感,并且和MFI相比,在保證測驗(yàn)的精度的同時(shí),可以極大地降低項(xiàng)目的曝光率,其曝光率僅僅是MFI的三分之一左右。
以上的研究均表明巧妙使用信息量可能是平衡能力測量準(zhǔn)確性和題庫使用安全性的重要途徑,而更加精細(xì)地控制區(qū)分度參數(shù)在CAT實(shí)施過程中對(duì)選題的影響,更好地度量能力估計(jì)值與項(xiàng)目等級(jí)難度參數(shù)的距離等均有助于新選題策略的制定。
2新的選題策略
GMDC策略通過在剩余題庫中極小化下式(羅芬等,2012)
(1)

在(1)式中,GMDC利用幾何平均數(shù)綜合項(xiàng)目的步驟參數(shù)向量,它度量步驟參數(shù)向量和能力估計(jì)值之間的距離,距離越小,能力和難度(步驟)參數(shù)向量越接近,效果就越好。然而能不能夠用其他方法更加準(zhǔn)確地度量難度(步驟)參數(shù)向量和能力估計(jì)值之間的差異?眾所周知,對(duì)于正數(shù),幾何平均數(shù)不超過(小于等于)算術(shù)平均數(shù)(Becknbach & Bellman,1961),調(diào)和平均數(shù)不超過幾何平均數(shù)。我們欲用調(diào)和平均數(shù)代替(1)中的幾何平均數(shù),希望更加準(zhǔn)確地度量難度(步驟)參數(shù)向量和能力估計(jì)值之間的差異;并依照程小揚(yáng)和丁樹良(2011)提出區(qū)分度按照指定的規(guī)則跟隨能力估計(jì)精度的變化而做比較細(xì)微的變化,制定了一個(gè)新的選題策略,稱為調(diào)和平均的動(dòng)態(tài)綜合選題策略HMDC(DC based on harmonic mean),即極小化(2)式
(2)

本文建立在等級(jí)反應(yīng)模型GRM的基礎(chǔ)上,比較了4種選題策略:GMDC策略、HMDC策略、加上最大信息量法和隨機(jī)選題法作為比較的基準(zhǔn)。我們的模擬實(shí)驗(yàn)表明程小揚(yáng)和丁樹良(2011)提出的區(qū)分度的冪指數(shù)比羅芬等(2012)的冪指數(shù)的結(jié)果更好,因此,我們對(duì)GMDC中區(qū)分度的冪指數(shù)做了一些變化,采用了程小揚(yáng)和丁樹良(2011)的區(qū)分度冪指數(shù)的定義方法。參數(shù)調(diào)整后的4種選題策略分別為:
③MFI選題策略
④隨機(jī)選題策略(RAN)
3實(shí)驗(yàn)方法
實(shí)驗(yàn)采用Monte Carlo模擬方法,比較在同等條件下各種選題策略的表現(xiàn)。CAT的施測過程請(qǐng)參見漆書青等(2002)一書。
3.1Monte Carlo模擬數(shù)據(jù)
用N(p,q)表示平均值為p,方差為q的正態(tài)分布。p=0,q=1時(shí)為標(biāo)準(zhǔn)正態(tài)分布;在[p,q]區(qū)間上的均勻分布用U(p,q)表示。
根據(jù)陳平、丁樹良、林海菁和周婕(2006)的設(shè)計(jì),模擬4個(gè)服從不同分布的題庫,每個(gè)題庫含有1000個(gè)項(xiàng)目,每個(gè)項(xiàng)目的難度等級(jí)數(shù)從{3,4,5,6}中隨機(jī)選取。題庫參數(shù)(區(qū)分度參數(shù)a,等級(jí)難度參數(shù)b)的分布如下:第一種題庫b~N(0,1),lna~N(0,1);第二種題庫b~U(-3,3),lna~N(0,1);第三種題庫b~N(0,1),a~U(0.4,2.5);第四種題庫b~U(-3,3),a~U(0.4,2.5);并且在各種分布條件下,限定a的取值范圍為[0.4,2.5]。
模擬1000個(gè)能力服從N(0,1)的被試群體參與不同題庫結(jié)構(gòu)的CAT的測試。
我們?cè)O(shè)定測驗(yàn)的信息量達(dá)到預(yù)定值M(設(shè)M=16)或達(dá)到最大測驗(yàn)長度ML(設(shè)ML=30)時(shí),CAT過程結(jié)束。采用EAP估計(jì)被試的能力。
3.2評(píng)價(jià)指標(biāo)
使用的三個(gè)評(píng)價(jià)指標(biāo)如下(羅芬等,2012)
本文中ABS是平均絕對(duì)偏差,ABS的值越小,說明估計(jì)的精度越高。Nf是平均測驗(yàn)長度,用以評(píng)估測驗(yàn)效率,值越小,說明測驗(yàn)效率越高。卡方(χ2)統(tǒng)計(jì)量(Chang & Ying,1996,1999)用來評(píng)估題庫項(xiàng)目的曝光率,值越小,說明曝光率越均勻,CAT的安全性越好。
4模擬實(shí)驗(yàn)的結(jié)果分析
4.14種不同選題策略在ABS上的表現(xiàn)

表1 能力服從N(0,1),6種不同選題策略的ABS
從表1中我們可以看出,在給定條件下,對(duì)于評(píng)價(jià)指標(biāo)ABS來說:
HMDC的表現(xiàn)比GMDC差一些,但至少和MFI相當(dāng);HMDC、GMDC這兩種選題策略的估計(jì)精度均在b和lna服從標(biāo)準(zhǔn)正態(tài)分布題庫結(jié)構(gòu)下要高于其他題庫結(jié)構(gòu);和MFI相比,其他3種選題策略的能力估計(jì)精度都不差。
4.24種不同選題策略在Nf上的表現(xiàn)

表2 能力服從N(0,1),6種不同選題策略的Nf
表2表示在同等條件下4種選題策略的平均測驗(yàn)長度(Nf),圖1表示測驗(yàn)終止時(shí),不同測驗(yàn)長度上累計(jì)人數(shù)占群體人數(shù)的百分比。
從表2可以看出,HMDC與GMDC的平均測驗(yàn)長度基本相當(dāng),HMDC在b~U(-3,3),a~U(0.4,2.5)結(jié)構(gòu)下,較其他題庫結(jié)構(gòu)測驗(yàn)長度更短。上述4種選題策略中,MFI的測驗(yàn)長度最短,RAN的測驗(yàn)長度最長。
從圖1可以看出在四種題庫結(jié)構(gòu)下,HMDC的結(jié)果都好于或接近GMDC。
4.34種不同選題策略在χ2上的表現(xiàn)

表3 能力服從N(0,1),4種不同選題策略在χ2上的表現(xiàn)
從表3中我們可以看出,對(duì)于關(guān)乎題庫安全性的指標(biāo)χ2值:
4種不同選題策略中MFI的χ2值最大,RAN的χ2值最小。HMDC是除RAN之外表現(xiàn)最好的選題策略。HMDC僅為GMDC的χ2值的1/4到1/3;僅為MFI的1/10到1/8,并且HMDC在各個(gè)題庫結(jié)構(gòu)下,χ2的值相差不大。
若將題庫中各個(gè)項(xiàng)目調(diào)用次數(shù)占總?cè)藬?shù)的百分比從低到高排序,從0%到100%,以10%為步長遞增,稱這些百分點(diǎn)為曝光點(diǎn),統(tǒng)計(jì)在各個(gè)曝光點(diǎn)區(qū)間項(xiàng)目的累計(jì)個(gè)數(shù)。顯然曝光率越均勻,各曝光點(diǎn)的連線越接近一條直線,否則就變成折線(羅芬等,2012)。圖2為四種不同題庫結(jié)構(gòu)下,被試群體分別運(yùn)用上述4種選題策略,滿足CAT終止規(guī)則時(shí),各個(gè)相鄰曝光點(diǎn)(曝光點(diǎn)的定義如上)區(qū)間累積曲線示意圖。
從圖2中可以看出,無論在哪種題庫結(jié)構(gòu)下曝光點(diǎn)為50%以后的累計(jì)項(xiàng)目個(gè)數(shù),各種選題策略的差別不大。RAN策略的連線接近直線平滑上升,HMDC策略的連線和RAN最接近,MFI策略的連線成階梯式上升,曝光點(diǎn)前50%的累計(jì)項(xiàng)目個(gè)數(shù)大約為題庫容量的40%,而RAN在這個(gè)曝光點(diǎn)的累計(jì)項(xiàng)目個(gè)數(shù)接近或超過題庫容量的55%,MFI選題策略在曝光點(diǎn)50%與60%的連線較其他選題策略更加陡峭,這也充分說明采用MFI選題策略使得題庫的利用率不夠均勻;曝光點(diǎn)為前30%時(shí),除在b~U(-3,3),lna~N(0,1)題庫下,MFI的累計(jì)項(xiàng)目數(shù)接近于40%,其他題庫結(jié)構(gòu)下,MFI的累計(jì)項(xiàng)目數(shù)大約在20%左右,而HMDC策略的前50%的累計(jì)項(xiàng)目個(gè)數(shù)都接近或超過60%。其他選題策略,曝光點(diǎn)為前30%時(shí),累計(jì)項(xiàng)目數(shù)基本在25%-40%,尤其HMDC曝光點(diǎn)為前30%時(shí),累計(jì)項(xiàng)目數(shù)達(dá)到了35%以上。
5結(jié)論與討論
從Monte Carlo模擬實(shí)驗(yàn)結(jié)果中我們有如下發(fā)現(xiàn):
HMDC選題策略在不同的題庫結(jié)構(gòu)下,表現(xiàn)有不同。對(duì)于能力估計(jì)精度(ABS)而言,在b~N(0,1),lna~ N(0,1)題庫結(jié)構(gòu)下的結(jié)果要好于其他題庫結(jié)構(gòu);而對(duì)于測驗(yàn)長度(Nf)和曝光率(χ2)而言,在a~U(0.4,2.5)的題庫結(jié)構(gòu)下的結(jié)果要好于lna~N(0,1)題庫結(jié)構(gòu)的結(jié)果。在四種不同的題庫結(jié)構(gòu)下,HMDC在ABS和Nf這兩個(gè)指標(biāo)的值基本和GMDC相當(dāng),但在χ2這個(gè)指標(biāo)下,較GMDC有較大的優(yōu)勢。HMDC的ABS值與MFI基本相當(dāng),Nf比MFI要多用兩個(gè)項(xiàng)目,但在χ2值上,與MFI相比有很明顯的優(yōu)勢,幾乎僅為MFI的十分之一。




圖1 能力服從N(0,1),滿足終止規(guī)則,被試人數(shù)的累計(jì)百分比




圖2 各個(gè)曝光點(diǎn)上累計(jì)項(xiàng)目個(gè)數(shù)百分比
本文利用項(xiàng)目信息函數(shù),項(xiàng)目的區(qū)分度參數(shù)和項(xiàng)目的難度參數(shù)向量構(gòu)建了一個(gè)新的選題策略,模擬實(shí)驗(yàn)表明,該選題策略在保證測驗(yàn)精度的同時(shí),極大地降低了項(xiàng)目的曝光率,提高了題庫的使用率,有效地保障了CAT的測驗(yàn)安全性。從本文可以看出,項(xiàng)目信息函數(shù)、項(xiàng)目的區(qū)分度參數(shù)和項(xiàng)目的難度參數(shù)向量都對(duì)CAT的實(shí)施有重要的作用,能否找到其他更有效的方法來利用這些信息?另外新的選題策略對(duì)其他多級(jí)評(píng)分模型的作用如何也值得研究;新的選題策略中,我們采用程小揚(yáng)和丁樹良(2011)調(diào)節(jié)區(qū)分度的方法以合理地使用區(qū)分度參數(shù),能否找到其他更有效的調(diào)節(jié)方法,這也值得進(jìn)一步的研究。
參考文獻(xiàn)
陳平,丁樹良,林海菁,周婕.(2006).等級(jí)反應(yīng)模型下計(jì)算機(jī)化自適應(yīng)測驗(yàn)選題策略.心理學(xué)報(bào),38,461-467.
程小揚(yáng),丁樹良.(2011).拓廣分部評(píng)分模型下計(jì)算機(jī)自適應(yīng)測驗(yàn)變加權(quán)選題策略.心理科學(xué),34,965-969.
程小揚(yáng),丁樹良,嚴(yán)深海,朱隆尹.(2011).引入曝光因子的計(jì)算機(jī)化自適應(yīng)測驗(yàn)選題策略.心理學(xué)報(bào),43,203-212.
李銘勇,張敏強(qiáng),簡小珠.(2010).計(jì)算機(jī)自適應(yīng)測驗(yàn)中測驗(yàn)安全控制方法評(píng)述.心理科學(xué)進(jìn)展,18,1339-1348.
羅芬,丁樹良,王曉慶.(2012).多級(jí)評(píng)分計(jì)算機(jī)化自適應(yīng)測驗(yàn)動(dòng)態(tài)綜合選題策略.心理學(xué)報(bào),44,400-412.
羅照盛,歐陽雪蓮,漆書青,戴海琦,丁樹良.(2008).項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型項(xiàng)目信息量.心理學(xué)報(bào),40,1212-1220.
毛秀珍,辛濤.(2011).計(jì)算機(jī)自適應(yīng)測驗(yàn)選題策略述評(píng).心理科學(xué)進(jìn)展,19,1552-1562.
漆書青,戴海琦,丁樹良.(2002).現(xiàn)代教育與心理測量學(xué)原理.北京:高等教育出版社.
Chang,H.H.,& Ying,Z.L.(1996).A global information approach to computerized adaptive testing.AppliedPsychologicalMeasurement,20,213-229.
Chang,H.H.,& Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.AppliedPsychologicalMeasurement,23,211-222.
Cheng,Y.,Chang,H.H.,Douglas,J.,& Guo,F(xiàn).M.(2009).Constraint-weighted a-stratification for computerized adaptive testing with nonstatistical constraints.EducationalandPsychologicalMeasurement,69,35-49.
Choi,S.W.,& Swartz,R.J.(2009).Comparison of CAT item selection criteria for polytomous items.AppliedPsychologicalMeasurement,33,419-440.
Dodd,B.G.,De Ayala,R.J.,& Koch,W.R.(1995).Computerized adaptive testing with polytomous items.AppliedPsychologicalMeasurement,19,5-22.
Lord,F(xiàn).M.(1977).A broad-range tailored test of verbal ability.AppliedPsychologicalMeasurement,1,95-100.
Meijer,R.R.,& Nering,M.L.(1999).Computerized adaptive testing:Overview and introduction.AppliedPsychologicalMeasurement,23,187-194.
Penfield,R.D.(2006).Applying Bayesian item selection approaches to adaptive tests using polytomous items.AppliedMeasurementinEducation,19,1-20.
Sympson,J.,& Hetter,R.(1985).Controlling item exposure rates in computerized adaptive testing.Proceedingsofthe27thannualmeetingoftheMilitaryTestingAssociation(pp.973-977).San Diego,CA:Navy Personnel Research and Development Center.
Stocking,M.L.,& Lewis,C.(1998).Controlling item exposure conditional on ability in computerized adaptive testing.JournalofEducationalandBehavioralStatistics,23,57-75.
Weiss,D.J.,& Kingsbury,G.G.(1984).Application of computerized adaptive testing to educational problems.JournalofEducationalMeasurement,21,361-375.
An Item Selection Strategy in Computerized Adaptive Testing using Harmonic Mean to Measure the Distance between Ability Estimated and Item Difficulty Vector for Polytomous Items
Wang XiaoqingLuo FenDing ShuliangXiong Jianhua
(College of Computer Information and Engineering,Jiangxi Normal University,Nanchang 330022)
Abstract:Some researches based on dichotomous model and polytomous model show that it is helpful of raising test security by making full use of the function of item Fisher information(FIFI)and item parameters.In this study,a new ISS named HMDC(Dynamic and Comprehensive Item Selection Strategies based on harmonic mean)is proposed based on Graded Response Model(GRM),its special features are(1)harmonic mean is used to measure the distance between difficulty parameter vector of an item and the estimate of ability parameter(2)the role of differentiate parameters is adjusted in the process of CAT(3)add FIFI to integrate the advantages of MFI.To compare the results of the different item selection strategy(ISS)approaches in CAT,a simulation study is conducted based on GRM.According to different distributions of the logarithm of discrimination parameter a and the difficult parameter vector b,four item pools were simulated.Three indices of ABS,Nf and Chi-square value were used to compare the different ISS approaches.The results of the simulation study show that the HMDC acquired higher the accuracy of ability estimation and lower average exposure rates than MFI,but test lengths are longer than MFI,particularly,Chi-square value is approximately one-tenth of MFI.
Key words:Graded Response Model(GRM);Computerized Adaptive Testing(CAT);Dynamic and Comprehensive Item Selection Strategies;harmonic mean
*基金項(xiàng)目:國家自然科學(xué)基金(31160203,31360237,31300876,31500909),教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目(13YJC880060),江西省教育廳青年科學(xué)基金項(xiàng)目(GJJ13208),江西省教育廳科學(xué)技術(shù)研究項(xiàng)目(GJJ150356),江西師范大學(xué)青年成長基金。
通訊作者:羅芬,E-mail:luofen312@163.com。
中圖分類號(hào):B841.2
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-5184(2016)03-0270-06