認(rèn)知診斷測驗(yàn)的自動組卷方法*

2023-02-27 14:46:56馬大付秦春影楊建芹徐新愛喻曉鋒

心理學(xué)探新 2023年6期

關(guān)鍵詞：方法

馬大付,秦春影,楊建芹,徐新愛,喻曉鋒

(1.江西師范大學(xué)心理學(xué)院,南昌 330022;2.山東省濟(jì)南市教育教學(xué)研究院,濟(jì)南 250002;3.南昌師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,南昌 330032)

1 前言

測驗(yàn)項(xiàng)目是心理測量學(xué)中對被試潛在特質(zhì)進(jìn)行間接測量的工具。根據(jù)被試在項(xiàng)目上的作答結(jié)果,選取合適的模型與分析方法可實(shí)現(xiàn)對被試潛在特質(zhì)的定量化評估(Rupp et al.,2010)。組卷是指從一個已校準(zhǔn)的題庫中選取一組同時滿足統(tǒng)計(jì)(如測驗(yàn)長度和精度)與非統(tǒng)計(jì)約束(如內(nèi)容平衡,答案平衡)的項(xiàng)目(Becker et al.,2021;Henson &Douglas,2005)的過程。如不考慮任何約束,從題庫中組卷的數(shù)量將是巨大的,例如在一個包含20題的題庫中選擇其中10題進(jìn)行組卷,共有184756種不同的組卷情況(Finkelman et al.,2009)。而隨著題庫項(xiàng)目數(shù)量的增加和試題管理約束的復(fù)雜化,人工組裝高質(zhì)量測驗(yàn)成為一項(xiàng)艱巨的任務(wù)(Lin et al.,2019)。自動測驗(yàn)組卷(automated test assembly,ATA;Finkelman et al.,2020)通過將組卷算法與計(jì)算機(jī)程序相結(jié)合,使根據(jù)測驗(yàn)需求進(jìn)行自動組卷成為可能。

認(rèn)知診斷評估(cognitive diagnosis assessment,CDA;von Davier &Lee,2019)作為新一代的心理測量理論,與項(xiàng)目反應(yīng)理論(item response theory,IRT)關(guān)注被試的連續(xù)能力(θ)不同,其更關(guān)注對被試離散知識狀態(tài)(knowledge state,KS)即屬性的測量,這使得二者在構(gòu)建測驗(yàn)的方法上不盡相同。首先,由于θ的連續(xù)性,IRT自動測驗(yàn)組卷(IRT-ATA)常采用費(fèi)舍爾信息量(fisher information,FI)作為測驗(yàn)組卷的方法。測驗(yàn)信息量為測驗(yàn)項(xiàng)目信息量的和(羅照盛,2012),測驗(yàn)信息量越高,測量誤差越小,測驗(yàn)信度越高。而KS的離散性不滿足FI的對數(shù)似然函數(shù)具有二階導(dǎo)數(shù)的必要假設(shè)(Finkelman et al.,2009),因此基于FI的組卷方法無法直接推廣至CD-ATA(Finkelman et al.,2009;Henson &Douglas,2005);其次,二者組卷的復(fù)雜程度不同。IRT-ATA與項(xiàng)目參數(shù)、被試θ有關(guān),而CD-ATA則受認(rèn)知診斷模型(cognitive diagnosis model,CDM)、項(xiàng)目q向量、項(xiàng)目參數(shù)與KS分布等因素的影響(de la Torre,2011;Song &Wang,2019),并且診斷測驗(yàn)項(xiàng)目q向量之間存在復(fù)雜的交互作用(丁樹良等,2010;Lin et al.,2017),這使得即使測驗(yàn)項(xiàng)目的參數(shù)相同,q向量的不同組合也會產(chǎn)生不同的診斷結(jié)果。最后,即使CD-ATA成功組卷,也不存在精確的數(shù)學(xué)表達(dá)式能夠描述測試項(xiàng)目與診斷準(zhǔn)確性之間的關(guān)系(Lin et al.,2017;Wang et al.,2019),從而無法探知組卷結(jié)果的優(yōu)劣。總之,因認(rèn)知診斷測量對象的獨(dú)特性,使得CD-ATA較IRT-ATA而言更加復(fù)雜。

為將診斷測驗(yàn)推向?qū)嶋H應(yīng)用,國內(nèi)外研究者針對CD-ATA問題提出多種組卷方法。Lin等人(2017)將CD-ATA方法分為:基于指標(biāo)組卷與基于模擬組卷兩類,但卻并未對各類組卷方法的發(fā)展脈絡(luò)、組卷思想等進(jìn)行更深入的探討。文章通過閱讀相關(guān)CD-ATA文獻(xiàn),結(jié)合國內(nèi)外最新研究發(fā)現(xiàn)CD-ATA方法在整體上有著清晰的發(fā)展脈絡(luò),不同方法在組卷思想上存在諸多共性之處,且由于技術(shù)的發(fā)展,當(dāng)前研究越來越面向?qū)嶋H應(yīng)用,出現(xiàn)第三類組卷方法。起初,為沿用IRT-ATA使用FI組卷的方式,研究者提出基于信息量指標(biāo)的組卷方法,并開發(fā)多種適用于CDA的信息量指標(biāo)(汪文義等,2018;Henson et al.,2008;Henson &Douglas,2005;Song &Wang,2019)。此后,基于作答模擬的方法被提出,該類方法在組卷前模擬一批作答數(shù)據(jù),基于該批數(shù)據(jù),使用啟發(fā)式算法(heuristic algorithm)尋求合適的測驗(yàn)項(xiàng)目(Henson &Douglas,2005)。當(dāng)前,研究者越發(fā)關(guān)注診斷測驗(yàn)的實(shí)際應(yīng)用,在組卷時考慮更多與實(shí)際測驗(yàn)有關(guān)的信息,開發(fā)基于項(xiàng)目多信息的組卷方法。因此,文章擬對現(xiàn)有的CD-ATA方法進(jìn)行論述,首先介紹組卷方法的發(fā)展脈絡(luò)及其組卷思想,闡述不同方法之間的聯(lián)系。其次對比不同類組卷方法之間的組卷思路、方法特征、優(yōu)缺點(diǎn),為使用者在方法選用上提供參考;最后,在現(xiàn)有組卷方法的基礎(chǔ)上進(jìn)行研究展望。

2 認(rèn)知診斷測驗(yàn)自動組卷方法

2.1 基于信息量指標(biāo)的組卷方法

信息量指標(biāo)組卷方法試圖沿用IRT基于信息量函數(shù)的組卷方式,因此定義CDA信息量指標(biāo)是研究者開發(fā)組卷方法時首要解決的問題。根據(jù)CDA信息量指標(biāo)能否直接反映項(xiàng)目的分類準(zhǔn)確性,可將其分為間接信息量指標(biāo)(下稱間接指標(biāo))與直接信息量指標(biāo)(下稱直接指標(biāo))兩類。間接指標(biāo)采用項(xiàng)目對不同KS的區(qū)分能力作為項(xiàng)目的信息量,直接指標(biāo)使用項(xiàng)目的期望分類準(zhǔn)確率表示項(xiàng)目的信息量。上述兩類指標(biāo)均采用程序性組卷的方式,組卷時首先選擇題庫中信息量最高的項(xiàng)目進(jìn)入測驗(yàn),而后根據(jù)約束條件(如屬性最少測量次數(shù))篩選出題庫中滿足約束的項(xiàng)目,選取剩余題庫中最高信息量的項(xiàng)目進(jìn)入測驗(yàn),以此類推,直至達(dá)到組卷長度。

2.1.1 間接信息量指標(biāo)

(1)CDI和ADI

相對熵信息量(Kullback-Leibler information,KLI;Chang &Ying,1996)可用于描述兩個概率分布的差異而不假設(shè)分布連續(xù)。項(xiàng)目j上任意兩種知識狀態(tài)αu與αv之間的反應(yīng)概率分布距離可以描述為:

(1)

屬性相互獨(dú)立時,Djuv為一個T*T(T=2K)的D矩陣,K為屬性數(shù)量。Henson和Douglas(2005)基于D矩陣提出認(rèn)知診斷指標(biāo)(cognitive diagnosis index,CDI):

(2)

其中,h(au,av)-1為au與av之間的海明距離倒數(shù)。CDIj體現(xiàn)了項(xiàng)目j對所有KS的整體區(qū)分能力,項(xiàng)目CDI值越高表示項(xiàng)目的區(qū)分能力越強(qiáng)。

Henson等人(2008)認(rèn)為CDI無法體現(xiàn)項(xiàng)目對單個屬性的區(qū)分能力,只有當(dāng)項(xiàng)目考察了某些屬性,該項(xiàng)目才在該屬性上存在區(qū)分能力,且當(dāng)某些KS對之間的差異較大時,容易對項(xiàng)目的區(qū)分能力造成“虛高”的假象。因此可不必考慮差異較大的KS對,僅考慮在單個屬性上存在差異的KS對。基于此定義了屬性層面的區(qū)分度指標(biāo)(attribute diagnosis index,ADI):

(3)

其中qjk∈{0,1},0表示項(xiàng)目未考察該屬性,1表示考察。ADI指標(biāo)反映了項(xiàng)目在屬性層面(attribute-specific)上的區(qū)分能力。

測驗(yàn)水平的CDI與ADI可表示為:

(4)

(5)

使用CDI與ADI指標(biāo)組卷時,通常設(shè)置目標(biāo)函數(shù)為Maximize(CDI),Maximize(ADI),即從題庫中選擇能使CDI與ADI和最大的項(xiàng)目組合,該項(xiàng)目組合有著最大區(qū)分能力。Zeng等人(2010)根據(jù)可達(dá)矩陣能夠提高診斷測驗(yàn)準(zhǔn)確性的原理,提出在使用CDI編制測驗(yàn)時添加可達(dá)矩陣,該方法提高了CDI組卷的診斷準(zhǔn)確性。

(2)MCDI和 MADI

Kuo等人(2016)對CDI與ADI展開修正,在原有指標(biāo)的基礎(chǔ)上增加屬性層級結(jié)構(gòu)權(quán)重與屬性最少測量次數(shù)權(quán)重。校正后的MCDI與MADI(modified CDI;modified ADI)為:

(6)

(7)

(8)

(3)RCDI和 RADI

2.1.2 直接信息量指標(biāo)

基于間接指標(biāo)的組卷結(jié)果僅能表明測驗(yàn)項(xiàng)目具有較高的區(qū)分能力和可能具有較高的診斷準(zhǔn)確率,卻無法直接判斷組卷結(jié)果的屬性或模式判準(zhǔn)情況。汪文義等人(2018)以及Song和Wang(2019)提出一種可在無作答數(shù)據(jù)的情況下對項(xiàng)目各屬性分類準(zhǔn)確性進(jìn)行預(yù)測的直接指標(biāo):期望屬性分類準(zhǔn)確率指標(biāo)(expected attribute match rate,EAMR):

(9)

(10)

EAMRjk表示掌握屬性k的被試在項(xiàng)目上正確作答并最終分類正確與未掌握屬性k的被試在項(xiàng)目上錯誤作答并最終分類正確的概率之和。當(dāng)屬性k未被項(xiàng)目考察時,項(xiàng)目對該屬性的期望正確分類率為0.5。項(xiàng)目j的EAMRj為各屬性的EAMRjk之和。

同樣的,測驗(yàn)水平的EAMR為:

(11)

2.1.3 信息量指標(biāo)優(yōu)化算法組卷

除上述兩類信息量指標(biāo)方法外,Finkelman等人(2010)認(rèn)為,在定義CDA項(xiàng)目信息量指標(biāo)后,CD-ATA應(yīng)回歸IRT-ATA使用優(yōu)化算法的整體性組卷方式,優(yōu)化算法的組卷結(jié)果可被證明是滿足條件下的最優(yōu)信息量指標(biāo)項(xiàng)目組合。

(1)0-1整數(shù)線性規(guī)劃組卷

0-1整數(shù)線性規(guī)劃法(binary integer liner programming,BILP)常用于在給定目標(biāo)函數(shù)與多個約束條件的情況下,優(yōu)化目標(biāo)函數(shù)值。Finkelman等人(2010)將BILP用于CD-ATA。以ADI指標(biāo)為例(也可使用其他指標(biāo)),設(shè)定目標(biāo)函數(shù):

(12)

(2)混合整數(shù)線性規(guī)劃組卷

混合整數(shù)線性規(guī)劃方法(Mix Integer Linear Programming,MILP)的目標(biāo)函數(shù)中既包括整數(shù)型決定變量,也包括連續(xù)型決定變量。Wang等人(2021)將該方法與項(xiàng)目D矩陣相結(jié)合,將其用于CD-ATA。該方法首先去除項(xiàng)目D矩陣中對角線為0的元素,后將D矩陣轉(zhuǎn)換為長度為T-1的矩陣,再將其轉(zhuǎn)換為列向量后按行拼接。經(jīng)上述三步處理,將D矩陣轉(zhuǎn)換為行為T(T-1),列為1的項(xiàng)目列矩陣。將題庫中所有項(xiàng)目列向量按列合并為一個大小為行為T(T-1),列為M的題庫矩陣:V矩陣。設(shè)置目標(biāo)函數(shù)為:

min(f1x+f2y),

當(dāng)不考慮f2y部分時,MILP方法與BILP方法類似,兩者均是基于項(xiàng)目的KLI,不同的是MILP基于項(xiàng)目的D矩陣,而BILP則是基于項(xiàng)目的CDI值。當(dāng)考慮f2y部分時,相較于BILP方法,MILP方法保證了對每對KS進(jìn)行足夠的區(qū)分度測量,即區(qū)分度平衡。

2.1.4 基于信息量指標(biāo)的組卷方法評價

基于信息量指標(biāo)的組卷方法的結(jié)果與所定義的CDA信息量指標(biāo)密切相關(guān),由于屬性的離散性,現(xiàn)有研究在定義CDA信息量指標(biāo)時始終沿用一種如何將不同KS充分區(qū)分的思路。在得到信息量指標(biāo)后,根據(jù)測驗(yàn)信息量最大化的組卷思想進(jìn)行確定性組卷,即在確定題庫項(xiàng)目、組卷指標(biāo)、測驗(yàn)要求后,任一基于信息量指標(biāo)的組卷方法從題庫中所選擇的項(xiàng)目是確定的。因僅進(jìn)行一次組卷,而未與其他可能的組卷結(jié)果進(jìn)行比較,這導(dǎo)致其組卷結(jié)果未必是全局最優(yōu)。

2.2 基于作答模擬的組卷方法

該類方法通過事先模擬被試在項(xiàng)目上的作答數(shù)據(jù),通過設(shè)立目標(biāo)函數(shù),將CD-ATA問題轉(zhuǎn)換為在已有數(shù)據(jù)上尋求一組最符合目標(biāo)函數(shù)的項(xiàng)目組合。由于能為診斷目的設(shè)立不同的目標(biāo)函數(shù),因此相較指標(biāo)組卷方法,作答模擬組卷方法靈活度更高(Finkelman et al.,2009)。

2.2.1 遺傳算法組卷

遺傳算法(generic algorithm,GA)模擬自然界優(yōu)勝劣汰的進(jìn)化過程:具有更強(qiáng)適應(yīng)能力的個體將在個體競爭中存活,并產(chǎn)生具有更強(qiáng)生存能力的后代。Finkelman等人(2009)將該方法用于CD-ATA。GA將題庫中測驗(yàn)項(xiàng)目組合被視為單個個體,通過比較不同個體符合目標(biāo)函數(shù)的程度,選擇當(dāng)前數(shù)據(jù)下接近最優(yōu)的測驗(yàn)組合。GA的具體組卷過程包括以下幾步:①產(chǎn)生一批包含S組初始項(xiàng)目的測驗(yàn)即父代,每個測驗(yàn)中包含數(shù)量為J的項(xiàng)目組合,初始項(xiàng)目組合可隨機(jī)產(chǎn)生也可通過使用CDI的組卷方式產(chǎn)生;②使用“變異”策略,隨機(jī)改變每個初始解中的一個項(xiàng)目,產(chǎn)生S*J個子代;③評估包含父代在內(nèi)的S*(J+1)組解符合目標(biāo)函數(shù)的程度;④根據(jù)③步的評估結(jié)果,選擇最符合目標(biāo)函數(shù)的前S組測驗(yàn)項(xiàng)目組合進(jìn)入下一輪迭代;⑤重復(fù)步驟②-④,直至達(dá)到最大迭代次數(shù);⑥選擇最后一次迭代中最優(yōu)項(xiàng)目組合做為最優(yōu)測驗(yàn)。

為使組卷結(jié)果更加符合實(shí)際,Finkelman等人(2009)提出三種目標(biāo)函數(shù):

(13)

(14)

(15)

2.2.2 蟻群算法組卷

蟻群算法(ant colony optimization,ACO)與GA類似,均屬于求取目標(biāo)函數(shù)的啟發(fā)式算法。Lin等人(2017)將ACO用于CD-ATA,提出基于蟻群算法的測驗(yàn)構(gòu)建方法(test construction method based on ant colony optimization,ACO-TC),該方法將CD-ATA視為一種路徑優(yōu)化問題,題庫中每一種測驗(yàn)項(xiàng)目的組合均被認(rèn)為是一條路徑,通過建立目標(biāo)函數(shù),在所有路徑中尋求接近最優(yōu)解的路徑。

ACO-TC過程大體上可分為三步:局部組卷、局部信息量更新與全局信息素更新。局部組卷時,單個螞蟻(a=1,2,…,A)從剩余題庫中選擇滿足條件約束的項(xiàng)目j的后驗(yàn)概率可為:

(16)

其中T為剩余題庫中滿足約束的項(xiàng)目集合,τj為項(xiàng)目的信息素濃度(初始組卷時設(shè)置τ0=1),ηa與γa分別為項(xiàng)目信息量指標(biāo)與項(xiàng)目滿足測驗(yàn)約束程度的權(quán)重,為提高組卷過程中的適應(yīng)性,可設(shè)置ηa為多種項(xiàng)目信息量指標(biāo)的組合。當(dāng)螞蟻a完成組卷后對其所選中的項(xiàng)目進(jìn)行局部信息量更新:

τj=(1-ρ)τj+ρτ0,

(17)

公式(17)中的ρ∈(0,1)表示信息素蒸發(fā)速率。當(dāng)所有螞蟻均完成組卷后,可設(shè)置公式(13)、公式(14)、公式(15)為目標(biāo)函數(shù),評估所有螞蟻的組卷結(jié)果,最優(yōu)項(xiàng)目組的目標(biāo)函數(shù)可記為fbest,最差組記為fworst。后對fbest中的項(xiàng)目進(jìn)行全局信息量更新:

τj=(1-ρ)τj+ρΔτ,

(18)

2.2.3 基于作答模擬的組卷方法評價

作答模擬組卷方法依靠自身不斷的循環(huán)迭代,每一次的組卷結(jié)果都建立在上一次組卷結(jié)果的基礎(chǔ)之上,尋求更優(yōu)于上一次組卷結(jié)果的題目組合,當(dāng)組卷結(jié)果不再變化時,則表示尋得當(dāng)前組卷方法下的最優(yōu)題目組合。這種循環(huán)迭代的組卷方式,提高了找到全局最優(yōu)解的可能性。但由于其需要大量的迭代計(jì)算,需要耗費(fèi)的組卷時間也相對更長。

2.3 基于項(xiàng)目多信息的組卷方法

在實(shí)際測驗(yàn)中,測驗(yàn)的項(xiàng)目構(gòu)成、測驗(yàn)形式以及測驗(yàn)的時限要求等都是測驗(yàn)開發(fā)者應(yīng)當(dāng)考慮的問題。為使組卷結(jié)果與實(shí)際測驗(yàn)要求更加一致,研究者進(jìn)一步考慮更多可利用的項(xiàng)目信息,開發(fā)得到基于項(xiàng)目多信息的組卷方法。

2.3.1 基于多選項(xiàng)項(xiàng)目的組卷方法

現(xiàn)有研究對診斷數(shù)據(jù)的處理往往采用二分法(正確作答與錯誤作答兩類),多項(xiàng)選擇認(rèn)知診斷模型(multiple choice CDM,MC-CDM)認(rèn)為錯誤選項(xiàng)同樣包含著屬性的分類信息,這些信息同樣可被可用于KS判別(Henson et al.,2018)。Henson等人(2018)將DINA模型下的區(qū)分度指標(biāo):1-sj-gj,用于MC-CDM,提出一種廣義的區(qū)分度指標(biāo)(discrimination index,DI):

(19)

Hj表示項(xiàng)目j的選項(xiàng)數(shù)量,P(Xj=h│α)表示α的被試選擇選項(xiàng)h的概率,Pjh(Xj=h|α-k)表示與α僅在第k個屬性上存在差異的KS選擇選項(xiàng)h的概率。DIjk定義了單個項(xiàng)目對屬性k的區(qū)分能力。在使用DI組卷時,采用與CDI相同的指標(biāo)線性求和的方式,測驗(yàn)水平的DI為:

(20)

2.3.2 基于反應(yīng)時的組卷方法

Finkelman等人(2020)認(rèn)為,盡管當(dāng)前CD-ATA已能夠獲得豐富的信息,但還要保證被試所花的時間是可接受的,許多測驗(yàn)也含有一定的時限要求,因此其將反應(yīng)時信息融入CD-ATA,作為測驗(yàn)組卷的約束條件,提出反應(yīng)時組卷(response time assembly,RTA)。基于van der Linden(2006)提出的項(xiàng)目反應(yīng)時模型:

(21)

(22)

(23)

(24)

其中ζq,ζr與ζs分別表示q,r與s的目標(biāo)條件,δs,δs與δs分別表示q,r與s的可容忍殘差。在CD-ATA組卷時,RTA方法與BP相同,組卷時將反應(yīng)時信息作為一種額外的約束條件,使用LP求解器進(jìn)行求解。

2.3.3 基于項(xiàng)目多信息的組卷方法評價

基于項(xiàng)目多信息的組卷方法在測驗(yàn)形式、測驗(yàn)要求等方面上更加貼合于實(shí)際情況,在組卷時考慮更多對測驗(yàn)結(jié)果可能產(chǎn)生影響的因素,并將其納入組卷過程。但其對項(xiàng)目本身的要求更高,如多選項(xiàng)項(xiàng)目組卷方法需知道選擇錯誤選項(xiàng)的概率,反應(yīng)時組卷方法需知道作答項(xiàng)目的時間分布情況。

3 組卷方法比較與選用

3.1 組卷方法比較

文章已對現(xiàn)有的十多種CD-ATA方法進(jìn)行介紹。接下來進(jìn)一步對不同組卷方法進(jìn)行比較,為實(shí)際使用者以及后續(xù)研究者在選用方法與開發(fā)新方法提供思路。表1詳細(xì)呈現(xiàn)了不同組卷方法的分類情況、方法特征及優(yōu)缺點(diǎn)。

表1 不同CD-ATA方法對比

從方法的大類上可以看出:①信息量指標(biāo)組卷方法沿用IRT-ATA使用FI線性和的組卷思想,根據(jù)屬性離散的特點(diǎn),在CDA中尋找Fisher信息量的替代品。在組卷時通常設(shè)置滿足約束條件的最大測驗(yàn)信息量項(xiàng)目組合,為確定性組卷方法。然而,該類組卷方法忽視了CD-ATA與IRT-ATA的不同,未考慮項(xiàng)目q向量之間復(fù)雜的交互作用,缺乏靈活性。②與信息量指標(biāo)組卷不同的是,作答模擬組卷方法選擇項(xiàng)目時是非確定性的,題庫中的每個項(xiàng)目都有被選入測驗(yàn)的概率,為概率性組卷方法。通過不斷地迭代更新,每次迭代后的結(jié)果均優(yōu)于上一次迭代,最終得到最優(yōu)項(xiàng)目組合。相較于信息量指標(biāo)組卷方法,模擬作答組卷在組卷時嘗試的項(xiàng)目組合類型更多(信息量指標(biāo)組卷僅嘗試一種項(xiàng)目組合)。但由于其算法復(fù)雜,計(jì)算量大,導(dǎo)致其組卷效率較低。③項(xiàng)目多信息組卷對項(xiàng)目信息了解程度要求高,且在組卷時部分依賴指標(biāo)組卷的方法,因此也部分具有指標(biāo)組卷存在的缺點(diǎn)。

3.2 組卷方法選用

通過對不同方法的比較,文章從組卷精度與組卷效率兩種角度,為實(shí)際使用者在選用組卷方法上提供建議。

(1)組卷精度,診斷測驗(yàn)的首要目的是為獲得較高的診斷精度(Rupp et al.,2010),盡管不同組卷方法存在一定的精度差異,但相較于隨機(jī)組卷,本文所提及的組卷方法在屬性數(shù)量較少的情況下均能夠獲得較高的判準(zhǔn)精度。但屬性數(shù)量較多時,指標(biāo)組卷方法的判準(zhǔn)率將迅速下降(Henson &Douglas,2005;唐小娟等,2013),此時應(yīng)當(dāng)選用模擬組卷方法。另外,當(dāng)組卷的目的是為了獲得特定屬性精度的測驗(yàn)時(Finkelman et al.,2009;Lin et al.,2017),指標(biāo)組卷方法將無法適用,此時僅能通過模擬組卷。

(2)組卷效率,除組卷精度外,組卷效率也是施測人員需要考慮的問題(Finkelman et al.,2009;Lin et al.,2017)。模擬組卷因其在組卷時需不斷地迭代更新項(xiàng)目組合,計(jì)算要求高,組卷時間長,組卷效率低。其他方法僅需在前期計(jì)算項(xiàng)目信息量指標(biāo)時耗費(fèi)一定的時間(郭磊等,2016),實(shí)際組卷的時間較短,而且由于指標(biāo)組卷均屬于確定性算法,因此僅需計(jì)算一次項(xiàng)目信息量,即可多次運(yùn)用。因此,如希望在短時間內(nèi)得到組卷結(jié)果,可選擇基于指標(biāo)組卷的方式。

4 研究展望

盡管現(xiàn)有的CD-ATA方法已達(dá)十余種,但面對實(shí)際測驗(yàn)的多樣性,有關(guān)組卷方法的研究與應(yīng)用均有待進(jìn)一步拓展,文章在已有方法基礎(chǔ)上從理論性研究和實(shí)際應(yīng)用角度出發(fā)提出幾點(diǎn)展望。

融合測驗(yàn)設(shè)計(jì),基于信息量指標(biāo)的組卷方法僅關(guān)注于單個項(xiàng)目的q向量與項(xiàng)目參數(shù),未考慮診斷測驗(yàn)的整體性,忽略測驗(yàn)Q向量在診斷測驗(yàn)中起到的重要作用。目前已有部分關(guān)于測驗(yàn)構(gòu)建策略的研究(唐小娟等,2022),而僅有少數(shù)組卷研究探討過將信息量指標(biāo)組卷方法與測驗(yàn)構(gòu)建策略進(jìn)行融合,融合測驗(yàn)構(gòu)建策略后的結(jié)果也表明,信息量指標(biāo)組卷方法的組卷精度可獲得大幅增長(Kuo et al.,2016;Su &Chu,2021;Zeng et al.,2010)。未來可進(jìn)一步探討將更多診斷測驗(yàn)設(shè)計(jì)與信息量指標(biāo)組卷方法相互融合,在保證信息量指標(biāo)組卷效率的基礎(chǔ)上,進(jìn)一步提高其組卷精度。

非參數(shù)組卷,當(dāng)前CD-ATA方法均是在假定項(xiàng)目參數(shù)已知的情況下進(jìn)行,而實(shí)際情況中,項(xiàng)目的實(shí)際參數(shù)是難以獲得的。尤其是對于一些具有較復(fù)雜的診斷模型而言,準(zhǔn)確的項(xiàng)目參數(shù)估計(jì)依賴于大量被試的作答反應(yīng)。而當(dāng)項(xiàng)目參數(shù)穩(wěn)健性難以保證的情況下(Veldkamp et al.,2013),使用非參數(shù)組卷方法則勢在必行,未來可開發(fā)更多非參數(shù)組卷方法。

平行測驗(yàn)組卷,平行測驗(yàn)(parallel test)是一種常用的實(shí)際測驗(yàn)形式,而文章所介紹組卷方法均只針對于構(gòu)建單份測驗(yàn)。在查閱文獻(xiàn)后,發(fā)現(xiàn)當(dāng)前有關(guān)認(rèn)知診斷平行試卷的構(gòu)建方法僅有少數(shù)研究者(Li et al.,2021;Lin et al.,2019)有過相關(guān)探討。未來也可開發(fā)同時能構(gòu)建多份平行測驗(yàn)的CD-ATA方法。

開發(fā)組卷軟件,盡管當(dāng)前已開發(fā)了多種CD-ATA方法,但這些方法并不適用于沒有編程基礎(chǔ)的使用者,這也在一定程度上阻礙了組卷方法的實(shí)際應(yīng)用。目前,有關(guān)研究者已將IRT-ATA組卷方法開發(fā)為相應(yīng)的軟件與開源R包(Becker et al.,2021;Shao et al.,2020),使用者僅需少量操作便可進(jìn)行組卷,極大的簡化了組卷過程,而CD-ATA中目前僅可通過使用R中的CDM包計(jì)算CDI與DI指標(biāo)(George et al.,2016;Shi et al.,2021),尚未見完整的組卷R包或?qū)I(yè)組卷軟件,未來可開發(fā)相應(yīng)診斷組卷軟件。

開展實(shí)證研究,當(dāng)前CD-ATA的實(shí)證研究相對較少。這一方面是由于國內(nèi)外診斷測驗(yàn)的研究尚處于起步階段,缺少系統(tǒng)性的測驗(yàn)開發(fā)、題庫建設(shè)的過程,這在一定程度上阻礙了CD-ATA的實(shí)際應(yīng)用。考慮到CDA在教學(xué)評估過程中的優(yōu)良特性、未來可開發(fā)系統(tǒng)性的診斷測驗(yàn)題庫,開展CD-ATA的實(shí)證研究。