基于屬性掌握概率的認知診斷計算機化自適應測驗選題策略*

2015-02-06 02:28:00羅照盛喻曉鋒高椿雷李喻駿彭亞風王王鈺彤

心理學報 2015年5期

關鍵詞：策略

羅照盛喻曉鋒,2 高椿雷李喻駿彭亞風王睿王鈺彤

(1江西師范大學心理學院,南昌 330022) (2亳州師范高等專科學校,亳州 236800)

1 引言

相對于傳統的測驗形式,計算機化自適應測驗(Computerized Adaptive Test,CAT)由于有更高的測試效率和更好的測驗精度而受到廣泛關注(Barrada,Olea,Ponsoda,&Abad,2008;Chang &Ying,1999;Chang,Qian,&Ying,2001;程小楊,丁樹良,嚴深海,朱隆尹,2011;劉珍,丁樹良,林海菁,2008)。與其它測驗形式相比,認知診斷(Cognitive Diagnosis,CD)測驗最大的優勢在于它能提供被試在測驗領域上的知識診斷報告,這個診斷報告包含了更加豐富的評價信息,可以對被試的進一步學習、教師開展針對性教學等提供幫助(Leighton&Gierl,2007;Rupp,Templin,&Henson,2010)。

認知診斷計算機化自適應測驗(Cognitive Diagnostic Computerized Adaptive Testing,CD-CAT)(Cheng,2009a,2009b;McGlohen&Chang,2008;Xu,Chang,&Douglas,2003)建立在傳統CAT(指沒有診斷功能的CAT)的基礎之上,同時賦予傳統CAT新的功效—認知診斷,它是將認知診斷的基本理論、方法與計算機自適應測驗相結合的產物。CD-CAT結合了CAT和CD的優點,它一方面可以對被試的知識狀態進行診斷;另一方面在診斷過程中可以有針對性、“量體裁衣”式的選擇項目讓被試作答,從而有利于提高測驗效率和測量精度(Cheng,2009a)。根據Wang (2013)的描述,CD-CAT是結合了CD和CAT二者的優點的一種測驗,其中CD的目的是根據被試的知識掌握情況對被試分類,找到被試的優勢和弱點,而 CAT的算法則使這一過程盡可能更高效的實現。

在傳統 CAT研究中,選題策略是一個重要的組成部分,每次都是基于被試的當前能力估計值,根據某種信息測度(比如Fisher最大信息量)來選擇下一個要施測的項目,從而達到采用較少的項目估計被試的能力也能達到預先設定的精度(Chang &Ying,1996)。

關于CD-CAT的選題策略,已有的研究主要有5種：一是基于 KL信息量的選題策略(KL),即根據被試的當前屬性掌握模式估計值,每次從題庫或剩余題庫中選擇KL信息量最大的項目施測(Cheng,2009a)。二是基于香農熵的選題策略(SHE),根據被試的當前屬性掌握模式估計值,每次從題庫或剩余題庫中選擇香農熵最小的項目施測(Tatsuoka,2002,Xu et al.,2003)。三是基于后驗概率加權的KL信息量的選題策略(PWKL),相對于 KL信息量選題策略,PWKL給KL信息量增加了不同的權重,權重是屬性掌握模式的后驗概率(Cheng,2009a)。四是基于后驗概率和屬性掌握模式距離加權的KL信息量的選題策略(HKL),相對于PWKL選題策略,HKL選題策略的區別在于權重不同,HKL選題策略同時考慮后驗概率和屬性掌握模式間的相似性來對KL信息量加權(Cheng,2008,2009a)。有關這4種選題策略的詳細計算方式,請參考 Cheng (2008,2009a),并且Cheng對這4種選題策略之間的關系進行了闡述和說明。根據Cheng研究結果,這4種選題策略的模式分類準確率最高的是 HKL,并且 PWKL與HKL的模式分類準確率很接近。第五種是基于互信息(Mutual Information)的選題策略(MI,Wang,2013),Wang研究了短測驗下,比較 MI與 KL,PWKL,SHE等策略的表現,模擬研究結果表明：對被試的屬性掌握模式準確率上,在 Wang的實驗條件下,MI在多數情況下略占優。

已有的 CD-CAT選題策略基本是基于被試屬性掌握模式的當前估計值,并結合某種信息測度,比如 KL信息量,香農熵或互信息等,從題庫或剩余題庫中選擇某個項目來施測。屬性掌握模式估計值通常是通過截斷點轉換(比如將屬性掌握概率與0.5比較,大于0.5則認為被試掌握了某屬性,否則不掌握)或者是取最大期望后驗概率(Maximum A Posterior,MAP)對應的屬性掌握模式而得到(Huebner &Wang,2011)。然而,在自適應測驗初期,由于對被試水平的診斷信息較少,此時的屬性掌握模式估計值可能存在較大偏差,如果采用的選題策略僅僅基于當前的屬性掌握模式和作答,會不利于估計被試的屬性掌握模式,進而影響到整個CD-CAT的測驗效度和測驗精度(涂冬波,蔡艷,戴海崎,2013)。涂冬波等(2013)研究了在初始階段選擇包含“可達矩陣”的項目讓被試作答,模擬實驗結果表明,初始階段的選題對被試的屬性掌握模式的估計是有影響的。根據被試屬性掌握概率和人為給出的截斷點賦以被試的知識狀態,比如截斷點為0.5,則兩個知識狀態某一個分量(屬性掌握概率)為0.01和0.49的,都評判為該屬性沒有掌握,但是兩者的差異是明顯的。因此,被試屬性掌握概率(Attribute Mastery Probability,AMP)可以更直接地反映被試的當前水平,還未發現基于被試屬性掌握概率的選題策略的研究(即在測試過程中,使用屬性掌握概率變化加權的選題策略)。也正是基于這種考慮,本研究基于被試的屬性掌握概率,提出兩種新的選題策略,并與已有的CD-CAT下的選題策略進行比較。

2 基于屬性掌握概率的選題策略

在介紹新的選題策略之前,首先對涉及到的概念和符號進行說明。

2.1 相關的概念

屬性掌握概率：它是一個由0到1之間的數,被試在測驗各屬性上的掌握概率就構成了屬性掌握概率向量,每個元素對應了被試對該位置上的屬性的掌握概率。比如：某被試的屬性掌握概率向量為[0.21,0.68,0.85],表明該被試掌握測驗中三個屬性的概率分別是0.21、0.68和0.85。

屬性掌握模式(或稱知識狀態)：它是一個由 0和1組成的二值向量,其中向量中的0表示被試對該位置對應的屬性沒有掌握,1表示掌握。比如：某被試的屬性掌握模式為[0,1,1],表明測驗考察了三個屬性,該被試掌握了第2和第3個屬性,未掌握第1個屬性。屬性掌握模式通常是通過屬性掌握概率轉換得到的,比如采用 0.5為截斷點,屬性掌握概率為[0.21,0.68,0.85]的被試的屬性掌握模式為[0,1,1]。

屬性掌握概率變化加權：屬性掌握概率變化是指被試在作答某個項目前后其屬性掌握概率的差異,分為三種情況：單個屬性掌握概率變化、最不確定屬性掌握概率變化和屬性掌握概率之和的變化。比如被試在作答某項目之前的屬性掌握概率為[0.21,0.68,0.85],作答之后其屬性掌握概率變為[0.61,0.75,0.91]。單個屬性掌握概率變化是作答前后指3個屬性的掌握概率變化值,分別為0.40、0.07和0.06,其中第1個屬性的掌握概率變化最大;最不確定屬性掌握概率是指與0.5最接近的屬性掌握概率,比如[0.21,0.68,0.85]中與0.5最接近屬性第2個屬性,其掌握概率是0.68,在作答之后變為0.75,需要注意的是,這里所說的“最不確定”只是一個相對的概念,它是以概率 0.5作為參照;屬性掌握概率之和變化是指作答某項目前后3個屬性的掌握概率之和變化的絕對值,作答之前的屬性掌握概率之和為0.21+0.68+0.85=1.74,作答之后為0.61+0.75+0.91=2.27,則變化值為 0.53 (可以由|2.27-1.74|=0.53得到)。將屬性掌握概率的變化(包括上面的三種情況)值作為選題時的一個權重即為屬性掌握概率變化加權。

2.2 相關的符號

2.3 基于屬性掌握概率的選題策略

在認知診斷測驗中,期望后驗估計(Expect A Posterior,EAP)方法常常被用來計算被試在每個屬性上的掌握概率(即被試在屬性上的邊際掌握概率),進一步將被試對屬性的掌握概率與 0.5相比較,當屬性掌握概率大于 0.5時,即認為被試掌握了該屬性,否則認為被試沒有掌握該屬性 (Huebner &Wang,2011)。基于屬性掌握概率的選題策略是從屬性掌握概率出發,對屬性掌握概率不作 0、1轉換,選擇對被試屬性掌握概率影響最大的項目作為下一個施測的項目。這樣做的原因有兩個：第一是因為在測驗初期,對被試的屬性掌握概率估計存在較大的偏差,隨著測驗的進行,這個屬性掌握概率估計值會逐漸趨近其真值,我們希望新的選題策略能使測驗加快這個過程,因此選擇能使被試的屬性掌握概率改變最大的項目作為下一個施測的項目;第二是由于被試的屬性掌握模式是通過將屬性掌握概率與截斷點(通常取 0.5)進行比較,然后轉換得到的,但是當一個屬性的掌握概率與0.5非常接近,比如0.501或0.499,其實此時測驗對該屬性的狀態“非常不確定”的。模擬實驗表明,基于單個屬性掌握概率變化最大、基于最不確定屬性的掌握概率變化最大的策略表現不佳,因此這里僅考慮研究基于屬性掌握概率之和變化最大的策略(即選擇作答某項目前后,被試對各屬性的掌握概率之和變化最大的項目)的表現。

2.3.1 基于后驗概率和屬性掌握概率變化加權的KL選題策略

記后驗概率和屬性掌握概率變化加權的KL選題策略為 PPWKL (Posterior Probability Weighted Kullback–Leibler)。PWKL選題策略是基于后驗概率加權的KL信息量,這里的PPWKL是在PWKL的基礎上,增加了屬性掌握概率的變化值這一權重,即基于后驗概率和屬性掌握概率變化加權的KL信息量。PPWKL指標的計算方式為

該選題策略可以表示為：

2.3.2 基于后驗概率、屬性掌握概率變化和屬性掌握模式距離加權的KL選題策略

記后驗概率、屬性掌握概率變化和屬性掌握模式距離加權的 KL選題策略為 PHKL(Posterior HybridKullback–Leibler)。與 PPWKL 不同,這里的PHKL是在HKL的基礎上,增加了屬性掌握概率之和的變化值這一權重,即基于后驗概率、屬性掌握概率變化和屬性掌握模式距離加權的KL信息量。PHKL指標的計算方式為

該選題策略可以表示為：

3 模擬研究1

3.1 研究設計

為了考察基于屬性掌握概率的選題策略的表現,考慮基于 DINA模型,模擬定長和變長的CD-CAT測驗。已有的研究中,CD-CAT的測驗長度經常取12到24這個范圍(陳平等,2011;涂冬波等,2013;Wang,2013)。本研究中,對于定長的CD-CAT測驗,測驗長度采用16。對于變長的CD-CAT測驗,終止規則由測驗長度和屬性掌握模式后驗概率確定,只要二者之一達到預先設定的值即終止測驗。Hsu,Wang和Chen (2013)研究了變長CD-CAT下,屬性掌握模式后驗概率取不同值對測驗長度、測驗精度的影響,Hsu等的結果表明,對于高風險和低風險的測驗,屬性掌握模式后驗概率分別應取不低于0.9和不高于0.8。考慮的測驗長度(每位被試測驗的最大長度)也是 16,屬性掌握模式后驗概率最大值固定為0.8(Hsu et al.,2013;Tatsuoka,2002),即測驗長度達到最大值或者屬性掌握模式后驗概率達到最大值時結束測驗。

目前多數的CD-CAT研究是基于4-8個屬性進行的,其中 6個居多(Cheng,2009a,2010;Wang,Chang,&Huebner,2011;Xu et al.,2003),這里模擬的題庫考慮6個屬性。

題庫中各項目的屬性向量和項目參數,被試屬性掌握模式的模擬按如下方式進行：

(1) 題庫中的項目數固定為200,各項目按0.2的概率考察每個屬性,并且保證每個項目至少考察1個屬性,最多考察3個屬性(Henson,2004);

(2) 項目參數

和

都采用均勻分布,取值區間為[0.05,0.25];

(3) 因為在實際的測驗情境下,所考察的屬性之間可能存在相關。為了比較不同情況下,各策略的表現,分別考慮屬性間獨立和屬性間存在相關的情況。對于屬性間相互獨立的情況,假設被試掌握每個屬性的概率服從參數為 0.5的 Bernoulli分布,隨機生成被試的屬性掌握情況。對于屬性間存在相關的情況,這里分別取0.2,0.35,0.5,0.6,0.7,0.8共6種情況的相關,比如 0.2表示所有屬性之間存在0.2左右(表示屬性間的相關接近 0.2,可能不一定剛好是 0.2)的相關,其它相關的含義與此相同。模擬屬性間的相關可以通過HO-DINA模型的高階參數來控制,可以模擬被試總體對掌握的各屬性之間存在不同大小的相關,具體可以參考Wang,Chang和 Douglas (2012)。這樣一來,就存在屬性間相互獨立,屬性之間存在較低的相關(相關系數為 0.2和0.35),中等程度的相關(相關系數為0.5和0.6)和較高的相關(相關系數為0.7和0.8)共7種情況。

一共模擬1000名被試,200個項目,有7種被試總體(指屬性之間獨立和存在不同的相關)。基于各選題策略模擬 CD-CAT。每種選題策略重復 20次,結果取平均值,所有的模擬程序采用Java語言編制。

3.2 CD-CAT測驗施測過程

CD-CAT按如下過程進行模擬：(1)隨機生成被試的屬性掌握模式;(2)按采用的選題策略,選擇下一個要施測的項目;(3)模擬被試作答;(4)采用EAP方法估計被試的屬性掌握概率(de la Torre,2009)。對于涉及到KL信息量的選題策略,還需估計被試的屬性掌握模式,Huebner和Wang (2011)的研究表明,采用MAP方法估計被試的屬性掌握模式更好,因此,這里采用 MAP方法估計被試的屬性掌握模式;(5)轉到步驟(2),直到滿足測驗終止規則。當所有的被試完成測驗后,計算相應的評價指標。

3.3 評價指標

為了能全面地比較不同選題策略之間的差異,綜合考慮各評價指標下不同選題策略的表現,采用統一量綱再加權求和的方法,具體做法是：對值越大越好的指標,將該評價指標上的最大值做分母,把各選題策略在該指標上的值做分子,求兩者的比值;對值越小越好的指標,則將評價指標上的最小值作為分子,把各選題策略在該指標上的值作為分母,求兩者的比值。統一量綱后,對某選題策略的10個評價指標比值分別賦加權系數。加權求和值最大的,則該選題策略在各個方面的綜合效果最好;反之則最差(陳德枝,2004;劉珍等,2008;)。本文中所采用的10個評價指標中有2個(PMR,MMR)是評價測驗的估計精度,余下的8個是評價測驗題庫使用相關的指標,因此,為了使兩類指標(評價知識狀態準確性的指標和評價題庫使用均勻性的指標)在統一量綱中占有相同的比重,加權系數的設置方式為：PMR和MMR指標的權重設置為4,其余指標的權重設置為 1,這樣可以保證兩類指標占有相同的比重。這里舉一個例子說明,比如表1中,對于 PHKL的統一量綱的指標計算方式為：4×0.961/0.961+4×0.992/0.992+1×16/16+1×92.118/9 3.357+1×0.540/0.546+1×1+1×0.967/0.972+1×1+1×9 8/100+1×22/25=15.83,其中對 PMR和 MMR來說是值越大越好,計算時是將各策略對應的指標作為分子,所有PMR和MMR中最大的值作為分母,并且乘上對應的權重;其它指標是越小越好,計算時是將各策略對應的指標作為分母,所有對應指標中最小值作為分子,并且乘上相應的權重,最后對所有指標按統一量綱后求和,得到評價各策略的綜合評價指標。

3.4 實驗結果

3.4.1 屬性之間獨立時的結果

表1和表2分別對應了定長和變長CD-CAT測驗下各評價指標的值,并且表1和表2中的最后一列分別對應了定長和變長 CD-CAT測驗下各選題策略的綜合評價指標。

表1 各選題策略的分類準確率和題庫使用均勻性(定長,屬性獨立)

表2 各選題策略的分類準確率和題庫使用均勻性(變長,屬性獨立)

PPWKL 0.840 0.969 9.8 94.621 0.522 0 0.948 0.049 121 16 15.61

根據表1和表2,在測驗長度為16的定長CDCAT下,如果考察測驗的精度,則 PHKL,MI和PPWKL的表現較好,分別排名前三位。如果綜合測驗精度和題庫的使用均勻性指標,則 PPWKL,PHKL和MI表現略好。在變長(最大測驗長度為16,最大后驗概率為0.8)的CD-CAT下,PHKL,PWKL,PPWKL和HKL的測驗對被試的知識狀態估計精度較好,PHKL和PPWKL在題庫使用均勻性的表現占優。

總的來說,在屬性獨立情況下,無論是定長,還是變長的 CD-CAT,考慮了屬性掌握概率的選題策略在保證測驗精度不損失或損失較小的情況下,在題庫使用均勻性上的表現都更好,這些都可以從表1和表2可以很明顯的看出來。

3.4.2 屬性之間存在相關時的結果

表3和表4對應了屬性之間存在較低的相關,定長和變長CD-CAT測驗各評價指標的值。

從表3可以看出,在屬性之間存在低相關,長度為 16的定長 CD-CAT下,單從測驗精度來看,PHKL和SHE略占優勢,其中PHKL選題策略的測驗精度最好,排在2,3,4位的分別是SHE,MI和PPWKL,它們與PHKL選題策略與PMR指標分別相差 1%,1.5%和 1.5%;但是如果考察題庫的使用均勻性指標,PHKL選題策略最好,有4項指標(分別是

,TOR,ER,N)排名第一,1項指標(N)排名第二,剩下的三項指標(N,ER和ER)都相同。綜合測驗精度和題庫的使用均勻性來看,PHKL的表現較好,這一點從統一量綱后的綜合指標也能看出。綜合指標排在前三位的分別是PHKL、PPWKL和HKL。屬性間存在中等相關和較高相關時的詳細結果請參考附錄二。PHKL在屬性之間存在中等相關,長度為 16的定長 CD-CAT下有 6項指標排名第1(分別是 PMR,MMR,

,TOR,ER,N)。從測驗精度來說,PHKL和MI很接近,分別排在前2位,但是PHKL在題庫使用均勻性上有很大優勢,附錄二表6中的綜合指標也表明PHKL策略的綜合表現更好。當屬性之間存在高相關,長度為 16的定長CD-CAT下,在測驗精度指標上,MI策略最好(其PMR和MMR指標都排第1),但是從題庫使用上來看,PHKL策略更好(

,TOR,ER,N指標都排在第1位),詳細結果請參考附錄二中的表7。綜合來看,PHKL策略略占優。

表3 各選題策略的分類準確率和題庫使用均勻性(定長,低相關)

表4 各選題策略的分類準確率和題庫使用均勻性(變長,低相關)

表4的結果來看,在屬性間存較低相關,最大測驗長度為16,后驗屬性掌握模式概率為0.8的變長CD-CAT下,單從測驗精度來看,PHKL、PWKL和SHE的表現較好,分別處于第1、2和3位。綜合來看,PHKL,PPWKL和MI選題策略的總體表現較好,分別有4,3和3項指標排名第一,PHKL的綜合指標表現最好,這說明在考慮了被試的屬性掌握概率變化之后,在保證測驗精度的同時,對題庫使用的均勻性控制上也有了改善。

屬性間存在中等相關和較高相關時也有類似的結論,詳細結果請參考附錄三中的表8和表9。

總體來說,在變長 CD-CAT下,考慮了屬性掌握概率的選題策略 PHKL,在測驗精度和題庫使用均勻性指標上表現都較好,無論是屬性之間存在較低相關、中等相關或是較高相關的情況,PHKL的綜合指標都排在第1位。

4 模擬研究2

認知診斷測驗可能會用于日常分項診斷中,比如單元測驗、隨堂診斷測驗等,此時,題目量可能會比較少。為了考察不同題量情形下各種選題策略的表現,選取PWKL、HKL、MI、PPWKL和PHKL五個選題策略。考慮屬性之間相互獨立、存在相關時,它們在短測驗下的表現。所有的數據模擬方式與研究1相同,不同的是本研究中考察的是長度分別為4、6、8和10的定長測驗,即模擬4種短測驗,考察這5種選題策略的表現。所采用的評價指標與研究1相同。表5列出了屬性獨立時,4種選題策略在4種定長的短測驗中的表現。

從表5的結果可以看出,在屬性相互獨立時,所列出的所有短測驗(也可以看作是長測驗的測驗初期)中,大部分情況下,PHKL的各項指標都是最好的。從統一量綱后的綜合指標來看,PHKL幾乎總是優于其它幾種策略,只有在測驗長度為 10時,PPWKL綜合指標指第 1位。總的來說,考慮了屬性掌握概率的選題策略 PHKL和 PPWKL,在綜合測驗精度和題庫使用均勻性指標后略占優勢。

當屬性之間存在較低、中等和較高相關時,各選題策略在短測驗中的表現,請參考附錄4中的表10,11和12。從表10,11和12可以看出,PHKL和MI兩中策略的測驗精度幾乎總是排在前兩位,在長度為4和6的測驗中,PHKL占優,在長度為8和10的測驗中,MI占優,并且當屬性之間的相關達到中等以上時,MI在測驗精度上的優勢比屬性之間存在低相關時略大;在大多數情況下,PHKL和PPWKL在題庫使用均勻性上的表現總是排在前 2位。綜合來看,PHKL大多數情況下,綜合指標都是排在第1位。

表5 三種選題策略的分類準確率和題庫使用均勻性(短測驗,屬性獨立)

PPWKL 0.804 0.958 99.320 0.546 0 0.955 0.050 133 15 15.903 MI 0.806 0.959 106.431 0.582 0 1.000 0.050 151 16 15.566

5 小結與討論

通過對基于屬性掌握概率的2種選題策略與5種已有的CD-CAT下的選題策略的比較研究發現：在屬性之間是獨立的定長和變長的CD-CAT中,考慮了屬性掌握概率的PHKL和PPWKL選題策略在測驗精度和題庫的利用率上的綜合表現優于其它選題策略;當屬性之間存在較低、中等和較高相關時,在定長和變長的CD-CAT中,PHKL和PPWKL在保證測驗精度的同時,對題庫使用的均勻性控制上也有了改善,它們的綜合指標排在前 2位;當屬性之間存在較低、中等和較高相關的短測驗中,在測驗長度為4和6時,PHKL的測驗精度更好,當測驗長度達到8和10時,MI的測驗精度更好,這說明PHKL策略更適合在測驗初期使用;PHKL和PPWKL策略的一大優點是在不損失或較少損失測驗精度的條件下,能改善題庫的使用均勻性。

在測驗初期,因為關于被試屬性掌握狀態的信息較少,采用基于屬性掌握模式的選題策略可能不利于對被試的知識狀態的估計,因為這人為增加了誤差。特別是在測驗長度較短時,從表10,11和12中的結果很清楚地說明了這一點,基于屬性掌握概率的PHKL和PPWKL,以及基于互信息的MI的測驗精度分別排在前3位。PHKL和PPWKL選題策略在選題時考慮了屬性掌握模式的后驗概率和被試的屬性掌握概率的變化情況,選題時一方面考慮被試的總體分布情況,另一方面也考慮了所選擇的項目對于被試屬性掌握概率的影響,越能改變被試屬性掌握概率的項目越容易被選到,這樣在測驗長度較短時就有利于估計被試的屬性掌握模式。

基于屬性掌握概率的選題策略與基于屬性掌握模式的選題策略的不同之處在于前者考慮了被試的屬性掌握概率變化情況,而后者只考慮被試的屬性掌握模式估計值。被試的屬性掌握概率是在區間0到1之間的連續值,被試作答每個題之后,都會引起其屬性掌握概率的變化,因此,在選題時將這個變化考慮進去比僅考慮屬性掌握模式的變化更精細,特別是在測驗長度較短的測驗中,因為此時被試的屬性掌握模式估計并不準確,此時需要結合更多有用的信息來選題(這一點類似于CAT中的全局信息量選題,可參考Chang和Ying (1996)),有利于提高測驗的估計精度,并且考慮了被試的屬性掌握概率之后,會對題庫的使用均勻性有改善。

在本研究中沒有考慮屬性之間可能存在的層級關系(hierarchical relationship,可參見 Leighton,Gierl,&Hunka,2004),但在實際的測驗中,屬性之間有可能會存在層級關系。當屬性之間存在層級關系時,特別是很多實際測驗中都涉及到的層級關系,PHKL,PPWKL,PWKL,HKL和MI等策略的表現會是什么樣的,這需要進一步的深入研究。并且,在實際的應用中,需要根據測驗的目的進行綜合權衡,選擇合適的選題策略。

題庫總體利用率較低是所涉及的各種選題策略都存在的問題,這一點從陳平等(2011)的研究結果中也可以得到驗證。就本研究來說,在變長CD-CAT測驗下,未使用的項目數大多都大于110,也就是說,題庫中有超過一半以上的項目都沒有被使用到,只是使用了不到一半的項目,這充分反映了這里所使用的選題策略在題庫的利用率上的表現還有待進一步提高。

Barrada,J.R.,Olea,J.,Ponsoda,V.,&Abad,F.J.(2008).Incorporating randomness in the Fisher information for improving item-exposure control in CATs.

British Journal of Mathematical and Statistical Psychology,61

,493–513.Chang,H.H.,Qian,J.H.,&Ying,Z.L.(2001).A-stratified multistage computerized adaptive testing with b blocking.

Applied Psychological Measurement,25

(4),333–341.Chang,H.H.,&Ying,Z.L.(1996).A global information approach to computerized adaptive testing.

Applied Psychological Measurement,20

(3),213–229.Chang,H.H.,&Ying,Z.L.(1999).A-stratified multistage computerized adaptive testing.

Applied Psychological Measurement,23

(3),211–222.Chen,P.,Li,Z.,&Xin,T.(2011).A note on the uniformity of item bank usage in cognitive diagnostic computerized adaptive testing.

Studies of Psychology and Behavior,9

(2),125–132.[陳平,李珍,辛濤.(2011).認知診斷計算機化自適應測驗的題庫使用均勻性初探.

心理與行為研究,9

(2),125–132.]Chen,D.Z.(2004).

Comparison study of item selection strategies of computerized adaptive testing with the Samejima Graded Response Model

(Unpublished Master’s thesis).Jiangxi Normal University.[陳德枝.(2004).

Samejima等級反應模型下CAT選題策略比較研究

(碩士學位論文).江西師范大學.]Cheng,X.Y.,Ding,S.L.,Yan,S.H.,&Zhu,L.Y.(2011).New item selection criteria of computerized adaptive testing with exposure-control factor.

Acta Psychologica Sinica,43

(2),203–212.[程小楊,丁樹良,嚴深海,朱隆尹.(2011).引入曝光因子的計算機化自適應測驗選題策略.

心理學報,43

(2),203–212.]Cheng,Y.(2008).

Computerized adaptive testing:new development and applications

(Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.Cheng,Y.(2009a).When cognitive diagnosis meets computerized adaptive testing:CD-CAT.

Psychometrika,74

(4),619–632.Cheng,Y.(2009b).

Computerized adaptive testing for cognitive diagnosis

.Paper presented at the 2009 GMAC Conference on Computerized Adaptive Testing.Cheng,Y.(2010).Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverge:The modified maximum global discrimination index method.

Educational and Psychological Measurement,70

(6),902–913.de la Torre,J.(2009).DINA model and parameter estimation:A didactic.

Journal of Educational and Behavioral Statistics,34

(1),115–130.Henson,R.A.(2004).

Test discrimination and test construction for cognitive diagnostic models

(Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign

Hsu,C.L.,Wang,W.C.,&Chen,S.Y.(2013).Variable-length computerized adaptive testing based on cognitive diagnosis models.

Applied Psychological Measurement,37

(7),563–582.Huebner,A.,&Wang,C.(2011).A note on comparing examinee classification methods for cognitive diagnosis models.

Educational and Psychological Measurement,71

(2),407–419.Leighton,J.P.,&Gierl,M.J.(2007).

Cognitive diagnostic assessment for education:Theory and applications

.New York:Cambridge University Press.Leighton,J.P.,Gierl,M.J.,&Hunka,S.M.(2004).The attribute hierarchy method for cognitive assessment:A variation on Tatsuoka's rule-space approach.

Journal of Educational Measurement,41

(3),205–237.Liu,Z.,Ding,S.L.,&Lin,H.J.(2008).Item selection strategies for computerized adaptive testing with the generalized partial credit model.

Acta Psychologica Sinica,40

(5),618–625.[劉珍,丁樹良,林海菁.(2008).基于GPCM的計算機自適應測驗選題策略比較.

心理學報,40

(5),618–625.]McGlohen,M.,&Chang,H.H.(2008).Combining computer adaptive testing technology with cognitively diagnostic assessment.

Behavior Research Methods,40

(3),808–821.Rupp,A.A.,Templin,J.,&Henson,R.(2010).

Diagnostic measurement:Theory,methods and applications

.New York:Guilford.Tatsuoka,C.(2002).Data analytic methods for latent parially ordered classification models.

Journal of the Royal Statistical Society:Series C (Applied Statistics),51

(3),337–350.Tu,D.B.,Cai,Y.,&Dai,H.Q.(2013).Item selection strategies and initial items selection methods of CD-CAT.

Journal of Psychological Science,36

(2),469–474.[涂冬波,蔡艷,戴海崎.(2013).認知診斷 CAT選題策略及初始題選取方法.

心理科學,36

(2),469–474]Wang,C.(2013).Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length.

Educational and Psychological Measurement,73

(6),1017–1035.Wang,C.,Chang,H.H.,&Douglas,J.(2012).Combining CAT with cognitive diagnosis:A weighted item selection approach.

Behavior Research Methods,44

(1),95–109.Wang,C.,Chang,H.H.,&Huebner,A.(2011).Restrictive stochastic item selection methods in cognitive diagnostic CAT.

Journal of Educational Measurement,48

(3),255–273.Xu,X.L.,Chang,H.H.,&Douglas,J.(2003).

A simulation study to compare CAT strategies for cognitive diagnosis

.Paper presented at the the Annual Meeting of American Educational Research Association,Chicago,IL.