郭 磊 鄭蟬金 邊玉芳
近些年來, 國內外對認知診斷計算機化自適應測驗(Cognitive Diagnostic Computerized Adaptive Testing, CD-CAT)的研究越來越多。CD-CAT結合了認知診斷理論和 CAT的雙重優勢, 比起傳統的測驗形式, 它可以更精確、更迅速、更靈活地測量出被試的潛在知識結構, 也稱為知識狀態(Knowledge State, KS), 從而獲得被試在知識點上的掌握情況,為教育教學工作提供有針對性的指導, 促進學生的個性化發展。
CD-CAT和傳統CAT的組成部分是相似的, 主要包括五部分:(1)參數已知的題庫; (2)初始項目選擇方法; (3)知識狀態或能力值的估計; (4)選題策略;(5)終止規則(陳平, 2011)。由于CD-CAT發展較晚,截止目前, CD-CAT的研究主要集中在選題策略(Cheng, 2009, 2010; Wang, 2013; Wang, Chang, &Douglas, 2012; Xu, Chang, & Douglas, 2003; 毛秀珍, 辛濤, 2011)、項目曝光控制(Wang, Chang, &Huebner, 2011; 陳平, 2011; 毛秀珍, 辛濤, 2013)和屬性在線標定(Chen, Xin, Wang, & Chang, 2012; 陳平, 辛濤, 2011; 汪文義, 丁樹良, 游曉鋒, 2011)方面, 對終止規則的研究相對較少。在查閱國內外關于CD-CAT終止規則的文獻后發現, 僅有Hsu, Wang和Chen (2013)專門對變長CD-CAT的終止規則進行過模擬研究, 而大部分的研究還是圍繞選題策略、曝光控制和屬性在線標定這三方面展開的。但關于這三方面的研究均是以定長(fixed-length) CAT的形式作為終止規則, 即固定每次測驗的長度, 當被試完成測驗后, 根據被試的作答反應估計知識狀態。定長CAT由于固定了測驗長度, 施測較為方便,但對不同的被試會有不同的測量精度。一個更加合理的做法是, 應該使得 CAT形式的測驗對每個被試的測量精度相同, 這也正是自適應測驗的優勢所在(Weiss & Kingsbury, 1984)。與定長CAT相對應的終止規則為變長(variable-length)CAT, 變長 CAT能夠達到每個被試具有相同測量精度的目標, 具有更高的估計精度(Babcock & Weiss, 2009)。Kingsbury和 Houser (1993)的研究表明, 不管是在多級評分CAT還是0-1評分CAT中, 變長CAT在測驗效率、能力估計的收斂和能力估計精度等方面均優于定長 CAT。相對于定長 CAT, 變長 CAT更能體現出自適應的特點和優勢, 因此, 開展這方面的研究非常有意義。在傳統CAT中, 一些學者對變長CAT的終止規則進行了相應的研究(Choi, Grady, & Dodd,2010; Dodd, 1990; Dodd, Koch, & De Ayala, 1993;Dodd, De Ayala, & Koch, 1995), 總體來講, 可以歸納成兩類:(1)不斷施測項目直到測量標準誤落在可接受范圍內, 或測驗信息量達到某個預先設定的指標; (2)最小信息量終止規則, 即剩余題庫中所有項目的項目信息量都低于某個預設水平(陳平, 2011)。在CD-CAT中, Hsu等(2013)在Tatsuoka (2002)提出的基于后驗概率序列方法的基礎上稍做改進, 提出了變長CD-CAT的終止規則(本文將其稱為HSU法,詳見第2部分)。其研究結果表明, 當固定知識狀態后驗分布的最大后驗概率預設水平時, 被試的模式判準率會隨著第二大后驗概率預設水平的降低而增大; 當固定知識狀態后驗分布的第二大后驗概率預設水平時, 被試的模式判準率會隨著最大后驗概率預設水平的升高而增大。這是對變長CD-CAT研究的一大推動。
與傳統CAT一樣, 在CD-CAT的實際應用中,不容忽視的一個重要問題是項目曝光問題。Wang等(2011)在研究中指出, 當前 CD-CAT著重于測量精度的實現, 未考慮到項目曝光問題, 導致題庫使用極其不均勻, 優質題目曝光十分嚴重。盡管CD-CAT不是高風險測驗, 但當認知診斷結果與某些教學評價指標掛鉤時, CD-CAT就會變得具有高風險, 測驗安全將變得十分重要(毛秀珍, 辛濤,2013; 唐小娟, 丁樹良, 俞宗火, 2012)。而且CD-CAT的題庫建設比傳統 CAT建設更加復雜耗時, 除了像傳統 CAT要考慮題目質量等因素之外, 還要對每道題目測查的屬性(即Q矩陣)進行詳細準確的界定, 如果優質題目過度曝光, 將會導致資金和時間的嚴重浪費。因此, 在CD-CAT中對項目曝光率進行控制具有重要意義。
正如前文所述, 僅有 Hsu等(2013)對變長 CDCAT的終止規則進行過模擬研究, 更多的文獻僅在討論部分提出了研究變長 CD-CAT的重要性和必要性, 缺乏對具體方法的研究, 更缺乏在變長 CD-CAT下控制項目過度曝光的研究。例如, Cheng (2008)提出可以求取鄰近兩次后驗分布的KL距離, 當該距離小于預設水平時即可終止測驗的方法。本文首先借鑒前文總結的傳統變長 CAT的終止規則, 提出了兩種變長CD-CAT的終止規則, 分別稱作屬性標準誤法(standard error of attribute, SEA)和二等分法(halving algorithm, HA)。然后從估計的相對穩定性角度提出了鄰近后驗概率之差法(difference of the adjacent posterior probability method, DAPP)。最后, 將相對穩定性的思想與Tatsuoka (2002)提出的經驗性準則相結合, 提出了混合法(hybrid method,HM) (參見本文第 2部分)。接下來以 DINA模型(Junker & Sijtsma, 2001)為例, 在未控制曝光和采用不同的曝光控制條件(參見本文第 3部分)下, 將四種新方法與HSU法以及Cheng提出的KL法進行比較, 意在全面考察不同的變長CD-CAT終止規則在不同實驗情景下的實際表現。
本文所涉及的6種變長終止規則可以歸納為三大類:第一類是基于絕對標準的終止規則, 包括HSU法, SEA法和HA法; 第二類是基于相對標準的終止規則, 包括DAPP法和KL法; 第三類是結合兩種標準的終止規則, 即混合法。其中, HA法屬于項目水平(item-level)的終止規則, 即終止規則是從題目角度出發判斷的; 其余5種方法屬于被試水平(examinee-level)的終止規則, 即終止規則是從被試自身的角度判斷的。下面分別對本文涉及的6種方法進行介紹。
Tatsuoka (2002)給出了變長CD-CAT的經驗性準則, 即被試屬于某種知識狀態的最大后驗概率超過 0.8時, 測驗終止。Hsu等(2013)基于 Tatsuoka的思想, 進一步提出了雙重標準的變長CD-CAT終止規則, 即當被試屬于某個知識狀態的最大后驗概率 P不低于某個預設水平(例如, 0.7), 并且第二大后驗概率P不高于某個預設水平(例如, 0.1)時,測驗終止。


其中, S E(a) 為屬性k的標準誤, k = 1 ,2,K ,K。P為掌握屬性k的邊際后驗概率。SEA法的測驗終止規則為:被試每做完一道題目, 便計算每個屬性的標準誤, 直到所有屬性的標準誤均小于預設水平時(例如, 0.2), 測驗終止。




DINA模型屬于非補償模型, 每道題目只有兩個參數:s參數和g參數。記二分變量 X為被試i對項目 j的作答反應( X= 1 表示答對, X=0表示答錯), 知識狀態為a的被試在第j題上正確作答的概率可以表示為:


根據已有研究結果表明, 后驗加權的 KL信息量法(PWKL), 綜合后驗加權和距離加權的混合KL信息量法(HKL)以及香農熵法(SHE)均具有較高的屬性判準率和模式判準率(Cheng, 2009; 陳平,2011)。本文按照Hsu等(2013)的做法, 選取PWKL作為變長CD-CAT的選題策略。PWKL指標的計算公式如下:


it l知識狀態a的后驗概率。運用PWKL時, 從剩余題庫中選擇具有最大 PWKL信息量的題目作為下一題施測。
Wang等(2011)將應用于傳統CAT中的曝光控制方法進行了修正, 并加入了重要參數(importance parameter), 提出了兩種適用于定長 CD-CAT的曝光控制方法:限制進度法(Restrictive Progressive method, RP)和限制閾值法(Restrictive Threshold method, RT)。RP法(或RT法)通過運用“進度因子”1/xL- (x為已施測的題目數量, L為測驗長度)來分配隨機成分(或閾值大小)和信息量在選題指標中的權重, 從而達到控制項目過度曝光的目的。進度因子1/xL-的含義為:在測驗初始階段, 進度因子接近于 1, 選題指標的大小基本上由隨機成分的大小決定, 信息量的作用很小; 隨著測驗的進行, 進度因子逐漸減小, 選題指標主要由信息量的大小決定, 隨機成分的作用變得很小。顯然, 進度因子的計算依賴于測驗的固定長度 L, 因此, 這兩種方法只適用于定長CD-CAT情景。本文將 RP法和 RT法進行修正(詳見 3.3.2和 3.3.3部分), 分別稱作修正的限制進度法(Modified Restrictive Progressive,MRP)和修正的限制閾值法(Modified Restrictive Threshold, MRT), 使之適用于變長CD-CAT情景。同時考慮第三種項目曝光控制方法:簡單控制法(simple), 并采用以上三種方法分別對 CD-CAT測驗進行曝光控制。接下來, 分別對這三種項目曝光控制方法進行介紹。
3.3.1 simple法
simple法是在 PWKL選題策略指標前乘以一個曝光控制因子f (陳平, 2011), 計算公式如下:

其中,r 為允許的最大項目曝光率,n為第h個項目當前的被調用次數, N為參加測驗的總人數。
3.3.2 MRP法
在定長CD-CAT中, RP法中的進度因子由已施測的題目數量和測驗長度之間的關系描述。類似地,MRP法利用當前最大后驗概率和預設最大后驗概率之間的關系來重新定義“進度因子”。同時, 根據Wang等(2011)的預實驗結果, 只在RP方法中加入隨機成分并不足以保證能夠有效地控制所有過度曝光的項目。因此, 需要引入曝光控制因子f來將所有項目的曝光率控制在預設水平以下。MRP法對進度因子進行了重新刻畫, 同樣需要引入f對過度曝光項目進行控制。于是, MRP法將在剩余題庫中選擇具有最大 M RP_ P WKL值的項目進行施測:

其中, P為最大后驗概率的預設水平, P為當前屬于某個知識狀態的最大后驗概率。S為剩余題庫, exp為項目 h當前的曝光率。記 H為S中項目信息量最大值, 則隨機成分 R~ U ( 0,H)。b為平衡測量精度和項目曝光率的指標。
3.3.3 MRT法
該方法根據選題策略(本文使用的是PWKL選題策略)從剩余題庫中選出符合要求的項目構成候選項目集, 然后再根據一定原則從候選項目集中選出下一題(本文采用的是隨機方法)。符合要求的候選項目落在區間[max(P WKL ) - d,max(P WKL)]內。其中, 區 間 長 度 d = [ max(P WKL ) - m in(P WKL)]×(1-P/ P)。值得注意的是, 當使用 MRT法時,作者發現有些曝光率大于 r的項目仍會被選中,這是因為 P的增長并非線性增長, 存在“折回”現象, 即下一階段的 P會小于上一階段的P。因此, 在使用MRT法時, 需要將越界的項目從題庫中剔除, 保證參加測驗的被試在今后測驗中不再使用該題。
本文采用Matlab (R2011b)自編所有程序, 進行模擬實驗。
本研究題庫及被試的知識狀態采用陳平等(2011)的方法生成。陳平等(2011)在假設屬性之間相互獨立前提下, 給出了三種類型的基本Q矩陣, 分別稱作Q、Q和Q矩陣。然后對它們進行簡單操作后, 生成考察6個屬性, 共360道題目的題庫。題庫中的猜測參數 g和失誤參數 s從均勻分布U(0.05,0.25)中抽取。生成2000名被試并且假設每個被試掌握每個屬性的概率是0.5。
運用DINA模型計算被試i在題目j上的正確作答概率P, 然后從 (0,1)U 分布中產生一個隨機數m。如果P大于等于m, 則被試i在題目j上的作答反應記為 1, 否則為 0。在被試進入 CD-CAT時, 首先隨機生成被試的知識狀態, 在被試每作答完一道題目后, 運用貝葉斯最大后驗概率方法(Maximum A Posterior, MAP)估計被試的知識狀態。
(1)P包含兩個水平:0.8和0.9; P包含兩個水平:0.002和0.003;
(2)由于尚無e在不同終止規則下的研究, 因此,本文首先對e在不同終止規則下得到的測驗使用情況和模式判準率進行了預研究(由于篇幅所限,未將預研究結果列出, 并不妨礙對本文的理解),以此確定出了不同終止規則下e合理的取值條件,具體為:在使用HM法、DAPP法和KL法時, e包含 4個水平:0.05、0.01、0.005和 0.001; 在使用SEA 法時, e包含 5個水平:0.3、0.25、0.2、0.1和0.05; 在使用HA法時, e包含5個水平:0.1、0.05、0.01、0.005和0.001;
(3)當加入項目曝光控制因子時, 固定r值為行業標準0.2, 2b=。同時, 為了不讓變長CD-CAT的題目數量過長, 與實際情況更加貼近, 本文設置測驗長度的上限為30題。
綜上所述, 本研究共涉及 4種曝光控制條件(無控制、simple法、MRP法和MRT法)和6種終止規則。并且, 根據預研究確定出了每種終止規則下的終止標準, 分別為:HSU法4個水平、SEA法5個水平、HA法5個水平、DAPP法4個水平、KL法4個水平和HM法4個水平。為了減小隨機誤差, 每種實驗條件均實驗 30次。最終共需進行4′ ( 4 + 5 + 5 + 4 + 4 + 4 )′ 3 0 = 3 120次實驗。
被試知識狀態估計精確性的指標為模式判準率(Pattern Correct Classification Rate, PCCR), 計算公式如下:

PCCR考察被試屬性掌握模式(a =(a,a,K ,a))的返真性。假設測驗共考察了K個屬性, 有N個被試參加了測驗, 發生失誤前(即理想狀態下)被試 i的屬性掌握向量記為 X, 但把該被試歸類為Z, 如果有 X=Z, 記 t= 1 ; 否則記 t= 0 。
同時, 還記錄了測驗長度(平均數, 標準差, 測驗最長值和測驗最短值)、未使用的題目數量等指標來衡量不同終止規則表現的差異。
表1是在未加入曝光控制方法下, 6種終止規則的CD-CAT測驗使用情況和模式判準率結果。從表1可以看出, 6種變長終止規則均有很好的表現,彼此差異不明顯。總體來看, 隨著P的增大和e的減小, 測驗平均用題量逐漸上升, 題庫中未使用的題目數量逐漸減小, PCCR值逐漸上升。這是因為終止規則越嚴格, 被試需要作答更多的題目才能達到終止標準。作答的題目數量越多, 被試能夠提供的信息量也就越多, 于是被試屬于某一知識狀態的可能性就越大。
具體來看, 在HSU法中, 只控制P時的PCCR值要小于同時控制P和P的 PCCR值(0.8394<0.9968, 0.9219<0.9980), 未使用題目數量為前者多于后者, 但在平均用題量上, 前者要少于后者, 這跟 Hsu等(2013)的研究結果一致。在 HM 法中,e=0.001時的結果與 HSU法中同時控制條件下的實驗結果(即表1中第8行與第2行, 第12行與第4行)相似; 當e=0.05時, 平均用題量分別增加了2.8 題(12.0–9.2)和 1.5題(12.9–11.4), 而 PCCR 值分別提升了 9.63% (0.9357–0.8394)和 3.67% (0.9586–0.9219)。在SEA法中, 當e=0.3時, PCCR值只有0.7963, 平均用題量為8.6題; 當e=0.25時, PCCR接近但仍然低于0.9, 但當e=0.2時, PCCR值上升至0.9672, 與HSU法的第三行結果相比, 平均用題量只多了1.3題(12.7–11.4), 而PCCR值上升了4.53%;當e=0.05時, PCCR高達0.9927, 與HSU法的第四行結果相似。在DAPP法中, 當e=0.05時, PCCR值非常低, 只有 0.3387, 平均用題量只作答了 5.6題; 但當e=0.01時, PCCR值立刻增長到 0.9885,平均用題量也上升到 15.9題, 當e繼續下降至0.001時, PCCR值高達0.9989, 并且題庫中未使用的題庫數量也由240題下降至102題。KL法以及HA法和DAPP (SEA)法結果類似, 故不再贅述。

表 1 未加入曝光控制時 6種終止規則的判準率和測驗使用情況(30次平均結果)
綜上, 本文提出的 4種新的終止規則以及 KL法在測驗使用情況和被試模式判準率上的表現均和HSU法相差無幾, 表明不論是基于項目水平(HA法)的終止規則, 還是基于被試水平(HSU, DAPP,HM, SEA和KL法)的終止規則, 均能有效地作為變長CD-CAT的終止規則加以使用。
表2至表4分別為加入simple、MRT和MRP曝光控制方法時, 6種終止規則的模式判準率和測驗使用情況。總體來看, 不論采用何種曝光控制方法, 均能很好地控制最大項目曝光率。在絕大部分的實驗條件下, 按照精度終止的 PCCR (p)值要高于按照最大測驗長度終止的 PCCR (max)值, 這與Hsu等(2013)的研究結果一致。隨著P的增大和e的減小, 平均測驗長度逐漸增加, 題庫中未使用的題目數量逐漸減小(特別地, MRT和MRP法中的未使用題目數量均為0), PCCR (p)值逐漸增加, 按照最大測驗長度終止的被試百分比(記作%max)也逐漸增加。在相同實驗條件下, 采用不同的曝光控制方法, %max在各個終止規則下是不同的, 甚至在有些終止規則下判準率也有所差異。例如, SEA法在simple條件下的%max最高為14.9 (當e=0.05時),而在MRT和MRP條件下的%max最高分別為65.85和 45.60, 但三者的 PCCR (p)值相差無幾, 分別為0.9951, 0.9971和0.9975。HA法在simple條件下的%max最低, 其次是MRP條件下, 最高是MRT條件下, 但三者的PCCR (p)最大值均接近1。而另外一種情況是, KL法在MRP條件下的%max最低, 其次是simple條件下, 最高的%max出現在 MRT條件下, PCCR (p)最大值在simple和MRT條件下均高于 0.98, 但在 MRP條件下 PCCR (p)最大值只有0.7802。這些結果均表明不同的曝光控制方法會以不同的方式和程度影響各個終止規則的表現。
具體來看, 在simple曝光控制下(見表2), 除了DAPP法中e=0.05時, PCCR (p)只有0.3361, 6種終止規則的表現相差無幾。在MRT曝光控制下(見表3),DAPP法的表現變得很差, 當e= 0.005時, PCCR (p)值只有0.6438, 而當e=0.001時, PCCR (p)立刻上升至 0.9823, 但%max也已高達 47%左右, 表明DAPP法容易受到MRT方法的影響。在KL法中,有一個特例, 即當e=0.05時, PCCR (p)只有0.3658,但隨著e由0.01減小至0.001, PCCR (p)值由0.8395上升至0.9873。在SEA、HA和KL法中, 隨著e的減小, PCCR (p)值會逐漸升高, 但%max也逐漸上升, 作者分析其原因可能有兩點:第一, e較小對應著比較苛刻的終止條件, 即需要被試作答更多的題目才能滿足測驗終止的要求; 第二, MRT法在項目曝光率的控制上存在過度控制(overcontrol)現象,即Max (r)值遠遠小于r= 0.2, 使得質量較好的題目未能提供給被試作答, 從而增加了測驗長度。在MRP曝光控制下(見表4), DAPP法的表現依然最差, 即使當e=0.001時, PCCR (p)只有0.6724。在該曝光控制條件下, KL法同樣變差, PCCR (p)最大值也只有0.7802。同樣地, MRP法在項目曝光率的控制上也存在過度控制現象, 但在相同的實驗條件下,%max的比例要比MRT中的小, 而PCCR (p)要稍差于MRT法, 這與Wang等(2011)在定長CD-CAT下的研究結果一致。

表2 simple曝光控制下6種終止規則的判準率和測驗使用情況(30次平均結果)
特別地, 在部分實驗條件下, 如表2至表4中粗體部分結果所示, PCCR (max)值要高于PCCR (p)值, 這與大部分實驗結果存在矛盾, 這些矛盾的結果主要集中在屬于相對標準終止規則的DAPP法和KL法上, 其余從屬于絕對標準的終止方法并未出現。這是因為, 相較絕對標準終止規則, 相對標準終止規則并沒有設置一個低限臨界值(例如, 最大后驗概率P至少要高于0.8), 會出現在P未達到0.8之前就符合前后之差低于預設標準(例如,e=0.01), 甚至可能在 P絕對水平很低時就已經符合相對標準而終止測驗的情況。例如, 圖1和圖2分別表示在 DAPP方法(e=0.05)下, 按照精度停止時, 判別正確和判別錯誤的兩個被試的 KS后驗概率隨測驗長度變化的趨勢圖。每個圖中共有2條折線, 分別表示2種知識狀態的后驗概率。根據DAPP法的思想, 被試 A在作答完 18題后終止測驗。其中, 盡管P在測驗前期的上升有些波折, 但最終還是上升至0.95附近, 并和其他KS的后驗概率拉開了差距。因此, 被試A的KS得到了正確的判別。而被試B在作答完4題后便終止了測驗, 表明此時鄰近的從屬于同一種知識狀態的P之差的絕對值小于了預設水平, 但 P的絕對水平仍然很低(只有0.07左右), 并且未能和其他KS的后驗概率拉開差距, 因此, 被試B的KS未能得到正確的判別。

表3 MRT曝光控制下6種終止規則的判準率和測驗使用情況(30次平均結果)
圖3和圖4分別表示在DAPP方法(e=0.05)下,按照測驗最大長度停止時, 判別正確和判別錯誤的兩個被試的 KS后驗概率隨測驗長度變化的趨勢圖。被試C在作答前24題時, 有好幾條后驗概率折線相互糾纏, 導致 KS仍未能分辨清楚。但在作答 25題之后, 其中一條折線迅速上升。當作答至30題時, 該后驗概率已超過0.9, 并和其他KS拉開了差距, 因此, 被試C的 KS得到了正確的判別。而被試D在作答完30題后, P的絕對水平只有0.5左右, 沒有和其他KS拉開差距, 導致其KS未能得到正確的判別。

表4 MRP曝光控制下6種終止規則的判準率和測驗使用情況(30次平均結果)

圖1 被試A的后驗概率變化圖

圖2 被試B的后驗概率變化圖

圖3 被試C的后驗概率變化圖

圖4 被試D的后驗概率變化圖
上述結果和分析表明, 曝光控制方法會對相對標準終止規則的表現產生較大影響。
CD-CAT結合了認知診斷理論和 CAT的雙重優勢, 比起傳統的測驗形式, 它可以更精確、更迅速、更靈活地測量出被試的潛在知識結構, 從而獲得被試在知識點上的掌握情況, 為教育教學工作提供有針對性的指導, 促進學生的個性化發展。然而,當前大部分的研究均是以定長 CD-CAT的形式進行研究, 這是由于定長 CD-CAT固定了測驗長度,施測較為方便, 但對不同的被試會有不同的測量精度。而自適應測驗的精髓應該是使得CD-CAT測驗對每個被試的知識狀態估計擁有相同的估計精度。與定長 CAT相對應的終止規則為變長(variablelength) CAT, 變長 CAT能夠實現每個被試具有相同測量精度的目標, 具有更高的估計精度(Babcock& Weiss, 2009)。
本文提出了 4種新的變長 CD-CAT的終止規則:SEA法、HA法、DAPP法和HM法, 并在未采用曝光控制與采用不同的曝光控制條件下和HSU法以及KL法進行了比較。研究結果表明本文提出的4種新方法能夠有效地作為變長CD-CAT的終止規則加以使用。通過模擬研究, 得出的主要結論有:(1)6種變長終止規則均有較好表現, 并且相差無幾。終止條件越嚴格, 平均測驗長度越長, 按最大測驗長度終止的測驗百分比越大, 模式判準率越高。(2)當未加入曝光控制時, 4種新的終止規則均有較好表現, 與HSU法十分接近, 并且隨著最大后驗概率的增加或e的減小, 模式判準率呈上升趨勢, 平均測驗長度逐漸增加, 題庫中未使用的題目數量逐漸減小, 但在題庫使用率方面均較差。(3)當加入項目曝光控制時, 6種變長終止規則下的題庫使用率有了極大的提升, 尤其是在MRT和MRP條件下, 題庫中未使用的題目數量為 0, 并且仍能保持較高的模式判準率, 但會出現對項目曝光率過度控制的現象。不同的曝光控制方法對各個終止規則的影響是不同的, 其中, 相對標準終止規則極易受到曝光控制方法的影響。(4)結合加入曝光控制后的實驗結果來看, SEA、HM以及HA法在各項指標的表現與HSU法基本一致, 其次為KL法和DAPP法。
本研究仍存在一些不足之處, 需要得到進一步地改進和完善。首先, SEA法未能直接對被試知識狀態的后驗概率進行操作, 而是通過控制每一個屬性的邊際概率來間接地實現對知識狀態后驗概率的控制。根據目前的認知診斷理論, 無法求取 KS的標準誤, 但屬性的邊際概率和 KS的后驗概率之間存在著一定的數量關系, 屬性的邊際概率能夠確定KS后驗概率的一個區間。未來的研究需要進一步提出全新的認知診斷理論, 推導出知識狀態的方差, 提出更加直接的CD-CAT變長終止規則。
第二, 題庫中的猜測參數g和失誤參數s從均勻分布 U (0.05,0.25)中隨機抽取。實際上, 根據已有實證研究表明, 參數 g和 s會有較大值出現(de la Torre, 2009; 張啟睿, 2012)。在參數波動范圍增大的情況下, 6種變長終止規則的表現如何值得研究。
第三, 本研究假設屬性之間是獨立結構關系,并且固定屬性數量為6個。根據已有研究表明, 屬性層級還可以包括線型、收斂型、發散型及它們組合起來的更為復雜的結構(Leighton, Gierl, & Hunka,2004), 而且, 實際中的屬性層級結構確實是錯綜復雜的, 并且考察的屬性數量通常會多于6個。當屬性之間存在層級關系時, 屬性之間是否可以通過互借信息的方式來提高判準率, 值得研究。后續研究還需考察在不同的屬性層級結構及不同的屬性數量下, 6種變長終止規則的表現。
第四, 不同認知診斷模型的假設是不同的, 大體可以分為補償模型和非補償模型。在不同類型的診斷模型下, 變長終止規則會有何表現; 不同的題目上限設置(本文為 30題)是否會影響變長終止規則在判準率和測驗使用情況上的表現, 是未來的一個研究方向。
第五, 如何將一些非統計約束(Mao & Xin, 2013)納入到變長CD-CAT的考慮中也值得進一步研究。
Babcock, B., & Weiss, D. J. (2009). Termination criteria in computerized adaptive tests: Variable-length cats are not biased. In D. J. Weiss (Ed.). Paper presented at the Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing.
Chen, P. (2011). Item replenishing in cognitive diagnostic computerized adaptive testing——based on DINA model (Unpublished doctoral dissertation). Beijing Normal University.
[陳平. (2011). 認知診斷計算機化自適應測驗的項目增補——以DINA模型為例 (博士學位論文). 北京師范大學.]
Chen, P., & Xin, T. (2011). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(6), 710–724.
[陳平, 辛濤. (2011). 認知診斷計算機化自適應測驗中在線標定方法的開發. 心理學報, 43(6), 710–724. ]
Chen, P., Xin, T., Wang, C., & Chang, H. H. (2012). Online calibration methods for the DINA model with independent attributes in CD-CAT. Psychometrika, 77(2), 201–222.
Cheng, Y. (2008). Computerized adaptive testing—new developments and applications (Unpublished doctoral dissertation).University of Illinois at Urbana-Champaign.
Cheng, Y. (2009). When cognitive diagnosis meets computerized adaptive testing: CD-CAT. Psychometrika, 74(4), 619–632.
Cheng, Y. (2010). Improving cognitive diagnostic computerized adaptive testing by balancing attribute coverage: The modified maximum global discrimination index method.Educational and Psychological Measurement, 70(6), 902–913
Choi, S. W., Grady, M. W., & Dodd, B. G. (2010). A new stopping rule for computerized adaptive testing. Educational and Psychological Measurement, 70(6), 1–17.
de la Torre, J. (2009). DINA model and parameter estimation:A didactic. Journal of Educational and Behavioral Statistics,34(1), 115–130.
Dodd, B. G. (1990). The effect of item selection procedure and stepsize on computerized adaptive attitude measurement using the rating scale model. Applied Psychological Measurement, 14(4), 355–366.
Dodd, B. G., Koch, W. R., & De Ayala, R. J. (1993).Computerized adaptive testing using the partial credit model: Effects of item pool characteristics and different stopping rules. Educational and Psychological Measurement,53(1), 61–77.
Dodd, B. G., De Ayala, R. J., & Koch, W. R. (1995).Computerized adaptive testing with polytomous items.Applied Psychological Measurement, 19(1), 5–22.
Hsu, C. L., Wang, W. C., & Chen, S. Y. (2013). Variablelength computerized adaptive testing based on cognitive diagnosis models. Applied Psychological Measurement,37(7), 563–582.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258–272.
Kingsbury, G. G., & Houser, R. L. (1993). Assessing the utility of item response models: Computerized adaptive testing.Educational Measurement: Issues and Practice, 12(1),21–27.
Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's rule–space approach. Journal of Educational Measurement, 41(3), 205–237.
Mao, X. Z., & Xin, T. (2011). Improvement of item selection method in cognitive diagnostic computerized adaptive testing. Journal of Beijing Normal University (Natural Science), 47(3), 326–330.
[毛秀珍, 辛濤. (2011). 認知診斷 CAT中選題策略的改進.北京師范大學學報 (自然科學版), 47(3), 326–330. ]
Mao, X. Z., & Xin, T. (2013). A comparison of item selection methods for controlling exposure rate in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica,45(6), 694–703.
[毛秀珍, 辛濤. (2013). 認知診斷CAT中項目曝光控制方法的比較. 心理學報, 45(6), 694–703. ]
Mao, X. Z., & Xin, T. (2013). The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints. Applied Psychological Measurement, 37(6), 482–496.
Rupp, A. A., Templin, J. L., & Henson, R. A. (2010).Diagnostic measurement: Theory, methods, and applications.Guilford Press.
Tatsuoka, C. (2002). Data analytic methods for latent partially ordered classification models. Journal of the Royal Statistical Society: Series C (Applied Statistics), 51(3), 337–350.
Tatsuoka, C., & Ferguson, T. (2003). Sequential classification on partially ordered sets. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 65(1), 143–157.
Tang, X. J., Ding, S. L., & Yu, Z. H. (2012). Application of computerized adaptive testing in cognitive diagnosis.Advances in Psychological Science, 20(4), 616–626.
[唐小娟, 丁樹良, 俞宗火. (2012). 計算機化自適應測驗在認知診斷中的應用. 心理科學進展, 20(4), 616–626. ]
Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models.Psychological Methods, 11(3), 287–305.
Wang, C. (2013). Mutual information item selection method in cognitive diagnostic computerized adaptive testing with short test length. Educational and Psychological Measurement,73(6), 1017–1035.
Wang, C., Chang, H. H., & Douglas, J. (2012). Combining CAT with cognitive diagnosis: A weighted item selection approach. Behavior Research Methods, 44(1), 95–109.
Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing. Journal of Educational Measurement, 48(3), 255–273.
Wang, W. Y., Ding, S. L., & You, X. F. (2011). On-line item attribute identification in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(8), 964–976.
[汪文義, 丁樹良, 游曉鋒. (2011). 計算機化自適應診斷測驗中原始題的屬性標定. 心理學報, 43(8), 964–976. ]
Weiss, D. J., & Kingsbury, G. (1984). Application of computerized adaptive testing to educational problems.Journal of Educational Measurement, 21(4), 361–375.
Xu, X. L., Chang, H. H., & Douglas, J. (2003). A simulation study to compare CAT strategies for cognitive diagnosis.Paper presented at the annual meeting of the American Educational Research Association, Chicago.
Zhang, Q. R. (2012). Cognitive diagnostic assessment preparation and diagnostic studies on primary school students’ chinese characters learning (Unpublished doctoral thesis). Beijing Normal University.
[張啟睿. (2012). 小學低年級學生漢字學習的認知診斷測驗編制與診斷研究 (博士學位論文). 北京師范大學.]
Zhang, Q., & Ip, E. H. (2012). Generalized linear model for partially ordered data. Statistics in Medicine, 31, 56–68.