林 喆 陳 平 辛 濤 ,
(1北京師范大學發展心理研究所, 北京 100875) (2中國基礎教育質量監測協同創新中心, 北京 100875)
Computerized Adaptive Testing
, CAT)克服了傳統測驗存在的一些局限, 不僅能夠為被試選擇與其能力相匹配的測驗, 比較這些被試的能力水平, 還能用更少的題目達到相同的估計精度(Weiss, 1982)。因此, 很多大型評價項目(比如, 美國醫生護士資格考試 NCLEX、美國商學院研究生入學考試 GMAT和美國軍事服役職業能力測驗傾向成套測驗 ASVAB)均采用了 CAT的形式(陳平, 張佳慧, 辛濤, 2013)。題目檢查是傳統測驗非常重要的組成部分。在傳統的紙筆測驗中, 被試可以在測驗的過程中隨時回看檢查, 如果出現漏答、筆誤、曲解題意等情況,可以及時修改作答(McMorris, 1991); 被試還可以采取跳過題目等合理的答題策略來提高測驗綜合表現(Vispoel, Hendrickson, & Bleiler, 2000)。題目檢查已經成為被試的一種習慣和默許的權利。然而,目前絕大多數的 CAT測驗不允許被試返回檢查。測驗開發者為了保證選題策略的精準定位、能力估計的精度、某些作弊策略的規避、時間效率以及題庫安全性等問題不允許被試進行題目檢查(Wise,1996)。因此, 允許 CAT題目檢查成了傳統紙筆測驗向CAT發展過程中需要解決的一個關鍵問題。
在 CAT中提供題目檢查的功能是有必要的。不允許題目檢查使被試無法采用紙筆測驗中常用的答題策略, 會額外增加緊張和焦慮等負面因素,導致被試出現本不應該出現的錯誤, 最終影響被試真實能力的估計(Lunz, Bergstrom, & Wright, 1992;Wise, 1996; Vispoel, 1998; Vispoel et al., 2000;Vispoel, Clough, & Bleiler, 2005)。一方面, 不允許題目檢查使CAT的效度受到測驗無關因素的影響,阻礙紙筆測驗向CAT的轉化, 影響CAT在實際中的應用(Stocking, 1997)。另一方面, 被試也希望能夠檢查題目, 并通過檢查獲得更高的分數(Waddell& Blankenship, 1994; Wise, 1996)。如果題目修改是源于被試自身的認知加工, 那么被試應當獲得題目檢查和修改的機會。這樣才能使他們的能力得到真正的展示, 并且更加準確估計他們的真實能力(Benjamin, Cavell, & Shallenberger, 1987; McMorris,1991)。Wise, Finney, Enders, Freeman和 Severance(1999)認為如果允許題目檢查可以排除或減少其對CAT估計精度的影響, 那么允許題目檢查對被試和測驗開發者來說都很有意義。因此, 允許CAT題目檢查是一個值得研究的問題。
允許 CAT題目檢查引起的一個主要問題是會降低能力估計的精度。在CAT中, 選題策略大多是通過最優化某種特定的指標來選擇最適合當前能力估計值的題目。當被試對題目進行修改后, 被試的一系列能力估計值就會發生變化, 已經不同于選題策略所依據的能力估計值。因此, 選題策略選出的一系列“最優”題目對題目修改后的能力估計值來說并非最優。換句話說, 題目修改導致選題策略的不精確定位, 造成題目信息量減少, 增大了能力估計的誤差, 降低了估計的精度(Lord, 1983)。
在 CAT執行過程中, 完全精準的選題定位是不可能實現的, 因為初始幾個題目總是根據先驗的能力值或不精確的能力估計值來選擇。所以, 探究允許題目檢查對能力估計精度的影響也變得更加復雜。一些研究表明允許題目檢查的 CAT較傳統CAT會有更大的誤差 (Bowles & Pommerich, 2001;Wise, 1996; Olea, Revuelta, Ximénez, & Abad,2000)。盡管研究者研發了不同方法來實現允許題目檢查的CAT, 但仍然無法避免能力估計精度的降低, 只能保證能力估計精度的降低在相對合理的范圍內(Stocking,1997; Olea et al., 2000; Vispoel, 1998;Vispoel et al., 2000; Papanastasiou & Reckase, 2007;陳平, 丁樹良, 2008; Han, 2013)。
允許 CAT題目檢查引起的另一個主要問題是會產生作弊策略, 如 Wainer策略(Wainer, 1993)和Kingsbury策略(Kingsbury, 1996), 它們會嚴重影響測驗的效度和測驗公平性。
Wainer策略是由 Wainer (1993)提出的一種操縱 CAT選題的作弊策略:被試在最初的作答過程中故意答錯每一個題目, “操縱”CAT為其選擇容易的題目, 在答完所有題目后, 返回檢查并盡全力作答。如果該被試全部答對這些簡單題目, 就會造成能力估計的正向偏差, 獲得極高的能力估計值。Stocking (1997)的研究表明Wainer策略不僅會使被試的能力估計值產生較大的誤差, 還會使低、中能力的被試從這種不精確的估計中獲益。他還指出Wainer策略極大地影響了測驗的公平性, 也讓CAT的分數解釋毫無意義。
Kingsbury (Kingsbury, 1996)作弊策略是另一種常見的作弊策略。當被試在某種程度上了解了每個題目難度都依賴于前一個題目的作答結果, 他們可以通過感知當前題目與前一個題目的難度變化來獲得前一個題目是否作答正確的線索, 從而糾正之前答案。通過這個策略, 被試可能答對自身能力本無法答對的題目, 從而影響測驗的公平性和效度。
為了防止上述的兩個主要問題, 一些研究者從不同角度提出了允許 CAT題目檢查的方法。從限制修改的角度, Stocking (1997)提出了連續區塊方法(Successive Block Method)。這種方法是在測驗過程中人為設置一串連續的區塊, 每個區塊都分配合理的題目數量和時間, 被試可以在區塊內進行題目檢查和修改, 直到時間用盡或主動跳入下一個區塊。當進入下一個區塊后, 被試就無法再對先前區塊內的題目進行修改。這種方法可以有效應對Wainer策略, 因為被試無法通過答錯所有題目來操縱 CAT的選題。研究結果發現只要每個區塊內的題目數量保持在較少的范圍內, 被試的能力估計精度就不會顯著降低。實證的研究也發現連續區塊方法不僅能夠有效應對Wainer策略與Kingsbury策略,同時能力估計精度的減少也在合理的范圍內(Vispoel, Rocklin, Wang, & Bleiler, 1999; Vispoel et al., 2000, 2005)。
近年來, Han (2013)針對連續區塊方法的不足提出了題目袋方法(Item Pocket Method)。Han認為連續區塊方法是一種受限制的允許題目檢查。一方面, 被試無法像紙筆測驗那樣隨時跳過某個題目,而且只能檢查并修改當前區塊內的題目, 一旦跳過區塊就無法檢查之前的題目。另一方面, 連續區塊方法為了保證能力估計精度, 往往需要設置大量的區塊, 而每個區塊包含少量的題目(Stocking, 1997;Vispoel et al., 1999)。這種設置不僅加劇了檢查的限制, 還增加了被試對于時間決策的負荷, 也為測驗開發者如何分配區塊時間帶來額外的負擔。基于上述的不足, Han提出了題目袋方法。該方法是在測驗中加入一個固定容量的題目袋作為緩存。被試可以把之后想要檢查的題目或想暫時跳過的題目放入題目袋中供其隨時檢查和修改。當題目袋滿時,被試需要替換題目袋中的某一題目或選擇放棄放入, 被替換的題目必需完成作答且無法再修改。當達到終止規則后, 被試需要答完題目袋中的題目,這些題目也會納入最終的能力估計當中, 不答則視為錯誤作答。這種方法的優點在于放入題目袋的題目不參與當前能力的估計, 保證整個過程中選題策略均是基于最終作答估計的能力值, 保證了選題的精確性。此外, 它給被試更充分的自主性, 被試可以在CAT過程中隨時修改和替換題目袋中的題目,也可以跳過某個題目, 從而更加符合紙筆測驗的作答習慣。Han (2013)的研究結果發現, 當題目袋容量較小時, 題目袋方法的估計精度與無修改條件下的估計精度差異不大。而且題目袋方法可以有效地防止Wainer策略, 而且對Kingsbury策略天然地免疫, 因為題目的選擇與題目袋中的項目無關, 兩者之間不存在任何聯系。
此外, 還有一些研究者從能力估計、模型、選題策略等視角出發來實現 CAT題目檢查。Bowles和Pommerich (2001)認為當題目修改后, 極大信息量選題策略的定位是不準確的, 但可以采用特定信息量的選題策略(Specific Information Item Selection, SIIS), 這種選題方法通過為當前能力估計值選擇一個特定信息量而不是極大信息量的題目, 從而減少了作答修改對選題定位產生的影響。Papanastasiou和Reckase (2007)提出題目重排序的方法, 在估計最終能力時有選擇地跳過一些不匹配的題目, 防止這些不匹配的題目對能力估計造成偏差, 從而提高能力估計精度。陳平和丁樹良(2008)通過建立新的評分模型來“修復”能力估計的精度和偏差, 同時能有效地應對 Wainer策略。van der Linden, Jeon和Ferrara (2011)基于“被試的能力越高,初始作答的正確率越高, 并且將錯誤答案修改為正確的概率也越高”的假設, 提出一個兩階段的聯合模型, 將修改前后的答案同時納入能力估計模型中估計被試的最終能力。van der Linden和Jeon (2012)使用該模型來檢驗紙筆測驗中的異常修改行為, 結果顯示通過模型殘差的分析可以一定程度上診斷出異常修改行為。還有研究者從整合的視角, 將連續區塊方法, 題目重排序方法與4PL模型相結合來減少允許題目檢對估計精度的干擾(Yen, Ho, Liao,& Chen, 2012)。
目前, 已經有一些方法可以實現允許題目檢查的CAT。相比較而言, 連續區塊方法有一定的實證研究基礎, 結果也證實連續區塊方法較為有效(Stocking, 1997; Vispoel et al., 1999, 2000, 2005)。此外, 基于連續區塊方法的不足而提出的題目袋方法有其獨特的優勢, 也是一種有效的方法(Han,2013)。然而, 從前人的文獻和研究結果中可以看出上述兩種方法都存在一些不足。
連續區塊方法存在以下不足: (1)被試無法跳過題目。這可能會使被試“卡”在某一題目上, 影響被試的整體發揮; (2)為了保證估計精度, 該方法需要設置較多的區塊, 使得每個區塊中題目數較少, 當限制被試只能在當前區塊中進行修改時, 題目檢查的自主性就會受到影響, 會造成被試額外的負荷,例如是否該進入下一個區塊。
題目袋方法能夠克服連續區塊方法的不足, 但該方法依賴于設置合理的題目袋容量, 如果題目袋容量設置不合理會產生如下的問題:(1)如果容量太小, 難以提供充分的修改機會; (2)如果容量太大,由于題目袋中的題目不提供選題的信息, 因此較一般的CAT, 它選題的準確性和能力估計的精度都會受到影響; (3)Han (2013)發現, 當容量過大時, 低能力被試頻繁地使用題目袋會影響 CAT對這部分被試的能力估計精度, 產生正向的估計偏差。
綜上所述, 題目袋方法較連續區塊方法能為被試提供更充分的修改自主性, 但它的有效性明顯依賴于合理設置題目袋容量。如果有方法能夠保證題目袋合理的設置, 就能改善和促進題目袋方法的應用。本研究認為通過結合連續區塊方法和題目袋方法可以解決題目袋容量設置的問題, 彌補題目袋方法的局限, 并將這種新方法命名為區塊題目袋方法(如圖 1所示)。具體來說, 區塊題目袋方法是將測驗分成幾個大區塊, 為每個區塊分配一個一定容量的題目袋。每個區塊中的設置與題目袋方法一致。區塊結束前, 被試需要作答完題目袋中的題目。進入下個區塊后, 就不能再修改之前區塊的項目。區塊題目袋方法相對于連續區塊方法, 它極大地減少了區塊數量, 減少被試額外的心理負荷; 同時, 它能夠改善題目袋方法對于題目袋的不合理設置, 因為區塊的設置限制了被試只能使用當前區塊下的題目袋, 并且只能在當前區塊中進行修改。
本研究假設區塊題目袋方法在允許 CAT題目檢查的條件下, 比題目袋方法有更高的能力估計精度, 同時能夠更好地應對作弊策略。
Two-Parameter
Logistic Model
, 2PLM)校準, 題庫中每個題目包含區分度a
和難度b
兩個參數。a
參數與b
參數分別服從均勻分布U
(0, 2)和U
(?3, 3)。從標準正態分布中隨機抽取 5000名模擬被試的能力值, 每個模擬被試會在不同實驗條件下作答一個 30題的定長CAT。
圖1 連續區塊方法, 題目袋方法, 區塊題目袋方法示意圖
在CAT的執行過程中, 初始題目從難度為?0.5到0.5的題目中隨機選擇。隨后采用極大費舍信息量選題策略從剩余題庫中選擇下一個題目。被試的能力估計采用期望后驗估計(Expected A Posterior,EAP)和極大似然估計(Maximum Likelihood Estimation
,MLE)相結合的方式。如果被試全部答對和答錯或者作答少于5題時, 采用EAP方法估計被試的能力值; 否則采用MLE方法估計被試的能力值。研究設置5種條件來檢驗區塊題目袋的方法能否有效地實現CAT題目檢查。5種條件包含了無修改條件和4種允許題目檢查條件。無修改條件作為基線, 4種允許題目檢查條件分別為1個區塊×6容量題目袋、2個區塊×3容量題目袋、3個區塊×2容量題目袋以及6個區塊×1容量題目袋。具體來說, 4種允許題目檢查條件固定了題目袋總容量為 6, 使得總容量在4種條件間平衡。然后將6個容量題目袋平均分配到每個區塊中。即4種條件下每個區塊中包含一個6/n容量的題目袋(n = 1, 2, 3, 6)。需要注意的是, 1個區塊×6容量題目袋的條件等同于題目袋方法, 后 3個為區塊數不同的區塊題目袋方法。研究設計之所以固定題目袋總量為 6, 一方面是出于模擬條件設置的考慮, 因為它能平均分配到不同的區塊數中; 另一方面是因為6容量題目袋是Han (2013)研究中題目袋容量最大的條件, 希望通過設置比真實情境更極端的模擬情境, 來更有效地驗證區塊題目袋方法的可行性和優越性。6容量題目袋占了總題目數的20%, 已經遠遠超過了被試正常作答需要修改的量。
在無修改的基線條件下, 被試按照 CAT安排的固定順序作答題目。但在4種允許檢查的下, 被試可能會采用一種合理的作答策略(策略 1)和一種類似Wainer的作答策略(策略2)。前者是在區塊題目袋方法下允許采用的作答策略, 后者是可能對測驗公平性產生影響的一種作弊策略。因此, 研究分2部分進行, 策略 1模擬所有被試作答無修改條件和采用策略1作答4種允許題目檢查條件; 策略2模擬所有被試作答無修改條件和采用策略2作答4種允許題目檢查條件。通過比較各題目檢查條件與無修改條件的平均偏差(BIAS)、差異均方根(Root Mean Squared Error
, RMSE)、絕對誤差均值(mean absolute error
, MAE), 以及不同能力水平上的條件平均偏差(Conditional BIAS
, CBIAS)、條件絕對差異均值(Conditional mean absolute error
, CMAE)的大小來檢驗這兩種策略下區塊題目袋方法的估計精度。BIAS越接近與 0, 說明估計的偏差較小; MAE和RMSE越小且越接近基線水平, 說明CAT在該條件下對被試的能力估計精度較高。2種策略分別模擬25次。整個模擬過程通過 MATLAB R2013a軟件(The Mathworks, Inc., 2013)編寫程序實現。上述指標的計算公式如下:
θ
: 第k
次模擬中第j個被試的能力真值,
M
: 模擬總次數,N
:每次模擬總人數,G
: 第k
次模擬中能力真值屬于g
組的被試人數g
: 不同的能力水平組, 在θ
量尺[?3, 3]上每隔0.5個 logit單位獲得, 12個組的取值分別為[?3,?2.5), [?2.5, ?2), …, [2.5, 3].當允許被試檢查題目時, 被試通常會標記出想要檢查的題目以便之后修改。這種策略符合區塊題目袋方法的運作機制, 被試可以利用題目袋存放想要檢查的題目。一般來說, 被試會更傾向于標記較難的題目。模擬策略1就是基于這種合理作答策略(策略1)來檢驗不同條件下的能力估計精度。
研究1參照了Han (2013)對策略1的模擬過程。研究假定被試對越難的題目越傾向于放入題目袋稍后作答。在作答過程中, 被試通過判斷題目的難易把更難的題目放入題目袋。當題目袋裝滿時, 被試會挑選題目袋中最簡單的題目進行替換作答。對于題目難度判斷的模擬, Han 基于 Vispoel等人(2005)研究結果的推論:當題目難度大于能力值0.5個單位時, 被試有 70%的概率判斷為難; 當小于0.5個單位時, 被試只有 50%的概率辨別正確。本研究認為僅僅基于難度參數判斷題目難易并不全面,題目的區分度參數同樣會影響被試的作答正確率,從而影響被試對題目難度的感知。通過被試的正確作答概率來反映被試對題目難度的感知更符合邏輯。因此, 本研究基于“正確率越低越可能覺得題目難”這一邏輯來模擬被試對題目難易的判斷, 即當被試的正確率為P
時, 就有1?P
的概率判斷為難題。模擬策略1的CAT過程按如下步驟進行:(1)給被試選擇作答題目; (2)被試判斷題目的難易, 在模擬程序中通過產生一個0~1的隨機數, 當1?P大于這個隨機數時, 即認為被試判斷該題為難; (3)如果被試判斷為難, 將題目放入題目袋中; (4)如果題目袋已滿, 被試挑選最簡單的題目進行替換作答, 在模擬程序中直接比較當前題目和題目袋中題目的正確率 P, 選擇正確率最高的作答, 然后將剩余的題目繼續存入題目袋; (5)直到區塊結束, 被試需要給出題目袋中所有題目的最終答案; (6)進入下一區塊, 重復上述步驟, 且不允許對先前區塊中的題目進行檢查和修改; (7)滿足終止規則, 程序結束, 估計最終的能力估計值。模擬策略1假定所有被試均按這種策略作答。
模擬策略1之所以設計這種作答方式, 是為了反映一種十分極端的作答情境, 即被試充分利用題目袋, 始終堅持將難題放到之后作答的情境。如果在這樣極端的情境下, 區塊項目袋方法對能力估計有較好的精度, 那么在真實的CAT中表現會更好。
除了上述這種合理作答策略外, 在區塊題目袋的方法中還可能存在類似 Wainer的作答策略。被試可以在題目袋容量范圍內, 在測驗開始時通過推遲作答把盡可能多的題目放入題目袋中, 之后再按正常方式作答(策略2)。在這個作答過程中, 被試存在故意“操縱”CAT選題的行為, 因此它同 Wainer策略一樣是一種不合理的“作弊”策略, 但受限于題目袋容量, 被試只能操縱部分的題目, 而且模擬情境下低能力被試在合理作答策略下也會出現這種類似的Wainer的作答策略(例如當低能力被試認為初始幾個題目都非常難)。因此, 為了避免誤解, 我們稱策略 2為類似 Wainer的作答策略。在策略 2情境下, 由于這些題目都是初始的中等難度題目,高能力被試就可以獲得一部分與能力不符的簡單題目。此外, 有研究表明CAT最初幾個題目的作答正確與否對能力的估計有較大的影響(Chang &Ying, 2008), 如果題目袋容量充足, 被試可以自主挑選并答對最初的幾個題目來“提高”自己的能力估計值。同時, 由于初始的題目提供信息極少, 這種策略會嚴重減少測驗的信息量, 造成估計精度的降低。這些弊端隨著題目袋容量的增大會變得愈加明顯。因此, 檢驗不同條件在策略2下的估計精度顯得尤為重要。
策略2的CAT模擬過程與策略1基本一致, 只是在策略1的基礎上, 增加了Wainer策略的作答模擬, 即在每個區塊開始時被試先將等量的題目放入題目袋中, 然后再按策略1的方式作答。策略2同樣假定所有被試均按策略2的方式作答。
與所有模擬研究一樣, 策略1和2均是基于概率模型進行模擬, 無法完全模擬真實測驗中的所有作答行為, 考慮真實情境下心理因素的影響。因此在對結果的解釋時應考慮到這個問題。
模擬策略1的結果如表1所示。在題目袋、2區塊、3區塊、6區塊及無修改5種條件下, MAE依次減小, 分別為0.1861、0.1845、0.1839、0.1827和 0.1817。4種允許檢查的條件與無修改條件的MAE差值在0.0010~0.0044之間,考慮到4種允許修改條件下的MAE約為0.18, 低于0.005的較小增量完全可以接受。5種條件下的RMSE分別為0.2340、0.2321、0.2309、0.2298和 0.2284, 表明隨著區塊數的增加估計精度有略微提升, 區塊題目袋方法要稍稍優于題目袋方法。5種條件下的BIAS分別為0.0009、0.0012、0.0017、0.0016和 0.0014, 所有允許檢查條件下的 BIAS值都非常接近于 0, 而且與無修改基線差異不大, 總體上說明了區塊題目袋方法可以實現題目檢查而且不會導致能力估計的正向或負向偏差。總的來說, 在策略1的極端情境下,題目袋方法和區塊題目袋方法不但提供了允許題目檢查的功能, 而且沒有過多地降低被試能力估計精度。區塊題目袋方法較題目袋方法有更高的估計精度, 并且估計精度隨著區塊數量的增加而提高。

表1 策略1和策略2中5種條件下的各項指標值
雖然整體上題目袋方法和區塊題目袋方法對能力估計精度的影響都在可接受的范圍, 但仍然有必要考察不同能力水平上的CMAE和CBIAS來進一步比較兩種方法在不同能力水平上的估計精度。結果如圖2所示, 在12個區間為0.5個logit單位的等距能力組上, 4種允許題目檢查條件下的CMAE基本上隨著區塊數的增長而降低, 最低的是無修改條件的CMAE。結果表明當被試都按策略1的作答方式作答時, 區塊題目袋方法較題目袋方法在估計精度上有一定的提升。在中等和高能力水平上(θ
> ?1), 允許題目檢查的4種條件估計精度相似,并沒有出現明顯的差異。但在低能力水平上[?3, ?1],4種條件的估計精度出現了較明顯的差異, 題目袋方法的 CMAE要明顯高于區塊題目袋和無修改條件。尤其在[?2.5, ?3]的區間上, CMAE的差別最大,此時CMAE值分別為0.2268、0.2121、0.2085、0.2067和0.2002。題目袋方法的估計精度最差, 且與無修改條件相差 0.0266; 相反, 區塊題目袋方法的估計精度只降低了0.0119、0.0073和0.0065。不難看出,區塊的設置使區塊題目袋方法能夠更精確地估計低能力的被試。對不同能力區間的CBIAS進行分析發現:5種條件下CBIAS的變化基本相似, 不存在明顯差異。在低能力和高能力水平上分別出現約 0.01的負向偏差和正向偏差, 該偏差由 MLE估計方法本身的性質造成。在非極端的能力區間上, 偏差幾乎都趨近于0, 并沒有發現能力估計的系統性偏差。

圖2 合理作答策略下5種條件的CMAE和CBIAS
在策略1模擬研究的基礎上, 模擬策略2進一步探究區塊題目袋方法能否有效應對類似 Wainer作答策略, 即在所有被試采用類似 Wainer作答策略(策略2)的情境中, 4種允許題目檢查的條件能否保持較好的能力估計精度, 同時有效防止被試利用策略2獲得正向的能力偏差。策略2的模擬仍然把無修改條件作為基線與其他4種允許題目檢查條件相比較。整體結果如表 1所示, 在題目袋方法、2區塊、3區塊、6區塊及無修改5種條件下MAE依次減小, 分別為 0.1945、0.1868、0.1848、0.1827與0.1807, 允許題目檢查條件與無修改基線條件差值分別為0.0138、0.0061、0.0041和0.0020。差異值較策略1的情境有所提高, 表明類似Wainer作答策略對被試能力估計的精度有更大的影響。在策略2中, 題目袋方法在估計精度上的劣勢更為明顯。與基線條件的MAE差異從策略1中的0.0044提高到了策略2中的0.0138, 明顯超過區塊題目袋方法的MAE差異增量, 說明策略 2對題目袋方法的能力估計精度影響更大。這也從側面反映出區塊題目袋方法的優越性。從另一指標RMSE來看, 同樣得到了相類似的結果(見表1)。總的來說, 區塊題目袋方法在估計精度上要優于題目袋方法。題目袋方法的問題可能在于當被試將在測驗最初將過多的題目放入題目袋后, 這部分題目所能提供的信息量很少, 也不能為之后的選題提供充分的信息, 因此題目袋方法的估計精度出現了明顯下降。這也是題目袋方法無法克服的問題。
雖然在策略2上題目袋方法的估計精度變得更差, 但所有允許題目檢查條件均沒有發現明顯的系統性偏差。5種條件下的 BIAS分別為 0.0032、0.0021、0.0014、0.0011 以及 0.0011, 幾乎接近于 0。雖然值很小, 但區塊題目袋方法在控制偏差上確實要稍稍優于題目袋方法, 隨著區塊數的增加, 平均偏差也越接近無修改條件。因此, 總體上看4種允許題目檢查條件不會產生較大的估計偏差, 被試無法通過類似Wainer作答策略獲得額外的收益。
為了探究在策略2下4種允許題目檢查條件在不同能力水平上的估計精度, 以及是否存在特定能力區間的被試能夠利用策略2獲得能力估計的正向偏差, 研究進一步考察不同能力水平的 CMAE和CBIAS, 結果如圖 3所示, 在所有能力區間上,CMAE均隨著區塊數的增長而降低, 最高的是題目袋條件, 最低的是無修改條件。結果顯示在策略 2的情境中, 區塊題目袋方法較題目袋方法在各能力水平上的估計精度都有明顯的提升。尤其在能力區間的兩端, 區塊題目袋方法有更好的估計精度, 隨著區塊數量增大, 估計精度就越接近基線條件。圖中可以看到在極端能力水平上4種條件出現了較大的MAE差異。這種差異可能是由策略2的作答方式導致了題目袋方法無法通過初始的幾個題目迅速定位被試的能力水平, 而且這些題目對極端能力的被試來說信息量不大, 導致對被試能力估計和隨后的選題都不如無修改條件下那么精確, 而區塊題目袋方法通過設置區塊, 在作答最初幾個題目時保證了更合理的題目袋, 并且在區塊結束的時候及時地對能力估計進行校正, 使估計精度更加接近無修改條件。CBIAS的結果沒有顯著差異。能力兩端出現了MLE估計方法導致的在極端能力上的微弱負偏和正偏, 其余能力水平上的bias都趨近于0。總的來說, 模擬研究的結果表明題目袋方法和區塊題目袋方法都能有效地防止被試利用類似 Wainer作答策略獲得正向的收益。 這是由于題目袋的限制,使被試無法持續操縱 CAT選擇與其能力不符合的題目。然而, 題目袋方法無法應對策略2對其能力估計精度的影響。這是由于過大的題目袋在測驗初始給了被試過大的自由, 導致了被試可以選擇不答或選擇作答最有把握的題目, 從而產生較大的能力估計誤差。雖然總體上并沒有系統性的偏差, 但很難保證個別被試不會獲得較大的正向偏差。而區塊題目袋方法能夠更好地應對這種策略, 通過加入區塊來減少當前被試可操縱的題目個數并對能力估計進行校正, 從而提高被試能力估計的精度。

圖3 類似Wainer作答策略下5種條件的CMAE和CBIAS
CAT在實際應用時, 被試無法檢查并修改題目一直是一個沒能妥善解決的問題(Wise, 1996;Vispoel, 1998; Papanastasiou & Reckase, 2007; Han,2013)。允許題目檢查能夠減少被試的焦慮等負面情緒, 讓他們充分發揮自己的能力, 有利于準確估計被試的能力, 提高測驗的效度(Olea et al., 2000;Stocking, 1997)。但是允許題目檢查會降低CAT的估計精度, 而且當被試采用作弊策略作答時又會嚴重影響 CAT的精度與公平性(Wainer, 1993; Wise,1996)。
本研究提出的區塊題目袋方法結合了連續區塊(Stocking, 1997)和題目袋(Han, 2013)兩種方法,彌補了題目袋方法的不足。區塊題目袋方法不僅為被試提供自主修改題目的機會, 還能更有效地防止估計精度的降低, 應對相應的作弊策略。在區塊題目袋方法中, 題目袋保證被試可以自主選擇想要修改的題目, 區塊的設置保證 CAT在執行過程中始終有一個合理的題目袋容量, 使得被試能力的估計更加精確。相比于連續區塊方法, 區塊項目袋方法只需要幾個區塊就能有效避免類似 Wainer作答策略對估計精度的影響, 被試不需要頻繁地決策是否進入下一區塊。 相比于題目袋方法, 研究結果顯示在不同的作答情景中區塊題目袋方法均要優于題目袋方法。在合理作答情境下, 隨著區塊數的增加,對低能力被試的估計精度越接近無修改的基線水平; 在類似Wainer作答策略情境下, 區塊題目袋方法在所有能力水平上均優于題目袋方法, 在極高和極低的能力水平上尤為明顯。
為了保證被試充分獲得題目檢查和 CAT的估計精度, 設置合理的題目袋容量是該方法適用的關鍵。Han (2013)的研究表明CAT的估計精度會隨著題目袋容量的增加而降低。然而當測驗有大量題目時, 題目袋的容量就不可避免地要增大, 這樣上述的問題就會突顯出來。在區塊題目袋方法下, 這個問題得到了一定的改善。盡管題目袋的總容量相同,但區塊題目袋方法在兩種作答策略下均要優于題目袋方法。這是由于區塊的設置, 使被試在作答過程中能使用的題目袋容量更為合理, 被試在獲得檢查機會的同時不會過度頻繁地使用題目袋, 而且每個區塊的結束都會校正能力估計值。尤其在策略2的情境中, 區塊的設置使最初的題目袋容量更為合理, 避免被試在測驗初始就將大量的題目放入到題目袋中, 防止了這種策略對 CAT執行過程和能力估計精度的影響。
在實際應用中, 被試對于題目的難度判斷更為復雜, 會受到自身知識掌握情況, 練習情況等因素影響。當題目袋方法提供大容量的題目袋時, 被試可以利用它來挑選有把握的題目來保證完全作答對最初的幾個題目, 由于 CAT中初始幾個題的重要性要高于之后的題目(Chang & Ying, 2008), 這會嚴重影響被試的真實能力估計, 對測驗公平性產生影響。而區塊題目袋方法通過合理分配每個區塊的題目袋, 能夠有效地規避這一問題。
區塊題目袋方法還可以根據測驗開發者的不同需要, 自主地設置最優的區塊數, 區塊內題目數以及區塊題目袋容量。為此, 測驗開發者可以考慮采用一個綜合性的指標來判斷題目袋總容量和區塊數設置是否合理。該指標稱為相對題目袋容量比。表達式為Y=100P/TB, 其中T為題目數(常量),P為題目袋總容量, B為區塊數。該指標含義是平均每個區塊中題目袋容量與總題目數的比值。該指標是基于Han (2013)的研究以及本研究的結果推論所得, 即根據估計精度隨著題目袋容量減少和區塊數的增加而提高, 推斷出相對題目袋容量比越小, 估計精度越好。一般來說題目袋的總容量約為題目總數的10%左右, 區塊數5個左右為宜, 由此得出正常的相對題目袋容量比在2左右為宜。過小可能會使被試得不到充分的修改機會, 過大會導致估計精度的過度降低。當然, 上述結論僅僅是經驗上的推論, 對于如何找到最優的相對題目比仍需要測驗開發者在一定理論和實證研究基礎上獲得。這也是后續研究可以嘗試的一個方向。
測驗開發者也可以根據不同的測驗目的有差別地分配題目袋容量到區塊中, 例如覺得測驗的初始題目至關重要, 那么可以在測驗最初設置一個題目數和題目袋容量均較小的區塊, 之后再設置更大的區塊和題目袋容量。這樣的設置只能在區塊題目袋方法的框架下具有可行性。當然, 最優的配置仍然需要基于實證研究的結果得出。
除了關注區塊題目袋方法的優勢, 區塊題目袋方法對實現 CAT題目檢查所帶來的益處也同樣值得關注。區塊題目袋方法為被試提供了一種類似紙筆測驗的作答方式, 保證了被試對測驗的控制感,減少他們的考試焦慮 (Olea et al., 2000; Vispoel et al., 2000)。被試能夠按自己期望或習慣的方式作答題目, 犯更少的錯誤, 可以肯定的是允許題目檢查能夠減少測量誤差 (Papanastasiou & Reckase, 2007)。此外, 在合理的區塊和題目袋設置下, 被試可以更自主地分配作答的時間。被試在作答過程中發現某個題目太難無法作答, 可以選擇放入題目袋中跳過進入下一個題目。被試在作答后面題目的同時, 隨時調取題目袋中的題目進行檢查, 這樣被試無需為了做下一個題目而被迫對答案進行猜測, 也無需再花更多的時間在該題目上。這樣能有效地提高時間的利用率, 也能減少測量誤差。
模擬研究的結果發現無修改條件得到的結果始終優于允許題目檢查的條件, 但這并不表明無修改的 CAT在實際應用中也是最好的。產生這種結果的原因是由于無修改條件模擬的是最理想的作答情境, 而允許題目檢查條件模擬的是特定作答策略下的極端情境。然而無修改的 CAT在實際作答中會受到更多額外因素的干擾, 如考試焦慮。所以允許題目檢查的 CAT可能在實際中會優于無修改的CAT。由于受到模擬研究的局限, 本研究無法進一步探究區塊題目袋方法下的這些潛在優勢。建議下一步研究可以采用實證的研究對區塊題目袋方法進行深入探討, 考察一些心理因素對它的影響。
本研究模擬的是一個相對簡單的情境:采用2PL模型、極大信息量方法的選題策略和測驗長度為 30的定長終止規則, 因此對結果的概括和推廣應當考慮這些限制。研究無法完全推論在不同的題庫校準模型、選題策略、初始題目選擇和能力估計方法下, 可以得到相同的結論, 研究者可以在不同的CAT條件下進一步探討區塊題目袋方法的有效性。
研究者還可以深入探討在變長終止規則下區塊題目袋方法的可行性。由于區塊的存在, 該方法可以應用于變長的終止規則, 例如設定每5個題目作為一個區塊, 并提供容量為 1的題目袋, 以此類推, 這樣被試獲得的修改機會基本上與他們的題量成正比, 只有在臨近終止時可能出現微小的差異。當然, 在變長的終止規則下, 由于被試作答的題目總數不同, 相對題目袋容量比這一指標就無法適用,需要在變長規則下開發一個新的指標。
區塊題目袋方法仍然有一定的局限, 比如它需要被試自主選擇想要修改的題目, 因此被試無法改正作答過程中無意識犯的錯誤。雖然它仍然與紙筆測驗的作答存在一些差異, 但它無疑更接近紙筆作答的方式, 較無修改的CAT有明顯的進步, 具有重要的實踐意義。
Benjamin, L. T., Cavell, T. A., & Shallenberger, W. R. (1987).Staying with initial answers on objective tests: Is it a myth?.In M. E. Ware & R. J. Millard (Eds.),Handbook on student development: Advising, career development, and field placement
(pp. 45?53). Hillsdale, NJ: Lawrence Erlbaum.Bowles, R., & Pommerich, M. (2001, April). An examination of item review on a CAT using the specific information item selection algorithm. InThe annual meeting of the National Council of Measurement in Education
. Seattle, WA.Chang, H. H., & Ying, Z. L. (2008). To weight or not to weight? Balancing influence of initial items in adaptive testing.Psychometrika, 73
(3), 441–450.Chen, P., & Ding, S. L. (2008). Research on computerized adaptive testing that allows reviewing and changing answers.Acta Psychologica Sinica, 40
(6), 737–747.[陳平, 丁樹良. (2008). 允許檢查并修改答案的計算機化自適應測驗.心理學報
,40
(6), 737–747.]Chen, P., Zhang, J. H., & Xin, T. (2013). Application of online calibration technique in computerized adaptive testing.Advances in Psychological Science, 21
(10), 1883–1892.[陳平, 張佳慧, 辛濤. (2013). 在線標定技術在計算機化自適應測驗中的應用.心理科學進展
,21
(10), 1883–1892.]Han, K. T. (2013). Item pocket method to allow response review and change in computerized adaptive testing.Applied Psychological Measurement, 37
(4), 259–275.Kingsbury, G. G. (1996). Item review and adaptive testing. InAnnual meeting of the National Council on Measurement in Education,
New York.Lord, F. M. (1983). Unbiased estimators of ability parameters,of their variance, and of their parallel-forms reliability.Psychometrika, 48
(2), 233–245.Lunz, M. E., Bergstrom, B. A., & Wright, B. D. (1992). The effect of review on student ability and test efficiency for computerized adaptive tests.Applied Psychological Measurement, 16
(1), 33–40.McMorris, R. F. (1991). Why do young students change answers on tests?.ERIC Document Reproduction Service, ED 342803
.Olea, J., Revuelta, J., Ximénez, M. C., & Abad, F. J. (2000).Psychometric and psychological effects of review on computerized fixed and adaptive tests.Psicológica,21
(1–2), 157–173.Papanastasiou, E. C., & Reckase, M. D. (2007). A “rearrangement procedure” for scoring adaptive tests with review options.International Journal of Testing, 7
(4), 387–407.Stocking, M. L. (1997). Revising item responses in computerized adaptive tests: A comparison of three models.Applied Psychological Measurement, 21
(2), 129–142.van der Linden, W. J., & Jeon, M. (2012). Modeling answer changes on test items.Journal of Educational and Behavioral Statistics, 37
(1), 180–199.van der Linden, W. J., Jeon, M., & Ferrara, S. (2011). A paradox in the study of the benefits of test item review.Journal of Educational Measurement, 48
(4), 380–398.Vispoel, W. P. (1998). Reviewing and changing answers on computer-adaptive and self-adaptive vocabulary tests.Journal of Educational Measurement, 35
(4), 328–345.Vispoel, W. P., Clough, S. J., & Bleiler, T. (2005). A closer look at using judgments of item difficulty to change answers on computerized adaptive tests.Journal of Educational Measurement, 42
(4), 331–350.Vispoel, W. P., Hendrickson, A. B., & Bleiler, T. (2000).Limiting answer review and change on computerized adaptive vocabulary tests: Psychometric and attitudinal results.Journal of Educational Measurement, 37
(1), 21–38.Vispoel, W. P., Rocklin, T. R., Wang, T. Y, & Bleiler, T.(1999). Can examinees use a review option to obtain positively biased ability estimates on a computerized adaptive test?.Journal of Educational Measurement, 36
, 141?157.Waddell, D. L., & Blankenship, J. C. (1994). Answer changing:A meta-analysis of the prevalence and patterns.The Journal of Continuing Education in Nursing, 25
(4), 155–158.Wainer, H. (1993). Some practical considerations when converting a linearly administered test to an adaptive format.Educational Measurement: Issues and Practice, 12
, 15–20.Weiss, D. J. (1982). Improving measurement quality and efficiency with adaptive testing.Applied Psychological Measurement, 6
(4), 473–492.Wise, S. L. (1996). A critical analysis of the arguments for and against item review in computerized adaptive testing. InThe annual meeting of the National Council on Measurement in Education
, New York, NY.Wise, S. L., Finney, S. J., Enders, C. K., Freeman, S. A., &Severance, D. D. (1999). Examinee judgments of changes in item difficulty: Implications for item review in computerized adaptive testing.Applied Measurement in Education, 12
(2), 185–198.Yen, Y. C., Ho, R. G., Liao, W. W., & Chen, L. J. (2012).Reducing the impact of inappropriate items on reviewable computerized adaptive testing.Journal of Educational Technology & Society, 15
(2), 231–243.