毛萌萌
(南昌大學公共管理學院心理學系,江西 南昌 330031)
傳統測驗只關注作答結果,忽視學生作答的內在心理過程,為彌補這一缺陷,以認知診斷為核心的新一代測驗理論被開發出來。Leighton 和Gierl[1]認為教育認知診斷的作用是測量個體特定的知識結構和加工技能(或稱“屬性”),它通過認知診斷模型(cognitive diagnostic models,CDMs)分析被試在測驗試題上的反應模式來推測該被試對屬性的掌握情況,為教師進行有針對性的補救教學和因材施教提供支持。近年來,基于認知診斷理論的教育與心理測驗被教師和研究者不斷開發出來,并應用于實踐以評估學生或被試。CDM 種類豐富,受噪音[2]干擾而效率不一,這時就需要通過認知診斷擬合指標評估診斷模型與數據的的擬合程度,為選擇CDM 提供參考。層級相合性指標最初是基于屬性層級模型開發的個人擬合指標,由于其計算簡便、適用性廣而得到廣泛應用;現在,該類指標除了在個人擬合指標方面不斷發展外,還拓展到項目擬合指標。
Lai,Gierl 和Cui[3]提出項目相合性指標(Item Consistency Index,ICI),該指標將猜測和失誤綜合在一起來偵測異常項目,考查模型和項目的擬合程度。但仍有部分問題待解決:首先當試題屬性矩陣(該矩陣標示測驗試題考查的屬性,亦簡稱Q 矩陣)有誤的情況下,ICI 指標綜合猜測和失誤信息容易造成Q 矩陣修補指向不明,ICI 指標是否可以改進以明確猜測和失誤;其次,毛萌萌和丁樹良發現個人層級擬合指標(MHCI 和NHCI)的大小受噪音、試題倍數、屬性個數影響[2],那么作為原理相似的ICI 指標,它和噪音等因素的關系如何;第三,ICI指標以0.5作為劃分異常項目的截斷點,這樣做是否合適,是否有更適合的劃分方法;第四,目前已有研究多是將個人、項目層級相合性指標單獨應用,那么在實踐如何將這兩者結合使用?
第i 個被試的層級相合性指標(the hierarchy consistency index,HCI)
為[4]:;式中,為被試i 在項目j,上的得分;為項目,,稱項目為項目j 的子項目,j 為父項目,即項目j 的子項目集合(j 除外);是被試i 正確作答的項目的子項目數總和。其原理是:在0-1 評分情況 下,如果被試i 能對項目j 正確反應,則必可對其子項目正確反應;否則則代表出現失擬,用HCI 度量這種失擬的程度,HCI 越大代表模型和數據擬合越好,其取值為[-1 1]。
將HCI 定義中的修改為包含項目j 以彌補HCI 定義中分母可能為零的缺陷,有MHCI 提出;HCI 和MHCI 只考慮失誤,而沒有考慮猜測,為全面衡量被試反應的失擬的程度,有NHCI 指標的提出[5][6]。
ICI 在某些情況下仍然有分母為0 的情況,如第j 題全對卻沒有子項目或者第j 題全錯卻沒有父項目,這在現實中并不罕見(比如測驗中最難的項目沒有一位同學正確作答,或者測驗中有一題非常容易,所有同學在該項目上都正確反應)。同MHCI 指標類似,只需將父項目或子項目的定義更改為包含j 本身,就可以避免無法計算的情況。
ICI 針對某一題綜合衡量其猜測和失誤程度,為評估ICI 指標的效率,Lai 等人進行了模擬實驗,結果顯示隨著失擬項目在測驗中的比例升高,失擬項目的ICI均值也升高(Lai et al.,2012,Table.2)[3],這不合邏輯;此外,在Q 矩陣有誤的情況下,它不能像DINA 模型中的s(失誤)參數,g(猜測)參數那樣為修補Q 矩陣提供明確的指引;當項目屬性多標時,g 參數會升高,當項目屬性少標時,s 參數會升高[7]。
鑒于此,將ICI 指標進行拆分如下:
實驗目的:通過模擬研究尋找影響項目相合性指標和噪音的關系;并基于逆回歸思想(又稱逆預測)[8],建立起以噪音大小為因變量,項目相合性指標大小為主要自變量的逆回歸方程,最終實現對不可直接觀測的噪音大小的預測。


表2 各結構模型對SP 回歸分析表
實驗目的:當Q 矩陣存在屬性標定錯誤的情況下,考查錯標項目的項目相合性指標在所有項目中的百分等級,為合理劃分異常項目提供參考。
實驗因素:與4.1 相同
實驗步驟:在4.1 的實驗步驟基礎上,隨機選取Q 矩陣某題上的某個屬性進行0-1 互換,并且標記其變化類型,如果是0 →1,計算,并返回該項目在試題中的百分等級;同樣如果是1 →0,計算,返回該項目的百分等級;無論哪種變化均計算ICI 并返回該項目的百分等級。
實驗結果:根據4.1 的研究結果,由于SP 是影響這些項目相合性指標最主要的原因,因此表3 中只展示統計量隨SP 的變化情況,以SP=0.1 為例,M=0.19 代表錯標項目的值的百分等級均值為0.19,25 分位點值=0.09 代表如果以百分等級9 為劃界則只能偵測出25%的錯標項目,同理75 分位點值=0.26 代表如果以百分等級26 為劃界則能偵測出75%的錯標項目,同理其它;因為表3 中的統計量值都是百分等級,所以具體值越低越好這樣誤判的可能性就低,比如相同SP=0.1 條件下,同樣要達到75%的偵測效率,只要以百分等級7 作為劃界。整體來看和普遍好于ICI 的偵測效率,且獨立型的偵測效率要遠遠好于線性型的結果。

表3 項目相合性指標對錯誤標定項目的偵測效率
實驗目的:以著名的Tatsuoka[9]分數減法測驗數據(含536 個被試,20個項目)為例,將個人層級相合性指標和項目層級相合性指標結合使用,考查它們對實測數據的效率。
實驗數據:該測驗的Q 矩陣和數據多年以來被眾多研究者不斷討論,主要原因就是測驗Q 陣的標定非常困難,本研究中使用de la Torre 和Douglas[10]采用的Q陣,該Q陣含有8個屬性,分別是:A1將整數轉換為分數;A2 從分數中分離出一個整數;A3 先化簡后減法;A4 找到公分母;A5 從整數部分借出;A6 列借位,用第一個分子減去第二個分子;A7 減去分子;A8 簡化為最簡形式[11]。

實驗結果:具體結果如表4 所示,其中使用原始Q 矩陣計算得到ICI、和均值分別為0.778、0.818 和0.821,使用變更Q 矩陣計算得到ICI、和均值分別為0.796、0.835 和0.828,可見項目和數據的擬合得到全面提高,此外全體被試的NHCI 均值也從0.5876 提升至0.6151,可見整體來看模型和數據的擬合得到提升。

表4 Q 矩陣變動對項目相合指標影響明細表
本研究在對ICI 指標補充定義的基礎上,針對ICI 指標不能明確指向Q矩陣錯誤標定類型的缺陷,將ICI 指標進行分解提出和,并通過兩個模擬實驗和一個實證研究證明這兩個指標的有效性。其中模擬實驗一在線性型和獨立型模型下得到ICI、和隨噪音大小SP、試題倍數L和屬性個數K 的變化情況,整體來看,這些項目層級相合性指標均有相似的變化,即隨著這些影響因素的變大而減小,這和個人層級相合性指標的變化規律相同,這點也表明ICI 指標以0.5 作為失擬試題的截斷點并不合理。并且通過逆回歸的思想實現了以ICI、和均值分別為主要自變量,噪音為因變量的有效預測。
模擬實驗二在和模擬實驗一相似的條件下,令Q矩陣的一個屬性發生0-1互變,這是一個比較難偵測的失擬,因為本身數據就有噪音,還要再此基礎上加上一個微小的錯誤,且這個變動屬性可以是任意一題的任意一個屬性,結果表明和整體上偵測失擬試題的效率優于。但是注意到在獨立型模型下的偵測效率要遠遠由于優于線性型,經過詳細分析結果數據發現,在線性條件下其項目最少只有3,且由于其約束條件最多導致作答反應的模式類型單一,很多項目的項目層級相合性指標值相同,導致偵測效率較差;與此相反獨立型模型約束最少,作答反應模式類型豐富,所以偵測效率較好。實驗二的結果還為研究者在不同偵測效率情況下合理選擇截斷點提供參考。
最后以深受關注的Tatsuoka 分數減法測驗進行了實證研究,通過結合個人層級相合性指標(NHCI)和項目層級相合性指標(和)進行分析,修訂Q 矩陣。結果表明無論是NHCI、ICI、和均值都得到了提升,表明模型和數據更加擬合,修改Q 陣有效。但是需要注意,不是項目層級擬合指標偵測出的所有試題的Q 陣都有問題,可能僅僅是這題上的噪音較大,Q 矩陣的修補要結合具體試題來討論,而不能僅僅因為擬合程度的上升隨意變動Q 矩陣,這也體現出在實踐中修補Q 矩陣的困難。
本文存在一些不足,模擬實驗只選取線性型和獨立型模型這兩類認知模型進行研究,這是因為這兩模型在約束條件方面最為極端,而在實際中認知模型是豐富多樣的,這時本文中的研究結論是否適用有待驗證。在模擬實驗二中,以隨機方式變動Q 陣中的一個屬性,但在實際情況下,Q 陣的錯誤類型更加多樣,此時和的偵測效率也有待驗證。最后,由于層級相合類指標其統計分布不明,所以未給出區間估計,這也是本文的不足之處。