劉彥樓
(曲阜師范大學教育大數據研究院,山東 濟寧 273165)
認知診斷模型(Cognitive Diagnosis Model,CDM)或稱診斷分類模型,是一類離散潛變量模型(Rupp et al.,2010),當前已廣泛應用于心理、教育或生物學等領域(例如,Tjoe &de la Torre,2014)。潛在屬性在不同領域有不同的含義,例如,知識、技能、認知過程、精神障礙、甚至是病原體等(Rupp et al.,2010;Wu et al.,2017)。恰當應用CDM,研究者可以通過被試的外顯行為去推論每個個體的多維潛在屬性掌握狀況,為被試提供及時的反饋、個性化的指導或針對性的補救。
CDM 模型參數的標準誤(Standard Error,)是關于模型參數估計不確定性的度量(Liu et al.,2021)。在心理統計與測量模型中,點估計值相同的兩個模型參數可能由于不同而具有不同的置信區間(Confidence Interval,CI),因此需要綜合考慮模型參數的點估計值與CI。例如,CDM 中兩個項目的猜測參數估計值均為0.2,但的估計值分別為0.08 與0.05,那么這兩個猜測參數的估計精度不同。根據正態分布理論,第一個猜測參數的95% CI是[0.2-1.96×0.08,0.2+1.96×0.08],第二個猜測參數的95% CI 是[0.2-1.96×0.05,0.2+1.96×0.05]。正因如此,國內外多種心理學期刊(如《心理學報》,或參考:American Psychological Association,2020)要求或建議報告及95% CI。然而,在國內外的CDM 實證研究中,報告模型參數的及CI 的研究仍然較少。造成這種現象的原因是多方面的,主要原因在于缺乏易用的計算方法。接下來,本文將對兩類常用的及CI 的估計方法:解析法以及自助法目前存在的問題展開探討,并提出一類簡易、可行的方法。
CDM 中模型參數的(或廣義而言,方差—協方差矩陣)在推論統計中具有基礎與核心作用(Liu,Xin et al.,2019;Philipp et al.,2018)。除用于計算CI 外,模型參數的在項目功能差異檢驗(Liu,Yin,et al.,2019;Ma et al.,2021;劉彥樓 等,2016)、項目水平上的模型比較(de la Torre &Lee,2013;Liu,Andersson,et al.,2019;Ma &de la Torre,2016,2019)、Q 矩陣檢驗(Ma &de la Torre,2020a)以及探索屬性層級關系(Liu et al.,2021;Wang &Lu,2021)等領域也有重要價值。對于模型參數的的估計,研究者提出了多種基于解析法的估計方法(Liu,Xin et al.,2019;Liu et al.,2021;Philipp et al.,2018;劉彥樓 等,2016),包括:經驗交叉相乘信息矩陣法(Empirical Cross-product Information Matrix,XPD)、觀察信息矩陣法(Observed Information Matrix,Obs)和三明治信息矩陣法(Sandwich-type Information Matrix,Sw)。
在模型參數可識別條件下(Gu &Xu,2020;Wang &Lu,2021),研究者通過數據模擬以及實證數據分析的方式探索了使用解析法信息矩陣(Liu et al.,2016;劉彥樓 等,2016)計算的模型參數(包括項目參數與用于描述被試分布的結構參數)的及CI 的表現。關于項目參數的及CI,研究者比較了在理想狀況下(即模型與觀察數據完美擬合)、在CDM的項目反應模型和/或Q 矩陣錯誤設定條件下,XPD、Obs 或Sw 方法的表現(Liu,Xin,et al.,2019;Philipp et al.,2018)。研究發現,當模型(包括項目反應模型與Q 矩陣)完全正確設定或存在較少錯誤設定時,這3 種方法在項目參數的估計的一致性方面都有好的表現;在模型存在嚴重錯誤設定時(如,項目反應模型與Q 矩陣同時包括較多的錯誤),只有Sw 具有健壯性(Liu,Xin,et al.,2019)。關于結構參數的及 CI,研究者在 HCDM(Hierarchical Cognitive Diagnosis Model;Templin &Bradshaw,2014)框架下進行了探索(Liu et al.,2021)。研究發現,對于正確設定的屬性層級關系,即結構模型完全正確設定時,在樣本量大于或等于3000 條件下這3 種方法均有較好的95% CI 覆蓋率;當屬性之間存在層級關系但使用飽和CDM 估計時,即結構模型參數存在部分冗余情景下,對于允許存在的結構參數(permissible structural parameter),即根據屬性層級關系在理論上不等于0 的結構參數,XPD 和Obs 方法計算的有較好的表現;對于非允許存在的結構參數(impermissible structural parameter),即理論上等于0 的結構參數,XPD 方法計算的結構參數的表現較好(Liu et al.,2021)。
準確地識別與驗證CDM 中的屬性層級關系能夠使研究者深入地了解被試作答的心理過程,具有重要的理論與實踐價值(Leighton et al.,2004)。然而,實踐中預先正確設定屬性層級關系是一個非常具有挑戰性的過程(Hu &Templin,2020;Liu et al.,2021;Ma &Xu,2021;Templin &Bradshaw,2014;Wang &Lu,2021)。如果認知診斷測驗中存在屬性層級關系,使用飽和CDM 擬合作答反應數據,相應的結構參數近似等于0。即,飽和CDM 的結構參數能提供屬性層級是否存在的證據(Liu et al.,2021;Templin &Bradshaw,2014)。Liu 等人(2021)初步提出,結構參數的已知時,可以使用統計量探索屬性層級關系,具體表達式為,


在多數情況下,可以使用XPD、Obs 或Sw 方法有效地計算CDM 中模型參數的,但是這些解析性方法主要有兩個缺點。(1)需要信息矩陣正定(positive definiteness)。DeCarlo (2011,2019)發現,CDM 中的邊界值問題(boundary problems),會導致使用信息矩陣計算方差—協方差矩陣時存在非正定問題。關于邊界值及其可能導致的信息矩陣非正定問題將在第2 部分詳細闡述。(2)需要方差—協方差矩陣的對角線元素大于0,如果小于0 則會導致相應的模型參數的無法計算。然而,在實踐中由于計算誤差的存在,可能會導致使用信息矩陣求逆計算的方差—協方差矩陣中的某個或某些元素小于0 (Liu &Maydeu-Olivares,2014)。例如,第5部分實證數據分析中基于Obs 的方差—協方差矩陣中第2 個結構參數對應的對角線元素小于0,而導致無法計算。這也就意味著,如果出現情形(1),則全部的模型參數的無法計算;如果出現情形(2),相應的模型參數的無法計算。解析法信息矩陣所存在的以上問題,限制了其理論發展及實踐應用。
除解析法外,另一類可用于計算及CI 的方法是自助法(Davison &Hinkley,1997;Efron &Tibshirani,1993),最常見的有參數化自助法(Parametric Bootstrap,PB)與非參數化自助法(Nonparametric Bootstrap,NPB)。PB 以及NPB 是一種應用廣泛(例如,2019 年1 月至2021 年8 月份發表在《心理學報》上的論文中至少有20 篇論文用到了自助法)、通用性強,但計算密集(computerintensive)、費時的方法。與解析法信息矩陣不同,PB以及NPB 不需要有較強的前提假設以及大量的公式推導。這類方法是通過3 個步驟進行的。第一步是根據觀察數據集獲得重采樣數據集。第二步是根據重采樣數據集估計模型參數。以上兩步重復進行,直到達到預先設定的重抽樣次數。第三步,根據每次重復獲得的模型參數估計值,計算以及CI。PB 與NPB 的不同之處在于:PB 是先通過觀察數據集估計獲得模型參數,再使用模型參數模擬生成重采樣數據集;NPB 則是通過有放回取樣的方式直接從觀察數據集中取樣。盡管研究者認為自助法可以用于計算CDM 中的及CI (Ma &de la Torre,2020b),且理論上可以較好地解決解析法信息矩陣在特定條件下無法計算的問題,然而其估計的準確性仍缺乏研究。作為一種計算密集型方法,計算量大、耗時長的缺點不僅限制了PB 與NPB 的理論研究,也造成了實踐應用的困難。舉例而言,在PB 與NPB 的應用中,進行重抽樣時,如果樣本量過少可能會影響到自助法的準確性,如果抽樣過多會因計算量增大而影響效率。目前,重抽樣次數的選擇問題仍存在爭議(例如,Bai et al.,2016;Efron &Tibshirani,1993;Guo &Wind,2021;Hayes,2009,2018;Lai,2021)。另外,PB 與NPB 在不同情景中估計CDM 的模型參數的及CI 的表現也需要進一步探討。隨著多線程、并行調度等計算技術的發展,并行計算技術被逐步用于計算密集型方法研究(Denwood,2016;Khorramdel et al.,2019)。僅以自助法為例,Zhang 和Wang (2020)開發了使用并行自助法的R 軟件包,并探討了其在統計功效分析中的應用(Zhang,2014);線性混合效應模型軟件包(Bates et al.,2015)也提供了并行計算的自助法,Jiang 等人(2021)以此為基礎探索了使用自助法計算概化系數的CI 估計值問題。
本文要解決的主要問題有:(1)借鑒以往研究中的并行自助法計算技術,開發適用于CDM 的并行參數化自助法(parallel Parametric Bootstrap,pPB)和并行非參數化自助法(parallel Nonparametric Bootstrap,pNPB),提高CDM 中PB 與NPB 的計算效率。(2)系統探討pPB 與pNPB 在估計CDM 模型參數的及CI 時的表現。正如本文將要呈現的一樣,pPB 與pNPB 是一類簡易、可行的方法,不僅能有效解決CDM中與CI 理論研究中的重要問題,而且能有效提升實踐應用中的計算效率。
接下來,本文將首先說明解析法信息矩陣計算時存在的問題,然后詳細介紹新提出的pPB 與pNPB 方法。第4 部分是模擬研究,分別探討CDM完全正確設定以及存在屬性層級關系條件下這兩個方法的表現。第5 部分是實證數據分析,主要用于說明及展示pPB 與pNPB 在估計CDM 模型參數的時的作用與價值。最后是討論與結論。
本部分以同一鏈接(identity link)下的G-DINA(Generalized Deterministic Input Noisy Output“AND” gate;de la Torre,2011)為例,分別呈現3 種解析法信息矩陣并闡述這些方法在計算CDM 模型參數的及CI 時可能會遇到的矩陣非正定,以及方差—協方差矩陣對角線元素可能小于0 等問題。
假設在一份認知診斷測驗中有個被試,個項目,個屬性,且屬性及項目均為二級計分,×維項目反應矩陣記為 x ∈{x},×維Q 矩陣記為 Q ={q}。在飽和的G-DINA 模型中,被試正確作答項目的概率為,

其中,α=(α,…,α)′是第個被試的屬性掌握模式,q=(q,… ,q)′是Q 矩陣中所定義的正確作答項目所需要的屬性,λ=( ,λ ,,…) ′是項目的所有參數。對于飽和G-DINA 模型進行恰當約束,可以獲得多種特殊模型。
為便于理解及行文,以=2,q=(1,1)′,α=(1,1)′為例。飽和G-DINA 的項目反應函數可以表達為,

其中,λ為截距參數,表示沒有掌握項目所需的任何屬性僅憑猜測正確作答項目的概率,λ和λ,2分別是對應于第一個屬性()和第二個屬性()的主效應參數,λ,是這兩個屬性的交互效應。
當=2且屬性層級關系不存在時,所有可能的屬性掌握模式可以表示為,


當測驗所測屬性之間存在層級關系時,對飽和模型(如G-DINA)的結構參數以及項目參數加以適當約束,可獲得 HCDM (Templin &Bradshaw,2014)。同樣以=2,q=(1,1)′,α= (1,1)′為例,且假定這兩個屬性之間存在線性層級關系:只有掌握才能掌握。那么,所有可能的屬性掌握模式為,

由于屬性層級關系約束,飽和結構模型中的第三種屬性掌握模式 α不存在,即=(α)= 0。在當前的例子中,HCDM 的項目反應函數可以表示為,

可以發現,如果真模型是 HCDM,但使用飽和G-DINA 模型估計參數時,某些結構參數(例如,)以及項目參數(例如,飽和G-DINA 中的λ)的真值都等于0,在這種情況下會導致CDM 中的一些模型參數冗余。在接下來的部分中,參考以往研究中的表述(Liu,2018;Liu et al.,2021),將真值為0的參數統稱為非允許存在的參數,真值不等于0 的參數統稱為允許存在的參數。


公式(5)中,I表示的是使用模型參數真值以及對單個被試的作答反應向量求期望(即所有可能的作答反應模式)而計算的期望 Fisher 信息矩陣(Liu et al.,2016;Liu,Xin et al.,2019)。但由于模型參數真值在實踐中是未知的,并且所有可能的作答反應模式會隨著項目的數量呈現指數增長,因此I只具有理論價值,無法應用于實踐(Liu,Xin et al.,2019)。


根據觀察數據對數似然函數關于模型參數的二階偏導而計算的Obs 矩陣可表示為(Liu,Xin et al.,2019;劉彥樓 等,2016),

需要特別說明的是,Obs 矩陣中的元素也可以等價地表達為(Liu &Maydeu-Olivares,2014;Liu,Xin et al.,2019),

在公式(8)中,與分別表示任意一個項目參數()或結構參數();υ是作答反應矩陣x 中獨特反應模式的數量;與(x)分別代表第υ 個觀察到的獨特作答模式所占的實際比例以及期望。Sw矩陣因其形狀而得名,表達式為,

可以發現Sw 矩陣在計算過程中需要Obs 及XPD矩陣的參與。
基于以上陳述,接下來將重點闡述解析法信息矩陣的不足。首先,邊界值問題會對解析法信息矩陣造成嚴重影響。在CDM 中,至少有兩種情形會導致邊界值問題,使得無法使用解析法信息矩陣計算或者使變大(DeCarlo,2011,2019)。一種可能的情況是:由于項目參數λ表示的是截距項參數,其取值范圍介于[0,1]之間。然而,在λ的真值等于0 或1 的極端情況下,由于真值在參數空間的邊界上,λ的估計值有較大可能會非常接近0 或1,造成項目參數的邊界值問題。另一種可能的情況是:CDM 中有非允許存在的結構參數。當CDM中存在屬性層級關系但使用飽和模型估計的時候,不可避免的有非允許存在的項目參數及結構參數。因為結構參數的取值區間為[0,1],非允許存在的結構參數的真值恰好落在參數空間邊界上,其估計值可能會非常接近0,例如,10。邊界值問題會造成解析法信息矩陣不穩定或者是奇異陣(Liu et al.,2021)。其次,如果非允許存在的結構參數的估計值偏離其真值0,那么這個估計值是有偏的,不再符合公式(5)中的前提假設,因此對XPD、Obs 以及Sw 矩陣的計算會造成不良影響。第三,可以發現,Obs 矩陣等于XPD 矩陣減去公式(8)中最右側部分的表達式。但是由于計算誤差的存在,Obs 矩陣中對角線元素可能會小于0,對應模型參數的無法計算,這是Obs 矩陣的一個不足(Liu &Maydeu-Olivares,2014)。

本研究新提出的pNPB 的具體實施步驟如下:
步驟(1),確定重抽樣的次數,設定擬合模型;檢測CPU 的核心數量,據此創建并行運算環境中相應數量的副本程序。



本研究新提出的pPB 的實施步驟如下:



CDM 完全正確設定或存在邊界值問題時,pNPB 以及pPB 的表現是本研究重點關注的問題。模擬研究的主要目的有兩個:(1)探討在理想條件下,即模型完全正確設定時,pNPB 和pPB 在估計以及CI 時的表現;并與解析法XPD、Obs 和Sw 的表現進行比較。為使結果具有較好的一般性,數據生成模型及擬合模型均采用同一鏈接下的飽和G-DINA 模型。(2)探討當屬性層級關系存在時,即當模型的結構參數及項目參數均存在非允許存在的參數時,這兩種方法在估計及CI 時的表現。需要特別說明的是,屬性間存在層級關系時,XPD、Obs 和Sw 很容易出現無法求逆的問題(Liu et al.,2021),因此難以在完全相同的模擬條件下比較自助法與解析法的表現。
檢索相關文獻(例如,Bai et al.,2016;Efron &Tibshirani,1993;Guo &Wind,2021;Hayes,2009,2018;Lai,2021)發現,研究者對于重抽樣次數的設置有較大爭議,因此如何找到恰當的重抽樣次數也是模擬研究關注的問題。
本研究使用(Ma &de la Torre,2020b)軟件包估計模型參數,參考(Zhang &Wang,2020)及(Bates et al.,2015)軟件包中開源代碼自編pNPB 以及pPB 代碼,解析法信息矩陣XPD、Obs 和Sw 估計代碼來自Liu 等人(2021),感興趣的研究者可以聯系作者獲取。為保證各條件下CDM模型參數具有可識別性,尤其是屬性層級條件下的模型參數的可識別性(Gu &Xu 2019,2020),本研究參考Ma 和Xu (2021)的實驗設計使用圖1 中呈現的Q 矩陣。另外,為清晰地探討本研究中各自變量對pNPB 以及pPB 的影響,假定數據生成模型中每個條件下的結構參數相等,主效應及交互效應相等,以消除模型參數大小對實驗結果的影響。使用云主機運行模擬程序,CPU 型號為英特爾i9-10980XE,18 核36 線程,每種實驗條件組合重復=500次以獲得穩定的模擬結果。

圖1 模擬研究中使用的Q 矩陣
具體而言,數據生成模型有兩種:飽和G-DINA 及存在層級關系(→,→)的HCDM。數據生成模型為飽和G-DINA 時,估計方法有5 種:XPD、Obs、Sw、pNPB 以及pPB;數據生成模型為存在屬性層級關系的HCDM 時,估計方法有兩種:pNPB 以及pPB。pNPB 以及pPB方法的重抽樣次數有4 個水平:200、500、3000及5000 次。樣本量有兩個水平:1000 及3000。項目質量有3 個水平:高質量(( 0)= 0.1,(1)= 0.9)、中等質量((0)= 0.2,(1)= 0.8)、低質量((0)=0.3,(1)= 0.7),其中(0)表示僅憑猜測答對的概率,(1) 表示掌握項目所需要的全部屬性的被試正確作答該項目的概率。所有條件下均使用飽和G-DINA 模型估計模型參數,也就是當數據生成模型同樣為飽和G-DINA 時,模型參數是完全正確設定的;當數據生成模型為HCDM 時,模型中存在一些真值為0 的項目參數與結構參數,此時模型參數是冗余的。
使用偏差(BIAS)以及95% CI 覆蓋率評價估計方法的表現。模型參數估計值的95% CI 為:


圖2 與圖3 分別呈現的是CDM 完全正確設定時,使用pNPB 以及pPB 計算的項目參數95% CI覆蓋率及的BIAS。在高質量項目條件下,絕大多數項目參數的95% CI 都落在圖中灰線的理論范圍內,BIAS 能很好地接近于0;并且隨著樣本量的增加這兩項評價指標均在變好。在中等質量項目條件下,= 1000時盡管有少許項目參數的95% CI落在理論范圍外且的BIAS 稍有波動,但絕大部分表現較好,這兩個評價指標的波動明顯高于高質量項目條件;= 3000條件下,尤其是≥500時,絕大多數項目參數的95% CI 覆蓋率以及的BIAS 控制均有好的表現。在低質量項目條件下,使用pNPB 以及pPB 計算的項目參數的95% CI 覆蓋率以及的BIAS 表現差異明顯:在= 1000的條件下,使用pNPB 計算的項目參數的絕大部分在理論區間之上且傾向于高估,使用pPB 計算的項目參數的絕大部分在理論區間之下且會傾向于低估;另外可以發現隨著樣本量的增大,在= 3000條件下項目參數95% CI 覆蓋率及的BIAS 的表現均在變好,且pPB 方法的表現優于pNPB??梢园l現,當重抽樣次數≥500時,相同條件組合下的模擬結果具有高一致性,尤其是=3000與= 5000兩者之間沒有發現明顯差異。

圖2 CDM 模型參數完全正確設定時,基于pNPB 與pPB 的項目參數的95% CI 覆蓋率

圖3 CDM 模型參數完全正確設定時,基于pNPB 與pPB 的項目參數的SE 的BIAS
圖4 與圖5 呈現的是CDM 完全正確設定時,基于解析法XPD、Obs 與Sw 的項目參數的95% CI覆蓋率及的BIAS。可以發現,高質量以及中等質量項目條件下的項目參數的有好的表現;= 1000時,Sw 矩陣的表現略微優于XPD 與Obs;當樣本量增加到=3000時,XPD、Obs 以及Sw 矩陣的表現均在變好。對比高質量以及中等質量項目條件下XPD、Obs、Sw、pNPB 以及pPB 的模擬結果,可以發現多數情況下Sw 以及Obs 矩陣的表現略微優于其他方法。低質量項目條件下,XPD、Obs以及Sw 矩陣計算的項目參數的的表現受到較為嚴重的影響;= 1000時,XPD 與Obs 的95% CI覆蓋率絕大部分在理論區間之下且會傾向于低估,Sw 的95% CI 覆蓋率絕大部分在理論區間之上且會傾向于高估;=3000時,基于XPD、Obs以及Sw 的95% CI 覆蓋率大部分在理論區間內。本研究還發現,低質量項目條件下的BIAS 結果中,基于XPD 及Sw 方法的項目參數的的結果分別有9 個及86 個在區間[-0.2,0.2]之外;檢查發現,基于XPD 及Sw 方法計算的中有數值極端偏離正常值的結果(例如,估計值大于1000)。這也就是說,在低質量項目且= 1000條件下,XPD 及Sw方法的表現不穩定。綜合對比低質量項目條件下,XPD、Obs、Sw、pNPB 以及pPB 的表現,可以發現Obs 略優于其他方法。

圖4 CDM 模型參數完全正確設定時,基于XPD、Obs 與Sw 的項目參數的95% CI 覆蓋率

圖5 CDM 模型參數完全正確設定時,基于XPD、Obs 與Sw 的項目參數的SE 的BIAS
圖6 與圖7 分別呈現的是CDM 完全正確設定時,基于自助法的結構參數的95% CI 覆蓋率及的BIAS。可以發現,在高項目質量條件下,使用pNPB 以及pPB 計算的結構參數的均有好的表現,所有結構參數的95% CI 覆蓋率都落在圖中灰線的理論范圍內或邊界上,BIAS 幾乎完全與0 重合。在中等質量項目條件下,當= 1000時,盡管結構參數的95% CI 的波動明顯增大,但是大多數結構參數的都有好的表現,且BIAS 波動也很小;當= 3000時,結構參數的的兩種計算方法都有好的表現。在低質量項目條件下,結構參數的95% CI 覆蓋率以及BIAS 的表現受到嚴重影響,當= 1000時,絕大多數使用pNPB 計算的結構參數95% CI 在理論范圍之上且BIAS 明顯大于0,使用pPB 計算的95% CI 全部在理論范圍之下且BIAS明顯小于0,重抽樣次數的增加對于pNPB 及pPB的表現沒有明顯影響;當= 3000時結構參數的95% CI 覆蓋率及BIAS 這兩個評價指標均在變好,并且可以發現當≥ 3000時pPB 的表現略微優于其他重抽樣次數下的表現;但是重抽樣次數的增加對于pNPB 的影響較小。

圖6 CDM 模型參數完全正確設定時,基于pNPB 與pPB 的結構參數的95% CI 覆蓋率

圖7 CDM 模型參數完全正確設定時,基于pNPB 與pPB 的結構參數的SE 的BIAS
圖8 與圖9 中呈現的是CDM 完全正確設定時,基于解析法的結構參數的95% CI 覆蓋率及的BIAS。在高和中等項目質量條件下,使用XPD、Obs 以及Sw 計算的結構參數的均有好的表現,幾乎所有結構參數的95% CI 覆蓋率都落在圖中灰線的理論范圍內或邊界上,BIAS 幾乎完全與0 重合。低質量項目嚴重影響了使用XPD、Obs 以及Sw 計算的結構參數的的表現;= 1000時,使用XPD、Obs 計算的結構參數95% CI 在理論范圍之下且大多數BIAS 小于0,使用Sw 計算的95% CI大部分在理論范圍之上且BIAS 明顯大于0;=3000 時XPD、Obs 以及Sw 計算的結構參數95% CI覆蓋率及BIAS 的表現均在變好,尤其是使用Sw計算的結構參數95% CI 大部分在理論范圍內。另外,低質量項目且= 1000條件下,基于Sw 方法計算的結構參數的95% CI 覆蓋率及BIAS 中分別有1 個及3 個值在圖8 及圖9 的區間之外;檢查發現,與先前一樣,也是由于基于Sw 方法計算的中有數值極端偏離正常值的結果。綜合對比XPD、Obs、Sw、pNPB 以及pPB,可以發現除了低質量項目且= 1000條件下以上方法表現均比較差之外,Sw 方法的表現與其他方法相當或優于其他方法。

圖8 CDM 模型參數完全正確設定時,基于XPD、Obs 與Sw 的結構參數的95% CI 覆蓋率

圖9 CDM 模型參數完全正確設定時,基于XPD、Obs 與Sw 的結構參數的SE 的BIAS
如前所述,當數據生成模型是HCDM,但使用飽和模型(如飽和G-DINA)估計模型參數時,可能會導致模型參數估計值的邊界值問題,造成解析法信息矩陣無法求逆或者會產生不穩定的估計結果。自助法不存在矩陣求逆問題,但這種情況下pNPB 以及pPB 的表現有待進一步探索。
在模型參數冗余條件下,按照允許存在參數及非允許存在參數這兩類分別呈現項目參數及結構參數的的研究結果。另外,為完整顯示全部結果,將模型參數冗余條件下的95% CI 覆蓋率的坐標范圍設置為[0.3,1]。圖10 與圖11 呈現的是允許存在項目參數的95% CI 覆蓋率及的BIAS??梢园l現,盡管在高質量及中質量項目條件下,絕大多數的項目參數有良好的95% CI 覆蓋率及BIAS控制水平,但是有些參數的95% CI 低于圖中灰線的理論區間,并且存在較大的BIAS;且在項目質量的所有水平下,這些極端偏離理論區間的項目參數的表現并沒有隨著其他實驗條件的改變而發生明顯的變化,甚至在= 3000時更加偏離理論區間。這主要是因為當使用飽和模型估計HCDM 時,由于錯誤地設定某些“非允許存在”的屬性掌握模式為“存在”,造成了項目參數估計值存在偏差,影響了這些項目參數的95% CI 覆蓋率及BIAS 表現。例如,對比公式(3)和(4),可以發現如果“真”模型是帶有線性層級關系的HCDM,但使用飽和CDM 估計模型參數時,由于“非允許存在”的屬性掌握模式α被錯誤地設定為“存在”,造成飽和CDM 中結構參數以及項目參數λ真值都等于0。除了極端偏離理論區間的項目參數外,仔細對比高質量及中質量項目條件下理論區間附近的項目參數,可以發現隨著重抽樣次數從200 增加到3000,項目參數的 95% CI 覆蓋率略微變好,但是= 3000與= 5000兩個水平下的結果高度一致。在低質量項目條件下,允許存在項目參數的95% CI 覆蓋率結果波動明顯。

圖10 CDM 模型參數冗余時,基于pNPB 與pPB 的允許存在項目參數的95% CI 覆蓋率

圖11 CDM 模型參數冗余時,基于pNPB 與pPB 的允許存在項目參數的SE 的BIAS
圖12 與圖13 中呈現的是CDM 模型參數冗余條件下非允許存在項目參數的95% CI 覆蓋率及的BIAS。整體而言,大部分非允許存在項目參數的95% CI 覆蓋率低于理論區間,大部分的BIAS 值也低于0。并且在同一個項目質量水平下,這些非允許存在項目參數的表現具有較高的一致性。另外可以發現樣本量、項目質量以及重抽樣次數對于這兩個指標沒有明顯影響。從估計方法角度而言,pNPB在估計非允許存在項目參數的的表現要稍微優于pPB。

圖12 CDM 模型參數冗余時,基于pNPB 與pPB 的非允許存在項目參數的95% CI 覆蓋率

圖13 CDM 模型參數冗余時,基于pNPB 與pPB 的非允許存在項目參數的SE 的BIAS
圖14 與圖15 中呈現的是CDM 模型參數冗余條件下允許存在結構參數的95% CI 覆蓋率和的BIAS 結果。對于允許存在結構參數而言,在高質量及中等質量項目條件下,pNPB 及pPB 方法估計的95% CI 均在理論區間內或邊界線上,且隨著樣本量及重抽樣次數的增加也在逐漸變好,允許存在結構參數的的BIAS 也幾乎完全與0 重合。項目質量對于結構參數的95% CI 覆蓋率及BIAS 影響明顯,可以發現隨著項目質量降低結構參數 95%CI 覆蓋率的波動明顯增大,BIAS 對于0 的偏離也在增大。在低質量項目條件下,當= 1000時使用pPB 估計的結構參數的95% CI 覆蓋率全部在理論區間之下,且通過BIAS 結果可以發現此種情況下pPB 傾向于低估;使用pNPB 估計的結構參數95% CI 覆蓋率多數在理論區間之上,且通過BIAS結果可以發現這種方法傾向于高估;另外可以發現增加樣本量可以改進pNPB 和pPB 的表現,但是增加重抽樣次數幾乎沒有影響。

圖14 CDM 模型參數冗余時,基于pNPB 與pPB 的允許存在結構參數的95% CI 覆蓋率

圖15 CDM 模型參數冗余時,基于pNPB 與pPB 的允許存在結構參數的SE 的BIAS


圖16 CDM 模型參數冗余時,基于pNPB 與pPB 的非允許存在結構參數的95% CI 覆蓋率

圖17 CDM 模型參數冗余時,基于pNPB 與pPB 的非允許存在結構參數的SE 的BIAS


在CDM 研究中,ECPE (the Examination for the Certificate of Proficiency in English;Templin &Bradshaw,2014)是經典的實證數據之一。本研究所用ECPE 數據通過(Robitzsch et al.,2020)軟件包公開獲取,包含2922 名被試在28 個二值計分的英語語法測驗項目上的作答。英語測驗的內容專家與心理測量專家合作研究認為:在這個數據集中共有3 個屬性:(詞法句法規則,morphosyntactic rules)、(整合規則,cohesive rules)以及(詞匯規則,lexical rules),圖18 中呈現了ECPE 數據集的Q 矩陣(Templin &Hoffman,2013);并且這3 個屬性之間可能存在線性層級結構關系:→→(Liu et al.,2021;Templin &Bradshaw,2014;Wang&Lu,2021)。先前研究發現結構參數的在探索屬性層級關系時有重要價值,因此本文以ECPE 數據的結構參數的估計為例,對比以往相關研究結果(Liu et al.,2021),展示本研究的理論與實踐價值。

圖18 ECPE 數據集的Q 矩陣

圖19 中呈現了飽和結構模型中8 種屬性掌握模式及其對應的結構參數估計值。表1 中呈現的是使用不同方法計算的圖19 中呈現的結構參數估計值所對應的。對比使用不同方法計算的結構參數的估計值可以發現,整體上使用pPB 方法估計的與使用XPD 方法估計的在數值上非常接近;使用pNPB 方法估計的與使用Sw 方法估計的在數值上比較接近。對比pNPB 方法與pPB方法可以發現,pNPB 估計的的值比pPB 方法估計的值要大,這與模擬研究中CDM 模型參數冗余時允許存在的結構參數的及非允許存在結構參數的的結果是一致的。

圖19 ECPE 數據集中所有可能的屬性掌握模式及其對應的結構參數估計值

表1 ECPE 數據的結構參數估計值的SE

為了直觀地說明pNPB 及pPB 在運算效率上的提升,本文比較了使用200、500 及3000 次重抽樣時新方法與傳統自助法在計算時間上的差異。結果顯示:pNPB 耗時分別是10.93 s、25.43 s、135.36 s;pPB 耗時分別是15.42 s、36.01 s、200.96 s;NPB 耗時分別是158.43 s、392.97 s、2282.33 s;PB 耗時分別是220.77 s、537.15 s、3201.17 s。可以發現,pNPB及pPB 極大地提升了計算效率。
CDM 研究中,模型參數的及CI 估計是一個具有重要價值且富有挑戰性的問題(de la Torre,2011;Liu et al.,2021;Ma &de la Torre,2019;von Davier,2014)。解析法信息矩陣XPD、Obs 及Sw等在多數的應用情景中雖然有好的表現(Liu,Xin et al.,2019;Philipp et al.,2018;劉彥樓 等,2016),但其缺點在于需要矩陣正定,且易受邊界值問題的影響(DeCarlo,2011,2019);傳統自助法,如NPB以及PB 雖然具有前提假設少、通用性強的優點,但是存在計算效率低、耗時長的問題(Ma &de la Torre,2020b)。本研究提出使用pNPB 以及pPB 計算CDM 模型參數的及CI,系統探討了模型設定、樣本量、重抽樣次數、項目質量及具體估計方法對及CI 估計結果的影響;展示了pNPB 以及pPB 在分析可能存在屬性層級關系的CDM 實證數據ECPE 時的檢驗效果與計算效率。
特別指出的是,除了解析法信息矩陣、自助法外還有其他方法可以用于計算CDM 模型參數的與CI,如MCMC (Markov chain Monte Carlo)方法。MCMC 方法不僅可以用于計算模型參數估計值,而且可以通過計算估計過程中產生的模型參數的標準差,作為的估計。使用MCMC 估計CDM的模型參數,計算耗時可能會特別長(例如,大于1小時)。對于模型參數的及CI 進行研究時,需要進行大量的重復(如500 次或以上)才能獲得可靠的模擬結果(Liu,Xin et al.,2019;Philipp et al.,2018;劉彥樓 等,2016)。另外,這類基于貝葉斯的方法可能對于先驗分布敏感(Jiang et al.,2021)。因此,本研究沒有探討使用MCMC 算法計算CDM 模型參數的及CI 的表現。
(1)自助法在估計及CI 時的表現
本質而言,無論是NPB 還是PB 都是模擬從總體中抽樣獲得樣本數據的過程:將樣本或通過樣本估計獲得的模型參數認為是“總體”再抽樣計算的,是對于“樣本”的再抽樣。也就是,自助法無法超越它所依賴的“樣本”而憑空產生出更多的信息。因此,在CDM 的觀察數據中所包含的關于未知參數的信息越多、越準確,自助法的效果會越好。模擬研究中發現,模型設定、樣本量以及項目質量對于pNPB 及pPB 的表現有重要影響。這主要是因為在模型正確設定條件下,觀察數據與模型是完美擬合的;而模型參數冗余條件下的情景與此相反,可以明顯地觀察到使用飽和模型擬合帶有屬性層級關系的數據時,由于非允許參數的存在,模型參數估計值的估計準確性受到了很大的影響。這從側面說明了在CDM 中進行屬性層級關系檢驗或探索的重要性(Hu &Templin,2020;Liu et al.,2021;Ma &Xu,2021)。樣本量越大,所包含的關于未知參數的信息越多,模型參數估計值就會越準確;項目質量越高,越能有效區分被試的屬性掌握模式狀況,也就是說此時樣本能夠提供更多信息,從而使得pNPB 及pPB 的表現越好。通過模擬數據觀察到的一個有意思的現象是在低質量項目條件下,與同實驗水平組合的前半段參數相比,后半段的項目參數的 95%CI 覆蓋率及BIAS 的表現明顯變差。觀察Q 矩陣可以發現,在最后4 個項目中每個項目都測量了3 個屬性,也就是說每個項目中都有8 個項目參數需要估計,也就是在低質量項目條件下最后的4 個項目中可供利用的信息明顯少于其他項目。
(2)重抽樣次數對于自助法的影響
自助法是計算密集型方法,特定計算環境中重抽樣次數越多計算時間也就會越長(Efron &Tibshirani,1993),就理論而言,重抽樣次數的增加會增加估計準確的可能性(Hayes,2009,2018)。如前所述,在自助法中如何確定重抽樣次數還沒有明確的結論(Bai et al.,2016;Guo &Wind,2021;Lai,2021)。本研究在使用并行自助法計算效率提升的基礎上,探索了=200、500、3000 及5000 時的表現。從整體而言,重抽樣次數對于pNPB 及pPB表現的影響較小,當重抽樣次數≥500時各條件組合下的模擬結果開始變得穩定,= 3000與= 5000兩種重抽樣次數下的結果則幾乎完全相同。模型完全正確設定時一些條件下的參數或模型冗余設定時允許存在參數的95% CI 覆蓋率及BIAS的表現隨著重抽樣次數從200 增加到3000 稍有變好;在一些非理想情景下,如項目質量低、非允許存在參數等,重抽樣次數的增加對于pNPB 及pPB 表現沒有明顯影響。實證數據分析發現pNPB在200、500 和3000 下的結果與10000 次重抽樣次數下的結果相比僅有細微的差別,pPB 在3000 次重復時的結果與10000 次重復下的結果幾乎一致。理論上而言,CDM 的信息矩陣是關于觀察數據中包含的模型參數信息的度量(Liu,Xin et al.,2019),而則是關于模型參數估計值不確定信息的度量(Liu et al.,2021),這也就是說,觀察數據中包含“信息”量的多少是影響表現的主要因素。本文的模擬及實證研究支持以上理論,因此作者認為影響自助法表現的最主要因素并非重抽樣次數,而是觀察數據中所包含“信息”的多少。當然,本文結論是否可以推廣到其他情景中有待進一步研究。
有一些重要問題需要在后續研究中進一步探討。(1)本文僅在項目數量為30,屬性數量為4 的條件下展開研究,后續研究者可以繼續探討不同項目數量及屬性數量對于pNPB 及pPB 的影響。(2)本研究僅以(→,→)層級關系為例,探討了模型參數冗余設定對于pNPB 及pPB 表現的影響,然而不同屬性層級關系條件下,模型參數的的表現,尤其是結構參數的的表現有待進一步探索?,F實中不僅會存在屬性層級關系,而且可能會同時存在屬性之間的相關(Hu &Templin,2020;Liu et al.,2021),限于研究目的,本研究沒有考慮這種情景。本文認為pNPB 及pPB 在探索及驗證屬性層級關系時的表現值得進一步研究。(3)除了本研究中使用的模型參數95% CI 計算方法外,還有一些基于自助法的CI 計算方法的表現也值得進一步關注(例如,Jiang,2021;Lai,2021)。(4)解析法信息矩陣在屬性層級關系存在時經常會遇到無法求逆的問題,因此本研究無法直接比較這兩類方法的優劣,Liu 等人(2021)初步提出了通過逐步排除非允許存在結構參數的兩階段模型參數估計的思路,這也是一個具有重要理論及實踐價值的方向。本研究在CDM 模型參數完全正確設定條件下對比了解析法XPD、Obs、Sw、pNPB 及pPB 的表現,結果顯示,解析法(如,Obs 或Sw)在一些條件下的表現要稍優于pNPB 或pPB。后續研究可以比較兩階段模型參數估計思路下的解析法與pNPB 及pPB 方法的表現。(5)需要特別指出的是,pNPB 及pPB 除可以用于計算及CI 外,還有很多潛在的理論及實踐價值。研究者可以進一步探索pNPB 及pPB 在項目功能差異檢驗、項目水平上的模型比較、Q 矩陣檢驗等領域中的表現。(6)本文在CDM 框架下探討了pNPB 及pPB 的表現,但是作為通用性強的一類方法,后續研究者可以在開發并行方法的基礎上,在其他統計與測量模型中深入探討自助法的表現,以解決先前研究沒有明確的結論或結論相沖突的問題(例如,Efron &Tibshirani,1993;Hayes,2009,2018;Lai,2021)。
結果顯示:(1) CDM 完全正確設定時,在高質量及中等質量項目條件下,使用pNPB 及pPB 這兩種方法計算的項目參數和結構參數95% CI 覆蓋率及BIAS 均有好的表現;且隨著樣本量的增大及項目質量的變好,這兩種方法的表現也在變好。低項目質量嚴重影響了pNPB 及pPB 的表現,pNPB 傾向于高估模型參數的,pPB 則傾向于低估。(2)在CDM 的模型參數存在冗余時,在高質量及中等質量項目條件下,使用pNPB 及pPB 這兩種方法計算的大部分允許存在項目參數和幾乎全部允許存在結構參數的95% CI 覆蓋率及BIAS 均有好的表現,但是也存在部分項目參數的95% CI 覆蓋率極端偏離理論區間且BIAS 值為負數的情況。非允許存在項目參數及結構參數的95% CI 覆蓋率在大多數條件下表現較差。(3)探討了pNPB 及pPB 在實證數據中的效果,發現使用pNPB 及pPB 計算的,獲得了同先前研究一致的結論,即ECPE 數據中存在線性屬性層級關系;同NPB 及PB 相比,pNPB 及pPB 極大地提升了計算效率,是簡易、可行的及CI 計算方法。(4)綜合模擬研究與實證數據分析結果,本研究初步認為:在pNPB 及pPB 方法中為快速預覽估計結果可以選擇200 次重抽樣;為獲得較為準確的估計結果,審慎起見可以選擇3000 或以上的重抽樣次數。