(北京師范大學心理學部,北京 100875)
大型的教育測驗通常具有多維結構,這些測驗除了提供總分信息,也越來越重視對各分維度維度分(domain score,subscore)的報告。維度分不僅能像總分一樣作為選拔、分配等的判斷標準,更重要的是能提供更詳細的診斷信息(陳飛鵬,2015)。因此,合成準確、可信的總分和維度分在教育測量中具有重要意義。但是,分維度中的題目數通常較少,維度分信度較低是估計和合成維度分面臨的主要問題(de la Torre,Song,&Hong,2011)。為了提高總分和維度分的準確性和可信度,研究者對總分和維度分的合成進行了大量的探索。
基于項目反應模型合成總分與維度分,比較常見的有3種方法:基于單維項目反應理論(UIRT)模型的方法、基于多維項目反應理論(MIRT)模型的信息函數極大化方法(Yao,2010)、基于高階項目反應理論(HO-IRT)模型的方法。研究證明,MIRT模型合成分數往往具有更高的信度(Wang,Chen,&Cheng,2004;Yao &Boughton,2007;Cheng,Wang,&Ho,2009;Yao,2010)。
盡管目前,基于MIRT模型合成總分和維度分已發展的較為成熟,但是,隨著雙因子模型(bi-factor model)在多維結構數據中的廣泛應用,如何基于該模型合成可信、準確的總分和維度分也成為研究者探索的重點。
與傳統方法相比,基于雙因子模型合成總分和維度分具有一定的優勢。一是具有較高的效標關聯效度。二是具有線性轉換的特性,這在追蹤研究中尤為重要,使得研究者可以忽略最初的能力水平,通過能力分數的變化來考察能力真值的變化情況(Gavett,Crane,&Dams-O’Connor,2013)。三是雙因子模型擬合數據所需要的計算較為簡單(DeMars,2013),可以通過限制性信息因素分析或全信息項目因素分析的估計方法實現(Reise,2012)。
目前,基于雙因子模型合成測驗總分和維度分的研究仍較少,已有研究主要提出了4種方法。第一,使用雙因子模型原始的因子分作為總分和維度分。根據雙因子模型的定義,局部因子可以代表無關變異的因子,如題組、方法效應等,也可以代表分維度的變異。在第一種情況下,全局因子代表了使用局部因子控制無關變異之后測驗所關注的核心能力,因此可以看做總分(DeMars,2013)。在第二種情況下,可以使用局部因子的因子值作為維度分估計值。另外,在一些研究中,研究者直接將雙因子模型中全局因子和局部因子的因子值分別作為總分和維度分。如,Yao (2010)的研究證明,基于雙因子模型合成總分和維度分的準確性遠不如 MIRT和HO-IRT模型。總分應當反映被試在測驗所有題目上的整體表現而不僅僅是所有題目的共同部分,維度分應當反映被試在測驗某個維度所有題目上的整體表現,也不僅僅是控制了所有題目共同的影響后,某個維度的獨特部分,因此,這種方法具有一定的不合理性。第二,使用基于雙因子模型的觀察分數合成維度分。模型預測的分維度觀察分數,是在給定總體能力(全局因子)和特定維度能力(局部因子)的情況下,被試正確作答分維度所有題目的概率之和。但是,這種方法得到的維度分與因子分的關系是非線性的,因此能力量尺的尾端會壓縮或擴大。第三,使用雙因子模型的因子分加和作為總分和維度分。由于分維度觀察分數的變異包含了全局因子和局部因子的變異(Willoughby,Blanton,&Investigators,2015),總分的變異也是全局因子和所有局部因子變異之和,因此可以考慮將全局因子和局部因子的因子分加和以合成總分和維度分。研究證明,加入了全局因子計算出的維度分的信度,高于控制了全局因子而得到的維度分信度(Reise,2012)。但是,如果僅是簡單的加和,則全局因子和局部因子對合成分數的貢獻程度是相同的,這與實際情況不符。第四,使用雙因子模型的因子分加權加和作為總分和維度分。DeMars (2013)在其研究中提出使用全局因子和局部因子線性加權加和的方法來得到合成分數,并指出權重應基于全局因子和局部因子對作答反應的相對貢獻程度。但是,他們的文章并未給出權重的具體計算方法,也沒有系統的比較不同加權方法。
綜上,目前尚未有研究系統比較基于雙因子模型的測驗總分和維度分合成方法。是否能夠根據雙因子模型本身的結構和總分、維度分的定義,提出較為科學的方法,從而合成更加準確和可信的總分和維度分,是研究關注的主要問題。
研究基于雙因子模型,提出了4種合成總分和維度分的方法。采用模擬研究的方法,對在樣本量、測驗長度和維度間相關變化的條件下,各方法對總分和維度分估計的準確性,進行了比較,期望能夠對所提出的方法有更加深入的認識,同時也能為實際使用者提供建議。另外,研究還將各方法應用于高考理綜測驗數據,對模擬研究的結果進行了進一步的印證與補充。
研究討論的方法都針對簡單結構的多維數據。對于基于MIRT模型合成總分和維度分的方法,研究使用兩參數MIRT模型估計參數(Reckase,2009)。
首先,對于0/1計分的題目,題目j在上的信息函數為(Yao,2010):

其中,P j1表示在能力上答對題目j的概率。
對于多級計分的題目,題目j在上的信息函數為:

處的測驗信息函數為:

Holzinger和 Swineford (1937)正式提出了雙因子模型,該模型包括一個全局因子,反映測驗測量的核心能力;多個局部因子,表示控制全局因子的情況下,一組題目的共同變異,即分維度效應或方法效應。使用雙因子模型擬合數據,每道題目的變異可分解為3個獨立的部分:全局因子、局部因子和殘差。其結構如圖1所示,該圖表示有9道題目,每3道題目屬于1個局部因子。其中,j表示題目,表示全局因子,表示維度d上的局部因子。雙因子模型在結構上與MIRT模型類似,應用于兩參數IRT模型可以得到:

圖1 雙因子模型示意圖
di表示項目難度,區分度參數是一個向量,即每個題目有一個全局因子的區分度,同時還有一個局部因子的區分度。能力參數也是一個向量,每個被試有一個和一個,因此該模型可以得到每個被試在全局因子和局部因子上能力值的估計。為了模型更容易收斂和解釋,通常還假定全局因子與局部因子不相關,局部因子之間不相關(Chen,Hayes,Carver,Laurenceau,&Zhang,2012)。但當局部因子多于兩個時,允許部分局部因子之間相關。
由于其極大的優越性,雙因子模型已廣泛應用到心理和教育測量的各領域,如人格測驗的數據擬合(Ackerman,Donnellan,&Robins,2012),定義和測量心理結構(Cai,Yang,&Hansen,2011),計算機自適應測驗(Gibbons et al.,2008),垂直量尺化(Li&Lissitz,2012)和評估項目反應差異(Fukuhara &Kamata,2011)等。另外,現在,很多操作簡單的軟件也能夠用于估計雙因子模型參數,如 IRTPRO 2.1(Cai,Thissen,&du Toit,2011)、EQSIRT (Wu &Bentler,2011),這也進一步促進了雙因子模型的研究和應用。
(1)MIRT法(MIRT)
使用兩參數MIRT模型擬合數據,各分維度能力值作為維度分,采用多維測驗信息函數極大化法合成總分。
(2)原始分法(Bifactor-M1)
將雙因子模型估計得到的被試在全局因子上的能力值作為總分,在局部因子上的能力值作為局部因子上的維度分。
(3)加和法(Bifactor-M2)
參考 Haberman (2008)的思路,在多維測驗中,總分的變異應當包括被試在所有題目上的全部變異,即應當為題目的共同變異與它們在所有特定維度上變異之和,相當于全局因子和所有局部因子之和。同理,維度分應當包括被試在特定維度上題目的全部變異,即應當為他們在這部分題目的共同變異與該維度上獨特變異之和,即全局因子與相應的局部因子之和。加和法對總分和維度分的定義如下:

(4)全局加權加和法(Bifactor-M3)
借鑒 DeMars (2013)線性加權加和的思路,為全局因子和局部因子的能力值尋找合適的權重。在他們的研究中,提出可以參考最大斜率方向的概念計算權重,在雙因子模型中,全局因子的相對角度是由題目在全局因子和局部因子上的區分度合成的。對于分維度,合成分數的權重可以采用區分度的特征向量得到。因此,可以認為題目在全局因子和局部因子上的區分度與各因子對題目變異的解釋程度相關,考慮使用各類區分度之和所占比例對能力值進行加權。全局加權加和法的計算公式為:



(5)局部加權加和法(Bifactor-M4)

對于總分的合成,局部加權加和法與全局加權加和法相同。
研究采用混合實驗設計。組內變量為5種合成方法,分別為MIRT法、原始分法、加和法、全局加權加和法、局部加權加和法。組間變量有3個:(1)樣本量:500、1000、2000。(2)測驗長度:18題、30題、60題。(3)維度間相關:0.0、0.3、0.5、0.7、0.9。組間變量共形成3×3×5=45種不同的實驗條件。
題目參數選自某地區高考理綜測驗題目參數庫,其中所有題目區分度均值為 0.83,標準差為0.35,難度的截距均值為?0.08,標準差為 1.91。測驗為簡單結構,包含 3個維度,每個維度的題目數相等,且0/1計分和多級計分的題目數各占50%。研究暫沒有考慮維度數的影響,主要出于兩個方面的考慮。一是根據幾種合成方法的定義,推測維度數對維度分合成的影響相對較小,且在de la Torre等(2011)的模擬研究中,各維度數條件下,各種方法的表現有相似的規律。二是模擬研究基于實際數據,目前我國的高考文、理科綜合考試均包含3個分測驗,因此將維度數固定為3更接近高考綜合考試的實際情況,結論能更好地為實際的測驗提供參考。產生數據所依據的模型為兩參數 MIRT模型,能力符合多元正態分布。采用蒙特卡洛模擬研究的方法,使用SimuMIRT軟件(Yao,2013)產生每種條件下的反應數據,每種條件下數據重復模擬30次。數據重復模擬次數參考了多個類似模擬研究的設置,如 Huang (2015),劉玥和劉紅云(2012,2013),詹沛達、陳平和邊玉芳(2016),Yao和Boughton (2009),Yao (2010,2011),de la Torre和Song (2009),de la Torre等(2011)等。
在每種條件下,使用BMIRT (Yao,2013)軟件,基于貝葉斯框架下的 MCMC算法完成參數估計,迭代次數為 2000次,各參數的先驗分布采用軟件中的默認值。
研究使用3個指標評價各方法合成的總分和維度分的返真性:(1)誤差均方根(RMSE),(2)信度(Reliability),(3)合成分與真值的相關(Correlation)。其中,為使得合成分與其真值在同一量尺上,先將真值和合成分標準化,再計算誤差均方根。
誤差均方根考察了合成的總分和維度分與真實值差異的大小,其值越小說明合成分與真值的差異越小,準確性越高。其公式如下:

表示標準化后總分或維度分的真值,表示標準化后合成的總分或維度分。I表示被試數量,N表示重復的次數。
信度計算公式如下:

該指標計算了合成分與真值的積差相關,它的意義是合成分與真實值的一致性水平。
另外,研究還計算了各條件下合成的維度分之間的相關系數,以考察各方法所合成的維度分反映維度之間真實相關關系的程度。
研究使用某地區高考理綜測驗的實證數據對幾種總分和維度分合成方法進行進一步比較。測驗共有66道題目,分為3個維度:物理(17題)、化學(30題)、生物(19題),同時包含了0/1計分和多級計分的題目,最高等級數為9。被試人數為4815人。所比較的方法與模擬研究中的 5種方法相同,將MIRT法的總分和維度分看做“真值”,對其他的分數合成合成方法進行比較。
另外,還使用了絕對偏差來評價各方法結果與“真值”的差異。絕對偏差表示合成分與真值的絕對差異大小。
方差分析結果顯示1由于研究關注的重點在于比較各合成方法之間的表現,因此在方差分析時僅介紹以合成方法為關注點的交互作用、簡單效應。,總分合成方法與樣本量(F(6,124)=14.30,p<0.001,η2=0.409)、總分合成方法與測驗長度(F(6,124)=38.24,p<0.001,η2=0.649)、總分合成方法與維度間相關(F(12,124)=198.99,p<0.001,η2=0.951)的交互作用顯著。簡單效應分析結果表明,樣本量為 500時,Bifactor-M1法的誤差均方根小于Bifactor-M2法(d2d表示均值差異,后同。=?0.021,p<0.001);樣本量為2000時,Bifactor-M1法的誤差均方根大于 Bifactor-M2 法(d=?0.016,p<0.001)。測驗長度為18題時,Bifactor-M1法誤差均方根大于Bifactor-M2 法(d=?0.030,p<0.001);測驗長度為36題和 60題時,Bifactor-M1法誤差均方根小于Bifactor-M2法,且只有在測驗長度為60題的情況下差異顯著(d=?0.029,p<0.001)。維度間相關較小時(相關為 0.0),MIRT法、Bifactor-M1法、Bifactor-M2法的誤差均方根差異較大(p<0.001),隨著維度間相關的增加,MIRT法、Bifactor-M1法、Bifactor-M3法的誤差均方根較為接近(p>0.001),且小于Bifactor-M2法(d=?0.123,p<0.001,d=?0.117,p<0.001,d=?0.123,p<0.001)。交互作用分析結果如圖2所示。
圖3以樣本量為1000的條件為例,展示了不同總分合成方法在不同條件下的誤差均方根。其他條件下誤差均方根規律與此類似。
從圖3中可以看出:(1)隨著維度間相關增加,MIRT法、Bifactor-M1法和Bifactor-M3法的誤差均方根有降低的趨勢,且三種方法的差異減小,當維度間相關為 0.9時,三種方法的誤差均方根沒有顯著差異;(2)Bifactor-M2法的誤差均方根相對穩定;(3)當維度間相關較小時,Bifactor-M1法的誤差最大,隨著維度間相關增加,該方法誤差均方根減小,當維度間相關較高時,Bifactor-M2法的誤差均方根最大;(4)MIRT法和Bifactor-M3法的誤差均方根隨著測驗長度增加而減小,MIRT法和Bifactor-M3法的誤差均方根的差異隨著測驗長度增加而增大。
總的來看,不同總分合成方法存在顯著差異,F(3,124)=873.60,p<0.001,η2=0.955。使用 LSD方法、bonferroni方法進行多重比較結果表明,MIRT法的誤差均方根顯著小于其他方法,其次是Bifactor-M3法,然后是 Bifactor-M1法和 Bifactor-M2法,二者沒有顯著差異。
表1以樣本量為2000為例,呈現了不同方法合成的總分的信度,及其與真值的相關結果。其他條件下的規律與此類似。
從表1中可以看出,信度和相關的結果與誤差均方根呈現出相似的規律。當測驗長度較短、維度間相關較低時,Bifactor-M1法的信度較低。當測驗長度為 18題,維度間相關大于等于 0.7時,MIRT法、Bifactor-M1法和Bifactor-M3法合成總分的信度大于0.8;當測驗長度為36題,維度間相關大于等于0.5時,所有方法合成總分的信度大于0.8;當測驗長度為60題,維度間相關大于等于0.3時,所有方法合成總分的信度大于0.8。

圖2 總分合成方法與各條件交互作用

圖3 樣本量為1000條件下不同方法合成總分的誤差均方根

表1 樣本量為2000條件下不同方法合成總分的信度和相關
以維度 1為例,方差分析結果顯示,維度分合成方法與樣本量(F(8,160)=3.20,p<0.05,η2=0.138)、維度分合成方法與測驗長度(F(8,160)=62.91,p<0.001,η2=0.759)、維度分合成方法與維度間相關(F(16,160)=450.18,p<0.001,η2=0.978)的交互作用顯著。簡單效應分析結果表明,樣本量為500時,MIRT法和Bifactor-M3法的誤差均方根的差異相對較大(MIRT法和 Bifactor-M3法,d=?0.046,p<0.001);隨著樣本量增大,MIRT法和Bifactor-M3法的誤差均方根的差異減小(樣本量為2000,d=?0.031,p<0.001)。測驗長度為 18 題時,MIRT法和Bifactor-M2法(d=0.017,p>0.001)、MIRT法和 Bifactor-M3 法(d=0.006,p>0.001)、Bifactor-M2法和 Bifactor-M3 法(d=?0.011,p>0.001)、Bifactor-M2法和Bifactor-M4法(d=0.019,p>0.001)的誤差均方根沒有顯著差異;測驗長度為60題時,MIRT法誤差均方根顯著小于Bifactor-M2法(d=?0.028,p<0.001)、小于 Bifactor-M3 法(d=?0.084,p<0.001),Bifactor-M2法的誤差均方根顯著小于 Bifactor-M3法(d=?0.056,p<0.001),大于 Bifactor-M4 法(d=?0.039,p<0.001)。維度間相關較小時(相關為0.0),MIRT 法和 Bifactor-M4 法(d=?0.010,p>0.001)、Bifactor-M2法和 Bifactor- M4法(d=0.000,p>0.001)的誤差均方根沒有顯著差異,Bifactor-M3法的誤差均方根顯著大于Bifactor-M4法(d=0.090,p<0.001);隨著維度間相關的增加,MIRT法(d=0.073,p<0.001)、Bifactor- M2 法(d=0.099,p<0.001)的誤差均方根顯著大于 Bifactor-M4法,Bifactor-M3法的誤差均方根與 Bifactor-M4法沒有顯著差異(d=0.004,p>0.001)。交互作用結果如圖4所示。
圖5以樣本量為2000的條件為例,展示了不同維度分合成方法在不同條件下維度 1的誤差均方根。其他條件下誤差均方根規律與此類似。
從圖5中可以看出:(1)Bifactor-M1法的誤差均方根明顯大于其他方法,且隨著維度間相關增加,誤差增大;(2)MIRT法的誤差均方根受維度間相關的影響不大;(3)Bifactor-M3法和Bifactor-M4法的誤差均方根隨著維度間相關增加而降低,其中,Bifactor-M4法的誤差均方根始終與 MIRT法相當或小于MIRT法,Bifactor-M3法的誤差均方根在維度間相關為0.7及以下時略大于MIRT法,在維度間相關為0.9時小于MIRT法,且該現象在測驗長度較長時更加明顯;(4)測驗長度較短時,Bifactor-M2法的誤差均方根相對不受維度間相關影響,且低于 MIRT法,測驗長度中等和較長時,Bifactor-M2法的誤差均方根隨著維度間相關增加而略有增加,且在相關為0.9時超過MIRT法,該現象在測驗長度較長時更加明顯。
總的來看,對于維度 1,各維度分合成方法存在顯著差異,F(4,160)=5897.50,p<0.001,η2=0.993。使用LSD方法、bonferroni方法進行多重比較結果表明,Bifactor-M4法的誤差均方根顯著小于其他方法,其次是MIRT法和Bifactor-M2法,二者沒有顯著差異,再次是Bifactor-M3法,Bifactor-M1法的誤差均方根顯著大于其他方法。

圖4 維度分合成方法與各條件交互作用

圖5 樣本量為2000條件下不同方法合成維度1維度分的誤差均方根
表2以樣本量為2000為例,呈現了不同方法在不同條件下合成的維度1維度分的信度,及其與真值的相關結果。其他條件下的規律與此類似。
從表2中可以看出,信度和相關的結果與誤差均方根呈現出相似的規律。當維度間相關較高時,Bifactor-M1法的信度較低。當測驗長度為18題,維度間相關為0.9時,Bifactor-M3法和Bifactor-M4法合成維度分的信度大于 0.8;當測驗長度為 36題,MIRT法、Bifactor-M2法和 Bifactor-M4法合成維度分的信度均大于0.8,當維度間相關大于等于0.7時,Bifactor-M3法合成維度分的信度大于 0.8;當測驗長度為60題,僅有Bifactor-M1法的信度始終未達到 0.8,其余方法在各條件下合成維度分信度均大于0.8。

表2 樣本量為2000條件下不同方法合成維度1維度分的信度和相關
表3以樣本量為2000的條件為例,展示了不同維度分合成方法在不同條件下維度1和維度2維度分的相關系數。其他條件和其他維度分相關的結果與此類似。
從表3中可以看出,僅有Bifactor-M4法合成的維度分之間的相關與真值較為接近,且當測驗長度較長時更加接近。而 Bifactor-M1法的相關始終為負,Bifactor-M2法的相關一直是中等程度,Bifactor-M3法的相關較高。綜上,Bifactor-M4法合成的維度分能較好地反映維度之間真實相關關系。
實際數據各維度之間的相關如表4所示,各維度間呈現出較高程度的相關。
在實證研究中,還使用了單維兩參數 Logistic模型對數據進行擬合,以此作為擬合結果比較的基線。表5呈現了各模型的擬合結果,MIRT模型和Bifactor模型對數據的擬合程度都顯著優于單維模型,Bifactor模型擬合程度最好。

表3 樣本量為2000條件下不同方法合成維度1和維度2維度分的相關

表4 某地區高考理綜測驗各維度之間相關及方差

表5 某地區高考理綜測驗模型擬合結果
結果如表6所示,Bifactor-M3法合成的總分與MIRT法差異最小,Bifactor-M2法的差異最大;Bifactor-M2法和 Bifactor-M4法合成的維度分與MIRT法的差異都較小,Bifactor-M1法的差異最大。綜合來看,Bifactor-M3法和Bifactor-M4法合成分與MIRT法最為接近。
表7呈現了各方法合成的分的百分位數。從表7中可以看出,除了Bifactor-M2法合成總分的0.05和0.95百分位數,Bifactor-M1法合成維度分的0.05和0.25百分位數,Bifactor-M2法合成維度分的0.05百分位數,Bifactor-M3法合成維度分的0.05和0.95百分位數與MIRT法相差0.1以上,其余方法的百分位數與MIRT法相差都較小。Bifactor-M3法合成總分,Bifactor-M4法合成維度分的百分位數與 MIRT法的最為接近,相對差異基本在[?0.05,0.05]區間內。

表6 某地區高考理綜測驗各方法合成總分維度分與 MIRT結果的絕對偏差和相關

表7 某地區高考理綜測驗各方法合成總分維度分的百分位數
首先,全局加權加和法和局部加權加和法,尤其是局部加權加和法合成分準確性最高,與 MIRT法的結果差異不大甚至優于該方法。在 DeMars(2013)的文章中也指出,全局因子和局部因子加權加和合成的分數,具有較高的可信度和較小的標準誤。對于總分來說,局部加權加和法的誤差和MIRT法非常接近,并且,隨著維度間相關增加,兩種方法的誤差及其差異減小。當維度間相關為0.9時,兩種方法合成總分的誤差沒有差異。假設研究中測驗各部分的分數變異關系如圖6所示。其中a、b、c可以看做局部因子,g可以看做全局因子。那么,總分可以看做 a+b+c+d+e+g+f。當維度間相關較高時,g的部分相對較大,采用加權加和法的思路,全局因子所占的權重相對較大,其在總分中所占比重也較大,因此總分也越接近于真實值。對于維度分來說,全局加權加和法和局部加權加和法的誤差與MIRT法差異均不大。其中,局部加權加和法的誤差均方根始終與 MIRT法相當或小于MIRT法,且當維度間相關較高時該方法表現甚至優于MIRT法;全局加權加和法的誤差均方根基本與 MIRT法相當,但當維度間相關較低時,該方法表現差于MIRT法。局部加權加和法總體表現較為穩定,可能因為該方法在合成維度分時,采用該維度題目在全局因子和局部因子上的區分度進行加權,既沒有加和法的情況下夸大局部因子的比重,也沒有在全局加權加和法的情況下減小局部因子的比重,權重的設定更加科學。另外,MIRT法盡管誤差較小,但是會低估低能力被試,高估高能力被試的總分和維度分,仍有一定的不足。

圖6 測驗各部分分數變異示意圖
其次,僅有局部加權加和法能較好的反映維度之間真實的相關。權重的設定是加權加和法的核心問題。DeMars (2013)指出,雙因子模型允許全局因子或局部因子對題目有不同的影響程度,即不同的權重。他通過區分度計算出最好的測量角度,從而確定權重。這種方法與研究所提出的利用區分度進行加權的方法有一定的相似性。與 DeMars (2013)研究不同的是,DeMars (2013)設定的權重是針對每道題目的,而研究所設定的權重是針對全局因子和局部因子的。局部加權加和法與全局加權加和法的區別就在于計算維度分時,僅使用該維度題目在全局因子上的區分度計算,因此認為局部加權加和法對權重設定較為科學。從模擬研究結果中可以看出,只有該方法合成的維度分之間的相關與真值較為接近,并且在測驗長度較長時具有較大的優勢。而原始分法在雙因子模型假設下,局部因子之間相關較低,所以無法得到維度間相關的真實關系;加和法設定全局因子和局部因子的權重均為 0.5,即維度分中有一半的變異為共同的變異,因此相關始終為中等程度;全局加權加和法會夸大全局因子的權重,減小局部因子的權重,使得共同變異在維度分中所占的比例偏高,因此會高估維度間的相關。
最后,原始分法和加和法在合成總分和維度分時具有不同程度的缺陷。(1)原始分法在合成維度分時誤差始終遠大于其他方法,且隨著維度間相關增加,該方法的誤差越來越大。這是因為隨著維度間相關的增加,共同變異增加,各維度獨特的變異減小,即圖6中,g增加,a、b、c減小,而維度分應當是共同變異與某維度獨特變異之和,即 a+d+g+e、b+d+g+f、c+e+g+f,而如果僅用局部因子,即 a、b、c表示維度分,其在維度分真值中所占比例相對減小,則誤差相對較大。DeMars (2013)認為,維度間相關越高,局部因子所代表的獨立特性就越少,這時最好不要報告維度分而報告總分。這與模擬研究的結果類似。另外,原始分法合成維度分的信度僅在 0.1~0.3之間,顯然不能用于實際的分數報告。DeMars (2013)的研究也指出,對于有相同作答反應的被試,如果在全局因子上能力高,在局部因子上能力就低,反之亦然。因此,如果采用原始分法,對于這些作答模式相同的被試,其總分或者維度分會存在較大差異,這顯然是不符合常理的。(2)加和法在合成總分時誤差大于局部加權加和法與MIRT法,且當測驗長度較長時差異較大,可能是由于該方法對全局因子和局部因子權重相等的設定不夠科學。因此,DeMars (2013)也建議使用加權加和法。
綜上,模擬研究證明了基于雙因子模型合成總分和維度分具有一定的可行性。由于雙因子模型本身的優勢及其在教育測驗中的廣泛應用,對其在合成分數時的實際應用提出以下建議。
第一,當測驗設計者對核心能力有明確的設定,并要求報告相應的結果時,使用雙因子模型可以同時提供核心能力、總分及維度分的結果。例如,在理科綜合的考試中提取出一個共同的“科學素養”,那么,使用雙因子模型就能在報告總分和維度分的同時,報告學生在科學素養上的表現情況,給出更為詳細、具體的診斷信息。
第二,當測驗呈現多維結構,且維度間相關較高,使用雙因子模型合成總分、維度分具有一定優勢。研究通過模擬數據證明,維度間相關越高,基于雙因子模型的全局加權加和法和局部加權加和法合成分數的準確性和可信度越高。并且,在關于多維測驗模型選擇方面,也有研究者提出建議,當維度之間不相關或相關較弱時(0.1以下),可以對每個維度分別進行 UIRT分析;當維度之間存在中等以下的相關時(0.1到0.4 之間),全局因子負荷較低,局部因子負荷較高,因此選擇非層次的 MIRT模型(即斜交因子模型);當維度之間相關較高時(0.4以上),選擇雙因子 IRT模型(Reise,Moore,&Haviland,2010)。
第三,如果研究在重點除了需要報告總分和維度分之外,還關心全局構念、局部構念和效標的關系(顧紅磊,溫忠麟,方杰,2014),那么使用雙因子模型具有較大的優勢。研究證明,雙因子模型的因子分往往具有較高的效標關聯效度(Gavett et al.,2013)。
第四,在合成分數之前,可以先計算指標得到總分和維度分的信度。對雙因子模型使用α系數作為信度的估計值會得到不準確的結果(Rodriguez,Reise,&Haviland,2016)。因此,Reise,Bonifay和Haviland (2013)提出計算omega和高階omega指標,估計測驗分數變異中分別由全局因子和局部因子所解釋的變異百分比,從而得到總分和維度分的信度(Rodriguez et al.,2016)。當信度可以接受時,才能報告相應的分數。
第五,可以根據不同的應用情境,選擇適當的合成方法。如果分數要運用于潛變量回歸模型,可以直接使用雙因子模型的原始因子值。如果分數要報告給學生、教師或咨詢者,則需要根據全局因子和局部因子上的區分度狀況,決定報告總分或者維度分,或采用加權加和的方法合成相應的分數。
另外,研究還存在一定的局限性。一方面,模擬研究僅考慮了簡單結構的數據,實際中可能存在復雜結構多維數據,有必要在以后的研究中對這種情況下雙因子模型合成總分和維度分的表現加以討論。另一方面,開發出其他基于雙因子模型合成總分和維度分的方法,也是未來值得進一步研究的問題。
研究得出的主要結論如下:
第一,基于雙因子模型的局部加權加和法能夠合成較為準確、可信的總分和維度分,并且能較為真實地反映維度之間的相關關系。
第二,維度間相關越高,測驗長度越長,局部加權加和法合成的總分和維度分誤差越小。
第三,原始分法和加和法合成的總分和維度分在部分條件下具有較大的誤差,不推薦使用。
Ackerman,R.A.,Donnellan,M.B.,&Robins,R.W.(2012).An item response theory analysis of the narcissistic personality inventory.Journal of Personality Assessment,94(2),141–155.
Cai,L.,Thissen,D.,&du Toit,S.H.C.(2011).IRTPRO:Flexible,multidimensional,multiple categorical IRT modeling[Computer software].Chicago,IL:Scientific Software.
Cai,L.,Yang,J.S.,&Hansen,M.(2011).Generalized fullinformation item bifactor analysis.Psychological Methods,16(3),221–248.
Chen,F.F.,Hayes,A.,Carver,C.S.,Laurenceau,J.P.,&Zhang,Z.G.(2012).Modeling general and specific variance in multifaceted constructs:A comparison of the bifactor model to other approaches.Journal of Personality,80(1),219–251.
Chen,F.P.(2015).The estimation of subscores with the use higher-order item response models(Unpublished master’s thesis).Zhejiang Normal University.
[陳飛鵬.(2015).高階項目反應模型估計子分數(碩士學位論文).浙江師范大學.]
Cheng,Y.Y.,Wang,W.C.,&Ho,Y.H.(2009).Multidimensional rasch analysis of a psychological test with multiple subtests:A statistical solution for the bandwidth-fidelity dilemma.Educational and Psychological Measurement,69(3),369–388.
de la Torre,J.,&Song,H.(2009).Simultaneous estimation of overall and domain abilities:A higher-order IRT model approach.Applied Psychological Measurement,33(8),620–639.
de la Torre,J.,Song,H.,&Hong,Y.(2011).A comparison of four methods of IRT subscoring.Applied Psychological Measurement,35(4),296–316.
DeMars,C.E.(2013).A tutorial on interpreting bifactor model scores.International Journal of Testing,13(4),354–378.
Fukuhara,H.,&Kamata,A.(2011).A bifactor multidimensional item response theory model for differential item functioning analysis on testlet-based items.Applied Psychological Measurement,35(8),604–622.
Gavett,B.E.,Crane,P.K.,&Dams-O’Connor,K.(2013).Bi-factor analyses of the brief test of adult cognition by telephone.Neurorehabilitation,32(2),253–265.
Gibbons,R.D.,Weiss,D.J.,Kupfer,D.J.,Frank,E.,Fagiolini,A.,Grochocinski,V.J.,… Immekus,J.C.(2008).Using computerized adaptive testing to reduce the burden of mental health assessment.Psychiatric Services,59(4),361–368.
Gu,H.L.,Wen,Z.L.,&Fang,J.(2014).Bi-factor models:A new measurement perspective of multidimensional constructs.Journal of Psychological Science,37(4),973–979.
[顧紅磊,溫忠麟,方杰.(2014).雙因子模型:多維構念測量的新視角.心理科學,37(4),973–979.]
Haberman,S.J.(2008).When can subscores have value?Journal of Educational and Behavioral Statistics,33(2),204–229.
Holzinger,K.J.,&Swineford,F.(1937).The bi-factor method.Psychometrika,2(1),41–54.
Huang,H.Y.(2015).A multilevel higher order item response theory model for measuring latent growth in longitudinal data.Applied Psychological Measurement,39(5),362–372.
Li,Y.,&Lissitz,R.W.(2012).Exploring the full-information bifactor model in vertical scaling with construct shift.Applied Psychological Measurement,36(1),3–20.
Liu,Y.,&Liu,H.Y.(2012).When should we use testlet model?A comparison study of Bayesian testlet random-effects model and standard 2-PL Bayesian model.Acta Psychologica Sinica,44(2),263–275.
[劉玥,劉紅云.(2012).貝葉斯題組隨機效應模型的必要性及影響因素.心理學報,44(2),263–275.]
Liu,Y.,&Liu,H.Y.(2013).Comparison of MIRT linking methods for different common item designs.Acta Psychologica Sinica,45(4),466–480.
[劉玥,劉紅云.(2013).不同鉚測驗設計下多維IRT等值方法的比較.心理學報,45(4),466–480.]
Reckase,M.D.(2009).Multidimensional item response theory models.New York:Springer.
Reise,S.P.(2012).The rediscovery of bifactor measurement models.Multivariate Behavioral Research,47(5),667–696.
Reise,S.P.,Bonifay,W.E.,&Haviland,M.G.(2013).Scoring and modeling psychological measures in the presence of multidimensionality.Journal of Personality Assessment,95(2),129–140.
Reise,S.P.,Moore,T.M.,&Haviland,M.G.(2010).Bifactor models and rotations:Exploring the extent to which multidimensional data yield univocal scale scores.Journal of Personality Assessment,92(6),544–559.
Rodriguez,A.,Reise,S.P.,&Haviland,M.G.(2016).Evaluating bifactor models:Calculating and interpreting statistical indices.Psychological Methods,21(2),137–150.
Wang,W.C.,Chen,P.H.,&Cheng,Y.Y.(2004).Improving measurement precision of test batteries using multidimensional item response models.Psychological Methods,9(1),116–136.
Willoughby,M.T.,Blanton,Z.E.,&Investigators,F.L.P.(2015).Replication and external validation of a Bi-factor parameterization of attention deficit/hyperactivity symptomatology.Journal of Clinical Child &Adolescent Psychology,44(1),68–79.
Wu,E.J.C.,&Bentler,P.M.(2011).EQSIRT:A userfriendly IRT program.Encino,CA:Multivariate Software,Inc.
Yao,L.(2013).The BMIRT toolkit.Monterey.
Yao,L.H.(2010).Reporting valid and reliable overall scores and domain scores.Journal of Educational Measurement,47(3),339–360.
Yao,L.H.(2011).Multidimensional linking for domain scores and overall scores for nonequivalent groups.Applied Psychological Measurement,35(1),48–66.
Yao,L.H.,&Boughton,K.A.(2007).A multidimensional item response modeling approach for improving subscale proficiency estimation and classification.Applied Psychological Measurement,31(2),83–105.
Yao,L.H.,&Boughton,K.(2009).Multidimensional linking for tests with mixed item types.Journal of Educational Measurement,46(2),177–197.
Zhan,P.D.,Chen,P.,&Bian,Y.F.(2016).Using confirmatory compensatory multidimensional IRT models to do cognitive diagnosis.Acta Psychologica Sinica,48(10),1347–1356.
[詹沛達,陳平,邊玉芳.(2016).使用驗證性補償多維 IRT模型進行認知診斷評估.心理學報,48(10),1347–1356.]