999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

心理與教育測驗分類信度:分類一致性評估方法

2025-08-23 00:00:00陳靜儀宋麗紅汪文義
心理科學進展 2025年8期
關鍵詞:測驗信度總分

分類號 B841

1引言

中共中央、國務院(2020)印發的《深化新時代教育評價改革總體方案》,提到應嚴格學業標準,完善各級各類學校學生學業要求,嚴把出口關。測驗是教育評價的重要形式,也是決策的重要依據。測驗廣泛應用于教育、心理和醫學領域,進行人才選拔、等級劃分、心理診斷和醫學診斷等(Gonzalez,202la;Gonzalezetal.,2024)。測驗主要分為兩類(Glaser,1963),依據相對質量標準的常模參照測驗(Norm-ReferencedTest,NRT),以及依據絕對質量準則的標準參照測驗(CriterionReferencedTest,CRT)。兩者在測驗分數解釋方面具有本質區別,NRT基于個體間分數比較而解釋個體的表現水平,而CRT主要判斷個體能力是否達到預設期望標準。CRT廣泛應用于大規模測評項目,包括國外的PISA和TIMSS,以及國內的國家基礎教育質量監測(陳平,2022)。

無論NRT還是CRT,反映測驗結果一致性的測驗信度,都是測驗質量的重要評價指標之一(Shrockamp;Coscarelli,2007)。CRT的測試者得分通常是與一個特定的標準進行比較,而不是與其他測試者相比。這意味著測驗的設計者會設定一個明確的最低要求或標準,測試者需要達到或超過這個標準才被視為通過測驗。這些分類決策(如通過和不通過)對證書或資格考試非常重要(Kimamp;Lee,2019)。測驗分類結果會直接影響測試者入學機會、求職資格、心理干預和疾病治療等。因此,如何評價CRT信度十分重要(Parketal.,2023)。

NRT與CRT關注的問題不同,兩者的信度也有著不同的內涵,CRT不能沿用NRT的信度指標(陳希鎮,1996)。NRT通常要求個體分數具有差異性,而CRT甚至用于個體分數沒有差異情景。NRT的信度指標,如內部一致性、 a 信度系數與重測信度等(溫忠麟,葉寶娟,2011),并不完全適合CRT(Hambletonamp; Novick,1973;Livingston,1972;Pophamamp;Husek,1969;Subkoviak,1976)。因此,必須研究CRT的信度評估方法。Hambleton和Novick(1973)提出平行測驗或重復測量的決策一致性(DecisionConsistency,DC),作為CRT的信度評價指標。DC也被稱為一致性系數(CoefficientofAgreement; Shrock amp; Coscarelli, 2007;Subkoviak,1976),或常被稱為分類一致性(Classification Consistency,CC;Huynh,1979;Livingstonamp;Lewis,1995;Wolkowitz,2021)。分類一致性的概念始于兩次平行測驗或重復測量下被試分類相同的概率(Hambletonamp;Novick,1973;Leeetal.,2009;Wolkowitz,2021;Swaminathan etal.,1974)。根據同一分類標準,因為測量誤差、測驗長度等原因,在兩次重復測驗下同一被試可能分到相同的類別也可能分到不同的類別,這就出現了分類一致性的問題。兩次重測中分到相同類別的被試比率,即為重復測量的分類一致性。如果只有一次測驗,使用不同的方法(或標準)將被試分類(如不同評分者的分類或兩個分半測驗的分類),也有一致性的問題。在這兩種情況下,因為可直接獲得同一批被試兩個可能相同或不同的分類結果,分類一致性可直接計算。在實際應用中,因為測驗時間增加、平行測驗開發成本等制約因素,同一批被試參加兩次測試較為困難(Huynh,1976;Kimamp;Lee,2019;Parketal.,2023)。如果只有一次測驗,且只有一種分類方法或標準,這時一致性問題的來源主要在于測驗誤差。如何基于單次測驗數據評估測驗分類一致性,一直是心理與教育測量要解決的重要問題。因此,本文主要關注如何基于單次施測的測驗數據估計分類一致性。

單次測驗的分類一致性估計方法,主要是在單個測驗重復測量或平行測驗獨立施測假設下,用于評估較難直接獲得的重復測量或平行測驗的分類一致性(Lee,2010;Leeetal.,2002;Wyseamp;Hao,2012)。單次施測的測驗分類一致性估計方法最早基于經典測驗理論(Classical TestingTheory,CTT衍生的。這類方法基于給定真分數條件下觀察得分的獨立性假設而得出。基于CTT的分類一致性方法主要有Subkoviak方法(Subkoviak,1976,1978)、Huynh方法(Huynh,1976,1979)、LL方法(Livingstonamp;Lewis,1995)、Lee方法(Leeetal.,2009)和Wolkowitz方法(記為W方法;Wolkowitz,2021)。Subkoviak方法假設單個測試者在兩個平行測驗上的總分分布服從獨立相同二項分布,其中二項分布的概率采用個體的觀察或信度校準的項目答對率。Huynh方法結合貝塔-二項(Beta-Binomial,BB)分布刻畫總分邊際分布,在局部獨立性假設下采用雙變量BB分布刻畫兩個平行測驗上總分向量的聯合分布,再結合決策規則計算分類一致性。考慮到BB分布擬合數據可能不太好,Hanson和Brennan(199O)提出了四參數貝塔-復合二項分布方法估計分類一致性。為了適應不同測驗形式,LL方法主要基于有效測驗長度并采用四參數貝塔分布和二項分布估計分類一致性,而Lee等人(2009)采用復合多項分布計算分類一致性。W方法是最近提出的一種計算簡便的方法。

CTT真分數具有樣本依賴性,而項目反應理論(ItemResponseTheory,IRT)的能力具有測量不變性。為了解決基于估計能力或觀察分數的分類結果信度的評估問題,基于IRT的分類一致性隨后發展起來。根據劃界分數量尺不同,基于IRT的方法主要分為基于觀察分數(Lee,2010;Leeetal.,2002,2009)和基于潛在能力(Wyseamp;Hao,2012;Chengetal.,2015)的兩類方法。最初的Rudner指數和Guo指數僅用于估計分類準確性(Guo,2006;Martineau,2007;Rudner,2005),Wyse和Hao (2012)提出了基于Rudner和Guo的分類一致性,它們比Lee指數計算簡單,并且結果相近。IRT發展呈現由簡單到復雜、由單維到多維的發展規律(丁樹良等,2012)。單維項目反應理論(UnidimensionalItemResponseTheory,UIRT)假設所有測試項目測量單一潛在能力。多維項目反應理論(Multidimensional Item Response Theory,MIRT)允許一個項目同時考慮多個能力或不同項目考查不同能力。為了解決基于多維能力或多個測驗分數的決策分類結果的信度評估問題,有研究考慮了MIRT下各種復雜決策規則的分類一致性估計方法(汪文義 等,2016;Parketal.,2023),以及基于多個測驗分數復雜決策的方法(Setzeret al.,2023)。

面向學習評估和心理問題診斷的認知診斷模型(CognitiveDiagnosticModel,CDM)的發展,新出現了細粒度知識狀態(模式)和屬性狀態的分類信度評估問題(Cuietal.,2012;Johnsonamp;Sinharay,2018,2020;Najeraetal.,2023;Skaggset al.,2017;Templinamp;Bradshaw,2013;Thompsonet al.,2019,2023;vonDavieramp;Lee,2019;Wangetal.,2015,2019)。因為認知屬性常被視為離散分類,Cui等人(2012),Wang等人(2015)建議使用分類一致性作為分類信度指標,用于估計平行測驗或重測分類一致的概率。Cui等人(2012)率先考慮了模式水平的分類一致性指標。隨后,有研究者提出了屬性水平分類一致性指標(Johnsonamp;Sinharay,2018,2020;Wangetal.,2015)和基于模擬重測的分類一致性估計方法(Templinamp;Bradshaw,2013;Thompson etal.,2019,2023)。郭磊等人(2019)考慮了多分屬性的分類一致性估計方法。

機器學習模型(MachineLearningModel,MLM)可以對分類結果與測驗作答反應之間的復雜性關系進行建模,如何評估MLM分類結果的信度成為一個新的問題(Gonzalezetal.,2021,2024)。當分類決策不限于總分或線性合成總分,而分類規則與測驗項目反應關系更為復雜時,MLM更適用于分類(Gonzalez,2021a,2021b),用于評估基于單個測驗的分類一致性成為研究熱點(Gonzalezetal.,2021,2023,2024)。在連續項目反應下,Gonzalez(2023)研究了線性因子模型(LinearFactorModel,LFM)的分類一致性估計。Gonzalez等人(2024)考慮基于邏輯回歸、隨機森林等MLM的分類一致性估計。

分類一致性估計方法從提出至今,在教育領域應用十分廣泛。研究者分析與評價算術測驗(Huynh,1976)、大學人學考試(Hansonamp;Brennan,1990)、英語測驗(Livingstonamp;Lewis,1995)、數學測驗(Lee,2010;Lee et al.,2002;Wyse amp; Hao,2012;Zhangetal.,2017)、科學成就測驗(Lee,2010:Leeetal.,2009)、閱讀測驗(Wyseamp;Hao,2012)、執照考試(Wolkowitz,2021)等分類一致性。在心理學中成癮行為分析中,Teitelbaum和Carey (2000)評估了密西根酒精依賴篩查量表(MichiganAlcoholism Screening Test,MAST)和酗酒篩查問卷(Cut down, Annoyed, Guilty, Eye-opener, CAGE)的重測分類一致性。近年來,采用單個測驗的分類一致性估計方法,評估了心理障礙篩查量表的分類信度(Gonzalezetal.,2021,2024;Gonzalez,2023):流調中心抑郁量表(Center forEpidemiologicStudiesDepressionScale,CES-D;廖友國,張本鈺,2024;Radloff,1977)、正念注意覺知量表(MindfulAttentionAwarenessScale,MAAS;如陳思佚等,2012)、凱斯勒心理困擾量表(K6;周成超等,2008;Kessleretal.,2003)、重度抑郁癥(MajorDepressiveDisorder,MDD)篩查量表、愛荷華人格障礙篩查量表(Iowa Personality Disorder Screen)。

Gonzalez等人(2024)還評估了情緒和焦慮癥狀問卷(Mood and Anxiety Symptom Questionnaire,MASQ)在預測假性長期焦慮上的分類一致性。汪大勛和涂冬波 (2021)開發了基于認知診斷計算機化自適應測驗技術的抑郁癥測評工具,并對其分類一致性進行了評估。入學考試、執照考試和心理測驗(如CAGE,CES-D,MAAS和K6等)常以“通過\"或“不通過\"作為分類標準,將測試者分為兩類。大規模學業測驗(數學、科學等)常以多個表現水平作為分類標準,將測試者分為3至6類。對于MAST,Selzer(1971)采用多分類,總分大于等于5提示為有酒精依賴,總分等于4為可能或可疑的對象,總分小于等于3視為尚無問題。而Teitelbaum和Carey(2000)僅使用劃界分數5,將測試者分為兩類。

綜上所述,CRT廣泛應用于教育、心理與醫學領域,CRT的信度評估指標有著獨特內涵。盡管陳平等人(2011)介紹了CRT下CTT和IRT的分類一致性相關方法,但近年來在這一領域取得了許多新成果和軟件(汪文義等,2016;Gonzalezetal.,2021,2023,2024;Wolkowitz,2021)。本研究從分類一致性方法視角,分析與凝練CRT分類一致性估計的一般模式,梳理與提煉代表性方法發展脈絡與核心思想,演示與闡述主要方法對真實數據的分析過程。最后,在全面分析和總結各類方法的優劣、影響因素基礎之上,提出選用各類方法的參考建議,討論CRT分類一致性指標報告、區間估計等需要重點關注的問題。

2分類一致性的估計模式及其代表性方法

2.1分類一致性的估計模式

決策規則通常將測驗(合成)總分、能力區間(空間)、知識狀態全集或特征空間等集合劃分為H 個互不相交的類,其中 H?2 。如果采用基于單個測驗的(合成)總分 Y 的決策規則,通過專家設定劃界分數 ,其中 λ0=min(Y) ,λH=max(Y)+1 且 λ0lt;λ1lt;…lt;λH ,將可能的測驗(合成)總分劃分為 H 個互不相交的子集Sh={Y:λh-1?Ylt;λh} ,其中 h=1,2,…,H 。還可選用能力量尺上劃界分數 κ0,κ1,…,κH ,其中κ0=-∞,κH=+∞ ,將能力區間劃分為 H 個互不相交的子集 Sh={θ:κh-1?θlt;κh} 。能力空間也可劃分成 H 個互不相交的決策子區域 R1,R2,…,RH 。如果將單個知識狀態看成一類,知識狀態全集的劃分對應知識狀態分類;若按各個屬性的掌握水平(如未掌握與掌握),每個屬性水平對應類別;還可按掌握的屬性數量對測試者進行分類。MLM可以直接將特征空間自動劃分為 H 個互不相交的類。例如,決策樹模型通過一系列\"ifthen\"產生式規則的集合,將特征空間劃分成 H 個不相交的子區域。

一般而言,基于單次測驗數據的分類一致性評估方法,先根據分類標準得出被試分到各類的概率,并且假設被試在重復測量或平行測驗上兩次分類服從獨立同分布,從而以被試分到各類概率的平方和度量被試的分類一致性。分類一致性估計方法主要分為個體方法與分布方法兩大類(Lee,2010;Wyseamp;Hao,2012)。對于個體方法,基于決策規則采用相應模型計算測試者 i 處于第 h 類的概率:

Pih=P{i∈Sh∣Di},h=1,2,…,H

其中 Di 為測試者 i 的相關數據,如正確率、測驗分數、能力標準誤、得分向量等。模型可采用給定真分數下的二項分布模型或(復合)多項分布模型、IRT模型和CDM等,基于各類模型如何計算Pih 將在下節具體介紹。給定 Pih 后,在獨立同分布假設下可計算個體分類一致性:

在給定樣本量 N 條件下,個體分類一致性的均值,即為測驗分類一致性:

對于分布方法,給定隨機變量 Z 分布 g(z) ,類似于個體方法先計算隨機變量 Z 的取值 z 處于第 h 類的概率:

Pzh=P{Z∈Sh∣z}

在獨立同分布假設下,可得隨機變量 Z 取值z 的條件分類一致性:

再計算函數 ?z 的期望,即得測驗的(邊際)分類一致性:

在具體模型下,隨機變量 Z 的分布 g(z) ,可采用真分數的貝塔分布、能力的正態分布或知識狀態的離散多項分布等。在得出分類一致性的同時,再計算第 h 類的概率 或 Ph= ,可得機會概率 。去除分類一致性中隨機一致比例,可得到科恩卡帕系數 κ=(?-?c)/(1-?c) (Cohen's kappa coefficient;Cohen,1960;Hanson,1991;Lee,2010)。考慮不同模型下測驗誤差、條件標準誤、分類概率或模擬重測分類誤差等,由此提出了一系列估計方法。分類一致性評估方法,基本上呈現從CTT,IRT,CDM到MLM的發展趨勢。因此,下面對這4類模型的代表性方法依次進行介紹。

2.2基于經典測量理論的方法

基于CTT的分類一致性方法可以分為基于真分數模型的分布方法和不考慮真分數模型的個體方法。Huynh 方法和 LL 方法屬于分布方法,Subkoviak方法、Lee方法和W方法屬于個體方法。因為Lee方法是Subkoviak方法的推廣方法,故不詳細介紹Subkoviak方法。Huynh方法僅適用于0~1評分測驗,而LL、Lee和W方法適用于0~1、多級或混合評分測驗。LL方法通過使用四參數貝塔模型來近似真分數分布。Lee方法使用復合多項分布模型來估計分類一致性。還可以結合偏差校正方法得到測驗水平分類一致性無偏估計,但個體的答對率是否偏差校正對分類一致性影響很小。W方法特別易于計算,而Lee等人(2009)方法較為復雜。

2.2.1 貝塔-二項分布方法(Huynh方法)

先前研究(Hambletonamp; Novick,1973;Swaminathan,1974)主要在兩個平行測驗或同一個測驗重復測量數據下計算分類一致性,而實際應用重測數據通常難以獲得。Huynh(1976)考慮如何在單維測驗單次施測條件下分類一致性估計問題,由此提出了貝塔-二項分布方法。該方法假設測試者的真分數 τ 服從貝塔分布,即τ~Beta(α,β) ,其中 α 和 β 可以基于觀察分數及測驗信度采用矩估計方法得到。在給定真分數條件下測試者的總分 Y 服從二項分布,于是總分 Y 的邊際分布服從BB分布。假設測試者在兩次平行測驗上的分數獨立,即在獨立性假設下,可采用雙變量BB分布刻畫兩個平行測驗上總分向量的聯合分布,再結合決策規則計算分類一致性。

2.2.2 結合有效測驗長度的貝塔-二項分布方法(LL方法)

因為Huynh方法和Subkoviak方法采用二項分布刻畫真分數條件下測驗總分分布,因此這兩種方法只適用于含相互獨立、難度相等(相等權重)項目的0~1評分測驗。為了適應加權合成分數、多級評分測驗等情形,Livingston和Lewis (1995)提出有效測驗長度將實際測驗進行轉化再計算分類一致性。在保證測驗信度相等條件下,有效測驗長度將實際測驗長度轉化為只含0~1評分、滿足局部獨立性、測驗難度相等的項目數量。

在得出有效測驗長度之后,在真分數條件下測驗總分分布就可以使用二項分布。Livingston和Lewis (1995)通過四參數貝塔模型擬合真分數分布,結合有效測試長度基于二項分布估計給定真分數下總分的條件分布,再在獨立性假設下估計單個測驗的分類一致性。該方法只需要輸入所有測試者分數,最小和最大可能的分數,劃界分數和測驗信度系數。LL方法具體過程見網絡版附錄1。

2.2.3 復合多項分布方法(Lee方法)

作為LL方法的一種替代方法,Lee等人(2009)提出一種適合于0~1、多級或混合評分的測驗分類一致性估計方法。該方法不需要估計真分數分布,直接使用個體分類一致性指標均值估計測驗分類一致性。Lee方法基于被試在測驗項目集上各分數類別的得分率(視其為真分數)條件下的總分分布,結合總分上分類標準計算被試可能獲得的總分處于各類的概率,再在獨立性假設下計算被試各類概率平方和,即估計得到被試分類一致性。Lee方法計算過程見網絡版附錄1。如果測驗由單個項目集組成,只需要使用多項分布模型。而如果測驗包括多個不同項目集,則使用復合多項分布模型。

2.2.4基于測量誤差的方法(W方法)

LL方法雖使用廣泛,但計算比較復雜且在短測驗有較大偏差(Dengamp;Hambleton,2013)。為了簡化分類一致性的計算過程,降低對復雜統計模型和算法的依賴,Wolkowitz (2021)提出一種基于測量誤差的分類一致性估計方法。W方法基于 信度系數估計觀察總分標準誤差,計算被試觀察總分最可能出現的置信區間,再結合樣本中處于該置信區間上各總分的人數,計算出被試(對應其觀察總分)的分類一致性。

該方法的主要特點是只需要用到原始總分 yt 和頻數 ft 信息 {(yt,ft),t=0,1,…,T} 、劃界分數λ0,λ1,…,λH 及其測驗信度系數 r ,而不需要使用二項分布等模型。Wolkowitz(2021)只考慮二分類情形,考慮到方法的一般性,下面將其推廣到多分類情形。

根據測驗信度 r 和測驗總分標準差 σx ,可計算測量誤差:

計算每個總分 yt 的 95% 置信區間下限和上限:Lt=yt-?1.96σe?,Ut=yt+?1.96σe?,t=0,1,…,T (8)其中 ?1.96σe? 表示向上取整。

根據劃界分數 , yt 的置信區間[Lt,Ut] 和區間內各總分頻數 ft ,計算 yt 的置信區間 [Lt,Ut] 中總分處于第 h 類的概率:

其中 I(λh-1?ytlt;λh) 為示性函數。視測試者 i 的總分為 yt ,將 Pth 作為 Pih 代人公式2可計算 yt 的條件分類一致性 ?t 。最后,根據各總分 yt 的條件分類一致性 ?t 和頻數 ft ,進行加權平均得到測驗分類一致性估計:

其中 為樣本量。該方法簡化了分類一致性的計算,減少了對復雜統計模型和算法的依賴。W方法與LL方法表現基本相當(Wolkowitz,2021),但尚未與其他方法進行比較。

2.3基于項目反應理論的方法

基于IRT的方法主要分為UIRT和MIRT的分類一致性方法,也可分為基于能力分數的Rudner或Guo方法和基于測驗總分的Lee方法。

2.3.1基于UIRT的信息量方法(Rudner方法)

因為能力信息量可以度量能力估計誤差,Rudner(2001,2005)提出期望分類準確性用于評估分類效度,Wyse和Hao(2012)推廣用于分類一致性估計。Rudner方法,主要基于能力信息量(或能力條件標準誤),直接計算被試分到各類的概率,再在獨立性假設下,計算被試分到各類概率的平方和,即被試的分類一致性。在IRT中,能力值 θ 近似服從均值為極大似然估計值 和方差為信息量倒數 的正態分布,即 ,Rudner方法利用該結論計算分類一致性。Rudner方法可按個體或分布方式計算分類一致性。根據能力量尺上劃界分數 κ0,κ1,…,κH ,計算測試者 χi 能力處于第 h 類的概率:

其中 為正態分布 隨機變量處于區間 [κh-1,κh] 的概率。結合公式2和3,可分別計算個體分類一致性和測驗分類一致性。

Rudner方法除按個體方式來計算分類一致性,也可按能力分布計算。在兩分類情形,測驗分類一致性是能力值大于或小于劃界分數 κ1 的概率平方乘以能力值概率 f(θ) 的積分,即分類一致性為:

基于兩分類的分類一致性,有研究給出了基于Rasch模型的定長自適應測驗的分類一致性上界,以及置信區間終止規則(任赫等,2022)下自適應測驗的分類一致性下界(Chengetal.,2015)。對于多分類測驗,將所有類別上歸類一致的概率進行求和或積分,即可得到分類一致性。在測驗長度較短時漸近正態性不滿足時,可能引起估計誤差。

2.3.2基于UIRT的似然函數方法(Guo方法)

Rudner方法使用均值為能力點估計與信息量倒數為方差的正態分布計算分類一致性。而Guo(2006認為似然函數或無信息先驗分布下的后驗分布可更完整地刻畫能力分布,并提出了一種分類準確性估計方法,Wyse和Hao (2012)將其推廣用于分類一致性估計。Guo方法基于似然函數直接計算被試分到各類的概率,再在獨立性假設下,計算被試分到各類概率的平方和,即被試的分類一致性。該方法并不是利用能力點估計,而是根據項目參數和得分數據計算似然函數而估計能力分布。Guo的方法的劃界分數與Rudner方法一樣,需要將報告分數的劃界分數定義或映射在潛在能力量尺上,再根據測驗者能力分布計算其處于每個類別的概率,從而計算分類一致性。

Guo方法可以通過每個測試者的能力分布計算其屬于各個分類區域的概率,即計算測試者被分到不同類別的概率:

其中 L(xi1,xi2,…,xin∣θ) 為似然函數,分子和分母中積分可以采用均勻節點求和近似計算,分子是第 h 類的似然或概率,分母是所有類的似然或概率。得出個體分到各類的概率,再采用公式2和3可計算測驗分類一致性。無信息先驗的似然函數或后驗分布同樣漸近服從正態分布(Changamp;Stout,1993;Lathropamp;Cheng,2013),但Guo方法和Rudner方法所得分類一致性相差0.01左右(Wyse amp; Hao,2012)。

2.3.3基于UIRT的Lee方法

考慮到大規模測評項目常使用IRT,而IRT中尚缺少復雜測驗形式分類一致性評估方法。因此,Lee(2010)提出了一種基于UIRT估計分類一致性的方法,它適用于0~1、多級或兩者混合的測驗。類似于CTT的Lee方法,IRT的Lee方法只是結合項目反應函數計算被試估計能力條件下的測驗總分分布,并結合總分上分類標準得到被試分到各類的概率,再假設重復測量下各類概率相同并分類相互獨立,從而估計被試分類一致性。根據IRT的局部獨立性假設,能力水平 θ 的總分概率分布 P(X=x∣θ) 計算,可以使用Lord-Wingersky遞歸算法,包括適用0~1評分的方法(Lord amp; Wingersky,1984)和適用多級評分的方法(Thissenetal.,1995)。Lee方法適用于觀察分數量尺的劃界分數 。根據總分概率分布 P(X=x∣θ) ,可計算能力為 θ 的測試者分到第 h 類的概率:

將 Pθh 替換公式5中 Pzh 可計算條件分類一致性 ?θ 再使用能力分布 g(θ) 替換 g(z) 使用公式6可得測驗分類一致性。若 θ 取自樣本中個體能力 ,只需用 替換上述計算中的 θ ,Lee方法也可以按個體方法計算。

如果劃界分數是用能力量尺 κ0,κ1,…,κH 表示,需要將其轉換為總分量尺。在IRT單調性假設下,具有單調遞增的 κ0,κ1,…,κH ,即可轉換得到單調遞增的

λh=E(X∣θ=κh)=

其中 l 表示測驗中第 l 個項目, k 表示分數類別。

反過來,也可由 λ0,λ1,…,λH 求出

2.3.4基于非參數UIRT的Lee方法

單維項目反應理論模型分為參數型(ParametricItemResponseTheory,PIRT)與非參數型(Nonparametric ItemResponse Theory,NIRT)兩種(張軍,2015)。在NIRT中,某題的項目反應曲線是去掉該題的總分百分位數在標準正態分布的分位數對項目得分的回歸曲線(Douglasamp;Cohen,2001)。NIRT具有自由的分布形式,并不像PIRT那樣受參數限制(王昭等,2007)。為了克服NIRT項目反應函數的局限性,Lathrop和Cheng (2014)將Lee方法推廣到NIRT用于估計分類一致性。

該方法使用核平滑技術估計項目反應曲線(Ramsay,1991;Santoretal.,1994)。核平滑是一種非參數估計方法,它不依賴于特定的參數模型,而適用于更廣泛的分布形式。核平滑函數通過對項目得分進行平滑處理,可生成連續的項目特征曲線。測驗上各個測試者的總分分別為 y1,y2,… yN ,記測驗滿分為 。在給定總分 t=0 l,…,T 的情況下,項目 l 上得分為 clk 的概率 ,可通過一個高斯核函數 κ 確定的權重與指示變量 I(xil=ylk) 的加權平均值來估計:

其中, yi 是測試者 i 的觀測總分, ht 是帶寬參數,ht 可按Silverman規則選取(如Givens amp; Hoeting,2013;Lathrop amp; Cheng,2014)。 I(xil=clk) 表示測試者 i 在項目 l 上得分 xil 是否為 clk ,如果 xil 等于clk ,則 I(xil=clk)=1 ;否則, I(xil=clk)=0 。

在得出項目特征曲線 之后,可以使用遞歸算法,得到給定 t 條件下的總分分布P(X=x∣t) ,它類似于Lee方法中 P(X=x∣θ) 。再結合觀察分數量尺上劃界分數,可計算條件分類一致性和測驗分類一致性。在能力分布為非正態時,非參數方法優于Lee方法和LL方法,顯示出對非正態分布的魯棒性。非參數方法無需假設能力分布或特定形式項自特征曲線。

2.3.5基于一般MIRT的分類一致性

因為先前的方法只應用于UIRT,汪文義等人(2016)、Wang等人(2016,2017)將UIRT的Lee、Guo和Rudner方法拓展到MIRT。MIRT涉及多個能力維度,其決策規則相對較為復雜。如果要求測試者每個維度的能力都大于相應的劃界分數,則為一種連接(conjunctive/AND)決策規則;如果要求測試者各個能力維度的加權求和的能力(合成能力)大于劃界分數,則為一種補償(compensatory /+ 決策規則;如果是前兩種規則的混合,則稱為混合規則。

汪文義等人(2016在聯合、補償以及混合型等三種決策規則下,考慮了Guo方法和Lee方法。基于能力分數的Guo指標比基于觀察分數的Lee指標更為靈活,可方便計算各能力維度、連接和補償等復雜規則的指標。下面主要介紹Guo方法計算過程。根據Guo方法思想和似然函數計算得到測驗者 i 分到第 h 類的期望概率為:

其中 xi=(xi1,xi2,…,xiL) 為測驗者 i 的得分向量,ξ 為MIRT模型的項目參數,能力向量為 θ 的似然函數為 而多重積分可采用蒙特卡羅方法。基于 Pih 可使用個體方法計算測驗分類一致性。

2.3.6基于SS-MIRT和Bi-MIRT的分類一致性

許多大型CRT考試(如AP考試、NAEP)都采用含選擇題和主觀題的混合測驗,而不同項目類型可能帶來測驗的多維性。Kim和Lee (2019)在合成總分決策規則下研究了混合測驗的分類一致性估計方法。該研究了比較6種不同的估計方法,以確定哪些方法能更準確地評估分類一致性。三種經典方法分別為正態近似法(NormalApproximation)、LL 方法(Livingston amp; Lewis,1995)和復合多項分布法(Leeetal.,2009)。正態近似法主要采用二元正態分布估算分類一致性,復合多項分布法分別考慮選擇題的二項分布和開放題的多項分布。三種IRT方法分別為基于UIRT模型、簡單結構MIRT模型(Simple-StructureMIRT.SS-MIRT)和雙因素MIRT 模型(Bi-FactorMIRT,Bi-MIRT)的Lee方法(Lee,2010)。UIRT視測驗測量單個能力維度,SS-MIRT視選擇題和主觀題分別測量一個能力維度,Bi-MIRT考慮測試中每種題型相關的特定能力和一個通用能力。當測試數據表現出明顯的多維性時,MIRT方法相對于UIRT方法更為適用,而UIRT方法會低估分類一致性。

考慮到有的高風險測評項目會包括多個測驗這些測驗包含不同題型(如選擇題和作文題),或者涉及不同內容領域或課程(如數學、科學、社會科學等)。Park等人(2023)重點考慮了不同決策規則下SS-MIRT模型的Lee方法,并與每個測驗使用UIRT模型的Lee方法所得分類一致性進行了比較。Park等(2023)還探討了4種決策規則,分別為完全補償型(complementary/OR)、連接型、補償型及這3種的成對組合。完全補償型規則要求測試者在一定數量測試中達到最低表現。連接規則要求測試者在每個測驗上都達到最低水平。補償性規則要求測試者在綜合分數水平上達到最低表現。

測試者在多個測驗上的多維能力向量記為θ=(θ1,θ2,…,θS) ,其中 θs 表示測驗 s 上的能力,s 表示測驗總數。下面只討論各測驗二分類情形,記各測驗總分的劃界分數為 η1,η2,…,ηS 。對于測驗 s ,能力 θs 的測試者合格的概率為:

其中 為給定能力 θs 條件下測驗 s 總分為 x 的概率。按照Lee方法,可基于SS-MIRT模型或UIRT模型的項目反應函數采用遞歸方法計算。測試者在 ?m )個測驗上合格的概率為:

其中集合 (204號{0,1}} 。至少 mc 個測驗成績合格的概率為 PO(θ)= 。在完全補償型規則下能力向量 θ 的條件分類一致性為:

?O(θ)=[PO(θ)]2+[1-PO(θ)]2

條件分類一致性再按個體指標平均或按能力分布積分可得測驗分類一致性。其他類型決策規則的分類一致性計算過程,可參見網絡版附錄1。

與Park等人(2023)的研究有所不同,Setzer等人(2023)研究多個測驗能力分數在補償型規則的分類一致性估計方法。Setzer等人(2023)在Rudner方法和 Cheng等人(2015)基礎之上提出合成能力分類一致性的兩種估計方法,分別是屬于分布方法的積分(Integration,IN)方法和屬于個體方法的蒙特卡洛模擬(MonteCarlo,MC)方法,可參見網絡版附錄1。

2.4基于認知診斷模型的方法

CTT和IRT模型在學業成就測驗和教育質量監測上發揮重要作用,但并不能針對學生具體的認知強項和弱點進行分析,而認知診斷評估可以報告個體知識狀態或心理狀態上細粒度診斷信息。認知診斷模型對測試者進行分類,這有別于使用劃界分數進行分類,即使估計分類一致性的原理基本一致,但CTT和IRT的方法并不能直接用于認知診斷測驗(Cuietal.,2012)。為了評估模式、屬性及屬性數量等不同水平的分類一致性,有研究者先后提出分布方法、個體方法、期望一致性方法和模擬重測方法等。

2.4.1 分布方法(Cui方法)

Cui等人(2012)引入了模式分類一致性。給定知識狀態全集 Ω 和每個知識狀態 a∈Ω ,先在每個知識狀態條件下計算同屬于 πh(h=1,2,…,H) 類的所有可能項目反應模式 x 的概率 P(x∈πh|a) ,再將這些概率平方和相加得到條件分類一致性 ,即得到知識狀態為 a 的測試者在兩次獨立測試中分類一致性的概率。對于測驗涉及的每一個知識狀態 a ,可計算群體中出現的頻率 P(a) ,它反映了該知識狀態在所有參與測驗的測試者中的比例。對于每個知識狀態,將其條件分類一致性指數與相對頻率 P(a) 相乘,然后將這些乘積求和,即在模式水平上的測驗分類一致性為 。該方法易于理解,缺點是當一個測驗包含大量的項目時,它需要大量計算。

2.4.2 個體方法(Wang方法)

因為Cui等人(2012)僅給出模式水平的分類一致性,Wang等人(2015)提出屬性水平的分類一致性,用于評價測驗對各個屬性的分類一致性。該方法采用基于似然函數計算被試所屬各類概率的平方和,作為被試分類一致性。對于屬性 k 的分類一致性,基于測試者 i 的得分向量 ?xi=? (xi1,xi2,…,xin) ,由似然函數可計算其掌握屬性 k (204號的概率:

其中 L(xi∣a) 為似然函數, I(αik=1) 為示性函數,而 1-pik 為測試者 i 未掌握屬性 k 的概率。類似于Guo方法,將測試者 i 分類到掌握類的概率平方pik2 和未掌握類的概率平方 (1-pik2 相加,即得到個體的分類一致性 ?ik=pik2+(1-pik2 。計算所有個體的條件分類一致性的均值,即得到測驗對屬性 k 的分類一致性 N。模式水平上分類一致性也可類似計算。與Cui等人(2012)所討論的指數有些不同,Wang等人(2015)定義的指數為樣本中每個觀察項目反應模式的個體分類一致性均值,而Cui方法計算的是所有可能的項目反應模式的條件一致性的加權平均值。相比Cui方法,基于樣本的估計方法計算更簡單。

2.4.3期望一致性方法(Johnson方法)

Johnson和Sinharay(2018)在局部獨立性假設下,從兩個平行測驗的屬性狀態或知識狀態期望相同角度,推導了屬性和模式的分類一致性估計方法。屬性 k 上分類一致性為(Johnsonamp;Sinharay,2018):

其中 P(a|xi) 為后驗概率, c1 表示屬性 k 上狀態(掌握或未掌握)。 分別表示在兩個平行測驗上均未掌握或掌握屬性 k 的概率。將 換成知識狀態 上示性函數 ,可計算模式水平的分類一致性。

2.4.4模擬重測方法

模擬重測(SimulatedRetests)計算分類一致性的思想,最初由Roussos等人(2007)提出,Thompson等人(2019,2023)將其用于估計分類一致性。該方法根據認知診斷測驗上作答數據和測驗 矩陣,使用CDM估計模型參數和知識狀態;再對測試者進行放回式抽樣,并以抽樣個體的估計知識狀態為真實知識狀態;基于抽樣的知識狀態和模型估計參數,根據擬合的認知診斷模型模擬兩個得分矩陣,再使用模型估計參數和知識狀態估計方法得出兩個得分矩陣上知識狀態,再計算兩者間的分類一致性。這種方法可以報告模式、屬性和其他水平的分類一致性,如包含多個屬性的內容水平和屬性數量水平等。

2.5基于機器學習模型的方法

2.5.1基于線性因子模型的分類一致性

社會科學中有的測驗是連續型作答反應(如視覺模擬量表、任務完成時間等),而IRT方法不太適合。Gonzalez 等人(2023)、Gonzalez (2023)給出了LFM的分類一致性及其區間估計方法。該方法在平行測驗假設下,認為兩次測試的總分均值和標準差均相同,然后采用二元正態分布并結合分類標準計算分類一致性(具體過程可參見網絡版附錄1)。考慮到LFM參數的估計誤差和抽樣誤差,Gonzalez (2023)使用自助法和貝葉斯算法計算分類一致性的置信區間,將LFM參數的變異性納入區間估計。自助法的百分位數置信區間雖然有較小的負偏差,但是具有適當的置信區間覆蓋范圍。具有擴散先驗的貝葉斯置信區間覆蓋率較差,而使用經驗性的弱信息先驗覆蓋率會有所提高。

2.5.2基于MLM的分類一致性

考慮到MLM越來越多地被用于個體分類(Gonzalez,2021a,2021b),但其分類一致性的方法尚未開發出來。Gonzalez等人(2024)提出影響MLM分類結果的兩個誤差來源,分別是模型擬合的抽樣誤差和潛變量的測量誤差,并提出了分別考慮抽樣誤差或測量誤差的分類一致性估計方法。

第一種方法是考慮抽樣誤差的分類一致性估計方法。在機器學習中,訓練模型的數據集不同時,所得模型也會有所差異。該方法將數據集分為訓練集和測試集,在多次模型訓練(例如:1000次)時,采用放回式抽樣從訓練集中抽取兩個樣本,分別訓練兩個模型,這兩個模型預測得到測試集中每個個體的類別,則可計算這兩個模型的分類一致性。最后計算多次抽樣和訓練所得分類一致性均值、標準差及其分布。

第二種方法是考慮測量誤差的分類一致性估計方法。將原始數據集劃分為訓練集和測試集;在訓練數據集上訓練一個MLM(如邏輯回歸、隨機森林等);再使用潛在變量模型(如IRT模型)擬合測試數據集,并使用模型估計參數和能力區間上所取能力樣本點 θ (如[-3,3]均勻取61個能力點,每個能力點重復1000次)模擬得分矩陣;使用訓練模型對模擬得分矩陣預測能力并計算每個 θ 值的條件分類一致性 pθ02+pθ12 ,即合格和不合格概率平方和;最后計算條件分類一致性的均值,即得到測驗分類一致性。

3實證應用

選取心理學、教育領域4個數據集,演示如何使用不同模型的代表性方法,用于評估測驗分類一致性,并檢驗一些因素對不同方法的影響。主要是基于以下兩點考慮選擇4個數據集:既有0~1評分數據,也有多級評分;不僅有人格測驗、大規模測評、診斷測驗等真實數據,也有模擬數據。

3.1大五人格數據分析

使用大五人格測驗中宜人性和責任心兩個維度的多級評分真實作答數據(Goldberg,1992)。該數據來源于開源心理計算學項目(Open-SourcePsychometrics Project, https://openpsychometricsorg/_rawdata/)。選擇樣本量 N 為500,1000和2000,基本匹配IRT的小、中和大樣本量。二分類的劃界分數設置為20,多分類的劃界分數設置為10和30。采用Lee等人(2009)方法、Rudner方法、Lee(2010)方法和非參數化方法(Lathropamp; Cheng,2014)。Lee等人(2009)方法使用MULT-CLASS程序,偏差校正參數設置為0。Rudner方法、Lee(2010)方法使用cacIRT包,均使用等級反應模型,采用極大后驗估計方法估計能力。非參數化方法使用cacIRT包。

從表1的結果發現:當樣本量增大時,非參數方法的分類一致性估計值隨著樣本量的增大而略微增長,其他分類一致性方法則沒有什么明顯的變化;Rudner方法所得分類一致性明顯高于其他方法;在宜人性上,二分類比多分類的分類一致性高;而在責任心上,多分類比二分類的分類一致性高,這與多分類劃界分數靠近責任心總分分布兩端有關。

3.2TIMSS2011八年級數學數據分析

使用R包subscores中2011年TIMSS八年級數學測驗真實數據集。選擇樣本量 N 為200、500和765(整個數據集),二分類的劃界分數設置為16,多分類的劃界分數設置為10和20。比較了LL方法、Rudner、Lee(2010)方法與非參數化方法。IRT模型采用三參數邏輯斯蒂克模型,能力估計使用期望后驗估計方法。LL方法使用R語言程序。

通過表2的結果發現:當樣本量增大時,LL方法的分類一致性估計值隨著樣本量的增大而略微增大;Rudner方法、Lee(2010)方法隨樣本量的增大而略微減小;在二分類時,非參數化方法隨著樣本量的增加而略微的減小,但是在多分類時,分類一致性隨著樣本量的增加而增加。

3.3ECPE語法測試數據分析

使用R包CDM中的英語水平證書考試(ECPE)語法測試真實數據集,比較了以下三種方法:Johnson和 Sinharay (2018)方法、Thompson等人(2023)方法與Wang等人(2015)方法。前兩種方法使用CDM包中cdm.est.class.accuracy函數(默認參數);第三種方法采用自編R程序。ECPE測量形態句法規則、銜接規則與詞匯規則等三個屬性。知識狀態分別采用極大似然估計方法(MLE)和極大后驗估計方法(MAP)。CDM中MLE和MAP對ECPE數據進行分類時,分類標準是一種統計標準,不需要額外設定劃界分數(Ravandamp;Baghaei2019;Ruppetal.,2010)。表3顯示,無論是屬性、模式水平的分類一致性,Wang等人(2015)方法和Johnson和Sinharay (2018)方法的結果,總體比Thompson等人(2023)方法的結果略高。

表1宜人性和責任心兩個維度的分類一致性

表2不同分類一致性估計方法在不同劃界分數上的分類一致性

3.4模擬數據分析

使用Gonzalez等人(2024)提供的模擬數據,樣本量取600、800和 1000 。參照Gonzalez等人(2024)研究,基于ROC曲線(Youngstrom,2014)最大化約登指數(YoudenIndex)確定劃界分數。當數據量為600和1000時,劃界分數 κ1 為0.5,當樣本量為800時, κ1 為0.4。主要比較了Rudner方法、Lee(2010)方法和Gonzalez方法。表4結果顯示:當樣本量增大時,Gonzalez等人(2024)三種方法的分類一致性估計值隨著樣本量的增大而略微增長,其他方法的分類一致性沒有什么明顯變化;當樣本量達到1000時,三種方法結果十分接近。

4討論

4.1 四類方法的比較分析

下面分析和對比各種分類一致性估計方法(網絡版附錄2)。CTT方法適用二分類、多分類情景,這類方法在小樣本數據和傳統測驗上具有優勢。LL方法需要使用貝塔分布擬合真分數分布。Lee方法需要準確估計個體對測驗項目集上得分率這對測驗項目的代表性要求較高。W方法要求分數分布符合正態分布,并依賴于測驗信度估計。IRT方法的優勢是具有很好的測量理論支撐,適用于大規模測評項目。可采用測驗信息量度量不同能力的測量誤差,能夠處理多維能力結構等復雜問題。這類方法都依賴于IRT模型的假設,需要考慮測驗維度假設、項目參數不變性和模型資料擬合等Rudner方法依賴于估計能力漸近正態分布假設。

CDM方法的分類一致性方法,能夠細化到知識狀態、屬性狀態及屬性數量等不同水平的分類一致性評估。這類方法特別適用于形成性評價以及心理診斷,能夠更好地診斷測試者的知識結構、加工技能或心理問題。這類方法使用的前提是需要學科專家指定測驗 矩陣,即指定各個項目所測量的屬性甚至屬性水平。MLM方法,適用于高維復雜數據情境,能夠自動提取有效特征,減少人工干預。MLM方法的優點是適應性強,特別適合復雜測試情境的分類一致性評估。這類方法使用的前提是需要大量標注的訓練數據,十分適合心理學領域相關篩查量表,如重度抑郁、人格障礙等心理障礙,因為這類測試者分類具有很好的診斷金標準(the goldstandard)。總體而言,CTT方法更適用于常規測驗,IRT方法適合大規模測評,CDM方法偏向形成性評價和心理測驗,MLM適合心理測驗。

表3ECPE上認知診斷分類

表4Gonzalez數據集上分類一致性

4.2各種方法選用建議

在應用分類一致性指標時,研究者需注意測驗情境的多樣性,不同測驗情境可能對分類一致性有不同要求(劉曉梅等,2011)。圖1總結了分類一致性評估方法選擇的基本流程。在選擇合適的分類一致性估計方法時,首先需要根據測驗目標和測驗結構等確定決策規則,明確采用基于單個測驗的簡單決策規則,還是基于多個測驗的復雜決策規則。如果采用簡單決策規則,那么需要進一步分析測驗和決策的性質。當測驗中項目之間關系較為復雜時,可以考慮使用MLM方法,它能夠識別和建模項目反應與決策分類之間的復雜關系。如果分類決策是基于測驗總分或合成總分,LL方法和兩類Lee方法可以根據需求而選擇。需要注意的是,CTT的LL方法和Lee方法采用真分數模型,而IRT的Lee方法采用IRT模型。如果分類決策是基于潛在能力,可以選用Rudner和Guo方法,可細致地報告不同能力水平的分類一致性。

如果決策過程涉及多個測驗時,需考慮測驗之間的關系并選擇適當的決策規則。如果采用IRT建立潛在能力與項目得分之間概率分布,并采用基于各個測驗總分或合成總分的完全補償型、連接型、補償型等決策規則,可以選擇IRT的Lee方法。該方法不僅能評估單一測驗總分的分類信度,還能夠評估綜合多個測驗信息的合成總分的分類信度。在多測驗情境下,如果測驗是項目內或項目間多維測驗,采用不同維度能力進行綜合決策,Rudner和Guo方法都是不錯的選擇。Rudner需要用到信息量矩陣,而Guo方法需要用到似然函數。

如果測驗目的是區分測驗者在潛在離散屬性掌握狀態,CDM方法是一種合適的選擇,可以用來評估測驗者在模式、屬性等水平上的分類信度。CDM的分類結果本身具有標準參照分數解釋(Maas et al.,2022;Ravandamp; Baghaei,2019;Ruppetal.,2010),其分類標準主要來自三個方面:(1)學科專家指定的Q矩陣(即各個項目所測量的類別屬性),可視為學科專家所評判的測試者正確解答項目所要求的各個屬性需要達到的標準。例如在病理性賭博(pathological gambling,PG)診斷時,將精神疾病的診斷和統計手冊(DSM-IV-TR)規定的PG的10項診斷標準視為10個類別潛在屬性(注意DSM-5有所修改)。采用41個診斷項目關聯測量這10個標準。使用認知診斷模型對測試者進行分類,如果至少滿足5個標準(即5個屬性狀態為1),則被診斷為賭博成癮(Templinamp; Henson,2006);(2)CDM中測試者的離散潛在屬性,可以不設置劃界分數。這一點與IRT模型不同,IRT先需要估計連續能力,再借助劃界分數進行分類;(3)CDM采用的是一種統計分類標準。MLE和MAP方法可以根據Q矩陣和測試者分數向量等直接對測試者的潛在類別屬性進行分類。EAP方法常采用0.5作為劃界分數將屬性掌握概率分為未掌握或掌握。

圖1各種方法選擇流程圖

下面將結合實證應用部分實例,詳細討論不同測驗數據下分類一致性方法的選擇與應用。對于大五人格測驗進行數據分析,如果測驗的主要目標是對開放性、責任心、外向性、宜人性、情緒穩定性等各個維度進行分類。首先需要確定每個維度的類別數量,如宜人性維度可以分為兩類(隨和型與對抗型),也可選擇三類(隨和型、中間型與對抗型)。同時,結合測驗設計,確定相應的劃界分數,如5點量表分值轉換為0至4分,宜人性維度共10題,滿分40分,如選取20或(10,30)分為兩類、三類的劃界分數。再結合樣本量考慮與選擇測量模型和估計方法,可以選擇CTT或IRT及其相應適合多級評分數據的方法(如Lee方法、W方法等),評估各個維度上的分類一致性。如果要綜合評估應聘者的性格特質,需要結合多個維度或多個分測驗進行分類時,可以考慮選擇MIRT的Lee方法等。

對于來自大規模測評的TIMSS2011八年級數學測驗,如果重點關注學生的數學能力水平的分類一致性,可以選擇Rudner方法或Guo方法。這兩種方法能夠在較大樣本量情況下提供穩健的分類一致性估計,并且能夠處理潛在能力的分類一致性。如果目標是根據學生在數學不同內容領域(如幾何、代數、概率等)進行分類,則MIRT方法會更加適用。另外,大規模測評項目通常會對不同國家、地區的樣本進行取樣,研究者可以比較不同群體(性別、民族等背景變量)的分類一致性。對于來自認知診斷評估的ECPE測驗,CDM能夠基于學生的反應模式對屬性、模式、屬性掌握數量等分類一致性進行評估,提供更細致的分類信度分析。

通過上述舉例闡述和展示不同分類一致性估計方法在實際應用中的適用情景,幫助研究者在實際測驗中做出更合適的決策。同時,結合真實數據和測驗情境的案例分析,說明了方法的可操作性,并具備實踐應用價值。在實際應用中,研究者還可以針對實際測驗條件結合模擬實驗對比不同方法,針對性選擇相應方法。結合分類一致性基本思想和代表性方法,研究者還可結合實際問題,開展新方法的研究。

4.3影響分類一致性的重要因素

劃界分數在測驗分數分布中的位置對分類一致性的影響較大。一般來說,靠近劃界分數的分類一致性會呈現降低的趨勢,而遠離劃界分數的分類一致性會顯示升高的趨勢(Lee,2010:Wolkowitz,2021;Wyseamp;Hao,2012)。測驗分數在劃界分數附近的測試者,更容易在兩次測驗中被分到不同類別,而測驗分數距劃界分數較遠的測試者相對更能夠被劃分到相同類別。劃界分數通常借助專家標準設定、其他外部標準或機器學習模型等方式確定。

二分類和多分類需要依據測量目標而定。二分類適用于簡單決策問題,常用于通過與不通過等情景,能夠提供較為穩定的分類一致性。多分類則適用于更為復雜的測量情景,根據多個表現水平標準,可以細致地區分測試者所達到的表現水平,通常用于大規模學業成就測驗(Jianget al.,2019)。在選擇分類標準時,研究者需要綜合考慮測量目標、測驗長度和測驗質量等,以確保分類一致性估計的準確性和穩定性。

測驗信度和測試長度都會對分類一致性估計產生重要影響。一般而言,測試長度越長,測驗信度越高。測驗信度高意味著分數具有較低的測量誤差,從而可以提高分類的一致性和估計精度(Dengamp; Hambleton,2013;Lathropamp; Cheng,2014)。在ECPE語法測試數據分析中(3.3節),使用了MLE和MAP兩種方法進行分類一致性估計。MAP方法相比MLE方法,在各個屬性上的分類一致性更高。MAP方法利用了知識狀態經驗分布信息,能夠更好地減小測量誤差,提高分類一致性。

當樣本量增加時,分類一致性指標可能會有所改善或穩定。例如,在大五人格數據分析(3.1節)中,當樣本量從500增加到2000時,Lathrop和Cheng (2014)方法的分類一致性結果略微提高(從0.888提升到0.899)。在TIMSS2011數據分析中(3.2節),隨著樣本量的增大,LL方法的分類一致性略有提高,這表明更大的樣本量可能幫助模型更好地估計分類一致性。

分類數量、分數分布、劃界分數位置會共同影響分類一致性(Dengamp;Hambleton,2013;Lathropamp;Cheng,2014)。在大五人格數據分析中(3.1節)也驗證了這一點。IRT的Lee方法和非參數分類一致性估計方法在偏態分布下表現不錯而LL方法表現欠佳。如果劃界分數位于分數頻率比較高的區域,較多測試者在兩次分類被劃分到不同等級的可能性更大,那么分類一致性相對更低(宋吉祥,李付鵬,2022)。

測量模型也會影響分類一致性估計。在Gonzalez數據分析中(3.4節),不同方法(如Rudner、Lee和Gonzalez方法)的表現差異,反映了測量模型的選擇對分類一致性的影響。例如,Rudner方法和Lee (2010)方法采用單維IRT模型對樣本量的要求,并沒有MLM要求高。測驗的項目難度和區分度直接影響測驗信息量,而信息量反映測驗對能力的測量誤差大小。因此,測驗的項目難度和區分度、測驗信息量分布等都是影響分類一致性的關鍵因素。有的方法依賴于模型及其估計參數,那么在實際應用中可能會因為模型不擬合或者參數估計不準確而導致分類一致性估計不準確。如果測試呈現多維性,單維方法的誤差會變得更大,而多維IRT方法具有更好表現(Kimamp;Lee,2019)。

綜上,相關研究和實證應用發現,分類一致性主要受劃界分數、分類數量、測試長度、測驗信度、樣本量、分數分布、測量模型和參數估計準確性等因素影響。這些因素在不同數據集的影響可能有所不同,但普遍影響分類一致性的穩定性和準確性。在實際應用中,在進行測驗設計、開發與實施時,需要充分考慮這些因素,以確保測驗分類一致性的可靠性。

4.4 研究展望

分類一致性對于評估心理、教育、醫學測驗的分類信度具有重要作用,并且廣泛應用于CRT的分類信度評價。同時,分類一致性估計方法對于提高分類考試的信度、確保測試結果的公正性和減少分類差異具有重要意義。本文主要對CTT、IRT、CDM和MLM的分類一致性方法進行了介紹和比較,給出了相關方法的應用示例,詳細探討了不同方法的優劣性及其在不同測驗情境中的適用性。在全面分析和比較已有方法基礎之上,下面重點分析未來研究方向。

第一個方面是關于分類一致性的區間估計問題。現有的大多數研究主要集中分類一致性的點估計,較少涉及區間估計(汪文義等,2018;Gonzalez,2023)。區間估計能夠更全面地評估分類一致性,它可以考慮模型擬合程度、項目參數估計誤差、抽樣誤差等(Gonzalez etal.,2023,2024)。在考慮各種誤差的基礎上,可以探討如何使用貝葉斯置信區間、自助法置信區間等方法,對不同模型的分類一致性進行區間估計。這不僅有助于提供更為精確的估計,也可為實際應用中的決策提供依據。

第二個方面是應重視分類測驗的分類一致性指標及其可視化報告。分類一致性通常提供測驗水平的整體指標,忽視了更為細化的層面。未來應考慮使用多樣化可視化圖表對分類一致性進行多維度報告,如個體、子群體、不同能力水平、不同屬性數量或不同劃界分數的分類一致性等。此外,還可以采用分類(不)一致性矩陣、約登統計量(Youden'sstatistic)、科恩卡帕系數等指標報告一致性(Johnsonamp;Sinharay,2018)。同時,為了使這些指標更具可解釋性,還可以引入好、中、差等評價標準。

第三個方面是多個測驗或多維測驗的分類一致性研究。復雜決策場景的分類一致性研究是一個尚未充分探索的領域。前文提及少數研究(Parketal.,2023;Setzeretal.,2023)考慮了基于多個測驗和復雜決策規則的分類一致性估計方法,以及基于多維能力的分類一致性估計方法(汪文義等,2016。未來研究可以進一步深入探討復雜決策規則中不同決策所依據的相同測試分數是否會帶來決策相關性,以及如何合理設置多個測驗分數權重和決策優先級。這些研究將為多測驗、多維度測試情境的分類一致性評估提供新的視角和方法。本文將有益于推動分類測驗的分類一致性的研究、應用與報告。

參考文獻

陳平.(2022).淺談標準設定中的關鍵技術:來自我國大規 模測評項目的經驗.中國考試,(8),48-56.

陳平,李珍,辛濤,高慧健.(2011).標準參照測驗決策一 致性指標研究的總結與展望.心理發展與教育,27(2), 210-215.

陳思佚,崔紅,周仁來,賈艷艷.(2012).正念注意覺知量 表(MAAS)的修訂及信效度檢驗.中國臨床心理學雜志, 20(2),148-151.

陳希鎮.(1996).標準參照測驗中的信度估計公式.心理學 報,28(4),436-442.

丁樹良,羅芬,涂冬波.(2012).項目反應理論新進展專題 研究.北京:北京師范大學出版社.

郭磊,張金明,宋乃慶.(2019).整合后驗信息的多分屬性 認知診斷信效度指標.心理科學,42(2),446-454.

廖友國,張本鈺.(2024).成年中期抑郁情緒的變化軌跡: 基于增長混合模型.心理科學,47(2),300-307.

劉曉梅,卞冉,車宏生,王麗娜,邵燕萍.(2011).情境判 斷測驗的效度研究述評.心理科學進展,19(5),740-748.

任赫,黃穎詩,陳平.(2022).計算機化分類測驗終止規則 的類別、特點及應用.心理科學進展,30(5),1168-1182.

宋吉祥,李付鵬.(2022).高中學業水平考試等級賦分的分 類一致性和準確性研究.教學與管理,(24),37-41.

汪大勛,涂冬波.(2021).認知診斷計算機化自適應測量技 術在心理障礙診斷與評估中的應用.江西師范大學學報 (自然科學版),45(2),111-117.

汪文義,方小婷,葉寶娟.(2018).認知診斷屬性分類一致 性信度區間估計三種方法.心理科學,41(6),1492- 1499.

汪文義,宋麗紅,丁樹良.(2016).復雜決策規則下MIRT 的分類準確性和分類一致性.心理學報,48(12),1612- 1624.

王昭,郭慶科,岳艷.(2007).心理測驗中個人擬合研究的 回顧與展望.心理科學進展,15(3),559-566.

溫忠麟,葉寶娟.(2011).測驗信度估計:從 a 系數到內部 一致性信度.心理學報,43(7),821-829.

張軍.(2015).單維參數型與非參數型項目反應理論項目 參數的比較研究.心理學探新,35(3),279-283.

中共中央,國務院.(2020).新時代教育評價改革總體方案. 2024-06-03 取自 htps://www.gov.cn/zhengce/ 2020-10/ 13/content_5551032.htm.

周成超,楚潔,王婷,彭倩倩,何江江,鄭文貴,..徐凌忠. (2008).簡易心理狀況評定量表Kessler10中文版的信度 和效度評價.中國臨床心理學雜志,16(6),627-629.

Chang,H.H.,amp; Stout, W. (1993). The asymptotic posterior normality ofthe latenttrait inanIRT model. Psychometrika,58(1),37-52.

Cheng,Y.,Liu,C.,amp; Behrens,J.(2015).Standard erorof ability estimates and the classification accuracy and consistency of binary decisions. Psychometrika,80(3), 645-664.

Cohen, J. (1960).A coeficient of agreement for nominal scales.Educational and Psychological Measurement, 20(1),37-46.

Cui,Y.,Gierl,M.J.,amp; Chang,H.H.(2012).Estimating classification consistency and accuracy for cognitive diagnostic assessment.Journal of Educational Measurement, 49(1),19-38.

Deng,N.,amp; Hambleton,R.K. (2013).Evaluating CTT- and IRT-based single-administration estimates of classification consistency and accuracy.InR.E.Millsap,L.A.van der Ark,D.M.Bolt,amp;C.M.Woods(Eds.),Springer proceedingsin mathematicsamp; statistics:Vol.66:New developments in quantitative psychology (pp.235-250). Springer.

Douglas,J.,amp; Cohen,A.(2ool).Nonparametricitem response function estimation for assessing parametric model fit. Applied Psychological Measurement,25(3), 234-243.

Givens,G.H.,amp; Hoeting,J.A.(2013).Computational statistics.John Wiley amp; Sons.Inc.

Glaser,R. (l963).Instructional technology and the measurement of learing outcomes: Some questions. American Psychologist, 18(8),519-521.

Goldberg,L.R.(1992).The development of markers for the Big-Five factor structure. Psychological Assessment, 4(1), 26-42.

Gonzalez, O. (202la).Psychometric and machine learning approaches for diagnostic assessment and testsof individual classification.Psychological Methods,26(2), 236-254.

Gonzalez, O.(2021b).Psychometric and machine learning approaches to reduce the length of scales. Multivariate Behavioral Research,56(6),903-919.

Gonzalez, O. (2023). Summary intervals for model-based classificationaccuracyandconsistencyindices. Educational and Psychological Measurement, 83(2), 240-261.

Gonzalez,O.,Georgeson,A.R.,amp;Pelham,W.E.(2023). How accurate and consistent are score-based assessment decisions? A procedure using the linear factor model. Assessment,30(5),1640-1650.

Gonzalez,O.,Georgeson,A.R.,amp;Pelham,W.E.(2024). Estimating classification consistency of machine learning models for screening measures.Psychological Assessment, 36(6-7),395-406.

Gonzalez,O.,Georgeson,A.R.,Pelham,W.E.,amp;Fouladi, R.T.(2021).Estimating classification consistency of screening measures and quantifying the impact of measurement bias.Psychological Assessment,33(7), 596-609.

Guo,F.(2oo6).Expected classification accuracy using the latent distribution.Practical Assessment,Research and Evaluation,11(6),1-9.

Hambleton,R.K.,amp; Novick,M.R.(1973).Towardan integration of theory and method for criterion-referenced tests.Journal of Educational Measurement, 10(3),159- 170.

Hanson,B.A.(1991).Methodofmomentsestimates for the four-parameter beta compound binomial model andthe calculation ofclassification consistency indexes (Research Rep.No.91-5).Iowa City,IA:American College Testing.

Hanson, B.A.,amp; Brennan,R.L.(199o). An investigation of classification consistencyindexesestimatedunder alternativestrong true score models.Journalof Educational Measurement,27(4),345-359.

Huynh,H.(1976).On the reliability of decisionsin domain-referenced testing. Journal ofEducational Measurement,13(4),253-264.

Huynh,H. (1979).Statistical inference for two reliability indices in mastery testing based on the beta-binomial model.Journal ofEducational Statistics,4(3),231-246.

Jiang,Y.,Zhang,J.,amp; Xin,T.(2019).Toward education quality improvement in China:A brief overview of the national assessment ofeducation quality.Journalof Educational and Behavioral Statistics,44(6),733-751.

Johnson,M.S.,amp; Sinharay,S.(2018).Measuresof agreement to assess attribute-level classification accuracy and consistency for cognitive diagnostic assessments. Journal ofEducational Measurement, 55(4),635-664.

Johnson,M.S.,amp; Sinharay,S.(2020).The reliabilityof the posterior probability of skill attainment in diagnostic classification models. Journal of Educationaland Behavioral Statistics,45(1),5-31.

Kessler,R.C.,Barker,P.R.,Colpe,L.J.,Epstein,J.F., Gfroerer,J.C.,Hiripi,E.,Howes,M.J.,...Zaslavsky,A. M.(20o3). Screening for serious mental illness in the general population.Archives ofGeneral Psychiatry,60(2), 184-189.

Kim,S.Y.,amp; Lee, W.-C. (2019). Classfication consistency andaccuracyformixed-formattests.Applied Measurement in Education,32(2),97-115.

Lathrop,Q.N.,amp; Cheng,Y.(2013).Two approachesto estimation of classification accuracy rate under item response theory. Applied Psychological Measurement, 37(3),226-241.

Lathrop,Q.N.,amp; Cheng,Y.(2014).A nonparametric approach to estimate classification accuracyand consistency.Journal of Educational Measurement, 51(3), 318-334.

Lee,W.(2olo). Classification consistency and accuracy for complex assessments using item response theory. Journal ofEducational Measurement,47(l),1-17.

Lee,W.-C.,Brennan,R.L.,amp;Wan,L.(2oo9).Classification consistency and accuracy for complex assessments under thecompound multinomial model. Applied Psychological Measurement,33(5),374-390.

Lee,W.-C.,Hanson,B.A.,amp; Brennan,R.L.(2002). Estimating consistency and accuracy indices for multiple classifications.Applied Psychological Measurement, 26(4). 412-432.

Livingston, S.A.(l972).Criterion-referenced applications ofclassical test theory.Journal of Educational Measurement, 9(1),-26.

Livingston,S.A.,amp; Lewis,C.(1995).Estimating the consistency and accuracy of classifications based on test scores.JournalofEducational Measurement,32(2),179-197.

Lord,F.M. (1965).A strong true-score theory,with applications.Psychometrika,30(3),239-270.

Lord,F.M.,amp;Wingersky,M.S.(1984).Comparison ofIRT true-score and equipercentile observed-score \"equatings\". Applied Psychological Measurement, 8(4),453-461.

Maas,L.,Brinkhuis,M.J.S.,Kester,L.,amp;Meij,L.W. (2022).Cognitive diagnostic assessment in university statistics education:Valid and reliable skill measurement foractionable feedback using learning dashboards. Applied Sciences,12(10),Article 4809.

Martineau,J. A. (2oo7).An expansion and practical evaluation of expected classification accuracy. Applied Psychological Measurement,31(3),181-194.

Najera,P.,Abad,F.J.,Chiu,C.-Y.,amp;Sorrel,M.A.(2023). Therestricted DINA model:A comprehensive cognitive diagnostic model forclassroom-level assessments.Journal ofEducational and Behavioral Statistics,48(6),719-749.

Park,S.,Kim,K.Y.,amp;Lee,W.(2023).Estimating classification accuracy and consistency indicesfor multiple measures with the simple structure MIRT model. JournalofEducationalMeasurement,60(1),106-125.

Popham,W.J.,amp;Husek,T.R.(1969).Implicationsof criterion-referenced measurement.Journal of Educational Measurement,6(1),1-9.

Radloff,L.S.(1977).The CES-D scale:A self-report depression scale for research in the general population. AppliedPsychological Measurement, 1(3),385-401.

Ramsay,J.O. (1991).Kernel smoothing approaches to nonparametric item characteristic curve estimation. Psychometrika,56(4),611-630.

Ravand,H.,amp; Baghaei,P.(2019).Diagnostic classification models:Recent developments,practical issues,and prospects.International Journalof Testing,20(1),24-56.

Roussos,L.A.,DiBello,L.V.,Stout,W.,Hartz,S.M., Henson,R.A.,amp; Templin,J.L.(2007).The Fusion model skillsdiagnosis system.In:J.P.Leighton,amp; M.J.Gierl (Eds.),Cognitive diagnostic assessment for education: Theory and applications(pp.275-318).Cambridge University Press.

Rudner, L.M. (2ool).Computing the expected proportions ofmisclassified examinees.Practical Assessment, Researchamp;Evaluation,7(14),1-8.

Rudner,L.M.(20o5).Expected classification accuracy. Practical Assessment Research and Evaluation,10(13), 1-4.

Rupp,A.A.,Templin,J.L.,amp; Henson,R.A.(2010). Diagnosticmeasurement:Theory,methods,andapplications. The Guilford Press.

Santor,D.A.,Ramsay,J.O.,amp; Zuroff,D.C.(1994). Nonparametric item analyses of the Beck depression inventory:Evaluating gender item bias and response option weights.Psychological Assessment,6(3),255-270.

Selzer,M.L.(1971).The Michigan alcoholism screening test:The quest for a new diagnostic instrument. The AmericanJournal ofPsychiatry,127(12),1653-1658.

Setzer,J.C.,Cheng,Y.,amp;Liu,C.(2023).Classification accuracy and consistency of compensatory composite test scores.Journal of Educational Measurement,60(3), 501-519.

Shrock,S.A.,amp; Coscarelli,W.C.(2007).Criterionreferenced test development:Technical and legal guidelines for corporate training (3rd ed.).John Wiley amp; Sons,Inc.

Skaggs,G.,Wilkins,J.L.M.,amp; Hein,S.F.(2017). Estimating an observed score distribution from a cognitive diagnostic model. Applied Psychological Measurement, 41(2),150-154.

Subkoviak,M.J.(1976).Estimatingreliability froma single administration of a criterion-referenced test.Journal of Educational Measurement,13(4),265-276.

Subkoviak,M.J. (l978).Empirical investigationof procedures for estimating reliability for mastery tests. JournalofEducationalMeasurement,15(2),111-116.

Swaminathan,H.,Hambleton,R.K.,amp;Algina,J.(1974). Reliability of criterion-referenced tests: A decisiontheoreticformulation.JournalofEducationalMeasurement, 11(4),263-267.

Teitelbaum,L.M.,amp; Carey,K.B.(200o).Temporal stability of alcohol screening measuresina psychiatric setting. Psychology of Addictive Behaviors,14(4),401- 404.

Templin,J.,amp;Bradshaw,L.(20l3).Measuringthe reliability of diagnostic classification model examinee estimates.Journal ofClassification,30(2),251-275.

Templin,J.L.,amp;Henson,R.A.(20o6).Measurementof psychological disorders using cognitive diagnosis models. PsychologicalMethods,11(3),287-305.

Thissen,D.,Pommerich,M.,Billeaud,K.,amp;Williams,V.S. L.(1995).Item response theory for scores on tests including polytomous items with ordered responses. AppliedPsychologicalMeasurement,19(1),39-49.

Thompson,W.J.,Clark,A.K.,amp; Nash,B.(2019). Measuringthereliabilityofdiagnosticmastery classifications at multiple levels of reporting.Applied MeasurementinEducation,32(4),298-309.

Thompson,W.J.,Nash,B.,Clark,A.K.,amp;Hoover,J.C. (2023).Usingsimulated retests to estimate thereliability of diagnostic assessment systems.Journal of Educational Measurement,60(3),455-475.

vonDavier,M.,amp; Lee,Y.-S.(Ed.).(2019).Handbook of diagnostic classification models: Models and model extensions,applications,software packages.Springer International Publishing.

Wang,W.,Song,L.,Chen,P.,amp;Ding,S.(2019).An item-level expected classification accuracy andits applications in cognitive diagnostic assessment.Journal of EducationalMeasurement,56(1),51-75.

Wang,W.,Song,L.,Chen,P.,Meng,Y.,amp;Ding,S.(2015). Attribute-level and pattern-level classification consistency and accuracy indices for cognitive diagnostic assessment. JournalofEducationalMeasurement,52(4),457-476.

Wang,W.,Song,L.,amp; Ding,S.(2017).An extensionof Rudner-based consistency and accuracy indices for multidimensional item response theory.InL.A.von der Ark,M.Wiberg,S.A.Culpepper,J.A.Douglas,amp;W.-C. Wang (Eds.), Springer proceedings in mathematics amp; statistics:Vol 196: Quantitative psychology (pp.43-58). Springer New York LLC.

Wang,W.,Song,L.,Ding,S.,amp;Meng,Y.(2016). Estimating classification accuracy and consistency indices formultidimensional latent ability.In:van der Ark,L., Bolt,D.,Wang,W.C.,Douglas,J.,Wiberg,M.(Eds.), Springerproceedingsinmathematicsamp;statistics:Vol167: Quantitative psychology research (pp.89-103). Springer.

Wolkowitz,A.A.(2021).Acomputationally simple method forestimatingdecision consistency.Journalof EducationalMeasurement,58(3),388-412.

Wyse,A.E.,amp; Hao,S.(2012).An evaluation ofitem response theory classification accuracy and consistency indices.Applied Psychological Measurement,36(7), 602-624.

Youngstrom, E.A.(2014).A primer on receiver operating characteristic analysis and diagnostic efficiency statistics forpediatricpsychology:WearereadytoROC.Journalof PediatricPsychology,39(2),204-221.

Zhang,S.,Du,J.,Chen,P.,Xin,T.,amp; Chen,F.(2017). Usingprocedurebased on itemresponse theory to evaluate classification consistency indices in the practice of large-scaleassessment.FrontiersinPsychology,8,Article 1676.

Classification consistency for measuring classification reliability of psychological and educational tests

CHEN Jingyi1, SONG Lihong2,WANG Wenyi (1SchoolofComputerandInformationEngineering,JiangxiNormal UniversityNanchang3o2,China) (2Schoolofducation,JiangxiNormal University,Nanchango2,ina)

Abstract:Classification consistency reflects the probability that a participant will obtain the same classification on two paralel tests. It is widely used by test administrators to assess the reliability of psychological tests,educational tests,and medical diagnostic classifications. Since administering paralel tests is often challenging in practice and the internal consistency is not appropriate for classification tests or criterion-referenced tests,many methods are focused on estimating classification consistency based on results from a single test administration in psychological and educational measurement.These estimation methods are crucial for assessing and improving the reliabilityand fairness of tests.The study focused on the investigation of the general approach and representative methods based on criterion-referenced tests for estimating clasification consistency under classical measurement theory, item response theory,cognitive diagnostic models,and machine learning models. The ideal and procedures of the representative methods under each model were introduced in details.A series of examples were ilustrated about how to apply classification consistency indices for evaluating test reliability. Their advantages,disadvantages,and applicability in different testing contexts were also analyzed. Future research should consider the methods of estimating the confidence intervals of classification consistency. Researchers and practitioners should widely apply and report classification consistency to better evaluate the quality of test classification results.

Keywords: classification reliability, classification consistency, decision rules, cognitive diagnosis, machine learning

猜你喜歡
測驗信度總分
黃河上的“鎮河神獸”
護理整合型領導力量表的漢化及信效度檢驗
循證護理(2025年14期)2025-08-13 00:00:00
平均數問題
惡性腫瘤病人中醫食療需求量表的編制 及信效度檢驗
護理研究(2025年14期)2025-08-05 00:00:00
My Family Rules
淺談高考數學選擇題命制中提高考查信度的重要性
數學之友(2025年11期)2025-07-31 00:00:00
農村學生科學素質現狀及提升策略:基于對江蘇省1427名學生的調研分析
考試研究(2025年4期)2025-07-30 00:00:00
選一條蛇,測你的 2025 年運勢
意林(2025年7期)2025-07-27 00:00:00
老年人記憶喪失的恐懼與回避量表的漢化及信效度檢驗
護理研究(2025年13期)2025-07-24 00:00:00
巧用方法解高中數學基礎選擇題
主站蜘蛛池模板: 亚洲三级网站| 伊人91视频| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 免费国产高清视频| 欧美日本在线观看| 国产麻豆精品久久一二三| 无码一区二区波多野结衣播放搜索 | 福利一区在线| 日韩国产 在线| 久久久久国色AV免费观看性色| 国产人人干| 亚洲精品成人7777在线观看| 成人在线观看一区| 国产精品私拍在线爆乳| 欧美区一区| 香蕉久人久人青草青草| 亚洲福利一区二区三区| 亚洲Av激情网五月天| 人妻夜夜爽天天爽| 99青青青精品视频在线| 国产精品成人一区二区| 亚洲第一黄片大全| 日本午夜视频在线观看| 国产成人精品在线| 波多野结衣一区二区三区四区视频 | 精品乱码久久久久久久| 精品久久久久无码| 亚洲欧洲日韩综合色天使| 丁香亚洲综合五月天婷婷| 女人18一级毛片免费观看| 国产成人h在线观看网站站| 日韩AV手机在线观看蜜芽| 97国产在线视频| 少妇人妻无码首页| 日韩无码黄色| 国产在线精品香蕉麻豆| 国产AV无码专区亚洲精品网站| 激情无码视频在线看| 亚洲美女一级毛片| 国产在线自揄拍揄视频网站| 国产成人亚洲精品色欲AV| 精品伊人久久久香线蕉| 日韩福利在线观看| 青草视频网站在线观看| 久久国产香蕉| 国产视频一二三区| 亚洲午夜国产片在线观看| 亚洲AV无码乱码在线观看代蜜桃 | 日韩在线影院| 中文天堂在线视频| 四虎影视永久在线精品| 丁香五月亚洲综合在线| 亚洲av无码牛牛影视在线二区| 亚洲国产天堂久久综合| 亚洲中文无码h在线观看 | 久久综合五月| www.91在线播放| 99无码中文字幕视频| 亚洲欧美日韩动漫| 91成人试看福利体验区| 亚洲午夜天堂| 国产亚洲欧美日韩在线观看一区二区| 99久久国产综合精品2020| 亚洲一级色| 中文字幕亚洲专区第19页| 波多野结衣AV无码久久一区| 亚洲欧美成人影院| 怡红院美国分院一区二区| h网站在线播放| 91久久夜色精品| 91久久青青草原精品国产| 99伊人精品| 欧美精品导航| 91青青草视频| 亚洲国产中文在线二区三区免| 亚洲精品自在线拍| 国产女人在线| a级毛片免费看| 亚洲无码高清视频在线观看| 亚洲性一区| 国产精品区视频中文字幕| 国产第一福利影院|