林岳卿 張偉濤 方積乾
1.廣東省工傷康復中心,廣東廣州510440;2.中山大學公共衛生學院流行病與衛生統計學系,廣東廣州510275
項目反應理論在醫學量表條目篩選中的應用
林岳卿1張偉濤1方積乾2
1.廣東省工傷康復中心,廣東廣州510440;2.中山大學公共衛生學院流行病與衛生統計學系,廣東廣州510275
本文著重介紹項目反應理論(IRT)的基本特征及其在醫學量表編制和修訂中的具體應用。IRT具有項目參數不變性,可以為條目和量表提供信息量及不同潛在能力對應的測量信度。因此,IRT主要從項目參數、項目特征曲線、個體-條目圖、條目對模型的擬合情況、條目信息量、條目在不同群體上的項目功能差異等方面判斷條目的優劣。
生存質量;條目篩選;項目反應理論
條目篩選是量表編制及簡化工作中不可缺少的部分,選擇好的篩選方法、恰當的評價指標及篩選好的條目是保證最終量表具有較好的信度和效度的重要過程。目前條目篩選的方法主要包括經典測量方法(CTT)和項目反應理論(item response theory,IRT)方法。CTT,比如相關系數法、因子分析法、克朗巴赫系數法、重測信度法等[1-2],因其理論較成熟,數學模型簡單,在國內得到廣泛的應用。然而它在理論假設和實際應用方面也存在許多不足,如潛變量與觀測變量之間通常不是線性關系,項目參數嚴重依賴于被試樣本,只提供平均測量信度等。IRT的發展克服了上述缺陷[3]。與CTT相比,IRT具有下列優點:①被試者的能力估計不依賴于量表條目;②項目參數(區分度和難度)估計不依賴于被試樣本;③用信息函數的概念代替了CTT的信度理論,可以提供條目信息量及不同能力水平對應的測量信度。IRT是20世紀50年代發展起來的一種心理與教育測量理論,主要用于試題、量表條目的篩選和評價,在西方國家發展很快,但在國內用于醫學研究的很少,因此,本文介紹IRT的基本特征及其在醫學量表的項目分析中的應用。
IRT是一系列心理統計學模型的總稱。美國心理測量學家Lord于1952年提出著名的累積正態模型(normal ogive model)標志著IRT的正式誕生。IRT對所測量的項目可以找到一條項目特征曲線(ICC),通過被試者對項目的反應與其潛在特質之間的關系用一單調遞增的項目反應函數來估計被試者的能力水平。ICC是IRT的基礎,兩個常用的參數(區分度和難度)決定了它的形狀,常為一條“S”型曲線,見圖1。難度參數(b,也稱閾值參數)是指被試者按給定方向選擇某個選項的概率為50%所對應的潛在能力點;難度參數越大,被試者選擇這個選項需要的能力就越大。區分度參數(a)是指難度參數對應的ICC曲線拐點的斜率。區分度參數越大,表示條目對不同潛在特質水平的人群有越高的區分能力。二參數模型還可以估計偽機遇參數(c),在考試中,c的估計可以提高能力估計的精度,但在健康研究中,估計c的意義不大,反而增加了參數估計的復雜性。對于多級記分模型,不同模型的難度參數概念略有不同,它們的原理都是將k個選項的條目分成(k-1)個二分類條目,故有(k-1)個閾值參數。在ICC的基礎上,IRT還可以產生類別反應曲線(CRCs),它表示每個反應選項在特定能力水平下被選擇的概率,因此,每個選項都有一條相應的類別反應曲線,如圖2為一個5分類條目的CRCs,若條目基于分部評分模型,則相鄰兩個類別反應曲線的交點可作為這個條目的閾值參數。

圖1 項目反應曲線
IRT的另一個重要特征就是信息函數,它是潛在能力θ的一個連續函數。對具有同一能力θ的一組被試,其能力估計值的標準誤差越小,估計值對真實值提供的信息量就越大,當用極大似然法估計θ時,估計量隨樣本量的增大而漸近正態分布,則測驗信息函數可以定義為能力估計值的方差的倒數,即I(θ)=1/ var(θ)或者SE(θ)=1/I(θ)。測驗信息與測量誤差是一一對應的,信息量越大,測量精度越高,信息量最大值所對應的能力水平代表該條目所能最精確測量到的能力參數估計值。若記項目信息函數為Ii(θ),n個條目的信息累加,則可產生測驗信息函數,其數學表達式為可見,每個條目可以單獨對量表總信息作貢獻,貢獻量大小不受量表其它條目的影響,因此可以為增加或者刪除條目提供依據。

圖2 類別反應曲線
2.1 IRT模型的選擇
IRT模型是建立在強假設的基礎上,若假設不成立,則可能導致得到的結果不能很好地解釋數據信息。因此,選擇適當的模型是很重要的。IRT有單維、多維的參數模型及非參數模型等多種模型,由于后兩種模型較復雜且應用少,本文主要介紹單維的參數模型[3-4]。選擇模型時,需要考慮條目的選項個數、模型參數及參數是否受到限制等問題,表1總結了8種模型的主要特征。

表1 8種模型的基本特征
目前IRT的參數估計方法很多,大多數方法是以極大似然估計法和Bayes估計法為基礎,其中極大似然估計法的應用最廣泛。目前對于PCM、GPCM、GRM等模型的選擇沒有明確的標準,主要根據個人的偏好或者對軟件的熟悉程度選擇其中一個模型。比如Rumm、Parscale、Winsteps等軟件可用于PCM的估計,而Multilog軟件多用于GRM的估計。
2.2 評價IRT模型的擬合情況
2.2.1 考察模型假設IRT的應用有兩個基本的假設[3]:單維性和局部獨立性。前提假設滿足的程度越高,越能體現IRT模型應用的有效性。①單維性是指量表或者子量表中的每個條目測量的都是同一種潛在特質,如躁狂人格量表主要測量患者的躁狂水平。實際上任何量表都不可能是嚴格單維性,而是指在被試者反應的所有因子中僅有一個因子占主導地位,且是感興趣的因子。目前檢驗的方法主要有4種:探索性因子分析,是最常用的一種方法[5];證實性因子分析;殘差主成分分析[6];平行分析。這些方法可以單獨使用,也可以聯合使用。②局部獨立性是指具有同一能力水平的被試者對量表中的每個條目的反應都只受其能力的影響,而獨立于其他條目的反應。目前檢驗的方法主要有χ2檢驗和殘差相關分析[7]。實際上,局部獨立性與單維性是相關聯的,只有基于單一潛在特質變量的項目反應是局部獨立的,這個數據才是單維的[3]。③若條目在不同群體(如性別)中表現的特性不同,則單維性假設也可能不滿足。因此還需要檢測條目的項目功能差異(DIF),以保證條目內容在不同群體中的等價性。在生存質量研究中,DIF是指具有不同的文化背景和生活經歷但具有相同生存質量(能力)的不同群體(比如性別)對同一條目的理解和反應不同[8]。DIF分析在教育、心理測量和生存質量研究中已得到廣泛的應用。目前分析DIF的方法很多,如STAND、SIBTEST、Mantel-Haenszel、Logistic回歸、基于IRT的方法(MIMIC、DFIT、IRTLRDIF、TESTGRAF)[8]等。
2.2.2 模型-數據的擬合優度檢驗對于模型-數據的整體擬合,不同的軟件提供不同的擬合指標。多數軟件是對觀察分數與模型預測值之間的分布進行χ2檢驗。如BIOLOG、MULTILOG及PARSCALE等的擬合統計量主要是χ2統計量(-2倍的對數似然函數)[9];Rumm軟件提供條目特質χ2擬合統計量(item-trait interaction statistic);也有研究認為對于同一條目的每個類別,觀察頻率與模型概率的差異小于0.02,便可認為模型與數據是擬合的[10]。對于條目(個體)-模型的擬合,一般是通過擬合殘差(所有被試者對某一條目反應得分的標準化殘差之和)評價條目水平上單維模型的擬合情況。目前很多IRT軟件都提供不同的擬合指標,如Rumm提供條目擬合殘差;Winsteps提供Infit均方和Outfit均方;IRTFIT還可以針對上述8種模型通過G2和χ2判斷每個條目的擬合情況[11]。此外,很多IRT軟件還提供個體擬合殘差,從個體水平上評價個體反應模式與模型預測模式的一致性。
2.3 條目篩選和評價指標
根據Edelen等[12]和Meads等[13]的研究,目前基于IRT的條目篩選指標主要有:①區分度參數(a),a太小說明條目對被試者的能力估計提供的信息量太少;②根據類別反應曲線(CRCs)和難度參數判斷條目是否存在逆反閾值(reversed thresholds)、條目選項的有效性及條目的難度范圍是否合適;③個體-條目圖,將條目難度和個體潛在特性反應在同一尺度上,用于考察條目測量被試者能力的范圍及條目是否足夠或者出現冗余等情況;④條目對模型的擬合情況;⑤條目信息量及信息曲線,選擇信息量大和覆蓋能力范圍廣的條目,通過信息曲線可以判斷條目冗余的情況;⑥條目在不同群體上的功能差異分析。不同的模型提供不同的指標,因此不是所有模型都提供上述6種指標,比如分部評分模型不提供區分度參數,等級反應模型不提供個體條目圖等。對于量表的編制或者修訂,應該根據選定的模型選擇相應的篩選指標,刪除某些不符合要求的條目后,再對剩余條目進行重新評價,直至所有條目都滿足要求為止。對于較成熟的量表,除考慮上述指標外,還可以用其他方法考察量表簡化的情況。Bjorner等[14]根據簡明量表的條目構建評分算法預測原始量表的總分,評價預測分與原始分的關系。
大多數應用IRT的文獻都沒有對樣本量有明確的說明,樣本量的多少是否會影響IRT模型的應用呢?根據國外文獻,模型越復雜,需要的樣本量越大。Linacre[15]認為,要保證Rasch模型參數估計的穩定性,至少需要100名被試者。對于擁有兩個及以上參數的模型,如等級反應模型至少需要250人,但為了更精確的估計參數,樣本量為500人較為合適[3]。樣本量越大,條目參數估計對應的標準誤越小,測量也越精確。如果IRT是用于條目池的項目分析,則需要的樣本量較大,而若是用于成熟量表條目特性的評價,則需要的樣本量較小[12]。此外,數據滿足IRT模型假設的程度越好,需要的樣本量越小[9]。
隨著生存質量和患者報告結局的不斷發展,人群健康評價、患者生存質量監測、患者篩選(如抑郁患者)等研究需要越來越多的量表,IRT的引入為這些量表的發展及簡化提供了有力的工具。然而IRT的引入并不意味著要摒棄經典測量理論。經典測量理論主要從宏觀的角度評價量表,而IRT則從微觀的角度分析每個條目,兩種理論相輔相成,互相補充,將兩者有機融合能使最終量表具有更好的信度和效度。隨著IRT在生存質量量表研究中的應用的不斷增多,其自身的某些缺陷也逐漸突現,如IRT是建立在比較復雜的數學模型上,理解比較困難,依賴較強的假設。在健康結局測量研究中,多數量表由多個方面組成,很少只測量單一的能力,因此IRT的單維性假設在健康研究中很難實現。若分維度來分析多維度量表,單維性的問題解決了,但在每個維度包含的條目數很少的情況下會增大測量誤差,且沒有考慮多維度之間的相關性,致使測量結果準確性下降。為解決這些問題,國外研究者開始向多維IRT模型(MIRT)和非參數IRT模型(NIRT)發展,探討它們在健康研究中的應用,不同模型之間的比較以及不同模型對樣本量的要求等問題。本文的研究目的是介紹基本的IRT方法,鼓勵更多的研究者應用IRT去發展和修訂量表,感興趣的研究者也可以從上述方面更深入的研究IRT,拓展IRT在國內的發展。
[1]郝元濤,孫希鳳,方積乾,等.量表條目篩選的統計學方法研究[J].中國衛生統計,2004,21(4):209-211.
[2]秦浩,陳景武.醫學量表條目的篩選考評方法及其應用[J].中國行為醫學科學,2006,15(4):375-376.
[3]Embretson SE,Reise SP.Item response theory for psychologists[M].Mahwah:Lawrence Erlbaum,2000:13-125.
[4]漆書青.現代教育與心理測量學原理[M].北京:高等教育出版社,2002:179-189.
[5]Slocum SL.Assessing unidimensionality of psychological scales:using individual and integrative criteria from factor analysis[J].Social Indrcators Research,2011,102(3):443-461.
[6]Levine TR.Confirmatory Factor Analysis and Scale Validation in Communication Research[J].Communication Research Reports,2005,22(4):335-338.
[7]Reeve BB,Hays RD,Bjorner JB,et al.Psychometric evaluation and calibration of health-related quality of life item banks:plans for the Patient-Reported Outcomes Measurement Information System(PROMIS)[J].Med Care,2007,45(5):22-31.
[8]Teresi JA,Fleishman JA.Differential item functioning and health assessment[J].Qual Life Res,2007,16(1):33-42.
[9]Du Toit M.IRT from SSI:BILOG-MG,MULTILOG,PARSCALE,TESTFACT[M].USA:Scientific Software International,lnc,2003:528-591.
[10]Gomez R,Cooper A,Gomez A.An item response theory analysis of the Carver and White(1994)BIS/BAS Scales[J]. Pers Indiv Differ,2005,39(6):1093-1103.
[11]Bjorner JB,Smith KJ.IRTFIT:A Macro for Item Fit and Local Dependence Tests under IRT Models[EB/OL]. Quality Metric Incorporated.http://appliedresearch.cancer.gov/archive/irt/irtfit_macro_users_guide.pdf.2007.
[12]Edelen MO,Reeve BB.Applying item response theory(IRT)modeling to questionnaire development,evaluation,and refinement[J].Qual Life Res,2007,16(1):5-18.
[13]Meads DM,Bentall RP.Rasch analysis and item reduction of the hypomanic personality scale[J].Pers Indiv Differ,2008,44:1772-1783.
[14]Bjorner JB,Petersen MA,Groenvold M,et al.Use of item response theory to develop a shortened version of the EORTC QLQ-C30 emotional functioning scale[J].Qual Life Res,2004,13(10):1683-1697.
[15]Linacre JM.Sample size and item calibration stability[J]. Rasch Measurement Transactions,1994,7(4):328.
The application of item response theory in screening item of medical scale
LIN Yueqing1ZHANG Weitao1FANG Jiqian21.Rehabilitation Center of Guangdong Province Occupational Injury,Guangdong Province,Guangzhou510440,China; 2.Department of Epidemiology and Health Statistics,School of Public Health,Sun Yat-Sen University,Guangdong Province,Guangzhou510275,China
This article focuses on the basic features of item response theory(IRT)and the specific application in the establishment and revision of medical scale.The item parameters of IRT have the nature of invariance,so IRT can provide the information of item and scale,and the measurement reliability of different potential ability.Therefore,IRT judges the merits of item from the item parameters,item characteristic curve,the individual-item chart,fit of the model,the amount of information and DIF in different groups.
Quality of life;Item screening;Item response theory
R195
C
1673-7210(2014)02(b)-0155-04
2013-10-16本文編輯:程銘)
林岳卿(1984-),女,碩士研究生;研究方向:統計學方法及其醫學應用。
方積乾(1939-),男,教授,博士生導師;研究方向:適用于生物醫學的統計學理論、方法與技術。