王家偉 韓耀風 方 亞
廈門大學公共衛生學院(361002)
【提 要】 在醫學研究中常借助潛變量增長曲線(LGC)等模型分析縱向量表資料,但存在數據信息利用不充分、難以反映研究對象真實潛在特質水平等不足。縱向項目反應理論(LIRT)模型是近年來提出的研究潛在特質動態變化的一種方法,它在縱向量表資料分析中具有一些獨特優勢。本文對LIRT模型理論、軟件實現及其在醫學研究中的應用進行綜述,為醫學研究中縱向量表資料分析提供參考,以精準評估研究對象各時點的潛在特質動態變化規律。
隨著醫學模式向生物-心理-社會模式轉變,醫學研究者對人體多維健康(生理、心理及社會適應)動態變化規律的關注日益提高,縱向健康量表資料的分析需求隨之增加[1]。在分析縱向健康量表資料時,常用潛變量增長曲線(latent growth curve,LGC)模型,探究研究對象潛在特質隨時間的動態變化軌跡,但卻忽略了難度等項目因素對測量結果的影響,難以準確測量研究對象各時點潛在特質水平[2]。現代測量理論中的項目反應理論(item response theory,IRT)模型將被試者潛在特質與項目難度置于同一尺度測量,既可準確測量被試者潛在特質,也可以增加橫向資料的可比性,被逐漸應用到醫學研究中[2]。
Conway于1990年提出的縱向項目反應理論(longitudinal item response theory,LIRT)Rasch模型結合了IRT和LGC模型優勢,從量表項目水平出發,既考慮到難度、區分度等項目因素對測量結果的影響,也可探究被試者潛在特質隨時間的動態變化規律,在醫學研究中的應用愈加廣泛[3-13]。為進一步推廣LIRT模型在醫學研究中的應用,提高縱向健康量表的測量效能,精準評估被試者不同年齡、時點的多維健康水平,本文在簡要介紹IRT的基本原理及特點的基礎上,介紹常用的LIRT模型及其在醫學研究中的應用進展。
IRT早期主要用于教育和心理測量領域,其核心思想是從項目水平出發,構建被試者對各個項目作答與其潛在特質、項目難度及區分度等參數的函數關系,從而評估被試者的潛在特質水平以及量表的測量效能[14]。
相比經典測量理論(classical test theory,CTT)對量表條目簡單等權線性累加的計分方式,IRT模型充分利用了被試者所有的作答信息,將被試者潛在特質和項目難度置于同一標尺進行測量和比較,既利于不同特征被試者的橫向比較,又能夠更準確地估計量表及各個項目的測量誤差[15]。此外,IRT無需滿足CTT的正態性和平行測試假設,可分析健康量表資料中呈偏態分布、含有離群值或缺失值的數據[8,11]。但另一方面,IRT模型仍需滿足局部獨立性、單維性和個體作答行為真實性等假設,以保持模型結果的穩定性[15]。
近年來,IRT模型在項目參數、潛在特質維度及項目類別等方面不斷拓展,突破了模型提出之初的局部獨立性(條目間、被試者間)和單維性(單一潛在特質)等假設,如分析多水平量表資料的多水平項目反應理論模型(multilevel item response theory model,MLIRT)[16-17],分析多維量表資料的多維項目反應理論模型(multidimension item response theory model,MIRT)[18-19],以及分析縱向量表資料的LIRT模型等[20-22]。
LIRT模型作為IRT模型族在時間維度的拓展,其核心思想是將IRT與LGC模型結合,從項目水平出發,測量被試者各時點潛在特質水平的同時,探究潛在特質隨時間的變化趨勢及軌跡[22]。
縱向單維項目反應理論(longitudinal unidimensional item response theory,L-UIRT)模型是最基礎、最常用的LIRT模型,該模型適用于僅有一個主要潛在特質隨時間變化的縱向量表資料。一般采用兩步法(two-step method)建模。
(1)擬合時間特異性單維項目反應理論模型
根據量表資料類型,采用logit、probit及studentt等鏈接函數構建L-UIRT模型,估計被試者潛在特質。以二分類資料為例,構建二分類兩參數logistic L-UIRT模型,假定樣本量為N,i(i=1,2,…,N)為樣本中的個體,t(t=1,2,…,T)為重復測量的時點,j(j=1,2,…,P)為作答的項目,則樣本共有N×P×T個重復測量值。此時L-UIRT模型可表示為公式(1)。
(1)

(2)擬合個體特異性潛變量增長曲線模型
基于第一步構建模型,建立關于θ的LGC模型,其一般形式可寫做公式(2)。
θi=Xβ+Zvi+δi
(2)

(3)



圖1 L-UIRT分析路徑圖
根據量表測量維度及層次關系不同,LIRT模型可分為單維、多維和高階LIRT模型。L-UIRT模型適用于分析量表中所有項目反應僅受被試者單一的潛在特質影響,且僅此單一潛在特質隨時間變化的研究資料;縱向多維項目反應理論(longitudinal multidimension item response theory,L-MIRT)模型是在L-UIRT模型的基礎上,在潛在特質測量維度上的拓展,適用于分析量表項目反應受被試者多個相關的潛在特質影響,且多個相關潛在特質均隨時間變化的研究資料[23];而縱向高階項目反應理論(longitudinal higher order item response theory,L-HO-IRT)模型是在L-MIRT模型的基礎上,與結構方程模型(structural equation modeling,SEM)結合,能夠捕捉多階潛在特質的層次關系、低階潛在特質與對應項目反應的概率關系等[24]。如老年人認知測量中,L-HO-IRT模型能夠測量老年人總體認知能力和低階潛在特質(語言力、計算力及記憶力等)的層次關系,同時能夠測量各低階潛在特質與對應項目反應間的概率關系。
值得注意的是,模型的選擇應結合量表設計的測量維度,鑒別研究數據中潛在特質的維度以及不同維度潛在特質間是否存在層次結構。
總體來說,相較于常用的潛變量測量模型——LGC模型、SEM和多水平統計模型而言,LIRT模型具有以下優勢:(1)包含了縱向量表資料的因子結構,可用于分析單維、多維及分層的縱向量表資料[24];(2)通過非結構化協方差矩陣或潛變量增長曲線的非線性/線性變化模型,假設鏈接項目未發生項目參數漂移,保證縱向數據的測量不變性的同時,還可捕捉潛在特質隨時間變化的趨勢及軌跡[22,25];(3)將猜測參數結合到模型中,可解釋低水平潛在特質者也有一定概率正確作答的情況[26];(4)在分析含有缺失值、呈偏態分布縱向量表資料時,能夠保持結果的穩定性,具有較好的時間測量效能,能夠較好地應用于流行病學調查和臨床研究中[27]。
貝葉斯方法軟件(如WinBUGS、OpenBUGS、JAGS和Stan)、主流統計軟件(如R)和SEM軟件(如Mplus)均可實現LIRT模型構建,三類統計軟件實現LIRT模型擬合的特點詳見表1。

表1 實現縱向項目反應理論模型擬合的三類統計軟件
目前LIRT模型在醫學研究中的應用,主要有縱向健康評價研究,縱向健康量表的研制、優化和驗證等。
主要從生理健康、心理健康及健康相關生命質量方面簡要介紹LIRT模型在縱向健康評價研究中的應用現狀。
在生理健康領域,LIRT模型主要用于測量帕金森氏病(Parkinson disease,PD)、失能、疼痛、聽力損傷等進行性軀體功能障礙性疾病或病理狀態的研究中[9,27,29]。Gottipati等基于LIRT模型通過國際運動障礙協會帕金森氏病評分量表(movement disorder society unified Parkinson′s disease rating scale,MDS-UPDRS)測量PD患者在個體及項目水平上隨時間變化軀體功能受損程度,發現PD患者功能較好一側的軀體功能較患側惡化速度更快[29]。Edjolo等通過LIRT模型探索老年人日常生活自理能力的層次關系,發現出現完全依賴的次序由易到難依次為洗澡、穿衣、大小便自控能力、吃飯、上廁所及室內移動,并發現老年人存在4類日常生活自理能力變化軌跡[30]。
在心理健康領域,LIRT模型被應用于抑郁、焦慮、認知等心理疾病或問題的測量[10-11,31]。Chan等在量表條目數量與組合均不一致的情況下,利用LIRT模型比較不同文化、經濟背景下的老年人認知狀況,發現美國健康與退休研究老年人相較于英國縱向老齡研究老年人認知水平更低[7]。Krekels等通過LIRT模型比較安慰劑與帕里哌酮對精神分裂癥患者陽性和陰性綜合征量表(positive and negative syndrome scale,PANSS)評分的影響,發現模型能夠較好地反映患者PANSS各項目、分量表及個體水平治療效果隨時間的變化[32]。
健康相關生命質量,作為個體生理與心理健康的綜合健康指標,能夠較好地反映研究對象綜合生命質量。有研究顯示,被試者對于生命質量的理解,可能因健康狀況的好轉或惡化發生改變,從而導致自報告生命質量縱向可比性較差,這種現象被稱為反應轉移(response shift,RS)[33]。王旭霞等通過LIRT模型評估老年阿爾茨海默癥(Alzheimer′s disease,AD)患者入院前與出院后一個月的生命質量,發現老年AD患者對量表項目的內在評價和價值觀標準發生了反應轉移,提示在評價住院治療對老年AD患者生命質量的影響時,應考慮反應轉移現象[34]。而許曉茜等的研究顯示,相比SEM,LIRT能夠更好地測量這種反應轉移現象[3]。故而建議在評估干預措施和社會人口學特征等因素對生命質量的影響時,可采用LIRT模型識別這種反應轉移現象,排除因反應轉移而引入的測量誤差。
由于具有量表項目水平測量的優勢,LIRT模型也被用于各種縱向健康研究的量表研制、優化和驗證中[35]。通過比較項目特征參數、測量維度等,簡化量表項目,避免現場研究中被試者因量表項目多、耗時長等因素應答率偏低,從而提高現場調查的應答率和調查效率。
Arrington等通過LIRT模型簡化MDS-UPDRS量表,基于真實數據比較,發現簡化后量表的疾病進展和藥物效應方面的測量效能降低;基于模擬實驗比較,發現簡化后量表項目特征參數也發生了改變,提示MDS-UPDRS簡表的測量效能低于原表,需謹慎使用[4,6]。有研究通過模擬實驗也證明,LIRT模型在樣本量較小,但測量時點足夠的情況下,仍能較好地評價縱向量表工具的測量效能[35]。
在縱向健康評估時,由于量表中各項目間難度、區分度存在差異,各測量時點間項目反應存在時間依賴性,傳統的IRT模型及LGC模型不再適用。LIRT模型不僅能夠較好地測量各時點被試者健康水平及項目反應轉移的情況,識別被試者健康水平隨時間的發展軌跡及其影響因素;同時可通過各時點量表項目特征參數(包括區分度、難度、猜測參數等)評估量表的測量效能。深入探討LIRT模型理論及在醫學研究中的應用,有利于提高縱向健康量表的測量效能,精準評估被試者不同年齡、時點的健康水平,為衛生政策等的制定和實施提供科學依據。
在模型參數估計方面,伴隨著計算機算力和參數估計方法的提升,一定程度上減輕了模型參數估計的難度,但各種參數估計方法仍存在一些不足。如MCMC算法馬爾科夫鏈收斂速率未知,通常需要5000次以上的迭代,運算耗時較長。希望未來研究聚焦于發展更簡便、快速、易用的參數估計方法提高高維模型參數估計效率[36-41]。
最優模型的選擇和模型輸出結果的可靠性檢驗依賴于模型擬合檢驗。雖然大多數的SEM軟件會自動輸出如AIC、DIC等模型擬合參數,但目前大部分的研究都尚未明確模型擬合參數的適宜界值。有研究也顯示WinBUGS等軟件自動輸出的DIC并不能較好地反映模型擬合狀況[42]。杜文久等雖提出通過LP法(likelihood procedure)、正態擬合檢驗法檢驗模型擬合情況,為模型檢驗提供新的思路,但仍存在一些問題[43-44]。希望未來的研究中,能夠提出更加有效、簡便的LIRT模型擬合檢驗評估體系。