付 蓉 蘇少飛 包 含 劉 丹 張慧敏 劉美娜
哈爾濱醫科大學公共衛生學院 (150081)
基于項目反應理論的治療質量綜合評價最適樣本量的模擬研究*
付 蓉 蘇少飛 包 含 劉 丹 張慧敏 劉美娜△
哈爾濱醫科大學公共衛生學院 (150081)
目的 驗證基于項目反應理論模型的醫院疾病治療質量評價有效性,探討保證模型有效性和測量精度的最適樣本量。方法 根據項目反應理論中的雙參數logistic模型建立疾病治療質量評價的潛變量模型,通過SAS模擬產生每家醫院對每個指標的反應矩陣,模型中的參數估計采用貝葉斯估計的MCMC算法,利用秩相關系數及RMSE評價模型的有效性和測量精度。結果 在不同模擬試驗中,能力參數真值和估計值的秩相關系數均高于0.990。隨著指標數、醫院數和指標分母上限的增加,秩相關系數逐漸增大。隨著醫院數的增加,項目參數和能力參數的RMSE逐漸減小。當醫院數增至100時,無論指標數多少,RMSE均小于0.20,且趨于穩定。結論 基于項目反應理論模型的醫院疾病治療質量評價合理有效。在保證模型測量精度前提下,疾病治療質量綜合評價的最適樣本量為至少調查50家醫院,每家醫院每個指標的分母數在30~100范圍。當指標數不足8個時,可適當增加每個指標的分母數。
治療質量 綜合評價 項目反應理論 貝葉斯估計
隨著項目反應理論(item response theory,IRT)的完善和計算機技術的發展,IRT的應用由教育和心理測量拓展至其他許多領域,如人格測試、青少年違法行為、生存質量研究等[1-3]。國外學者也將IRT引入醫院疾病的治療質量評價[4-5],但其與教育測量不同:教育測量的對象是個體,治療質量評價的對象是醫院。當只有一個評價對象時,教育測量只需收集一個被試者的信息,治療質量評價需要收集一家醫院的多個患者信息;教育測量在二分制評分中,被試者對每個項目的反應是1或0(正確或錯誤)。在治療質量評價中,由于每個指標有其自身的適應證和禁忌證,同一家醫院被調查的患者不一定適合使用所有指標。每個指標的定義包括分母和分子,分母是適合某個指標且沒有相應禁忌證的患者數,分子是適合該指標的患者中真正使用該指標的患者數。數據格式見表1,表中Nh表示第h家醫院調查的患者數,nkh表示第h家醫院Nh個患者中適合使用第k個指標的患者數。ykh表示第h家醫院nkh個患者中實際使用第k個指標的患者數,服從參數為nkh、pkh的二項分布,pkh為第h家醫院第k個指標使用的概率;教育測量中項目數少則數十個,多則上百個。治療質量評價中指標是根據專家的知識和臨床實踐經驗確定,為醫院治療質量評價的標準。指標數因疾病而異且每個疾病的指標數一般不超過15個,如我國衛生部醫政司建立心力衰竭和急性心肌梗死的指標各10個[6]。
目前為止,基于IRT的疾病治療質量評價有效性的數據支持很少。考慮到治療質量評價數據收集的難度,需要探討能保證模型有效性和測量精度的最適樣本量,即評價的醫院數和指標的分母數。本文將根據項目反應理論中的雙參數logistic模型建立治療質量評價的潛變量模型[7],通過模擬研究驗證IRT應用于治療質量評價的有效性,同時確定最適樣本量。
1.模型構建
假設利用k個指標評價H家醫院某一疾病的治療質量,第h家醫院每個指標的使用率由該家醫院一個不可觀測的潛變量(治療質量)決定。第h家醫院第k個指標實際使用的患者數服從參數為nkh、pkh的二項分布:
ykh~B(nkh,pkh),k=1,2,…,K,h=1,2,…,H
(1)
pkh為第h家醫院第k個指標使用的概率,nkh為第h家醫院適合使用第k個指標的患者數。構建第h家醫院第k個指標使用的概率pkh與該家醫院不可觀測的治療質量θh的函數關系為:
logit(pkh)=β0k+β1kθh
(2)
該模型建立在雙參數logistic模型的基礎上,β0k和β1k分別為第k個指標的難度參數和區分度參數,稱為項目參數;潛變量θh為第h家醫院的治療質量,稱為能力參數。
2.參數估計
公式(2)中有2k+h個待估參數,本文利用貝葉斯估計的MCMC(markov chain monte carlo)算法進行參數估計。
1.模擬設計
醫院數H分別設為20,50,100,200和300;指標數K分別設為5,8,10和15;每家醫院每個指標的分母上限分別設為100,200和300,共60(5×4×3)種試驗。為減小隨機誤差,每種試驗重復10次。應用SAS9.2模擬產生模型參數的真值,各參數設置如下:
能力參數θh~N(0,1),h=1,2,…,H,H=20,50,100,200,300
難度參數β0k~U(-1,1),k=1,2,…,K,K=5,8,10,15
區分度參數β1k~U(0,1),k=1,2,…,K,K=5,8,10,15
指標的分母nkh~U(a,b),k=1,2,…,K,h=1,2,…,H,H=20,50,100,200,300,a=30,b=100,200,300
為保證計算的指標使用率的穩定性,文獻指出每家醫院每個指標的分母至少為30,因此將指標分母的下限設為30[8-9]。
根據公式(2),將產生的參數真值θh、β0k和β1k代入式中,得到每家醫院每個指標使用的概率pkh,再根據公式(1)和每家醫院每個指標的分母nkh,得到每家醫院每個指標的分子ykh。nkh和ykh構成了治療質量評價中每家醫院對每個指標的反應矩陣。
2.軟件實現
3.評價標準
(1)秩相關系數:治療質量綜合評價的目的是將多個指標整合獲得醫院的綜合質量得分,根據綜合質量得分對醫院進行排序,因此綜合評價方法的選擇是區分醫院治療質量優劣的關鍵。利用秩相關系數評價能力參數θh真值和估計值的一致性,秩相關系數越接近1,真值和估計值的一致性越高。秩相關系數大于0.990可認為基于IRT的治療質量綜合評價合理有效。
4.模擬結果
圖1A,當5個指標評價20家醫院的治療質量,每家醫院每個指標的分母上限為100時,能力參數估計值和真值的秩相關系數最小,為0.9964。隨著醫院數和每家醫院每個指標分母上限的增加,秩相關系數逐漸增大。圖1B、C和D,當指標數分別為8、10和15個時,秩相關系數的變化趨勢與圖1A相似,且隨著指標數的增加,秩相關系數逐漸增大。秩相關系數在不同指標數間、不同醫院數間和不同指標分母上限間的差別均有統計學意義,P<0.0001。經組間兩兩比較,當醫院數增至100家、每家醫院每個指標的分母上限增至200及指標數增至8個時,隨著醫院數、每家醫院每個指標的分母上限和指標數的繼續增加,秩相關系數的變化均無統計學意義。
不同試驗中項目參數和能力參數的RMSE見表2。無論指標數和每家醫院每個指標的分母上限多少,當醫院數為20時,區分度參數和能力參數的RMSE幾乎全部大于0.20;醫院數為50時,少數RMSE大于0.20。除指標數不影響難度參數β0的RMSE大小外,不同指標數間β1和θ的RMSE及不同醫院數間β0、β1和θ的RMSE差別均有統計學意義,P<0.0001。每家醫院每個指標的分母上限對β0、β1和θ的RMSE的大小沒有影響,P值分別為0.2373、0.9773和0.5977。不同醫院數間兩兩比較,當醫院數增至100時,隨著醫院數的繼續增加,β0和β1的RMSE改變均無統計學意義;醫院數增至200家時,隨著醫院數的繼續增加,θ的RMSE改變無統計學意義。
每家醫院每個指標的分母上限不影響項目參數和能力參數的估計,因此將不同指標分母的上限信息進行整合。不同醫院數和不同指標數的項目參數和能力參數RMSE見圖2。圖2A,只有5個指標時,隨著醫院數的增加,β0、β1和θ的RMSE逐漸減小。圖2B、C和D,當評價指標分別為8、10和15個時,β0、β1和θ的RMSE變化趨勢與圖2A相似,且隨著指標數的增加,醫院數越少RMSE越大。當醫院數增至100時,無論指標數多少,β0、β1和θ的RMSE均小于0.20,且趨于穩定。
項目反應理論認為被試者的某種相對穩定的潛在特質或能力水平支配其對項目作出正確反應的概率,兩者之間的關系可以用一個單調遞增的函數表達[7,11]。在治療質量評價中,被試者為醫院,每家醫院的治療質量決定該家醫院指標的使用情況。本研究通過模擬試驗發現,在不同指標數和不同指標分母上限的情況下,醫院數為20時,能力參數估計值和真值的秩相關系數均大于0.996;醫院數增至50時,秩相關系數均大于0.999。研究表明基于項目反應理論的治療質量綜合評價合理有效,該綜合評價方法能準確地區分醫院治療質量的優劣。在不同指標數和不同指標分母上限的情況下,醫院數增至50時,項目參數和能力參數的RMSE基本減小至0.20以下,達到項目反應理論對測量精確性的要求。結合兩個評價標準的結果推斷,利用項目反應理論模型評價醫院的治療質量的最適樣本量為至少調查50家醫院,每家醫院每個指標的分母在30~100范圍。為保證模型更加有效,當評價的疾病指標數不足8個時,可適當增加每個指標的分母數。
每家醫院每個指標的分母數包含于每家醫院調查的患者數,nkh≤Nh。在K個指標中,若一個指標僅適用于P%的患者,其余指標適用的患者比例高于P%,為保證每個指標的分母在30~100范圍,應選擇研究期間內患者數在(30~100)/P%范圍的醫院。例如4個指標分別適合于70%、50%、80%和60%的患者,則每家醫院調查的患者數應為100/50%=200個,不足200個患者的醫院則調查該家醫院研究期間內的所有患者,但也應保證至少30/50%=60個患者。
本研究利用貝葉斯對模型參數估計時,各參數的先驗分布均設為正態分布。然而先驗分布的選擇在貝葉斯統計中至關重要,不同的先驗分布可能獲得不同的結論,下一步我們將研究先驗分布的設置對模型有效性以及測量精度的影響。
[1]Reise SP,Waller NG.Fitting the two-parameter model to personality data.Applied Psychological Measurement,1990,14: 45-58.
[2]Osgood DW,McMorris BJ,Potenza MT.Analyzing multiple-item measures of crime and deviance I: Item Response Theory Scaling.Journal of Quantitative Criminology,2002,18: 267-296.
[3]韓耀風,郝元濤,方積乾.項目反應理論及其在生存質量研究中的應用.中國衛生統計,2006,23(6):562-565.
[4]Landrum MB,Bronskill SE,Normand SL.Analytic methods for constructing cross-sectional profiles of health care providers.Health Services Research and Outcomes Methodology,2000,1: 23-47.
[5]Shwartz M,Ren J,Pekoz EA,et al.Estimating a composite measure of hospital quality from the Hospital Compare database: differences when using a Bayesian hierarchical latent variable model versus denominator-based weights.Med Care,2008,46: 778-785.
[6]中國醫院協會.單病種質量管理手冊.北京:科學文獻技術出版社,2008.
[7]李曉銘.項目反應理論的模型.心理發展與教育,1989,2:27-32.
[8]Rollow W,Lied TR,McGann P,et al.Assessment of the Medicare quality improvement organization program.Ann Intern Med,2006,145: 342-353.
[9]Williams SC,Koss RG,Morton DJ,Loeb JM.Performance of top-ranked heart care hospitals on evidence-based process measures.Circulation,2006,114: 558-564.
[10]崔勝鵬.正態雙卵模型的Gibbs抽樣算法.哈爾濱工業大學理學碩士學位論文,2013,31.
[11]李曉銘.項目反應理論的形成與基本理論假設.心理發展與教育,1989,1:25-31.
(責任編輯:鄧 妍)
A Simulation Study on the Optimum Sample Size of Quality Assessment Based on Item Response Theory
Fu Rong,Su Shaofei,Bao Han,et al
(Department of Biostatistics,Harbin Medical University (150081),Harbin)
Objective To verify the validity of the assessment of quality of care based on item response theory model and to discuss the optimum sample size which ensured the validity and accuracy.Methods A latent model was developed according to the two-parameter logistic model and SAS was used to simulate the response matrix of compliance with each quality indicator at each hospital.Bayesian estimation was applied to estimate the parameters in the latent model withMCMCalgorithm.Spearman correlation coefficient andRMSEwere used to assess the validity and accuracy of model.Results In the different simulation trials,the spearman correlation coefficient between real and estimated value of ability parameter was all higher than 0.990.The spearman correlation coefficient increased gradually as the number of quality indicator,hospital and upper limit of denominator increased.TheRMSEof item parameter and ability parameter decreased gradually as the number of hospital increased and when the number of hospital increased to 100,all theRMSEwas smaller than 0.20 regardless of the number of quality indicator.Conclusion The assessment of quality of care based on item response theory model is valid.On the premise of ensuring the accuracy of model,the optimum sample size of quality assessment is at least 50 hospitals and the range of the denominator of each quality indicator at each hospital is from 30 to 100.When the number of quality indicator is less than 8,it should appropriately add the denominator of each quality indicator.
Quality of care;Synthetical evaluation;Item response theory;Bayesian estimation
國家自然科學基金項目(81273183);教育部博士點基金(20132307110028)
△通信作者:劉美娜;E-mail:liumeina369@163.com