疾病發病風險預測模型擬合度評價方法的研究進展*

2015-01-27 10:31:04鄭黎強

中國衛生統計 2015年3期

鄭黎強張蕊

·綜述·

鄭黎強1△張蕊2

疾病風險預測模型可以使多危險因素和未來疾病的發生確定為一種定量關系，通過多危險因素的水平來預測某一個體未來某疾病的發病概率。在過去的30年中，預測模型在公共衛生領域和臨床醫學領域不斷發展，除了最初的心血管病外，癌癥、高血壓、糖尿病等其他疾病研究領域也都開始了對預測模型的探索[1-4]。疾病風險預測模型得到越來越多的關注，如何對疾病發病風險預測模型的擬合度進行合理的評價，已經成為當前統計研究中的難點和熱點問題。本文將就疾病風險預測模型的擬合度評價，以及近年來應用越來越多的最新幾種模型評價統計學方法進行綜述，希望能給出一個既全面又具體的闡述。

模型擬合度的評價

模型擬合度是指模型預測結果與實際觀察發生情況之間的符合程度，兩者越一致，模型建立的越“成功”，效用也越大。一般來說，評價一個模型的優劣主要有兩個方面：標定能力(calibration)和區分能力(discrimination)。標定能力是指人群的平均預測概率與實際觀察到的發病概率的一致程度，通常做法是根據預測概率將研究對象分為若干個亞組(一般為10組)，計算每組的平均預測發病概率和實際發病率，并采用Hosmer-Lemeshow 卡方檢驗(HL χ2)檢驗兩者的符合程度，有統計學意義說明預測概率和實際發病率之間有顯著性差異，標定能力較差。區分能力是指正確地把病人和非病人區分開的能力，如果實際發生事件者的預測發病概率均高于未發生事件者，此時模型的區分能力為最佳，通常反映區分能力的方法是采用受試者工作曲線下面積(the area under the receiver-operating characteristic curve,AUC)或叫C統計量(C-statistic)進行計算和檢驗，C統計量越大說明模型的區分能力越強。需要注意的是，區分能力最佳時其預測概率并不一定與實際發病率一致，也就是說標定能力并不一定好。如圖1所示。

標定能力和區分能力反映了預測模型擬合度的兩個不同方面，通常情況下只能在兩者之間達到一種“平衡”而難以使兩者都達到最佳。有研究顯示，只有當發病概率分布的越分散，兩者才有可能同時達到最佳，概率密度函數都集中在0或1，即呈現“U”字型時，標定能力最佳，同時C統計量達到1，而實際情況中某疾病的發病概率通常很難呈現這樣的分布。

此外，還有一些檢驗方法是對預測模型整體擬合度進行評價，如以似然統計量為基礎的決定系數(R2)和貝葉斯信息準則(Bayes information criterion，BIC)等。

模型擬合度評價的統計學方法

對于預測模型的評價包括對單個的新建模型利用驗證隊列進行驗證和評價、對新標志物是否能提高原有模型的預測能力進行評價、對兩個針對相同結局事件的預測模型進行比較性評價三種情況。

1.利用驗證隊列對擬合的預測模型進行驗證與評價

當一個預測模型通過來源隊列建立起來之后需要對其進行擬合度的驗證，即分別評價該模型的標定能力和區分能力。

首先利用C統計量對預測模型的區分能力進行評價。AUC最早應用于篩檢試驗和診斷試驗領域。由于它同時考慮了靈敏度和特異度這兩個指標，所以能全面地評價試驗的真實性。之后，AUC漸漸被應用到了評價預測模型擬合度等領域，并命名為“C統計量”[5]。C統計量的實質是發生事件者的預測發病概率高于未發生事件者的可能性大小，故能夠反映模型區分病人和非病人的能力。C統計量的范圍在0.5～1，1表示可以將病人和非病人完全區分開，0.5表示病人和非病人的區分只靠偶然概率。通常0.7～0.8被認為模型可以接受，0.8～0.9被認為很好。

其次利用HL χ2來評價預測模型的標定能力。與區分能力不同，標定能力評價的是預測模型正確預測人群絕對危險概率的能力。通常做法是根據預測概率的分位數(如十分位數)將人群分為若干組，比較每組人群的平均預測概率與實際事件發生率之間的差異，采用HL χ2檢驗[6]。P<0.05代表模型的標定能力較差。

2.對新標志物的評價或兩個模型的比較

隨著疾病風險預測模型的發展，一些新的危險因素或標志物被不斷提出，研究人員試圖將這些新指標納入傳統預測模型中以期進一步提高模型的預測能力。而如何來評價新指標的預測能力？納入的新指標能否提高模型的預測能力？這就需要對原有模型和加入新標志物后的新模型進行比較。而針對相同結局事件的兩模型比較也與之類似，采用的統計學方法相同，因此對這兩種情況一并敘述。

過去很長一段時間評價新標志物是否能提高原有模型的預測能力主要依靠擬合優度檢驗(-2log likelihood)及C統計量的方法來進行評價。擬合優度檢驗通常的做法是先利用傳統危險因素擬合模型1得到擬合優度1，然后把新標志物加入到模型1中去，得到模型2的擬合優度2，根據兩擬合優度的差值查χ2分布表(自由度為1)，若差異有統計學意義則說明新標志物能夠提高模型的預測能力。然而，Pencina則認為模型擬合優度檢驗的要求過于寬松，在樣本量很大的研究中，就算新變量與結局變量的關聯性很弱，都能夠達到統計學意義。

由此可見依靠傳統的統計學方法不能有效地評價新標志物的預測能力，故近5年來，一些新的統計學應運而生，包括凈重分組提高指數(netreclassificationimprovement,NRI)、整合區分提高指數(integrateddiscriminationimprovement,IDI)和重分組標定統計量(reclassificationcalibrationstatistic,RCS)[10-11]。這些方法的中心思想是新模型對研究對象進行了“重分組”(reclassification)，從而引起個體在危險分層中的“變動”，如果這一“變動”是正確的或更符合實際情況的，那么相對于舊模型而言，新模型則有更優的預測能力。此外，隨著這些新的統計學方法越來越受到人們重視程度，應用領域越來越廣，適用于生存分析或刪失數據的方法也不斷完善[12]。

(1)NRI

新模型較之于舊模型(或在模型中引入一個新標志物)區分能力有所提高表現在兩方面：發生事件者在新模型中的發病預測概率有所提高(即從較低風險組劃分到較高風險組)，而未發生事件者的預測概率有所下降(即從較高風險組劃分到較低風險組)。如果這兩組人群的預測概率變動方向與上述相反，則會降低模型的區分能力[10]。因此，NRI需要分別在發生事件者和未發生事件者中計算預測模型發生改變的人數比例。

(2)IDI

葉斯梯度(Yatesslopes)，也叫區分梯度(discriminationslopes)，是指病人的平均預測概率與非病人的平均預測概率之差，差距越大，則說明模型區分病人和非病人的能力越強[13]。IDI相當于兩個模型的葉斯梯度之差，可以反映新模型較舊模型區分能力的提高程度[10]。

IDI不需要進行危險分層，而是直接計算發生事件者和未發生事件者的平均預測概率，這一點與NRI有所不同。

(3)RCS

和NRI一樣，RCS的計算首先也要根據兩個模型將研究對象分配到“重分組表”的每個格子中(無需區分發生事件者和未發生事件者)。表中的每個格子都對應有一個實際發病率和分別由兩個模型預測得出的平均發病預測概率[11,14]。生存分析存在刪失數據的問題，可以通過K-M生存曲線來計算實際發病率。

小結

以上介紹了幾種近幾年來最新的評價預測模型擬合度的方法，它們的優勢在于可以直接反映模型區分能力或預測能力，并且可以進行模型之間的比較，或是新標志物的評價，故越來越受到研究者重視。關于這些方法的應用，有幾點需要注意：(1)評價預測模型的區分能力時，首先需要有一個較好的標定能力。如果標定能力差，那么所謂的區分能力評價起來也沒有任何意義，所以這兩方面的評價都不能少[15]。(2)與結局事件有統計學關聯的變量并不一定會提高模型的擬合度。如9q21基因多態性被證實與心血管病有相關性，但是卻沒有提高模型的區分能力和標定能力[16]。(3)危險分層界值的選取會影響NRI和RCS最終的評價結果。比如將發病風險從四組變為三組時，NRI會減小，RCS的卡方值也會減小。因此，危險分層標準的選擇就顯得尤為重要，需要結合臨床實踐，具有臨床意義。通常選取公認的一些分層標準，如ATPⅢ中的標準[17]。對于那些目前尚無公認的危險分層標準的疾病，應用這些方法來評價和比較模型需要慎重[11]。(4)研究發現，那些發生“重分組”的個體主要是“中危人群”，這部分患者由于很可能被分到高危組或者低危組，而導致接受完全不同的診療措施，所以受到更多的關注。一些研究就只關注于這部分人群。

近年來，NRI、IDI等新方法的應用呈現快速增長的趨勢，除了心血管病研究外，其他研究領域正開始日益普及。然而一些研究者并未深刻了解到模型評價的意義所在，也未明白這些評價方法應該注意的問題和前提條件，導致部分相關文獻出現質量較差的情況。Tzoulaki在2011年總結了自這些新方法提出之后(2006年)的幾年間醫學文獻中NRI、IDI和RCS的使用現狀，發現在匯總的51篇文獻中，只有53%的研究評價了模型的標定能力，而僅有31%的文獻明確地寫出了所用的危險分層界值，27%的研究選取的界值是有臨床意義的[18]。作者指出，雖然這些新的方法在評價和比較預測模型方面有其獨特的優勢，但是目前出現了“誤用”和“濫用”的傾向，因此建議規范其使用，并對文獻當中的相關表述作出一些規范化的指導。因此，在這篇文獻發表后不久，Pete撰寫了一篇短訊以明確涉及到這些方法時，文獻應該如何正確的表述結果，以此提供更多的信息和避免一些錯誤[15]。值得注意的是，這些方法由于尚很“年輕”未能普及，仍處于不斷完善和發展中，如NRI的置信區間問題，以及對于刪失數據的處理仍未有明確解決方法，還需進一步探討。

[1]ParikhNI,PencinaMJ,WangTJ,etal.Ariskscoreforpredictingnear-termincidenceofhypertension:theFraminghamHeartStudy.AnnInternMed,2008,148(2):102-110.

[2]GailMH,BrintonLA,ByarDP,etal.Projectingindividualizedprobabilitiesofdevelopingbreastcancerforwhitefemaleswhoarebeingexaminedannually.JNatlCancerInst,1989,81(24):1879-1886.

[3]MeigsJB,ShraderP,SullivanLM,etal.Genotypescoreinadditiontocommonriskfactorsforpredictionoftype2diabetes.NEnglJMed,2008,359(21):2208-2219.

[4]SchnabelRB,SullivanLM,LevyD,etal.Developmentofariskscoreforatrialfibrillation(FraminghamHeartStudy):acommunity-basedcohortstudy.Lancet,2009,373(9665):739-745.

[5]HanleyJA,McneilBJ.Themeaninganduseoftheareaunderareceiveroperatingcharacteristic(ROC)curve.Radiology,1982,143(1):29-36.

[6]HosmerDW,HosmerT,LeCessieS,etal.Acomparisonofgoodness-of-fittestsforthelogisticregressionmodel.StatMed,1997,16(9):965-980.

[7]HanleyJA,McneilBJ.Amethodofcomparingtheareasunderreceiveroperatingcharacteristiccurvesderivedfromthesamecases.Radiology,1983,148(3):839-843.

[8]PepeMS,JanesH,LongtonG,etal.Limitationsoftheoddsratioingaugingtheperformanceofadiagnostic,prognostic,orscreeningmarker.AmJEpidemiol,2004,159(9):882-890.

[9]CookNR.Useandmisuseofthereceiveroperatingcharacteristiccurveinriskprediction.Circulation,2007,115(7):928-935.

[10]PencinaMJ,D'AgostinoRS,D'AgostinoRJ,etal.Evaluatingtheaddedpredictiveabilityofanewmarker:fromareaundertheROCcurvetoreclassificationandbeyond.StatMed,2008,27(2):157-172,207-212.

[11]CookNR,RidkerPM.Advancesinmeasuringtheeffectofindividualpredictorsofcardiovascularrisk:theroleofreclassificationmeasures.AnnInternMed,2009,150(11):795-802.

[12]PencinaMJ,D'AgostinoRS,SteyerbergEW.Extensionsofnetreclassificationimprovementcalculationstomeasureusefulnessofnewbiomarkers.StatMed,2011,30(1):11-21.

[13]YatesJF.Externalcorrespondence:decompositionofthemeanprobabilityscore.OrganizationalBehaviorandHumanPerformance，1982,30:132-156.

[14]PepeMS.Problemswithriskreclassificationmethodsforevaluatingpredictionmodels.AmJEpidemiol,2011,173(11):1327-1335.

[15]PepeMS,JanesH.Commentary:Reportingstandardsareneededforevaluationsofriskreclassification.IntJEpidemiol,2011,40(4):1106-1108.

[16]PaynterNP,ChasmanDI,BuringJE,etal.Cardiovasculardiseaseriskpredictionwithandwithoutknowledgeofgeneticvariationatchromosome9p21.3.AnnInternMed,2009,150(2):65-72.

[17]ExecutiveSummaryofTheThirdReportofTheNationalCholesterolEducationProgram(NCEP)ExpertPanelonDetection,Evaluation,AndTreatmentofHighBloodCholesterolInAdults(AdultTreatmentPanelIII).JAMA,2001,285(19):2486-2497.

[18]TzoulakiI,LiberopoulosG,IoannidisJP.Useofreclassificationforassessmentofimprovedprediction:anempiricalevaluation.IntJEpidemiol,2011,40(4):1094-1105.

(責任編輯：郭海強)

*國家自然基金項目(項目編碼：81302495)，遼寧省科技廳社會發展攻關計劃項目(項目編碼：2013225089)資助

1.中國醫科大學附屬盛京醫院臨床流行病學教研室，圖書館(110004)

2.遼寧省疾病預防控制中心慢病所

△通信作者：鄭黎強,E-mail:zhenglq@sj-hospital.org

疾病發病風險預測模型擬合度評價方法的研究進展*

模型擬合度的評價

模型擬合度評價的統計學方法

小 結

小結