陳 霞張 橋陳永杰李慧婷張秋菊劉美娜△
回歸校準和模擬外推對測量誤差的校正效果研究*
陳 霞1張 橋2陳永杰1李慧婷1張秋菊1劉美娜1△
目的探討回歸校準法(RC)和模擬外推法(SIMEX)對logistic回歸中測量誤差的校正效果。方法通過SAS軟件產生有測量誤差的模擬數據,用RC和SIMEX對測量誤差進行校正,對比設定的真實β值和校正后的β*值之間的差別,以評價校正效果。結果當X可精確測量時,在設定的條件下,RC1的校正效果較好;P-SIMEX僅當很小時校正效果較好。當X不可精確測量時,隨著測量誤差的增大,E-SIMEX的校正效果降低,而RC2的校正效果相對較穩定。結論無論X是否可測,在經典測量誤差模型前提下,RC對logistic回歸模型中測量誤差的校正效果優于SIMEX,建議應用RC校正測量誤差。
測量誤差 回歸校準法 模擬外推法 logistic回歸回歸稀釋
統計分析過程中建立線性回歸或非線性回歸模型時,都假定自變量和應變量無測量誤差,所得數據是變量的真實值。但在科研領域中,通過某種方式或者途徑所獲得的變量值未必是此變量的真實值,尤其是環境流行病學、膳食問卷調查等觀察性研究中,測量誤差是廣泛存在的問題[1,2]。數據分析時若忽略測量誤差的影響,會導致參數估計有偏,統計推斷不準確,因此需要對測量誤差進行校正[3]。關于測量誤差校正方法的研究,最經典的是由Rosner提出的回歸校準法[4]和由Cook提出的模擬外推法[5],可通過SAS、Stata等統計軟件實現分析過程。本文通過模擬實驗,探討不同條件下回歸校準法和模擬外推法對logistic回歸中自變量測量誤差的校正效果。
1.測量誤差
測量誤差是指科研過程中由于信息收集、固有的生物學變異和一些變量的主觀性等造成的誤差[6]。傳統回歸模型,如式(1):

此模型中,變量Yi,Xi是可測的,εi是隨機誤差,β是待估參數,fXi,()β是關于X的已知函數。通常可根據回歸函數fXi,()β的不同形式,估計出相應的參數β。但在實際建模實踐時,自變量可能不可測,或者其測量帶有不可忽略的測量誤差。在一些觀察性研究中,如膳食頻率調查(FFQ),自變量X為真實值,是被調查者過去一年中的日平均膳食攝入量,通過問卷調查獲取的值為真實值X的估計值W,W和X之間的差別就是測量誤差[7]。
2.回歸校準(regression calibration,RC)
回歸校準的基本原理[8]是:先建立自變量真實值X關于觀測值W和協變量Z的回歸函數,以此函數代替真實值X,再進行常規的回歸分析。RC的前提條件是W和X為線性關系,X關于W和Z的回歸函數叫做回歸校準函數。根據已知數據的特點,有RC1和RC2兩種方法建立回歸校準函數。
RC1:當X可測,且測量值W與真實值X滿足非差分測量誤差模型[9](non-differentialmeasurement errormodel)W=γ0+γX+U,其中且U與X、Y相互獨立。可從主數據集中按一定比例隨機抽取一個同時有W和X值的數據集,稱效度數據集(validation data)。其較準過程分三步:首先利用效度數據集,建立X與W的線性模型X=λ0+λ1W,估算出系數然后根據校準模型利用主數據集,估算出每個個體校準后的XRC1;最后建立Y與XRC1的logistic回歸模型Pr(Y=1|X)=exp(β0+β1XRC1),估算出系數即為校準后的回歸系數。此種回歸校準簡稱RC1。

3.模擬外推(simulation extrapolation,SIMEX)
模擬外推是一種基于模擬的參數估計方法,其基本原理是:對有測量誤差的自變量W額外加一個逐級增大的擬測量誤差,基于擬數據集進行參數估計,再擬合這些參數的變化規律,最后外推出正確的參數值。此方法前提條件是W與真實值X滿足經典測量誤差模型W=X+U,其中且U與X、Y相互獨立。根據是否已知,SIMEX可分為參數型和經驗型[10]。參數型SIMEX(P-SIMEX)的基本步驟如下:
模擬:在自變量觀測值W原有測量誤差U的基礎上,加上逐級增大的測量誤差,增加的幅度為θ,形成一個新模擬的其中測量誤差U的大小用其方差度量,即的測量誤差為
擬估計:設θ為誤差增加幅度,b為擬估計模擬的次數,定義


1.模擬設計
真實數據集參數設置:樣本量N=1000,自變量X~N(0,1),協變量Z~N(0,1),通過logistic回歸模型Pr(Y=1|X,Z)=exp(β0+βxX+βzZ),產生因變量Y。β0=-2.5,βX=(0.5,1),βZ=1,分別對應有90%、85%的Y=0。
非差分測量誤差模型參數設置:γ0=0,γ=(0.5,根據模型W=γ0+γX+u產生自變量測量值W。從真實數據集中簡單隨機抽取100個觀測值作為效度數據集。此時應用的校正方法為RC1、P-SIMEX(僅γ0=0,γ=1,且假定已知)。
為確保模擬結果的穩定性,對上述隨機變量的模擬均采用蒙特卡洛方法[11],模擬次數為100次,模擬結果取均值。
2.評價指標
評價校正效果的指標為校正后的回歸系數β*與設定真實值β真之差的絕對值和β*的標準差。β*與β真之差的絕對值越小,校正效果越好;β*的標準差越小,校正效果越穩定。本文擬規定:0.05]時,校正效果理想;時,校正效果較好。
1.非差分測量誤差模型校正效果
不同測量誤差條件下RC1校正效果如表1、圖1所示。將含測量誤差的測量值W作為自變量納入模型時,回歸系數βnaive都小于β真;隨著測量誤差的增大,βnaive越偏離β真。當非差分測量誤差模型中γ=0.5時,無論測量誤差的大小,經RC1校正的雖然較βnaive好,但校正效果都不夠理想;當γ=0.75時,只有測量誤差較小1),RC1才能達到理想的校正效果。僅當W與X的關系滿足經典測量誤差模型(即γ=1),RC1都能達到理想的校正效果。
基于P-SIMEX的前提條件,僅當γ0=0,γ=1,且假定已知時,應用此種方法進行校正。當非差分測量誤差模型中γ=1時,RC1和P-SIMEX如表1、圖2所示。僅當時,P-SIMEX能達到較好的校正效果。隨著測量誤差的增大,P-SIMEX校正的雖然較βnaive大,但校正效果都不好。在相同條件下,隨著的增大,經RC1校正的的標準誤逐漸增大,而經P-SIMEX校正的的標準誤逐漸減小。

表1 RC1和P-SIMEX對測量誤差的校正效果

圖1 非差分測量誤差條件下RC1的校正效果

圖2 RC1(γ=1)和P-SIMEX的校正效果
2.經典測量誤差模型校正效果
不同測量誤差條件下RC2和E-SIMEX的校正效果如表2、圖3所示。無論測量誤差多大,經RC2校正后校正效果均理想。僅當時,E-SIMEX能達到較好的校正效果。在相同條件下,隨著的增大,經RC2校正的的標準誤逐漸增大,而經E-SIMEX校正的的標準誤逐漸減小。

表2 RC2和E-SIMEX對測量誤差的校正效果

圖3 經典測量誤差條件下RC2及E-SIMEX的校正效果
測量誤差在環境暴露和營養膳食等流行病學調查中是普遍存在的,但在大多數研究數據處理分析時,往往被忽視,對其造成的影響很少進行調整或糾正。直接用含測量誤差的數據進行回歸分析時會產生一定的偏倚,導致參數估計有偏,或者推斷不準確,其效應稱為回歸稀釋[12]。根據測量誤差的來源,可產生不同的稀釋效應[13]:自變量X的測量誤差會造成回歸系數的減小;而應變量Y的測量誤差不影響回歸系數,但會造成其標準誤增大,使估計的精度下降。本文通過模擬試驗比較回歸校準法與模擬外推法兩種方法對logistic回歸中自變量測量誤差的校正效果結果顯示,當自變量有測量誤差時,未校正的βnaive都小于設定的β真,符合回歸稀釋的效應。
根據自變量X是否可精確測量,測量誤差的校正可分為RC1、P-SIMEX及RC2、E-SIMEX兩大類。當X可精確測量時,在設定的條件下,RC1的校正效果較好,P-SIMEX僅當很小時校正效果較好。當X不可精確測量時,隨著測量誤差的增大,E-SIMEX的校正效果降低,而RC2的校正效果相對較穩定。無論X是否可測,在經典測量誤差模型前提下,RC對logistic回歸模型中測量誤差的校正效果優于SIMEX。但SIMEX也有自身的優勢,其不僅可獲得校正后的回歸系數,還可通過外推圖示直觀地體現出測量誤差對回歸系數的效應。與RC相比,SIMEX更適用于對非線性回歸模型中的測量誤差進行校正[8]。
基于本文模擬結果,對logistic回歸模型中測量誤差進行校正時,在經典測量誤差模型前提下,建議應用回歸校正法。本研究僅對模型中單個自變量(正態分布)含加法測量誤差的情況進行討論。但在實際應用中,模型中含測量誤差自變量的個數、自變量的分布以及測量誤差模型的結構更加復雜,回歸校準與模擬外推的校正效果如何,還需進一步研究。
1.Pollack AZ,Perkins NJ,Mum ford SL,etal.Correlated biomarkermeasurement error:an important threat to inference in environmental epidem iology.American journal of epidem iology,2013,177(1):84-92.
2.Day NE,Wong MY,Bingham S,et al.Correlated measurement error implications for nutritional epidem iology.Int J Epidem iol,2004;33(6):1373-1381.
3.張橋,張秋菊,陳霞,等.回歸校準法對線性回歸中信息偏倚校正的模擬研究.中國衛生統計,2013,30(3):327-329.
4.Rosner B,Spiegelman D,W illettWC.Correction of logistic regression relative risk estimates and confidence intervals for measurement error:the case ofmultiple covariatesmeasured w ith error.American Journal of Epidem iology,1990,132(4):734-745.
5.Cook JR,Stefanski LA.Simulation-extrapolation estimation in parametric measurement errormodels.Journal of the American Statistical Association,1994,89(428):1314-1328.
6.Buonaccorsi JP.Measurement error:models,methods and applications. Chapman and Hall/CRC,2010.
7.Jaceldo-Siegl K,Knutsen SF,Sabate′J,et al.Validation of nutrient intake using an FFQ and repeated 24 h recalls in black and white subjects of the Adventist Health Study-2(AHS-2).Public Health Nutr,2010,13(6):812-819.
8.Carroll RJ,Ruppert D,Stefanski LA,etal.Measurementerror in nonlinearmodels:amodern perspective.Second Edition,Chapman and Hall/CRC,2006.
9.Armstrong BG.Effect ofmeasurement error on epidem iological studies of environmental and occupational exposures.Occupational and environmentalmedicine,1998,55(10):651-656.
10.Devanarayan V,Stefanski LA.Empirical simulation extrapolation for measurement error models with replicate measurements.Statistics&Probability Letters,2002,59(3):219-225.
11.Rubinstein RY.Simulation and the Monte Carlo method.Wiley-interscience,2009.
12.MacMahon S,Peto R,Cutler J,et al.Blood pressure,stroke,and coronary heart disease.Part1,prolonged differences in blood pressure:prospective observational studies corrected for the regression dilution bias. Lancet,1990,335:765-774.
13.Hutcheon JA,Chiolero A,Hanley JA.Random measurement error and regression dilution bias.BMJ,2010,340(7761):1402-1406.
(責任編輯:丁海龍)
The Correction Effect Analysis of Regression Calibration and Simulation Extrapolation for M easurement Error
Chen Xia,Zhang Qiao,Chen Yongjie,et al(BiostatisticsDepartment,HarbinMedicalUniversity(150081),Harbin)
ObjectiveTo estimate the correction effect of regression calibration(RC)and simulation extrapolation(SIMEX)formeasurement error in logistic regression model.MethodsWe simulated datasets including given measurement error by SAS software,and applied RC and SIMEX to correctmeasurementerror.Then evaluated the correction effectby comparing the difference between trueβvalue and correctedβ*value.ResultsIfXcould be accuratelymeasured,RC1 could achieve preferable correction effect under the given,while P-SIMEX could only do wellwhen the valuewere ratherm inimal.IfXwas unobservable,the effect of E-SIMEX appeared worse w ith the increase ofmeasurement error,while RC2 performed relatively stable w ith differentvalues.ConclusionWhether or notXcould be accurately measured,RC worked better than SIMEX in the classicalmeasurement errormodel condition.We recommend RC on the basis of our simulation results.
Measurementerror;Regression calibration;Simulation extrapolation;Logistic regression;Regression dilution
國家科技支撐計劃(2011BAIO9B02)
1.哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)
2.哈爾濱醫科大學醫務處
△通信作者:劉美娜,E-mail:liumeina369@163.com