自變量連續型測定值及基于中位數的0～1轉化值擬合logistic回歸模型的效果比較*

2018-01-03 01:42:49何賢英黃嘉玲陳逸敏張晉昕

中國衛生統計 2017年6期

關鍵詞：分類模型研究

何賢英趙志黃嘉玲陳逸敏張晉昕

中山大學公共衛生學院醫學統計與流行病學系(510080)

自變量連續型測定值及基于中位數的0～1轉化值擬合logistic回歸模型的效果比較*

何賢英趙志黃嘉玲陳逸敏張晉昕△

中山大學公共衛生學院醫學統計與流行病學系(510080)

目的探討當logitπ與連續型自變量之間呈線性關系時，采用原始值法和中位數截斷法擬合logistic回歸模型的差異。方法以成組設計病例對照研究為背景產生模擬數據，應用R軟件“SmeiPar”軟件包對logitπ與連續型自變量間函數關系進行判斷，進而采用原始值法和中位數截斷法分別擬合logistic回歸模型。結果原始值法較中位數截斷法能夠更好地擬合logistic回歸模型。結論當logitπ與連續型自變量間呈線性關系時，建議采用原始值法。

原始值法中位數截斷法 logistic回歸半參數回歸 AIC

在醫學和流行病學研究中以連續型變量作為解釋變量很常見，研究者常利用這些變量，采用多因素回歸模型刻畫其與結局間的關聯，進而探索疾病的危險因素、估計預后、指導治療等[1]。研究者從臨床應用及統計分析的角度考慮，經常將連續型自變量轉變為二分類變量進行分析[2]，然而，在模型構建時，研究者對于應用條件的把握上尚存在諸多誤區。logistic回歸模型對自變量類型一般不做規定，但要求連續型自變量與logitπ之間呈線性關系[3]。本次研究以logistic回歸模型為例，探討連續型自變量的處理方法，其他類型的多因素回歸分析可類推。

研究方法

1.模擬數據的產生

利用R軟件以成組設計病例對照研究為研究背景產生模擬數據，選取效應量作為關鍵指標，以控制自變量和結局變量之間發生假陽性關聯的情形，其計算公式如下，

d=(M1-M2)/σpooled

(1)

(2)

上式中M1和M2分別代表實驗組和對照組的均數，σ1和σ2分別代表兩組的標準差，σpooled為兩組合并計算的標準差。具體模擬條件設定如下：設定病例組和對照組的“年齡”(age)均服從正態分布，固定病例組和對照組標準差的取值相等，依次增加兩組均數的差值，使效應量的大小從0.1依次增加到1.2，每組樣本量為1000，從而產生模擬數據集A1～A12(logitπ隨自變量的增加而線性地增加)。

2.連續型自變量與logitπ線性關系的判斷

3.模型擬合效果的評價

模型擬合效果采用-2Loglikelihood和最小信息準則，即AIC準則(akaike information criterion)進行評價。AIC準則由日本統計學家Akaike于1973年提出。其基本思想是從兩方面評價模型擬合效果的優劣：一方面是考慮模型擬合程度的似然函數值；另一方面是考慮模型中未知參數的個數。一個好的擬合模型應該是較優擬合精度和較少未知參數個數的綜合最優配置，不同模型擬合效果比較使AIC函數達到最小的模型被認為是最優模型。

模擬研究結果

1.模擬數據集A產生的條件及基本信息匯總

由表1可見，模擬數據集A采用半參數回歸模型擬合后，均有自由度df=2，說明logitπ與自變量間呈線性關系。

表1 模擬數據集A基本信息匯總表

*：代表病例組和對照組合并后所得數據集的中位數。

2.模擬數據集A中logitπ與自變量間的函數關系圖

logitπ與自變量間函數關系圖(圖1)顯示，在各模擬數據集中二者均呈線性變化關系。

3.采用原始值法、中位數截斷法擬合logistic回歸模型

兩種方法擬合logistic回歸模型的信息及有關評價指標如表2、圖2所示：

由表2及圖2可見當logitπ與自變量間呈單調變化關系時，若采用中位數法對連續型自變量截斷成二分類后擬合logistic回歸模型會損失信息量，主要表現為中位數法較原始取值法擬合logistic回歸模型會導致-2Loglikelihood和AIC增加、參數估計值的假設檢驗統計量χ2值減小(P值增大)、并且這種變化隨著病例組和對照組均數差別的增大更為明顯。當效應值較小時(效應值在0.1～0.3)，隨著效應值的增加，兩種方法所得檢驗功效逐漸增大，并且兩者的差距越來越小，效應值較大時兩種方法所得檢驗功效均為1。

4.實例分析

實例數據來自一項有關高血壓患者發病影響因素的現況研究。選取是否患有高血壓作為因變量，年齡作為自變量，通過實例數據比較2種方法對原始數據進行預處理后擬合logistic回歸模型的效果。實例數據分析中logitπ與自變量間的函數關系圖3所示，兩種方法擬合logistic回歸模型的信息如表3所示。由表3及圖3可見當logitπ與自變量間為單調變化關系時，若采用中位數法對連續型自變量二分類后擬合logistic回歸模型會損失信息量，主要表現為中位數法較原始取值法擬合logistic回歸模型會導致AIC增加、χ2值減小。

圖1 模擬數據集中logitπ與自變量間的函數關系圖

模擬研究名稱數據預處理方法統計量(χ2)POR的95%CIAIC-2LoglikelihoodA1原始值法112.8803.320e-041.017(1.007,1.026)2763.62759.586中位數法24.2293.974e-021.202(1.009,1.433)2772.42768.355A2原始值法133.4997.132e-091.027(1.018,1.036)2742.22738.241中位數法216.1565.833e-051.435(1.203,1.711)2760.42756.367A3原始值法162.4572.723e-151.038(1.028,1.047)2711.12707.092中位數法236.7621.335e-091.729(1.448,2.063)2739.52735.482A4原始值法198.1903.802e-231.049(1.039,1.058)2670.62666.595中位數法259.9329.819e-152.020(1.691,2.414)2715.72711.727A5原始值法1138.9164.596e-321.059(1.049,1.070)2621.32617.319中位數法285.2542.624e-202.326(1.945,2.783)2689.42685.426A6原始值法1182.8031.184e-411.070(1.060,1.081)2563.92559.919中位數法2120.4115.142e-282.754(2.298,3.301)2652.32648.288A7原始值法1228.0961.551e-511.082(1.071,1.093)2499.12495.117中位數法2165.4787.192e-383.330(2.772,4.000)2603.62599.551A8原始值法1273.2102.222e-611.093(1.081,1.105)2427.72423.680中位數法2207.0386.083e-473.905(3.244,4.702)2557.42553.386A9原始值法1316.7767.120e-711.104(1.092,1.117)2350.42346.409中位數法2282.0622.668e-635.096(4.214,6.612)2470.72466.717A10原始值法1357.6699.057e-801.116(1.103,1.129)2268.12264.117中位數法2324.3471.637e-725.879(4.848,7.129)2419.72415.731A11原始值法1395.0096.685e-881.128(1.114,1.141)2181.62177.623中位數法2365.6591.649e-816.745(5.546,8.203)2368.22364.218A12原始值法1428.1513.976e-951.140(1.126,1.154)2091.72087.735中位數法2427.2696.383e-958.271(6.770,10.106)2287.82283.818

圖2 模擬數據集A兩種方法擬合logistic回歸模型效果比較

圖3 實例數據logitπ與自變量間的函數關系圖

討論

logistic回歸模型對自變量類型一般不做要求，但規定logitπ與連續型自變量之間需滿足線性關系。嚴格來說，在應用logistic回歸之前必須先檢驗logitπ與連續型自變量之間是否符合線性關系，因為如果兩者之間的關系是非線性的，參數估計將會發生偏差，從而導致結果不準確以及結論不可靠。周春蓮等[5]對1996-2002年發表在《中華流行病學雜志》上應用logistic回歸分析的111篇文章進行系統回顧分析，發現在111篇文章中沒有一篇提及兩者之間的線性關系問題，說明在實際應用中這是一個很容易被忽視的問題。

表3 實例數據擬合logistic回歸模型信息匯總表

本研究利用半參數回歸模型對logitπ和連續型自變量之間的函數關系進行判斷。半參數回歸模型是參數回歸模型和非參數回歸模型的一種概括，其中的參數分量部分是對確定性影響因素進行分析，而非參數分量部分則是對隨機干擾因素的刻畫[6]。半參數回歸模型是參數線性模型和非參數回歸模型的混合模型，其較參數線性模型有較強的適應性[7]。在醫學研究中研究者經常從臨床應用的角度考慮，將連續型的自變量轉變為二分類變量后擬合回歸模型[2]，目前常用的分類方法為中位數法[8]。當logitπ和連續型自變量之間滿足線性關系，若采用中位數截斷法進行分類后擬合logistic回歸模型會導致信息量的損失。因此，當logitπ和連續型自變量之間滿足線性關系時，建議采用連續型自變量擬合logistic回歸模型，而非進行二分類預處理后擬合logistic回歸模型。對于連續型自變量和logitπ為非單調變化關系的數據類型，本文研究者也進行了相關研究，建議借助OR值最大化的原則，對連續型自變量進行分類后擬合logistic回歸模型[3]。

[1] Sauerbrei W,Royston P.Continuous Variables:To Categorize or to Model? In:Reading,C.(Ed.):The 8th International Conference on Teaching Statistics-Data and Context in statistics education:Towards an evidence based society.International statistical Institute,Voorburg,2010.

[2] Brent Williams MS,Jayawant N.Mandrekar PD,Sumithra J.Mandrekar PD,et al.Finding Optimal Cutpoints for Continuous Covariateswith Binary and Time-to-Event Outcomes.Technical Report Series #79,2006.

[3] 何賢英,趙志,溫興煊,等.logistic回歸中連續型自變量離散化為二分類變量時適宜分界點的確定.中國衛生統計,2015(02):275-277.

[4] Handan W,Ramjee G.Analyzing Continuous Measures in HIV Prevention Research Using Semiparametric Regression and Parametric Regression Models:How to Use Data to Get the(Right)Answer?.AIDS and Behavior,2012,16(6):1448-1453.

[5] 馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題.中華流行病學雜志,2004(06):92-93.

[6] Rosenberg PS,Katki H,Swanson CA,et al.Quantifying epidemologic risk factors using non-parametric regression:model selection remains the greatest challenge.Statistics in Medicine,2003,22(21):3369-3381.

[7] 王成勇.半參數回歸模型研究綜述.數理統計與管理,2009,28(5):845-857.

[8] MacCallum RC,Zhang S,Preacher KJ.On the practice of dichotomization of quantitative variables.Psychological Methods,2002,7(1):19-40.

ComparingtheEffectsofContinuousVariablesMethodandMedianSplitMethodFittingLogisticRegressionModel

He Xianying,Zhao Zhi,Huang Jialing,et al

(SchoolofPublicHealth,SunYat-senUniversity(510080)，Guangzhou)

ObjectiveTo explore the difference between continuous variables method and median split method in fitting logistic regression model,when independent variables and logitπmeet linear relationship.MethodsThe simulation data were generated on the basis of two group divisible design case-control study.Justify the monotonerelationship between covariate and logitπby the “SmeiPar” software package of R software.Using continuous variables and median split method to discretize raw data,and then fit the logistic regression models.ResultsCompared with the median split method,the continuous variables method did better in goodness-of-fit test.ConclusionIt is recommended to use two cut-off points maximum OR values method to discrete continuous variables if the relationship between these variables and logitπis monotonic.

Continuous variables method;Median split method;Logistic regression;Semi-parametric regression;AIC

廣東省科技計劃項目(2014A020212713);中山大學教學改革研究重點項目(中大教務〔2017〕79-12-25)

△通信作者：張晉昕，E-mail:zhjinx@mail.sysu.edu.cn

郭海強)

自變量連續型測定值及基于中位數的0～1轉化值擬合logistic回歸模型的效果比較*

研究方法

模擬研究結果

討 論

討論