999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自變量連續型測定值及基于中位數的0~1轉化值擬合logistic回歸模型的效果比較*

2018-01-03 01:42:49何賢英黃嘉玲陳逸敏張晉昕
中國衛生統計 2017年6期
關鍵詞:分類模型研究

何賢英 趙 志 黃嘉玲 陳逸敏 張晉昕

中山大學公共衛生學院醫學統計與流行病學系(510080)

自變量連續型測定值及基于中位數的0~1轉化值擬合logistic回歸模型的效果比較*

何賢英 趙 志 黃嘉玲 陳逸敏 張晉昕△

中山大學公共衛生學院醫學統計與流行病學系(510080)

目的探討當logitπ與連續型自變量之間呈線性關系時,采用原始值法和中位數截斷法擬合logistic回歸模型的差異。方法以成組設計病例對照研究為背景產生模擬數據,應用R軟件“SmeiPar”軟件包對logitπ與連續型自變量間函數關系進行判斷,進而采用原始值法和中位數截斷法分別擬合logistic回歸模型。結果原始值法較中位數截斷法能夠更好地擬合logistic回歸模型。結論當logitπ與連續型自變量間呈線性關系時,建議采用原始值法。

原始值法中位數截斷法 logistic回歸 半參數回歸 AIC

在醫學和流行病學研究中以連續型變量作為解釋變量很常見,研究者常利用這些變量,采用多因素回歸模型刻畫其與結局間的關聯,進而探索疾病的危險因素、估計預后、指導治療等[1]。研究者從臨床應用及統計分析的角度考慮,經常將連續型自變量轉變為二分類變量進行分析[2],然而,在模型構建時,研究者對于應用條件的把握上尚存在諸多誤區。logistic回歸模型對自變量類型一般不做規定,但要求連續型自變量與logitπ之間呈線性關系[3]。本次研究以logistic回歸模型為例,探討連續型自變量的處理方法,其他類型的多因素回歸分析可類推。

研究方法

1.模擬數據的產生

利用R軟件以成組設計病例對照研究為研究背景產生模擬數據,選取效應量作為關鍵指標,以控制自變量和結局變量之間發生假陽性關聯的情形,其計算公式如下,

d=(M1-M2)/σpooled

(1)

(2)

上式中M1和M2分別代表實驗組和對照組的均數,σ1和σ2分別代表兩組的標準差,σpooled為兩組合并計算的標準差。具體模擬條件設定如下:設定病例組和對照組的“年齡”(age)均服從正態分布,固定病例組和對照組標準差的取值相等,依次增加兩組均數的差值,使效應量的大小從0.1依次增加到1.2,每組樣本量為1000,從而產生模擬數據集A1~A12(logitπ隨自變量的增加而線性地增加)。

2.連續型自變量與logitπ線性關系的判斷

3.模型擬合效果的評價

模型擬合效果采用-2Loglikelihood和最小信息準則,即AIC準則(akaike information criterion)進行評價。AIC準則由日本統計學家Akaike于1973年提出。其基本思想是從兩方面評價模型擬合效果的優劣:一方面是考慮模型擬合程度的似然函數值;另一方面是考慮模型中未知參數的個數。一個好的擬合模型應該是較優擬合精度和較少未知參數個數的綜合最優配置,不同模型擬合效果比較使AIC函數達到最小的模型被認為是最優模型。

模擬研究結果

1.模擬數據集A產生的條件及基本信息匯總

由表1可見,模擬數據集A采用半參數回歸模型擬合后,均有自由度df=2,說明logitπ與自變量間呈線性關系。

表1 模擬數據集A基本信息匯總表

*:代表病例組和對照組合并后所得數據集的中位數。

2.模擬數據集A中logitπ與自變量間的函數關系圖

logitπ與自變量間函數關系圖(圖1)顯示,在各模擬數據集中二者均呈線性變化關系。

3.采用原始值法、中位數截斷法擬合logistic回歸模型

兩種方法擬合logistic回歸模型的信息及有關評價指標如表2、圖2所示:

由表2及圖2可見當logitπ與自變量間呈單調變化關系時,若采用中位數法對連續型自變量截斷成二分類后擬合logistic回歸模型會損失信息量,主要表現為中位數法較原始取值法擬合logistic回歸模型會導致-2Loglikelihood和AIC增加、參數估計值的假設檢驗統計量χ2值減小(P值增大)、并且這種變化隨著病例組和對照組均數差別的增大更為明顯。當效應值較小時(效應值在0.1~0.3),隨著效應值的增加,兩種方法所得檢驗功效逐漸增大,并且兩者的差距越來越小,效應值較大時兩種方法所得檢驗功效均為1。

4.實例分析

實例數據來自一項有關高血壓患者發病影響因素的現況研究。選取是否患有高血壓作為因變量,年齡作為自變量,通過實例數據比較2種方法對原始數據進行預處理后擬合logistic回歸模型的效果。實例數據分析中logitπ與自變量間的函數關系圖3所示,兩種方法擬合logistic回歸模型的信息如表3所示。由表3及圖3可見當logitπ與自變量間為單調變化關系時,若采用中位數法對連續型自變量二分類后擬合logistic回歸模型會損失信息量,主要表現為中位數法較原始取值法擬合logistic回歸模型會導致AIC增加、χ2值減小。

圖1 模擬數據集中logitπ與自變量間的函數關系圖

模擬研究名稱數據預處理方法統計量(χ2)POR的95%CIAIC-2LoglikelihoodA1原始值法112.8803.320e-041.017(1.007,1.026)2763.62759.586中位數法24.2293.974e-021.202(1.009,1.433)2772.42768.355A2原始值法133.4997.132e-091.027(1.018,1.036)2742.22738.241中位數法216.1565.833e-051.435(1.203,1.711)2760.42756.367A3原始值法162.4572.723e-151.038(1.028,1.047)2711.12707.092中位數法236.7621.335e-091.729(1.448,2.063)2739.52735.482A4原始值法198.1903.802e-231.049(1.039,1.058)2670.62666.595中位數法259.9329.819e-152.020(1.691,2.414)2715.72711.727A5原始值法1138.9164.596e-321.059(1.049,1.070)2621.32617.319中位數法285.2542.624e-202.326(1.945,2.783)2689.42685.426A6原始值法1182.8031.184e-411.070(1.060,1.081)2563.92559.919中位數法2120.4115.142e-282.754(2.298,3.301)2652.32648.288A7原始值法1228.0961.551e-511.082(1.071,1.093)2499.12495.117中位數法2165.4787.192e-383.330(2.772,4.000)2603.62599.551A8原始值法1273.2102.222e-611.093(1.081,1.105)2427.72423.680中位數法2207.0386.083e-473.905(3.244,4.702)2557.42553.386A9原始值法1316.7767.120e-711.104(1.092,1.117)2350.42346.409中位數法2282.0622.668e-635.096(4.214,6.612)2470.72466.717A10原始值法1357.6699.057e-801.116(1.103,1.129)2268.12264.117中位數法2324.3471.637e-725.879(4.848,7.129)2419.72415.731A11原始值法1395.0096.685e-881.128(1.114,1.141)2181.62177.623中位數法2365.6591.649e-816.745(5.546,8.203)2368.22364.218A12原始值法1428.1513.976e-951.140(1.126,1.154)2091.72087.735中位數法2427.2696.383e-958.271(6.770,10.106)2287.82283.818

圖2 模擬數據集A兩種方法擬合logistic回歸模型效果比較

圖3 實例數據logitπ與自變量間的函數關系圖

討 論

logistic回歸模型對自變量類型一般不做要求,但規定logitπ與連續型自變量之間需滿足線性關系。嚴格來說,在應用logistic回歸之前必須先檢驗logitπ與連續型自變量之間是否符合線性關系,因為如果兩者之間的關系是非線性的,參數估計將會發生偏差,從而導致結果不準確以及結論不可靠。周春蓮等[5]對1996-2002年發表在《中華流行病學雜志》上應用logistic回歸分析的111篇文章進行系統回顧分析,發現在111篇文章中沒有一篇提及兩者之間的線性關系問題,說明在實際應用中這是一個很容易被忽視的問題。

表3 實例數據擬合logistic回歸模型信息匯總表

本研究利用半參數回歸模型對logitπ和連續型自變量之間的函數關系進行判斷。半參數回歸模型是參數回歸模型和非參數回歸模型的一種概括,其中的參數分量部分是對確定性影響因素進行分析,而非參數分量部分則是對隨機干擾因素的刻畫[6]。半參數回歸模型是參數線性模型和非參數回歸模型的混合模型,其較參數線性模型有較強的適應性[7]。在醫學研究中研究者經常從臨床應用的角度考慮,將連續型的自變量轉變為二分類變量后擬合回歸模型[2],目前常用的分類方法為中位數法[8]。當logitπ和連續型自變量之間滿足線性關系,若采用中位數截斷法進行分類后擬合logistic回歸模型會導致信息量的損失。因此,當logitπ和連續型自變量之間滿足線性關系時,建議采用連續型自變量擬合logistic回歸模型,而非進行二分類預處理后擬合logistic回歸模型。對于連續型自變量和logitπ為非單調變化關系的數據類型,本文研究者也進行了相關研究,建議借助OR值最大化的原則,對連續型自變量進行分類后擬合logistic回歸模型[3]。

[1] Sauerbrei W,Royston P.Continuous Variables:To Categorize or to Model? In:Reading,C.(Ed.):The 8th International Conference on Teaching Statistics-Data and Context in statistics education:Towards an evidence based society.International statistical Institute,Voorburg,2010.

[2] Brent Williams MS,Jayawant N.Mandrekar PD,Sumithra J.Mandrekar PD,et al.Finding Optimal Cutpoints for Continuous Covariateswith Binary and Time-to-Event Outcomes.Technical Report Series #79,2006.

[3] 何賢英,趙志,溫興煊,等.logistic回歸中連續型自變量離散化為二分類變量時適宜分界點的確定.中國衛生統計,2015(02):275-277.

[4] Handan W,Ramjee G.Analyzing Continuous Measures in HIV Prevention Research Using Semiparametric Regression and Parametric Regression Models:How to Use Data to Get the(Right)Answer?.AIDS and Behavior,2012,16(6):1448-1453.

[5] 馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題.中華流行病學雜志,2004(06):92-93.

[6] Rosenberg PS,Katki H,Swanson CA,et al.Quantifying epidemologic risk factors using non-parametric regression:model selection remains the greatest challenge.Statistics in Medicine,2003,22(21):3369-3381.

[7] 王成勇.半參數回歸模型研究綜述.數理統計與管理,2009,28(5):845-857.

[8] MacCallum RC,Zhang S,Preacher KJ.On the practice of dichotomization of quantitative variables.Psychological Methods,2002,7(1):19-40.

ComparingtheEffectsofContinuousVariablesMethodandMedianSplitMethodFittingLogisticRegressionModel

He Xianying,Zhao Zhi,Huang Jialing,et al

(SchoolofPublicHealth,SunYat-senUniversity(510080),Guangzhou)

ObjectiveTo explore the difference between continuous variables method and median split method in fitting logistic regression model,when independent variables and logitπmeet linear relationship.MethodsThe simulation data were generated on the basis of two group divisible design case-control study.Justify the monotonerelationship between covariate and logitπby the “SmeiPar” software package of R software.Using continuous variables and median split method to discretize raw data,and then fit the logistic regression models.ResultsCompared with the median split method,the continuous variables method did better in goodness-of-fit test.ConclusionIt is recommended to use two cut-off points maximum OR values method to discrete continuous variables if the relationship between these variables and logitπis monotonic.

Continuous variables method;Median split method;Logistic regression;Semi-parametric regression;AIC

廣東省科技計劃項目(2014A020212713);中山大學教學改革研究重點項目(中大教務〔2017〕79-12-25)

△通信作者:張晉昕,E-mail:zhjinx@mail.sysu.edu.cn

郭海強)

猜你喜歡
分類模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
分類討論求坐標
數據分析中的分類討論
主站蜘蛛池模板: 在线国产你懂的| 国产成人久久综合一区| www.91中文字幕| 国产成人精品一区二区| 波多野结衣中文字幕一区| A级毛片无码久久精品免费| 欧美天堂久久| 亚洲经典在线中文字幕| 国产免费怡红院视频| 67194在线午夜亚洲| 国产乱人免费视频| 亚洲国产中文欧美在线人成大黄瓜 | 国产精品无码翘臀在线看纯欲| 国产精欧美一区二区三区| 最新午夜男女福利片视频| 高潮毛片无遮挡高清视频播放| 亚洲手机在线| 久青草网站| 少妇极品熟妇人妻专区视频| 91成人试看福利体验区| 国产极品粉嫩小泬免费看| 热99re99首页精品亚洲五月天| 国产九九精品视频| 欧美一级大片在线观看| 精品国产毛片| 香蕉久久国产超碰青草| 国产成人综合日韩精品无码不卡| 玩两个丰满老熟女久久网| 91综合色区亚洲熟妇p| 91精品国产无线乱码在线| 亚洲码一区二区三区| 四虎永久免费在线| 亚洲精品爱草草视频在线| 国产精品99一区不卡| 操国产美女| a级免费视频| 国产精品黄色片| 97se亚洲综合在线天天| 色婷婷狠狠干| 亚洲中文在线看视频一区| 国产91丝袜在线播放动漫| 在线观看免费黄色网址| 久久精品国产亚洲麻豆| AV天堂资源福利在线观看| 香蕉综合在线视频91| 狠狠色综合久久狠狠色综合| 久久婷婷国产综合尤物精品| 国产精品真实对白精彩久久| 乱人伦视频中文字幕在线| 国产精品成人第一区| 国产午夜福利亚洲第一| 国产91成人| 一级毛片在线直接观看| 亚洲无码日韩一区| 亚洲女同一区二区| 国产97色在线| 免费在线看黄网址| 午夜啪啪网| 国产高清又黄又嫩的免费视频网站| 高清不卡毛片| 国产精品性| 在线人成精品免费视频| 亚洲成年人片| 久久精品国产国语对白| 免费a级毛片视频| 久久精品国产精品国产一区| 国产成人高清精品免费| 福利在线不卡一区| 国模沟沟一区二区三区| 91麻豆国产视频| 亚洲欧美综合在线观看| 亚洲国产成人久久77| 五月婷婷丁香综合| 黄色网址免费在线| 永久在线播放| 一级毛片免费不卡在线视频| 天堂成人av| 激情影院内射美女| 99国产在线视频| 亚洲高清免费在线观看| 19国产精品麻豆免费观看| 在线免费观看AV|