999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

定量變量的分級方法對logistic模型影響的研究*

2014-04-03 07:49:24周凌峰安勝利
中國衛生統計 2014年4期
關鍵詞:方法模型研究

周凌峰 安勝利

logistic回歸分析是用于篩選影響因素及建立預測模型的最常用的方法之一,它的綜合預報效果具有很好的穩健性和非模糊性[1-2]。在logistic回歸分析中,常會用到三種自變量類型:定量變量、等級變量及分類變量,為使得OR值具有更明確的臨床意義或便于預測模型的實際應用,研究者[3-5]常將有統計學意義的定量變量轉化為兩個或兩個以上等級,并賦予相應的分數。但目前等級劃分方法大多是由研究者主觀決定,若分界點選擇不當,其模型預測效果便會受到影響,甚至會影響到研究結論的正確性。本研究擬在計算機上以常用的非條件二分類logistic回歸分析為例進行模擬研究,在不同的參數條件下,對有統計學意義的自變量進行不同數量、不同方式的等級劃分,建立預測模型,考察其預測效果的變化規律,并對所得結論以實例進行考核,以期發現各種參數條件下合理的等級劃分方法。為建立更準確、實用的logistic預測模型提供可靠的變量轉化依據。

方 法

為了便于解釋,本研究將模擬數據簡化設計為僅有一個自變量X(連續變量)及一個因變量Y(0-1變量),然后觀測各種轉換方法對預測模型的影響規律,進而延伸說明多個自變量情況下該指標的變化狀況。

1.自變量

利用R語言,模擬產生單個自變量,考慮三種分布狀況,即標準正態分布、正偏態分布、負偏態分布。標準正態分布使用rnorm( )語句直接生成。正(負)偏態則采取以下方法產生。以正偏態為例,生成1000例標準正態分布數據,并截掉大于0.8的部分,同時再生成1000例0至5.5服從均勻分布的數據,合并二者后,從中選取1500例,最后得到近似正偏態的數據。負偏態自變量采取類似方法。

2.因變量

為了保證原始數據中自變量與因變量經logistic回歸分析具有一定的聯系,因變量可利用自變量通過公式產生;鑒于因變量0、1的分布在實際數據中存在不同,我們通過調整OR值來改變Y的分布。方法如下:

利用logistic回歸模型計算陽性事件發生概率P:

(1)

式中e為隨機誤差,服從標準正態分布。

假定β0為任意已知常數,如0.2,取βm為log(OR),并取多種OR值情況(如OR=1.5~5,以0.5為間隔)。當確定某OR值后,便可通過上式計算相應的陽性事件發生概率P,對應的因變量Y則由0-1二項分布函數計算得到。

3.確定樣本含量

對上述產生的數據逐步增加樣本含量,并觀察自變量轉換后,其與因變量的關系變化,當這種關系穩定時所對應的樣本含量即為所需模擬的樣本含量大小。經測試,樣本量為1500時滿足上述要求。

4.自變量分級方法

共考慮三種分級數,即二級、三級、四級分類。

(1)二級分類

均數分級:以均數為分割點分為兩級;中位數分級:以中位數為分割點分為兩級;ROC分級:對自變量與因變量做ROC曲線,取約登指數最大的自變量值為分割點。分別賦為0、1。

(2)三級分類

(3)四級分類

百分位四等分:將自變量從小到大排序,并依據總的樣本量平均分為四級,各級觀察單位數約占總樣本量的25%;極差四等分分級:自變量最大值減最小值所得區間平均分為四份,分別賦為0、1、2、3。

5.評價指標

從現行的一些研究來看,學者們[6-9]較為關注兩個方面,一方面是分級后的自變量對因變量的預測準確程度;另一方面,分級后變量在回歸中的擬合效果。對于前者,人們普遍采用ROC曲線下面積AUC[10]來衡量其優劣程度,本研究亦采用AUC作為其中一種評價指標。在第二方面,本研究擬采用AIC信息量[11]。

在各種參數條件下(OR=1.5~5,以0.5為間隔),對模擬數據(分別對不分級、各分級情形)計算AUC,同時再進行logistic回歸計算AIC信息量,重復模擬1000次,并計算上述兩指標的平均值及標準差。

6.模擬次數確定

不同分布、不同OR值下,當AUC、AIC均值達到穩定時所對應的模擬次數即為所需模擬的總次數。經過測試,本研究各種情況下模擬次數取1000次即可達到穩定。

結 果

正態和部分正偏態分布模擬結果見圖1-圖5。

圖1 正態分布分二級

1.二級分級

正態分布下均數與中位數分級結果基本沒有區別(理論上也應如此)。分級首選為ROC分級,其次為均數或中位數分級。

偏態分布時,首選ROC分級,其余方法AUC和AIC兩指標無法同時最優,若以AIC為首選指標,則最優為均數分級,若以AUC為首選指標則最優為中位數分級。

2.三級分級

圖2 正態分布分三級

偏態時,均數±標準差不宜作為統計描述指標,因此不做模擬,從優到劣的分級方法順序為百分位三等分、四分位數分級、極差三等分分級。

3.四級分級

正態分布或偏態分布下,方法優先順序均為百分位數四等分分級、極差四等分分級,其中偏態分布下,OR值<3時,AIC信息量曲線略有交叉,OR>3后百分位數四等分分級AIC略優于極差四等分,但二者區別不大。

實例考核

1.實例背景

某研究在各個時間點均獲得57名病人的各指標結果,如neu,wbc,crp等,并以記錄病人是否發生了感染(1-發生感染,0-未發生感染),目的是用特定時間的指標建立診斷、預測感染的模型。現假設需要對其中的第9個時間點的某定量指標(neu9)進行分級,將其轉換為等級變量來建立預測感染模型。

2.實例分級驗證

首先,確定該定量變量(neu9)的分布,經Kolmogorov-Smirnov以及Shapiro-Wilk正態性檢驗,P值均大于0.10,可以近似看作正態分布。經logistic回歸分析,有統計學意義,并計算出該變量OR值為1.1,假定欲將neu9分別分為二級、三級、四級,所得結果如表1。

圖3 正態分布分四級

表1 實例考核結果

該定量變量OR<1.5,對比前述模擬結果,由表1可知,實例數據所得結論基本符合模擬結果給出的預期結論。

由此,綜合以上結論分析,我們可以給出OR為1.5~5內的一個簡明的分級建議,見表2。

圖4 正偏態分布二級

表2 三種分布分級建議

其他數據分布若與上述特定分布存在較大偏差,則最優分級方法可能會與上述分級建議不一致。建議通過比較不同分級方法下的ROC曲線下面積、AIC信息量兩指標,擇優選擇。

改進方向

目前還有一些其他學者提出的分級方法未能在本研究中進行演示,擬在今后的研究中,繼續拓展分級方法,給出更多的分級參考。另外,由于偏態分布模擬沒有特定的參數標準,實際的偏態分布形式多樣。經本研究的驗證,不同偏態分布數據可能得到不同最優分級方法,因此對于特定偏態分布本研究的分級建議參考價值有限。本研究在數據模擬中,OR值取值范圍為常見的1.5~5(以0.5為間隔),如果繼續擴大OR值的取值范圍,AUC和AIC結果會否出現其他結論?其對分級方法的選擇又有何影響?這將在以后的研究中繼續探討。

圖5 正偏態分布三級

參 考 文 獻

1.鐘曉妮,周燕榮.女性乳腺癌預報模型研究.數理醫藥學雜志,2002,15(1):4-6.

2.Steyerberg EW,Eijkemans MJ,Harrell FE Jr.Prognostic modeling with logistic regression analysis:in search of a sensible strategy in small data sets.Medical Decision Making,2001,21 (1):45-56.

3.萬偉.影響老年高血壓患者血壓控制率因素的Logistic回歸分析.高血壓雜志,2001,9(1):74-75.

4.陳暉,王小波,張麗萍,等.中老年人牙列缺損危險因素的Logistic回歸分析.山東醫藥,2010,50(48):48-49.

5.Subherwal S,Richard GB,Anita YC,et al.Baseline Risk of Major Bleeding in Non-ST-Segment-Elevation Myocardial Infarction.Circulation,2009,119:1843-1845.

6.劉寶利,楊寶友,鄭桂敏,等.logistic回歸和ROC曲線綜合評價檢測四種尿蛋白排泄對早期腎小球疾病的診斷價值.中國中西醫結合腎病雜志,2011,12(8):695-697.

7.Kheterpal S,Kevin KT,Heung M,et al.Development and Validation of an Acute Kidney Injury Risk Index for Patients Undergoing General Surgery.Anesthesiology,2009,110:505-15.

8.Kim MY,Jang HR,Wooseong Huh.Incidence,Risk Factors,and Prediction of Acute Kidney Injury After Off-Pump Coronary Artery Bypass Grafting.Renal Failure,2011,33(3):316-322.

9.Palomba H,de Castro I,Neto ALC,et al.Acute kidney injury prediction following elective cardiac surgery:AKICS Score.Kidney International,2007 (72):624-631.

10.李康.連續變量診斷試驗數據的ROC分析.中國衛生統計,2007,14(1):1-4.

11.王濟川,郭志剛.Logistic回歸模型——方法與應用.北京:高等教育出版社.2001.

猜你喜歡
方法模型研究
一半模型
FMS與YBT相關性的實證研究
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 免费一级无码在线网站| 黄片一区二区三区| 国产玖玖视频| 免费高清毛片| 欧美另类一区| 亚洲熟女中文字幕男人总站| 鲁鲁鲁爽爽爽在线视频观看| 日韩欧美91| 日本免费福利视频| 亚洲高清资源| 国产对白刺激真实精品91| 浮力影院国产第一页| 亚洲天堂网在线视频| 日本免费福利视频| 成人精品午夜福利在线播放| 国产一区二区三区日韩精品| 麻豆精品在线播放| 伊大人香蕉久久网欧美| 亚洲精品国产日韩无码AV永久免费网| www.精品视频| 国产精品三级av及在线观看| 欧美在线天堂| 精品国产www| 国产精品成人免费视频99| 青青青国产精品国产精品美女| 国产成人免费观看在线视频| 亚洲福利片无码最新在线播放 | 国产精品夜夜嗨视频免费视频| 丝袜亚洲综合| 成人国产免费| 久久国产精品波多野结衣| 国产亚洲视频在线观看| 久久一日本道色综合久久| 香蕉伊思人视频| 欧美人与牲动交a欧美精品| 国产精品流白浆在线观看| 99re在线视频观看| 老司机精品久久| 午夜视频www| 久久熟女AV| 精品无码日韩国产不卡av | 国产欧美专区在线观看| V一区无码内射国产| 欧美亚洲中文精品三区| 伊人成色综合网| 亚洲精品无码抽插日韩| 青青青国产视频| 热思思久久免费视频| 成人a免费α片在线视频网站| 婷婷综合在线观看丁香| 久久久久无码精品国产免费| 久久五月天国产自| 无码人中文字幕| 99久久国产综合精品女同| 亚洲国产一区在线观看| 欧美日韩动态图| 亚洲天堂免费观看| 亚洲人成人无码www| aaa国产一级毛片| 色综合手机在线| 国产Av无码精品色午夜| 女人18毛片水真多国产| 免费在线一区| 国产成人禁片在线观看| 九九久久精品国产av片囯产区| 亚洲swag精品自拍一区| 国产人成乱码视频免费观看| 精品国产91爱| 日本午夜精品一本在线观看| 国内99精品激情视频精品| 免费久久一级欧美特大黄| 亚洲91在线精品| 欧美视频在线播放观看免费福利资源 | 国产日韩精品一区在线不卡| 精品人妻一区无码视频| 99国产在线视频| 久久人搡人人玩人妻精品| 国产一级精品毛片基地| 一级毛片高清| 亚洲精品自产拍在线观看APP| 亚洲三级a| 在线国产毛片|