蚌埠醫學院預防醫學系(233030)
宋 健 吳學森△ 張 杰 張玉媛 陳 雪
三種統計學模型在糖尿病個體患病風險預測中的應用*
蚌埠醫學院預防醫學系(233030)
宋 健 吳學森△張 杰 張玉媛 陳 雪
目的 探討logistic回歸、BP神經網絡和決策樹分析模型在預測個體2型糖尿病患病風險中的應用。方法 分別應用logistic回歸、BP神經網絡與決策樹建立2型糖尿病預測模型,通過受試者工作特征曲線評價模型的預測效能。結果 共550名糖尿病患者和1100名非糖尿病患者納入本次研究。logistic回歸、BP神經網絡和決策樹分析模型的預測一致率分別為80.8%、84.1%和81.1%。3種模型ROC曲線下面積(AUC)分別為0.739、0.777和0.737。BP神經網絡的AUC與logistic模型和決策樹分析模型的均有統計學差異(P<0.05)。結論 BP神經網絡在預測個體患2型糖尿病方面具有更好的預測效能。
2型糖尿病 logistic回歸 BP神經網絡 決策樹分析
2型糖尿病是嚴重危害人類健康的重大公共衛生問題,全世界約有超過3.5億人患有2型糖尿病[1]。中國是世界上糖尿病患病人數最多的國家,患病率高達11.6%[2]。有效地對個體進行糖尿病風險評估,可以篩選出高危人群,并通過一系列的行為和生活方式干預,減少糖尿病及相關并發癥的發生。數據挖掘技術是近些年來廣泛應用于醫學領域的一種新的分析方法,在疾病診斷、預后、風險評估等方面具有良好的應用價值[3-5]。數據挖掘技術可以充分利用已有數據的信息,從具有重復性、多樣性及不規范性等特點的復雜的醫學數據中提取出有價值的信息,并為臨床決策提供幫助[6-7]。其中,應用最廣泛的有采用誤差反向傳遞(back propagation,BP)學習方法的BP神經網絡和決策樹分析模型。本文采用慢性病社區調查數據,探討BP神經網絡與決策樹分析模型在糖尿病個體風險預測中的應用價值,并與傳統的logistics回歸進行比較,以求尋找到2型糖尿病風險預測的最佳數學模型。
1.資料來源
本課題組于2015年7月至8月,采用橫斷面調查方法,選擇蚌埠市龍子湖區共7個社區,以家庭為抽樣單位,共收回有效問卷3077份。調查內容包括兩個方面:問卷調查及體格和實驗室檢查。采用自行設計問卷,由經過培訓的課題組成員對社區居民進行問卷調查。調查問卷信息主要包括:受訪者的一般個人及家庭信息及生活行為方式;體格檢查指標有身高、體重、腰圍等;實驗室檢查指標主要包括:空腹血糖、血脂和糖化血紅蛋白等。數據首先錄入到Epidata軟件中,采用雙錄入方式,并逐一核對。
2.相關變量及定義
(1)體質指數(body mass index,BMI)=體重(kg)/身高(m)2,正常值:18.5≤BMI<24,<18.5或者>24均視為不正常;(2)高血壓:收縮壓/舒張壓≥140/90mmHg和/或已確診為高血壓者;(3)甘油三酯:正常值0.40~1.81mmol/L,超過此范圍均視為不正常;(4)糖化血紅蛋白:正常值小于等于6.5%,大于6.5%視為不正常;(5)腰臀比:正常值男性小于0.9,女性小于0.8;(6)吸煙:包括既往吸煙和正在吸煙的被調查者;(7)糖尿病:自報患者和新診斷患者,即無自報糖尿病史,但本次測定空腹血糖≥7.0 mmol/L者。
3.統計學分析
使用SPSS隨機數功能將數據集按3:1分為訓練數據和預測數據。訓練數據用于計算參數和建立模型,預測數據用于評估預測效果。
(1)logistic回歸:模型采用最大似然估計前進法,入選變量和剔除變量的標準分別是是P<0.05和P>0.10。
(2)BP神經網絡:采用SPSS 17.0統計軟件中的神經網絡模塊的多層感知器。輸入層變量為研究所納入的10個自變量,輸出層為是否發生糖尿病,定義隱藏層數為1。
(3)決策樹分析:選擇卡方自動交互檢測,使用分割樣本進行驗證,無交叉驗證,樹深度最大值為3。
(4)受試者工作特征曲線(receiver operator characteristic curve,ROC 曲線): 比較ROC曲線下面積(area under curve,AUC),最大者表示預測價值最佳。AUC值為0.5時,表明無診斷價值,首先要對AUC與0.5的差異進行統計學檢驗。AUC越接近1,價值越大。不同模型AUC的比較用統計量為Z的非參數檢驗。所有統計分析均由SPSS 17.0和Medcalc完成,P<0.05被認為差異具有統計學意義。
1.一般情況
共調查社區居民3077人。糖尿病患者550人,占調查對象的17.8%。按1∶2的原則在與病例生活在相同社區及工作性質相近的正常人群中選擇對照,即1100名非糖尿病患者納入此次分析中。本研究所選擇對象中,女性居民占57.7%(952人)略多于男性42.3%(698人)。50歲以上人群占多數,為69.0%。文化程度普遍偏低,大專及以上人群僅有158人,占研究對象的9.6%。被調查居民中吸煙人群占29.2%。BMI和腰臀比不正常者占很大比例,分別為58.7%和77.7%。有14%的研究對象有糖尿病家族史。具體信息見表1。

表1 調查對象的一般信息
2.logistic多因素分析
將所研究變量納入分析模型中,共有以下變量具有統計學意義,分別為年齡、BMI、糖化血紅蛋白、性別、家族史、甘油三酯。結果見表2。因此建立預測方程:P=1/(1+e(2.799-0.845×年齡-0.373×BMI-0.885×家族史-2.810×糖化血紅蛋白-0.588×性別-0.679×甘油三酯))。根據所建方程對預測集數據進行預測,其一致率為80.8%,ROC曲線下面積及95%CI為0.739(0.694~0.781)。

表2 糖尿病風險預測logistic多因素分析結果
3.BP神經網絡分析結果
所選自變量敏感度分析結果表明對糖尿病發生影響較大的前5位因素依此是糖化血紅蛋白(0.448)、年齡(0.102)、甘油三酯(0.094)、高血壓(0.069)和糖尿病家族史(0.059)。預測數據集結果顯示,其預測一致率為84.1%,ROC曲線下面積及95%CI為0.777(0.734~0.817)。
4.決策樹分析
樹的第一層為糖化血紅蛋白,說明糖化血紅蛋白與糖尿病關聯性最強。其余進入變量依次為年齡、甘油三酯、糖尿病家族史和性別。其預測的一致率為81.1%,ROC曲線下面積及95%CI為0.737(0.692~0.779)。
5.ROC曲線面積比較
三種模型的ROC曲線下面積與0.5均有統計學差異(P<0.05)。三種模型的ROC曲線下面積兩兩比較結果見表3,結果顯示BP神經網絡模型預測的ROC曲線下面積與logistic模型(Z=2.847,P=0.0044)和決策樹模型的ROC曲線下面積(Z=3.050,P=0.0023)的差異有統計學意義。而logistic模型和決策樹模型的AUC(Z=0.306,P=0.7594)的差異沒有統計學意義。三種模型的ROC曲線見圖1。

表3 三種模型曲線下面積兩兩比較結果

圖1 三種模型的ROC曲線
1.糖尿病及其風險預測
糖尿病不僅是威脅人類健康的重要疾病,同時也是很多嚴重疾病的致病因素,如冠心病、腫瘤等[8]。通過特定的數學模型進行個體糖尿病風險預測,為采取預防干預措施提供建議,有助于提高人群的健康水平和生活質量。本研究通過調查問卷所得變量,建立不同模型進行了比較,顯示神經網絡模型在預測上具有良好性能。糖尿病是基因與環境共同作用的結果,除了本文所列一些變量外,某些生化標志物如炎性因子、脂聯素、microRNA等也與糖尿病風險有關[9],但檢測這些成分耗時耗費,并不利于風險評估的快速開展。另外,芬蘭等國的糖尿病評分工具,通過一些類似本文的簡易的變量都實現出了較好的評價效果[9-10]。
2.BP神經網絡模型
BP神經網絡在醫學中有著廣泛的應用。徐學琴通過使用BP神經網絡對全國麻疹的發病率進行了有價值的預測[11]。國外研究分別通過logistic回歸和神經網絡模型預測腦外傷手術術后院內死亡率,神經網絡模型表現出明顯的優勢[12]。BP神經網絡具有很多優點,比如具有較強的非線性映射能力,可以合理提取輸入變量和輸出變量之間的規則,并進行修改、容錯等[4]。但同時BP神經網絡也存在一定缺陷,比如對于樣本量的問題,至今沒有明確的公式。關于隱藏層數的設定,多數研究表明,當BP神經網絡隱藏層數為1時,可以達到較好地反映數據規律、特征及獲得較好預測效能的作用。本文作者在探討BP神經網絡在肺癌并發癥預測價值時,比較了不同隱藏層數的預測效果,結果表明隱藏層數為1時獲得的ROC曲線下面積最大[13],故本研究中BP神經網絡隱藏層數設定為1。另外,BP神經網絡無法解釋某個變量的作用方向,而logistic回歸卻能對模型和變量具有很好的解釋性。
3.決策樹模型及其應用
決策樹模型運算時間短,結果以樹狀顯示簡單直觀,結果的分類把握度較準確。但分類屬性增多情況下,會影響預測的效果[14]。決策樹模型同BP神經網絡模型類似,也無法判斷某因素的作用方向。以往多數研究顯示決策樹模型在預測效能上好于logistic回歸,如決策樹在預測高血壓患者健康素養中優于logistic回歸[15]。而本文在糖尿病預測中,兩種模型間效果沒有統計學差異,可能與樹的深度設置、剪接方法有關,需要在以后的研究中進一步探討。
簡潔并快速有效的預測糖尿病風險可以更好地提高全民健康水平。本文研究提示BMI超標、年齡偏大、男性、糖尿病家族史、糖化血紅蛋白均是糖尿病的危險因素。通過數學模型,利用可快速獲取的信息進行預測,是未來發展的方向。神經網絡模型在預測糖尿病個體風險上有較好的效果。但在實際應用中,logistic回歸對變量有直觀的解釋,結果容易解釋。而神經網絡模型和決策樹模型對變量卻沒有很好的解釋能力。所以,實際應用中也應結合各自模型的優點,以期在公共衛生實踐中取得最好的利用價值。
[1]Nathan DM.Diabetes Advances in Diagnosis and Treatment.JAMA,2015,314(10):1052-1062.
[2]Lu C,Sun W.Prevalence of diabetes in Chinese adults.JAMA.2014,311(2):199-200.
[3]吳偉,郭軍巧,安淑一,等.使用思維進化算法優化的神經網絡建立腎綜合征出血熱預測模型.中國衛生統計,2016,33(1):27-31.
[4]葉華容,楊怡,林萱,等.BP神經網絡在高頻彩超特征診斷乳腺癌中的應用.中國衛生統計,2016,33(1):71-72.
[5]Tseng WT,Chiang WF,Liu SY,et al.The application of data mining techniques to oral cancer prognosis.J Med Syst,2015,39(5):59
[6]高明,唐順,徐福文.醫院數據挖掘平臺中X-11-ARIMA預測模型的應用研究.中國衛生統計,2016,33(1):139-141.
[7]Gonzalez GH,Tahsin T,Goodale BC,et al.Recent Advances and Emerging Applications in Text and Data Mining for Biomedical Discovery.Brief Bioinform,2016,17(1):33-42.
[8]Leon BM,Maddox TM.Diabetes and cardiovascular disease:Epidemiology,biological mechanisms,treatment recommendations and future research.World J Diabetes,2015,6(13):1246-1258.
[9]張晶,金雪娥.2型糖尿病患病風險預測的研究進展.中華實用診斷與治療雜志,2013,27(9):839-841.
[10]Wannamethee SG,Papacosta O,Whincup PH,et al.The potential for a two-stage diabetes risk algorithm combining non-laboratory-based scores with subsequent routine non-fasting blood tests:results from prospective studies in older men and women.Diabet Med,2011,28(1):23-30.
[11]徐學琴,杜進林,孫寧,等.改進的BP 神經網絡模型在麻疹預測中的應用研究.中國現代醫學雜,2014,24(31)52-55.
[12]Shi HY,Hwang SL,Lee KT,et al.In-hospital mortality after traumatic brain injury surgery:a nationwide population-based comparison of mortality predictors used in artificial neural network and logistic regression models.J Neurosurg,2013,118(4):746-752.
[13]宋健;logistic回歸模型、神經網絡模型和決策樹模型在肺癌術后心肺并發癥預測中的比較.安徽醫科大學,2014.
[14]薛允蓮.logistic回歸結合決策樹技術在冠心病患者住院費用組合分析中的應用.中國衛生統計,2015,32(6):988-992.
[15]李現文,李春玉,Kim M,等.決策樹與logistic回歸在高血壓患者健康素養預測中的應用.護士進修雜志,2012,27(13):1157-1159.
(責任編輯:劉 壯)
國家自然科學基金(81373100)
△ 通信作者:吳學森,E-mail:xuesenwu@163.com