郭奕瑞,李玉倩,王高帥,劉曉田,張路寧,張紅艷,王炳源,王重建
1)鄭州大學公共衛生學院流行病學教研室 鄭州450001 2)鄭州大學藥學院臨床藥理學教研室 鄭州450001
#通訊作者,男,1977年10月生,博士,副教授,研究方向:心血管代謝性疾病,E-mail:tjwcj2005@126.com
隨著社會經濟的發展、生活水平的提高,2 型糖尿病已成為嚴重威脅人類身心健康的重要疾病[1]。大量研究[2-3]顯示,對2 型糖尿病進行社區干預是世界公認的符合成本效益的、可降低心血管發病率的有效措施。因此,研究評價個體患2 型糖尿病的風險,對其采取有效的干預措施,可延緩疾病的發生,降低危害性。人工神經網絡(artificial neural network,ANN)是當前具有智能模式識別能力的工具之一,在傳染病、腫瘤、高血壓及相關疾病的分類和診斷中的應用已有報道[4-9],但大多數是以臨床資料為基礎預測個體的患病風險,而基于現場調查的資料非常有限。該研究以2 型糖尿病流行病學現場調查資料為基礎,探討ANN 在2 型糖尿病預測中的作用,并將其與當前醫學領域中廣泛應用的logistic 回歸預測模型相比較,探討個體患2 型糖尿病風險的最佳預測模型。
1.1 研究對象 采用橫斷面調查的方法,對河南省某農村社區年齡35~74 歲常住居民8 640 人進行問卷調查、體格檢查及血生化指標檢測。
1.2 調查內容 問卷調查:包括社會人口學特征、個人疾病史與行為危險因素等。體格檢查:身高、體重、腰圍、血壓等。生化指標:利用葡萄糖氧化酶法測定空腹血糖(FPG)。所有調查對象均簽署知情同意書。
1.3 2 型糖尿病和中心性肥胖診斷標準 ①2 型糖尿病診斷參照美國糖尿病學會(ADA)2010年診斷標準:FPG <6.1 mmol/L 為血糖正常(NFG);6.1≤FPG <7.0 mmol/L 為空腹血糖受損(IFG);既往有2型糖尿病史,或正在進行降糖治療,或FPG≥7.0 mmol/L 為2 型糖尿病,并排除1 型糖尿病、妊娠糖尿病及其他特殊類型糖尿病。②中心性肥胖診斷標準參照2005年國際糖尿病聯盟(IDF)提出的代謝綜合征(MS)全球共識定義,即男性腰圍≥90 cm,女性腰圍≥80 cm。
1.4 訓練集及檢驗集設置 由于ANN 模型的預測預報能力與學習樣本質量及信息緊密相關,故訓練集的樣本量應比檢驗集多。該研究將8 640 份資料按照性別、年齡組指標3∶1 隨機分為訓練集(6 480人)與檢驗集(2 160 人)兩部分,每組中2 型糖尿病患者與非患者的比例與原始數據保持一致。訓練集用于篩選變量和建立預測模型,檢驗集用于模型的檢驗和評價。
1.5 統計學處理 使用Access 數據庫軟件平行雙人錄入數據。運用Matlab 7.1 軟件編程建立ANN預測模型;采用SAS 9.1 建立二分類非條件logistic回歸模型,繪制兩個模型預測判別的受試者工作特征(ROC)曲線,通過ROC 曲線下面積(AUC)評價模型。
2.1 一般人口學特征 該研究共納入有效研究對象8 640 人,其中訓練集6 480 人,檢驗集2 160 人。統計分析顯示,訓練集和檢驗集相關影響因素之間差異均無統計學意義(表1)。

表1 訓練集和檢驗集研究對象人口學特征
2.2 Logistic 回歸預測模型的建立 以是否患2 型糖尿病為因變量,以可能的影響因素為自變量進行2 型糖尿病的單因素和多因素logistic 回歸分析,自變量賦值情況見表2。多因素分析時,以α =0.05作為選入變量的標準,α =0.1 作為剔除變量的標準,采用偏最大似然估計前進法進行逐步回歸分析,最后共篩選出7 個影響因素(表3),建立了logistic回歸模型。

表2 非條件logistic 回歸分析自變量賦值表

表3 2 型糖尿病患病影響因素的多因素logistic 回歸分析
2.3 ANN 預測模型的建立 以可能的影響因素作為輸入神經元,構建ANN 預測模型。輸入變量:年齡、性別、職業、文化程度、婚姻狀況、人均年收入、吸煙、飲酒、體力活動、高脂飲食、蔬菜水果攝入、2 型糖尿病家族史、高血壓家族史、高血壓史、脈搏、脈壓差、中心性肥胖(賦值情況見表2);輸出變量:是否患2 型糖尿病,構造人工神經網絡。其結構為:輸入層含17 個神經元,隱含層19 個神經元(可調),輸出層1 個神經元,對應預測變量(即是否患2 型糖尿病)。
2.4 模型預測能力的評價 見圖1、表4。ANN 預測模型靈敏度、特異度、陽性預測值、陰性預測值、AUC 均優于logistic 回歸預測模型。

圖1 ROC 曲線A:logistic 回歸;B:ANN 預測模型。

表4 Logistic 回歸與ANN 預測模型預測能力評價
危險度評價作為流行病學的研究方法,在探索病因研究方面已得到廣泛應用。Logistic 回歸分析屬于非線性概率模型中的一種,主要適用于因變量為分類變量的回歸分析,已成為一種常用的評價疾病危險度的分析方法[10-11]。但是對慢性非傳染性疾病而言,由于影響疾病狀態的因素眾多,作用方式復雜,以流行病學資料為基礎,利用傳統線性判別函數這種“剛性”方法進行疾病狀態預測,就存在很大的局限性。ANN 是根據生物神經網絡在結構、功能及某些基本特性方面的理論抽象、簡化和模擬而構成的一種信息處理系統[12-13],該模型突破了傳統的線性處理模式,避開了復雜的參數估計過程去解決一系列變量關系不能精確地用函數表達的分類與回歸問題,能夠為每位研究對象“量體裁衣”地給出一個特定的預測結果,從而實現有效的預測判別功能[14]。
在預測模型的評價過程中,靈敏度和特異度是其中重要的指標,較高的靈敏度和特異度預示著該模型具有較強的預測判別性能。同時,ROC 曲線是應用廣泛的評價兩種診斷方法、診斷水平的方法[15],ROC 曲線可直觀地觀察靈敏度和特異度之間的關系,AUC 越大其診斷試驗的準確度越大。該研究結果顯示:ANN 預測模型可獲得比logistic 回歸分析更好的預測效果,對于同一測試樣本,其靈敏度、特異度、陽性預測值及陰性預測值均高于logistic 回歸分析,研究結果與錢玲等[16]的報道相一致。
該研究證實了ANN 能夠較準確地判別特定個體是否發病,可對具體的個體作出比較準確的預測,為解決個體發病預測提供了一種新方法,同時也為2 型糖尿病高發風險的評估、個體化的預防及綜合防治措施的制定提供了科學依據。但是,該研究建立的預測模型與其他常用的數學模型一樣,作為一種數據處理方法,主要從數據上反映疾病的發展變化趨勢,一旦相關參數發生變化或無法獲得相應參數,也就無法作出有效預測。此外,有很多影響2 型糖尿病發病的因素未被充分考慮到模型中,從而影響了結果的準確性,因此在實際應用中,還必須考慮其他因素對預測結果的影響。
[1]Nathan DM,Buse JB,Davidson MB,et al.Medical management of hyperglycemia in type 2 diabetes:a consensus algorithm for the initiation and adjustment of therapy:a consensus statement of the American Diabetes Association and the European Association for the Study of Diabetes[J].Diabetes Care,2009,32(1):193
[2]Whiting DR,Guariguata L,Weil C,et al.IDF diabetes atlas:global estimates of the prevalence of diabetes for 2011 and 2030[J].Diabetes Res Clin Pract,2011,94(3):311
[3]Norris SL,Kansagara D,Bougatsos C,et al.Screening adults for type 2 diabetes:a review of the evidence for the U.S.Preventive Services Task Force[J].Ann Intern Med,2008,148(11):855
[4]孫錦峰,耿云亮,郭奕瑞,等.Elman 神經網絡與ARIMA 模型對流感發病率預測效果的比較[J].鄭州大學學報:醫學版,2013,48(5):584
[5]Sato F,Shimada Y,Selaru FM,et al.Prediction of survival in patients with esophageal carcinoma using artificial neural networks[J].Cancer,2005,103(8):1596
[6]Dumont TM,Rughani AI,Tranmer BI.Prediction of symptomatic cerebral vasospasm after aneurysmal subarachnoid hemorrhage with an artificial neural network:feasibility and comparison with logistic regression models[J].World Neurosurg,2011,75(1):57
[7]Forberg JL,Green M,Bjork J,et al.In search of the best method to predict acute coronary syndrome using only the electrocardiogram from the emergency department[J].J Electrocardiol,2009,42(1):58
[8]張矗,吳逸明,吳擁軍,等.人工神經網絡技術在纖維支氣管鏡診斷肺癌中的應用[J].鄭州大學學報:醫學版,2010,45(1):113
[9]Lin CC,Bai YM,Chen JY,et al.Easy and low-cost identification of metabolic syndrome in patients treated with second-generation antipsychotics:artificial neural network and logistic regression models[J].J Clin Psychiatry,2010,71(3):225
[10]Li YC,Chiu WT,Jian WS.Neural networks modeling for surgical decisions on traumatic brain injury patients[J].Int J Med Inform,2000,57(1):1
[11]Linder R,Konig IR,Weimar C,et al.Two models for outcome prediction a comparison of logistic regression and neural networks[J].Methods Inf Med,2006,45(5):536
[12]Smith AE,Nugent CD,McClean SI.Evaluation of inherent performance of intelligent medical decision support systems:utilising neural networks as an example[J].Artif Intell Med,2003,27(1):1
[13]Lin CS,Chiu JS,Hsieh MH,et al.Predicting hypotensive episodes during spinal anesthesia with the application of artificial neural networks[J].Comput Meth Prog Biomed,2008,92(2):193
[14]Wadie BS,Badawi AM,Abdelwahed M,et al.Application of artificial neural network in prediction of bladder outlet obstruction:a model based on objective,noninvasive parameters[J].Urology,2006,68(6):1211
[15]Reichlin T,Hochholzer W,Bassetti S,et al.Early diagnosis of myocardial infarction with sensitive cardiac troponin assays[J].N Engl J Med,2009,361(9):858
[16]錢玲,施侶元,程茂金.人工神經網絡應用于糖尿病和糖耐量受損的個體發病預測[J].中國慢性病預防與控制,2005,13(6):277