呂曉燕,郭 威,崔宇琛
1.山西醫科大學,山西 030001;2.吉林大學口腔醫學院
糖尿病是一種威脅人類生命與健康的常見慢性病,因其病機制復雜,發病病因仍未明確[1],因此發病率居高不下。據國際糖尿病聯盟(International Diabetes Federation,IDF)調查,全球罹患糖尿病的成年人高達4.63 億例,而我國患病人數占到其中的1/4[2],且保持增長態勢。基于此,本研究旨在通過對UCI 糖尿病數據集中數據的學習,對糖尿病的潛在影響因素進行探索,以期對糖尿病發病因素進行干預。在此基礎上,建立糖尿病風險預測模型,做到疾病的早發現,這對于“治未病”、促進全民大健康也具有重要的現實意義[3-4]。
1.1 研究對象 以UCI 數據庫中768 條糖尿病篩查記錄為研究對象,數據集中各指標及屬性見表1。

表1 糖尿病數據特征及含義
1.2 研究方法
1.2.1 數據預處理 利用SPSS 22 軟件,對糖尿病數據集中數據特征進行分析(見表2)。根據醫學知識,X2、X3、X4、X6、X7取值為0 不合常規。

表2 統計量描述
進一步對數據進行可視化分析,發現X3、X6、X4、X7取值存在明顯異常,見圖1。對以上“問題”數據及缺失數據,采用刪除法和平均值填補法等進行數據清理。

圖1 異常值分析
1.2.2 統計學方法 按是否患有糖尿病,將糖尿病數據集中數據分為兩組,定量資料用均數±標準差(±s)表示,采用兩獨立樣本t檢驗,找出對分類結果有影響的指標;基于此,利用10-Fold 交叉驗證法,在SPSS 中確立最優Logistic 回歸模型,應用受試者工作特征(ROC)曲線下面積(AUC)與Python 建立的KNN 模型進行性能比較。
2.1 糖尿病發病影響因素的單因素分析 對數據集中的數據按是否患有糖尿病分為兩組,對各指標進行單因素分析,結果見表3。

表3 糖尿病發病影響因素的單因素分析
2.2 糖尿病發病影響因素的Logistic 回歸分析 以單因素分析具有統計學差異的年齡、BMI 等7 項糖尿病相關指標為自變量,分類結果Y為因變量,經多因素Logistic 回歸分析,確定BMI(X2)、懷孕次數(X5)、血漿葡萄糖含量(X6)與糖尿病遺傳因素(X8)為糖尿病高危影響因素(P<0.05),見表4。

表4 糖尿病發病影響因素的Logistic 回歸分析

對回歸模型系數進行檢驗,χ2=277.43,P<0.05,建立的回歸方程有統計學意義。
2.3 糖尿病風險模型評價 利用本研究建立的模型進行糖尿病分類診斷,AUC 為0.879。為了進一步驗證模型的分類性能,與Python 構建的KNN 算法模型進行了比較,結果見圖2。KNN 模型用于分類預測,AUC 為0.641,分類性能明顯低于Logistic 回歸模型。采用SPSS 中H-L 對構建的回歸模型經擬合優度檢驗,該預測模型具有較好的擬合效果(P=0.415)。

圖2 糖尿病Logistic 回歸預測(與KNN 預測模型分類性能比較)
3.1 糖尿病遺傳因素與糖尿病的關系 研究表明,遺傳因素是糖尿病的高危誘因,這與已有的臨床研究結果[5-7]一致。這就提示醫護人員應密切關注有糖尿病家族史的人員的糖尿病誘發因素,通過健康指導和臨床干預進行控制,降低患病風險。
3.2 妊娠次數與糖尿病的關系 研究表明,多次妊娠是糖尿病發病的高危因素,這在已有的研究[8-10]中也得到證實。因此,對妊娠期婦女,應密切關注其血糖的變化,必要時給予臨床干預,如補充維生素D 等[11],降低妊娠期糖尿病發病風險。
3.3 肥胖與糖尿病的關系 研究表明,BMI 高是糖尿病的高危誘因。這是因為BMI 高的人極易產生高胰島素血癥,從而使胰島素降糖作用受阻,引發糖尿病。因此,預防糖尿病,需注意健康飲食,積極控制體重[12]。
3.4 血漿葡萄糖含量與糖尿病的關系 血糖過高是糖尿病的高危誘因。這是因為攝食過多的糖類時,身體內就會持續產生胰島素,以提高對糖類的吸收。久而久之,人體內的胰腺功能將會下降,導致人體血糖濃度升高,從而導致高血糖[13]。這也警示人們日常少食高糖食品。對于高血糖人群,需要通過服藥或其他干預措施,積極降糖,使其血糖維持在正常水平。
遺傳因素、妊娠次數、BMI、血漿葡萄糖含量是糖尿病發病的重要影響因素。年齡、三頭肌皮褶厚度、胰島素水平雖與糖尿病有關,但非重要影響因素。但也有文獻研究認為年齡是糖尿病的高危影響因素[14-15],這點在本研究中并未得到證實,需要今后進一步探索。