王喜丹,王曉丹,梁 麗
(1.西安交通大學第一附屬醫院藥學部,陜西 西安 710061;2.重慶工商大學制造智能國家科技合作基地,重慶 400067)
糖尿病作為繼心腦血管疾病、惡性腫瘤之后的第三大威脅人類健康的非傳染型慢性疾病,其全球患者總數2011年已達3.7億,其中80%在發展中國家,預計到2030年將達到5.5億[1]。其中,我國作為世界上患者數量最多的國家之一,糖尿病預防和控制已成重大公共衛生問題[2]。2型糖尿病發病原因受到很多因素的影響,如遺傳因素、生活方式、外界環境等。此外,糖尿病還會引發心臟病、腦血管疾病等嚴重并發癥的發生。因此,建立2.型糖尿病患病風險的預測模型,對高危人群的患病風險進行預測,進一步做好糖尿病的預測和預警[3]。因此,對高危人群糖尿病患病風險進行預測,確定高危人群范圍,可以提前做好防御措施,延緩糖尿病患病、并發癥的發生。近年來,已經有Markov,Cox比例風險回歸模型,神經網絡[4],支持向量機[5]等模型應用于糖尿病患病風險預測。但是,這些方法也都存在不同程度的局限性,比如過度擬合、陷入局部最小值、對隨機性和波動性數據不敏感、對不平衡數據預測效果不理想等問題。同時,上述提及的算法是淺層學習的算法,它們很難從高維的數據樣本中學習到較為復雜的非線性關系,而深度學習是由相互聯系的神經元構成的堆棧網絡。它直接從低層數據出發,逐層學習到高層特定性質的學習網絡,有效避免了傳統的算法訓練效果不佳的問題。
本文利用深度信念網絡(deep belief network,DBN)對2型糖尿病的特性進行學習,采用反向傳播神經網絡(back propagation neural network,BPNN)建立分類器,從而對糖尿病高危人群的盡早發現和實施有效干預提供幫助,為提升人們的健康水平和生活質量做出努力。
研究對象來自于某醫院體檢中心數據。其中與糖尿病發病風險相關的危險因素:(1)性別;(2)年齡;(3)舒張壓(mm Hg);(4)收縮壓(mm);(5)甘油三酯;(6)BMI指數(kg/m2);(7)糖尿病家族史。
2型糖尿病診斷標準:①2型糖尿病診斷標準參照美國糖尿病學會(ADA)2016年12月發布的糖尿病診療標準:FPG<6.1 mmol/L為血糖正常(NFG);6.1≤FPG< 7.0 mmol/L為空腹血糖受損(IFG);既往有2型糖尿病史,或正在進行降糖治療,或FPG≥7.0 mmol/L為2型糖尿病,并排除1型糖尿病、妊娠糖尿病及其他特殊類型糖尿病。收縮壓低于140 mmHg,舒張壓低于90 mmHg。
本研究將舒張壓為0和BMI指數為0的樣本去掉之后,共有729個樣本。并將樣本集隨機分成兩部分:訓練集(700)和測試集(29)。建模的過程如下:(1)數據歸一化處理;(2)利用MATLAB 16軟件建立DBN神經網絡模型;(3)建立BP神經網絡模型;(4)兩個模型的評估和比較,并得出結論。
典型的深度學習(DBN)是多層RBM(Restricted Boltzmann Machine,RBM)和一層BP神經網絡組成的一種深層神經網絡,網絡訓練時可通過逐層訓練來實現(結構如圖1所示)。本文設計使用的糖尿病患病風險預測的深度學習(DBN)模型為:與糖尿病發病風險相關的危險因素;通過重復訓練,兩層RBM構建的網絡提取糖尿病特征信息;并且在最后一層RBM后面設置BP網絡并初始化連接權值,接受最后一層RBM網絡的特征輸出特征變量作為BP網絡的特征輸入變量。最后的網絡結構為網絡輸入層為8,2個RBM,其中2個RBM神經元單元數都為20,輸出層為1。

圖1 深度信念網絡模型
BP神經網絡就是一個不斷調節網絡權值的過程,在MATLAB中不斷調整網絡結構和調整相關參數,得到BP神經網絡的輸入層為8,隱含層單元數為3,輸出層為1。
模型評估在相同的實驗環境下選取能使分類效果和泛化能力達到最佳效果的參數來建立DBN和BP分類器,兩個分類器在測試樣本集上的預測結果見表1。同時為了更好的描述模型的質量,為此引入3個參數:靈敏度,特異度和約登指數。

表1 分類器測試集的預測效果
本文將深度學習(DBN)模型和BP模型應用到五年內糖尿病患病風險預測研究中,并且得到了每個分類器的預測結果。通過表1可以看到分類器的性能和質量。根據各項指標的數據可以發現,模型的分類器性能和效果都很好,準確率都在能接受范圍內。相比較而言,BP神經網絡的分類準確率和靈敏度較低,分別為89.66%,87.5%,而DBN模型的準確率為93.10%,靈敏度為100%,效果較好。說明DBN模型在特征學習方面有較好的能力。
本文建立的深度學習(DBN)模型和BP神經網絡模型均具有較好的預測準確率,為解決個體發病預測提供了一種新方法,同時也為2型糖尿病高發風險的評估、個體化的預防及綜合防治措施的制定提供了科學依據。尤其是DBN模型,在靈敏度和預測準確率方面有很大的提高。但是,由于深度學習(DBN)預測模型與其他常用的數學模型一樣,作為一種數據處理方法,主要從數據上反映疾病的發展變化趨勢,一旦相關參數發生變化或無法獲得相應參數,也就無法作出有效預測。此外,有很多影響2型糖尿病發病的因素未被充分考慮到模型中,從而影響了結果的準確性,因此在實際應用中,還必須考慮其他因素對預測結果的影響[6]。只有預測模型與醫院患者相結合,開發并運用到平臺去,對數據進行更新、展示與交互,根據個體的體檢數據預測糖尿病的發病風險,才可以幫助病人更好地發現和預防疾病,更多地關注糖尿病高危人群。
[1]羅森林,郭偉東,張 笈,等.基于Markov的Ⅱ型糖尿病預測技術研究[J].北京理工大學學報,2011,31(12):1414-1418.
[2]蘇 萍,楊亞超,楊 洋,等.健康管理人群2型糖尿病發病風險預測模型[J].山東大學學報(醫學版),2017,55(6):82-86.
[3]孫勝男,李 崢.2型糖尿病風險評估工具的研究進展[J].中華護理雜志,2009,44(9):861-864.
[4]郭奕瑞,李玉倩,王高帥,等.人工神經網絡模型在2型糖尿病患病風險預測中的應用[J].鄭州大學學報(醫學版),2014,49(2):180-183.
[5]王 勛,陳大方.支持向量機在建立2型糖尿病預測模型中的應用[J].中國慢性病預防與控制,2010,18(6):560-562.
[6]Jack W.Smith,BS,JE Everhart,MD, MPH,and so on.Using the ADAP Learning algorithm to forecast the onset of Diabetes Mellitus[J].Proc AnnuSympComputAppl Med Care,1988:261-265.