白旭飛



摘要??? 本文針對現(xiàn)有糖尿病并發(fā)癥分類研究以統(tǒng)計為主,缺乏有效數(shù)學模型的問題,提出了基于深度卷積神經(jīng)網(wǎng)絡的糖尿病并發(fā)癥分類模型。首先進行數(shù)據(jù)預處理,將糖尿病數(shù)據(jù)進行降維和向量化;其次采用深度卷積神經(jīng)網(wǎng)絡對并發(fā)癥進行分類,并與SVM、決策樹、BP神經(jīng)網(wǎng)絡等經(jīng)典方法進行了對比。實驗結果表明,本文提出的基于深度卷積網(wǎng)絡的糖尿病并發(fā)癥分類模型準確性高于其它模型,能夠為糖尿病并發(fā)癥提供有效地輔助診斷。
【關鍵詞】深度學習 卷積神經(jīng)網(wǎng)絡 糖尿病并發(fā)癥分類
我國慢性病患者人數(shù)居世界首位,尤其是糖尿病及并發(fā)癥發(fā)展迅速,已成為嚴重的公共健康問題,因此亟需糖尿病及并發(fā)癥相關研究模型。傳統(tǒng)模型大多是基于概率的統(tǒng)計模型,該類模型通過概率統(tǒng)計方法,來定性分析糖尿病及并發(fā)癥,具有操作簡單、泛化性差、自更新能力弱等問題。
近年來,多層次多樣化醫(yī)療服務加快了信息化和醫(yī)療行業(yè)融合進程,改變了醫(yī)學行業(yè)的傳統(tǒng)研究方式,催生出大量新型技術,來分析糖尿病的發(fā)病趨勢及其并發(fā)癥的分類研究等。KadiI等人[7]通過詳細對比2000年至2015年的149篇相關文獻,表明神經(jīng)網(wǎng)絡和支持向量機模型能夠獲得更高的準確性,論證了神經(jīng)網(wǎng)絡在醫(yī)療輔助分析中的有效性。劉明等人[8]通過卷積神經(jīng)網(wǎng)絡對T波的候選段進行分類,由于卷積神經(jīng)網(wǎng)絡有稀疏連接、權值共享的特性,并且對微小平移具備不變性且對噪聲不敏感,有效解決了T波形態(tài)分類問題,實現(xiàn)了從側(cè)面診斷心肌缺血癥狀。王麗蘋等人[9]設計構建了一個統(tǒng)計分類和個體時間序列相結合的混合模型(ECG-MTHC),實驗表明,該方法在等樣本量下可改善分類結果。
本文在深入研究深度學習模型的基礎上,提出一種基于卷積神經(jīng)網(wǎng)絡的糖尿病并發(fā)癥分類模型,通過神經(jīng)網(wǎng)絡自主學習糖尿病并發(fā)癥的特征,大大提高了并發(fā)癥識別的準確性。為提高魯棒性、減少過擬合,本文采用交叉驗證的方式訓練網(wǎng)絡,并采用softmax分類。在進行分類時本文選擇了腎病(10.52%)、高血壓(8.67%)、冠心病(8.30%)、糖尿病酮癥(4.43%)和其它等5個選項進行分類。首先通過收集構建糖尿病并發(fā)癥相關數(shù)據(jù)集合,并對數(shù)據(jù)集合進行擴展和預處理,然后構建合適的卷積神經(jīng)網(wǎng)絡框架結構并調(diào)整網(wǎng)絡各個參數(shù),最后將訓練好的卷積神經(jīng)網(wǎng)絡應用于糖尿病并發(fā)癥分類中。
1 數(shù)據(jù)預處理
經(jīng)過數(shù)據(jù)預處理,可以改正錯誤數(shù)據(jù),補充缺失數(shù)據(jù),統(tǒng)一數(shù)據(jù)的格式,去除冗余的數(shù)據(jù),最終將數(shù)據(jù)的類型統(tǒng)一起來,通過精煉數(shù)據(jù)的信息內(nèi)容,讓數(shù)據(jù)的格式一致和集中存儲。該過程不僅讓數(shù)據(jù)的學習成為可能,并且讓數(shù)據(jù)的規(guī)律更清晰從而減少數(shù)據(jù)學習時所需要的成本。本文中,數(shù)據(jù)預處理主要解決如下三個問題:
1.1 數(shù)據(jù)定性和并發(fā)癥選擇
不同因素之間的量綱往往不同。比如鎂(mmol/L)和尿蛋白定性試驗(mg/dl)的單位差距極大。因此為解決量綱問題,本文參考聯(lián)合國世界衛(wèi)生組織糖尿病血糖診斷標準、中國國家統(tǒng)計局《中國成人血脂異常防治指南》等標準,并結合部分醫(yī)院建議對先將數(shù)據(jù)進行了定性判斷(以甘油三酯為例,甘油三脂低:低于0.45、甘油三酯正常:0.45-1.69mmol/L、甘油三酯高:高于1.69)。通過該方法,可以在數(shù)據(jù)大小關系的情況下,將有量綱的值轉(zhuǎn)換為無量綱的值,方便不同量綱之間的比較和運算。
由于糖尿病并發(fā)癥眾多,選擇哪些并發(fā)癥作為模型的分類將決定研究的價值所在。本文采用統(tǒng)計的方式,對于多種并發(fā)癥的確定,直接來源于數(shù)據(jù)中的“診斷”項。經(jīng)過統(tǒng)計,發(fā)現(xiàn)并發(fā)癥多集中于前五(占34.90%),因此本文中并發(fā)癥選擇了腎病(10.52%)、高血壓(8.67%)、冠心病(8.30%)、糖尿病酮癥(4.43%)四個相關并發(fā)癥以及其它癥狀,進行下一步研究。
1.2 糖尿病數(shù)據(jù)的降維處理
由于高維數(shù)據(jù)會提高機器學習的時間復雜度,為提高神經(jīng)網(wǎng)絡的學習效率,需要對糖尿病數(shù)據(jù)進行降維處理,目前較普遍的方法為消去數(shù)據(jù)冗余屬性。但是糖尿病并發(fā)癥的多個因素之間往往具有一定的相關性,因此采用主成分因素分析,刪除因素中緊密相關的冗余項,在保持因素信息不變的情況下減少因素數(shù)量,降低模型復雜度。再經(jīng)過KMO和Bartlett球形檢驗,生化和尿常規(guī)的KMO值均大于50%,且Bartlett球形檢驗小于40%,適合進行因子分析。通過計算累計解釋總方差,得到合適的分組項。隨著因素的增加,累計解釋總方差不斷增加,一般取85%以上較為合適。因此這里分別選擇11項生化和10項尿常規(guī)因素,它們的解釋總方差分別為85.795%和88.767%。
1.3 數(shù)據(jù)向量化
由于卷積神經(jīng)網(wǎng)絡模型的特殊性,單條記錄作為輸入值進行計算會大大降低網(wǎng)絡速度。本文選擇將單條記錄作為一條行向量,將多條行向量組合成矩陣輸入進神經(jīng)網(wǎng)絡中。上一步的降維處理解決了數(shù)據(jù)依賴性和冗余性的問題,所以本文的數(shù)據(jù)可以直接變?yōu)榫仃嚕谧儞Q時將數(shù)據(jù)中“正常范圍”的數(shù)據(jù)設為“0”,偏高值設為“1”,偏低值設為“-1”,以此類推通過一系列變換,可以得到對應的疾病模型的矩陣。由于這些數(shù)據(jù)之間的無關性,矩陣中列之間交換并不影響結果,因此列變換后的結果也應該充分考慮。理論上n列矩陣應該有n!的排列方式,由于這些排列數(shù)據(jù)量太大,因此選擇10-11種可能性進行排列并統(tǒng)一為一個矩陣,從而減少計算次數(shù)。
本文中,由于通過降維處理解決了數(shù)據(jù)的依賴問題,每個數(shù)據(jù)只擁有兩個編碼規(guī)則:
1.3.1 屬性編碼
即每個獨立的樣本中含有的屬性的數(shù)量,表示為x=[x1,x2,...,xn],其中xi表示該樣本中第i個屬性,n為預設的屬性數(shù)量(即列長度)。
1.3.2 位置編碼
由于卷積時,屬性的位置不同,其卷積會出現(xiàn)差異性,因此這里采用位置編碼的方式。舉例來說,樣本1和樣本2都擁有相同的兩個屬性“性別”和“年齡”,樣本1兩屬性相鄰則記錄他們的距離d為1,樣本2相隔兩個屬性則他們的距離d為3。具體地,每個屬性xi與其他屬性的距離,在位置編碼中以向量形式存在。
對于某一個屬性xi,其值有屬性分量ei和距離分量di,則可以表示為:xi=[ei+di]T,同理其樣本表示為:x=[x1,x2,...,xn]
數(shù)據(jù)預處理的整體過程如圖1所示。
經(jīng)過數(shù)據(jù)預處理,將機器難以理解的糖尿病數(shù)據(jù)轉(zhuǎn)變?yōu)榫矸e神經(jīng)網(wǎng)絡善于處理的數(shù)據(jù)形式(512*512的矩陣)。從而為下一步卷積神經(jīng)網(wǎng)絡的建立奠定基礎。
2 基于深度卷積網(wǎng)絡的糖尿病并發(fā)癥分類模型
卷積神經(jīng)網(wǎng)絡模型由Lecun Yan在1989年提出,經(jīng)過十多年的發(fā)展已成為一種經(jīng)典而廣泛應用的網(wǎng)絡結構,其局部連接、權值共享和池化特性對于網(wǎng)絡的簡化和模型的容錯能力有較大的幫助。其基本結構包括:輸入層、卷積層、池化層、全連接層和輸出層構成。一般來說,對于卷積神經(jīng)網(wǎng)絡會有一個卷積層和一個池化層交替設置。其中輸入層是將數(shù)據(jù)輸入的結構;卷積層由多個特征面組成,每個特征面由多個神經(jīng)元組成,卷積層作用為提取特征,其卷積運算可以看作小矩陣(卷積核)在大的矩陣上連續(xù)滑動,并進行成乘法或者加法的運算,這種運算包括了目標矩陣之間的空間關系;池化層同樣由多個特征面組成,是將已經(jīng)卷積運算的矩陣通過聚合處理,降低維度,其主要有兩種不同的操作:最大池化和平均池化。全連接層則是將之前的所以特征進行總結的結構,并映射到樣本空間中,其公式為y=Wx+b,其中W為權重,b為偏執(zhí)量;輸出層一般為Softmax分類器,其
該過程將數(shù)據(jù)映射到(0,1)空間中,并且這些值的概率之和為1,輸出結構則為概率最高的分類結構。其常見卷積神經(jīng)網(wǎng)絡卷積層和池化層結構如圖2所示。
2.1 Resnet網(wǎng)絡結構
本文構建了基于卷積神經(jīng)網(wǎng)絡的糖尿病并發(fā)癥分類模型。模型包括CNN模型訓練及測試、疾病分類結果兩部分。在選擇網(wǎng)絡上,本文選擇Resnet網(wǎng)絡,該網(wǎng)絡相比其它的卷積網(wǎng)絡,增加了殘差結構,該結構的增加解決了網(wǎng)絡較深入時的梯度爆炸和彌散問題(通過引入快捷通道),從而支持CNN網(wǎng)絡的多層處理。其殘差結構如圖3所示。通過該結構,可以使得其結果更容易優(yōu)化,即使較多層,也可以快速的運算,且不會出現(xiàn)無法收斂的問題,優(yōu)化后,本文神經(jīng)網(wǎng)絡速度得到了提升。
2.2 網(wǎng)絡參數(shù)設置
其中在卷積層,通過滑動窗口抽取局部變量。具體地,設滑動窗口為w,其卷積核矩陣為f=[f1,f2,...,fw],則通過卷積核可以等到特征矩陣s=[s1,s2,...,s3],si=g(∑fTj+1xTj+1+b),其中g為對應函數(shù),b偏置量。因此不同的卷積核可以得到不同的特征。
本文卷積網(wǎng)絡由于是一個5分類問題,因此所需全連接層可以適當減少。本模型中擁有4個卷積層,在每一個卷積層后均有池化層。前2個卷積層卷積核大小為5×5,后兩個卷積層卷積核為3×3。具體網(wǎng)絡參數(shù)如表1所示。其中卷積層用于卷積操作,從而提取數(shù)據(jù)特征;池化層通過對小樣本(局部數(shù)據(jù)采樣)減少數(shù)據(jù)量,保留總體特征;Fc是全連接層通過正向和反向傳遞進行計算。
深度卷積神經(jīng)網(wǎng)絡模型不僅有基礎結構,還有激活函數(shù),學習率等等配置,相關配置如(1)樣本設置,通過對樣本的調(diào)整,將每一個樣本統(tǒng)一為512*512大小,便于計算。(2)模型學習速率為0.01,batch的大小為32,正則化系數(shù)為0.001。(3)優(yōu)化函數(shù)為AdamOptimization函數(shù)。(4)激活函數(shù)為relu函數(shù)。采用交叉驗證的方式并采用earlystop策略。
2.3 分類器選擇
本文選擇較為常見的softmax,通過將其與全連接層相連接,得到對應的概率分布情況,且輸出值之后為1,通過選擇最大的概率來進行分類,其輸出概率計算為:
2.4 深度卷積網(wǎng)絡結構
經(jīng)過對于網(wǎng)絡的不同參數(shù)和分類的器等的設計,本文針對糖尿病并發(fā)癥的5分類問題(腎病、高血壓、冠心病、糖尿病酮癥和其它)采用如圖4所示的網(wǎng)絡結構。
該模型中卷積層用于提取特征,池化層則是通過在小樣本下采樣取得新特征,全連層每一個神經(jīng)元與前一層所有神經(jīng)元相互連接,最后一層則是softmax進行分類。
3 實驗結果與分析
3.1 數(shù)據(jù)集
本文實驗數(shù)據(jù)來自國家臨床醫(yī)學科學數(shù)據(jù)中心(301醫(yī)院)提供的“糖尿病數(shù)據(jù)”,其中全血糖化血紅蛋白測定(簡稱糖化)667條記錄,每條記錄擁有3項有效項;尿常規(guī)測定(簡稱尿常規(guī))619條記錄,每條記錄擁有17項有效項;生化測定(簡稱生化)625條記錄,每條項有25項有效項。由于數(shù)據(jù)并非按照時間進行記錄,本次研究中時間作為無關項被刪除。參考聯(lián)合國世界衛(wèi)生組織糖尿病血糖診斷標準、中國國家統(tǒng)計局《中國成人血脂異常防治指南》和數(shù)據(jù)中的診斷結果等標準,并結合部分醫(yī)院建議。本文對部分離散指標進行了賦值(如男、女性別分別對應0、1值),其數(shù)據(jù)集合詳細信息如表2所示。
針對深度卷積網(wǎng)絡模型的訓練,將數(shù)據(jù)集合進行進一步劃分為三部分:訓練集、驗證集、測試集。
(1)訓練集:該集合為訓練過程中采用的數(shù)據(jù)集合,該集合參與模型的參數(shù)調(diào)整和模型的訓練。由于本文采用交叉驗證的方法,因此這里訓練集的數(shù)據(jù)占全部數(shù)據(jù)的十分之七。
(2)驗證集:該集合為每次周期結束后,用來進行當前模型準確率計算的數(shù)據(jù)集。該集合在迭代周期、學習率等方面起作用,本文中的驗證集占全部數(shù)據(jù)的十分之二。
(3)測試集:該集合為用于模型測試部分的數(shù)據(jù)。在模型經(jīng)過訓練和驗證后用于測試的集合,本文中該集合占全部數(shù)據(jù)的十分之一。
3.2 結果分析
為驗證本文提出的基于深度卷積神經(jīng)網(wǎng)絡的糖尿病并發(fā)癥分類模型的有效性,分別將其與SVM、決策樹、BP神經(jīng)網(wǎng)絡等經(jīng)典模型進行對比。其結果如表3所示。
從表3可以看出,對于糖尿病并發(fā)癥的分類問題,本文提出的基于深度卷積神經(jīng)網(wǎng)絡的分類模型準確率達到86%,基于BP神經(jīng)網(wǎng)絡的分類模型準確度達到72%,決策樹模型準確度為69%,基于SVM的分類模型準確度為75%。而且可以看出BP神經(jīng)網(wǎng)絡的準確度和SVM的準確度較為接近。通過該表可以清晰的看出,本文模型的準確度優(yōu)于經(jīng)典的SVM、決策樹、BP神經(jīng)網(wǎng)絡模型,可以為糖尿病并發(fā)癥提供有效的輔助診斷。
為了更為清晰的對比不同模型的特點,下面對各種分類模型進行ROC曲線比較。ROC曲線以靈敏度(真陽性)為縱坐標,以特異性(假陽性)為橫坐標繪制的曲線。該曲線越靠近左上角,其準確度越高;其面積越大,診斷結果越好。如圖5所示,其中帶有叉形、三角形、星形和正方形標記的曲線分別代表本文模型、SVM、BP神經(jīng)網(wǎng)絡和決策樹的ROC曲線,通過該曲線,可以明顯看出,本文模型無論是在準確性還是診斷結果方面,都優(yōu)于其它經(jīng)典模型,從而表明了深度卷積網(wǎng)絡適用于解決糖尿病并發(fā)癥的分類問題。
4 結論
糖尿病并發(fā)癥診斷是一個多分類問題,通過TensorFlow深度學習框架,采用卷積神經(jīng)網(wǎng)絡進行并發(fā)癥的識別,準確率達到86%以上。實驗結果表明,在并發(fā)癥分類問題上,通過較少的全連接層就能得到很好的結果,為下一步的研究奠定經(jīng)驗。本文由于數(shù)據(jù)有限,只能進行較少的分類,隨著數(shù)據(jù)的增加,并發(fā)癥的種類和準確度都將會進一步提高。
參考文獻
[1]張啟新.糖尿病健康教育研究進展(綜述)[J].繼續(xù)醫(yī)學教育,2012,26(03):59-62.
[2]米生權.中國成人個體糖尿病發(fā)病風險預測模型的建立及驗證[D].中國疾病預防控制中心,2011.
[3]劉丹紅,許跟起.糖尿病人群發(fā)展狀況預警建模研究[J].數(shù)學物理學報,2014,34(03):495-511.
[4]KampooKanokporn,TeanpaisanRawe e,Ledder Ruth G.,McBain Andrew J..Oral Bacterial Communities in Individuals with Type 2 Diabetes Who Live in Southern Thailand. Applied and Environmental Microbiology. 2014,80(2):662-671.
[5]Motala AA, Esterhuizen T, Pirie FJ, Omar MA. The prevalence of metabolic syndrome and determination of the optimal waist circumference cutoff points in a rural South African community. Diabetes Care.2011.34(4): 1032-1037.
[6]Marchuk Yu.F., FedivO.I.,Ivashchuk I.O., Andriychuk D.R.. Polarization- correlation diagnostics and differentiation of cholelithiasis in patients with chronic cholecystitis combined with diabetes mellitus type 2. Proceedings of SPIE-The International Society for Optical Engineering. 2011:1080-1089.
[7]Kadi I, Idri A, Fernandez-Aleman J L. Knowledge discovery in cardiology: A systematic literature review[J]. International journal of medical informatics, 2017, 97: 12-32.
[8]劉明,李國軍,郝華青等.基于卷積神經(jīng)網(wǎng)絡的T波形態(tài)分類[J].自動化學報,2016(09):1339-1346.
[9]王麗蘋.融合領域知識的心電圖分類方法研究[D].華東師范大學,2013.
[10]解坤,張俊芳.基于KMO-Bartlett典型風速選取的PCA-WNN短期風速預測[J].發(fā)電設備,2017,31(02):86-91.
[11]Lecun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324