文/白旭飛
目前我國糖尿病等慢性病患者人數居世界首位,臨床研究顯示,隨著糖尿病發病率的上升,糖尿病的相關多種并發癥已經成為人類致死主要的原因,因此糖尿病多種并發癥的研究有重要意義。糖尿病多種并發癥研究,其目的為找尋糖尿病較為高發的多種并發癥,并進一步找尋對應的哪些因素影響較大,是因果挖掘在輔助醫療方面的嘗試。糖尿病多種并發癥始于1977年,RobertTurner等人建立的第一個單一因素(血糖)KUPDSModels預測糖模型是世界首個相關模型。雖然多種并發癥模型發展較早,但是在中國該方法還處于起步階段。李戈等通過logistic回歸篩選變量并采用神經網絡建立多種并發癥,在非神經多種并發癥中研究較好;白云靜等將中醫方法與神經網絡相結合運用在糖尿病腎病研究方面得到比較全面的診斷能力;宋鶴蘭等人通過神經網絡預測糖尿病胎兒的體重。
然而,目前研究仍然處于探索階段,大體分為兩個方向:糖尿病單一多種并發癥研究;糖尿病多種并發癥研究。單一多種并發癥研究相對發展較好,預測精確較高;而多種并發癥研究還沒有較好的方式方法。基于此,本文結合神經網絡的優點,提出了基于神經網絡的糖尿病多種并發癥分析方法,并開展了相關的實驗和分析。
本資源來自與國家臨床醫學科學數據中心(301醫院)提供的“糖尿病數據”,采用全血糖化血紅蛋白測定(簡稱糖化)334條記錄、尿常規測定(簡稱尿常規)310條記錄、生化測定(簡稱生化)條記錄三項數據集合,并將無關項如就診時間等刪除。參考聯合國世界衛生組織糖尿病血糖診斷標準、中國國家統計局《中國成人血脂異常防治指南》和數據中的診斷結果等標準,并結合部分醫院建議。本文對指標進行了賦值,其指標選擇和評判標準如表1所示經過簡化(不區分1,2型糖尿病),糖化有效項為3項,尿常規有效項為14項,生化有效項為24項,其數據集合詳細信息如表1,2,3所示(由于篇幅關系,僅展示部分)。

表1:全血糖化血紅蛋白測定3項指標

表2:尿常規測定14項指標(部分)

表3:生化測定24項指標(部分)

表4:主要多種并發癥分布

表5:KMO 和 Bartlett 的檢驗(生化)

表6:KMO 和 Bartlett 的檢驗(尿常規)
通過3個表可知,不同因素之間的量綱往往不同。比如鎂(mmol/L)和尿蛋白定性試驗(mg/dl)的單位差距極大。因此為解決量綱問題,本文采用Z-Score標準化處理數據,其公式為:

該公式中 為原始數據的標準差,σ為總體平均值,μ為某一個體的值。通過該方法,可以在數據大小關系的情況下,將有量綱的值轉換為無量綱的值,方便不同量綱值之間的比較和運算。
由于糖尿病并發癥眾多,選擇哪些并發癥作為模型的研究將決定研究的價值所在。本文中,對于多種并發癥的確定,直接來源于數據中的“診斷”項。該數據經過統計發現腎病114例占10.52%(腎病綜合征36例占%3.32和慢性腎功能不全78例占7.20%)、高血壓94例占8.67%和冠心病90例占8.30%是糖尿病的主要多種并發癥。表4對主要的多種并發癥的數量和占比(占比大于2%的因素)進行了詳細的表示。

圖1:生化因素累計解釋總方差%

圖2:尿常規因素累計解釋總方差%
經過統計,發現并發癥多集中于前五(占34.90%),因此本文中并發癥選擇了腎病、高血壓、冠心病、糖尿病酮癥、重癥肺炎五個相關并發癥,進行下一步研究。
在研究建立模型之前,由于數據的因素量過多,模型的復雜度和耗時都會過高。并且糖尿病并發癥的多個因素之間往往有一定相關性,因此采用主成分因素分析,刪除因素中緊密相關的冗余項刪除,在保持因素信息不變的情況下減少因素數量,降低模型復雜度。
在主成分前,先要進行相關判斷,檢驗相關因素能否進行主成分因素分析。本文采用常見的KMO和Bartlett球形檢驗。KMO檢驗用于檢查變量間的相關性和偏相關性,取值在0~1之間,KMO統計量越接近于1,變量間的相關性越強,偏相關性越弱,因子分析的效果越好;Bartlett球形檢驗判斷如果相關陣是單位陣,則各變量獨立因子分析法無效,其結果越接近0分析越可行。對因素較多的尿常規和生化兩項進行檢驗,可以得到表5、表6。
該表格中第一行值表示KMO值,最后一行值表示Bartlett球形檢驗值。通過圖表可知,生化和尿常規的KMO值均大于50%,且Bartlett球形檢驗小于40%,適合進行因子分析。
經過比對,分別將生化和尿常規分類為11項和10項,其解釋總方差(包含原始信息的百分百)如圖1、圖2。
如圖2、圖3所示,隨著因素的增加,累計解釋總方差不斷增加,一般取85%以上較為合適。因此這里分別選擇11項生化和10項尿常規因素,他們的解釋總方差分別為85.795%和88.767%。經過因素分析得到如下結果(表7、表8)。

表7:尿常規主成分分析

表8:生化主成分分析
該表表示主成分分析結果,以生化表的性別項為例子,該項在第8組時概率最大(0.934),因此生化的性別項分在第8組。通過該方法,在有效的將生化和尿常規由24項和14項簡化為11項和10項的同時,保持了數據絕大多數的信息(>85%)。
由于糖尿病并發癥某些因素偏離正常值過多,這種極少數的數值由于boosting(見下文)會具有非常大的權值,反而導致結果偏離正常范圍。因此需要對異常數據進行剔除。設某組影響因素組類的數據:

其中:n為變量個數,m為測試人員個數。
不妨設數據中正常范圍極限為xj1,計算m組數據的中位數M,均值μ和均方差σ。
如果m<30,則采用改進格拉布斯(Grubbs)剔除異常值。計算個人的正常極限范圍剩余誤差絕對值|Vj|=|xj1-M|,選擇絕對誤差最大的一組數據,求出值G:

對照格拉布斯臨界值表可以查詢出數據個數為n時的格拉布斯臨界值G(n,α),其中α為顯著性水平。比較G與G(n,α),如果G>G(n,α),則對應的第j組個人數據為異常值,將其剔除。將剩余的數據重復進行上述操作,知道沒有異常數據。
如果m>30,根據統計學原理會呈現正態分布,這時采用拉伊依達(Pauta)準則。若對于某一誤差Vj=xj1-M,有:

即xj1?[μ-3σ, μ-3σ],可以認定為異常數據,將其剔除。并重復以上過程,直到沒有異常數據為止。

表9:未進行主成分因素分析和異常值剔除的預測準確度

表10:進行主成分因素分析和異常值剔除的預測準確度
神經網絡構建是研究的基礎,如何得到更好的模型從而使得結果真實。實驗確定參數和boosting算法分別解決了樣本數據量綱不同、神經網絡何種結果最優以及如何提高實驗精度的問題。通過這三項,建立出適合研究多種并發癥的神經網絡模型,量綱問題在之前數據預處理中以及解決,這里主要對后兩者提出解決方案。
一般來說,在神經網絡中,神經網絡層數越多,訓練結構越精確,但同時訓練的成本越高。由于判斷層數的方法并沒有很好的依據,經過實際測試,在采用4層64個神經元,激勵函數relu,學習速率為0.1,初始參數為0時,結果最好。
增加預測準確性也是重中之重。并發癥作為輸出。其中生化指標由于樣本較少、且種類豐富、因此預測準確率很低,僅僅17.23%;糖化和尿常規預測準確性分別為24.21%和44.59%。為了提高預測準確率,采用Boosting增加正確性,其核心是將當前未能成功的預測的項提高權,為下一次學習提供重點。同時該方法將樣本集隨機分成K部分(本文中K為10),其中N部分(本文中N為7)作為訓練集,另外K全部K作為驗證集合,之后依次輪回,K部分中的每一部分都有一次作為訓練集,對于過學習與欠學習等問題上擁有較好的解決效果,結果準確度較高。建立過程如圖3所示。
分別對不同疾病進行編號(0-正常、1-腎病、2-高血壓、3-冠心病、4-糖尿病酮癥和5-重癥肺炎),采用4層64個神經元,激勵函數relu,學習速率為0.1,初始參數為0的神經網絡進行研究。其結果分別如圖4、圖5和表9,表10所示。

圖3:神經網絡建立過程
ROC曲線中,曲線面積越大,其結果準確性越大。對比圖5和圖4可以看出,經過主成分因素分析和異常值剔除的ROC曲線,其結果遠遠超出未處理的曲線。
通過預測準確度可以更精準的對比主成分因素分析和異常值剔除對于神經網絡準確性的影響。
表9和表10可清晰的看出,預測準確百分比進行主成分因素分析和異常值剔除的神經網絡遠遠優于未進行的神經網絡。
通過分別對較高的6項多種并發癥進行分類,找到6項主要因素對于多種并發癥的影響。之后采用常規的數學模擬方法,即通過spss軟件進行擬合曲線,將這6項主要因素和他們對應權值進行了定量計算。
表11中部分結果因為樣本不足導致出錯,所以采用符合(*)表示,該表隨著數據的增加將可以更加完善。同時本文分別對糖尿病多種并發癥,通過糖化、生化以及尿常三項進行分類研究。并進一步找尋出其中較為重要的幾項指標,來快速估計患者的多種并發癥可能。其中經過研究,年齡是最為可能的指標。隨之年齡的增加,各項多種并發癥的風險會大幅度增加。通過神經網絡,可以處理較為復雜的問題,并且通過主成分劃分可以有效的對數據進行分組和降維,而異常剔除又可以降低特異值對結果的影響,同時Boosting方法對于提高預測準確性有著很好的幫助。通過對比,可以看出在研究并發癥上神經網絡有著很好的實用性。

表11:重要影響因素對主要多種并發癥的定量表

圖4:未進行主成分因素分析和異常值剔除的ROC曲線
本文主要開展了神經網絡對糖尿病多種并發癥的研究,從糖化、生化和尿常規三個方面對多種并發癥進行了預測并進一步找尋哪些因素對結果有較大的影響。通過仿真驗證了本文算法的有效性,對糖尿病多種并發癥的研究有一定的參考意義。由于糖尿病患者個體差異,今后將進一步加強臨床分析,提高算法的適應性。

圖5:進行主成分因素分析和異常值剔除的ROC曲線