文/王旭強 萬亞平
中國是世界上糖尿病患者最多的國家,病人達到1.1億,每年有130萬人死于糖尿病及其相關疾病。每年用于糖尿病的醫療費用占中國公共醫療衛生支出的比例超過13%,超過3000億元。
確診糖尿病的關鍵環節就是診斷過程,單純的僅靠臨床表現進行判斷是不科學的。目前醫院里診斷糖尿病的主要依據是人體的各類指標。這些指標包括尿糖,血糖,葡萄糖耐量,糖化血紅蛋白A1,血漿胰島素和C-肽等。妊娠期糖尿病還需要檢測其他不同的指標。
表1
將人工智能應用于輔助醫療是目前一個研究熱點。人工智能通過對大量患者的歷史數據分析、提取不易察覺的一些關鍵指標,總結和發現規律來輔助醫生對未來的病人進行診斷。
本文將介紹國內外應用人工智能對糖尿病檢測的方法,之后介紹在該業務數據的情況下提取特征,應用新型的人工智能算法來解決這個難題。
關于糖尿病檢測的分類問題,目前國內外有很多專家進行了研究。
在二十世紀70年代,由美國斯坦福大學研制的MYCIN系統是人工智能在醫學診斷中的早期應用。IBM公司整合了20多個頂尖的癌癥醫療機構提供的大數據,它融合了自然語言處理、機器學習等人工智能技術。上個世紀八九十年代,一部分國外的專家學者用機器學習技術研究糖尿病。
在我國,近些年就出現了一種機器學習檢測妊娠期糖尿病發病風險及病情程度的預測系統,主要包括數據采集,數據預處理,特征提取,機器學習,性能評估五個部分。數據的采集是采集孕婦的數據包括懷孕周數,體重,年齡,等基本的數據信息。數據預處理是數據的清洗,異常值的排除,缺失值的填充,數據的標準化。特征提取是對數據的原始特征進行二次組合,提取出對糖尿病預測更有效的特征。機器學習部分是運用隱馬爾科夫模型分析單因素連續時間變量與妊娠期糖尿病之間的關系。性能評估模塊在獲得模型中的各個參數后,給定孕婦的某個項目的檢測指標,來判斷最終患糖尿病的機率。
數據來自于阿里天池的公開數據集。數據共包含兩個文件,訓練文件和測試文件,每個文件第一行是字段名,之后每一行代表一個個體。文件共包含42個字段,包含數值型、字符型、日期型等眾多數據類型,部分字段內容在部分人群中有缺失,其中第一列為個體ID號。訓練文件的最后一列為標簽列,即需要預測的目標血糖值。
圖1
以每個人是否患妊娠糖尿病的預測結果,以整數形式表示類別,取值為0或者1。該結果將與個體實際檢測到的是否患有妊娠糖尿病情況進行對比,以F1為評價指標,結果越大越好,F1計算公式為:F1=2*P*R/(P+R)。其中P為準確率,計算公式為:P=預測正確的正樣本數/預測的樣本數。R為召回率,計算公式為:R=預測正確的正樣本數/總正樣本數
其中正樣本數定義為數值為1的樣本數。
本實驗中,通過對數據的預處理,特征提取,與特征篩選,最終得到如表1所示結果。
如表1所示,Xgboost和lightGBM的F1值要比RF的高。數據中各項指標對結果的重要性如圖1。
如圖1可見,超早期檢測這些強重要性特征,可以做到精準預防。VAR00007越高越容易患GDM,超重、肥胖的孕婦容易患GDM,高齡孕婦容易患GDM,多孕多產次的孕婦易患GDM,具有DM家族史的孕婦GDM的發病率更高,當前身體狀況偏差也會對GDM發病率升高,血壓偏高的孕婦GDM的發病率偏高,SNP34、SNP37等單核苷酸多態性以及聯合多態性。
本文基于XGBoost和lightGBM和RF的樹模型來判斷是否為糖尿病患者。通過一系列的數據預處理以及特征提取,找出了判斷是否為糖尿病患者的重要特征。下一步的工作包括:算法的幾個關鍵參數還需要更多次的實驗。