基于RF-LR改進算法的糖尿病預測模型

2020-11-06 12:14:26王彥青王榆心吳修錕盧飛龍衍遜

科學與財富 2020年24期

王彥青王榆心吳修錕盧飛龍衍遜

摘要：隨著“健康中國”政策的提出，醫療健康問題受到社會廣泛關注。糖尿病作為一種慢性疾病對國民身體健康存在巨大的威脅，目前疾病輔助預測領域存在著疾病預測算法精確度不夠高，預測算法未考慮到疾病誤診代價等問題。針對上述問題，本實驗使用真實的醫療數據，對提出的隨機森林與邏輯回歸（RF-LR）改進算法進行疾病預測模型訓練，將算法模型與LR算法、決策樹算法和SVM算法進行對比測試。

關鍵詞：疾病預測;隨機森林;邏輯回歸;SVM

0???? 引言

隨著科學技術發展，現在我們處于一個高度信息化的社會，當然醫療領域也不例外。人們的醫療健康數據以電子病歷[1]、健康信息檔案[2]的形式被收集起來，醫療健康數據中蘊藏著的信息對于醫學研究具有重要的意義。

糖尿病作為高發病率、低治療率疾病，隨著國民生活方式和飲食結構改變而嚴重威脅著患者的身體健康。為了更加科學、準確的預測糖尿病，提出了使用RF-LR改進算法的疾病預測模型。模型針對數據集構建預測模型，并將改進后的算法與其他疾病預測算法進行對比，驗證本實驗中改進的算法的有效性。

1???? RF-LR改進算法的疾病預測模型構建

1.1? 隨機森林算法

隨機森林算法可以通過對樣本數據加入隨機擾動的方式計算樣本特征的重要性評分，樣本特征的重要性評分可以說明該特征對于目標變量的重要性程度，因此可以使用隨機森林的這一特點作為樣本數據特征選擇的評價標準[3]。

1.2? RF-LR算法模型

使用隨機森林算法后，原始數據集中的每一個特征都會得到相應的特征重要性評分，根據這些評分特征將特征按照降序進行排列，然后使用SBS搜索策略逐次刪除特征排序隊列中排在最末位的特征，也就是特征集合中重要性最低的特征，每刪除一個特征就計算一次預測的正確率，直到特征集合中的特征個數為零，最后輸出能夠使預測結果達到最好的特征子集。

基于RF-LR改進算法的疾病預測模型，將隨機森林算法作為邏輯回歸的前置預處理系統，將經過特征選擇后的特征子集，作為邏輯回歸算法的輸入，接下來，在邏輯回歸算法的損失函數中，考慮到誤診的代價是不同的，將患病預測未患病的代價[4]，應該遠大于將未患病預測為患病的代價，故而引入權重參數對邏輯回歸算法進行改進。基于RF-LR改進算法的疾病預測流程如圖1.1所示。

2???? 實驗設計與分析

2.1? 模型評估

我們以UCI網站的糖尿病合并視網膜病變數據集作為本實驗數據來源。表中包含就診患者的基本信息表、生化表、等多個表格，導致數據出現重復，同時數據里的屬性中包含文字、異常值、空白值等，需要對數據集中的重復數據和缺失數據進行清洗、填補等工作。

為保證通過RF-LR改進算法訓練模型的準確率，我們對算法模型預測結果進行評估。首先使用RF算法對樣本進行樣本特征的重要性進行評分，對數據集的特征排列使用列向后搜索方法，達到特征選擇目的。為確保特征選擇結果的客觀性，采用10折交叉驗證法。特征選擇結果如圖2.1。

由圖2.1可看出，如果特征子集中的特征數量為8 時能夠得到最小的OOB誤差率，此時的特征子集是最優特征子集。

2.2? 評價標準

作為算法的評價指標有精確率（Precision）、召回率（Recall）、F1值以及ROC曲線[5]。該實驗使用糖尿病合并視網膜病變數據集，并同原始的LR算法、決策樹算法和支持向量機算法進行實驗對比。以上三種算法在疾病預測領域中有較多的應用。

RF-LR改進算法在圖2.3中的ROC曲線中，較LR、決策樹和SVM都有一定程度的提高。實驗結果可以表明，本文所提出的基于RF的LR改進算法在疾病預測方面具有良好的效果。

3???? 結束語

本文基于RF-LR的改進算法完成了疾病預測模型的構建，同時結合糖尿病合并視網膜病變數據集進行模型的訓練，采用多重指標對實驗結果進行了評估。結果顯示此算法得到的結果準確率、召回率等指標相對于應用較多的算法都有提高，說明本文提出的RF-LR改進算法在糖尿病預測中具有一定的優勢。

參考文獻：

[1]?? Thompson G.，O'Horo J C.，Pickering B W.，et al.Impact of the electronic medical record on mortality，length of stay，and cost in the hospital and ICU：a systematic review and metaanalysis[J].Critical Care Medicine，2015，43（6）：1276.

[2]?? 茍夢野，趙文龍，楊美潔，等.基于電子健康檔案相關研究現狀、熱點與前沿知識可視化分析[J].現代預防醫學，2019，46（01）：65-72.

[3]?? Qi Yanjun.Random forest for bioinformatics[J].Ensemble Machine Learning，2012：307-323.

[4]?? 萬建武，楊明.代價敏感學習方法綜述[J].軟件學報，2020，31（01）：113-136.

科學與財富2020年24期

科學與財富的其它文章: Theme Analysis of Because I Could Not Stop for Death from the perspective of Cohesion; 論現代財務的發展和基本特征; 從上市公司監管體制上探析原油寶事件的根源和解決對策; 關于湖湘音樂文化發展現狀的梳理與思考; 新冠疫情下中小企業的創新與戰略選擇; 資產證券化的法律問題分析