999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的腦卒中疾病早期預測模型研究*

2021-12-01 14:07:42郭志恒劉青萍王成武阮旭凌
計算機與數字工程 2021年11期
關鍵詞:分類模型

郭志恒 劉青萍,2 劉 芳 王成武 阮旭凌

(1.湖南中醫藥大學信息科學與工程學院 長沙410208)(2.湖南中醫藥大學中醫學國內一流建設學科 長沙 410208)(3.湖南中醫藥大學藥學院 長沙 410208)

1 引言

腦卒中是由腦血管破裂出血或者血栓形成導致腦部出血性或缺血性損傷的一組疾病[1]。根據世界衛生組織統計數據可知,腦卒中是全球第二大死亡疾病[2],具有高發病率、高死亡率、高致殘率的特點[3]。臨床上針對不同類型腦卒中的治療方法存在差異,且一直缺乏有效的疾病治療手段,目前預防是延緩腦卒中發病的最好措施。

近些年,國內外學者非常關注心腦血管疾病預測模型研究。具有代表性的模型包括美國Fram?ingham風險評估模型、歐洲冠心病風險評估計劃模型、上海市健康教育所與“101健康管理”共同研發的“預防腦卒中”APP。隨著大數據、人工智能等技術在醫學領域的廣泛應用,最新研究側重于患者電子病歷數據的跟蹤和處理,以及采用機器學習、數據挖掘等方法構建較高精度的腦卒中風險預測模型[4~5]。目前臨床上用于腦卒中預測的方法較多,例如吳菊華等[6]運用神經網絡方法構建了腦卒中預測模型,采用神經網絡中多層感知機構建模型,以Relu函數作為激活函數并取得較好的實驗效果,完善了腦卒中的風險因素識別。邵澤國等[7]通過優化決策樹方法對腦卒中日常生活習慣風險因素進行分析,在C4.5基礎上將原始數據分為“有”“無”兩類并嵌套生成樹,依據知識規則得出風險因素的高低。李鵬等[8]基于邏輯回歸算法對缺血性腦卒中發病率進行研究,通過邏輯回歸算法對缺血性腦卒中的10個風險因素構建模型,以小批量梯度下降法求得模型解。

本研究采用支持向量機、邏輯回歸、隨機森林三種算法分別與SMOTE算法結合,構建腦卒中預測模型,通過三種算法的對比研究,找到更加適合構建腦卒中預測模型的算法,為腦卒中的預測和預防提供依據。

2 算法原理

2.1 SMOTE算法

SMOTE算法[9]是2002年Chawal等對數據分布不均衡提出的智能過采樣算法。該算法在隨機過采樣算法基礎上的通過對原有少數類樣本進行分析并根據原有少數類樣本人工合成新樣本。對少數類中的每一個樣本,以歐氏距離計算到少數類樣本中所有樣本的距離并得到其K近鄰,再根據不平衡率確定采樣倍率,從K個近鄰中隨機選出若干樣本,原樣本與新樣本按照公式構建新樣本。

2.2 支持向量機

SVM(Support Vector Machine,支持向量機)的基本思想是找出能將數據集劃分的幾何間隔最大的分離超平面,換言之,找到對分類結果的泛化能力最好、魯棒性最優的線性方程。對待分類樣本可構建的分離超平面為

其中,ω為垂直平面的法向量,b為偏移量。

下面是最大間隔分離超平面的獲得方法,可以表示為下面的約束最優化問題:

即希望最大化超平面(ω,b)關于數據集的幾何間隔γ,約束條件表示的是超平面(ω,b)關于每個樣本點的幾何間隔至少是γ。

2.3 邏輯回歸

邏輯回歸屬于廣義線性回歸模型,與線性回歸類似,主要思想是通過已有數據擬合出一條直線,用擬合出的這條直線進行預測。其公式如下:

通過邏輯回歸算法將線性函數得到的結果映射到sigmoid函數y=1/(1+e^(-x))中,通過極大似然估計來推導損失函數,再利用梯度下降法來求解參數來對數據進行二分類。

2.4 隨機森林

隨機森林算法是Breiman[10]等提出,該算法實際上是一種特殊的bagging方法,用bootstrap方法生成訓練集,在決策樹的基礎上以隨機的方式建立一個森林,森林里面有很多的根據訓練集構建的決策樹,各個決策樹之間沒有關聯,有新樣本輸入,就放入之前得到的森林,由森林內的決策樹分別進行判斷,被選擇較多的一類就為樣本的分類。隨機森林為了保證強大的抗過擬合和噪聲能力,在構建每一棵CART決策樹是采用了行抽樣和列抽樣的隨機化方法。

3 對象和方法

3.1 研究對象

本文采用kaggle網站的healthcare-datas?et-stroke-data數據集。數據集樣本總數為5110,包括2994名男性、2115名女性和1名不知性別者。其中,4861例為非腦卒中患者,249例為腦卒中患者。

3.2 實驗方法

3.2.1 數據處理

1)數據量化及缺失值處理

數據集中每個樣本具有11個特征屬性和1個類別標簽屬性。其中,類別標簽標明患者是否患腦卒中,11個特征屬性分別記錄每位患者的編號(id)、性別(gender)、年齡(age)、高血壓病史(hyper?tension)、心臟病史(heart_disease)、婚姻史(ev?er_married)、工作類型(work_type)、居住類型(Resi?dence_type)、平均血糖水平(avg_glucose_level)、體重指數(bmi)和吸煙狀況(smoking_status)。其中bmi屬性中有201個缺失值,采用平均值法進行數據填充。為進一步提高模型的泛化能力以及方便對數據處理,本研究對性別、婚姻史、工作類型、居住類型和吸煙狀況的數據分別進行量化。即性別(gender)中Female為1,Male為0;婚姻史(ev?er_married)中Yes為1,No為0;工 作 類 型(work_type)中Never_worked為0,Private為1,Self-employ為2,Govt_job為3,children為4;居住類型(residence_type)中Urban為1,Rural為0;吸煙狀況(smoking_status)中never smoked為0,Formerly smoked為1,smokes為2,Unknown為-1。

2)數據不平衡處理

本文通過可視化發現卒中與非卒中患者分布差別明顯,并對其進行不平衡率計算得出數據集不平衡率為5%,具體如圖1所示。

圖1 數據分布圖imbalanced_ratio=stroke/non-stroke=0.0512

對于數據不平衡處理方法分別采用ADASYN算法和SMOTE算法,經對比發現SMOTE算法對數據處理效果更好。且考慮到ADASYN算法是根據分布來自動決定每個少數類樣本所需要合成的樣本數量,相當于給每個少數類樣本施加了一個權重,周圍的多數類樣本越多則權重越高。由于卒中患者較少,使用ADASYN算法會使其權重變得相當大,導致生成過多的卒中樣本。而SMOTE算法是對于少數類樣本以歐氏距離為標準計算其到少數類樣本集的距離,得到其近鄰,避免了權重過高問題。

3.2.2 模型構建

在Windows10平臺python3.8環境下構建SVM、LR、RF分類預測模型。對數據集做預處理并計算不平衡性,對不平衡數據中的少數類用SMOTE算法經行處理,然后與均衡數據構成新的“人工”數據集,再通過算法模型對數據集進行分類預測。具體流程如圖2所示。

圖2 模型構建流程圖

3.2.3 性能指標

在醫學診斷中,評價分類器的優劣通常采用準確率、召回率和精確度等指標。準確率(accuracy)表示對給定的是測試數據集,正確分類的樣本數與總數的比值[11];召回率(recall)表示預測為正例的樣本與實際為正例的樣本的比值。精確度(preci?sion)表示實際為正例與預測為正例的比值。F1Score表示精確度和召回率兩者之間的調和平均值。混淆矩陣表示分類器在測試集上的預測是否為正確,如表1所示。

表1 混淆矩陣

其中,P為正類樣本的數目,N為負類樣本的數目。關于四個評價指標的公式:

ROC曲線是真正例(True Positive Rate)為縱坐標,假正例(False Positive Rate)為橫坐標所繪制的曲線,能反映不同的分類算法性能。ROC曲線越靠近縱軸,則模型預測效果越好。ROC曲線下面的面積為AUC,面積值越大,則算法性能越好。

4 結果與討論

實驗以healthcare-dataset-stroke-data數據集的70%為訓練集,30%為測試集分別構建SVM、LR和RF算法預測模型。結果如下所示。

從表2與表3可以看出,數據集經過SMOTE算法處理,支持向量機、隨機森林、邏輯回歸預測模型在各項指標都有很大程度提高。支持向量機在Ac?curacy、Reacll、Precision、F1Score、ROC_AUC分別提高4%、34%、65%、63%、21%;邏輯回歸在Accura?cy、Reacll、Precision、F1Score、ROC_AUC分別提高5%、12%、64%、59%、13%;隨機森林提升不明顯。為了更好的對比各個算法的性能,對SMOTE算法處理后的數據模型進行ROC曲線的繪制。從圖可以看出,RF算法的ROC曲線最靠近縱軸,即AUC值最大,值為0.98,其可以更好地擬合數據,反映數據的真實性。

表2 算法對腦卒中測試集預測指標

圖3 不同分類算法的ROC曲線

經實驗結果對比發現,隨機森林算法在準確率、召回率、AUC值等都優于其他機器學習算法,可以作為輔助診斷工具應用到實際醫療診斷中,為腦卒中的早期預防提供科學依據。

通過實驗結果發現,隨機森林算法能較好地平衡不均衡數據集,對數據集的適應能力強,減小實驗誤差。隨機森林屬于集成分類算法,相對于單一分類算法性能更優,泛化能力更強。

5 結語

如今,腦卒中已成為全球第二大死亡疾病,且發病有年輕化趨勢[12],目前預防是延緩腦卒中發病的最好措施。而急性缺血性卒中的快速識別與診治對預后的影響至關重要[13~14],因此提高腦卒中的診斷效率,提高醫生和患者的風險意識,對腦卒中的防治具有重要意義[15]。本研究通過SMOTE算法處理數據集的不平衡,選用機器學習算法中支持向量機、隨機森林、邏輯回歸算法構建預測模型。實驗結果顯示隨機森林和SMOTE算法構建的腦卒中預測模型具有更好的預測效果,可以輔助醫生提高腦卒中的診斷效率,為我國的在腦卒中診斷方面提供技術手段。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产一级裸网站| 欧美19综合中文字幕| 亚洲AV无码精品无码久久蜜桃| 亚洲国产成人精品青青草原| 国产流白浆视频| 亚洲开心婷婷中文字幕| 国产簧片免费在线播放| 91外围女在线观看| 欧美不卡视频在线观看| 91欧美亚洲国产五月天| 国产成人一区免费观看| 精品偷拍一区二区| 欧美va亚洲va香蕉在线| 成人欧美在线观看| 欧美精品成人一区二区视频一| 欧美精品高清| 国产自在自线午夜精品视频| 精品国产免费观看| 国产凹凸视频在线观看 | 在线免费观看AV| 最新午夜男女福利片视频| 亚洲女同欧美在线| 亚洲第一国产综合| 国产区人妖精品人妖精品视频| 午夜色综合| 国产91丝袜| 久久久久久久97| 免费jizz在线播放| 日韩在线成年视频人网站观看| 成人国产精品一级毛片天堂| 国产福利一区在线| 亚洲欧美日韩色图| 国产成人精彩在线视频50| 人人澡人人爽欧美一区| 久久精品中文字幕少妇| 国产精品成人一区二区| 亚洲人成人无码www| 亚洲二区视频| 成人精品亚洲| 国产永久在线视频| 久久无码高潮喷水| 最新亚洲av女人的天堂| 亚洲国产成人自拍| 亚洲成A人V欧美综合| 夜夜高潮夜夜爽国产伦精品| a毛片在线免费观看| 在线日韩一区二区| 亚洲视屏在线观看| 台湾AV国片精品女同性| 97视频在线精品国自产拍| 国产高清在线丝袜精品一区| 色婷婷在线播放| 麻豆a级片| 青草午夜精品视频在线观看| 91在线无码精品秘九色APP| 日本在线视频免费| 丝袜高跟美脚国产1区| 国产女人在线观看| 欧美亚洲一二三区| 青青草久久伊人| 久久影院一区二区h| 日韩免费毛片视频| 午夜精品影院| 日韩国产精品无码一区二区三区| 国产综合网站| 国产18在线播放| 一区二区三区精品视频在线观看| 国产交换配偶在线视频| 色视频久久| 国产九九精品视频| 在线观看免费AV网| 欧美日韩成人在线观看| 亚洲不卡影院| 国产成人免费高清AⅤ| 成人亚洲视频| 另类专区亚洲| 丁香婷婷激情综合激情| 成年人免费国产视频| 日本午夜影院| 亚洲无线视频| 亚洲三级视频在线观看| 国产精品视频999|