999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的心臟病預測診斷模型研究

2022-11-19 09:16:02梁靖涵許亞杰
現代信息科技 2022年19期
關鍵詞:模型

梁靖涵,許亞杰

(鄭州科技學院,河南 鄭州 450064)

0 引 言

心臟病是一種沒有傳染性但致死率很高的疾病,該疾病發病過程緩慢、病程長、發病原因復雜。由于傳統的醫療決策模式很難對此類疾病進行準確的分析和診斷,導致患者無法及時發現、無法得到及時的治療[1]。根據上述問題,很多研究人員提出了基于機器學習的方法,Subbalakshmi 等人利用樸素貝葉斯分類器作為核函數,構建支持決策的心臟病診斷輔助系統。國內有學者將聚類技術和XGBoost 算法進行結合,采用K-means 算法進行特征識別和XGBOOST 算法對心臟病進行預測分 析[2]。機器學習算法涵蓋范圍廣泛,在模型構建時,由于使用不同的特征和機器學習算法都會造成預測精度的差異,因此上述研究模型準確率有待提高。

根據上述分析,本文從數據處理的全局角度出發,對原始數據集進行標準化、特征選擇,采用優化數據集的方式提升算法準確率,構建決策樹算法和K 近鄰算法兩種機器學習算法模型進行數據分析和預測,經過實驗對比得出最優分類算法模型,為醫生在心臟病的預測診斷提供科學依據。

1 數據與特征

1.1 數據描述

本研究數據來源于美國行為風險因素檢測系統(BRFSS)數據庫中提供的開源數據集,該數據集共有數據319 795 條,有18 個屬性,其中有17 個屬性為特征變量,有1 個屬性Heart Disease 是用來判斷患者是否患心臟病的標簽屬性,屬性值Yes 表示患有心臟病,屬性值No 表示沒有心臟病。數據集各字段含義解釋如表1 所示。

表1 數據集屬性介紹

續表

1.2 數值特征可視化與數據預處理

如圖1 所示為心臟病數據集變量相關性熱力圖,該圖能清楚地顯示出各種特性的關系,右邊刻度顯示的是各種相關系數所對應的色彩深度,相關系數越接近0,則屬性間的關聯性越低,正數表示屬性之間為正相關,負數表示屬性之間負相關。從圖中可以看出特征Sleep Time、Mental Health、Alcohol Drinking、Asthma、BMI、Sex與標簽變量Heart Disease 的相關系數值接近于0,在進行特征工程時可以考慮剔除這些變量,以免導致因多重共線性造成過擬合。從熱力圖的第一行或者第一列可以看出,對判斷是否患有心臟病與Stroke、Physical Health、Diff Walking、Diabetic、Kidney Disease 等變量具有較高的相關性。因此,在創建心臟病診斷模型時需要保留這些屬性。同時采用Standard Scaler 模型對數據進行標準化處理,即采用Z-Score 規范化數據,保證每個特征維度的數據均值為0,方差為1。同時,利用scikit-learn 庫中的OneHotEncoder 把分類特征中的每個元素的值都轉化為可以直接計算的數值。

圖1 變量相關性熱力圖

2 機器學習模型創建

2.1 決策樹模型創建

決策樹(DT)是一種基于已知各種情形的概率的決策分析方法,利用 DT 構造出預期凈現值的期望值大于或等于0,以此來評價工程的風險,判定工程是否可行。由于這個決策分支被繪制成了樹形結構,因此被稱作決策樹[3]。決策樹是機器學習中的一種能夠反映目標屬性與目標價值的映射關系的預測模型。決策樹模型構建分為以下三個步驟。

2.1.1 特征選擇

在信息理論和概率統計學中,熵(entropy)是一種用來衡量隨機變量不確定因素的指標。不確定因素的熵定義是:

式中:H(X)為熵,pi表示這一批樣本中最終屬于第i個分類的概率。

隨機變量X給定的條件下隨機變量Y的條件熵H(Y|X),定義為X給定條件下Y的條件概率分布的熵對X的數學期望:

式中:H(Y|X)表示條件信息熵,pi表示這一批次樣本中第i類的概率,其中pi=P(X=xi),i=1, 2, …,n表示滿足條件X=xi的樣本。

2.1.2 決策樹的生成

在構造決策樹時,首先使用由上到下的遞推結構,由單一的節點組成,當所有的樣本都位于相同的類時,將其視為葉子節點,而節點的內容就是分類標簽。反之,根據某一策略,選取某一屬性,將其分成多個子集,以使每一子集中的實例都擁有相同的屬性值,并依次對其進行遞 歸[4]。基本步驟如下:

(1)開始,所有預測變量均看作一個節點;

(2)通過對每一種預測變量進行分割,找出最優的分割點;

(3)分割成兩個分支N1和N2;

(4)對N1和N2分別執行步驟2 和步驟3,直到每個節點都足夠“純”為止。

2.1.3 決策樹的剪枝

把以生成的樹進行修剪的過程稱為剪枝(pruning)。決策樹的修剪是使決策樹總體損失函數(loss function)或代價函數(cost function)最小化而得 到的[5]。設樹T的葉節點個數,t是樹T的葉節點,該葉節點有Nt個樣本點,其中k類的樣本點有Ntk個,k=1, 2, …,K,Ht(T)為葉節點t上的經驗熵,α≥0 為正則化系數,則決策樹學習的損失函數可以定義為:

式中:|T|表示葉子節點個數,Ht(T)為葉節點t上的經驗熵。

2.2 K 近鄰算法模型創建

K 近鄰(KNN)是最典型的機器學習算法,KNN 的基本思路是:在已知的樣本空間和它的分類中,利用相似性運算,獲得最接近于被分類的K個樣本,并根據K個抽樣的選票確定待分類的類別。在實際計算中,一般采用距離來描述兩個樣本的相似性。距離越近,相似性越強,距離越遠,相似 性越低[6]。測量距離的方法有很多種,比如閔可夫斯基距離、曼哈頓距離、歐氏距離和切比雪夫距離,其中歐氏距離是最常用的距離計算方法。假設兩個m維樣本:

xi與xj的歐幾里得距離定義為:

式中:xil表示第l 個點的第i維坐標,xjl表示第l 個點的第j維坐標。

給定訓練樣本集S={t1,t2, …,ts}和一組類屬性C={C1,C2,…,Cm}(m<s),要對待分類樣本t進行分類,K 近鄰算法的基本步驟為:

(1)先求出t與S中所有訓練樣本ti(1 ≤i≤S)的距離dist(t,ti),并對所有求出的dist(t,ti)值遞增排序;

(2)選取與待測樣本距離最小的K個樣本,組成集合N;

(3)統計N中K個樣本所屬類別的頻率;

(4)頻率最高的類別做為待測樣本的類別。

3 模型評價

3.1 評價指標

在機器學習中,對機器學習模型進行評價是一個重要的環節。在此基礎上,采用了精確度、精確度、召回率、F1_得分等方法對算法進行了評價。HeartDisease 是用來判斷患者是否患心臟病的標簽屬性分成兩類,根據數據預處理將字段值中的“Yes”用“1”表示代表有心臟病,字段值中的“No”用“0”表示代表的是沒有心臟病,P代表陽性樣本,N代表陰性樣本。各種性能指標定義如下:

式中:TN 代表預測為假實際為假的樣本個數,TP 代表預測為真實際為真的樣本個數;FP 代表預測為真實際為假的樣本個數,FN 代表預測為假實際為真的樣本的個數。

3.2 實驗分析

對所建立的決策樹模型(DT)和K 近鄰(KNN)模型進行訓練。由于Heart Disease 字段是標簽列,在模型預測時,在特征子集中要將Heart Disease 列去除,并在模型的預測中進行了交叉驗證。引用Sklearn 庫中train_test_split,把數據集分成兩個部分。其中,測試數據集占的比例為20%,數據集拆分之后,對數據集進行擬合操作,并且對數據集吻合度進行評估。最后采用十折交叉驗證方法評估模型的性能,交叉驗證的過程為使用訓練集訓練出10 個模型,用10 個模型分別對交叉驗證集計算得到代價函數的值,選取代價函數值最小的模型,使用這個最小模型對測試集計算得到代價函數的值。

創建決策樹模型(DT)算法的過程為進行參數優化時預設max_depth 的掃描值為[3,5,7,9,11,13,15] 這7 個值,min_samples_leaf 的掃描值為[1,3,5,7,9],然后對每組參數進行評估得到max_depth 的最佳深度為5.0,獲得min_samples_leaf 的最佳值為7。選取最優特征作為分割特征。然后,將兩個參數代入模型。創建K 近鄰(K-Nearest Neighbors, KNN)模型算法的過程中K值的取值范圍[1, 2, 3,4, 5, 6, 7, 8, 9, 10],選取這10 個值遍歷,經過實驗發現當K為1, 2, 3 時,K 近鄰算法的分類準確率變化波動較大,說明不同類樣本的特征分布較為密集,導致K值較小時,對分類準確率影響很大。當K值不斷增大時,K 近鄰的分類準確率呈現減小的趨勢。當K值取5 時,分類準確率最高,將參數值帶入K 近鄰算法模型在數據集上求得模型評估參數的值。

通過上述兩種調參之后的算法在心臟病數據集上進行測試得到算法模型的評價指標:準確率(Accuracy)、精確度(Precision)、召回率(Recall)、F1_得分(F1_score)等指標,指標取值范圍[0,1],結果如表2 所示,從表中可以看出K近鄰算法模型的準確率為0.907,精確度為0.358,而決策樹模型的準確率為0.866,精確度為0.235。

表2 模型評價指標對比

對兩種用于心臟病預測的模型進行對比,對比結果進行可視化如圖2 所示,從ROC 曲線圖中可以看出K 近鄰算法模型要優于決策樹算法模型。

圖2 模型結果對比

4 結 論

本論文的主要研究目的是建立一種可以幫助醫生進行心臟疾病預測的機器學習算法模型,通過將決策樹算法和K近鄰算法的參數進行優化,尋找適合心臟病預測的最優參數值。實驗結果顯示,參數優化后的K 近鄰算法模型對預測心臟病的準確率達到了0.907,要比決策樹算法準確率高,因此K 近鄰算法更適合做心臟病預測診斷模型。與其他的研究結果相比較,本文所得到的結論是比較滿意的,可以更準確地反映病人的病情,但是,這些預測值仍然不夠精確,因此,心臟病預測的模型還有改進的余地。本文的研究也可以為多類別的應用提供一種新的模型。未來研究的重點是提高預測模型的精確度,提高模型的使用效率,以及在許多疾病的算法分析、模型構建和預測研究中的應用。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产亚洲欧美在线专区| 另类重口100页在线播放| 国产精品理论片| 99久久精品免费看国产免费软件 | 国产青青操| 精品超清无码视频在线观看| 国产成人一区免费观看| 99re经典视频在线| 91精品视频播放| 伊人久久婷婷| 国产精品jizz在线观看软件| 欧美精品1区| 精品黑人一区二区三区| 国产自产视频一区二区三区| 欧美成一级| 98超碰在线观看| 免费国产福利| 91成人试看福利体验区| 国产一线在线| 婷婷伊人五月| 免费a级毛片视频| 国产一级毛片网站| 国产精品女同一区三区五区| 五月天天天色| 国产制服丝袜91在线| 99青青青精品视频在线| 白丝美女办公室高潮喷水视频 | 国产天天射| 亚洲国产精品无码AV| 无码福利日韩神码福利片| 国产亚洲精品在天天在线麻豆 | 伊人狠狠丁香婷婷综合色| 国产成人精品亚洲日本对白优播| 国产91视频观看| 国产精品蜜臀| 亚洲AV无码乱码在线观看裸奔| 久久动漫精品| 日韩欧美国产另类| 亚洲激情区| 国产激情在线视频| 精品无码专区亚洲| a级毛片免费网站| 国产精品粉嫩| 伊人五月丁香综合AⅤ| 欧美日本激情| 久久久久无码国产精品不卡| 久久99国产乱子伦精品免| 色精品视频| 亚洲无码91视频| 2020极品精品国产 | 欧美a在线视频| 久久一日本道色综合久久| 国产欧美综合在线观看第七页| 欧美a√在线| 国产成人精品18| 情侣午夜国产在线一区无码| 亚洲精品天堂自在久久77| 激情影院内射美女| 免费国产高清精品一区在线| av一区二区三区高清久久| 毛片在线播放a| 2020国产精品视频| 国产精品免费入口视频| 国产精品30p| 在线视频一区二区三区不卡| 国产在线观看人成激情视频| 亚洲男人的天堂视频| 色综合天天娱乐综合网| 亚洲欧洲日韩久久狠狠爱| 国产精品99久久久| 狠狠色香婷婷久久亚洲精品| 91精品视频在线播放| 欧美成人综合视频| 伊人色天堂| 国产老女人精品免费视频| 亚洲a免费| 欧美a在线看| 亚洲色图欧美一区| 亚洲一区二区精品无码久久久| 在线观看视频99| 亚洲国产欧洲精品路线久久| 69av在线|