999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的心臟病例分類預(yù)測(cè)研究

2021-10-18 00:31:38孫鐵錚于澤灝
電腦知識(shí)與技術(shù) 2021年26期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

孫鐵錚 于澤灝

摘要:本文選取國(guó)外醫(yī)療研究中心心臟病患者數(shù)據(jù)集為研究對(duì)象,在對(duì)數(shù)據(jù)進(jìn)行虛擬變量變換操作的基礎(chǔ)上,探究相關(guān)致病因素與目標(biāo)患者之間的聯(lián)系,通過(guò)引入Logistic回歸、KNN、SVM、樸素貝葉斯、決策樹(shù)、隨機(jī)森林六類機(jī)器學(xué)習(xí)算法對(duì)病例類別進(jìn)行分類預(yù)測(cè),以準(zhǔn)確率與混淆矩陣作為輸出結(jié)果的評(píng)判標(biāo)準(zhǔn),對(duì)其分類識(shí)別預(yù)測(cè)的能力做出對(duì)比分析。

關(guān)鍵詞:機(jī)器學(xué)習(xí);多算法對(duì)比;心臟病預(yù)測(cè)

中圖分類號(hào):TP3? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)26-0096-02

開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

1 研究背景

心臟病為臨床上不具有傳染性的慢性疾病,致死率較高,傳統(tǒng)的醫(yī)療決策方法難以準(zhǔn)確分析和診斷此類疾病。隨著大量臨床檢查、治療報(bào)告和電子病歷數(shù)據(jù)的產(chǎn)生,為信息技術(shù)介入醫(yī)療診斷和輔助醫(yī)療病理決策提供了數(shù)據(jù)依據(jù)。通過(guò)對(duì)大量的醫(yī)學(xué)數(shù)據(jù)進(jìn)行有效的提取與加工,機(jī)器學(xué)習(xí)算法可以為疾病做出正確的診斷、預(yù)測(cè)疾病的概率或患者病例,結(jié)合相關(guān)領(lǐng)域的專家知識(shí)和平衡潛在的數(shù)據(jù)處理分析,以求達(dá)到更好的疾病診斷結(jié)果,提高疾病預(yù)防、診斷和研究現(xiàn)狀。

2 研究現(xiàn)狀

以計(jì)算機(jī)學(xué)科為研究背景的諸多學(xué)者提出了多種理論與技術(shù)手段用以提高心臟病預(yù)測(cè)的檢測(cè)水平。Subbalakshmi等人[1]以樸素貝葉斯分類器為核函數(shù),開(kāi)發(fā)了一種支持決策的心臟病預(yù)測(cè)系統(tǒng)(DSHDPS),從歷史數(shù)據(jù)中提取隱藏知識(shí),通過(guò)使用年齡、性別、血壓等醫(yī)療體征指標(biāo)來(lái)預(yù)測(cè)患者患病的可能性。Amin等人[2]對(duì)關(guān)鍵特征進(jìn)行提取并通過(guò)遺傳神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸分析。周孟然等[3]利用自適應(yīng)人工蜂群算法對(duì)ELM算法隱含層的權(quán)值與偏置值進(jìn)行優(yōu)化,通過(guò)對(duì)最優(yōu)特征子集的訓(xùn)練提升了ELM算法在心臟病輔助診斷中的表現(xiàn)。劉宇,喬木[4]將聚類與XGBOOST算法相結(jié)合,通過(guò)K-means算法對(duì)數(shù)據(jù)進(jìn)行特征區(qū)分并利用XGBOOST算法對(duì)心臟病進(jìn)行預(yù)測(cè)分析。葉蘇婷等[5]利用決策樹(shù)算法構(gòu)建了心臟病數(shù)據(jù)集預(yù)警模型并編寫了用戶程序界面。

3 數(shù)據(jù)及可視化

本研究數(shù)據(jù)來(lái)源于克利夫蘭數(shù)據(jù)庫(kù)(Cleveland Clinic UCI)所構(gòu)建的開(kāi)源心臟病例數(shù)據(jù)集。樣本數(shù)據(jù)共303條,包含13類影響因素指標(biāo)與患病標(biāo)簽量,其中年齡、血壓值、膽固醇含量、最快心率四項(xiàng)因素為連續(xù)型數(shù)值,其余為離散型數(shù)值變量。通過(guò)對(duì)不同數(shù)據(jù)類型的關(guān)系映射以及數(shù)據(jù)虛擬化操作,將其統(tǒng)一為相同量級(jí)的數(shù)據(jù)結(jié)構(gòu)為機(jī)器學(xué)習(xí)算法的訓(xùn)練做準(zhǔn)備。數(shù)據(jù)變量列表如表1所示。

圖1以年齡、靜息血壓、最大心率、膽固醇量、患病標(biāo)簽構(gòu)建相關(guān)性矩陣圖,患病樣本年齡呈現(xiàn)正態(tài)分布狀態(tài),健康樣本年齡呈負(fù)偏態(tài)分布狀態(tài)。靜息血壓呈現(xiàn)正偏態(tài)分布趨勢(shì),其中患病樣本靜息血壓尖峰狀態(tài)更加明顯。30-40歲年齡段中患病人數(shù)的分布情況多集中于峰值,其對(duì)應(yīng)的血壓值均高于120mm,其眾數(shù)與50-60歲年齡段基本持平,表明對(duì)于30-40歲人群來(lái)說(shuō)較高的靜息血壓值可作為重要的患病評(píng)判依據(jù)。健康樣本最大心率值呈正態(tài)分布,患病樣本則呈現(xiàn)負(fù)偏態(tài)分布。其表明以53歲為分界點(diǎn),樣本年齡區(qū)間處于30-53歲的個(gè)體其最大心率值越高,患病趨勢(shì)越明顯,大部分的非患病個(gè)體其最大心率值均保持在160以下。而樣本年齡區(qū)間處于53-70歲的個(gè)體其最大心率值越低,患病趨勢(shì)越明顯,大部分非患病個(gè)體的最大心率要高于患病個(gè)體。由此可推斷以患病率為前提年齡與最高心率值呈反比關(guān)系。膽固醇值患病與非患病樣本均呈現(xiàn)正偏態(tài)分布且患病樣本尖峰程度仍明顯高于健康樣本。患病者膽固醇數(shù)值隨年齡變化不明顯,但整體患病群體表現(xiàn)為膽固醇值偏低。靜息血壓值越低且最大心率值越高患病概率越大,靜息血壓值越低且膽固醇值越低患病風(fēng)險(xiǎn)越大。當(dāng)最大心率值越大且膽固醇含量較低時(shí)患病概率也會(huì)大大增加。

4 實(shí)驗(yàn)過(guò)程與結(jié)果分析

本文選取邏輯回歸、K近鄰、支持向量機(jī)、樸素貝葉斯、決策樹(shù)、隨機(jī)森林,六種機(jī)器學(xué)習(xí)經(jīng)典算法對(duì)目標(biāo)患者標(biāo)簽進(jìn)行分類預(yù)測(cè),通過(guò)虛擬化操作統(tǒng)一數(shù)據(jù)量綱,以數(shù)據(jù)集80%的數(shù)據(jù)量作為各算法的訓(xùn)練集,其余20%作為模型驗(yàn)證集。選取分類預(yù)測(cè)準(zhǔn)確度作為模型輸出表現(xiàn)的評(píng)價(jià)指標(biāo),并根據(jù)各算法驗(yàn)證集表現(xiàn)情況建立混淆矩陣,對(duì)模型的實(shí)際分類預(yù)測(cè)能力進(jìn)行評(píng)判,實(shí)驗(yàn)流程如圖2所示。

其中邏輯回歸算法迭代訓(xùn)練次數(shù)設(shè)為1000次,當(dāng)訓(xùn)練迭代進(jìn)行到約500次時(shí)其損失函數(shù)可達(dá)到最小值,整體趨于收斂。對(duì)于K近鄰算法來(lái)說(shuō),當(dāng)近鄰群數(shù)取為7時(shí)所對(duì)應(yīng)的分類準(zhǔn)確度最高,證明此時(shí)的分類預(yù)測(cè)效果最好。

以分類準(zhǔn)確度作為評(píng)判依據(jù),在該數(shù)據(jù)集上K近鄰算法相較于其他算法具有最高的適用性與最佳表現(xiàn),其分類準(zhǔn)確度達(dá)到90.16%,邏輯回歸、樸素貝葉斯以及隨機(jī)森林算法也具有較高的分類預(yù)測(cè)能力,其準(zhǔn)確度分別可達(dá)到:85.25%、85.97%、85.25%。決策樹(shù)算法在所有模型中表現(xiàn)最差,其分類準(zhǔn)確度僅為75.41%。對(duì)比結(jié)果如表2所示。

對(duì)于分類算法評(píng)估指標(biāo)除準(zhǔn)確度外還有召回率,精確度等。而這些指標(biāo)均基于混淆矩陣進(jìn)行構(gòu)建。矩陣每一列代表一個(gè)類的預(yù)測(cè)情況,每一行表示一個(gè)類的實(shí)際樣本情況。其中正例樣本數(shù)量記為P,負(fù)例樣本數(shù)量記為N,被正確預(yù)測(cè)的正例數(shù)量記為TP,負(fù)例樣本被預(yù)測(cè)呈正例樣本數(shù)量記為FP,正例樣本被預(yù)測(cè)成負(fù)例樣本數(shù)量記為FN,正確預(yù)測(cè)到的負(fù)例樣本數(shù)量記為TN。分類準(zhǔn)確度,即正負(fù)樣本分別被正確分類的概率,其計(jì)算公式為:

[Accuracy=TP+TNP+N]? ? ? ? ? ? ? ? ? ? ? (1)

召回率,即正樣本被識(shí)別出的概率,計(jì)算公式為:

[Recall=TPP]? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 国产精品中文免费福利| 免费a在线观看播放| 天天综合网色中文字幕| 2020精品极品国产色在线观看 | 国产极品美女在线| 青青草国产在线视频| 亚洲天堂网在线视频| 亚洲欧美日韩成人高清在线一区| 欧日韩在线不卡视频| 国产色伊人| 亚洲国产精品日韩专区AV| 亚洲男人的天堂在线观看| 日本影院一区| 久久精品人人做人人爽97| 国产午夜无码片在线观看网站| 久青草免费视频| 国产网站一区二区三区| 54pao国产成人免费视频| 国产高清无码麻豆精品| 国产91熟女高潮一区二区| 国产成人无码AV在线播放动漫| 就去吻亚洲精品国产欧美| 91在线激情在线观看| 91精品专区国产盗摄| 福利小视频在线播放| 免费人成视网站在线不卡| 国产成人综合久久精品尤物| 国产中文一区a级毛片视频| 亚亚洲乱码一二三四区| 好紧好深好大乳无码中文字幕| 91蝌蚪视频在线观看| 亚洲天堂精品视频| 欧美不卡在线视频| 最新精品久久精品| 国产精品亚洲va在线观看| 亚洲一级毛片在线播放| 成年免费在线观看| 亚洲人成高清| 欧美午夜性视频| 婷婷六月综合| 精品视频一区在线观看| 日韩在线2020专区| 无码久看视频| 亚洲香蕉在线| 四虎永久在线视频| 精品成人一区二区三区电影| 制服无码网站| 亚洲国产清纯| 久久久久久尹人网香蕉| 日韩123欧美字幕| 欧美一区二区啪啪| 全免费a级毛片免费看不卡| 亚洲日韩图片专区第1页| 中文成人在线视频| 成人精品午夜福利在线播放| 夜色爽爽影院18禁妓女影院| 成人久久精品一区二区三区| 中国黄色一级视频| 国产成人久久综合一区| 91香蕉国产亚洲一二三区 | 欧美色亚洲| 国产成人亚洲无码淙合青草| 欧美专区在线观看| 九九九久久国产精品| 日韩美毛片| 久无码久无码av无码| 色久综合在线| 精品国产欧美精品v| 九九九精品成人免费视频7| 国精品91人妻无码一区二区三区| 国产精品护士| 国产成人精品免费av| 少妇被粗大的猛烈进出免费视频| 国产真实乱人视频| 国产福利在线观看精品| 91破解版在线亚洲| 国产AV无码专区亚洲A∨毛片| 亚洲精品视频免费观看| 国产精品国产三级国产专业不| 国产情侣一区二区三区| 国产日本欧美亚洲精品视| 欧美a级在线|