999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Borderline-SMOTE和OOA-SVM的心臟病診斷預測模型

2025-01-17 00:00:00祖璇張廣海

摘要:為實現心臟病精準預測,構建了一種預測準確率較高的心臟病診斷預測模型.首先對原始數據集進行pearson相關性分析和歸一化處理;然后采用過采樣技術Borderline-SMOTE算法,平衡訓練數據集的少數類;之后利用魚鷹優化算法(Osprey Optimization Algorithm, OOA)優化支持向量機(support vector machine, SVM),獲得最優參數組合(C, g);最后在測試數據集上進行分類預測.與SSA-SVM、SMA-SVM和SVM相比,本文方法OOA-SVM的預測準確率最高,達到了95.08%,且模型穩定性最好.

關鍵詞:Borderline-SMOTE;魚鷹優化算法;支持向量機;心臟病診斷預測

中圖分類號:TP393"" 文獻標志碼:A

文章編號:2095-6991(2025)01-0046-07

Prediction Model of Heart Disease Diagnosis Basedon Borderline-SMOTE and OOA-SVM

ZU Xuan1, ZHANG Guang-hai2

(1. Department of Economics, Wuhu University, Wuhu 241008, Anhui, China;

2. School of Big Data and Artificial Intelligence, Wuhu University, Wuhu 241008, Anhui, China)

Abstract:In order to realize the accurate prediction of heart disease, a prediction model of heart disease diagnosis with high prediction accuracy was established. Firstly, pearson correlation analysis and normalization were performed on the original data set; and then the over-sampling Borderline-SMOTE algorithm was used for balance a few classes of the training data set; then the Osprey Optimization Algorithm (OOA) was used to optimize the support vector machine (SVM) to obtain the optimal parameter combination (C, g); finally, classification prediction is made on the test data set. Compared with SSA-SVM, SMA-SVM and SVM, the prediction accuracy of OOA-SVM is the highest, reaching 95.08%, and the model stability is the best.

Key words:Borderline-SMOTE; Osprey Optimization Algorithm; support vector machine; diagnostic prediction of heart disease

0 引言

心臟病是全球最致命的主要疾病之一,它可以引起各種類型的并發癥,如心力衰竭和中風等[1].心臟病的預測對人類健康具有重要意義.20世紀40年代的Framingham是最經典的心血管疾病研究之一,為人類心臟疾病研究做出了重大貢獻[2].隨著機器學習技術和數據挖掘方法的出現,心臟病預測手段也在不斷更新.Thomas J等[3]根據年齡、性別及血壓等因素,采用 KNN、決策樹算法和神經網絡等對患者風險水平進行分類.C. Suvarna等人[4]利用數據挖掘和帶有收縮因子的粒子群算法(PSO)進行預測,驗證了該算法具有核心競爭力.趙金超等人[5]建立了KNN-RF模型預測心臟病,結果證明了該算法的可行性和有效性.Shuge Ouyang[6]從不同的心臟疾病類型和數據集入手進行心臟病預測,證明了不同的機器學習方法只能應用于特定的范圍.譚朋柳等人[7]提出了CNN-Adaboost模型進行心臟病預測分類,解決了利用機器學習預測準確率不高的問題.

傳統分類算法作用于分類預測時,數據集中不同類別的數據樣本基本分布均衡.而實際應用場景中的數據集都是不平衡的,利用原有模型進行預測將會出現嚴重偏差.原因是分類器在分類時偏向多數類,從而使少數類樣本被錯誤識別的可能性變大[8].解決不平衡數據分類的方法主要分為欠采樣、混合采樣和過采樣3種[9].欠采樣是指通過降低多數類的樣本來平衡少數類,其算法包括隨機欠采樣方法[10]、UnderBagging[11]等.欠采樣的缺點是刪除的可能是重要數據,另外樣本不足也會降低分類器的性能.過采樣是指向少數類添加額外合成樣本,其保留了數據集的原始信息,算法包括SMOTE[12]、SMOTENC[13]、ADASYN[14]和Borderline-SMOTE[15]等.

為提高心臟病預測準確率,提出了Borderline-SMOTE和OOA-SVM相融合的心臟病診斷預測模型,首先利用Borderline-SMOTE平衡數據集,然后由OOA優化SVM的核心參數,最后將此模型應用于心臟病分類預測,并通過準確率、查全率、F1分數和查準率評判結果的優劣.

1 相關算法

1.1 Borderline-SMOTE

Borderline-SMOTE采樣是SMOTE采樣的改進,目的是解決SMOTE在合成少數類數據時沒有考慮相鄰的多數類數據的位置而產生重疊問題.其執行步驟如下:

(1)假設點p是少數類樣本,利用K近鄰算法計算點p的最近鄰樣本個數;

(2)如果最近鄰樣本都是多數類樣本,則認定點p為噪音類,不做任何操作;

(3)如果最近鄰樣本不足一半是多數類樣本,則認為點p是安全類,不需做額外操作;

(4)如果最近鄰樣本是多數類樣本的數目超過一半,則稱點p為邊界樣本,并將其放在危險類中;

(5)危險類樣本很容易被錯誤分類,因此需要隨機從該點附近生成一些點加入到危險類中;

(6)從K近鄰的計算結果集中隨機選擇一組鄰居,然后計算危險集樣本Pd及所選鄰居的距離Pk,如SMOTE采樣生成新的合成樣本Pnew,其計算公式如式(1):

Pnew=Pd+rand(0,1)*‖Pd-Pk‖.(1)

合成樣本的創建方式類似于危險集樣本,少數類的邊緣樣本通過Borderline-SMOTE優化.

1.2 OOA

2023年1月,Mohammad Dehghani 和 Pavel Trojovsky通過觀察魚鷹捕獵和帶魚到合適位置進食策略的自然行為特征,提出了魚鷹優化算法(Osprey optimization algorithm,OOA)[16].在這種狩獵策略中,魚鷹在發現獵物的位置后進行捕獵,之后到最佳位置進食.OOA包括定位與捕食和進食位置兩個階段.

1.2.1 定位與捕食

魚鷹視力極強,可以輕易探知魚的位置,并精準攻擊.此階段的種群更新就是模擬這種自然行為.對于每只魚鷹而言,搜索空間中具有更好目標函數值的其他魚鷹的位置被視為水下魚類.每只魚鷹的魚群位置由式(2)確定.

FPi={Xkk∈{1,2,…,N}∧Fklt;Fi}∪{Xbest},(2)

式中:FPi是第i只魚鷹的魚群位置;Xk是第k只魚鷹,即一個候選解決方案;Fi是得到第i只魚鷹的目標函數值;Xbest是最佳魚鷹,即最好的候選解決方案.

魚鷹會隨機探知到其中一條魚的位置并進行攻擊.模擬魚鷹向魚群移動時,利用式(3)計算其新位置.如果新位置的值更佳,則使用式(4)更新其先前位置.

xP1i,j=xi,j+ri,j·(SFi,j-Ii,j·xi,j),xP1i,j=xP1i,j,lbj≤xP1i,j≤ubj,lbj,xP1i,jlt;lbj,ubj,xP1i,jgt;ubj,(3)

Xi=XP1i,FP1ilt;Fi,Xi,else,(4)

式中:xP1i是此階段第i只魚鷹的新位置;xP1i,j是xP1i的第j維;FP1i是其目標函數值;SFi是第i只魚鷹選擇的魚;SFi,j是SFi的第j維;ri,j是介于0和1之間的隨機數;Ii,j是屬于集合{1,2}的隨機數;xi,j是Xi的第j維(問題變量),其值如式(5)所示:

xi,j=lbj+xi,j·(ubj-lbj),i=1,2,…,N;j=1,2,…,m,(5)

式中:N是魚鷹的數量,m是問題變量的數量,lbj和ubj分別是第j個問題變量的下界和上界.

1.2.2 進食位置

捕食后,魚鷹會把其帶到相對安全的位置進食,此階段的種群更新即模擬這種自然行為.利用公式(6)為每一個成員重新計算適合吃魚的位置.如果目標函數的值得到進一步優化,則根據式(7)替換先前的位置.

xP2i,j=xi,j+lbj+r·(ubj-lbj)t;i=1,2,…,N;j=1,2,…,m;t=1,2,…,T,xP2i,j=xP2i,j,lbj≤xP2i,j≤ubj,lbj,xP2i,jlt;lbj,ubj,xP2i,jgt;ubj,(6)

Xi=XP2i,FP2ilt;Fi,Xi,else,(7)

式中:xP2i是此階段第i只魚鷹的新位置,xP2i,j是xP2i的第j維,FP2i是其目標函數值,t為當前迭代計數次數,T為總迭代次數.

1.3 SVM

SVM是一種流行的監督學習算法,既可以作為預測器,也可以用作分類器.分類時可用于非線性分類和使用核方法的線性分類.對于線性可分離數據集,存在無窮多個超平面,而具有最大幾何區間的分離超平面是唯一的,故其基本思想是求解能夠正確劃分訓練數據集且具有最大幾何區間的分離超平面.在分類過程中,從特征空間中找到超平面空間,并對區域進行分類.

2 模型構建

為有效應對心臟病的預防和檢查,提高心臟病預測率,提出了Borderline-SMOTE和OOA-SVM相結合的模型.該模型主要包括數據預處理、模塊構建與參數尋優等階段,如圖1所示.

2.1 數據預處理

實驗數據選自阿里云天池的心臟病數據集,由克利夫蘭心臟病診所基金會提供.該數據集共有303條記錄,14個屬性特征,其中男性和女性分別為205人和98人;最后一個屬性特征target為分類標簽,表示患者是否患有心臟病,有心臟病和沒有心臟病的人數分別為83人和220人.屬性特征如表1所列.

(1)相關性分析

本文采用Pearson相關來度量屬性之間的相關關系,其相關系數r∈[-1,1].當值為0時表示不相關,屬性特征相互獨立;否則,隨著|r|的增加,相關程度越來越強.通過圖2的Pearson相關性分析系數矩陣結果可知,特征數據沒有冗余.

(2)歸一化處理

分析了屬性特征之間的關系后,對其進行數據變換.通過分析比較發現,利用標準差標準化進行歸一化處理,效果更佳.如式(8)所示:

x=x-μσ,(8)

式中,μ和σ分別是所有樣本數據的均值和標準差.

(3)平衡數據集

由分類標簽target可知患心臟病和沒有心臟病的比值為83∶220,樣本數據明顯存在類別不平衡,如圖3所示.本文通過對比SMOTENC、

ADASYN和Borderline-SMOTE算法,發現Bor-derline-SMOTE算法最優.因此,選擇此算法平衡數據集少數類.對訓練集數據平衡后的結果如圖4所示.

2.2 預測模型設計

預測模型設計算法具體步驟如下:

(1)讀取數據集,并對數據進行預處理.首先

利用Pearson相關性分析選擇數據特征;然后對劃分后的訓練集和測試集數據歸一化處理;最后對數據量較少的不平衡數據集,利用過采樣算法Borderline-SMOTE平衡少數類;

(2)設定總迭代次數T和魚鷹數量N,對魚鷹種群初始化,初始時設置魚鷹個數i=1,當前迭代計數次數t=1;

(3)進行OOA第1階段和第2階段更新所有魚鷹的位置,獲得最佳候選解;

(4)判斷i是否超出邊界.若未出界,繼續執行步驟(3)和(4),否則執行步驟(5);

(5)保存當前最優解;

(6)若當前迭代計數次數t達到總迭代次數T時,輸出最優解及其適應度值;否則回到步驟(3)繼續執行;

(7)得到最優位置即為SVM的最佳參數組合(C, g).

3 實驗結果及分析

心臟病數據集中訓練集和測試集按照8∶2劃分.設魚鷹總量為30,總迭代次數為30.采用Python編程環境,計算機配置如表2所列.采用準確率、查準率、查全率和F1分數4項指標對算法模型進行評價,具體如表3所列,其中TP、TN、FN和FP為原始混淆矩陣元素.

3.1 測試分類結果及分析

通過不斷訓練優化預測模型并在測試集上進行測試,由OOA算法訓練SVM得到最佳參數組合(C, g)為(0.13 585 669, 0.13 585 669),測試集分類結果如圖5所示,其對應的適應度曲線如圖6所示.其中,類別0(沒有心臟病)的測試樣本數為41,被錯分的個數是1;類別1(有心臟病)的測試樣本數為20,被錯分的個數是2,如表4所列.分類取得了較好的結果,預測準確率達到了95.08%.

3.2 實驗結果對比

3.2.1 不同過采樣技術準確率對比

表5列出了魚鷹優化算法優化SVM分別在不平衡數據集和使用不同過采樣技術平衡后的數據集上進行訓練,經過測試后的準確率.在不平衡數據集上的測試準確率為90.16%;分別采用SMOTENC、ADASYN和Borderline-SMOTE算法平衡數據集,采用SMOTENC算法的測試準確率最差,為90.16%;采用Borderline-SMOTE算法的測試準確率達到了9508%,性能最優.

3.2.2 平衡數據集中不同算法性能對比

如表6所列,在平衡后的訓練集上分別利用OOA、SSA[17]及SMA[18]訓練SVM分類器,不斷迭代尋優,獲得最優參數組合(C, g),利用測試集數據進行測試,結果證明了本文算法的可行性.

由表6實驗結果分析可知:①OOA-SVM模型在類別0和類別1上的查準率、查全率和F1分數的值均高于其他模型,說明本文算法的性能最好;②模型是否穩定可以由F1分數體現.F1分數在0到1之間,隨著值的增加,模型的穩定性增強.OOA-SVM模型的F1分數在類別0和類別1上分別為0.96和0.92,在4種模型中最好,因此本文設計的模型最穩定;③宏平均是類別0和類別1的平均值,而加權平均是宏平均的一種改進類型,它為每個類別增加了權重,計算方法為每個類別樣本數量在總樣本中占比.充分考慮了每一類樣本的數量差異.④OOA-SVM模型的預測準確率比SSA-SVM模型高了近4個百分點,達到了95.08%;SVM模型的預測效果最差,預測準確率為85.25%,原因是很難準確捕捉到最優參數組合(C, g).

4 結語

隨著當今社會心臟病患者數量的增多,心臟病早期預防已成為首要任務.本文提出了一種基于Borderline-SMOTE和OOA-SVM的心臟病診斷預測模型.利用Borderline-SMOTE平衡數據集中的少數類使數據類別基本平衡;再利用OOA對SVM的參數組合(C, g)進行尋優,得到最佳組合;通過準確率、查準率、查全率和F1分數4項指標評價預測性能.實驗結果表明,該預測模型性能優良.利用該模型進行心臟病預測,可以為醫生的臨床診斷提供決策參考,具有實際的臨床意義和應用前景.然而,該研究所選樣本數量較少,有一定的局限性,未來計劃進一步對模型進行微調尋優,將該預測模型應用于更大的數據集上.

參考文獻:

[1] NAIDU T P,GOPAL K A,AHMED S R,et al.A Hybridized Model for the Prediction of Heart Disease using ML Algorithms[C]//2021 3rd International Conference on Advances in Computing, Communication Control and Networking(ICAC3N).Greater Noida,India:IEEE,2021:256-261.

[2] 張廷杰,徐俊波,黃剛.醫學研究的典范:Framingham心臟研究70年回顧[J].中華心血管病雜志,2020,48(9):805-810.

[3] THOMAS J,PRINCY R T.Human heart disease prediction system using data mining techniques[C]//2016 International Conference on Circuit,Power and Computing Technologies(ICCPCT).Nagercoil,India:IEEE,2016:1-5.

[4] SUVARNA C,SALI A,SALMANI S.Efficient heart disease prediction system using optimization technique[C]//2017 International Conference on Computing Methodologies and Communication(ICCMC).Erode,India:IEEE,2017:374-379.

[5] 趙金超,李儀,王冬,等.基于優化的隨機森林心臟病預測算法[J].青島科技大學學報(自然科學版),2021,42(2):112-118.

[6] OUYANG S.Research of Heart Disease Prediction Based on Machine Learning[C]//2022 5th International Conference on Advanced Electronic Materials,Computers and Software Engineering(AEMCSE).Wuhan,China:IEEE,2022:315-319.

[7] 譚朋柳,徐光勇,張露玉,等.基于卷積神經網絡和Adaboost的心臟病預測模型[J].計算機應用,2023,43(S1):19-25.

[8] 許越.心臟病預測中的不平衡數據集分類問題研究[D].武漢:華中科技大學,2022.

[9] 王樂,韓萌,李小娟,等.不平衡數據集分類方法綜述[J].計算機工程與應用,2021,57(22):42-52.

[10] PRUSA J,KHOSHGOFTAAR T M,Dittman D J,et al.Using random under-sampling to alleviate class imbalance on tweet sentiment data[C]//Proceedings of the 16th IEEE International Conference on Information Reuse and Integration.Piscataway,USA: IEEE,2015:197-202.

[11] BARANDELA R,SANCHEZ J S,VALDOVINOS R M.New applications of ensembles of classifiers[J].Pattern Analysis amp; Applications,2003,6(3):245-256.

[12] SRINILTA C,KANHARATTANACHAI S.Application of Natural Neighbor-based Algorithm on Oversampling SMOTE Algorithms[C]//2021 7th International Conference on Engineering,Applied Sciences and Technology(ICEAST).Pattaya,Thailand:IEEE,2021:217-220.

[13] 王博文,王景升,吳恩重.面向不平衡數據集的SMOTENC-XGBoost駕駛人交通安全評估模型[J].科學技術與工程,2023,23(2):831-837.

[14] 李穎,吳增源,陳亮.基于ADASYN-LOF-RF模型的核心專利識別研究[J].中國計量大學學報,2022,33(4):609-616.

[15] HAN H,WANG W Y,MAO B H.Borderline-SMOTE:A new over-sampling method in imbalanced data sets learning[J].Lecture Notes in Computer Science,2005,3644:878-887.

[16] MOHAMMAD D,PAVEL T.Osprey optimization algorithm:A new bio-inspired metaheuristic algorithm for solving engineering optimization problems[J].Frontiers in Mechanical Engineering,2023,8:1126450.

[17] 牟思凱,王健,海振洋,等.基于SSA-SVM車輛換道決策模型設計[J].農業裝備與車輛工程,2023,61(6):31-36.

[18] 高鋮鋮,陳錫程,張瑞,等.三種新型智能算法在疫情預警模型中的應用——基于百度搜索指數的COVID-19疫情預警[J].計算機工程與應用,2021,57(8):256-263.

[責任編輯:李嵐 杜佳]

基金項目:安徽高校自然科學研究重點項目(2022AH052900)

作者簡介:祖璇(1990-), 女, 安徽樅陽人,講師,碩士,研究方向為統計分析、智能優化算法應用和大數據技術應用.E-mail:815477476@qq.com.

主站蜘蛛池模板: 日本免费a视频| 亚洲第一成人在线| 色网站在线视频| 日韩免费毛片| 波多野结衣AV无码久久一区| 精品91视频| 992tv国产人成在线观看| 欧美在线伊人| AV无码无在线观看免费| 97青草最新免费精品视频| 亚洲国产成人在线| 一区二区在线视频免费观看| 四虎精品黑人视频| 免费观看国产小粉嫩喷水| 国产成人1024精品下载| 亚洲熟女中文字幕男人总站| 日本三区视频| 99热亚洲精品6码| 国产精品福利尤物youwu | 精品国产Av电影无码久久久| 97人人模人人爽人人喊小说| 中文字幕久久亚洲一区| 久久久久无码精品| 三上悠亚一区二区| 国产精品一区二区国产主播| 夜夜拍夜夜爽| 在线观看av永久| 国产精品不卡片视频免费观看| 亚洲欧美激情另类| 久久伊伊香蕉综合精品| 欧美日韩中文字幕在线| 免费一级毛片在线播放傲雪网| 在线亚洲小视频| 国产精品亚洲一区二区三区z| 人妻中文字幕无码久久一区| 日本不卡在线视频| 中文字幕精品一区二区三区视频| 亚洲69视频| 丁香六月激情综合| 国产亚洲精品yxsp| 免费不卡在线观看av| 美女被操黄色视频网站| 国产精品亚欧美一区二区三区| 精品91视频| 99视频在线免费观看| 天天色天天综合网| 一本大道视频精品人妻| 国产精品网址你懂的| 91福利一区二区三区| 亚洲天堂视频在线观看免费| 国产午夜不卡| 日韩不卡高清视频| 日韩一级二级三级| 久久国产精品麻豆系列| 日韩性网站| 四虎影视库国产精品一区| 精品国产自在在线在线观看| 亚洲国产天堂久久综合| 人妻21p大胆| 久久综合丝袜日本网| 国产高清自拍视频| 亚洲无线观看| 免费毛片视频| 亚洲午夜18| 三上悠亚一区二区| 中文字幕在线观| 国产丝袜第一页| 久久久久无码精品国产免费| 欧美激情视频二区| 国产欧美在线观看视频| 成人精品免费视频| 麻豆精品在线视频| 精品国产网站| 91香蕉视频下载网站| 亚洲欧美极品| lhav亚洲精品| 又粗又大又爽又紧免费视频| 国产中文一区a级毛片视频| 久久综合AV免费观看| 91久久夜色精品国产网站| 亚洲精品综合一二三区在线| 亚洲一区二区日韩欧美gif|