


















摘 要: 針對心血管介入患者全周期病理數據普遍存在缺失、不連續、非結構化等問題,建立了心血管介入專病數據庫,并采用基于Relief-F算法的預測方法,對心血管介入患者術后死亡風險進行預測。首先參照HL7、CDISC等國際心血管疾病統一標準對各數據源進行標準化處理,建立研究數據集,并對數據進行清洗和預處理;其次采用Relief-F算法對特征進行選擇,最終保留30個特征變量;再次選擇邏輯回歸、支持向量機、隨機森林等3種機器學習方法進行建模分析,并采用10折交叉驗證方法對分類器進行訓練;最后引入準確率等模型評價指標來評估各算法在數據集上的分類預測效果。實驗結果表明:隨機森林的分類效果在該研究數據集上的表現最佳,準確率達到81.97%,精確率為86.90%,召回率為82.14%,F1值為0.8441。該研究提出的方法能夠客觀反映患者術后死亡風險,為心血管介入患者術后死亡風險預測提供了一種有效的解決方案。
關鍵詞: 心血管介入;術后死亡風險預測;Relief-F算法;特征提取;機器學習;隨機森林
中圖分類號: TP391.4
文獻標志碼: A
文章編號: 1673-3851 (2024) 05-0378-11
引文格式:楊健斌,李詠,夏淑東,等. 基于Relief-F算法的心血管介入患者術后死亡風險預測[J]. 浙江理工大學學報(自然科學),2024,51(3):378-388.
Reference Format: YANG Jianbin, LI Yong, XIA Shudong, et al. Prediction of postoperative death risk in patients with cardiovascular intervention based on the Relief-F algorithm[J]. Journal of Zhejiang Sci-Tech University,2024,51(3):378-388.
Prediction of postoperative death risk in patients with cardiovascular intervention based on the Relief-F algorithm
YANG Jianbin1, LI Yong1, XIA Shudong2, QI Pengjia1, DAI Yanyun1, TONG Jijun1
(1.School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China;
2.The Fourth Affiliated Hospital, Zhejiang University School of Medicine, Yiwu 322000, China)
Abstract:" In view of the common problems such as missing, discontinuous and unstructured pathological data of patients with cardiovascular intervention throughout the whole cycle, a cardiovascular interventional disease database was established, and the prediction method based on the Relief-F algorithm was adopted to effectively predict the risk of postoperative death of patients with cardiovascular intervention. Firstly, all data sources were standardized according to HL7, CDISC and other international cardiovascular disease standards to obtain research data sets, and the data sets were cleaned and preprocessed. Secondly, the Relief-F algorithm was used to select the features, and 30 feature variables were retained in the end. Thirdly, logistic regression, support vector machine and random forest were selected for modeling and analysis, and the 10-fold cross-validation method was used to train the classifier. Finally, model evaluation indexes such as accuracy rate were introduced to evaluate the classification prediction effect of each algorithm on the data set. The experimental results show that the classification effect of random forest has the best performance on the research data set, its accuracy rate is 81.97%, the accuracy rate is 86.90%, the recall rate is 82.14%, and the F1 value is 0.8441. This study can objectively reflect the postoperative death risk of patients, and provides an effective solution for predicting the postoperative death risk of patients with cardiovascular intervention.
Key words: cardiovascular intervention; postoperative death risk prediction; Relief-F algorithm; feature extraction; machine learning; random forest
0 引 言
心血管介入治療是指在醫學影像設備引導下,經皮穿刺,將穿刺針、特制導管、導絲等精密器械引入體內血管,對心血管疾病進行微創診斷和治療[1]。據國家心血管病中心發布的《中國心血管健康與疾病報告2022》[2]顯示,2022年國內心血管病患者總人數已高達3.3億,隨著人口老齡化加速,心血管病患病率、死亡率仍在上升,疾病負擔下降的拐點尚未出現。據《中國介入醫學白皮書》2019版[3]顯示,心血管介入患者死亡率在眾多介入治療類型的患者中居于首位,較神經介入治療、肝膽胰腺介入治療、腫瘤介入治療等其他類型平均高出12.7%。因此,在眾多心血管介入患者術后評價指標中,能夠反映介入治療質量、術后生存狀況以及醫療干預效果的術后死亡風險,一直都是醫生和患者關注的重要指標。然而,當前絕大數醫院并未構建心血管介入專病數據庫,患者全周期病理數據普遍存在缺失、不連續、非結構化等問題,導致醫生對患者術后死亡風險的預測大多是基于醫護人員的個人臨床經驗或相關統計學方法,預測準確率較低。隨著醫療信息化建設的快速發展,上述方法已不適應當前的發展需求。因此,構建心血管介入專病數據庫[4],通過信息技術幫助醫生進行全周期記錄,建立患者術后死亡風險預測模型,不僅有助于輔助醫生發現患者數據的內在關聯,對患者術后健康狀況進行跟蹤治療,還能提醒醫生對高死亡風險病人及時做出醫療干預,進而降低患者死亡率,具有重要的醫療研究意義和實際應用價值。
國內關于疾病專病數據庫的建設起步較晚,直到20世紀80年代后期,中國逐步建立了醫學注冊系統[5-9],開始全面收集和管理疾病數據。在《“健康中國2030”規劃綱要》政策的指導下,國內的一些醫院也開始著手建設針對特定病種的專病數據庫。例如,2021年,上海交通大學附屬胸科醫院袁駿毅等[10]以上海胸科醫院冠心病專病數據為研究對象,基于臨床數據中心的多源異構系統構建了冠心病專病數據庫,為該院的冠心病臨床科研提供了有力的數據支撐。2022年,廣東省第二人民醫院的龍思哲等[11]借助雙向語言模型從院內其他數據平臺篩選出腦血管患者病理數據,構建了腦血管專病數據庫,為建立腦血管科研學習平臺提供數據支撐。同年,中國人民解放軍總醫院的趙前前等[12]以醫院信息管理系統(Hospital information system,HIS)、實驗室信息管理系統(Hospital information system,LIS)、電子病歷(Electronic medical record,EMR)等臨床業務信息系統中的數據和整合后的臨床數據庫為數據源,經抽取、轉換、加載后形成疾病科研數據庫,大大減輕了科研工作前期數據處理工作量,提高了科研效率。縱觀國內專病數據庫的構建與應用,由于腫瘤疾病、肝臟疾病等傳統疾病類型有長期的數據支撐和科研基礎,相關專病數據庫的建設已經較為完善。但對于需要介入治療的相關疾病,一方面由于介入治療在我國起步較晚,醫院在此方面的信息化建設尚未完善,導致很多患者病理數據難以統一;另一方面,介入治療近年來受政策影響和需求驅動剛開始發展,醫院對日益增長的數據尚未及時收集與整理,致使很多數據遺漏或殘缺。因此,搭建一套心血管介入專病數據庫,并結合信息技術對患者病情進行預測和危險因素分析,不僅可以幫助醫生研究該類型疾病,還能輔助醫生對高風險患者進行及時的醫療干預,降低死亡風險。
近年來,隨著信息技術的快速發展,利用人工智能相關理論方法對患者病情進行預測和危險因素分析已成為當下醫療領域的研究熱點。例如,Behera等[13]采用支持向量機和改進的粒子群優化模型創建了一個混合模型,對患有心臟病和肝臟疾病的患者進行死亡風險因素分析。Theerthagiri等[14]基于遞歸特征消除的梯度提升方法,通過評估患者的健康記錄來避免心血管疾病的病發或降低心血管疾病的嚴重程度。Singh等[15]基于支持向量機模型探討了藥物靶點預測降低背后的常見因素,進而預測腫瘤的發生率。Islam等[16]在監督學習環境中,選擇了12種不同的機器學習分類器來對慢性腎臟病進行研究分析,得出在XGBoost分類器的準確率最高可達0.983。Annamalai等[17]借助基于最優拍賣機制的卷積神經網絡對肺部疾病進行預測,發現所提出的方法可以從X射線圖像中提取特征,并對肺部疾病進行準確預測。Sudha等[18]使用混合CNN-LSTM模型對心臟病進行預測分析,并使用K折交叉驗證技術進行驗證,最終混合模型的準確度達到89%。Liang等[19]提出了一種基于具有注意力機制的時序雙向神經網絡模型tBNA-PR,選擇患者的電子健康檔案數據進行心力衰竭疾病預測和分層。Hao等[20]利用多策略優化核極限學習機對心臟病和肝病的死亡率進行研究,在臨床應用中取得良好的預測效果。路曉云等[21]基于機器學習預測算法對慢阻肺患者院后再入院風險進行預測,選擇了5種預測模型進行對比分析,并基于K均值聚類算法對患者再入院風險等級進行評估和分類。趙明誠等[22]以社區獲得性肺炎患者為研究對象,基于長短期記憶網絡對患者30 d的死亡率進行了預測,預測精確度達到77.51%,能夠幫助醫生對社區獲得性肺炎患者進行跟蹤觀察。
以上研究表明,建立專病數據庫和預測模型,對患者病情進行預測是可行的。但是,目前關于心血管介入患者的相關預測研究仍是基于醫生個人臨床經驗或者相關統計學方法,且研究所用的數據集仍停留在患者在院期間的記錄數據,未覆蓋到患者治療全周期,具有一定的局限性。因此,本研究構建了心血管介入專病數據庫,并針對難以區分重要特征和噪聲特征等問題,采用改進的Relief-F算法選擇預測特征變量;選擇邏輯回歸(Logistic regression,LR)、支持向量機(Support vector machine,SVM)、隨機森林(Random forest,RF)等3種機器學習方法進行建模研究,并采用10折交叉驗證方法對分類器進行訓練;最終引入準確率等模型評價指標來評估各算法在本研究數據集上的分類預測效果,為心血管介入患者術后死亡風險預測提供一種有效的解決方案。
1 數據采集與處理
1.1 數據集
本研究的實驗數據采集于浙江省某三甲醫院,共獲得728例心血管介入患者全周期病理數據,建立了心血管介入專病數據庫。采集數據源包括醫院的各業務系統(HIS、LIS、EMR等)、各醫療表單(門診病歷、門診醫囑、檢驗報告等)及醫院的數據平臺(人口學資料、就診資料及隨訪資料)。具體信息包括患者基線信息(個人信息、病史信息、主訴和癥狀信息、生活方式信息等)、術前檢查信息(臨床評估、實驗室檢查、血管造影或介入性檢查等)、術中手術信息(手術類型與時間、手術操作過程、手術過程中的觀察和事件、手術結束情況和結論等)及術后隨訪信息(術后病情觀察、生命體征監測、藥物治療等)。為了保證數據的一致性和互操作性,本研究在醫生的建議下采用了中華醫學會心血管病學分會牽頭制定的《中國心血管病一級預防指南》[23]、HL7衛生信息交換標準(Health level seven)和臨床數據交換標準協會(Clinical data interchange standards consortium,CDISC)制定的全球臨床研究的數據標準對各類數據源進行數據標準化處理。此外,鑒于各心血管介入患者之間存在較大差異,在醫生的建議下還對心血管介入專病數據庫中收錄的患者數據制定了篩選標準,具體包括:a)患者年齡不低于18歲;b)患者在院建檔入庫,并完成了心血管介入手術治療;c)患者術前、術中及院后隨訪信息連續無中斷,不存在信息錯誤錄入;d)各項病理數據結構化完整,且在院后隨訪生理體征數據記錄完善;e)收集的患者個人信息符合隱私條例保護。
本研究與大多數研究類似,研究起點始于患者入院建立個人信息檔案。然而,由于不同研究者根據其數據集實際情況或研究側重點不同,所選擇的研究終點也不盡相同,但均集中在術后到院后一年以內。雖然,在本研究數據集中存在個別患者入院后三年的隨訪信息,但是,由于時間跨度較長,部分記錄信息出現缺漏或提前終止的現象,并不利于統計分析。而且,由于院后隨訪具有周期性,醫院難以第一時間掌握到患者的死亡情況。因此,根據醫生的建議,結合患者隨訪的實際情況,本研究選定術后六個月隨訪期間內發生死亡或未死亡為研究終點?;谝陨蠘藴屎歪t生建議,本研究從心血管介入專病數據庫中嚴格篩選了638例符合標準的患者全周期病例數據,共計42746條數據小項,其中:術后六個月死亡41例,未死亡597例。
1.2 數據清洗與處理
1.2.1 缺失值和異常值處理
缺失值與異常值的處理是數據預處理過程中的關鍵步驟,具體處理方法需要根據實際情況進行確定。常見的缺失值處理方法包括:刪除缺失值較多的特征、采用眾數填充文本類數據、采用均值或中位數填充連續型數據以及利用線性或指數插值法填充缺失值[24]。合理處理缺失值可以保持數據的連續性,并減少噪音特征對模型的干擾,從而提高計算效率。針對異常值,可以選擇直接刪除或將其視為缺失值處理,或者采用平均值修正等方法。雖然選擇直接刪除會減少數據量,但是可以有效避免異常值對模型的干擾。
對于少量缺失率較高的數據本研究選擇直接刪除,如基線信息中缺失率達87.4%的左室后壁厚度。對于一些記錄信息的缺失本研究采用眾數來填充缺失值,如患者住院方式變量中,“門診”方式占總樣本的比例達到96.23%,所以對于此類缺失值可直接將其填充為“門診”。對于連續型變量,如主動脈舒張壓、白細胞、血紅蛋白等,其數據連續且完整性完好,缺失率極低,則直接使用該變量的平均值來填充。對于一些變量的極值或者離群值,當數據量較少時本研究選擇直接刪除,較多時則選擇離異常值最近的正常范圍來填充數據。為了能夠快速、直觀地了解數據集的完整性,本研究采用缺失值可視化工具庫Missingno得到了特征缺失值矩陣圖,結果如圖1所示;圖中左側1~638為病人數,右側為數據熱力值,白色部分代表數據缺失值所在位置,且白色部分越多代表缺失情況越嚴重。
1.2.2 特征向量化
由于大多數機器學習算法只能處理數值型數據,不能處理文字。所以,在訓練和預測機器學習模型時,需要把這些特征進行編碼,將字符型數據轉換成數值型,這個過程可以讓計算機更好地處理數據。合適的編碼和量化方法,不僅可以提高模型的準確性和效率,還可以避免數據丟失或歪曲的情況。
本研究采用獨熱編碼(One-Hot編碼)將離散型數據轉換為數值型數據。例如,對于二類問題均采用01編碼方式:男性患者編碼為1,女性患者編碼為0;患有糖尿病編碼為1,未患有編碼為0;術中出血編碼為1,未出血編碼為0;吸煙編碼為1,不吸煙編碼為0等。此外,病例中的等級評分按英文等級劃分。例如,患者的日常生活活動能力測定評分,可分A~G 6個等級來衡量。主要分類變量數值映射表如表1所示。
1.2.3 合并癥特征處理
通過分析心血管介入患者基線信息可以發現,大部分患者患有多種慢性疾病或基礎疾病,如糖尿病、高血壓等。如果對這些病癥不做合并處理,直接作為待預測的特征使用,可能會造成數據維度過高和部分特征稀疏等問題,影響研究的科學性和準確性。查爾森合并癥指數 (Charlson comorbidity index,CCI)是由查爾森等在1987年提出的是一種評估患者合并癥負擔的指數。近年來,CCI在臨床實踐中被廣泛應用于預測患者的死亡風險、評估治療效果、制定護理計劃和手術決策等方面[25]。本研究按照CCI評價標準[25]對每名心血管介入患者是否患有對應合并癥進行評分,并逐項相加,具體查爾森合并癥指數評分表見表2。
2 實驗與分析
2.1 基于Relief-F算法的特征選擇
經過預處理后,數據集中仍包含冗余或無關變量,如果將這些特征變量直接輸入分類器進行訓練學習,則會對模型的訓練結果造成較大影響。例如,術中信息中的“是否預擴張”和“預擴張次數”只需保留后者即可。對預處理后的數據進行降維處理,篩選出主要特征,去除冗余特征,減少數據噪聲,降低模型學習難度,可以有效提高算法的準確度。常用的特征選擇方法有過濾法、包裹法和嵌入法[26]。其中:過濾法是根據特征與目標變量之間的統計關系進行選擇,篩選出與預測變量相關度較高的特征;其優點在于運算速度快,不需要進行模型訓練,但無法考慮特征之間的關系。包裹法是通過窮舉搜索或啟發式搜索來選擇最佳特征子集;其優點是考慮了特征之間的關系,但運算速度慢,可能出現過擬合等現象。嵌入法則是將特征選擇作為學習模型訓練的一部分,通過優化算法來選擇最佳特征子集;其優點在于減少了特征選擇和模型訓練的時間,但可能會丟失有用特征。
與傳統方法相比,相關特征(Relevant features,Relief)算法[27]是通過評估特征之間的關聯程度來確定特征的重要性,不僅簡單易實現、不依賴數據分布假設、適用于離散和連續特征,還對噪聲和冗余特征具有一定的魯棒性。但是,Relief算法最初局限于解決二分類問題,無法有效去除高維數據的冗余特征。所以,本研究采用改進的Relief-F算法[28]來進行預測特征變量的選擇。相對于傳統的Relief算法,Relief-F算法在計算特征權重和評估分數時引入了權重方差,能夠更準確地估計特征的重要性,并對特征權重的穩定性進行評估,從而更好地區分重要特征和噪聲特征。
Relief-F算法每次從訓練樣本集中隨機取出一個樣本R,然后從與R同類的樣本集中找出R的k個近鄰樣本(Near Hits),從每個R的不同類的樣本集中均找出k個近鄰樣本(Near Misses),最后更新每個特征的權重;重復抽取m次,其中單次權重迭代可用式(1)表示:
W(A)=W(A)-∑kj=1diff(A,R,Hj)/(mk)+∑Cclass(R)p(C)1-p(class(R))∑kj=1diff(A,R,Mj(C))/(mk)(1)
其中:A為特征變量的個數;Hj為樣本R的k個最近鄰同類點;diff(A,R,Hj)為在特征A上樣本R和Hj的差;Mj(C)為異類樣本點;class(R)為樣本R的類別;p為概率。diff(A,R1,R2)用式(2)算:
diff(A,R1,R2)=|R1[A]-R2[A]|max(A)-min(A),A為連續值;
0,A為離散值且R1[A]=R2[A];
1,A為離散值且R1[A]≠R2[A](2)
本研究在Python3.9環境下進行,通過Relief-F算法進行特征選擇。以患者基線信息為例,特征權重曲線如圖2所示,本研究選擇了特征權重前10的特征變量作為患者基線信息。
經過數據預處理和Relief-F算法篩選,并結合醫生建議,本研究最終保留了30個特征變量,其中:患者基線信息保留了10個特征變量,術前檢查信息保留了7個特征變量,術中手術信息保留了5個特征變量,術后隨訪信息保留了8個特征變量。患者特征變量說明見表3。
2.2 模型構建與訓練
本研究模型訓練流程如圖3所示。首先,將數據集按照訓練集(70%)和測試集(30%)進行劃分,其中訓練集共13398條數據,測試集5742條數據。然后,先對訓練集進行不同模型訓練,為了評估不同模型在訓練集上的表現,在訓練過程中使用10折交叉驗證方法和網格搜索方法來進行參數選擇和參數優化,得到該模型下的最佳參數和訓練效果。最后,利用測試集進行驗證,得到不同模型的預測效果。基于處理后的數據集,本研究選擇了3種在疾病預測研究中表現較佳的機器學習方法進行建模研究。
2.2.1 邏輯回歸
LR是一種用于分析因變量與一個或多個自變量之間的關系的統計方法。在疾病自動診斷領域,邏輯回歸常被用于探討引發某種疾病的危險因素,并基于這些因素預測疾病的發生概率。在本研究中,每個心血管介入患者yi術后六個月內發生死亡(記為1)的概率可用式(3)表示:
P(yi=1)=exp(β0+β1x1+…+βkxk+ε)1+exp(β0+β1x1+…+βkxk+ε)(3)
其中:β0~βk表示模型的估計參數,x1~xk表示模型的變量,ε為隨機誤差。
同時有:
lnP(yi=1)1-P(yi=1)=β0+β1·xAge+β2·xSex+β3·xBMI+…+ε(4)
其中:xAge、xSex及xBMI均為本研究中的特征變量。
本研究選擇Sklearn庫中的Logistic regression包來構建邏輯回歸的分類器。在模型訓練過程中,需要根據訓練效果對模型的配置參數進行選擇,采用網格搜索算法對LR的主要參數調優,LR參數選擇情況見表4。
2.2.2 支持向量機
SVM是一種通過最大間隔化思想來實現分類或回歸問題的方法。對于二分類問題,SVM的目標是找到一個超平面,使得兩個類別的數據點都能夠被正確地分開。如果數據集中有多個超平面可以完全分開兩個類別,那么SVM會選擇具有最大間隔的超平面作為最終分類器。本研究使用的是單核RBF的SVM模型。同時,為了避免過擬合現象,需要對SVM的參數進行優化選擇,其中懲罰系數C和控制高斯核寬度參數gamma的選擇可以通過網格搜索來實現。本研究選擇Sklearn庫中的SVC包來構建SVM的分類器。采用網格搜索算法對SVM的主要參數選取。SVM參數選擇情況見表5。
2.2.3 隨機森林
RF作為一種經典的集成學習方法,具有訓練速度快、實現簡單和泛化性能強等優點。RF參數一般分為兩類,一類是模型框架參數,如元分類器的個數等;另一類是決策樹的參數,如樹的深度等。本研究調用Sklearn庫中的Random Forest Classifier包來構建隨機森林的分類器。使用網格搜索算法對隨機森林模型參數進行優化選擇。隨機森林n_estimators參數與模型準確率之間的關系如圖4所示。當參數n_estimators在[20, 25]之間時,模型的準確率在[0.80, 0.82]范圍內,當n_estimators超過30時,準確率趨于穩定。因此,選擇n_estimators為21,此時模型的準確率最高。RF參數選擇情況見表6。
2.3 結果分析與討論
算法模型的評估是驗證模型構建效果的重要指標,用于確定模型的性能和可靠性。心血管介入患者術后死亡風險的預測研究實質上可映射成一種二分類問題進行研究,即將患者院后六個月隨訪期內發生死亡與否作為預測目標。對于二分類問題,可將預測樣本劃分為真正例(True positives)、假正例(False positives)、真反例(True negatives)、假反例(False negatives),分類結果可用混淆矩陣表示,混淆矩陣見表7,其中:TP表示真正例數;FP表示假正例數;TN表示真反例數;FN表示假反例數。
本研究從準確率(Accuracy)、精確率(Precision)、召回率(Recall rate)、F1(F1 score)、AUC (Area under curve)等5個評價指標對建立的預測模型進行評估分析,具體公式如式(5)—(8)所示:
aCC=TP+TNTP+FP+TN+FN(5)
P=TPTP+FP(6)
RR=TPTP+FN(7)
F1=2·P·RRP+RR(8)
其中:aCC表示準確率;P表示精確率;RR表示召回率;aUC表示AUC值。
受試者工作特征曲線(Receiver operating characteristic curve,ROC)曲線[29]表示在不同的分類閾值下,真陽性率與假陽性率之間的關系,其中真陽率為ROC曲線的y軸,假陽率為x軸。
aUC可以理解為ROC曲線下的面積,取值范圍在0到1之間,用式(9)計算:
aUC=12∑m-1i=1(xi+1-xi)(yi+yi+1)(9)
具體來說,aUC=1表示模型完美地對正負樣本進行了區分,aUC=0.5表示模型的預測性能與隨機猜測相當,而aUClt;0.5則表示模型的預測性能不佳。RF、SVM和LR三種機器學習算法模型的各項評價指標對比見表8。
從表8中可得出,針對本研究的數據集而言,RF在3種傳統機器學習預測算法中表現最佳,其準確率達到81.97%,精確率為86.90%,召回率為82.14%,F1值為0.8441,而LR的準確度最低,未能達到75%。其主要原因在于,LR是3種機器算法中唯一使用線性模型的,而SVM和RF均使用非線性模型,后者可以利用更復雜的數據,從而提高過采樣數據的準確性。另外,由于RF采用了決策樹的集成方式,每棵決策樹都可以學習不同的特征和決策規則,并根據所有決策樹的預測結果進行投票。所以,RF能夠更有效地捕捉特征之間的非線性關系,相比于SVM在本研究數據集上的表現效果更佳。
ROC曲線下的面積aUC從大到小依次是RF(0.8292)、SVM(0.7743)和LR(0.7576),3種機器學習算法的ROC曲線如圖5所示。
3 結 論
本研究建立了心血管介入患者專病數據庫,并利用改進的Relief-F算法對心血管介入患者術后死亡風險進行了預測研究。本研究在計算特征權重和評估分數時引入了權重方差,能夠更準確地對特征重要性進行評估,通過數據預處理、Relief-F算法篩選和醫生標注,最終保留了30個特征變量,并對所有特征變量進行了分析解釋,最后使用LR、SVM和RF三種機器學習算法訓練得到預測結果。本研究采用的方法能夠高效、準確地預測出具有高死亡風險的介入患者,輔助醫生及時做出醫療干預,從而提高介入治療質量并降低死亡率,具有較高的應用價值。
參考文獻:
[1]于波. 中國血管內影像學研究的進展與展望[J]. 中華心血管病雜志, 2019, 47(9): 722-725.
[2]中國心血管健康與疾病報告編寫組. 中國心血管健康與疾病報告2022概要[J]. 中國循環雜志, 2023, 38(6): 583-612.
[3]中國醫院協會介入醫學中心分會. 《中國介入醫學白皮書》2019版[J]. 中華介入放射學電子雜志, 2020, 8(1): 6-10.
[4]李雪迎. 重視臨床研究數據收集過程[J]. 中國介入心臟病學雜志, 2012, 20(5): 244.
[5]吳燕秋, 黃偉, 劉慧鑫, 等. 醫院創傷專病數據庫建設與實踐[J]. 醫院管理論壇, 2021, 38(5): 79-82.
[6]劉迷迷, 杜國霞, 周毅, 等.專病數據庫建設與應用研究[J]. 醫學信息學雜志, 2021, 42(11): 81-86.
[7]齊霜, 毛智, 胡新,等. 基于專科信息系統建立的重癥醫學數據庫: 大型三甲醫院重癥醫學數據庫的模式[J]. 中華危重病急救醫學, 2020, 32(6): 743-749.
[8]Ruamtawee W, Tipayamongkholgul M, Aimyong N, et al. Prevalence and risk factors of cardiovascular disease among people living with HIV in the Asia-Pacific region: A systematic review[J]. BMC Public Health, 2023, 23(1): 477.
[9]金濤, 王愷. 我國疾病數據庫的建設情況概述[J]. 現代預防醫學, 2018, 45(6): 1114-1117.
[10]袁駿毅, 潘常青, 李榕, 等. 基于臨床數據中心的冠心病專病數據庫的構建與實現[J]. 中國衛生信息管理雜志, 2022, 19(5): 707-712.
[11]龍思哲, 吳震天, 黎鵬安, 等. 基于數據治理的專病數據庫建設實踐[J]. 醫學信息學雜志, 2022, 43(7): 20-25.
[12]趙前前. 基于大數據科研平臺的專病數據庫建設及應用[J]. 中國數字醫學, 2020, 15(12): 89-92.
[13]Behera M P, Sarangi A, Mishra D, et al. A hybrid machine learning algorithm for heart and liver disease prediction using modified particle swarm optimization with support vector machine[J]. Procedia Computer Science, 2023, 218(C): 818-827.
[14]Theerthagiri P, Ruby A U, Vidya J. Diagnosis and classification of the diabetes using machine learning algorithms[J]. SN Computer Science, 2022, 4(1): 72.
[15]Singh D P, Kaushik B. Machine learning concepts and its applications for prediction of diseases based on drug behaviour: An extensive review[J]. Chemometrics and Intelligent Laboratory Systems, 2022, 229: 104637.
[16]Islam M A, Majumder M Z H, Hussein M A. Chronic kidney disease prediction based on machine learning algorithms[J]. Journal of Pathology Informatics, 2023, 14: 100189.
[17]Annamalai B, Saravanan P, Varadharajan I. ABOA-CNN: auction-based optimization algorithm with convolutional neural network for pulmonary disease prediction[J]. Neural Computing and Applications, 2023, 35(10): 7463-7474.
[18]Sudha V K, Kumar D. Hybrid CNN and LSTM network for heart disease prediction[J]. SN Computer Science, 2023, 4(2): 172.
[19]Liang Y, Guo C H. Heart failure disease prediction and stratification with temporal electronic health records data using patient representation[J]. Biocybernetics and Biomedical Engineering, 2023, 43(1): 124-141.
[20]Hao Z Y, Ma J, Sun W J. The technology-oriented pathway for auxiliary diagnosis in the digital health age: A self-adaptive disease prediction model[J]. International Journal of Environmental Research and Public Health, 2022, 19(19): 12509.
[21]路曉云. 基于機器學習的慢阻肺患者再入院預測和風險分類[D]. 廣州: 廣東工業大學, 2022: 41-54.
[22]趙明誠. 基于長短期記憶網絡的社區獲得性肺炎死亡率預測模型研究[D]. 合肥: 安徽大學, 2021: 42-64.
[23]劉靜, 孫藝紅, 彭道泉, 等. 中國心血管病一級預防指南[J]. 中華心血管病雜志, 2020, 48(12): 1000-1038.
[24]劉曉玉, 李燈熬, 趙菊敏. 基于多核SVM的AdaBoost心力衰竭死亡率評估模型[J]. 太原理工大學學報, 2023, 54(5): 804-811.
[25]繆慧, 吳震, 崔文佳. 查爾森合并癥指數與中重度老年阻塞性睡眠呼吸暫停綜合征患者全因死亡風險的相關性及性別差異分析[J]. 中國耳鼻咽喉頭頸外科, 2023, 30(1): 45-50.
[26]Ben Jabeur S, Stef N, Carmona P. Bankruptcy prediction using the XGBoost algorithm and variable importance feature engineering[J]. Computational Economics, 2023, 61(2): 715-741.
[27]Kushwaha N L, Rajput J, Suna T, et al. Metaheuristic approaches for prediction of water quality indices with relief algorithm-based feature selection[J]. Ecological Informatics, 2023, 75: 102122.
[28]Li L J, Xuan M L, Lin Q Z, et al. An evolutionary multitasking algorithm with multiple filtering for high-dimensional feature selection[J]. IEEE Transactions on Evolutionary Computation, 2023, 27(4): 802-816.
[29]Tatliparmak A C, Yilmaz S, Ak R. Importance of receiver operating characteristic curve and decision curve analysis methods in clinical studies[J]. The American Journal of Emergency Medicine, 2023, 70: 196-197.
(責任編輯:康 鋒)