999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

加權隨機森林和代價敏感支持向量機與心衰患者死亡風險評估*

2022-09-14 09:28:56孟冰霞羅艷虹韓清華張巖波
中國衛生統計 2022年3期
關鍵詞:評價模型研究

楊 弘 田 晶 孟冰霞 張 瑜 羅艷虹 王 可 鄭 楚 韓清華△ 張巖波,3△

【提 要】 目的 探討加權隨機森林和代價敏感支持向量機模型在慢性心衰死亡風險評估中的應用。方法 利用AUC-RF自變量篩選方法選出與心衰死亡的相關因素,將選出的變量作為輸入變量,預后有無死亡作為結局變量構建傳統隨機森林、支持向量機、logistic回歸、加權隨機森林和代價敏感支持向量機分類預測模型。 結果 AUC-RF篩選出的變量中有中樞系統疾病史、腎功能不全史、心包積液、BMI、中性粒細胞比值、腎小球濾過率、N端前腦鈉肽等指標重要度較高,提示這些指標或有臨床意義。評價指標有靈敏度、特異度、準確度、G-means、F-measure和AUC值,logistic模型評價指標的中位數分別為:78.46%、63.19%、81.4%、0.6933、0.467和0.7003;加權隨機森林評價指標分別為:78.08%、82.74%、85.96%、0.8086、0.4853和0.8109;代價敏感支持向量機評價指標分別為:75.38%、72.49%、88.8%、0.7402、0.4749和0.7940。結論 加權隨機森林模型對心衰患者預后死亡預測性能較高,該模型有助于臨床醫生識別心衰死亡危險因素,具有較高應用價值。

心力衰竭(heart failure,HF)是各種心血管疾病進展的終末階段,其主要原因是心臟無法泵出足夠的血液來維持血液流動。HF已經成為21世紀最致命的心血管疾病之一[1]。心衰患者的高死亡率也是全球公共衛生的關注重點[2],據估計,發達國家大約有2%的成年人患有心衰,65歲及以上人群心衰的患病率≥6%[3]。2003年的研究調查顯示,我國35至74歲成人心衰患病率大約是0.9%[4]。醫療水平的提高使心衰患者壽命延長,導致我國心衰患病率持續升高,醫療成本不斷上升[5]。因此,準確的心衰不良事件預測模型可以對患者和醫生提供益處,尤其可以預防不良事件的發生[6]。

本研究采用心衰住院患者電子病歷資料,探索基于代價敏感的隨機森林和支持向量機模型在心衰患者的預后死亡評估中的應用價值,并與傳統logistic回歸、隨機森林和支持向量機進行比較,識別危險因素,反饋臨床,指導高危人群的早期干預,降低心衰死亡率。

對象與方法

1.研究對象

本研究數據來源于山西省太原市2所三甲醫院心內科,研究對象為2014年1月-2018年12月首次診斷為慢性心衰的住院患者,每隔6個月通過電話隨訪,確定其生命狀態。研究對象納入標準為:年齡≥18 歲;有典型的慢性心力衰竭癥狀(如勞力性或陣發性呼吸困難、乏力、食欲不振)或體征(如雙下肢水腫、肺部濕啰音、肝頸靜脈回流征陽性);NYHA 心功能分級Ⅱ-Ⅳ級;診斷為缺血性心肌病的患者。排除標準為:近兩個月發生急性心血管事件的患者;并發精神疾病的患者;并發其他危及生命的疾病,預期生存時間<1年的患者;拒絕參加本項目的患者。

2.研究方法

(1)資料收集

由培訓過的人員查閱醫院檔案室中的電子病歷,并嚴格按照課題組制定的CHF電子病歷報告表(chronic heart failure electronic case reported form,CHF-eCRF)收集患者住院期間的病歷信息。按照CHF-eCRF內容,使用EpiData 3.1軟件進行雙錄入。經過篩選,納入本研究的有效患者1972例,其中在隨訪期間死亡的患者有391(19.8%)例。

(2)AUC-RF自變量篩選

本次研究中原始數據庫包含798個變量,排除與本研究無關、非結構化數據和缺失比例大于30%的變量后還剩121個變量,對于缺失數據選用“missForest”R包進行缺失填補。為提高模型在實際臨床中的應用,考慮本研究數據為非均衡數據,選用CalleML提出的AUC-RF自變量篩選方法[7]。該方法使用受試者工作特征曲線下面積(the area under the receiver-operating characteristic curve,AUC)作為隨機森林的性能評價指標,選擇最高AUC值的一組自變量作為輸入變量,避免預測結果不佳。

(3)加權隨機森林模型的建立

加權隨機森林(weighted random forest,WRF)是ChaoChen為解決傳統隨機森林對非均衡數據建模時以錯誤率最小化為目的,無法有效識別少數類而提出的基于代價敏感學習的方法[11]。其原理是通過對數據中每一類樣本進行權重設置,增加少數類權重使錯誤分類代價增大。本研究在Rsutdio軟件中,使用“randomForest”包構建WRF,經試驗參數設置如下:ntree(森林中樹的樹木)為600;mtry(決策樹分支所需變量個數)為5;classwt(樣本分類的權重)為2∶1。

(4)代價敏感支持向量機模型的建立

基于代價敏感的支持向量機(cost sensitive support vector machine,CS-SVM)由K.Veropoulos[8]于1999年提出,可以提高傳統支持向量機算法在非均衡數據中的分類效果。依據支持向量機中懲罰參數C對數據中不同屬性樣本設置不同的分類權重。依據本課題組既往研究,本研究選擇少數類與多數類樣本量之比的倒數設置權重,并在其附近取值構建不同模型以選出最優參數。使用“e1071”包構建CS-SVM模型,以線性核為核函數。參數class.weights為4∶1;懲罰參數cost為1。

(5)模型構建方案

本次研究為準確評價模型預測性能,對數據采用分層抽樣。從預后良好和死亡的病例中分別抽取2/3樣本組成訓練集(共1315例,其中預后好轉和死亡分別為1054和261例),將剩余的1/3樣本組成測試集(共657例,預后好轉和死亡分別為527和130例)進行模型評價。使用AUC-RF法篩選出自變量后,將其作為特征變量輸入模型,以心衰患者是否死亡作為結局變量,分別構建logistic回歸、基于代價敏感的隨機森林和支持向量機預測模型并找出最優參數。最后采用同一訓練集使用以上方法建立預測模型,利用測試集進行模型評價,并與傳統隨機森林和支持向量機進行對比。

(6)模型評價指標

為全面評價構建模型的預測能力和泛化性能,針對非均衡數據本研究使用多個指標對模型分類結果進行綜合評價。評價指標有靈敏度(true positive rate,TPR)、特異度(true negative rate,TNR)、準確率(accuracy,ACC)、G-means、F-measure、AUC[9-11]。

結 果

1.基于AUC-RF自變量的篩選

以隨訪后有無出現不良結局(死亡)對患者進行分組,隨后利用“AUCRF”包構建隨機森林預測模型,以重要性評價指標對變量進行降序排列,如圖1所示。

圖1 隨機森林模型中自變量重要性排序

為保證模型準確性,對隨機森林進行五折交叉驗證,重復20次,得到平均AUC值為0.8336,重復100次AUC-RF后得到自變量入選模型的概率,其中尿素氮等6個變量入選概率為1,23個變量入選概率大于90%。本研究選擇入選概率大于80%的26個自變量進行建模,如表1所示。

2.logistic回歸模型

本研究以最大Youden指數作為分類截斷點,利用“glm()”函數建立logistic回歸模型。重復抽樣100次,構建100個logistic模型,并在測試集上進行驗證,獲得每個模型的評價指標。

3.WRF模型類權重選擇

本數據為非均衡數據,據以往經驗首先對類權重進行模擬設置。本研究在ntree、mtry默認參數下,設置類權重分別為2∶1,3∶1,4∶1,5∶1訓練模型,并在測試集上進行性能評價。各類權重下都重復50次,結果見表2。

表1 最終建模變量賦值

表2 不同類權重構建的WRF在測試集上的表現

由表2可知,隨著少數類與多數類權重的增加,指標TRR、TNR、ACC、G-means、F-measure和AUC均呈下降趨勢。對權重下模型指標進行多組件秩和檢驗可知其余權重下模型與類權重2∶1模型比較,差異有統計學意義,且各項指標均較高,靈敏度為71.15%,特異度為78.12%,準確度為78.19%。最終選擇類權重為2∶1進行模型構建。

4.CS-SVM模型類權重選擇

本研究使用“svm()”函數設置參數clss.weights找到最優類權重。據以往研究經驗,將少數類與多數類之比的倒數設置為class.weights值可以使模型對非均衡數據有較好的識別度。故本研究分別設置class.weights為2∶1,4∶1,6∶1,8∶1構建模型。各類權重下重復50次,結果如表3所示。

表3 不同類權重構建的CS-SVM在測試集上的表現

如表3所示,隨著少數類與多數類權重之比的增大,TRR呈上升趨勢,而TNR和ACC呈下降趨勢。G-means,F-measure和AUC在類權重為4∶1時取得最大值,隨后小幅度下降。將不同類權重設置模型指標進行多組件秩和檢驗后,差異均有統計學意義。因本次研究數據類型為非均衡數據,因此允許特異度和準確度有小幅度降低[12],但有較大的G-means、F-measure和AUC。故最終采取類權重為4∶1構建模型。

5.不同預測模型分類性能比較

采用相同訓練集和測試集構建并訓練logistic、WRF、CS-SVM和傳統隨機森林,支持向量機的慢性心衰患者預后死亡的預測模型,比較各模型性能優劣,重復100次,均采用中位數和上下四分位數進行表示。各指標如表4所示。

表4 不同分類模型在測試集上性能比較

從表4可以看出傳統支持向量機和隨機森林靈敏度(TPR)僅為1.54%和12.31%,而特異度(TNR)分別為99.24%和98.1%,模型傾向于識別預后死亡的患者,而且G-means,F-measure和AUC均較低。logistic的靈敏度最高為78.46%。對少數類進行加權的隨機森林和支持向量機靈敏度都在75%以上,說明兩者均可較好的識別出預后死亡的心衰患者。但是兩種模型的特異度分別為82.74%和72.49%,較傳統模型偏低,說明在提高對少數類識別率的同時,對多數類識別能力有所影響。針對非均衡數據的性能評價指標,加權后的兩種模型較傳統模型均較高,其中WRF的G-means(0.8086),F-measure(0.4853)和AUC(0.8255)是所有模型中最高的一組。在準確率(ACC)上,logistic與WRF和CS-SVM表現相差不大。綜上所述,WRF、CS-SVM和logistic與傳統模型相比,性能相對穩定,尤其針對非均衡數據上對少數類識別表現較好,其中WRF分類性能更為優越。

討 論

心衰是一種慢性病,其特點是患者生活質量差、再住院率高、死亡率高和費用負擔高等。改善以上不良后果的有效手段是對心衰進行病因預防,早期診斷,以及對不良事件的早期預測[13]。在這些方向上,機器學習技術的應用做出了巨大貢獻。

國內對心衰患者死亡預后預測的研究較少,多使用Cox風險比例回歸進行危險因素識別應用,未針對模型性能進行評價[14-16]。國外此類研究較多,如Shalh等[17]和Fonarrow等[18]分別使用支持向量機和CART構建模型估計了急性失代償心衰住院患者的死亡率風險。Bohacik等[19]將2032名患者的住院病歷數據應用于決策樹對慢性心衰患者進行生存分析,靈敏度為37.31%,特異度為91.53%,準確度為77.66%。與本文WRF模型相比,其靈敏度較低,說明未能有效識別“死亡”這一少數類樣本。Panahiazar[19]等在2015年利用Mayo診所電子健康記錄數據,對慢性心衰患者構建了logistic回歸和隨機森林的生存分析模型。分別構建了1年、2年和5年后患者死亡率,模型結果顯示logistic回歸和隨機森林模型預測性能相差不大,AUC平均都在60%以上,最大可達到80%,與本研究結果相近。2016年,Panahiazar[20]團隊再次應用2015年文章的數據構建對比輔助模式邏輯回歸(CPXR(Log))模型,1年、2年和5年后患者死亡預測模型準確率都在80%以上,尤其1年后預測準確率高達91.40%,表現優越。

本研究對心衰患者構建預后死亡風險預測模型,通過回顧性研究方法收集患者的住院病歷資料,并考慮到非均衡結構的數據,從中篩選出26個變量應用logistic回歸、加權隨機森林和代價敏感支持向量機進行構建模型,以彌補傳統機器學習無法有效識別少數類的缺陷,提高對心衰患者預后死亡的識別性能。結果顯示,加權隨機森林模型的綜合表現最優,可以為臨床工作者提供一定程度參考,具有重要的臨床意義。

綜上所述,本文使用代價敏感的思想在一定程度上彌補了慢性心衰對死亡預測數據的不平衡性,加權隨機森林預測性能較好。但是,依然存在不足之處,如本文未對患者中長期死亡風險如1年后,2年后進行分別建模;研究對象局限為山西太原市內三甲醫院患者,樣本來源相對單一,代表性不足,選擇偏倚不可避免;本次研究僅有住院的電子病歷信息,心衰患者的疾病狀態具有高度異質性[20],還應該補充患者個體的基因信息,以提高模型預測性能。

猜你喜歡
評價模型研究
一半模型
FMS與YBT相關性的實證研究
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
3D打印中的模型分割與打包
基于Moodle的學習評價
主站蜘蛛池模板: 亚洲品质国产精品无码| 亚洲色婷婷一区二区| 在线免费看片a| 极品av一区二区| 无码内射中文字幕岛国片 | 久久精品中文字幕免费| 国产精品一线天| 国产精品毛片一区| 999精品视频在线| 视频二区亚洲精品| 亚洲IV视频免费在线光看| 国产精品露脸视频| 婷婷开心中文字幕| 国产成人1024精品| 国产精品福利尤物youwu| 精品少妇人妻一区二区| 不卡网亚洲无码| 国产一区二区福利| 无码AV高清毛片中国一级毛片| 国产99精品久久| 国内精品久久九九国产精品| 熟女视频91| 国产精品yjizz视频网一二区| 草逼视频国产| 欧美精品影院| 国产手机在线小视频免费观看| 成年女人18毛片毛片免费| 国产内射在线观看| 成年女人a毛片免费视频| 欧类av怡春院| 欧美翘臀一区二区三区| 波多野结衣一区二区三区四区视频| 国产激情无码一区二区三区免费| 四虎永久免费在线| 久久无码av一区二区三区| 国产一区三区二区中文在线| 无码日韩精品91超碰| 亚洲欧美一区二区三区蜜芽| 一本一本大道香蕉久在线播放| 国产青青操| 亚洲日本中文字幕乱码中文 | 激情国产精品一区| 欧美一级专区免费大片| 国产精品成人AⅤ在线一二三四 | 国产哺乳奶水91在线播放| 青青操国产| 久久久久九九精品影院| 精品视频在线观看你懂的一区| 华人在线亚洲欧美精品| 色播五月婷婷| 麻豆精品国产自产在线| 成人午夜网址| 日韩麻豆小视频| 亚洲aⅴ天堂| 亚洲国语自产一区第二页| 中文成人无码国产亚洲| 婷婷色丁香综合激情| 青青青国产免费线在| a毛片基地免费大全| 精品国产一二三区| 丝袜久久剧情精品国产| 国产精品嫩草影院视频| 婷婷综合色| 国产96在线 | 亚洲国产成人自拍| 日韩无码精品人妻| 日韩欧美成人高清在线观看| 亚洲成人高清无码| 免费午夜无码18禁无码影院| 在线观看热码亚洲av每日更新| 色成人综合| 国产精品三级专区| 高潮毛片免费观看| 亚洲成人网在线播放| 欧美性猛交xxxx乱大交极品| 奇米影视狠狠精品7777| 免费观看欧美性一级| 国产日韩精品一区在线不卡| 国产精品欧美在线观看| 一本综合久久| 一区二区三区高清视频国产女人| 婷五月综合|