999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DeepFM和XGBoost融合模型的靜脈血栓預測①

2022-09-20 04:12:10莉,超,
計算機系統應用 2022年9期
關鍵詞:特征融合模型

李 莉, 謝 超, 吳 迪

(江蘇大學 計算機科學與通信工程學院, 鎮江 212013)

1 引言

外周穿刺置入中心靜脈導管(PICC)技術是一種從周圍靜脈導入且末端位于中心靜脈的深靜脈置管技術, 已經廣泛用于中長期靜脈治療手段. 隨著PICC置管技術的廣泛使用, 其產生的多種并發癥及不良反應被醫療工作者所發現, 例如穿刺點出血或感染、穿刺形成靜脈炎癥或血栓、敗血癥和局部感染. Abdullah等人[1]提出PICC相關性血栓是PICC置管技術產生的常見且嚴重的并發癥之一. PICC相關性血栓多發生于置管的插入位置[2]以及插入過程由于穿刺、導管直接損傷血管內膜或者基于患者自身基礎性疾病影響.因此, 在置管前進行及時的發現和干預能夠有效預防血栓的形成.

機器學習方法被廣泛運用于醫療領域. Nafe等人[3]使用機器學習方法, 建立了一種新型的學習模型rML繪制血栓的風險概率, 根據風險對患者進行識別和分組, 具有重要的臨床意義. Ryan等人[4]使用梯度增強方法擬合決策樹, 并用XGBoost機器學習方法將多個決策樹結果進行組合, 從而獲得血栓風險預測概率.Liu等人[5]通過癌癥患者的數據收集, 提出了一種基于LASSO回歸的隨機森林方法構建了LASSO-RF模型, 用于篩選與血栓形成有關的高風險因子, 能夠對PICC相關性血栓進行更精確的評估, 以指導早期預防治療.Sukperm等人[6]使用邏輯回歸、決策樹、前饋神經網絡、支持向量機和隨機森林5種機器學習方法, 對573例患者進行數據進行訓練, 通過模型效果對比得出支持向量機具有最佳的模型性能, 能夠進行有效血栓風險預測. 實驗結果證明, 使用多種機器學習方法構建預測模型, 能夠有效地對血栓風險進行評估, 從而輔助臨床醫學診斷, 對于那些具有高PICC相關性血栓風險的患者, 提前作出判斷并盡早干預.

本文提出了一種基于機器學習和深度神經網絡方法的PICC相關性血栓預測模型, 構建了一種基于DeepFM和XGBoost的融合模型, 并使用模型基本評價指標來對模型效果進行驗證. 本融合模型能夠有效地對PICC相關性靜脈血栓進行風險預測, 指導臨床識別血栓高危風險因素, 提前采取治療或護理措施對高危患者進行藥物或者物理干預, 從而降低患者發生血栓的概率.

2 數據預處理和模型方法

2.1 數據集來源

本研究中引入的所有模型均在同一數據集上進行驗證. 本數據集來自于某臨床醫學數據, 每個實例有30個屬性. 包括有原發腫瘤部位、藥物性質、深筋脈血栓史、C反應蛋白濃度等人體實際測量指標. 其中,原發腫瘤部位包含4個部位, 縱隔上、縱隔下、全身和頭頸部, 由整數1-4表示; 藥物性質包含其他藥物、化療、血管生長抑制劑、表皮生長受體酪氨酸酶抑制劑、激素和內分泌, 由整數0-5表示.

2.2 數據預處理

該數據集具有不完整性和維度差異, 因此針對缺失值數量對數據進行篩選. 將包含大量缺失值的患者數據進行剔除, 包含少量缺失特征的數據以及異常數據進行數據填補.

使用隨機森林的方法, 通過對原有數據進行訓練來進行有誤數據的填補. 同時進行數據無量綱歸一化,能夠將不同量綱的數據進行處理, 使每個變量指標具有同等表現力.

(1)缺失值處理

本臨床醫學數據集在實際收集構建的過程中, 會產生部分特征項遺漏的情況, 因此需要針對缺失特征數量進行部分刪除或者缺失值填補操作. 本數據集具有30維特征, 我們選擇直接刪除缺失特征數量大于5的實例, 將缺乏少量特征的數據實例使用隨機森林的方法進行缺失值填補, 利用隨機森林算法進行缺失值填補的流程如下:

Step 1. 首先輸入不包含缺失值的PICC相關性血栓數據集作為樣本集S:

S={(x1,y1),(x2,y2),···,(xM,yM)}

其中, M為不包含缺失值的樣本數.

Step 2. 將數據劃分為訓練集和測試集, 進行n輪訓練(n ∈{1,2···,M}).

Step 3. 在訓練的過程中進行n次Bootstrap采樣,得到采樣后的樣本集Sn.

Step 4. 將第n個隨機采樣樣本集Sn輸入到第n個決策樹模型Gn(x)中. 在訓練決策樹時, 在樣本中選取效果較好的作為決策樹的左右子樹.

Step 5. 將n輪訓練得到的回歸預測結果進行算術平均得到預測輸出.

(2)無量綱歸一化處理

本模型是基于DeepFM和XGBoost的融合模型,首先需要將連續特征按照統一方法縮放至[ 0,1]區間內,這樣能夠消除數據之間尺度和單位度量的影響, 使得不同量綱之間的數據處于同一量級, 加快梯度下降的收斂速度[7], 提高模型學習效率. 數據無量綱歸一化處理計算公式如式(1):

x′和 x 分 別為歸一化前后數值, xmin和 xmax分別為同一特征最小值和最大值. 部分無量綱化數據如表1.

表1 部分無量綱歸一化數據

3 基于DeepFM和XGBoost的融合模型

本PICC相關性血栓臨床醫學數據具有較多特征值為零的情況, 部分特征組合屬于稀疏數據. 部分包含0的特征數據如表2所示.

表2 部分稀疏數據

針對這種稀疏數據, 采用基于深度神經網絡的DeepFM模型. DeepFM是一種集成了深度神經網絡和FM模型的方法, 能夠進行稀疏數據的特征組合[8],避免過擬合情況. XGBoost模型同為線型分類器, 能夠在目標函數的定義中添加正則化項[9], 具有較好的稀疏感知能力, 適用于本PICC相關性血栓臨床醫學數據.通過將DeepFM和XGBoost進行模型融合, 不僅能夠對本數據集具有可解釋性, 還能夠具有更好的模型效果, 融合模型能夠保持較高準確性的情況下指導臨床識別血栓高危風險因素, 及時對血栓風險進行干預, 起到輔助診斷作用.

3.1 DeepFM模型

DeepFM模型是一種繼承了深度神經網絡和FM模型的方法, 能夠有效地結合低階和高階的數據特征. 通過將同一數據分別輸入FM模型和DNN中, 并使用Sigmoid進行組合得到預測輸出.

其中, yfm(x) 是 FM層的輸出, yDnn是 神經網絡層的輸出.

FM即因子分解機, 于2010年由Rendle[10]提出,它融合了SVM模型和因子分解法, 能夠學習到特征之間的相互關系. 特別是處理稀疏數據時, SVM等模型會產生過擬合現象, 此時FM能夠篩選出合適的特征組合. FM模型的思想是基于線性回歸模型[11], 一般的線性模型可表示為:

而基于FM的特征融合模型在線性模型上考慮到了特征之間的關聯性. 以二階度量為例, 此時FM線性模型可表示為:

其中, n 表示總項數, w0表示偏置參數, wi表示第i項的權重, xi表 示第i項的值, w′表示第i項與第i+1項之間的關系進行建模.

其中, f表示[ 1,k]個 變量參數, Vi,f·Vi+1,f表示系數矩陣V中第i和第i+1維向量的點積.

Deep組件是一種深度神經網絡, 能夠發揮深度神經網絡的特性進行高階稀疏數據的學習[12].

嵌入層 e1的結構如圖1所示, 假設其神經元數目k=3, Vi,f為FM層中潛在的特征向量, 將其作為網絡訓練權重, 則每個輸入只有一個神經元有效, 其值為1.通過結合FM層的特征向量 Vi,f作為網絡權重輸入至深度神經網絡, 實現了一個端到端的模型. 嵌入層的輸出表示為:

圖1 嵌入層結構

然后將其輸入到深度神經網絡, 可表示為:

其中, al+1為 下一層的輸出值, σ為激活函數, wl、al和bl分別為層數為l的權重、輸出和偏差項. 則最終預測輸出yDnn為:

3.2 XGBoost模型

XGBoost是基于梯度下降樹GBDT的機器學習方法, XGBoost是具有回歸樹結構[13], 其決策規則與決策樹相同, 內部節點代表著預測的貢獻值, 葉子結點代表著預測分數, 最終的預測結果是所有樹的預測之和.

首先定義目標函數 O bj , 目標函數O bj 由損失函數和正則項組成.

其中, Loss 是真實值yi與預測值之間的損失函數,m為樣本數量, 其計算公式如式(10):

Ω(fn)是抑制每棵樹復雜度的正則項, 其計算公式如下:

其中, γ 和λ 為常數項系數, T 為總葉子結點的數目,wj為每個葉子結點預測的分數, 則最終預測輸出

其中, xi是 第i次訓練的樣本, fm(xi)是第n棵樹的訓練分數.

3.3 模型融合

本PICC血栓預測模型是基于DeepFM和XGBoost的融合模型, 首先構建DeepFM模型, 利用模型對線性模型的記憶能力和對深度神經網絡的學習泛化能力的特點對數據進行訓練并預測. 在訓練過程中通過優化其學習率、神經元保留比率等參數使得模型效果達到最優; 然后構建XGBoost模型, 通過調整正則化項等參數優化模型效果; 最后進行模型融合, 使用單一模型DeepFM和XGBoost在測試集上進行血栓概率預測得到 Pd和 Px, 將兩個模型預測血栓概率值進行加權求和獲得融合模型血栓預測概率Pnew.

其中, Pnew,i為融合模型獲得的第i個測試樣本的血栓預測概率, Pd,i和Px,i表示分別使用DeepFM和XGBoost對第i個測試樣本的血栓預測概率. 結合判定指標和預先設定的概率閾值判斷血栓發生情況.

其中, Pset為試驗后確定的血栓患病概率閾值.

使用上述判定指標獲得模型融合后的患者血栓預測情況, 將其與訓練真實值進行對比獲得模型評價指標. 實驗結果表明, 融合模型相比較DeepFM和XGBoost單一模型在效果上均獲得有效提升.

4 模型實現流程

對采集的數據集進行預處理, 填補缺失值和統一量綱, 在處理后的數據樣本中隨機抽取80%作為訓練集, 20%作為測試集, 分別輸入DeepFM和XGBoost并進行模型融合.

4.1 模型評價

融合模型目的是預測PICC相關性血栓的發生風險概率. 選取精確率、F1指標和AUC來評價模型效果. 在一個二分類問題中, 如果一個實例是正類, 且被預測為正類, 就是真正類(TP); 如果是負類, 被預測為正類, 為假正類(FP); 如果一個類是真負類被預測成負類, 稱為真負類(TN); 如果一個真正類被預測為負類,稱為假負類(FN).

精確率(Acc)為預測的正例的總數和總樣本之比,計算公式為:

F1是一種綜合評價模型指標, 能夠有效地展示精確率和召回率的情況, 計算公式為:

ROC針對的是二分類模型[14], 即輸出結果只有兩類. ROC曲線的 x 軸 和y 軸分別為假正類(FP)的概率和真正類(TP)的概率. AUC是ROC曲線與 x軸圍成的面積[15], 隨機挑選一個正樣本以及一個負樣本, AUC 的值則為分類器判定正樣本的值高于負樣本的概率. 能夠有效地評價模型的預測性能, 其取值范圍一般在[ 0.1,1].

4.2 模型對比

將PICC相關性血栓臨床醫學數據輸入DNN、DeepFM、XGBoost以及其融合模型進行訓練. 經過訓練得出DNN、DeepFM、XGBoost以及其融合模型的ROC曲線如圖2-圖5所示.

圖2 DNN的ROC曲線

圖3 DeepFM的ROC曲線

圖4 XGBoost的ROC曲線

圖5 DeepFM和XGBoost融合模型ROC曲線

根據圖2和圖3對比可以看出單一的深度神經網絡DNN在ROC的取值上低于融入深度神經網絡和FM模型方法的DeepFM模型, 因此證明DeepFM模型能夠有效地解決過擬合問題.

根據ROC曲線可得, 基于DeepFM和XGBoost的融合模型在利用PICC相關性血栓臨床醫學數據對血栓進行預測能夠在20%的假陽率下準確預測出83%的PICC相關性血栓數據, 能夠為臨床置管前提供有效的輔助診斷.

基于DeepFM和XGBoost的融合模型得出的重要性特征圖如圖6所示. 重要性特征圖能夠展示與PICC相關性血栓有關的特征重要程度[16], 從而輔助臨床醫護工作者判斷哪些特征對PICC相關性血栓產生更顯著的影響. 如圖6所示, 其中尖端是否最佳位置、轉移部位高危、深靜脈血栓史、急性感染等影響因素為模型所得重要特征, 與醫學先驗資料相符. 由于影響PICC相關性血栓的特征較多, 導致臨床醫護工作者很難從眾多病人數據中找到重要的影響因素, 因此可以結合本融合模型所得的特征重要性, 更加關注病人重要信息來提前采取預防措施和干預手段, 降低血栓對患者的影響.

圖6 特征重要性

根據實驗結果和ROC曲線得出模型精確率、F1指標和AUC對比如表4所示.

表3 模型精確率、F1和AUC指標對比

從表4可以看出, 針對PICC血栓預測融合模型,其精確率、F1指標和AUC均高于單個機器學習和深度神經網絡模型. 融合模型在精確率上比DeepFM和XGBoost分別高出了1.929%和1.942%, 在F1指標上比DeepFM和XGBoost分別高出了1.941%和5.854%,在AUC上比DeepFM和XGBoost分別高出了3%和5%, 在模型效果上均有顯著提升.

由上述模型評價指標可知, 基于DeepFM和XGBoost的融合模型相比較單一模型得到了最優的效果, 證明模型融合的合理性和有效性, 因此可以使用基于DeepFM和XGBoost的融合模型進行PICC相關血栓風險的預測與評估, 有利于醫護人員對血栓高風險患者進行及時干預, 最大化降低患者由于置管血栓所造成的影響.

5 結論

本文是一種基于DeepFM和XGBoost的融合模型, 使用了機器學習和深度神經網絡結合的方法對外周穿刺置入中心靜脈導管(PICC)置管血栓進行風險預測. 通過從患者入院檢查數據中進行選取有效特征,分別輸入DeepFM和XGBoost模型進行訓練, 然后使用模型融合方法對模型效果進行優化.

實驗結果表明, 基于DeepFM和XGBoost的融合模型在模型評價指標和效果上均優于單一模型, 證明了融合模型的可行性. 本PICC血栓預測模型能夠幫助臨床在置管前對患者進行血栓風險預測, 對較大血栓風險的患者提早進行藥物或者物理干預, 最大化減小血栓對患者本身所帶來的影響, 在PICC置管血栓領域具有重要意義.

猜你喜歡
特征融合模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 日韩午夜福利在线观看| 国产乱人伦AV在线A| 天天躁狠狠躁| 思思热精品在线8| 女人18一级毛片免费观看| 国产成人精品男人的天堂下载| 91精品国产福利| 98精品全国免费观看视频| 日韩精品亚洲人旧成在线| V一区无码内射国产| 中国毛片网| 91久草视频| 国产女人在线| 日本五区在线不卡精品| 在线免费a视频| 国产一区二区三区日韩精品| 国产激情影院| 囯产av无码片毛片一级| 无码AV高清毛片中国一级毛片| 在线国产91| 国产精品免费p区| 丁香六月综合网| 三上悠亚在线精品二区| 在线观看视频一区二区| 天天操天天噜| 一本大道无码日韩精品影视 | 国产真实乱子伦精品视手机观看 | AV无码一区二区三区四区| 成人免费黄色小视频| 婷婷亚洲综合五月天在线| 国内精品91| 久草青青在线视频| 亚洲无码视频图片| 国产在线观看第二页| 在线欧美a| 亚洲激情99| 国产97公开成人免费视频| 欧美精品在线视频观看| 精品亚洲国产成人AV| 人妖无码第一页| 国产精品视频第一专区| 日韩av在线直播| 国产主播一区二区三区| 乱人伦中文视频在线观看免费| 宅男噜噜噜66国产在线观看| 无码AV日韩一二三区| 漂亮人妻被中出中文字幕久久| 久久成人免费| 日本在线欧美在线| 国产高清精品在线91| 亚洲第一区欧美国产综合| 亚洲日韩AV无码精品| 久久美女精品国产精品亚洲| 国产人人射| 福利国产微拍广场一区视频在线| 国产欧美性爱网| 韩国v欧美v亚洲v日本v| 午夜日韩久久影院| 久久综合亚洲鲁鲁九月天| 国产青榴视频| 97国产成人无码精品久久久| 91久久偷偷做嫩草影院| 国产在线观看精品| 色有码无码视频| 欧美日本激情| 无码高潮喷水专区久久| 色精品视频| 国产成人综合亚洲网址| 欧美视频在线观看第一页| 天天躁狠狠躁| 亚洲成人一区二区三区| 亚洲Aⅴ无码专区在线观看q| 国产精品网址在线观看你懂的| 毛片在线播放网址| 成人在线天堂| 91成人免费观看在线观看| 久久亚洲日本不卡一区二区| 亚洲中文在线看视频一区| 精品久久久久久成人AV| 亚洲自拍另类| 欧美中文字幕第一页线路一| 在线精品欧美日韩|