999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多視圖多核學習的彌漫大B細胞淋巴瘤預后分類*

2022-09-14 09:57:50陽楨寰張巖波余紅梅鄭楚楚趙艷琳李雪玲趙志強羅艷虹
中國衛生統計 2022年3期
關鍵詞:分類特征方法

陽楨寰 張巖波 邢 蒙 余紅梅 鄭楚楚 趙艷琳 李雪玲 李 瓊 趙志強 周 潔 羅艷虹△

【提 要】 目的 為更加充分地利用彌漫性大B細胞淋巴瘤患者的電子病歷數據,挖掘其內部的區別與聯系,以提高疾病預后模型性能,為進一步的臨床治療提供參考。方法 現使用多視圖多核的機器學習方法對疾病預后進行建模。對電子病歷中患者的病理信息、影像資料以及診斷治療記錄這三個方面分別進行數據收集與整理,將收集到的三類特征經預處理與重采樣,用核函數分別映射至三個核空間,最終運用多視圖多核學習得到合成核進行預后分類。將目標模型的分類結果與邏輯回歸,決策樹等經典模型進行對比。結果 通過十折交叉驗證,目標模型性能(accuracy=0.977,AUC=0.970,precision=0.981)均高于常見模型,且多視圖多核學習的模型性能優于混淆特征的多核或單核學習。結論 通過多視圖多核學習的建模方法,更能夠挖掘出電子病歷數據中的有效信息,模型性能優越,可為臨床工作者進一步的診斷與治療方案選擇提供一定參考。

彌漫性大B細胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是一種常見的侵襲性B細胞淋巴瘤,約占非霍奇金淋巴瘤的30%~40%。據相關統計表明,DLBCL已成為發病率逐年增長的惡性腫瘤之一[1]。由于DLBCL具有高度異質性,現階段臨床上主要進行化療,雖然化療的有效性較高,但化療敏感性會影響總體效果,遠期預后不佳[2]。大部分患者經過治療可以達到完全緩解,但其中仍有小部分患者在治療過程中出現緩解后復發,這類患者難以獲得長期的無病生存。針對復發難治性DLBCL,自體造血干細胞移植可作為該類患者的挽救治療手段[3]。故若不進行準確的疾病預后判斷,重復對復發難治型患者進行一線治療,不僅會錯過二線挽救治療的時機,也會給患者帶來心理負擔和經濟壓力。而若對早期可治性患者采用R-CHOP聯合其他輔助療法,則可以很大程度提高其生存率[4]。因此,對DLBCL的疾病預后情況進行精確的分類預測有較大的現實意義。

由不同途徑或層面獲得的數據被稱為多視角數據,其表現的是同一對象分布在不同特征空間中的屬性。多視圖學習是分析多視角數據的機器學習方法,其不僅分析同一視圖數據內部的關聯,也能發現不同視圖數據間的差異性與一致性,從而挖掘出多視角數據中隱藏的有效信息,使得分類結果更加準確。在醫學領域內,數據來源各異,之前的研究均不加區分地直接利用,這樣不僅會減弱不同類型特征向量之間的區別,并且使得特征向量失去了原有意義[5]。因此,本研究針對DLBCL患者,分別從不同來源(患者病理信息、影像所見、診斷治療記錄)收集數據作為不同的數據視圖特征,通過核方法映射至各核空間,再利用多視圖多核學習得到合成核進行預后分類,以最終達到提高預后分類模型性能的效果。

方法及原理

本研究以DLBCL患者經過住院治療后是否復發作為分類依據,方法可分為五個部分:數據收集、數據處理、核方法、多視圖多核學習、評價指標。

1.數據收集

數據來源于某醫院2011-2017年被診斷為DLBCL并通過一線化療方案治療后達到完全緩解的病例共518例,隨訪至2020年12月底,其中三年內復發的人數為96例。根據《NCCN Guidelines Insights:B-Cell Lymphomas,Version 3.2019》[6]及電子病歷記錄情況,分別收集患者數據,其中病理信息138維,影像資料所見60維,診斷治療記錄12維,共計210維特征。

在特征選擇時使用特征遞歸消除法[7-8],遞歸特征消除的主要思想是反復地構建模型(本研究使用支持向量機為分類器,故以支持向量機為基礎模型篩選特征),得到不同的特征子集,在此基礎上使用交叉驗證法得到表現最優秀的特征子集。經遞歸特征消除篩選后,共25維特征進入模型,具體賦值情況如表1。

2.數據處理

(1)數據預處理

由于本研究樣本量小,對于數據集中少數的缺失值和異常值,不采用直接丟棄的方法,使用將連續性變量按中位數填補,將分類變量按多數類填補。同時為保證不同的變量值位于相同取值范圍內,本研究采用最大最小化[9]的方法進行歸一化。

(2)SMOTE采樣

在DLBCL患者中,30%患者在達到完全緩解后的三年內復發,造成數據的類別不平衡。其中未復發人群是復發人群人數的2~3倍,同時復發患者的失訪率較高,本研究數據的類別不平衡率在4~5倍之間[10]。近年來大量研究表明,數據中類別不平衡問題嚴重影響著預測模型的分類準確率[11],其中對于少數類樣本的準確率更低,而對少數類樣本的準確預測往往是研究的目的所在。

表1 變量賦值情況

SMOTE(synthetic minority oversampling technique)[12]是目前公認的性能較優的解決方法,并已被廣泛應用于處理計算機視覺[13]、醫學診斷[14]與欺詐識別[15]等多領域數據的類別不平衡問題。如圖1所示,SMOTE算法的基本思想是對少數類樣本進行分析并根據少數類樣本人工合成新樣本添加到數據集中。

xnew=x+rand(0,1)×(xn-x)

圖1 SMOTE采樣示意圖

本研究中SMOTE采樣通過使用Python(version=3.7)的imblearn(version=0.0)庫中的SMOTE類實現,參數K_neighbors=5。

3.核方法

(1)核方法

核方法是一類把低維空間的線性不可分問題轉化為高維空間的線性可分問題的方法[16-17]。給定有監督機器學習問題(x1,y1),(x2,y2),…,(xi,yi)∈X×Y,其中輸入空間X?RN,輸出空間Y?RN(回歸問題)或Y={-1,+1}(二分類問題)。可以通過一個非線性映射:

把低維度輸入數據映射到一個新的高維特征空間F={Φ(x)|x∈X},其中F?RN。然后利用新的高維線性可分數據表示原來的低維線性不可分問題[18]。

(Φ(x1),y1),(Φ(x2),y2),…,(Φ(xi),yi)∈F×Y

(2)核函數

若?x,z∈X,函數K(x,z)=<Φ(x),Φ(z)>,則稱K為核函數,即核函數輸入兩個向量,它返回的值跟兩個向量分別作映射然后點積的結果相同。

核方法的采用使支持向量機(support vector machine,SVM)由線性推廣到非線性,其核心在于利用核函數可以快捷地得到該數據集的相關核矩陣,后者用于替代模型分類決策函數中的內積運算。

常用核函數如表2所示。

表2 常用核函數

4.多視圖多核學習

多核學習[19]是在模型構建時通過組合多個核函數進行映射的一種方法,用以實現更好的泛化性,彌補基于單核學習方法的不足。由于多核學習中的內核自然對應于不同視圖,因此多核學習被廣泛應用于處理多視角數據[20]。

圖2 多核學習模型的構成示意圖

研究分別使用Python(version=3.7)MLKpy庫中(version=0.6)的Multiview_generator類與EasyMKL類實現核映射與多核學習。其中,核總數為3,基礎核經超參數搜索確定均為RBF(σ=1,0.1,0.01),多核學習分類器選擇SVM(C=10)。

5.評價指標

本研究使用10折交叉驗證的方法來評價模型的性能,分別采用準確率(accuracy)、ROC曲線下區域面積(AUC)、靈敏度(sensitivity)以及精度(precision)四個二分類指標。其中每個分類器的結果可以分為真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)四類,由此可得以下的指標計算公式:

除了統一評價標準外,在實驗評價的所有模型中的超參數均經過循環網格搜索為最佳參數。

結 果

為驗證本文中的采樣效果,該模型分別使用SMOTE平衡采樣數據與原始數據訓練后的10折交叉驗證結果均值如表3所示。

表3 采樣前后模型性能比較

從表3可以看出,通過重采樣,模型的各個性能指標均有提升,其中靈敏度與AUC分別提升了39.9%與31.5%。正是由于原始數據中多數類樣本遠多于少數類樣本,少數類樣本信息量較少,使得模型在訓練過程中會在很大程度上偏向于多數類的樣本進行分類以獲得更高的準確率,故模型對于少數類樣本的敏感性不足,導致靈敏度低。通過SMOTE重采樣均衡訓練數據后,模型對于少數類樣本的分類性能得到了很大增強,提升了靈敏度從而提升了AUC。

目標模型與常見的機器學習算法模型的10折交叉驗證結果均值如表4所示。

表4 各模型性能指標對比

由表4可知,除目標模型的靈敏度略低于神經網絡,其余AUC、準確率、精度等指標均為最優。不難看出邏輯回歸為常用的線性分類器,在非線性問題上的表現不佳,而其他三種模型均可處理非線性問題。

為了驗證多視圖多核學習的效果,分別使用多核SVM與單核SVM的模型對數據集串聯變量進行學習,其十折交叉驗證結果如表5所示。

表5 多視圖多核學習效果

綜合表5二分類評價指標來看,多視圖多核SVM的表現均為最優。通過AUC比較,多核SVM比單核SVM提升了4.5%,多視圖多核SVM比多核SVM提升了3.2%。

討 論

神經網絡與決策樹都是通過增加中間層的方法實現線性到非線性的轉換,但由于決策樹過擬合與魯棒性不強問題,單棵決策樹在實際應用往往不如人意。核支持向量機不僅巧妙運用核方法進行非線性轉換,而且計算復雜度也小于多層的神經網絡(如深度學習與集成的決策樹等),是處理小型數據集非線性問題的良好選擇。現有的模態特征融合方法中,一類方法是獨立地從每種模態中提取特征,然后簡單地將它們連接到一個長向量中,即對各個模態的特征進行串聯,缺點是把所有模態特征信息賦予同等權重,沒有考慮從不同模態提取出的特征的不同特性[21-22]。另一類方法是既可以利用在單個模態中訓練的分類結果,也可以利用特殊的組合規則得到的總和特征。其中多視圖多核學習針對不同的特征類型,采用不同的核函數建立核矩陣以表現局部特性,并將多個核矩陣進行評估與融合以體現全局性,最后對融合的核矩陣進行分類。多核學習通過提高核函數的搜索空間容量,實現不同核矩陣的組合,可以實現比單核學習更良好的泛化性,而由于不同的特征集對應不同的特征空間,若單純串聯各個不同特征集會減少模型在數據中學習到的信息量,使得模型最終的性能降低。因此,采用多視圖多核學習可以合理且充分利用不同的特征集,以達到更好地進行數據挖掘的效果。

在當前大數據時代,數據都有不同的來源或者是從不同的視角獲得,醫療數據同樣如此,如何充分利用以及挖掘出數據中盡可能多的有效信息是衛生醫療統計行業的重要工作。多視角學習是一種新的機器學習方法,其既利用數據中聯系,又關注數據間差別的思想,近年來受到了越來越多學者的關注和研究,其有效性也在眾多的實踐中得到了證明[23-24]。如Wang等對心率衰竭死亡率的預測AUC達到89.64%[5],唐楠等在醫學文獻蛋白質關系提取的實驗AUC達到87.83%[25]。在衛生醫療領域,數據挖掘工作格外重要,不僅可以通過數據統計描述的方法,了解醫療工作的整體趨勢,還可以通過機器學習等方法對臨床數據進行數據分析、結果預測等,將得到的分析結果反饋給臨床醫療工作者作為重要參考。

多視角學習一般遵循兩個原則[26],即一致性與互補性。一致性原則是指同一對象不同視角的特征是存在內在聯系的,旨在最大化多個視角間的一致性,即利用同一對象不同視角間的一致性和錯誤率獲得更好泛化能力的模型。互補性是指不同視角數據間的差異性使得每個視角都包含對象某一方面獨特的信息,通過利用此類相互補充的信息,全面而準確地描述數據,產生更好的算法新能[27]。本研究主要使用了多視圖多核學習的建模方法。首先對腫瘤醫院患者的病理信息、影像檢查、診療記錄三個不同來源的數據進行收集與多視圖處理,同時針對患者類別不平衡的問題進行了重采樣后,再使用多視圖多核SVM模型對患者的預后(復發難治型與可治療型)進行分類學習。結果顯示了多視圖多核學習在臨床數據分析與數據挖掘中的作用,對比單核、多核與其他經典模型,本文基于腫瘤患者不同來源數據的多視圖多核學習有明顯優勢,AUC與準確率分別達到97.0%與97.7%。從患者病理信息、影像資料、診療記錄三個不同且互補的數據層面,分別通過核方法把三個特征集映射到三個相應的特征空間中,實現非線性轉換的同時體現了不同視角之間的差異性,之后又利用三個核特征空間的非線性組合得到合成核,體現了不同視角間的互補性與一致性,最終在合成核空間中進行分類,達到了預期的效果。

本研究的不足在于影像資料來源的特征尚不夠全面,僅使用了患者DLBCL的PET-CT中腫瘤形狀特征,目前尚未對PET-CT的高階特征[28]進行提取。故在今后的研究中,本研究團隊重點會在PET-CT影像資料的收集整理與特征提取以及相關的多視圖機器學習方法。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 久久无码高潮喷水| 亚洲精品色AV无码看| 亚洲欧州色色免费AV| 国产精品嫩草影院视频| 青青热久麻豆精品视频在线观看| 制服丝袜在线视频香蕉| 久久精品欧美一区二区| 久久亚洲美女精品国产精品| 日韩 欧美 国产 精品 综合| 亚洲熟女中文字幕男人总站| 国产成人在线无码免费视频| 国产欧美日韩在线一区| 五月天综合网亚洲综合天堂网| 国产精品久久久久久久久久98| 国产乱论视频| 欧美在线导航| 91麻豆精品视频| 亚洲啪啪网| 精品人妻AV区| 永久免费无码成人网站| 亚洲中文字幕手机在线第一页| 色哟哟国产精品| 538国产视频| 亚洲成人免费在线| 免费aa毛片| 国产精品偷伦在线观看| 亚洲人成影视在线观看| 亚洲一级毛片| 欧美日韩国产综合视频在线观看| 亚洲第一页在线观看| 亚洲国产高清精品线久久| 97视频在线精品国自产拍| 58av国产精品| 日韩在线影院| 国产在线自乱拍播放| 秘书高跟黑色丝袜国产91在线 | 精品视频一区在线观看| 婷婷激情亚洲| 亚洲天堂网2014| 久久伊人操| 亚洲中文无码av永久伊人| 亚洲第一色网站| 亚洲国产日韩欧美在线| 狠狠色噜噜狠狠狠狠色综合久| 91尤物国产尤物福利在线| 99视频精品在线观看| 一级爱做片免费观看久久| 99在线小视频| 丝袜国产一区| 麻豆精选在线| 午夜电影在线观看国产1区| 怡春院欧美一区二区三区免费| 中文字幕不卡免费高清视频| 亚洲天堂精品在线| 亚洲无线一二三四区男男| 伊人久久久久久久| 热re99久久精品国99热| 黑人巨大精品欧美一区二区区| 成人亚洲天堂| 特级毛片免费视频| 欧美综合一区二区三区| 国产成人在线无码免费视频| 国产毛片高清一级国语| 精品成人一区二区| 亚洲精品国产综合99久久夜夜嗨| 人妻21p大胆| 久久国产精品无码hdav| 午夜天堂视频| 九九免费观看全部免费视频| 999国产精品| 好久久免费视频高清| 女人18毛片久久| 69av免费视频| 欧美成人一级| 欧美成人怡春院在线激情| 国产精品无码一二三视频| 99精品欧美一区| 中文字幕天无码久久精品视频免费 | 污网站免费在线观看| 久久久受www免费人成| 国产欧美亚洲精品第3页在线| 无码电影在线观看|