999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GA-XGBoost 算法的肺癌預(yù)測研究

2023-12-18 18:13:49柯東晏峻峰
計算機時代 2023年11期
關(guān)鍵詞:肺癌

柯東 晏峻峰

關(guān)鍵詞:肺癌;SMOTE過采樣;特征選擇;遺傳算法;集成算法;XGBoost

中圖分類號:TP391 文獻標識碼:A 文章編號:1006-8228(2023)11-131-05

0 引言

肺癌是起源于肺部支氣管黏膜或腺體的惡性腫瘤,其發(fā)病率和死亡率增長很快,是對人的健康及生命威脅最大的惡性腫瘤之一[1]。由于肺栓塞常常伴有呼吸困難、咳嗽、胸痛、咯血等癥狀,臨床癥狀特異性不強,通常難以鑒別,故漏診率較高,以致延誤救治時機[2]。在我國,肺癌是危害人類的生命健康的主要惡性腫瘤之一,在排名前十的惡性腫瘤中,肺癌的發(fā)病率和死亡率分別占20.03% 和26.99%[3]。若肺癌在早期階段能被及時發(fā)現(xiàn)并得到恰當(dāng)?shù)闹委煟颊叩? 年生存率可提高到50% 甚至更高[4]。

在早些年,Ledley[5]等人第一次將醫(yī)學(xué)領(lǐng)域的數(shù)學(xué)模型應(yīng)用到計算機輔助診斷中,首次提出計算機輔助診斷。Weizeng Li 等[6]提出了將決策樹和邏輯回歸相結(jié)合的邏輯樹,分別評估單個和多個腫瘤標志物的診斷價值;Caijoie Ren 等[7]提出一種基于臨床肺癌個體化鑒別方案,采用LASSO 進行回歸分析,得到了最優(yōu)預(yù)測結(jié)果;Nuhic Jusua 等[8]利用機器學(xué)習(xí)算法預(yù)測模型作為一種非侵入性工具來區(qū)分惡性與良性,應(yīng)用于肺癌的預(yù)測分類。Stefano Elia 等[9]使用遺傳算法在五種腫瘤標志物種選擇出兩種指標物進行聯(lián)合檢測,得到了最好的肺癌預(yù)測結(jié)果。相對于單個模型而言,集成模型由多個基學(xué)習(xí)器構(gòu)成,因此具有更好的分類和回歸效果。例如張楚函[10]以隨機森林算法建立術(shù)前診斷模型,建立了肺癌前期預(yù)診斷模型;張雨晴等[11]應(yīng)用隨機森林分析非吸煙女性肺癌風(fēng)險因素。然而,機器學(xué)習(xí)在肺癌研究中也面臨一些挑戰(zhàn),如樣本大小、數(shù)據(jù)質(zhì)量、模型的可解釋性以及算法模型耗時長等方面的限制。因此,本研究致力于解決這些問題,探索臨床上肺癌患者與其生活習(xí)慣之間的關(guān)系,建立基于生活習(xí)慣進行肺癌預(yù)測的分類模型。通過算法的融合、優(yōu)化,確定的最終模型在肺癌數(shù)據(jù)集上進行試驗,實驗得到93.2% 的高準確率,同時算法模型相比強分類器SVM 具有更快的響應(yīng)速度,充分證明該模型能應(yīng)用到臨床,輔助醫(yī)生進行疑似病例的肺癌預(yù)測,結(jié)合必要的醫(yī)學(xué)檢查,及時對肺癌患者進行醫(yī)學(xué)干預(yù),為肺癌患者爭取更多的治療從而提高生存率。

1 研究方法

本文方法如下:不平衡數(shù)據(jù)是指數(shù)據(jù)集中某一類別的樣本數(shù)量明顯少于其他類別的樣本數(shù)量[12],本文數(shù)據(jù)集標簽比例嚴重失衡,標簽為0 的樣本29 條,標簽為1 的樣本280 條,即正負標簽比例大約為1:9,因此引入過采樣技術(shù)SMOTE 方法對數(shù)據(jù)做均衡化處理;對本實驗所用到的肺癌數(shù)據(jù)集進行隨機森林重要性排名,根據(jù)排名結(jié)果選擇貢獻較大的特征,參與模型計算,實現(xiàn)降低數(shù)據(jù)緯度、提高分類準確率的效果;構(gòu)建GA-XGBoost 算法模型即:采用遺傳算法優(yōu)化梯度提升樹算法XGBoost,并與其他機器學(xué)習(xí)方法如支持向量機(SVM),決策樹(DT)、K 最近鄰(KNN)、貝葉斯(NB)以及未調(diào)優(yōu)的XGBoost 進行對比,證明模型的優(yōu)越性。具體流程圖如圖1 所示。

1.1 構(gòu)建GA-XGBoost 模型

極端梯度提升樹(XGBoost)算法是由陳天奇在2014 年提出,該算法能夠極大地提升模型的訓(xùn)練速度和預(yù)測精度[13]。它的設(shè)計是為了正確使用資源,克服以往梯度提升的局限性[14]。本文XGBoost 目標函數(shù)如下:

遺傳算法(GA)是一種求解優(yōu)化問題的工具[15],主要用于解決搜索和優(yōu)化問題。算法過程如下:

⑴ 初始化:生成一組初始種群,其中每個個體代表一個解。

⑵ 適應(yīng)度評估:對每個個體進行適應(yīng)度評估,即計算其對應(yīng)的目標函數(shù)值。

⑶ 選擇:從種群中選擇一部分個體作為下一代種群的父代。

⑷ 交叉:對父代中的個體進行交叉操作,生成新的子代。

⑸ 變異:對子代中的個體進行變異操作,引入隨機因素,增加種群的多樣性,防止算法陷入局部最優(yōu)解。

⑹ 更新種群:將父代和子代合并,生成新的種群。

⑺ 終止條件判斷:判斷是否達到終止條件,如最大迭代次數(shù)、目標函數(shù)達到某個閾值等。

⑻ 輸出結(jié)果:輸出最優(yōu)解或者最優(yōu)解對應(yīng)的目標函數(shù)值。

本實驗構(gòu)建GA-XGBoost 肺癌診斷模型如圖2。

2 實驗過程及結(jié)果分析

本文基于Anaconda開發(fā)環(huán)境下的jupyter-notebook編輯器。研究選用kaggle 學(xué)習(xí)庫所公開的的肺癌數(shù)據(jù)集。該數(shù)據(jù)集包含疑似肺癌患者平時生活習(xí)慣和生理、行為表現(xiàn)等部分數(shù)據(jù),一共有309 個樣本,類別為良性腫瘤和肺癌腫瘤,數(shù)據(jù)集包含的14 個特征基于疑似患者的生活記錄,分別是年齡(AGE)性別(SEX)、是否吸煙(SMOKING)、黃色手指(YELLOW)、平時是否有同輩壓力(PRESSURE)、是否焦慮(ANXIETY)、是否有慢性病(CHRONIC DISEASE)、是否感到疲勞、是否哮喘、藥物過敏(ALLERGY)、飲酒(ALCOHOL CONSUMING)、咳嗽(COUGHING)、呼吸急促(SHORTNESS OF BREATH)、吞咽困難、胸痛(CHEST PAIN)、是否肺癌(LUNG_CANCER)。特征中“是”為1,“否”為0;標簽中患肺癌為1,沒有患肺癌為0。實驗以70% 的數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集。

2.1 評價指標

在分類指標問題上采用混淆矩陣是最直觀的,混淆矩陣可以詳細的展示分類性能。混淆矩陣如表1所示。

本文在混淆矩陣基礎(chǔ)上引入準確率(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)作為算法的判斷指標。其中靈敏度又叫真陽性比例,即實際發(fā)病且被準確診斷的病人所占比例;特異度又稱為真陰性率,是指實際無病并能準確檢測的病歷所占比例:

2.2 數(shù)據(jù)均衡化處理

本文數(shù)據(jù)集標簽比例嚴重失衡,標簽為0 的樣本29 條,標簽為1 的樣本280 條,即正負標簽比例大約為1:9。采用SVM-SMOTE 過采樣技術(shù)進行數(shù)據(jù)均衡化處理,原始數(shù)據(jù)和均衡化處理后的數(shù)據(jù)分布如圖3、圖4 所示。

2.3 特征選擇

特征重要性計算結(jié)果可以用于特征選擇和可視化,幫助我們理解模型的特征貢獻程度,從而更好地解釋和使用模型。本文通過隨機森林算法得出特征重要性排序,結(jié)果如表2 所示。

排在后面四位的是YELLOW_FINGERS,GENDER,ANXIETY,F(xiàn)ATIGUE,由于這四個特征重要性比較低,故予以剔除,保留排名結(jié)果選擇排名靠前的10 個特征重新訓(xùn)練模型。比較SMOTE 均衡化前后、進行特征選擇前后進行XGBoost 訓(xùn)練,結(jié)果如表3 所示。

2.4 GA-XGBoost 實驗結(jié)果

和隨機森林算法(Random Forest,RF)超參數(shù)空間類似[16],XGBoost 超參數(shù)眾多,需要手動設(shè)定。本文選取常見的三個超參數(shù):n_estimators(樹的數(shù)量),max_depth(最大樹深度)、learning rate(學(xué)習(xí)率)進行遺傳算法優(yōu)化,將評估指標AUC 作為適應(yīng)度函數(shù)。考慮到適應(yīng)度函數(shù)上界難以確定,本文選取最大循環(huán)次數(shù)作為算法的終止條件。本文借助可視化工具—學(xué)習(xí)曲線,確定超參數(shù)的大致范圍,三個超參數(shù)的學(xué)習(xí)曲線圖分別如圖5、圖6、圖7 所示。

由學(xué)習(xí)曲線可知,n_estimators 最佳取值在60左右,max_depth 最佳取值為6 左右,learning_rate 最佳范圍為0.2 到0.3 之間。用遺傳算法進行最優(yōu)值搜索:設(shè)定n_estimators 范圍為50 到75,步長為1;max_depth范圍為4 到9,步長為1。Learning_rate 范圍設(shè)定為0.2-0.3,步長為0.01。遺傳算法結(jié)果如表4 所示。

得到XGBoost 最佳參數(shù)后,為了驗證模型的優(yōu)越性,同其他機器學(xué)習(xí)進行比較。不同算法的比較結(jié)果如表5 所示。

進行遺傳算法優(yōu)化的GA-XGBoost 模型,準確率達到0.932,靈敏度達到0.928。特異度達到0.921,準確率和靈敏度最高。雖然SVM 在分類中也表現(xiàn)出了不俗的性能,在特異度上較XGBoost 稍高,但作為強分類器,SVM 復(fù)雜度高,耗時長。在講究實效性的臨床醫(yī)療診斷中,基于簡單學(xué)習(xí)器集成的XGBoost 算法在高分類性能的同時還能實現(xiàn)快速運算,與其他機器學(xué)習(xí)方法相比,進行遺傳算法優(yōu)化的GA-XGBoost,表現(xiàn)堪稱完美。

3 結(jié)束語

對疑似患者進行早期的預(yù)測診斷是應(yīng)對肺癌的有效手段[17]。本文提出的基于GA-XGBoost 算法的預(yù)測分類模型在準確率、靈敏度和特異度三項指標上表現(xiàn)優(yōu)異,運行時效上優(yōu)勢明顯。模型的最終目的是在臨床上指導(dǎo)醫(yī)生對患者的肺癌風(fēng)險進行提前判斷,但本文數(shù)據(jù)集是肺癌患者的日常表現(xiàn)、生活習(xí)慣記錄,存在一定的主觀性,未來可以從更多的臨床電子病例出發(fā),采用客觀、標準化的數(shù)據(jù)。下一步結(jié)合大樣本,高緯度的客觀化數(shù)據(jù),嘗試深度學(xué)習(xí)的建模,致力于人工智能在人類的癌癥事業(yè)中的更大應(yīng)用。

猜你喜歡
肺癌
中醫(yī)防治肺癌術(shù)后并發(fā)癥
對比增強磁敏感加權(quán)成像對肺癌腦轉(zhuǎn)移瘤檢出的研究
氬氦刀冷凍治療肺癌80例的臨床觀察
長鏈非編碼RNA APTR、HEIH、FAS-ASA1、FAM83H-AS1、DICER1-AS1、PR-lncRNA在肺癌中的表達
CXCL-14在非小細胞肺癌中的表達水平及臨床意義
廣泛期小細胞肺癌肝轉(zhuǎn)移治療模式探討
PFTK1在人非小細胞肺癌中的表達及臨床意義
microRNA-205在人非小細胞肺癌中的表達及臨床意義
周圍型肺癌的MDCT影像特征分析
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
主站蜘蛛池模板: 日韩无码真实干出血视频| 久久精品只有这里有| 四虎影视8848永久精品| 日本午夜网站| 欧美成人亚洲综合精品欧美激情| 国产欧美日韩专区发布| 婷婷开心中文字幕| 宅男噜噜噜66国产在线观看| 欧美亚洲第一页| 国产无吗一区二区三区在线欢| 无码精品国产dvd在线观看9久| 亚洲精品黄| 久久综合一个色综合网| 午夜视频免费试看| 久久精品一品道久久精品| 色偷偷综合网| 国产区成人精品视频| 国产精品视频白浆免费视频| 国产91无码福利在线 | 久久精品人妻中文视频| 一本色道久久88| 丁香婷婷综合激情| 国模沟沟一区二区三区| 67194在线午夜亚洲| 青青草原国产免费av观看| 色欲综合久久中文字幕网| 欧美日韩国产综合视频在线观看 | 中文字幕日韩视频欧美一区| 日本免费高清一区| 九色视频在线免费观看| 黄色国产在线| 久久精品亚洲中文字幕乱码| 青青草国产免费国产| 亚洲精品无码抽插日韩| a级毛片免费看| 中文字幕有乳无码| 99在线视频免费| 亚洲无码高清视频在线观看| 午夜啪啪福利| 伊人91在线| 亚洲一区二区三区麻豆| 精品亚洲欧美中文字幕在线看 | 91久久偷偷做嫩草影院电| 久久99久久无码毛片一区二区| 欧美日本激情| 欧美伊人色综合久久天天| 丁香婷婷久久| 日韩色图区| 亚洲日韩在线满18点击进入| 再看日本中文字幕在线观看| 亚洲精品片911| 国产精品美女自慰喷水| A级毛片高清免费视频就| 亚洲无码精彩视频在线观看| 国产精品99在线观看| 风韵丰满熟妇啪啪区老熟熟女| 国产全黄a一级毛片| 日本欧美在线观看| 免费又爽又刺激高潮网址| 国产一区二区三区视频| 精品国产成人高清在线| 国产一级视频在线观看网站| 亚洲男人天堂网址| 亚洲一区第一页| 青青青视频免费一区二区| 欧美国产精品拍自| 亚洲天堂福利视频| 中文字幕久久波多野结衣| 国产一区二区三区免费| 精品久久久久久久久久久| 久久国产精品影院| 亚洲国产欧美自拍| 又大又硬又爽免费视频| 91精品在线视频观看| 亚洲国产91人成在线| 在线网站18禁| 91在线国内在线播放老师| 欧美日韩亚洲综合在线观看| 国产亚洲欧美在线专区| 就去吻亚洲精品国产欧美| 国产三级毛片| 久草视频精品|