999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習利用常規檢驗指標建立胃癌淋巴結轉移預測模型

2024-04-13 08:10:32嚴健亮謝澤宇景蓉蓉崔明
實用醫學雜志 2024年6期
關鍵詞:胃癌模型

嚴健亮 謝澤宇 景蓉蓉 崔明

1南通大學附屬醫院檢驗科(江蘇南通 226006);2南通大學醫學院 (江蘇南通 226006);3河海大學商學院(南京 211100)

胃癌是一種全球范圍內高度惡性的消化系統腫瘤,在中國死亡率排第三,構成嚴重的公共衛生風險[1]。淋巴結轉移(lymph node metastasis,LNM)是其主要轉移方式,影響患者預后和化療方案的選擇[2]。通過對胃癌LNM 與否的判斷,可及時監測胃癌的進展、治療效果和患者恢復情況。目前,胃癌LNM 的診斷主要包括病理學診斷、影像學檢查及實驗室輔助檢查。病理學檢查和內鏡下活檢常用于檢測胃癌LNM[3]。此方法獲得的組織樣本通常小而淺表,且形狀不規則[4],因而有局限性。影像學檢查具有輻射損害且費用高,其診斷準確率在40% ~ 88%[5]。實驗室檢查具有非侵入性、成本低和易于收集等優勢,但單一指標不足以診斷胃癌LNM,需多指標聯合。

傳統的多指標聯合涉及的統計方法對數據的要求高,并依賴于一定的假設[6],難以挖掘其臨床價值。機器學習通過自動發現檢驗數據中的模式和規律,能實現胃癌LNM 的快速準確預測。然而機器學習算法種類多樣,每種算法各有特點和適用場景,需要通過多種模型的對比試驗來確定適用于胃癌LNM 預測的指標集合和算法類型[7]。本研究利用并比較不同機器學習方法,深入挖掘常規檢驗數據,篩選重要指標集合并構建胃癌LNM預測模型,以期輔助臨床醫生進行更準確的診斷,減少誤診和漏診的風險。

1 資料與方法

1.1 資料來源 本研究從南通大學附屬醫院醫療數據庫的LIS 系統中獲取患者檢驗數據和臨床特征,包括每例患者的檢查類型、人口學信息、住院號、檢驗項目等。本研究涉及的住院患者的所有醫療統計資料數據均已去除相關隱私信息。病理檢測結果從JDRMS 系統導出。本研究按美國癌癥聯合委員會發布的TNM 分期(第八版)標準對胃癌患者pTNM 進行分期。本研究已獲得南通大學附屬醫院倫理委員會(編號:2022-L025)批準。

1.2 納入和排除標準 根據納入和排除標準篩選胃癌患者數據并提取指標。納入標準:(1)術后病理證實為胃癌;(2)無腫瘤治療史;(3)為首次患癌者。根據納入標準回顧性收集南通大學附屬醫院2020 年1 月2 日至2022 年1 月4 日741 例術前胃癌患者數據用于訓練和測試,包含476 例LNM患者和265 例non-LNM 患者,因有文獻報道,中性粒細胞-淋巴細胞比值(neutrophil-to-lymphocyte ratio,NLR)可預測胃癌LNM[15],本研究對其進行基本特征統計見表1。此外,收集2023 年1 月1 日至10 月31 日期間102 例術前胃癌患者數據用于驗證,對受試者所有醫療統計資料進行隱私數據脫敏。排除標準:(1)既往有惡性腫瘤或多發原發腫瘤病史;(2)術前放療或化療史;(3)臨床病理診斷尚不明確的受試者。

表1 受試者基本特征Tab.1 Basic characteristics of subjects 例

1.3 臨床常規檢驗指標收集 本研究使用66 項臨床常規檢驗指標,主要是血常規和生化指標。包括血常規23 項,生化指標24 項,凝血象8 項,免疫及腫瘤標志物8 項,糞便檢查1 項,以及性別和年齡。采用Symex XE-2100血液分析儀進行白細胞計數、中性粒細胞計數、中性粒細胞分類等23 項血常規分析;在貝克曼DXI800上進行24項生化指標分析,包括β2微球蛋白(β2-Microglobulin,β2-MG)、甘膽酸(cholyglycine,CG)、胱抑素C(cystatin C,CYSC)、前白蛋白(prealbumin,PAB)、腺苷脫氨酶(adenosine deaminase,ADA)等;采用強生5600 系統檢測肌鈣蛋白、肌紅蛋白(myoglobin,Mb)和肌酸激酶。使用Symex CS5100 進行D-二聚體、纖維蛋白原、凝血酶原時間等8 項凝血分析。B 型利鈉肽(B-type natriuretic peptide,BNP)、甲胎蛋白(alpha-fetoprotein,AFP)、癌胚抗原、癌胚抗原19-9(carcinoembryonic antigen 19-9,CA19-9)、癌胚抗原72-4(carcinoembryonic antigen 72-4,CA72-4)等8 項免疫及腫瘤標志物應用雅培I2000SR 檢測。采用KU-F10 檢測糞便隱血試驗。

1.4 機器學習模型構建與評價 胃癌LNM 預測模型構建與評估研究共劃分3 個步驟:(1)數據采集與清洗:對原始數據進行預處理[8],包括缺失值填充、數據歸一化和數據集切分等。數值型數據如CA72-4、CA19-9 等取均值填充,類別型數據如性別、OBT 等取眾數填充;使用Z-score 方法對數據歸一化,并將清洗后的741 名受試對象數據按3∶1的比例切分訓練集和測試集。(2)篩選重要指標數:基于原始66 個常規檢驗指標數據,利用XGBoost 算法構建訓練模型,訓練輸出指標的重要性并按照重要程度從高到低進行排序[9]。依次選取重要性排名前1 位、前2 位、…、前66 位指標數據,輪流構建XGBoost 模型并進行對比分析,采用曲線下面積(area under the curve,AUC)、準確率(accuracy,ACC)[10]和F1(F1 score,F1 值)三種綜合性指標作為評估準則,表現最優的模型選取的指標集合即重要指標集合。(3)篩選最優模型:為進一步確定適用于本研究的機器學習算法[11],構建并訓練3 種單一模型算法K 近鄰(K-Nearest Neighbor,KNN)、支持向量機(support vector machine,SVM)、多層感知器(multilayer perceptron,MLP)和2 種集成模型算法隨機森林(random forest,RF)、自適應提升(adaptive boosting,Adaboost)算法進行對比分析。

1.5 統計學方法 機器學習算法評估指標選取F1 值、ACC、敏感度、特異度、AUC、陽性預測值(positive predictive value,PPV)、陰性預測值(negative predictive value,NPV)[12];采用χ2檢驗進行統計分析,以P< 0.05 認為差異有統計學意義;計算皮爾遜相關系數,評估指標之間是否線性相關。

本研究基于Python3.7.2 及數據分析庫進行實驗分析,其中Numpy 1.19.5 和Pandas 1.1.5 用于數據預處理,Scikit-learn 0.23.2 用于機器學習算法構建,Matplotlib 3.3.2 用于數據可視化分析。上述軟件均遵循開源軟件許可協議,允許用戶自由使用、修改和分發。算法訓練和評估過程中各個模型的訓練數據與測試數據保持一致,由于數據規模限制采用5 折交叉驗證方法[13],模型參數調優采用網格搜索策略進行迭代優化[14]。

2 結果

2.1 胃癌LNM 特征變量篩選 為了從66 個指標中確定最優的指標集合,使用Xgboost 算法計算檢驗指標的重要性并進行排序,如圖1 所示。結果顯示AFP、BNP、CA72-4 等指標對胃癌LNM 預測影響顯著。

圖1 基于Xgboost 算法的指標重要性排序Fig.1 Feature importance ranking based on Xgboost algorithm

在上述指標重要性排序的基礎上,以AUC、ACC 和F1 值作為評價標準,基于重要性TOP-K 指標的構建預測模型并對比分析。模型精度曲線呈逐漸上升至穩定波動的趨勢,如圖2 所示,當特征數為前9 個時,模型達到最優最穩定的性能,其AUC、ACC 和F1 值結果為0.916、0.930 和0.948。最優指標集包括:AFP、BNP、CA72-4、CA19-9、β2-MG、CG、MB、CYSC 和PAB,稱為V9,主要分為4 類,腫瘤標志物指標3 項(AFP、CA72-4、CA19-9);生化標志物4 項(β2-MG、CG、CYSC、PAB);心肌標志物比指標1 項(Mb);心力衰竭標志物1 項(BNP)。

圖2 重要性TOP-K 指標預測模型對比Fig.2 Comparison of important TOP-K feature prediction models

2.2 機器學習模型預測胃癌LNM 效能對比 本研究使用3 種單一模型KNN、SVM、MLP 和2 種集成模型Adaboost、RF 進行訓練和驗證,并將AUC值作為胃癌LNM 預測效果的首選評估指標[16]。在單一模型中,KNN 在訓練集中表現最優,AUC 值能達到0.879,如圖3A、表2 所示;在測試集中,KNN 綜合表現最優,AUC、F1、ACC、敏感度、特異度、PPV、NPV 值分別0.813、0.823、0.763、0.690、0.797、0.606、0.850,如圖3B、表2 所示。

圖3 5 種機器學習模型訓練集評估結果及測試集評估結果Fig.3 Evaluation results of five machine learning model training sets and test sets

表2 5 種機器學習模型的訓練集與測試集的評估指標比較Tab.2 Comparison of evaluation features between the training and test sets of five machine learning models

在集成模型中,Adaboost 和RF 的訓練集結果表現均好,AUC 值均能達0.990 以上,說明模型訓練非常充分,如圖3A、表2 所示。在測試集中,Adaboost、RF的結果分別為0.968和0.960,如圖4B、表2所示。其中,Adaboost 綜合表現最好,F1、ACC、敏感度、特異度、PPV、NPV 值分別為0.926、0.903、0.887、0.911、0.833、0.942,如圖3B、表2 所示。結果顯示集成模型對胃癌LNM 預測效果顯著,其中基于Boosting 策略的Adaboost 表現出最優的預測和泛化能力。

2.3 Adaboost 模型預測胃癌LNM 驗證 本研究基于驗證集中胃癌患者術前9 項常規檢驗數據,對Adaboost 模型的穩定性和預測能力進行驗證,包括72 例LNM 患者和30 例non-LNM 患者。經過Adaboost 模型的預測和評估后,結果得到96 例患者預測正確,其預測準確率達94.12%,對臨床預測胃癌LNM 有良好的輔助判別作用,見表3。

表3 Adaboost 算法與病理金標準對比分析Tab.3 Comparative analysis of Adaboost algorithm and pathological gold standard 例

3 討論

當前胃癌LNM 的診斷主要依賴于侵入性的組織病理學檢查,本研究探討了常規檢驗指標應用于機器學習模型預測胃癌LNM 的可行性。主要技術途徑包含胃癌LNM 重要檢驗指標篩選與多種機器學習預測算法的對比擇優,通過模型構建、訓練與評估任務,對比篩選出胃癌LNM 最優預測模型。

本研究通過基于XGBoost 的指標重要性排序和重要指標篩選,從66 個實驗室指標中選出V9。其中,AFP 已被公認為用于診斷和預測癌癥預后的腫瘤標志物。羅東明等[17]利用酶聯免疫吸附試驗對94 例早期老年胃癌患者血清中的AFP 水平進行檢測,并發現其是早期預測胃癌LNM 獨立預測因素。胃癌患者在接受化療時,通常已出現胃癌LNM 的情況。李焱芳等[18]研究人員選取84 例胃癌患者,比較不同的化療方案對患者心肌造成損害,導致BNP 升高。HUANG 等[19]研究表明腫瘤大小、CA19-9 等構建的模型可有效預測術前胃癌中LNM 的發生率。GAO 等[20]使用LASSO 方法,納入影像組學特征、血清CA72-4 等構建預測模型,能準確預測LNM。顧玉花[21]對112 例胃癌患者化療前后的血清CysC、β2-MG 檢測結果進行比較,發現治療后的CysC、β2-MG 水平顯著高于治療前,提示這兩種指標可能是其腎臟早期損害的最佳標志物。胃癌LNM 可能會導致機體免疫系統失調、營養不良和代謝紊亂等狀況,這些因素可能會引起肌肉損傷和心肌損傷,從而使Mb 的水平升高。PAB 由肝細胞合成,可反映肝功能障礙,導致抗癌藥物代謝異常[22],可用來預測癌癥受試者的臨床預后是否較差。

在機器學習模型的選擇上,本研究選取3 種單一模型:KNN、SVM 和MLP,以及兩種集成模型:RF 和Adaboost 開展模型對比試驗。不同類型的算法實現機理各異,具有各自特性和優缺點。其中,KNN 是一種基于實例的學習,簡單易懂分類效果好,但計算復雜性和存儲復雜性都較高。SVM等[23]基于結構風險最小化原則,可解決高維問題,但對缺失數據敏感。MLP 能學習并模擬復雜的非線性系統,但網絡結構選擇會影響模型的性能。RF是一種基于Bagging 策略的集成學習算法,擅長處理非線性問題,但在某些噪聲較大的分類或回歸問題上會過擬合。Adaboost[24]是一種基于Boosting策略的集成學習算法,具高精度,且不易發生過擬合,但對噪聲和異常值敏感。YANG 等[25]通過基于12 種不同的機器學習算法的影像組學模型預測顱內動脈瘤破裂,包括KNN、SVM、Adaboost、RF等模型,得到集成模型結果整體優于單一模型。TANG 等[26]使用乳腺癌組織樣本,比較AdaBoost 和RF 在各種非均勻數據集上的性能,得到AdaBoost模型更加穩健,尤其是對于較大不平衡的數據集。本研究通過訓練集和測試集發現,得到集成學習算法表現優于單一模型,基于Boosting策略的Adaboost算法表現最優。另外選取了102 份獨立的患者數據進行驗證,發現該算法預測準確率可達94.12%,進一步驗證了本研究的結果。

綜上所述,本研究開發并驗證了一個基于V9指標的胃癌LNM 預測模型,該模型具有無創性、檢測成本低等特點,滿足對胃癌LNM 的高效精準預測,具備輔助臨床診斷價值。由于數據可獲取性和指標值缺失的問題,部分指標未被納入本研究,后續將進一步擴充指標和數據規模,支持預測模型的迭代訓練和模型更新從而提升泛化能力。

【Author contributions】YAN Jianliang drafted the paper,collected data,and wrote the paper according to the research ideas.XIE Zeyu provided the paper and experimental guidance.JING Rongrong conducted a critical review and experimental guidance for the knowledge content of the article,and improved the research ideas.CUI Ming clarified the research idea,provided financial support,and provided guidance for the paper.All authors read and approved the final manuscript as submitted.

【Conflict of interest】The authors declare no conflict of interest.

猜你喜歡
胃癌模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
胃癌組織中PGRN和Ki-67免疫反應性增強
P53及Ki67在胃癌中的表達及其臨床意義
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
胃癌組織中Her-2、VEGF-C的表達及意義
胃癌組織中LKB1和VEGF-C的表達及其意義
胃癌組織中VEGF和ILK的表達及意義
主站蜘蛛池模板: 亚洲精品亚洲人成在线| 一本久道热中字伊人| 狠狠色成人综合首页| 免费毛片网站在线观看| 成人精品在线观看| 夜夜操狠狠操| 欧美无遮挡国产欧美另类| 国产视频一区二区在线观看| 日韩欧美视频第一区在线观看| 国产网友愉拍精品视频| 国产一区二区精品福利| 欧美无遮挡国产欧美另类| 青草娱乐极品免费视频| 国产99视频在线| 国产精品观看视频免费完整版| 国产成人精品亚洲77美色| 国产精品熟女亚洲AV麻豆| 性视频久久| 人人爱天天做夜夜爽| 精品国产黑色丝袜高跟鞋| 国产精品自在自线免费观看| 国产成人综合欧美精品久久| 三上悠亚在线精品二区| 天天爽免费视频| 欧美高清视频一区二区三区| 夜色爽爽影院18禁妓女影院| 一级片免费网站| 国产精品久久久久无码网站| 伊在人亚洲香蕉精品播放| 久久特级毛片| 亚洲第一黄片大全| 久久精品国产电影| 国产精品短篇二区| 国产素人在线| 欧洲亚洲一区| 亚洲色图欧美一区| 日韩精品专区免费无码aⅴ| 伊人久久久久久久久久| 亚洲黄色激情网站| 国产福利在线免费观看| 国产91小视频在线观看| 亚洲精品第五页| 五月天婷婷网亚洲综合在线| 日韩av资源在线| av一区二区三区高清久久| 久久久久夜色精品波多野结衣| 国产一区二区福利| 国产欧美日韩另类| 精品成人一区二区三区电影| 制服无码网站| 久久亚洲国产最新网站| 欧美劲爆第一页| 亚洲AV人人澡人人双人| AⅤ色综合久久天堂AV色综合| 久久精品女人天堂aaa| 中文字幕在线一区二区在线| 成人久久精品一区二区三区| 国产精品视频导航| 免费高清自慰一区二区三区| а∨天堂一区中文字幕| 精品伊人久久久香线蕉| 欧美成人第一页| 免费一级毛片在线观看| 国产91无码福利在线| 91啦中文字幕| 在线精品亚洲一区二区古装| 99热这里只有成人精品国产| 亚洲高清无在码在线无弹窗| 欧美成人午夜在线全部免费| 无码免费的亚洲视频| 欧美午夜理伦三级在线观看| 在线中文字幕日韩| 一级毛片免费观看久| 美女被操黄色视频网站| 中文字幕亚洲综久久2021| 国产精品女主播| 亚洲国产精品无码AV| 国产黄在线免费观看| 自偷自拍三级全三级视频| 欧美日本在线观看| 东京热av无码电影一区二区| 日韩在线中文|