




[摘要]目的采用機器學習和深度學習的方法,構建早期胃癌的預測模型,以提高胃癌早期診斷的準確性。方法采用4 105例病人的數據集和505個變量,運用神經網絡、隨機森林、梯度提升機、CatBoost、XGBoost、K最近鄰等機器學習算法,采用加權集成學習方法整合模型優勢,構建早期胃癌的預測模型,并通過準確率、召回率、F1分數、馬修斯相關系數(MCC)、受試者工作特征(ROC)曲線下面積(AUC)評估模型的性能。結果WeightedEnsemble_L2模型為最佳模型,其AUC為0.98,準確率為0.93,MCC為0.79,F1分數為0.83,召回率為0.88。結論機器學習和深度學習是提升胃癌早期診斷準確性的有效方法。WeightedEnsemble_L2模型是高效精確的預測工具,可以為醫療決策提供重要支持。
[關鍵詞]胃腫瘤;診斷;機器學習;生物標記[中圖分類號]R735.2;R44
[文獻標志碼]A[文章編號]20965532(2025)01005405" " doi:10.11712/jms.20965532.2025.61.016[HT]
[開放科學(資源服務)標識碼(OSID)]
[網絡出版]https://link.cnki.net/urlid/37.1517.R.20250318.1511.004;2025031911:48:27
[Abstract]Objective To establish a predictive model for earlystage gastric cancer using machine learning and deep learning techniques, and to improve the accuracy of the early diagnosis of gastric cancer."Methods A dataset of 4 105 patients and 505 variables was used, and based on the machine learning algorithms such as neural networks, random forest, gradient boosting machine, CatBoost, XGBoost, and Knearest neighbor, the weighted ensemble learning method was used to integrate the advantages of various models and establish a predictive model for earlystage gastric cancer. The performance of the model was assessed by accuracy, recall rate, F1 score, Matthews correlation coefficient (MCC), and area under the receiver operating characteristic curve (AUC)."Results The WeightdEnsemble_L2 model was the best model, with an AUC of 0.98, an accuracy of 0.93, an MCC of 0.79, an F1 score of 0.83, and a recall rate of 0.88."Conclusion Machine learning and deep learning are effective methods for improving the accuracy of the early diagnosis of gastric cancer. The WeightdEnsemble_L2 model is an efficient and accurate prediction tool and can provide important support for medical decisionmaking.
胃癌是常見的惡性腫瘤,也是導致癌癥相關死亡的主要原因之一。中國的胃癌病例大多數處于局部進展期[1],早期胃癌所占的比例相對較低。與進展期和晚期胃癌相比,早期胃癌有較好的預后。有研究結果表明,中國2000—2022年胃癌1、2、3、5年生存率分別為75.4%、54.3%、53.4%和44.5%,凸顯了早期診斷對提高生存率的重要性[23]。機器學習和深度學習的快速發展為醫學研究和臨床診斷提供了新的視角和工具,為非侵入性、高效和精確的胃癌早期診斷提供了可能[46]。本研究探索機器學習和深度學習技術在胃癌早期非侵入性診斷中的應用。現將研究結果報告如下。
1資料與方法
1.1數據來源
數據來源于山東省菏澤市立醫院電子病歷系統、實驗室管理系統和病理系統,涵蓋了4 105例病人和505個變量。
1.2數據缺失值處理
采用K最近鄰(KNN)插補法和跨數據庫表填充方法填補缺失值。
1.3類別不平衡的處理
收集4 105例病人,其中胃癌病人1 071例,胃良性病病人3 034例。采用過采樣和欠采樣方法調整數據集中的類別分布。采用SMOTE_ENN混合采樣方法對數據進行預處理。
1.4研究方法與工具
1.4.1研究方法框架研究采用神經網絡(NN)、隨機森林(RF)、梯度提升機(GBM)、CatBoost、XGBoost、KNN等機器學習算法,并評估這些算法在胃癌風險預測中的潛力。內容包括模型選擇、優化、集成策略、評估驗證和特征重要性評估等步驟。研究方法框架見圖1。
1.4.2模型選擇與調參采用L1/L2正則化和Dropout技術減少過擬合。合理平衡訓練與預測的效率應對訓練時間和資源的限制。在模型集成策略中著重考慮模型的多樣性,通過不同模型的綜合應用提高預測的準確性。NN模型考慮激活函數的選擇(特別是ReLU與ELU的比較)、Dropout概率、隱藏層的大小、學習率等因素。樹模型(包括GBM、CatBoost、XGBoost)調整的焦點包括樹的數量、學習率、樹的深度以及列采樣比例。KNN模型調整鄰居數和距離權重參數。系統地應用網格搜索和隨機搜索對模型超參數進行細致的調整。
1.4.3模型集成集成學習策略選擇Bagging方法。集成模型多次采用同一基礎模型來探索模型性能的多個方面。通過實驗確定每個模型在特定數據集中的最優表現,并基于此為集成模型分配適當的權重來達到最佳的預測效果。
1.4.4模型評估與驗證采用準確率、召回率、F1分數、馬修斯相關系數(MCC)以及受試者工作特征(ROC)曲線下面積(AUC)評估模型的性能。
1.4.5模型特征重要性評估選擇加權集成模型評估模型特征的重要性。計算特征重要性的標準差和P值。使用90%置信區間(CI)進一步驗證特征的重要性。當特征的90%CI不包括0時,認為其對模型有穩定貢獻。
2結果
2.1模型參數
采用距離權重的KNN模型研究證實,在特定情況下,考慮樣本間的距離可以有效提高預測準確性。見表1。
2.2模型集成
加權集成匯集各模型的優勢,提高了預測精度。多模型融合權重分布情況:WeightedEnsemble=(LightGBM_r130_BAG_L1×0.267)+(CatBoost_r180_BAG_L1×0.234)+(LightGBM_r94_BAG_L1×0.167)+(XGBoost_r89_BAG_L1×0.167)+(NeuralNetTorch_r1_BAG_L1×0.167)。
2.3模型評價
WeightedEnsemble_L2模型在所有評價指標上都是最好的。模型評價結果見表2、圖2。
2.4模型的精確率召回率曲線
不同機器學習模型精確率召回率曲線見圖3。其中WeightedEnsemble_L2模型的AUC值最高,為0.92。
2.5臨床指標的特征重要性
胃部良性疾病史的重要性評分為4.326,位于首位。大血小板比率和血紅蛋白濃度重要性評分分別為0.709和0.682。性別、甲胎蛋白、糖類抗原199和尿液分析中的白細胞團的重要性評分較低,但90%CI不包含0。淋巴細胞百分比重要性評分為0.124,90%CI為0.100~0.149。見表3。各模型依賴的預測變量不完全相同。每個模型可能根據其算法的特點,識別出不同的指標集合。胃癌診斷預測模型的前20個重要特征對比見圖4。XGBoost、CatBoost、LightGBM共識特征重要性見表4。
3討論
本研究將深度學習和機器學習技術應用于胃癌的早期診斷,通過綜合利用實驗室及電子病理數據,開發出了預測胃癌的高精度模型。在深度學習方面,采用了具有4層隱藏層的NN模型,并選用了ELU激活函數以及0.118 9的Dropout概率作為最優配置,有效地避免了模型的過擬合,提高了預測精度。ELU激活函數能夠處理負值輸入,并產生非零輸出,有助于模型捕捉數據中的復雜非線性關系。Dropout技術增強了模型的泛化能力,使模型在不同的數據集中均表現出良好的性能。本研究嘗試構建了多種機器學習模型,包括GBM、CatBoost、XGBoost、RF和擴展樹等模型,通過調整特征選擇、學習率和樹深度等的參數,這些模型均展現出了高度的適應性和優異的預測精度。特別是CatBoost和LightGBM模型,在處理不平衡數據集時表現出了強大的能力,平衡準確率較高,對于胃癌這一發病率相對較低但死亡率較高的疾病來說尤為重要。
在模型集成方面,本研究采用了加權集成方法,根據各模型在驗證集中的表現賦予相應的權重,有效匯集了不同模型的優勢,提高了預測精度。特別是WeightedEnsemble_L2模型,在多指標上均展示出了高性能,不僅AUC值達到了0.98,準確率也高達0.93。這充分證明了多模型融合是提升機器學習性能的一種有效策略。不同模型在特征選擇上的差異也為我們提供了有價值的線索。
本研究發現,胃部良性疾病史、大血小板比率、血紅蛋白濃度等指標在多個模型中均被識別為重要特征。這些指標不僅在統計上對模型預測有顯著影響,而且在生物醫學領域也具有明確的臨床意義。
胃部良性疾病史是胃癌發病的重要風險因素之一,而血液分析中的大血小板比率和血紅蛋白濃度則可能與胃癌病人的生理狀態密切相關。本研究還發現,炎癥標志物如C反應蛋白在多個模型中均被頻繁提及,進一步揭示了炎癥在胃癌發生與進展中的重要作用。有關研究表明,腫瘤相關抗原724和CA125Ⅱ等腫瘤標志物,在胃癌病人中具有較高的陽性率,對胃癌的識別起到了重要作用[7]。纖維蛋白原和C反應蛋白分別為血液凝固因子和急性相蛋白,其高水平可能預示胃癌病人的不良預后[8]。目前的研究顯示,尿素氮(衡量腎功能)以及凝血酶原時間和活化部分凝血活酶時間(衡量血液凝固能力)在胃癌與良性胃病之間的差異不明顯[9]。多項研究表明,胃癌病人的載脂蛋白A1和血紅蛋白濃度均顯著低于健康人群[1011]。在部分胃癌病人中,甲胎蛋白水平的升高可能與肝轉移相關[12]。白細胞比例指標,包括中性粒細胞百分比和單核細胞絕對值的增加,可能預示著胃癌的不良預后[1314]。雖然目前還未觀察到大血小板比率在胃癌與良性胃病之間有顯著差異,但其升高可能預示著胃癌的不良預后[1516]。
綜上所述,本研究通過對比和分析多種深度學習和機器學習模型在胃癌診斷預測中的性能,揭示了不同算法和特征選擇對于模型性能的重要影響。
WeightedEnsemble_L2模型是一種既高效又精確的預測工具,它提高了早期診斷的精度,模型會根據各基礎模型在驗證集中的表現,動態調整其權重,確保表現較好的模型在最終預測中占據更大比重。該模型可為胃癌醫療決策提供重要支持。
[參考文獻]
[1]SEKIGUCHI M, ODA I, MATSUDA T, et al. Epidemiological trends and future perspectives of gastric cancer in eastern Asia[J]. Digestion, 2022,103(1):2228.
[2]LI H Q, ZHANG H, ZHANG H J, et al. Survival of gastric cancer in China from 2000 to 2022: a nationwide systematic review of hospitalbased studies[J]. Journal of Global Health, 2022,12: 11014.
[3]苗儒林,李子禹,季加孚.從中國胃腸腫瘤外科聯盟相關數據分析我國早期胃癌診治現狀和發展趨勢[J].中國實用外科雜志,2019,39(5):419423.
[4]ZHOU C M, HU J H, WANG Y, et al. A machine learningbased predictor for the identification of the recurrence of patients with gastric cancer after operation[J]. Scientific Reports, 2021,11(1):1571.
[5]FAN Z Y, GUO Y X, GU X R, et al. Development and validation of an artificial neural network model for noninvasive gastric cancer screening and diagnosis[J]. Scientific Reports, 2022,12(1):21795.
[6]BISWAS S, RAJAN H. Fair preprocessing: towards understanding compositional fairness of data transformers in machine learning pipeline[C]//Proceedings of the 29th ACM Joint Meeting on European Software Engineering Conference and Symposium on the Foundations of Software Engineering. Athens Greece. ACM, 2021: 2328.
[7]JIN C J, SHI W, WANG F, et al. Long noncoding RNA HULC as a novel serum biomarker for diagnosis and prognosis prediction of gastric cancer[J]. Oncotarget, 2016,7(32):5176351772.
[8]JING J X, WANG Y, XU X Q, et al. Tumor markers for diagnosis, monitoring of recurrence and prognosis in patients with upper gastrointestinal tract cancer[J]. Asian Pacific Journal of Cancer Prevention, 2014,15(23):1026710272.
[9]HE C Z, ZHANG K H, LI Q, et al. Combined use of AFP, CEA, CA125 and CAl99 improves the sensitivity for the diagnosis of gastric cancer[J]. BMC Gastroenterology, 2013,13: 87.
[10]SUN Z P, ZHANG N W. Clinical evaluation of CEA, CA199, CA724 and CA125 in gastric cancer patients with neoadjuvant chemotherapy[J]. World Journal of Surgical Oncology, 2014,12: 397.
[11]YU X F, HU F L, YAO Q, et al. Serum fibrinogen levels are positively correlated with advanced tumor stage and poor survival in patients with gastric cancer undergoing gastrectomy: a large cohort retrospective study[J]. BMC Cancer, 2016,16: 480.
[12]ZHANG Y, QIAO H X, ZHOU Y T, et al. Fibrinogenlikeprotein 1 promotes the invasion and metastasis of gastric cancer and is associated with poor prognosis[J]. Molecular Medicine Reports, 2018,18(2):14651472.
[13]KIM D K, OH S Y, KWON H C, et al. Clinical significances of preoperative serum interleukin6 and Creactive protein level in operable gastric cancer[J]. BMC Cancer, 2009,9:155.
[14]TOIYAMA Y, SHIMURA T, YASUDA H, et al. Clinical burden of Creactive protein/albumin ratio before curative surgery for patients with gastric cancer[J]. Anticancer Research, 2016,36(12):64916498.
[15]TRUDZINSKI F C, MINKO P, RAPP D, et al. Runtime and aPTT predict venous thrombosis and thromboembolism in patients on extracorporeal membrane oxygenation: a retrospective analysis[J]. Annals of Intensive Care, 2016,6(1):66.
[16]LIND S E, BOYLE M E, FISHER S, et al. Comparison of the aPTT with alternative tests for monitoring direct thrombin inhibitors in patient samples[J]. American Journal of Clinical Pathology, 2014,141(5):665674.
(本文編輯周曉彬)
[收稿日期]20240324;[修訂日期]20240408
[基金項目]山東省醫藥衛生科技發展計劃(2022YN37)
[第一作者]王淑玉(1982),女,碩士,副主任技師。
[通信作者]劉倩(1984),女,主管技師。Email:174308625@qq.com。