[中圖分類號] R737.33;R730.4 [文獻標志碼] A
Establishment and assessment an early screening model for cervical cancer based on single-cell Raman spectroscopy combined with machine learning algorithmsMA Dongmei, ZHAO Wenjie, LIU Shihai , XU Haicang,CAI Duo,JI Yuetong,XU Jian,GUO Cancan,MA Bo,PAN Huazheng( , University, 266oo3,China)
[ABSTRACT]ObjectiveTo establish an early screning model forcervical cancer based on single-cellRaman spectroscopy (SCRS)combined with machine learningalgorithms,and toasess theperformance themodel.MethodsCervical exfoliated cellsamples werecolectedfrom128patients who weretreatedinourhospitalfromSeptember2023 toJune2024,among whom65 had normalresultsThinPrepcytologic test(TCT),35hadabnormal TCTresults,and 28did notreceiveTCT.Rlanguage was used to divide the 10O cervical exfoliated cellsamples with TCT results into training set and test set at a ratio 8:2 ,and SCRS was performedforallsamples.BasedontheSCRSdata therainingset,7 machinelearning algorithms(KNN,PLS,LDA,RF, SVM,SVMRBF,and Stack)wereused toestablishanearlyscrening modelforcervicalcancer,whichwasappliedinthe testset toidentifytheoptimalmodel.optimalmodelwasthenusedtopredicttheTCTresults1Ocervicalexfoliatedcellsamples in thetraining and testsets,whichwerecomparedwiththeactualTCTresults.remaining 28 samples without priorTCTresults wereusedasavalidationsetand weresubjectedtoTCT,nd theoptimalmodelwasusedtopredict theTCTresultsthesesamples,whichwerecompared withtheactualTCTresults.Resultsre weresignificantdiferencesintherelativeintensities characteristic Raman peaks at 874,935,1 024,1 119,1 250,1 328,1 569,and 1642cm-1 between the cervical exfoliated cells negativeforintraepitheliallesionormalignancy,atypicalsquamouscellsundeterminedsignificane,andthecervicalexfoliated celslow-gradesquamous intraepitheliallesion.Amongthe7algorithms,thestacking modelshowedthebestperformance,with anAUC O.987,anaccuracy 99.2% ,asensitivity 98.9% ,and a specificity 99.3% .In both training and test sets,the results predicted bythe Stack model were relativelyhighly consistentwithactual TCT results, with an accuracy 91.0% ,a sensitivity 91.0% ,a specificity 87.4% ,and an Fl-score 90.3% .In the validation set,the Stack model achieved an accuracy 96.4% ,a sensitivity 100‰ ,a specificity 95.5% ,and an F1-score 92.3% in predicting TCT results.Conclusion early screening modelforcervicalcancerbasedonSCRSand machinelearning algorithms hasagoodperformanceandcanbeusedasa noninvasive,efficient,and rapid tool to facilitate the early screening cervical cancer.
[KEY WORDs]Uterine cervical neoplasms;Single-cell analysis;Spectrum analysis,Raman;Machine learning;Algo rithms;Early detection cancer
宮頸癌是生殖系統常見腫瘤,在全球女性罹患的腫瘤中居第二位,其發病率和病死率逐年上升,嚴重威脅女性健康[1]。目前宮頸癌的臨床篩查主要依賴液基薄層細胞學檢測(TCT)以及人乳頭瘤病毒(HPV)檢測,確診仍需依靠宮頸活檢,這一過程存在假陽性率高、主觀性強、有創且檢測周期較長等局限性。因此目前臨床亟需探索一種快速非侵入性的宮頸癌早期精準篩查方法。拉曼光譜檢測是一種基于光與物質相互作用的無損分析技術,通過測量分子散射光的頻移信息識別樣本的化學組成和分子結構。拉曼光譜檢測過程無需染色或破壞細胞結構,可保留樣本完整狀態,便于后續復檢或多組學聯合分析,在腫瘤精準診斷、神經系統疾病篩查及病原體鑒別等領域具有無損、快速等優勢[3]。拉曼光譜對核酸、蛋白質二級結構及脂質氧化等生物大分子異常信號的捕捉具有極高的靈敏度,能夠反映細胞從正常向癌變的早期轉變過程[4]。而宮頸癌在早期病變階段,宮頸脫落細胞核內DNA含量增加,磷酸鹽骨架的拉曼峰增強,同時蛋白質中酪氨酸和色氨酸的拉曼信號發生明顯漂移[5]。目前已有研究將單細胞拉曼光譜(SCRS)檢測結合機器學習算法用于肝癌、腎癌以及宮頸癌等患者的血液及病理組織樣本檢測,以實現腫瘤的早期篩查。本研究利用微流控芯片采集宮頸脫落細胞樣本的SCRS,構建基于SCRS和機器學習算法的TCT結果預測模型,嘗試提出一種高效、無創、精準的宮頸癌早期篩查方法,現將結果報告如下。
1資料與方法
1.1 一般資料
收集我院2023年9月—2024年6月間的100例患者的宮頸脫落細胞樣本。納人標準: ① 完成了TCT檢測,包括依據《貝塞斯達(TBS)報告系統(2014版)》判定的TCT結果正常[未見上皮內病變或惡性病變(NILM)]和TCT結果異常[無明確診斷意義的非典型鱗狀細胞(ASC-US)、低度鱗狀上皮內病變(LSIL)、高度鱗狀上皮內病變(HSIL)、鱗狀上皮癌(SCC)或腺癌(ADCA)]; ② 標本采集已獲得患者和(或)家屬的知情同意。排除標準: ① 同時合并其他系統惡性腫瘤者; ② 各種原因無法獲取滿意拉曼光譜者。采用R語言將100例患者的宮頸脫落細胞樣本按照 8:2 比例隨機分為訓練集和測試集,用于宮頸癌早期篩查模型的構建。同時收集我院同期28例未行TCT患者的宮頸脫落細胞樣本,納入標準及排除標準除未行TCT外均與上述相同,將該樣本作為驗證集,用于宮頸癌篩查模型的效能評估。
1.2患者宮頸脫落細胞樣本的SCRS數據采集以及處理
采用微流控芯片進行宮頸脫落細胞的SCRS采集[8],將打孔石英玻璃與聚二甲基硅氧烷微通道層兩端對準,與薄石英玻璃鍵合,置于 70°C 烘箱過夜,完成微流控芯片的制備(圖1)。將128例待測宮頸脫落細胞樣本分別顛倒混勻,每例分別取 100μL 轉移至 1.5mL 離心管,加人 900μL PBS緩沖液和0.2μL10% 的PF127溶液稀釋,并使用 1mL 注射器轉移到微流控芯片。使用SCRS分選儀(RACS-SEQ)檢測上述宮頸脫落細胞樣本的SCRS。使用Labspec5軟件去除樣本SCRS中的宇宙射線,并使用R4.4.3軟件對SCRS進行可視化及平滑、基線校正、歸一化處理,使用Origin(2021)軟件生成上述樣本的SCRS及特征峰。
1.3宮頸癌早期篩查模型的構建及效能評估
在R4.4.3軟件中,采用上述1.2當中的訓練集SCRS數據建立基于KNN、PLS、LDA、RF、SVM、SVMRBF、Stack七種機器學習算法9的宮頸癌早期篩查模型,采用caret軟件包結合重復交叉驗證對模型進行訓練和超參數優化。將上述構建的七種模型應用于測試集,并繪制七種模型的受試者工作特征(ROC)曲線,通過混淆矩陣計算曲線下面積(AUC)、準確率、靈敏度、特異度等指標,以評估七種模型的篩查效能并確定最優模型。采用最優模型預測訓練集和測試集中100例宮頸脫落細胞樣本的TCT結果,并與實際結果進行對比,計算最優模型的準確率、靈敏度、特異度與F1分數,以評估該模型的預測效能。
1.4宮頸癌早期篩查模型的驗證
使用1.3中確定的最優宮頸癌早期篩查模型,預測驗證集28例宮頸脫落細胞樣本的TCT結果,并與實際結果進行對比,以判定模型在驗證集中的預測效能。
2結果
2.1訓練集和測試集宮頸脫落細胞樣本的平均SCRS及拉曼特征峰
訓練集及測試集的100例宮頸脫落細胞樣本共生成了28632條SCRS,100例宮頸脫落細胞樣本中,65例TCT結果為正常(NILM),35例TCT的結果為異常(23例ASC-US,12例LSIL)。NILM、ASC-US、LSIL的宮頸脫落細胞在拉曼光譜的874、935,1 024,1 119,1 250,1 328,1 569,1 642cm-1 處特征峰的相對強度存在差異。見圖2。
2.2宮頸癌早期篩查模型的優選及效能評估
ROC曲線結果顯示,七種模型中Stack模型在測試集中的準確率、靈敏度、特異度、AUC分別為99.2%.98.9%.99.3%.0.987 ,其篩查效能最優。見圖3和表1。采用最優模型(即Stack模型)對訓練集以及測試集的宮頸脫落細胞樣本TCT結果進行預測,結果顯示65例TCT結果為NILM的樣本中,模型正確識別62例,其他3例識別為ASC-US;23例ASC-US樣本當中,模型正確識別19例,其他4例識別為NILM;12例LSIL樣本當中,模型正確識別10例,其他2例識別為ASC-US。經計算Stack模型的準確率、靈敏度、特異度、F1分數分別為 91.0%.91.0%.87.4%.90.3% ,其篩查結果與實際TCT結果具有較高一致性。
2.3宮頸癌早期篩查模型的驗證
采用Stack模型預測驗證集28例宮頸脫落細胞樣本的TCT結果,驗證集28例樣本中,實測22例為NILM,其中Stack模型正確識別21例,1例誤識別為ASC-US;實測6例為ASC-US,其中Stack模型全部正確識別。ROC曲線結果顯示,Stack模型在驗證集中的AUC、準確率、靈敏度、特異度、F1分數分別為 0.977、96、4%100.0%.95.5%.92.3%. 其篩查結果同樣與實際TCT結果具有較高一致性。見圖4。
3討論
SCRS因無需對檢測樣本進行標記、染色等預處理,能夠以直接、非破壞性的方式分析細胞的分子組成和結構變化,在許多疾病的快速篩查及診斷方面具有巨大潛力[10]。機器學習算法能夠通過特征提取、參數優化、模型構建、數據預測等方式提升疾病早期篩查的準確率[11]。目前,SCRS結合機器學習算法已經成功應用于乳腺癌、膀胱癌、肝癌、宮頸癌等惡性腫瘤的快速篩查[5,12-14]。ZHANG等[15]發現SCRS結合airPLS-PLS-KNN算法區分宮頸腺癌、鱗癌的準確率為 96.3% 。WANG等[16]則使用共聚焦拉曼光譜儀檢測宮頸組織的拉曼光譜,結合SVM模型對宮頸炎、宮頸癌前病變及宮頸癌進行分類,其準確率可達 85.7% 。目前基于宮頸脫落細胞的SCRS結果,采用機器學習算法進行宮頸癌早期篩查的研究較少,因此本研究基于SCRS建模并檢驗模型的篩查效能,以求為宮頸癌的早期篩查提供高效、無創的新方案。
LIU等[17]通過檢測宮頸組織病理切片的拉曼光譜,揭示了與宮頸癌癌前病變及癌癥相關潛在生化變化可能是由宮頸組織中糖原減少和核酸增加引起的。TRAYNOR等[18]研究發現,宮頸脫落細胞在拉曼光譜 784.1 092.1 466 和 1669cm-1 處特征峰強度的變化與惡性腫瘤發生發展過程中核酸、蛋白質、脂質等物質的積累及代謝增強有關,這些生化物質變化反映了腫瘤細胞加速生長與增殖的生理特征。本研究中,NILM、ASC-US、LSIL宮頸脫落細胞在拉曼光譜 874,935,1 024,1 119,1 250,1 328, 1569.1642cm-1 處特征峰強度存在差異,代表細胞中的膠原蛋白、蛋白質、羥脯氨酸、脯氨酸、氨酸、色氨酸、糖原、脂質、羧基及細胞核中的AmideⅢ、酰胺I帶、DNA/RNA、鳥嘌呤、胞嘧啶等多種生物化學成分在數量或結構上存在差異[12,15,19-20],正常的宮頸脫落細胞當中糖原、氨基酸含量更高,而異常的宮頸脫落細胞當中脂質含量有所增加。這一現象與腫瘤代謝異常特征(例如Warburg效應、脂肪酸合成增強等)高度吻合,反映了宮頸脫落細胞從正常向癌變的轉變過程可能與惡性腫瘤轉錄組代謝有關[21]
機器學習在大量SCRS數據的處理中發揮著關鍵作用,在癌癥篩查及診斷領域,傳統機器學習模型和深度學習模型均有廣泛應用[22-24]。PCA、LDA、PLS-DA等機器學習算法與SCRS結合用于數據的降維以及分類,可以有效地提高模型診斷的準確性[25]。TRAYNOR等[18]基于宮頸脫落細胞核的SCRS并采用PLS-DA算法構建模型,該模型在宮頸癌癌前病變的分類中準確率達到 91.3% ,其結果證明拉曼光譜可捕捉宮頸癌發生發展過程中宮頸脫落細胞的潛在生化差異,從而為宮頸癌癌前病變的無創篩查提供技術支撐。本研究中Stack模型在對訓練集、測試集及驗證集128例宮頸脫落細胞樣本的TCT結果判別中性能優良。該模型在測試集中的準確率、靈敏度、特異度、AUC分別為 99.2% !98.9%.99.3%.0.987 ,均優于其他六種模型。在驗證集中,該模型準確率和靈敏度分別為 96.4% 和100.0% ,無一例ASC-US漏判,提示模型在NILM、ASC-US、LSIL分類方面較為可靠;模型的特異度和F1分數分別為 95.5% 和 92.3% ,F1分數結合模型分類的特異度和靈敏度,進一步表明該模型在準確預測宮頸脫落細胞TCT結果的同時,有效降低了誤判、漏判的風險。因此,Stack模型在復雜數據環境下具有更強的泛化能力和穩定性,該模型在臨床上具有較高應用潛力。
與TCT、HPV檢測、宮頸活檢等傳統檢測技術相比,Stack模型由機器學習算法處理大數據光譜信息,顯著減少了人為干預和主觀誤差,具有高通量、智能化和高精度的優勢,且大量減少了檢測者的工作量,為宮頸癌的大規模篩查提供了新方法。但本研究為單中心、小樣本量研究,可能存在一定的樣本偏倚,并且僅納入TCT結果為NILM、ASC-US、LSIL的樣本建模,限制了模型的泛化能力。今后需進一步完善多中心、大樣本研究,以提高該模型的普適性和可靠性。
綜上所述,本研究基于宮頸脫落細胞的SCRS,結合機器學習算法,成功開發出一種高效、快速、精準的宮頸癌早期篩查模型,為宮頸癌的早期篩查提供了新思路。
倫理批準和知情同意:本研究涉及的所有試驗均已通過青島大學附屬醫院醫學倫理委員會的審核批準(文件號QYFYWZLL29407)。所有試驗過程均遵照《人體醫學研究的倫理準則》的條例進行。受試對象或其親屬已經簽署知情同意書。
作者聲明:潘華政、馬波、劉世海、徐健、馬東梅參與了研究設計;馬東梅、趙文婕、徐海滄、蔡鐸、籍月彤、郭燦燦參與了論文的寫作和修改。所有作者均閱讀并同意發表該論文,且均聲明不存在利益沖突。
[參考文獻]
[1]BRAY F,LAVERSANNE M, SUNG H,et al. Global cancer statistics 2022: GLOBOCAN estimates incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA Cancer J Clin,2024,74(3):229-263.
[2]ARBYN M, SIMON M, DE SANJOSE S, et al. Accuracy and effectiveness HPV mRNA testing in cervical cancer screening:A systematic review and meta-analysis[J]. Lancet Oncol,2022,23(7) :950-960.
[3]YANG W,KNORR F,LATKA I,et al. Real-time molecular imaging near-surface tissue using Raman spectroscopy[J]. Light Sci Appl, 2022,11(1) :90.
[4]MASSON L E, O'BRIEN C M, GAUTAM R,et al. In vivo Raman spectroscopy monitors cervical change during labor[J]. Am JObstet Gynecol,2022,227(2):275.e1-275.e14.
[5]LIU C Y, XIU C F, ZOU Y F, et al. Cervical cancer diagnosis model using spontaneous Raman and Coherent anti-Stokes Raman spectroscopy with artificial intelligence[J]. Spectrochim Acta A Mol Biomol Spectrosc,2025,327:125353.
[6]KANG Z P,LIUJ,MA CL,et al. Early screening cervical cancer based on tissue Raman spectroscopy combined with deep learning algorithms[J]. Photodiagnosis Photodyn r, 2023,42:103557.
[7]PANGARKAR M A. Bethesda System for reporting cervical cytology[J]. Cytojournal, 2022,19:28.
[8]DIAO Z D,JING X Y,HOU X B,et al. Artificial intelligence-assisted automatic Raman-activated cell sorting (AIRACS) system for mining specific functional microorganisms in the microbiome[J].Anal Chem,2024,96(46):18416- 18426.
[9]HSU C C,XU JB,BRINKHOF B,et al. A single-cell Raman-based platform to identify developmental stages human pluripotent stem cell-derived neurons[J]. Proc Natl Acad Sci USA,2020,117(31) :18412-18423.
[10]WU L, DIAS A, DIEGUEZ L. Surface enhanced Raman spectroscopy for tumor nucleic acid: Towards cancer diagnosis and precision medicine[J]. Biosens Bioelectron,2022,204:114075.
[11]XIOURAS C,CAMELI F,QUILLO G L,et al. Applications artificial intelligence and machine learning algorithms to crystallization[J]. Chem Rev,2022,122(15):13006-13042.
[12] ZHANG L H,LI C J,PENG D,et al. Raman spectroscopy and machine learning for the classification breast cancers[J]. Spectrochim Acta A Mol Biomol Spectrosc,2022,264:120300.
[13]LEE S,JUE M,LEE K,et al. Early-stage diagnosis blad
der cancer using surface-enhanced Raman spectroscopy combinedwith machine learningalgorithmsin a rat model[J].Biosens Bioelectron,zUZ4,Z4b:115915.
[14]OU QH,JIANG L Q,DOU Y F,et al. Application sur face-enhanced Raman spectroscopy to human serum for diagnosing liver cancer[J]. Spectrochim Acta A Mol Biomol Spec trosc,2024,308:123702.
[15] ZHANG H T,CHENG C,GAO R,et al. Rapid identification cervical adenocarcinoma and cervical squamous cell carcinoma tissue based on Raman spectroscopy combined with multi ple machine learning algorithms[J]. Photodiagnosis Photodyn r,2021,33:102104.
[16] WANG J, ZHENG C X, MA C L, et al. Raman spectroscopic study cervical precancerous lesions and cervical cancer[J]. Lasers Med Sci,2021,36(9) :1855-1864.
[17]LIU Y,CHEN C,XIE XD,et al. For cervical cancer diagnosis: Tissue Raman spectroscopy and multi-level feature fusion with SENet attention mechanism[J]. Spectrochim Acta A Mol Biomol Spectrosc,2023,303:123147.
[18] TRAYNOR D,DURAIPANDIAN S,BHATIA R,et al. Development and validation a Raman spectroscopic classification model for cervical intraepithelial neoplasia(CIN)[J]. Cancers(Basel),2022,14(7):1836.
[19] MOVASAGHI Z,REHMAN S,REHMAN D I U. Raman spectroscopy biological tissues[J]. Appl Spectrosc Rev, 2007,42(5):493-541.
[20] SHENG H, CHEN L W, ZHAO Y P,et al. Closed,one-stop intellgent and accurate particle characterization based on micro-Raman spectroscopy and digital micrluidics[J]. Talanta, 2024,266(Pt 1) :124895.
[21] SHARAHA U,HANIA D,LAPIDOT I,et al. Early detection pre-cancerous and cancerous cells using Raman spectroscopy-based machine learning[J]. Cels, 2023,12(14): 1909.
[22] SONG L,XUE F,LI T M,et al. Differential diagnosis urinary cancers by surface-enhanced Raman spectroscopy and machine learning[J].Anal Chem,2025,97(1):27-32.
[23] GAO L L,WU S Y,WONGWASURATTHAKUL P, et al. Label-free surface-enhanced Raman spectroscopy with machine learning for the diagnosis thyroid cancer by using fine-needle aspiration liquid samples[J]. Biosensors (Basel), 2024,14(8) :372.
[24] CHEN B Q,GAO J Y,SUN H Z,et al. Surface-Enhanced Raman Scattering(SERS) combined with machine learning enables accurate diagnosis cervical cancer: From molecule to cell to tissue level[J].Crit Rev Oncol Hematol,2025,211: 104736.
[25]BERGHOLT M S, ZHENG W,LIN K,et al. Characterizing variability in vivo Raman spectroscopic properties different anatomical sites normal colorectal tissue towards cancer diagnosis at colonoscopy[J]. Anal Chem,2015,87(2): 960- 966. (本文編輯范睿心厲建強)
[收稿日期]2025-02-21;[修訂日期]2025-05-27
[基金項目]國家自然科學基金項目(32400075);山東省自然科學基金項目(ZR2020MH318,ZR2021MH022,ZR2023QF-109);青島市博士后申請工程(QDBSH20230101024);青島市科技惠民示范專項項目(23-2-8-smjk-3-nsh)
[通信作者]潘華政,Email:panhuazheng@qduhospital.cn;馬東梅和趙文婕為共同第一作者