周昂,唐立源
中國人民解放軍東部戰區總醫院 a.采購管理科;b.醫學工程科,江蘇 南京 210000
肺癌是一種起源于肺部支氣管黏膜或腺體的惡性腫瘤,近年來,全世界范圍的發病率和死亡率均明顯增加,據統計,2020 年,我國新發肺癌病例和死亡病例分別占全球報道的36.8%和39.4%,肺癌的防治已成為我國公共衛生的一個重大問題[1-3]。經支氣管鏡活檢、縱隔鏡或胸腔穿刺術是臨床診斷肺癌最常用和最可靠的方法。然而,經支氣管鏡活檢、縱隔鏡或胸腔穿刺術在實際操作中具有很多禁忌證,且不適用于早期肺癌的診斷工作。肺癌的病因尚未明確,有研究發現,長期大量吸煙、酗酒、家族病史、工作和環境接觸等因素與肺癌的發生密切相關;肺癌患者常伴有咳痰、咳血、發燒、胸悶、聲音嘶啞、消瘦、貧血等臨床表現,且患者血清中癌胚抗原(Carcino Embryonic Antigen,CEA)、神經元特異性烯醇化酶(Neuron Specific Enolase,NSE)、胃泌素、血清鈣、血清銅、DNA 胞嘧啶核苷酸蛋白酶[DNA (cytosine-5-)-Methyltransferase 1/3A/3B,DNMT1/3A/3B]等濃度異常。此外,近年來,隨著醫療影像學的發展,包括病灶大小、密度、血管切跡等在內的肺癌患者影像學特征有助于肺癌診斷[4-8]。臨床實踐顯示,70%以上的肺癌患者確診時已處于中期,甚至晚期,錯過了最佳的治療時間,這也是造成肺癌患者死亡率高的主要原因。因此,如何精準、科學地對肺癌患者做出診斷對臨床醫學意義重大[9]。基于此,本研究旨在收集肺癌患者臨床醫學、醫學影像學、流行病學以及血液檢驗學特征,并提出一種模擬退火-遺傳算法優化隨機森林(Simulated Annealing Genetic Algorithm Optimized Random Forest Model,SAGA-RF)模型,進而構建肺癌診斷和預測模型,以期提高肺癌診斷的準確度,從而改善肺癌患者生活質量和預后。
選取2019 年1 月1 日至2022 年4 月30 日于我院呼吸內科確診的原發性肺癌患者477 例(肺癌組),以及同時期于我院呼吸內科就診的非肺癌患者477 例(良性組)為研究對象。其中肺癌組腺癌152 例、鱗癌134 例、小細胞癌51 例、大細胞癌10 例、其他未分型癌130 例。本文納入肺癌組的患者均參考《第7 版肺癌患者綜合分期評定標準》[10]進行確診和分類,分型肺癌患者包括Ⅰ期肺癌47 例、Ⅱ期肺癌89 例、Ⅰ~Ⅱ期肺癌56 例、Ⅲ期肺癌88 例、Ⅳ期肺癌41 例、Ⅲ~Ⅳ期肺癌26 例。早期肺癌患者(Ⅰ、Ⅱ和Ⅰ~Ⅱ期)、晚期肺癌患者(Ⅲ、Ⅳ和Ⅲ~Ⅳ期)占比分別為55.3%和44.7%。本研究采用回顧性分析法分析患者臨床醫學、醫學影像學、流行病學以及血液檢驗學數據,參照《體外診斷試劑臨床研究指導原則》[11]。
128 排CT 機(德國西門子),全自動生化分析儀(日本系森美康株式會社),高速離心機(上海盧湘儀離心機儀器有限公司),紫外分光光度計(美國日立科學儀器有限公司),全自動放射免疫γ 計數器(科大創新股份有限公司)。CEA/胃泌素/放射免疫分析試劑盒,NSE/鈣測定試劑盒(北京北方生物技術研究所),DNMTl/DNMT3A/DNMT3B/HDAC(武漢優爾生商貿有限公司),唾液酸標準品(美國Sigma 試劑公司)。
1.3.1 流行病學與臨床癥狀特征
本文回顧性提取患者肺癌組和良性組患者流行病學與臨床癥狀特征,臨床癥狀特征為通過患者住院期間主治醫生或住院醫師完成并提交的電子病歷中提取的特征信息,患者流行病學特征主要通過回訪形式獲得。流行病學與臨床癥狀特征主要包括:性別,年齡,身高,體重,是否大量吸煙,是否酗酒,家族病史(腫瘤方面),工作環境是否接觸砷、石棉、鉻化合物、焦炭爐、芥子氣、含鎳的雜質、氯乙烯等物質,是否咳嗽,是否咳血,是否發燒,是否胸悶,是否聲音嘶啞,病程期間是否消瘦,是否貧血等。
1.3.2 血液檢驗學特征
血液檢驗學特征可通過HIS 系統進行抓取,該類特征來源于患者入院期間的血清檢查,具體包括CEA、NSE、胃泌素、血清鈣、血清銅、DNMT1、DNMT3A、DNMT3B 蛋白酶等濃度。各指標檢查使用試劑均嚴格按照試劑盒說明進行,放射免疫特征測定前,試劑盒及相關儀器均嚴格遵守質量控制,測定血清銅時,空白值使用硝酸溶液測定。
1.3.3 醫學影像學特征
所有患者入院期間采用128 排西門子CT 機進行胸部平掃,由5 名經驗豐富的呼吸機內科醫生對患者胸部CT 圖像進行判斷,并使用專家打分法納入14 項特征值進行評分。醫學影像學特征具體包括:病灶大小、密度、邊緣情況、分葉征、空洞征、棘突征、毛刺征、胸膜凹陷征、血管切跡、胸膜浸潤、肺氣腫、氣管狹窄、胸腔積液、衛星病灶。
隨機森林(Randon Forest,RF)是建立在決策樹基礎上的綜合評分模型,通過自助法隨機采樣技術結合決策樹理論建立,即從原始訓練集N 中有放回的隨機抽取m×n 個樣本生成新的自助式訓練集,根據m×n 個樣本生成m 個獨立的決策分類樹,由此組成RF[12]。RF 數據分類結果按決策分類樹投票多少形成的分數而定。RF的主要特點是在處理高維數據時不會產生過擬合現象,在分類的同時能夠給出變量的重要性評分,依據該評分,可以篩選出對分類起重要作用的變量。RF 用于肺癌患者預測的主要步驟如下。
(1)對訓練數據集進行隨機抽取獲得訓練子集,設樣本具有K 個特征,則從整體樣本集有放回的隨機抽取n 個樣本作為決策樹的訓練集,記為Si,計算方法如公式(1)所示。
式中,Si為訓練集;Xi為第i個樣本的特征向量;Yi為第i個樣本的輸出向量;RK為具有K維特征的特征空間。
(2)隨機選取k 個特征(k<K),以最優選擇標準作為節點分裂為依據,進行二叉樹不剪枝生長,分裂節點(決策樹)以方差作為最小損失函數,表達式如公式(2)所示。
式中,err 表示決策樹的最小損失函數;Yi表示第i個樣本的實際輸出;i為決策樹對第i個樣本的預測值。
(3)生成RF,重復m次上述過程,生成m個決策樹,并由此m個決策樹組成RF。對于預測問題,RF 投票分數計算方式如公式(3)所示。
RF 模型的建立過程受限于決策樹參數的影響,決策樹個數過大會導致模型過擬合,太小則會出現欠擬合現象;最大特征數越多,RF 表現能力越強,但并不是特征越多預測結果越精確。為解決或減少決策樹個數、最大特征數個數、決策樹最大深度、最小節點葉子數、極點劃分最小樣本數等對RF 模型的影響,本文引入模擬SAGA 對RF 模型參數進行優化。模擬SA 能夠跳出局部極值,從全局出發尋求模型最優解,GA 是一種快速收斂算法,可最大程度上避免模型訓練過程中的過擬合現象。SAGA 算法優化RF 模型具體步驟如下。
(1)初始化相關參數。根據研究內容,初始化模型參數,包括輸入、輸出參數,生成初始化種群,即隨機初始化有決策樹個數、最大特征數個數、決策樹最大深度、最小節點葉子數、極點劃分最小樣本數,設置終止條件,包括最大迭代次數(Mmax)、退火截止溫度等。
(2)計算適應度函數。本文選取決策樹最小損失函數為適應度函數用來決定RF 中決策樹是否保留。計算方式如公式(4)所示。
式中,f為適應度函數。
(3)選擇、交叉、變異。選擇、交叉、變異操作是為了選擇并保留RF 中決策樹優秀的個體,根據步驟(2)中的適應度函數選擇當前優秀決策樹及其參數。本文使用輪盤賭法進行選擇操作,計算方式如公式(5)所示。
式中,pi是個體選中的概率,即為個體決策樹適應度占總森林適應度的比例;m為RF 中決策樹的個數。
交叉、變異是為了產生新的子代,按照隨機概率選擇獨立個體進行交叉、變異操作,從而產生符合要求的優秀個體。
(4)SA-GA 算法的局部更新和優化。對步驟(3)中產生的新子代與父代進行SAGA 操作,本文選擇Metropolis 準則,計算方式如公式(6)所示。
式中,df為新生成的染色體適應度與父代個體染色體適應度之差,即f=f(new)-f(old);T 為SA-GA 過程的控制參數。若P 小于隨機產生的個體,則保留子代個體,如不滿足上述條件則保留父代個體繼續進行種群中的最優檢測。
(5)判斷是否結束。若未達到循環條件,則進行步驟(1)~步驟(4),若滿足循環條件,則跳出參數優化,并將優化的參數移植到RF 模型中。
利用SPSS 24.0 隨機抽取70%的樣本作為訓練集(肺癌組334 例,良性組334 例)用于模型訓練,30%的樣本作為測試集(肺癌組143 例,良性組143 例)用于模型預測。樣本定量型特征值(血清CEA、NSE、胃泌素等)需進行歸一化處理[(特征值-特征均值)/樣本標準差],使樣本特征分布在[-1,1]之間,從而消除定量樣本數量級和單位的差異對模型訓練和預測的影響。初選患者特征集涉及臨床醫學、醫學影像學、流行病學以及血液檢驗學特征,本研究使用主成分分析法(Principal Component Analysis,PCA)對特征進行降維[13]。
本文提出多維特征融合聯合分類算法構建一種肺癌識別方法,該方法總體設計流程如圖1 所示。肺癌組、良性組患者經特征提取、特征降維及特征融合后,分別采用支持向量機(Support Vector Machine,SVM)、反向傳播(Back Propagation,BP)神經網絡、偏最小二乘判別分析(Partial Least Squares Discrimination Analysis,PLS-DA) 以及SAGA-RF 對訓練集和測試集進行訓練和測試[14-16]。采用靈敏度(Sensitivity,SEN)、特異性(Specificity,SPE)、約登指數(Youden’s Index,Yi)、準確度(Classification Accuracy,ACC)、陽性預測值(Positive Predictive Value,PPV)、陰性預測值(Negative Predictive Value,NPV)和受試者操作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under Curve,AUC)對模型進行評價,其中,設定AUC<0.5 時,無診斷意義;AUC 值為0.5~0.7,模型診斷準確度較低;AUC 為0.7~0.9,真實程度較好,AUC>0.9 時,真實程度極高;Yi=SEN+SPE-1,數值越大,表示待評價診斷方法越好[17-18]。
本研究所收集的多維特征涉及臨床醫學、醫學影像學、流行病學以及血液檢驗學,并使用PCA 對多維度特征進行降維。為尋求最優特征集,本研究設置特征數量的比例樣本量參數在[0,1]之間動態變化,并使用SVM、BP 神經網絡、PLS-DA 以及SAGA-RF 模型對降維后的特征進行訓練,見圖2,隨著樣本量取值的增大各模型訓練錯誤率逐漸降低,當樣本量取值為0.59 時,各模型訓練準確度趨于穩定,此時降維后的樣本數量為43。
將PCA 分析篩選出的年齡、性別、吸煙史、咳血、工作環境、CEA、NSE、胃泌素、血清鈣、血清銅、DNMT1、DNMT3A、DNMT3B 以及病灶大小、密度、邊緣情況等43 項指標建立SVM 模型、BP 神經網絡模型、PLS-DA 模型以及SAGA-RF 模型。隨機抽取70%的肺癌組和良性組對4 種模型進行訓練,并使用訓練后的4種模型對測試集進行預測,結果如表1 所示,SVM 模型、BP 神經網絡模型、PLS-DA 模型以及SAGA-RF 模型對測試集預測準確度分別為88.46%、86.01%、79.02%和91.26%。

表1 多特征融合的各模型識別結果
以臨床醫學、醫學影像學、流行病學以及血液檢驗學融合的特征集依次建立SVM 模型、BP 神經網絡模型、PLS-DA 模型以及SAGA-RF 模型,4 種模型對肺癌和非肺癌診斷ACC 分別為88.46%、86.01%、79.02%、91.26%,對應的SEN、特異性和Yi 評判結果一致,即SAGA-RF>SVM>BP>PLS-DA,SAGA-RF 模型PPV 和NPV 分別為89.33%和93.38%,均優于SVM 模型、BP神經網絡模型以及PLS-DA 模型。SVM 模型、BP 神經網絡模型對肺癌的診斷效能較高(AUC 值為0.7~0.9),SAGA-RF 模型對肺癌診斷效能極高,AUC 值為0.91(95%CI:0.88~0.95),PLS-DA 模型對肺癌診斷效能較差,AUC 值為0.67(95%CI:0.61~0.73),見表2、圖3。

表2 4種模型的效果評估

圖3 4種模型的ROC曲線
研究發現,Ⅲ期肺癌患者5 年生存率不足15%,而Ⅳ期僅有1%,早發現、早治療是臨床公認的提升肺癌患者5 年生存率的方法[19]。由于肺癌的臨床癥狀具有非特異性,導致肺癌的發現和診斷被延誤,據統計,我國肺癌患者出現放射學改變或第1 次肺癌癥狀到確診平均延遲2.9~8.4 個月,延遲診斷是肺癌死亡率居高不下的主要原因之一[20-21]。
近年來,越來越多的生物醫學、臨床醫學學者將機器學習和模式識別技術應用于癌癥的診斷和預測中,同時也取得了一定的研究成果。例如,Lee 等[22]使用PET-CT 影像學特征設計機器學習分類模型,用于鑒別肺鱗癌和肺腺癌,該模型使用基尼系數法將影像學數據的特征集降維到9 個特征,建立RF、神經網絡模型、貝葉斯分類器、邏輯回歸以及SVM 模型,并使用降維后的特征向量集對各模型進行訓練和測試,結果顯示,5 種模型AUC 分別為79%、85%、76%、86%和77%。Chaudhuri 等[23]設計一種基于血漿中肺癌可能性的機器學習模型,模型使用血漿分子靶向測序、深度測序以及單核苷酸變體等進行訓練,并將該模型應用于早期非小細胞肺癌的診斷,診斷靈敏度和特異性分別為63%和80%。張浣青等[24]使用改進的卷積神經網絡技術對患者CT 圖像結節良惡性進行研究,該研究在VGGNet 網絡模型結構的基礎上增加了降維、除噪等操作,使用卷積層代替全連接層,并增加線性變化,改進后的卷積神經網絡模型的準確度、敏感度、特異性分別達到90.51%、90.57%、90.38%。
本研究結果表明,SAGA-RF 模型對肺癌的診斷靈敏度、特異性以及準確度分別可達93.71%、88.81%以及91.26%,陽性預測值和陰性預測值分別可達到89.33%以及93.38%,AUC 值為0.91(95%CI:0.88~0.95),說明基于多特征融合技術結合SAGA-RF 模型能夠對肺癌的診斷提供幫助。
在大數據時代,由于大量、復雜的臨床數據產生,多維度特征的提取與融合對疾病的認識和診斷意義重大。本研究將多維特征融合與SAGA-RF 方法結合,使用臨床醫學、醫學影像學、流行病學以及血液檢驗學特征對肺癌進行診斷,不僅可提高肺癌診斷的準確度,同時也可提高模型診斷的特異性和靈敏度,驗證了聯合模型的有效性和可用性。本研究結果為肺癌的臨床診斷模式以及肺癌早期篩查提供了新的思路。