徐存來,曹 卓,,尹章勇 ,陳 璇 ,李雨玲 ,龔易莎 ,蔣奕薇 ,潘炯偉
(1.麗水市人民醫院 呼吸與危重癥科,浙江 麗水 323000;2.溫州醫科大學 第一臨床醫學院,浙江 溫州 325035)
癌癥篩查的目的就是盡量在沒有任何癥狀的情況下,通過各類檢測手段,包括但不限于血液學檢查和影像學檢查,來發現潛在的腫瘤或疾病。如何準確地發現早期肺癌并進行干預是預防肺癌主要的任務之一。與胸部X線相比,低劑量計算機斷層掃描可以將肺癌死亡率降低20%以上[1]。然而,每天用肉眼篩選大量CT圖像對于放射科醫師來說是巨大的壓力,且單純的影像學篩查早期肺癌準確性和特異性仍需提高[1]。近年來發展起來的人工智能信息挖掘技術,在解決大量數據帶來的多參數統計分析問題上具有獨到的優勢,因此,利用掌握的涉及不同機制的分子生物標志,同時聯合影像學數據建立的數據分類模型,將對提高肺癌的早期判別準確率有巨大的促進作用。為此,本文擬以基于靶掃描的3D卷積神經網絡(3D-CNN)技術聯合基因檢測建立模型并運用于早期肺癌篩查。
1.1 一般資料 本研究為前瞻性巢式病例對照研究。選取2017年12月—2020年12月經麗水市人民醫院府前院區呼吸與危重癥科因“肺結節”入院患者作為研究隊列,收集其基線數據、外周血及CT影像學,并隨訪90天。隊列中經手術病理活檢確診的Ⅰ/Ⅱ期非小細胞肺癌患者80例作為肺癌組,術前未經任何抗癌治療、無職業致癌物接觸史。選取隊列中和病例組同一個月在我科經手術病理活檢確診為感染性病變且無腫瘤病史的肺結節患者80例作為良性組。兩組的年齡、性別差異無統計學意義(P>0.05),本研究方案經醫院倫理學委員會批準,研究對象均知情同意。
1.2 DNA提取及甲基化檢測 所有研究對象均入組次日抽取空腹外周靜脈血樣本2 mL,置于4 ℃保存不超過1周,在新鮮狀態下提取DNA備用,選擇受試者外周血中pl6、RASSFIA基因啟動子區甲基化水平作為觀察指標,嚴格按照說明書操作。主要試劑:DNA提取試劑盒(TIANamp),人類DNA甲基化試劑盒(Zymo Research),人類基因組甲基化p16和RASSF1A基因檢測試劑盒(上海透景)。p16基因:上游引物 5′-GAAGAAAGAGGAGGGGCTG-3′,下游引物 5′-GCGCTACCTGATTCCAATTC-3′;RASSF1A基因:上游引物5′-GGGTTTTGCGAGAGCGCG-3′,下游引物 5′-GCTAACAAACGCGAACCG-3′。基因擴增條件:Taq 酶0.5 μL,模板DNA 2.5 ng,上游引物(20 μmol/L)1 μL,下游引物(20 μmol/L)1 μL,GC buffer125 μL,dNTP(含Mg2+)8 μL,滅菌蒸餾水加至50 μL。PCR反應條件:95 ℃熱啟動15 min;95 ℃30 s,62 ℃30 s,72 ℃30 s,共35個循環;最后72 ℃8 min。
1.3 影像學處理 所有入組對象進行常規的低劑量CT掃描,加上我院的人工智能系統(飛圖智能軟件),發現肺部結節后進行靶掃描+二三維度重建,靶掃描采用較高劑量進行掃描(120 kV,408 mA),且針對病灶部位進行掃描,執行ROI重建并且圖像重建大小為1 024×1 024,層厚為1 mm,層數為56層。參與的讀片醫師均為高年資醫師,由3人以上一起讀片。
1.4 Fisher判別分析 Fisher判別分析模型的基本思想是先投影后判別。投影是指將原來的P維(X空間)的輸入變量投影到K維(Y空間)上。本文按3∶1的比例將數據隨機分成訓練集和預測集兩組,在SPSS Modeler 18.0中實現。
1.5 C5.0決策樹模型 決策樹最上面的節點是根節點,從上到下每個節點都會遇到一次測試,不同的測試結果會輸出不同的分支。其在SPSS Modeler 18.0中實現對整理好的數據建立預測模型。
1.6 3D-CNN方法 以患者靶掃描的圖像作為數據來源,由3名高年資影像醫師進行標注,選擇最能夠體現肺結節特征的3層圖像。針對每一個具有金標準的病灶,用矩形框標注出病灶的每一層結構。其中,肺癌設置標簽為1,肺良性病變設置標簽為2。160例數據里面總共標注了80個肺癌結節和80個肺良性病變結節。本課題組按5∶3的比例將數據隨機分成訓練集和預測集兩組,在SPSS Modeler 18.0中實現。研究采用神經網絡算法,在SPSS Modeler 18.0軟件中參數如下:使用分割數據=否;方法=Quick;避免過度訓練=50%;設置隨機種子數=否;按條件停止=Times1 min;優化=memory;繼續訓練存在的模型=否;使用二進制元集合編碼=是;顯示反饋圖=是。
1.7 統計學方法 應用SPSS 21.0軟件處理數據。2組pl6和RASSFIA基因甲基化比較采用Z檢驗,基于靶掃描的3D-CNN網絡模型分類結果采用直接卡方檢驗。設定的檢驗水準為0.05。
2.1 甲基化檢測 肺癌組外周血pl6、RASSFIA基因啟動子甲基化水平均高于良性組,差異有統計學意義(P<0.05),見表1。

表1 外周血肺癌組和良性組pl6和RASSFIA基因甲基化比較
2.2 基于靶掃描的3D-CNN網絡模型分類 采用3D-CNN網絡模型后,預測集分類準確率(83.33%)比訓練集(72.00%)提高,但二者差異無統計學意義(χ2=0.602,P=0.438)。
2.3 預測模型的診斷效果 從Fisher、決策樹、3D-CNN模型對預測集的診斷結果中可見,3D-CNN模式的診斷靈敏度(79.52%)、特異度(89.24%)、準確度(85.14%)均最高。見表2。

表2 三種預測模型對預測集的診斷結果
3D-CNN模型在醫學領域的運用仍以科學研究為主,尤以結腸癌領域最為多見。Hildebrand等[2]開發了一種基于無癥狀的癌癥篩查方法:通過血液學檢查、年齡和性別等特征,基于GBDT和隨機森林算法來鑒定受試者是否具有結腸直腸癌的風險,其模型檢測結腸直腸癌的AUC達到0.82。Zhou等[3]使用多層3D-CNN用于肺結節檢測可使診斷模型假陽性減少,所提出的算法在LUNA比賽中獲獎[4-5]。本次研究采用肺癌組及良性組訓練集,訓練基于靶掃描的3D-CNN網絡模型后,其分類準確率較前提高、誤分率減少。但經卡方檢驗,訓練集及預測集準確率差異無統計學意義,可能與本研究訓練集及預測集樣本量過少有關,該模型預測集僅為單中心60人次,還需要多中心大樣本的研究加強對模型的訓練。
另一方面,國外有學者在3 000例受試者的痰液中發現其中6個基因(p16、MGMT、DAPK、 RASSFIA、 PAX513及GATA5)與早期肺癌的風險增高有關[6]。本次研究發現肺癌組和良性組外周血pl6、 RASSFIA基因啟動子甲基化水平有顯著性差異,證實了上述觀點。
然而,由于早期肺癌的發生發展極其復雜,近年來發展起來的多腫瘤標志聯合檢測也存在相互作用等難以解決的統計學問題[7]。結直腸癌領域的拓荒者和實踐者鄭樹教授[8]將神經網絡聯合多種腫瘤標志物用于鑒別消化道惡性腫瘤,建立的人工智能消化道腫瘤模型能較好地鑒別肝癌、腸癌和胃癌等消化道腫瘤。本文在我院小樣本研究中利用p16和RASSFIA兩種基因組合及受試者影像學特征建立了基于Fisher判別及決策樹及3D-CNN等三種模型的早期肺結節智能診斷模型,其中3D-CNN模型對早期肺癌及肺良性疾病的判別敏感性及特異性較高(分別為79.52%和89.24%)。
綜上所述,本研究從肺癌遺傳易感標志和早期效應標志2個方面為切入點,篩選了p16和RASSFIA基因甲基化水平以及應用數據挖掘技術中的3D人工神經網絡檢測初步構建了肺癌-肺良性疾病輔助診斷模型,為高危人群的篩查和臨床肺癌的早期診斷提供有價值的參考資料,對于提高肺惡性腫瘤患者總體的生存率有積極的意義。但該模型預測集僅為單中心60人次,還需要多中心大樣本的研究,且未進行全基因組測序明確甲基化結果,有待進一步研究加以證實。