郭藝賢,張利軍,黃銀銀,姚秀忠,4,曾蒙蘇,4,黃健峰,4
1.中山大學附屬第一醫院 超聲科,廣東 廣州 510080;2.復旦大學附屬中山醫院 放射科,上海 200032;3.中國人民解放軍海軍特色醫學中心 婦產科,上海 200000;4.上海市影像醫學研究所,上海 200032
CT檢查已廣泛應用于肺癌的檢查、評估及術后隨訪等,但在臨床工作中,放射醫師通過肉眼識別、讀取的信息十分有限,同時也低估了CT檢查的臨床價值,研究表明,利用人工智能的方法,深度挖掘圖像中的信息,對腫瘤進行多方面的分析及預測,可為臨床提供更多、更全面、更深層度的信息。同時,CT檢查的廣泛使用也為其與人工智能方法的結合提供基礎和可行性[1-2]。隨機森林(Random Forest,RF)算法由Breima[3]提出,是一種基于多個決策樹(Classification and Regression Tree,CART)的集成學習算法。RF算法包含若干棵決策樹,且每棵決策樹都是獨立的,因此RF算法對訓練集的過度擬合問題表現不敏感,且具有較好的抗噪能力和魯棒性,如對缺省值不敏感[3-4]。RF算法訓練速度快、決策機制簡單易行,而且對數據集的適應能力強,因此被廣泛應用于各個領域[5]。研究表明,RF算法用于評估多種臨床疾病的預后、疾病進程及基因突變表達等方面具有較好的表現力[6-10]。已有應用RF算法探測檢出肺癌、肺結節良惡性的分類、肺癌預后的分析等方面的報道[11-13]。本文旨在通過結合影像組學提取特征,應用RF算法構建分類模型,對腺癌、鱗癌和小細胞肺癌進行分類鑒別并評估分類模型的預測能力。
本研究回顧性納入2013年1月至2018年8月在復旦大學附屬中山醫院經病理確診的920例原發性肺癌患者作為研究對象。納入標準:① 經穿刺或手術標本確診為肺腺癌、鱗狀細胞癌及小細胞肺癌3種原發性肺癌;② 在治療前及術前2周內進行CT檢查。排除標準:① 患者術前接受化療、放療等其他治療手段;② 腫塊邊界在CT圖像上難以清晰辨認,如中央型肺癌與腫大淋巴結相融合、腫塊與肺不張邊界難以分辨以及大量胸腔積液等;③ CT檢查圖像質量不合格或圖像缺失的病例,如有較重的運動偽影;④ 同時有≥2種病理類型肺癌;⑤ 腫瘤病灶直徑小于1 cm的患者。最終,納入研究的病例總數為852例,其中肺腺癌525例、肺鱗癌161例、小細胞肺癌166例。
所有患者均在術前或穿刺前2周內實施CT檢查,吸氣末屏氣下掃描,掃描的范圍從胸廓入口到膈面。上海聯影公司生產的128層螺旋CT(uCT760)掃描參數:管電壓120 kV,管電流130 mAs,螺距1.08,層厚1 mm。GE公司生產的64層螺旋CT掃描參數:管電壓120~140 kV,管電流140 mAs,螺距1.08,層厚1 mm。
采用軟件 ITK-Snap(版本 3.6.0,www.itksnap.org)[14]在CT圖像上對所有病例的腫瘤病灶的每層圖像進行分割,獲取三維的感興趣區域(Region of Interest,ROI)。分割時盡可能避免勾畫腫瘤鄰近大血管、淋巴結、支氣管以及肺不張。CT圖像格式為DICOM,輸入到ITKSnap進行分割,所得的ROI以.mha格式輸出進行分析。每個病例相對應的病理結果(腺癌、鱗癌、小細胞肺癌)作為分割圖像的標簽。所有的圖像分割工作由2名放射科醫生共同完成,最后由1名高年資的放射醫生對ROI進行復查確認。3種肺癌代表病例分割示意圖如圖1所示。

圖1 3種肺癌代表病例的腫瘤在CT圖像上的分割圖及ROI的三維示意圖
本研究主要采用Python下的pyradiomics庫進行提取影像組學特征。計算原始圖像的特征以及經過小波過濾(以“db2”為小波基)后的圖像的特征,其中包括形狀特征、一階特征、灰度共生矩陣、灰度游程矩陣、鄰域灰度差矩陣、灰度相關矩陣和灰度級帶矩陣等特征。
(1)歸一化操作:首先將每類特征進行歸一化操作,即將數據統一到[0,1]范圍內,之后利用支持向量機(Support Vector Machine,SVM)篩選特征,選擇出僅利用單一特征可以使分類的受試者工作特征(Receiver Operator Characteristic,ROC)曲線及曲線下面積(Area Under Curve,AUC)大于0.5的特征,然后再通過計算特征的方差膨脹系數(Variance Inflation Factor,VIF)來衡量特征的共線性,篩選出VIF≤5的特征,此時,可以認為特征之間沒有共線性問題存在。VIF計算方式如公式(1)所示。
式中,R為負相關系數。
(2)特征篩選:篩選VIF≤5的特征后,再通過空間上統一的相關特征(Spatially Uniform Relevant Features,SURF)算法[15]對特征進行進一步的篩選,最終保留需要的20維特征(表1)。特征篩選流程圖如圖2所示,最后保留的20維組學特征之間的相關性如圖3所示,對肺癌病理類型分類預測的重要分數如圖4所示。

圖2 影像組學特征提取、篩選流程圖

圖3 提取的20維組學特征之間的相關性

圖4 20維組學特征對肺癌病理類型分類診斷的重要分數

表1 篩選的20維影像組學特征
在選擇出需要的特征之后,利用RF算法進行建模,并進行模型擬合,其中一些參數設置如下:決策樹的數目為100,決策樹的最大深度為11,分割內部節點所需要的最小樣本數量為2,需要在葉子結點上的最小樣本數量為4。本研究將所有數據的85%劃分為訓練集,為保證模型的魯棒性,在訓練集數據中采用5折交叉驗證方法(Cross-Validation)進行驗證,最后使用獨立的15%的數據作為測試集。即724例(占85%,腺癌446例、鱗癌137例、小細胞肺癌141例)病例用于訓練分類模型,128例(占15%,腺癌79例、鱗癌24例、小細胞肺癌25例)用于測試評估分類模型診斷效能。訓練集用來進行特征選擇以及模型擬合,測試集僅用以對本研究的分類模型進行驗證。RF算法運行流程如圖5所示。

圖5 RF算法的運行流程及結果示意圖
所有統計分析使用Python 3.8.0(packages:numpy)和SPSS 22.0進行,本研究連續性變量符合正態分布但方差不齊,統計學分析采用Kruskal-WaliisH檢驗。統計指標中分類型變量的分析采用Fisherχ2精確檢驗。采用準確性(Accuracy)、ROC及AUC,計算精確率[真陽/(真陽+假陽)]、召回率[真陽/(真陽+假陰)]和特異性[真陰/(真陰+假陽)]來衡量和評價2種分類模型的預測能力,以P<0.05為差異有統計學意義。由于分析數據的不均勻性,本研究還采用F1值(F1-score)[2×(精確率×召回率)/(精確率+召回率)]來評價分類模型的效能。
所有納入患者的臨床病理基本信息如表2所示,本研究最終納入852例原發性肺癌患者(平均年齡61.4歲,年齡范圍29~87歲;女性316例、男性536例),其中包括525例腺癌、161例鱗癌和166例小細胞肺癌,見表2。其中,3種肺癌的年齡、性別和原發性肺癌的TMN分期的差異均具有統計學意義(P<0.05)。所有納入病例按照17∶3的比例分為2組,其中訓練組724例、測試組128例(表3)。
表2 納入病例的臨床病理資料[n,(±s)]

表2 納入病例的臨床病理資料[n,(±s)]
資料 腺癌(n=525)鱗癌(n=161)小細胞肺癌(n=166)χ2/F值 P值性別 149.23<0.001男247 148 141女278 13 25年齡/歲 60.4±10.5 64.0±8.1 62.1±9.5 5.82 0.027 TNM分期 110.55<0.001Ⅰ139 56 12Ⅱ70 41 19Ⅲ91 47 57Ⅳ225 17 78

表3 3種肺癌在訓練組和測試組的分布情況(例)
在RF分類模型,本研究從平掃CT圖像中提取和經過特征篩選程序后,最后保留20維紋理特征(表1)。在篩選的20維特征中,包括7個一階特征、3個灰度級帶矩陣的特征、2個灰度游程矩陣的特征、4個灰度相關矩陣的特征和4個鄰域灰度差矩陣的特征。
在RF算法模型中,在訓練組上得到ROC的AUC高達0.99;在測試組中,對腺癌、鱗癌和小細胞肺癌的分類診斷的AUC分別為0.74、0.77、0.88;3種肺癌分類診斷的平均AUC為0.80,95%CI:0.769~0.813。RF分類模型對腺癌、鱗癌及小細胞肺癌分類預測的F1值分別是0.80、0.40、0.73,F1加權平均值為0.71。其中,對腺癌、鱗癌、小細胞肺癌分類預測的精確率分別為0.76、0.64、0.70;特異性分別為0.55、0.96、0.92;召回率(即靈敏度)分別為0.86、0.29、0.76。模型的ROC曲線如圖6所示,分類結果預測匯總如表4所示。

圖6 RF分類模型的ROC曲線

表4 RF模型中3類肺癌的分類預測結果評估
原發性肺癌病理類型分類診斷對患者的治療方案的決定、個體化治療以及預后的評估有重要的意義和臨床價值[2,16-17]。本研究應用影像組學和RF算法,結合CT圖像對肺癌進行無創性的、術前的病理類型分類預測。利用影像組學提取、篩選組學特征,并構建RF算法分類模型,將最終篩選保留的20維組學特征輸入分類模型中進行訓練、驗證,評估模型對腺癌、鱗癌、小細胞肺癌分類的效能。采用重采樣的方法,形成多個基分類器的輸入樣本集,然后對基分類器進行5折交叉驗證訓練,充分體現每個基分類器對樣本的分類預測能力。
本研究結果顯示,RF算法在訓練集中能準確地對3種肺癌病理類型進行分類診斷(AUC=0.99),在測試集中能對不同類型肺癌分類進行較好的預測(AUC=0.80)。其中,RF算法分類模型對小細胞肺癌(AUC=0.88)的分類預測能力比對腺癌(AUC=0.74)和鱗狀細胞癌(AUC=0.77)的分類預測表現更好。本研究中,RF算法分類模型對鱗狀細胞癌的正確識別率較低(精確率0.64,召回率0.29),對腺癌和小細胞肺癌的正確識別率較好,且模型傾向于將鱗狀細胞癌識別為腺癌,這也導致對腺癌識別的特異性較低(特異性0.55)。分析可能的原因有以下幾點:① 鱗狀細胞癌的納入分析數量較少,腺癌的數量遠遠多于鱗狀細胞癌;② 本研究納入分析的鱗狀細胞癌病例大部分為中央型肺癌,在CT圖像上腫瘤邊界較難分辨,從而影響ROI的分割。以上原因均可能導致對腺癌識別的特異性較低,而對鱗癌識別的召回率較低,這也是之后模型優化的重點。當然,關于RF模型趨向于將鱗癌識別成腺癌的原因值得進一步探究和驗證。此外,在本研究中,經過篩選流程后保留的20維特征與之前影像組學構建模型(com_radNet模型)研究保留的特征不同,結果顯示,利用本次保留的20維組學特征進行分類分析,提升了對小細胞肺癌的分類預測能力。RF算法分類模型簡單易行,且表現能力較好。
此前,已有大量研究證明,RF算法模型在CT及PET/CT圖像上能對肺結節良惡性的分類有較好的分類能力[13,18-21]。另有研究針對小樣本的數據,利用加權的RF模型對肺結節良惡性的鑒別,相較于傳統RF分類能力有所提升,但仍處于較差的分類能力(AUC=0.61)[19]。Zhu等[21]利用影像組學方法篩選了5維特征對129例非小細胞肺癌中的腺癌、鱗癌進行分類,結果顯示,驗證組中AUC為0.89,特異性為0.90,敏感度為0.83。Liu等[22]利用影像組學和SVM對349例多種非小細胞肺癌的病理分類鑒別,除鱗癌、腺癌外,還包括大細胞癌及未分類型,在驗證組中分類診斷的F1值和準確性均為0.86。本研究不僅極大地擴充了研究的數據量,而且還對小細胞肺癌和非小細胞肺癌進行了分類預測,模型分類診斷的效能也得到了明顯的提升。Linning等[23]利用影像組學的方法對小細胞肺癌和非小細胞肺癌進行分類診斷,結果顯示,平掃CT圖像上對腺癌和小細胞肺癌(AUC=0.86)、腺癌和鱗狀細胞癌(AUC=0.80)之間能進行較好地區分,在增強CT圖像上分類能力比平掃圖像更好,但無論是增強還是平掃CT圖像,均不能有效地對鱗狀細胞癌和小細胞肺癌進行區分(AUC=0.62~0.66)。本研究中,分類模型能很好地識別區分小細胞肺癌,極大地提升了對小細胞肺癌的分類診斷能力。
本研究存在以下不足:① 數據量的不平衡,腺癌的納入分析數量遠超過鱗狀細胞癌和小細胞肺癌,這可能會導致對分類診斷結果產生影響,在臨床上腺癌的發病率高于鱗狀細胞癌和小細胞肺癌,這是造成數據量不平衡最大的原因;② 研究數據采用的是CT平掃圖像,在對圖像進行處理時,盡管已盡可能將腫瘤邊界模糊或邊界難以與肺血管、肺不張區分開的病例排除在外,但也不能完全排除存在非腫瘤組織對分類結果干擾的可能;③ 本研究的數據量相對于大數據分析來說尚不充足,且數據來源單一,這可能會限制模型的擴展和適用性。未來需進行基于更大數據量的多中心研究。
原發性肺癌無創性的病理類型分類診斷方法具有極大的臨床價值和意義,本研究利用影像組學特征和RF算法分類模型能夠有效地鑒別區分肺腺癌、鱗狀細胞癌和小細胞肺癌,但模型傾向于將鱗狀細胞癌識別為腺癌。利用影像組學特征和RF算法與CT圖像相結合,對肺癌進行分類診斷和預測可能在臨床中得到應用,為肺癌患者的診治提供重要信息。