陶雪敏,方瑞,金鑫,羅春材,余石林,胡飛,王方,趙紹宏
1.中國人民解放軍總醫院第一醫學中心 放射診斷科,北京 100853;2.北京青燕祥云科技有限公司,北京 100043
隨著低劑量CT的普及和肺癌篩查人群的日益增加,越來越多的肺結節被檢出,而亞實性的肺結節常與肺癌相關,尤其是目前發病率最高的肺腺癌[1]。亞實性肺結節包括不含實性成分的純磨玻璃密度結節和伴有實性成分的混合磨玻璃密度結節[2]。既往研究[3-4]表明,長期存在(存在時間≥3個月[5])的亞實性肺結節多為浸潤性肺腺癌或其癌前病變。盡管如此,與實性肺結節相比,亞實性肺結節的生長較為緩慢,呈一個惰性的生長方式[6]。正因為如此,當前臨床對亞實性肺結節的處理和隨訪尚存在爭議,尤其是實性成分<5 mm的混合磨玻璃密度結節以及不含實性成分的純磨玻璃密度結節[7-8]。Fleischner學會[2]指出,倍增時間是腫瘤體積或細胞數增加一倍的時間,它在腫瘤的定性中具有相當重要的意義,是鑒別結節良惡性的重要指標。據報道,三維的體積比二維的直徑更能反映亞實性結節的真實生長[9-10]。
影像組學的概念在2012年由Lambin等[11]首次提出,即從放射影像的圖像中高通量地提取大量的影像特征。2017年Lambin等[12]進一步提出,影像組學是一種高通量的圖像定量特征數據挖掘技術,可以搭建起醫學影像與精準醫療之間的橋梁,應用于臨床決策體系。近年來,影像組學作為人工智能的一個重要分支,在肺癌的精準診治中發揮了重要的作用,例如肺癌的診斷、病理分型以及鑒別診斷等[13]。因此,本研究的目的是嘗試通過影像組學方法,預測長期存在的亞實性肺結節的體積倍增時間,進而分析其在隨訪中的價值,以提出合理的隨訪計劃。
收集我院從2013年5月至2018年12月胸部螺旋CT掃描初次檢查時發現亞實性肺結節且首次復查時間間隔12個月以上,隨機選取患者45例作為訓練集數據,其中男15例,女30例,年齡28~81歲;19例患者為單發的結節,26例患者為多發結節,共納入結節116對;結節前后兩次檢查間隔時間中位數為13個月(范圍:4~99個月)。另隨機選取27例患者作為測試集數據,其中男8例,女19例,年齡范圍31~80歲;其中12例患者為單發結節,15例患者為多發結節,共納入結節55個。
采用美國Philips Brilliance 256 iCT或Siemens Cardiac 64排螺旋CT掃描儀。患者取仰臥位,雙臂上舉,頭先進,均在吸氣末屏氣后掃描。掃描范圍包括從肺尖至膈下3 cm。掃描參數:管電壓120 kVp,自動管電流調整技術,薄層重建層厚1 mm;肺窗窗寬1600 HU,窗位-600 HU;縱隔窗窗寬400 HU,窗位40 HU。復查時與首次掃描條件一致。
病灶感興趣區域(Region of Interest,ROI)的精準劃分對影像特征的提取以及統計學分析有著關鍵性的作用。為了減少手動勾畫ROI區域造成的人為誤差(包括同一標注人員前后兩次勾畫造成的組內誤差以及不同勾畫人員勾畫造成的組間誤差)以及病灶邊緣信息的遺漏。本次研究采用PereDoc醫療影像標注系統(http://imgant.peredoc.com/)的半自動ROI勾畫方式進行病灶分割。半自動勾畫ROI是指由2位醫生大致逐層勾畫出結節的外邊緣,再用自適應閾值分割[14]以達到更精準的病灶分割,分割結果由一名高年資醫生審核。
通過算法對訓練集前后兩次CT檢查上的同一亞實性結節進行匹配,再由一位醫生和一位工程師核對結節是否匹配正確。有兩次檢查的患者共40例,有3次檢查的患者共5例,其中19例患者為單發結節,13例患者為2個結節,6例患者有3個結節,5例患者有4個結節,1例患者有5個結節,1例患者有6個結節;其中有3次檢查的5例患者,前后檢查匹配的次數為3次,分別是第1次和第2次檢查,第2次和第3次檢查,第1次和第3次檢查。116對結節前后兩次匹配均正確。
由北京青燕祥云公司團隊自行編程,從分割后的病灶中進行特征提取。特征提取參照ISBI標準[15]。通過對病灶變化的觀察以及對結節生長速率影響因素的了解,自行編程進行影像組學特征的提取,其中下述影像組學特征的計算方法均可在ISBI中查看。以下為提取的影像組學特征及注釋,提取了6類共46個影像組學特征[16],具體特征如表1所示。
由于患者的隨訪間隔時間不等,原因在于不同的醫生隨訪建議不同以及患者的依從性不一致等,因此將亞實性結節倍增時間的預測轉化為增長速率的預測。結節增長率計算方式[17]見式(1)。
其中,y表示增長率,V1、T1代表第一次所測的體積及檢查時間,V2、T2為第二次所測的體積及檢查時間,T2-T1代表兩次檢查的時間差(以月計算)。
亞實性結節增長速率的分布散點圖如圖1所示。因此,結節的體積倍增時間,即當V2=2V1時,T2-T1即Δt的計算方式可以轉化為Δt=1/GR。

圖1 亞實性結節的生長速率散點圖
特征選擇的任務是從一組數量為D的特征中選擇一組數量為d(D>d)的一組最優特征[18],并且過濾掉噪音數據,LASSO[19]是一種基于一范式的特征選擇方法。與已有的特征選擇方法相比較,LASSO不僅能夠準確地選擇出與類標簽強相關的變量,同時還具有特征選擇的穩定性[20]。因此本研究利用LASSO回歸進行特征篩選。首先將所有影像組學特征歸一化,歸一化的方法,見式(2):

其中,z為歸一化的特征參數,μ為影像特征x的平均值,σ為影像組學特征的標準差。
LASSO回歸的損失函數表示為如式(3):

其中,y表示增長速率,βj為歸一化后的特征z的系數,λ為正則項參數。
LASSO回歸特征篩選后,非零系數的變量作為模型輸入變量。為了得到合適的正則項參數λ,使用k-fold交叉驗證法來調節正則項參數λ,每調節一次參數,將系數不為零的自變量作為所選特征,利用k-fold(k=5)交叉驗證法得到k次回歸的均方根誤差,計算k次交叉驗證均方根誤差的平均值,均方根誤差用rmse表示,均方根誤差常用來作為機器學習模型預測結果衡量的標準[21-22],rmse計算公式如式(4):

其中,n表示樣本個數,h(xi)表示模型輸出,y表示標簽,即結節增長的真實時間。
利用Python 3.8.1軟件進行統計學分析。通過LASSO篩選特征,從總的影像組學特征中篩選出對結節增長貢獻最大的特征,將篩選出的特征作為自變量,利用多重線性回歸構建預測模型。
先由2位醫生如圖2所示逐層大致勾畫出結節的外邊緣(同層面的病灶約占ROI的2/3,正常肺組織約占ROI的1/3),不含血管結構,若有血管穿過病灶,則該血管當作病灶內的一部分處理,然后對手動勾畫的ROI采用自適應閾值分割達到更高的分割結果如圖3所示。

圖2 手動逐層勾畫ROI

圖3 自適應閾值分割
LASSO回歸對46個影像組學特征以及2個臨床特征(患者的年齡、性別)進行篩選,當增大正則項參數時,正則項的懲罰力度加大,部分自變量的LASSO回歸系數變為零,則可以篩選出非零系數的特征作為模型的輸入變量。如圖4所示,當λ為0.086時,均方根誤差下降到最低點,此時篩選出5個特征,分別是病人的年齡(Patient Age)、GLCM的熵(GLCM entropy)、GLSZM的小區域強調(GLSZM small area emphasis)、形態學特征的分形維數(Fractal Dimension)和致密度 2(Compactness2)。

圖4 基于LASSO回歸及k-fold交叉驗證篩選的特征
基于LASSO回歸以及k-fold交叉驗證,篩選出5個特征及其系數,分別為Patient Age、GLCM entropy、GLSZM small area emphasis、Fractal Dimension 和 Compactness 2。在使用k-fold(k=5)交叉驗證法選擇特征時,篩選出的5個特征在均方根誤差最小時的系數分別為0.024、0.010、-0.029、-0.013和0.018,此時的均方根誤差為0.036。由于本次入組患者前后兩次檢查時間間隔不定(中位數13個月,范圍4~99個月),因此通過預測結節的增長速率來間接預測結節的倍增時間。進行特征篩選與模型建立時,用式(2)對所有特征進行歸一化。利用多重線性回歸建立預測亞實性結節的增長速率模型前,將所有特征進行歸一化處理,篩選出的5個特征歸一化需要的平均值和標準差如表2所示。

表2 特征歸一化所需的平均值與標準差
將年齡及4種影像組學特征根據表2中的數據結果,經過歸一化后分別代入式(5)即可預測出結節增長速率,從而求得倍增時間。測試集驗證結果如表3所示。

表3 影像組學特征預測倍增速率部分結果展示

在我們的研究中,找到了影響長期存在亞實性肺結節生長的影像組學特征和臨床特征,影像組學特征分別為GLCM entropy、GLSZM small area emphasis、Fractal Dimension、Compactness2,臨床特征為患者的年齡。利用得到的這些特征計算亞實性結節的生長速率,并構建了亞實性結節倍增時間的預測模型。在驗證集中,通過與亞實性結節的真實平均生長速率(0.041 mm3/月)相比較,預測生長速率為0.038 mm3/月,略小于亞實性結節的實際增長速率。因此,本研究基本實現了基于影像組學對亞實性肺結節生長速率預測,從而估計亞實性肺結節的倍增時間。基于此研究,我們可以通過患者初次的CT檢查,預測其倍增時間,以此作為一個重要的參照,給出長期存在亞實性肺結節的隨訪建議。
既往的研究[23-24]通過公式VDT=[log2×T]/[log(Vfinal/Vinitial)]計算肺結節的倍增時間,繼而鑒別難以定性的肺結節良惡性。該方法的主要缺點是需要兩次CT檢查才能確定結節的倍增時間,增加患者的輻射暴露與心理負擔。本研究利用影像組學技術,嘗試找到通過一次CT檢查就能預測結節倍增時間的方法,人類肉眼很難做到這一點,當然其結果的可靠性還需要更多前瞻性的臨床驗證。
既往國內外研究報道良性肺結節倍增時間都長于惡性肺結節,周科峰等[23]的研究報道炎性肺結節的倍增時間非常短(小于30 d)或良性肺結節的倍增時間相當長(180 d以上),而惡性肺結節的倍增時間由于病理類型不同,平均倍增時間在35~136 d。齊琳琳等[24]研究發現浸潤性肺腺癌的倍增時間明顯短于微浸潤性肺腺癌、原位腺癌、不典型腺瘤樣增生,且當純磨玻璃肺結節的體積倍增時間<2095.86 d時,提示其病理類型為浸潤性腺癌的可能性大。Qi等[25]認為在初次CT檢查時,純磨玻璃密度的肺結節的體積可以預測結節的增長。本研究創新性的采用影像組學方法,通過首次的CT檢查圖像,找出了影響亞實性肺結節增長的影像組學及臨床特征,成功構建了預測亞實性肺結節生長速率的模型,并取得了一定的效果。
既往影像組學用于肺結節的研究時多基于肺結節的分類。梁偉等[26]通過構建獨特的影像組學特征,小細胞肺癌與非小細胞肺癌預測的準確率為75%,可以提供良好的參考價值。Fan等[27]研究發現影像組學特征與傳統的CT形態學表現或平均CT值相比,在術前鑒別磨玻璃結節浸潤性(即浸潤性肺腺癌與非浸潤性病變)時有更高的預測效能。而本研究利用是基于影像組學特征建立亞實性結節倍增時間的預測模型,由于不同結節的倍增時間是完全不同的,且倍增時間是一個連續性的變量,因此不能用分類變量的評價方法,如準確率等,所以我們使用均方根誤差來評價回歸模型[21-22]。本研究的均方根誤差為0.036,同時在測試集中驗證了該模型,效果較好。
本研究不足的地方在于:① 樣本量較少,在后期我們將進一步擴大樣本數量以取得更具魯棒性的預測模型;② 本研究是半自動勾畫病灶 ,較為費時費力,但保證了病灶分割的準確性同時保留了病灶的邊緣性;③ 本研究除性別和年齡外,未納入更多的臨床特征;④ 本研究只納入體積倍增時間,沒有納入質量倍增時間。由于本研究是探索性研究,后期我們會針對以上缺點提出解決方案優化模型。
總之,本研究通過影像組學特征的提取與篩選,找出了影響亞實性肺結節倍增時間的影像組學特征,并成功建立了亞實性肺結節倍增時間的預測模型,對長期存在的亞實性肺結節隨訪周期和隨訪間隔的復查策略提供了重要的量化信息,有助于臨床決策。