李逸凡,駱源,郭麗,梁猛
肺癌是當前我國致死率排名第一的癌癥。與X線胸片相比,低劑量CT檢查可以有效提升肺癌的早期檢出率,從而提高治愈率、降低死亡率[1-2]。在CT檢查中對肺結節的良、惡性進行分類是肺癌早期篩查的重要一環,然而,對肺結節良惡性的準確鑒別仍是目前的難點。常規影像學檢查主要通過分析病變的影像學征象來進行判斷,如鈣化、分葉征和毛刺征等,沒有充分利用圖像數據。影像組學通過對醫學影像圖像進行定量化測量,高通量提取圖像的紋理特征,實現對圖像數據的深入挖掘[3]。當前,影像組學方法已在肺腺癌和肉芽腫的鑒別、肺癌預后預測、基因表型檢測、腺癌侵襲性分型、結節影像學性質、結節良惡性分類等方面得到了廣泛應用[4-11],其可重復性也得到了一定的研究[12]。
肺圖像數據庫聯盟與圖像數據庫資源計劃(Lung Image Database Consortium and Image Database Resource Initiative,LIDC-IDRI)這一公開數據庫是當前全球最大的肺結節影像數據庫[13],有1018份完整的肺部CT掃描數據及注釋文件[14]。國際光學工程學會-美國醫學物理學家協會肺部CT挑戰(Society of Photo-Optical Instrumentation Engineers- American Association of Physicists in Medicine Lung CT Challenge,SPIE-AAPM Lung CT Challenge,簡稱LUNGx)公開數據集是2015年SPIE醫學影像會議的一部分,提供了可用來對比計算機輔助診斷(computer assistant detection,CAD)算法性能的數據庫[15],并標注了肺結節的位置及其良惡性。LIDC-IDRI和LUNGx數據庫中被試信息均經過匿名化處理,且不提供臨床資料。
已經有多項研究使用LIDC-IDRI數據庫并利用影像組學方法來構建肺結節的良惡性分類器,結果均肯定了影像組學特征在肺結節診斷中的價值[16-17]。但是這些研究中分類器的訓練和測試均來自同一數據集,缺少外部驗證集,因此,難以評估其結果的泛化性能及可靠性。本研究結合LIDC-IDRI數據庫(訓練集)和LUNGx數據庫(獨立外部驗證集),利用影像組學紋理信息對肺結節進行定量化表述,建立肺結節良惡性分類模型,旨在進一步探討影像組學紋理特征在肺結節良惡性診斷方面的價值及其泛化能力。
1.肺結節數據
LIDC-IDRI數據庫中肺結節的納入標準為結節直徑為3~30 mm。在所有1018份肺部CT掃描圖像中,共有1372個滿足條件的結節,其中良性1190個、惡性182個。為了與LIDC-IDRI數據庫的標準相匹配,自LUNGx公開數據集中選擇直徑為3~30 mm的肺結節,共納入56個肺結節,包括良性31個、惡性25個。最終納入本研究的肺結節共1428個,以LIDC-IDRI數據庫中獲取的1372個結節作為訓練集,LUNGx數據庫中獲取的56個結節作為驗證集。
2.圖像分割
LIDC-IDRI數據庫中,自每個被試文件夾內的注釋文件中可提取所有4位放射科醫師對于3 mm以上肺結節的分割結果和惡性程度評分,同時被至少2位放射科醫師劃分在結節內的體素將被納入該結節的最終分割范圍。結節的良惡性判定取所有診斷醫師評分的均值,≥4分為惡性,否則為良性。
對于LUNGx數據庫,由一位放射科醫師在注釋文件指定的肺結節坐標處使用3D-slicer軟件輔助繪制功能,逐層手動勾畫ROI,最終獲得完整的3D-ROI以提取影像組學特征[18]。ROI繪制完畢后,由另一位高年資放射科醫師對分割結果進行了檢查,對于有爭議的分割結果在雙方討論后進行了重新繪制。
3.影像組學特征提取
在提取影像組學特征之前,為更好地顯示結節所在灰度范圍區域,將CT圖像設置為肺窗(窗寬1500 HU,窗位-750 HU)。為了減弱體素大小不同帶來的影響,所有結節體素均被重采樣至大小為1 mm×1 mm×1 mm。
本文采用基于Python3.7的軟件包pyradiomics 2.2.0[19],基于每個肺結節的3D-ROI共提取946個影像組學特征,包括:①一階統計學特征18個;②灰度共生矩陣(gray level co-occurrence matrix,GLCM)特征22個;③灰度依賴矩陣(gray level dependence matrix,GLDM)特征14個;④灰度游程矩陣(gray level run length matrix,GLRLM)特征,16個;⑤灰度大小區域矩陣(gray level size zone matrix,GLSZM)特征16個;⑥拉普拉斯高斯(Laplacian of Gaussian,LoG)算子濾波后特征,172個;⑦小波濾波后特征,688個。
4.特征選擇及模型構建
在訓練集中(LIDC-IDRI數據庫),采用嵌套交叉驗證的方法進行特征選擇和模型參數優化,并驗證所得模型在LIDC-IDRI數據庫上的性能。首先,將全部樣本隨機分成互不重疊的10組,每組均由訓練集中良性樣本的10%和惡性樣本的10%構成。之后在每次交叉驗證過程中,將其中9組作為訓練集,余下1組作為測試集,構成嵌套交叉驗證的外循環,使得每組均作為測試集進行一次交叉驗證。
在上述每次交叉驗證過程中,基于9組樣本所構成的訓練集,對所有特征進行組間差異分析(若兩組數據均滿足正態分布,采用雙側獨立樣本t檢驗;否則,采用Wilcox秩和檢驗),對組間比較P<0.05的特征進行列標準化處理,以消除特征間尺度差異的影響,然后使用絕對值收斂和選擇算子(least absolute shrin-kage and selection operator,LASSO)回歸算法或三聯法進行進一步特征選擇[20]。LASSO回歸特征選擇再次采取10折交叉驗證(即嵌套交叉驗證的內循環)方法,選擇能使模型二項誤差在最小值一個標準差范圍內的最簡模型所對應的參數λ,以增強模型的泛化能力[21]。在應用此調整參數后系數非零的特征被保留,用于分類模型構建。三聯法特征選擇分別使用分類錯誤概率聯合平均相關系數、互信息和Fisher相關系數,各自選擇最佳的10個特征,之后將其合并為三聯法選擇的特征?;谶x定特征,利用線性支持向量機(support vector machines,SVM)算法構建肺結節良、惡性分類器,得到每個訓練樣本的概率輸出及分類結果,對模型效能進行評估。以上嵌套交叉檢驗流程重復100次,取均值,以增加結果的穩定性。在調整SVM的參數C后,重復以上嵌套交叉驗證流程以獲取不同參數條件下模型在訓練集上的分類性能。認為當受試者工作特征曲線的曲線下面積(area under curve,AUC)達到最高時的模型參數為最優。
采用上述最優模型參數,再次使用全部訓練集(LIDC-IDRI數據庫)樣本,利用同樣的特征選擇方法確定模型構建所需的特征,重新訓練SVM分類模型,完成最終模型的構建。此外,為評價上述特征選擇方法所選擇出的影像組學特征的判別效能,進一步采取層次聚類算法在驗證集(LUNGx數據庫)中基于上述選擇出的特征對肺結節樣本進行無監督聚類(固定類別數為2),檢驗這些特征是否能夠將良惡性結節正確聚為兩類。
5.模型分類性能評估
以下所有統計學分析及圖形繪制均使用統計軟件包R語言(版本3.6.1)完成。我們對模型在兩個數據庫中的分類性能分別進行了評估。在LIDC-IDRI數據庫(訓練集)中,基于最優參數對應模型所得結果(100次10折交叉驗證結果的均值)對該建模方法在訓練集內部進行效能評估。
在LUNGx數據庫(驗證集)中,首先使用訓練集特征標準化參數對測試集樣本進行特征標準化,并輸入最終構建的分類模型,以得到每個測試樣本的分類結果。
模型分類性能的評估具體采用以下指標:受試者工作特性曲線(ROC)及曲線下面積(AUC)、分類符合率、敏感度、特異度、陽性預測值(positive predictive value,PPV)和陰性預測值(negative predictive value,NPV)。
1.特征選擇結果
在訓練集中進行的嵌套交叉驗證過程中,有811.27±6.21個特征的組間差異具有顯著統計學意義(P<0.05)。進一步經過LASSO算法特征選擇后,共有12.48±2.91個特征被保留;若使用三聯法進行特征選擇,共有29.74±0.05個特征被保留。
在最優模型參數確定后,使用全部訓練集樣本再次進行特征選擇,共820個特征的組間差異具有顯著統計學意義(P<0.05),經LASSO算法最終保留17個特征(圖1)。被保留的特征包括1個GLDM特征,4個LoG特征和12個小波特征;經三聯法特征選擇后保留30個特征,包括1個一階統計學特征,1個GLCM特征,1個GLDM特征,1個GLSZM特征,7個LoG特征和19個小波特征。圖2顯示了利用LASSO算法選擇的特征。對驗證集樣本進行無監督聚類分析,結果顯示所建立的分類模型對良惡性肺結節的聚類正確率為0.686,敏感度為0.640,特異度為0.679,PPV為0.696,NPV為0.679。表明選擇的特征在兩組間具有一定的分類能力。
2.模型評估
在LIDC-IDRI數據庫(訓練集)中進行100次10折交叉檢驗后,對結果進行平均。在使用LASSO算法選擇特征的情況下,得到的AUC為0.892,符合率為0.859,敏感度為0.788,特異度為0.876,PPV為0.492,NPV為0.964;在使用三聯法選擇特征的情況下,得到的AUC為0.888,符合率為0.863,敏感度為0.759,特異度為0.879,PPV為0.491,NPV為0.959。
基于完整訓練集建立的模型,在LUNGx數據庫(驗證集)上驗證時,在使用LASSO特征選擇算法的情況下,AUC為0.765,符合率為0.745,敏感度為0.800,特異度為0.700,PPV為0.689,NPV為0.808;在使用三聯法特征選擇的情況下,AUC為0.737,符合率為0.636,敏感度為0.84,特異度為0.467,PPV為0.568,NPV為0.778。

圖1 通過交叉驗證法選擇LASSO算法的最佳調整參數λ。a)交叉驗證的二項誤差隨logλ的變化曲線,標注為min和1SE的虛線分別代表令二項誤差最小和在最小值的一個標準差(SE)范圍內使模型最簡的logλ值及其對應的特征數量(圖上方數字);b)經LASSO算法保留的特征數量(圖上方數字)及對應的特征系數隨L1范數的變化。 圖2 對LASSO算法選擇的特征在驗證集中使用無監督聚類算法的熱圖,每一列代表一個結節,每一行代表一個特征,顏色代表了該特征在該樣本上的取值大小,熱圖最上方一行的藍色與紅色分別代表該樣本實際為良性或惡性。 圖3 基于LIDC-IDRI數據庫采用LASSO特征選擇算法所構建的最終肺結節分類模型在LUNGx數據庫上的分類性能。a)ROC曲線,曲線下面積為0.765;b)混淆矩陣。
根據以上結果,認為使用LASSO特征選擇算法產生的模型為最優模型,模型的參數及其系數見表1,其ROC曲線及對應的混淆矩陣見圖3,對于部分肺結節的診斷結果示例如圖4。

表1 肺結節分類模型中各項紋理特征的系數
我們使用LIDC-IDRI數據庫的肺結節數據,基于影像組學信息構建了一個肺結節良惡性分類器,并在LUNGx獨立數據庫上進行了驗證。結果表明,通過高通量地提取CT圖像的影像組學信息,影像組學方法可以作為一種無創性工具來獲取肺結節的內部紋理特性,輔助肺結節的診斷。
LIDC-IDRI數據庫是一個數據量龐大的多中心肺結節公開數據集,帶有經驗豐富的放射科醫師對圖像的注釋,有效促進了肺結節檢測和分類方法的發展。該數據庫被許多研究廣泛使用,并已驗證了其數據的可靠性[16,17,22]。同時,使用統一的數據集有助于各種CAD模型之間的比較,提升了模型的可信度。但在使用單一數據來源的情況下,模型依舊可能存在過擬合(即使該數據庫本身是多中心的),導致產生過高的性能表現而不能被正確評估。因此,有必要利用不同來源的獨立外部驗證集對機器學習模型的泛化性能進行測試。LUNGx數據庫是2015年SPIE醫學影像會議對良惡性肺結節診斷挑戰使用的數據集,可用來驗證模型泛化性能。
Balagurunathan等[23]發現,基于非形態學特征的影像組學紋理特征在預測肺結節癌癥狀態時表現出了更好的辨別能力,其AUC為0.83。有研究利用11個影像組學特征構建的分類器的敏感度為0.922,特異度為0.810,驗證了影像組學對肺部實性小結節的診斷效能[24]。也有研究者利用LIDC-IDRI數據庫中593例結節所構建的影像組學分類模型,判別肺結節良、惡性的符合率為0.761,敏感度為0.746,特異度為0.789[16]。此外,Choi等[17]利用LIDC-IDRI數據庫中的72例肺結節構建的影像組學良惡性分類模型符合率為0.846,AUC為0.89,且效能優于傳統的肺影像報告和數據系統(lung imaging reporting and data system,Lung-RADS)分級方法。這些研究證明了影像組學在肺結節良惡性上的分類性能,但均未采取獨立驗證集,不能驗證影像組學模型的泛化性能。

圖4 基于LIDC-IDRI數據庫采用LASSO特征選擇算法所構建的肺結節分類模型在LUNGx數據庫中的診斷結果。a)誤診為良性的惡性肺結節;b)正確診斷的惡性肺結節;c)正確診斷的良性肺結節;d)誤診為惡性的良性肺結節。
本研究中使用LIDC-IDRI數據庫的1372例肺結節的影像資料建立的最佳影像組學分類器(即使用LASSO算法進行特征選擇所構建的分類器)在LIDC-IDRI數據庫內部驗證時的AUC為0.892,符合率為0.859,敏感度為0.788,特異度為0.876,性能與之前的研究相類似。而利用LIDC-IDRI數據庫構建的分類器在獨立驗證集LUNGx數據庫上得到的符合率為0.745,敏感度為0.800,特異度為0.700,雖然性能相較于在LIDC-IDRI數據庫內部驗證時有一定的下降,但表現依舊良好,表明影像組學方法在LIDC-IDRI數據庫上建立的分類模型具有一定的泛化性能。同時,利用LASSO算法和三聯法作為特征選擇算法構建的分類器均有較強的分類能力,表明了影像組學特征的可靠性和穩定性。這提示我們影像組學方法在肺結節良惡性分類上具有一定的判別能力,可進一步探索將其應用于臨床輔助診斷。
本研究存在一定的局限性:①為回顧性研究,后續研究需前瞻性搜集病例的數據以進一步驗證結果;②未考慮臨床常見的影像學征象的分類價值,后續研究可考慮結合影像組學方法和臨床影像學征象,以觀察其能否進一步提升模型的診斷性能。③本研究中為手動勾畫結節邊緣,后續研究中考慮使用自動化算法來降低個人經驗對于影像組學特征提取的影響。
綜上所述,CT影像組學紋理特征在肺結節良惡性分型上有一定的應用價值和泛化能力,是一種可輔助臨床診斷的定量分析方法。