方勝儒,李逸凡,張宇威,蔡 娜,郭 麗
(天津醫科大學醫學影像學院,天津 300203)
肺癌是當今世界最常見的惡性腫瘤之一,也是對人類威脅最大的腫瘤性疾病。如果在腫瘤的早期生長階段即對其進行檢查與治療,就能獲得更高的治愈率。因此為提高肺癌病人的生存率,早期篩查成為近年來的熱點。在精準醫療的大背景下,放射組學(Radiomics)應運而生。利用多學科的知識對醫學影像數據進行分析,應用大量的人工智能提出的數據特征化算法將感興趣區域的影像數據轉化為具有高維度的可發掘的特征空間數據。通過機器學習等高級數據挖掘算法進行大數據處理,對大量的影像數據進行數字化定量定性分析,得到分類模型來綜合評價腫瘤的各種分期分型,以達到早期診斷、指導治療和預測預后的目的[1-3]。
目前,國內外已有很多研究學者對肺部腫瘤進行分析,通過特征提取的方法來進行專家系統的肺部腫瘤的影像診斷,并已有專家能夠提取出肺部腫瘤的相關特征信息,為腫瘤診斷提供數據[4-6]。在特征提取階段,通過數學描述提供肺部病變區域的特征,包括大小、形狀、紋理、強度、邊緣和其他方面的特征。Gillies在放射組學研究上取得了重要的成果[7-10]。Gillies研究組提取了更多的特性信息,包括肺結節以及病變周圍肺組織形成的微環境的大小、灰度值、形狀、邊緣和紋理(灰度共生、游程長度、小波、Law’s特征等)。同樣提取了特征的2D和3D數據,并提供了可重復性的測試數據,得出了這些特征對預測惡性腫瘤,疾病進程指標和基因具有相關性的結論[11]。由于紋理特征是細微的特征,在研究過程中是否考慮到采集設備硬件以及圖像重建方法,對放射組學紋理特征分析結果有變異的影響。
為臨床肺癌診斷技術提供具有參考價值的數據采集工作流程。Kalpathy-Cramer給出了相關特征介紹,并分析了定量圖像特征對腫瘤分割的敏感性以及通過不同特征提取方法計算特征之間的相關性。通過對不同病人之間的類似特征研究其相關性,并對所有病人不相關特征之間相關性的研究,得出了每個獨立的特征有很多具有較高的相關性和相同性的結論。目前已經找出了特征內部和特征之間的相應關系,同時也發現了很多特征有一定的相關性,出現冗余特征的情況。
1.1 資料 本研究所使用的數據來自兩個部分,一個是美國國家癌癥研究所(National Cancer Institute,NCI)發起的大型公開數據集—肺部圖像影像數據庫(The LungImage Database Consortium,LIDC),包含從7個學術中心和8家醫學影像公司采集到的1 018例患者的肺部CT掃描成像結果(掃描層厚1.25~3 mm,512×512 像素)[12-13]。筆者從中挑選 224例含有分析結果的數據;另一個是由從醫院CT檢查發現的肺部掃描的數據250例。所有的肺部病例的提取分割分析分析都是使用基于matlab2017b進行的,具體肺結節分割,肺結節感興趣區域提取,所有的特征信息提取,均使用matlab程序函數編寫。
1.2 方法
1.2.1 ROI區域的提取 本實驗用到LIDC數據集,這個數據集中每個CT掃描都有4位放射科醫生讀片評注,醫生同時也標注了肺結節輪廓的坐標點,該部分的肺結節分割使用數據庫自帶的分割數據進行分析。醫院的數據是經過3名專業的放射科主治醫師的篩選分析的分割結果,在提取ROI區域進行紋理分析的時候采用分割內部實質的區域進行分析,對醫生勾畫的區域進行了縮小操作。所有的ROI區域的提取使用matlab2017b實現。在分割的同時也提取肺結節的形狀、大小、邊緣毛刺程等形態學信息。
筆者采用逐結節逐層分割的策略,將分割后的感興趣區整合為一個體積感興趣區(Volume Of Interest,VOI),VOI由每層CT圖像上的感興趣區根據層面次序依次堆疊而成。如圖1所示,圖中有四種顏色的分割結果,筆者以4種顏色全部包含的區域提取ROI,并做處理。提取體積感興趣區并做mask模板為后面提取特征做前期準備。圖2給出了提取的一部分肺結節VOI,mask模板的圖像和對應的信息。

圖1 LIDC數據庫的肺結節分割圖像Fig 1 Segmentation images of lung nodule in LIDC data

圖2 獲取VOI區域的mask模板圖像Fig 2 The mask template images for the VOI region
1.2.2 特征信息的提取 特征提取是放射組學分析的基礎。針對肺結節的特點,筆者設計了5組共62個放射組學特征構成每個樣本的特征空間,特征提取算法的代碼全部基于Matlab R2017b實現。首先,筆者提取VOI的灰度直方圖的一階統計特征,共14個。此組特征分別對灰度分布、全VOI灰度特點、灰度分布的一致性等特點進行描述。其次,形態學的特征作為前期醫生診斷的重要依據。本組特征描述結節的3D最大長徑、基于像素的體積值、基于表面像素的表面積值、圓度、緊密度等指標、維模型分形維數、相關維數、幾何學測量特征等特征。最后,筆者提取紋理特征,共841個。這一組特征使用灰度共生矩陣(Gray Co-occurrence Matrix,GLCM)算法、灰度游程長矩陣(Gray Level Run-Length Matrix,GLRLM)的方法。其中GLCM特征3D特征247個,和GLRLM特征2D特征55個。這兩個特征都是基于二階統計的特征描述子。肺結節在CT表現上有著肉眼可見的紋理,因此GLCM、GLRLM特征在描述結節內部的紋理特點時有著獨特的優勢。Laws特征482個,Laws紋理特征是一種典型的基于模板卷積的紋理描述特征,測量單個像素和鄰域灰度分布統計分析方法。LoG特征27個。使用高斯濾波將孤立的噪聲點和較小的結構組織濾除,然后利用無方向性的拉普拉斯算子實現。多尺度3D小波分解(Multilevel 3D Wavelet Decomposition at Level) 特征16個。借助正交小波對圖像進行小波分解,得到不同分辨率的一系列圖像。均為三維特征算法,筆者采用對13個方向取均值的方法來處理。
1.2.3 特征降維與分類 對于所有特征進行正態分析和方差齊性分析,通過分析的特征采用雙獨立樣本t檢驗進行降維;其余采用秩和分析進行降維,之后采取Pearson相關系數進一步降維。然后,對不同維度的特征通過支持向量機和隨機森林的分類器在不同的Pearson相關性系數閾值的條件下進行了討論,并根據最佳的Pearson相關系數建立了預測模型。最后,通過10折檢驗選擇最佳模型,并在檢驗集中對其臨床分類效果進行了預測。
對于所有提取到的放射組學特征,我們需要對其進行統計學差異分析。首先,需要分別對于良性數據與惡性數據單獨進行正態性分析。我們對所有的放射組學特征進行了Lilliefors正態檢驗,良性結節與惡性結節的檢驗結果P值(P<0.05)的特征,共發現了57個特征通過正態分布檢驗,再對其進行齊性方差剩余49個特征,在良性結節和惡性結節中30個特征表現出了統計學差異。其余不符合正態分布的放射組學特征需要進行秩和檢驗。對于這57個符合正態分布的放射組學特征的Hrtley方差齊性分析P值(P<0.05)。通過秩和檢驗我們得到了427個特征。綜上,筆者通過統計分析一共獲得了457特征,各個特征的殘留率如表1所示。

表1 特征殘留率Tab 1 Feature residual rates
在對數據進行秩和檢驗與雙獨立樣本t檢驗之后,我們對于篩選出來的數據進行皮爾遜相關系數檢驗以對放射組學特征進行進一步的降維。我們根據由不同的閾值分類得出的放射組學特征進行了50次分類器訓練,并對其準確度進行了分析。由此筆者選取了0.14為皮爾遜相關系數的閾值以篩選在良惡性肺結節中相關性極弱的放射組學特征。
筆者將以上的放射組學特征又區分為二維放射組學特征和三維放射組學特征。其中二維放射組學特征包括了一維放射組學特征、基本形狀大小特征、二維灰度游程矩陣(GLRL-2D)、Laws圖像紋理特征(Law-Textures)、LoG二階邊緣信息特征;三維放射組學特征包括了三維灰度共生矩陣、三維灰度區域大小矩陣(GLSZM-3D)、多尺度三維小波特征;而這些特征合稱混合放射組學特征。我們通過二維放射組學特征、三維放射組學特征、混合放射組學特征對于基于隨機森林的肺結節良惡性分類器進行了分析。如圖3所示,在3種特征分析中混合特征的識別精度要比其他兩個高。
同樣還分析了不同數據庫利用混合特征進行分類的結果討論。繪制了對于LIDC數據的基于支持向量機的肺結節良惡性分類器和基于隨機森林的肺結節良惡性分類器的處理結果,以及腫瘤醫院數據的基于支持向量機的肺結節良惡性分類器和基于隨機森林的肺結節良惡性分類器的處理結果的ROC曲線圖(圖4)。
圖4中,來自LIDC數據庫的數據的基于隨機森林的肺結節良惡性分類器的,其中AUC(Area Under Curve)被定義為 ROC(Receiver Operating Characteristic)曲線下的面積,ACC(Accuracy)為準確率。AUC=0.6571、ACC=76.26%,基于支持向量機的肺結節良惡性分類器的AUC=0.642 9、ACC=76.37%;來自腫瘤醫院的數據的基于隨機森林的肺結節良惡性分類器的AUC=0.866 7、ACC=76%,基于支持向量機的肺結節良惡性分類器的AUC=0.773 3、ACC=72%。由此可以發現,來自LIDC數據庫的數據其分類準確度較高但是其AUC較低,而來自腫瘤醫院的數據則正好與之相反。根據反復試驗的數據證明,來自LIDC的數據準確度相比于來自與腫瘤醫院的數據的準確度高約3%。由此我們推測不同來源的肺結節數據對于分類器的建立有一定的影響。

圖3 基于隨機森林中三種特征分類的ROC曲線Fig 3 ROC curve based on three feature in random forest

圖4 腫瘤醫院數據與LIDC數據庫ROC比較Fig 4 Comparison of hospital data with ROC of LIDC database
筆者分析二維、三維和混合特征的放射組學信息特征的差異,采用SVM和隨機森林兩種分類方法的差異。從結果中得出混合放射組學特征的分類準確度相對于二維放射組學特征的分類準確度略微有一定優勢,且這兩者對于肺結節的良惡性區分能力高于三維放射組學特征的分類準確度。混合放射組學特征的數量大于三維放射組學特征,而三維放射組學特征數量也大于二維放射組學特征。總體上,混合數據特征仍優于二維特征和三維特征。所以在今后的處理過程中,我們需要發現更適合病例的特征進行分析,會大大提高分類的準確度。
基于隨機森林的肺結節良惡性分類器中相比于基于SVM的肺結節良惡性分類器而言,其在兩者共同的最優閾值 (Pearson correlation coefficient=0.14)處具有更高的分類準確度,且在總體表現上也優于后者。在最優閾值之前,兩類分類器在相同的放射組學特征數量時分類能力互有高低,但是在最優閾值處以及之后,在相同的放射組學特征數量的情況之下,基于隨機森林的肺結節良惡性分類器的分類準確度明顯優于基于支持向量機的肺結節良惡性分類器。根據ROC曲線所示,基于支持向量機的肺結節良惡性分類器曲線下面積(AUC=0.866 7),而基于隨機森林的肺結節良惡性分類器曲線下面積(AUC=0.773 3)。由此結果顯示,基于隨機森林的肺結節良惡性分類器相對于基于支持向量機的肺結節良惡性分類器具有更好的分類效果。